\n und \t ersetzen

Twilo · Mittwoch 19. Mai 2010, 18:07

Hallo,

ich habe eine Liste mit Zeichen, die durch Nichts ersetzt werden sollen

replace_list = cp.get(section, "replace")
# replace_list = \t, ,\n,\r,\r\n

replace_list = replace_list.split(",")
#replace_list = ['\\t', ' ', '\\n', '\\r', '\\r\\n']

s = "                   " # string mit \n und \t
for r in replace_list:
    s = s.replace(r, "")

Warum werden \n und \t nicht ersetzt?

Wie kann ich diese Zeichen ersetzen?

mfg
Twilo

Dauerbaustelle · Mittwoch 19. Mai 2010, 18:12

In deiner `replace_list` steht ["\\n", ...]. Das stellt keinen Zeilenumbruch (\n) dar, sondern "Backslash + n" (\\n).

Twilo · Mittwoch 19. Mai 2010, 18:26

Hallo,

gibt es eine Möglichkeit, dass \+n als \n interpretiert wird?
Oder kann ich den ConfigParser irgendwie sagen, dass er aus \+n ein \n macht?

mfg
Twilo

b.esser-wisser · Mittwoch 19. Mai 2010, 18:29

Code: Alles auswählen

print r"komischer\nstring\nhier".decode("string-escape")

(Nur in python 2.x)

Dauerbaustelle · Mittwoch 19. Mai 2010, 18:35

Er meinte es andersrum, glaube ich. `string.replace("\\n", "\n")`.

b.esser-wisser · Mittwoch 19. Mai 2010, 18:41

@Dauersbaustelle:
Meinst du mich? Da ist ein Raw-String im Code-beispiel, lass dich nicht vom Highlighting verarschen

Twilo · Mittwoch 19. Mai 2010, 18:58

Hallo,

in einer config.ini steht folgendes

Code: Alles auswählen

[section]
...
replace = \t, ,\n,\r,\r\n
...

die Datei config.ini lese ich mit den ConfigParser ein und hole mir den Wert von replace mit get

Bei ein String möchte ich dann alle Vorkommen durch Nichts ersetzen.

D.h. ist bei replace ein \t und \n angegeben und enthält der String diese Zeichen, sollen diese mit "" ersetzt werden.

mfg
Twilo

Twilo · Mittwoch 19. Mai 2010, 20:04

Hallo,

b.esser-wisser hat geschrieben:
Code: Alles auswählen
print r"komischer\nstring\nhier".decode("string-escape")
(Nur in python 2.x)

wie geht das in python3 bzw. python3.1?

mit ".decode("string-escape")" funktioniert das Ersetzen unter python2.6

mfg
Twilo

b.esser-wisser · Mittwoch 19. Mai 2010, 20:19

Funktioniert "unicode-escape" als Argument für str.decode()? -- ich hab kein Python 3 und google spuckt da kaum was nützliches aus (was du wahrscheinich gemerkt hast

).

nomnom · Mittwoch 19. Mai 2010, 20:22

@b.esser-wisser:
In Python 3 gibt es gar kein str.decode()

@Twilo:
Es funktioniert nicht weil es str.decode() in Python 3 nicht gibt.
/edit: Übrigens muss bei Python 3 »print« wie eine Funktion aufgerufen werden.

Beispiel:

Code: Alles auswählen

print("Hallo Welt!")

Twilo · Mittwoch 19. Mai 2010, 20:25

Hallo,

b.esser-wisser hat geschrieben:Funktioniert "unicode-escape" als Argument für str.decode()? -- ich hab kein Python 3 und google spuckt da kaum was nützliches aus (was du wahrscheinich gemerkt hast ).

die Methode "decode" gibt es nicht

Ausgabe von dir()
__add__
__class__
__contains__
__delattr__
__doc__
__eq__
__format__
__ge__
__getattribute__
__getitem__
__getnewargs__
__gt__
__hash__
__init__
__iter__
__le__
__len__
__lt__
__mod__
__mul__
__ne__
__new__
__reduce__
__reduce_ex__
__repr__
__rmod__
__rmul__
__setattr__
__sizeof__
__str__
__subclasshook__
_formatter_field_name_split
_formatter_parser
capitalize
center
count
encode
endswith
expandtabs
find
format
index
isalnum
isalpha
isdecimal
isdigit
isidentifier
islower
isnumeric
isprintable
isspace
istitle
isupper
join
ljust
lower
lstrip
maketrans
partition
replace
rfind
rindex
rjust
rpartition
rsplit
rstrip
split
splitlines
startswith
strip
swapcase
title
translate
upper
zfill

mfg
Twilo

b.esser-wisser · Mittwoch 19. Mai 2010, 20:30

nomnom hat geschrieben:In Python 3 gibt es gar kein str.decode()

Argh, weiß ich doch - ich meinte natürlich bytes.decode()

also, wenn ConfigParser str() zurückliefert weiß ich auch nicht weiter, d.h. mach's von Hand (str.replace, re o.ä.).

sma · Donnerstag 20. Mai 2010, 09:31

Wenn nur `bytes` eine `decode`-Methode hat, muss man halt den String zunächst in ein `bytes`-Objekt verwandeln:

Code: Alles auswählen

s = r"\n\t"
print(len(s)) # 4
s = bytes(s, "ascii", "ignore").decode("unicode-escape")
print(len(s)) # 2

Problem hierbei: Zeichen außerhalb von ASCII überleben das nicht. Man kann ISO_8859_1 statt ASCII als Encoding benutzen und so jedenfalls Umlaute und andere Westeuropäische Sonderzeichen retten, doch leider sehe ich keine Möglichkeit, wie man Zeichen mit einem Codepunkt > 255 sicher da durchschleusen kann. Diese müssten im Vorfeld als `\uXXXX` kodiert worden sein.

Daher würde ich lieber empfehlen, `unicode-escape` zu ignorieren und die beiden Zeichen per Hand zu ersetzen:

Code: Alles auswählen

s = s.replace("\\n", "\n").replace("\\t", "\t")

Stefan