verstehe regulären Ausdruck nicht

mondschein · Freitag 4. Juli 2008, 13:04

Hallo,
kann mir bitte jemand helfen, ich bin mir total unsicher was dieses Reguläre Audruck sucht:
(.*?)
weil wenn ich:

	temp = re.compile('<ref name="(.*?)">(.*?)</ref>', re.DOTALL)

hab, dann findet er auch alles sachen die <ref name="(.*?)"/> sind und die will ich ja grad nciht haben...also mach ich ja irgendwas falsch...

aber ich weiß nicht genau was...

Danke für jeden Tipp
Mondschein

lutz.horn · Freitag 4. Juli 2008, 13:21

mondschein hat geschrieben:
Code: Alles auswählen
	temp = re.compile('<ref name="(.*?)">(.*?)</ref>', re.DOTALL)
hab, dann findet er auch alles sachen die <ref name="(.*?)"/> sind und die will ich ja grad nciht haben.

WORKSFORME

Code: Alles auswählen

import re

temp = re.compile('<ref name="(.*?)">(.*?)</ref>', re.DOTALL)
m = temp.match('<ref name="foo">bar</ref>')
print m.groups() # => ('foo', 'bar')
m = temp.match('<ref name="foo"/>')
print m.groups() # => 
#Traceback (most recent call last):
#  File "<stdin>", line 1, in <module>
#AttributeError: 'NoneType' object has no attribute 'groups'

mondschein · Freitag 4. Juli 2008, 13:24

kannst du mir kurz erklären was das da macht? würd das auch gern verstehen...weil so vom hingucken is mir grad nicht ganz klar warum das foo und bar? also irgendwie schon...weil ich durch die beiden platzhalter die "normelen" <ref> und die >ref/> gruppieren kann...nee?

Danke aber trotzdem schonmal

mondschein · Freitag 4. Juli 2008, 13:26

muss ich die dann nicht anders benennen?überschreibt der des jetzt nicht grad?

mondschein · Freitag 4. Juli 2008, 13:33

hab's jetzt grad ausprobiert, aber da kommt's zu nem fehler:

AttributeError: 'NoneType' object has no attribute 'groups'

martin.py · Freitag 4. Juli 2008, 13:33

hi,

zu (.*?): die Zusammensetzung *? bedeutet bei regular Expressions 'nicht gierig', d.h. es wird das kürzeste Ergebnis ausgegeben. Bsp aus der Ge-Packt Referenz:

>>> findall('<.*?>', '<h1> Meine Homepage </h1>')
['<h1>','<h1>']

die kürzesten Ergebnisse sind hier eben <h1>, ein gieriger Ausdruck (.*) würde das längste Ergebnis ergeben:

>>> findall('<.*>', '<h1> Meine Homepage </h1>')
['<h1> Meine Homepage </h1>']

gruß
[/quote]

audax · Freitag 4. Juli 2008, 13:33

"foo" und "bar" sind einfach nur Platzhalter.

Jedenfalls solltest du zum Parsen von XML/HTML lieber ne ordentliche Bibliothek nehmen. lxml oder BeautifulSoup.

mondschein · Freitag 4. Juli 2008, 13:34

@Martin: ah danke für die Erklärung

lutz.horn · Freitag 4. Juli 2008, 13:37

"re.compile" erzeugt eine "Regular Expression Object", dessen Methode "match", angewandt auf eine String s, ein "Match Object" liefert. Dieses Match-Objekt enthält die mit Klammerpaaren agegebenen Gruppen, sofern der Reguläre Ausdruck auf den String s gepasst hat. Im ersten Beispiel sind die beiden Gruppen die Strings "foo" und "bar". Die Methode "groups" des Match-Objekts liefert diese.

Ersetzt wird im gesamten Code nichts.

Ein Tutorial zu Regulären Ausdrücken findest Du hier: http://www.amk.ca/python/howto/regex/

mondschein · Freitag 4. Juli 2008, 13:38

@audax: das sind aber keine globalen platzhalter oder? kurz zur erklärung:
ich parse kein xml/html ich verbessere eine wiki-extension die wikitext ind latex umwandelt umd aus wikiartikeln pdf's zu generieren. Gerade im Moment bin ich dabei aus den ganzen Wikireferenzen (also Literaturrefernezen im Wikitext) ein Literaturverzeichnis in Latex zu erstellen...

wenn die Inhalt von Foo und Bar also nciht dynamisch sein können, sondern lutz.horn meinte das ich hier in den regulären ausdruck schon reinschreibe was ich suche (was ja nciht geht, weil im artikel mehrere verschiedene Referenezn da sind). Gibt es da noch ne andere Möglichkeit? Oder habe ich irgend etwas falsch verstanden?

Danke für die Geduld
Mondschein

lutz.horn · Freitag 4. Juli 2008, 13:38

mondschein hat geschrieben:hab's jetzt grad ausprobiert, aber da kommt's zu nem fehler:

AttributeError: 'NoneType' object has no attribute 'groups'

Genau, denn '<ref name="foo"/>' passt nicht auf den Regulären Ausdruck. Die Rückgabe von "match" is deswegen None.

mondschein · Freitag 4. Juli 2008, 13:40

also kann ich deine lsg. nciht nehmen, da ich ja nciht weiß was in foo und bar steht...da der inhalt ja wie gesagt immer unterschiedlich is, hab ich jetzt das schon richtig verstanden oder?

mondschein · Freitag 4. Juli 2008, 13:42

deshalb stand ja (.*?) im regulären Ausdruck, aber das liefert ja beide möglichen refs

lutz.horn · Freitag 4. Juli 2008, 13:43

mondschein hat geschrieben:also kann ich deine lsg. nciht nehmen, da ich ja nciht weiß was in foo und bar steht...da der inhalt ja wie gesagt immer unterschiedlich is, hab ich jetzt das schon richtig verstanden oder?

Nein, das has Du nicht richtig verstanden.

Deine ursprüngliche Frage war ja, dass auch Strings wie zum Beispiel '<ref name="foo"/>' vom Regulären Ausdruck '<ref name="(.*?)">(.*?)</ref>' erfasst würden, was definitiv nicht der Fall ist. Nur das habe ich in meinem Beispiel demonstriert.

Was willst Du denn genau erreichen?

mondschein · Freitag 4. Juli 2008, 13:49

also bei einem Text:

<ref name=“test”>Dies ist eine O’Reiliiy Reference S.16-18</ref> blas hier text
und hier auch<ref name=“test”/> ja und heir geht es weiter lustig text und so<ref
name=“test”/>...jetzt probieren wir mal eine neue<ref name=“test2”>dies is eine total cool
addison referneces s. 90</ref> mal gucken ob das funktioniert<ref name=“test2”/>...mhm
und das literraturverzeichnis...wie sieht das aus?

und dem Code:

Code: Alles auswählen

	temp = re.compile('<ref name="(.*?)">(.*?)</ref>', re.DOTALL)
	match = temp.findall(text)
	
	for ref in match:
		print ref

kommt die Ausgabe:

('test', "Dies ist eine O'Reiliiy Reference S.16-18")
('test"/> ja und heir geht es weiter lustig text und so<ref name="test"/>...jetzt probieren wir mal eine neue<ref name="test2', 'dies is eine total cool addison referneces s. 90')

und was ich suche is nen regulärer ausdruck der mir lauter sachen, wie die erste liste gibt. Und ich frag mich halt was an meinem regulären Ausdruck falsch ist warum er anfängt mir 'test"/> ja und heir geht es weiter lustig text un... zurück zugeben...

martin.py · Freitag 4. Juli 2008, 14:06

Hi,

das Problem ist dass der Reguläre Ausdruck eben (als 1. Gruppe) alles ausgibt, was zwischen <ref name=" und "> steht zurückgibt. bei:
<ref name=“test”/> ist dies nicht nur das Wort test, weil danach "/> kommt und nicht nur "> deswegen sucht er solange, bis er "> findet, was an der stelle name=“test2”>dies passiert (siehe ">).

Du musst also (unter vorbehalt, kanns grad nicht testen) noch einbauen, dass wischen dem " und > der Backslash ein- oder keinmal vorkommen kann.

Gruß