Regex (Alles von Postion Sechs bis Ende matchen)

Steven2002 · Samstag 28. Januar 2023, 19:56

Hallo,
ich habe einen String, der 10 Zeichen oder länger sein kann. Die ersten 10 Zeichen kann ich bereits erfolgreich gruppieren, da es keine Überschneidungen gibt.
Allerdings möchte ich eine weitere Match-Gruppe erhalten, die alle Zeichen von Postion Sechs bis String Ende zurückgibt.

Beispiel für Strings:

45fd15sfdsfgf (13 Zeichen)
5515gaag13s3g3fgs (17 Zeichen)

Mein bisheriger Regex kann die ersten 10 Zeichen in 3 Gruppen einteilen (1.Gruppe: ersten zwei Zeichen, 2 Gruppe: Zeichen drei und vier, 3.Gruppe: Zeichen fünf bis sechs)
r^([0-9a-fA-F]{2})([0-9a-fA-F]{2})([0-9a-fA-F]{6})

Nun fehlt mir noch eine 4.Gruppe, die mir alle Zeichen von Postion sechs bis Stringende zurückgibt).
Also beim ersten String wäre das 5sfdsfgf und beim zweiten aag13s3g3fgs

Ich denke das müsste mit dem Zusatz, der ähnlich diesem ist funktionieren: r^([0-9a-fA-F]{2})([0-9a-fA-F]{2})([0-9a-fA-F]{6})(?<=([0-9a-fA-F])
Allerdings habe ich es nicht geschafft, es so zu modifizieren, um an mein gewünschtes Ergebnis zu kommen.

LG,
Steven

__blackjack__ · Samstag 28. Januar 2023, 20:15

@Steven2002: Also ich denke ja reguläre Ausdrücke sind da nicht das richtige Werkzeug.

Code: Alles auswählen

In [58]: text = "45fd15sfdsfgf"

In [59]: text[:2], text[2:4], text[4:6], text[6:]
Out[59]: ('45', 'fd', '15', 'sfdsfgf')

Edit: Wie kommst Du darauf das beim ersten Beispiel das letzte Element mit der 5 anfangen sollte?

Steven2002 · Samstag 28. Januar 2023, 20:36

@__blackjack__, weil die 5 das sechste Zeichen ist.
Ich muss es leider mit Regex lösen. Trotzdem danke.

__blackjack__ · Samstag 28. Januar 2023, 21:34

@Steven2002: Ah, okay, ich habe das „überschneiden“ übersehen. Das ist noch ein Grund mehr der gegen reguläre Ausdrücke spricht. Wahrscheinlich sogar ein harter Grund, im Sinne von das wird zumindest mit normalen Mitteln nicht gehen das gleiche Zeichen in überschneidenden Gruppen zu haben.

Code: Alles auswählen

In [60]: text[:2], text[2:4], text[4:6], text[5:]
Out[60]: ('45', 'fd', '15', '5sfdsfgf')

Warum muss es ein (ir)regulärer Ausdruck sein?

grubenfox · Samstag 28. Januar 2023, 23:51

muß das alles in einen einzigen regulären Ausdruck gekippt werden oder dürfen es auch z.B. zwei sein? Der zweite Ausdruck würde sich dann nur um den Teil "sechs bis Ende" kümmern?

Steven2002 · Sonntag 29. Januar 2023, 16:36

@grubenfox Ja alles in einem r^ Ausdruck. Genau der letzte Teil soll alle Zeichen von sechs bis String Ende in einer Gruppe zurückgeben. Und ich denke es muss irgendwie mit Lookbehind "?<=" funktionieren.

__blackjack__ · Sonntag 29. Januar 2023, 18:52

@Steven2002: Ein „lookbehind“ konsumiert keine Zeichen, der testet nur. Alles was der matcht landet *nicht* in einer Gruppe:

Code: Alles auswählen

In [70]: re.findall(r"(..)((?<=.).)", "abc")
Out[70]: [('ab', 'c')]

Selbst wenn man das "b" explizit angibt, dann sieht man, dass der das zwar matcht, aber es nicht Teil der zweiten Gruppe ist/wird:

Code: Alles auswählen

In [71]: re.findall(r"(..)((?<=b).)", "abc")
Out[71]: [('ab', 'c')]

Steven2002 · Sonntag 29. Januar 2023, 20:36

Vielleicht habe ich mich auch schlecht ausgedrückt. Inzwsichen bin ich soweit:

Code: Alles auswählen

r'^([0-9a-zA-Z]{2})([0-9a-zA-Z]{2})([0-9a-zA-Z]{6})(?<=([0-9a-zA-Z]{6}))'

Wenn du auf regex101 diesen Ausdruck nimmst, siehst du, dass der lookbehind auch in eine Gruppe kommt: gaag13
Allerdings will ich, dass gaag13s3g3fgs zurückkommt in der letzten Gruppe.

__blackjack__ · Sonntag 29. Januar 2023, 20:58

Tja und das geht halt nicht. In diesem Fall konkret weil der Look-Behind eine feste Länge haben muss. Vielleicht drücke ich mich auch zu vorsichtig aus, aber ich bin ziemlich fest davon überzeugt, dass das nicht geht was Du willst.

Vielleicht noch mal die bisher unbeantwortete Frage warum das unbedingt ein regulärer Ausdruck sein muss‽

pillmuncher · Sonntag 29. Januar 2023, 21:18

Wenn man bei Null zu zählen anfängt, scheint das alles irgendwie sinnvoller zu sein. Dann hat man die Zeichen an den den Indizes 0/1, 2/3, 4/5 und dann ab einschließlich dem Index 6 bis zum Ende. Man müsste halt die genaue (Haus-)Aufgabenstellung kennen.