Wort suchen was exakt auf das gesuchte passt

egon11 · Dienstag 3. Februar 2026, 20:30

Hallo, ich möchte ein Wort suchen, was auch direkt ins Suchmuster passt.
Wenn ich "Auto" suche möchte ich nicht "Automaten" als Treffer bekommen.

Ich habe folgendes mal getestet:

Code: Alles auswählen

import re


my_liste = ["Auto", "Autobus", "Automaten"]

for i in my_liste:
    if re.search(r"Auto", i):
        print("Auto: " + i)
    elif re.search(r"Automaten", i):
        print("Automaten: " + 1)

Im "re" - Modul habe ich dazu nichts brauchbares gefunden -- oder überlesen--
Vielleicht könnt ihr mir eine kleine Hilfe geben wie man so etwas löst.

Gruß

snafu · Dienstag 3. Februar 2026, 21:10

Du suchst re.match(), nicht re.search().

Noch einfacher wäre ein direkter Vergleich:

Code: Alles auswählen

for word in words:
    if word == "Auto":
        # ...

Oder mit einer Menge:

Code: Alles auswählen

words = set(["Auto", "Autobus", "Automaten"])
print("Auto" in words)

__blackjack__ · Dienstag 3. Februar 2026, 21:13

@egon11: Warum denn dann `re` und nicht einfach `==`? Falls das Wort *in* einem Listenelement vorkommen können soll, dann ist das Beispiel schlecht gewählt, denn dafür reicht es ja nur ein Beispiel ohne die Liste zu zeigen und es sollte dann auch mehr als nur das Wort in dem zu durchsuchenden Text stehen. In dem Fall suchst Du wahrscheinlich „word boundary“, also r"\b" im regulären Ausdruck.

Und bitte nicht `my_liste` oder gar `i` für etwas das keine ganze Zahl ist.

Code: Alles auswählen

worte = ["Auto", "Autobus", "Automaten"]
for wort in worte:
    if wort in {"Auto", "Automaten"}:
        print(f"{wort}: {wort}")

snafu · Dienstag 3. Februar 2026, 21:23

Außerdem sei der allseits bekannte Tipp erwähnt, einmal das Python Tutorial (Original | Übersetzung) durchzuarbeiten. Das hilft wirklich, wenn man ganz neu dabei ist.

egon11 · Dienstag 3. Februar 2026, 22:05

Noch einfacher wäre ein direkter Vergleich:

Code: Alles auswählen

for word in words:
    if word == "Auto":
        # ...

Ich habe mich falsch ausgedrückt bzw mir ist ein Fehler bei der Beschreibung aufgefallen.
Also nochmal, ich lese eine Datei ein und speichere jede Zeile in eine Liste.
Danach iteriere ich die Liste und es sollen diese im #1 genannten Wörter gesucht werden.
Also in welcher Zeile kommt das Wort "Auto", das Wort "Autobus" und in welcher das Wort "Automat" vor.
Daher das ich die Sätze nicht kenne, kann ich den Vergleich mit "==" nicht bringen.
re.match sucht nur am Anfang.
Eine Variante wäre, jede Zeile nochmal bei jeden Leerzeichen zu splitten, um es so zu suchen (was ich hinbekommen hab).
Aber geht es auch einfacher?

__blackjack__ · Mittwoch 4. Februar 2026, 00:08

@egon11: Was heisst einfacher? Und ist das an Leerzeichen aufteilen nicht _zu_ einfach, denn so wird man bei "Am Ende dieses Satzes steht ein Auto." das Auto nicht finden, weil "Auto" ≠ "Auto."

Deswegen erwähnte ich ja „word boundary“ bei regulären Ausdrücken. Allerdings würde das dann immer noch nicht helfen bei Sätzen wie "Bei diesem Glücksspielanbieter kann man Wetten auf Auto- und Pferderennen setzen." Da würde dann Auto erkannt, obwohl das eigentlich für "Autorennen" steht. Ähnlich falls beispielsweise "Automat" mit einem Bindestrich über zwei Zeilen getrennt wurde als "… Auto-", "mat …". Hier würde fälschlich "Auto" erkannt, "Automat" aber nicht.

Natürliche Sprache zu verarbeiten ist nicht so einfach.

Pedroski55 · Mittwoch 4. Februar 2026, 10:37

Sag mal du willst herausfinden, wie oft Auto oder auto in einem langen Text vorkommt:

Code: Alles auswählen

import regex

my_liste = ["Auto", "Autobus", "Automaten", "automatisch",  "Autodidakt",  "Autonomo", "Autism", "autoreifen", "aufliegen"]
s = ' '.join(my_liste)
e = regex.compile(r'A(?=uto)')
f = regex.compile(r'a(?=uto)')
g = regex.compile(r'(a|A)(?=uto)')
zahl_A = len(e.findall(s)) # 5
zahl_a = len(f.findall(s)) # 2
zahl_alle = len(g.findall(s)) # 7

findall() gibt uns eine Liste zurück.

Man kann das auch auf anderer Art und Weise vollbringen!

__blackjack__ · Mittwoch 4. Februar 2026, 15:42

@Pedroski55: Was soll denn der positive lookahead in den Ausdrücken? Der ändert nichts am Ergebnis, verkompliziert nur unnötig die regulären Ausdrücke. Und das ist ziemlich deutlich nicht das was gefragt ist. Lies doch wenigstens die Frage(n) ordentlich durch.

snafu · Mittwoch 4. Februar 2026, 16:52

egon11 hat geschrieben: Dienstag 3. Februar 2026, 22:05 Also in welcher Zeile kommt das Wort "Auto", das Wort "Autobus" und in welcher das Wort "Automat" vor.

Also ich würde hier schon splitten und ein Set verwenden:

Code: Alles auswählen

LINES = [
    "Ich fahre lieber mit dem Auto statt mit dem Autobus",
    "Hier gibt es nichts zu sehen",
    "Der Automat schaltet sich automatisch aus",
]

NEEDLES = ["Auto", "Autobus", "Automat"]

def get_matches(lines, needles):
    needles = set(needles)
    for line_no, line in enumerate(lines, 1):
        words = set(line.split())
        if (matches := words & needles):
            yield line_no, sorted(matches)

def main():
    for line_no, matches in get_matches(LINES, NEEDLES):
        print(f"Line #{line_no}: {matches}")

if __name__ == "__main__":
    main()

Satzzeichen hab ich hier erstmal außer Acht gelassen.

egon11 hat geschrieben: Dienstag 3. Februar 2026, 22:05 Daher das ich die Sätze nicht kenne, kann ich den Vergleich mit "==" nicht bringen.

Doch, könntest du. Hierfür benötigst du eine innere Schleife, die für jedes Wort des Satzes über alle gesuchten Wörter iteriert und diese vergleicht. Wäre nur aufgrund des Laufzeitverhaltens nicht unbedingt zu empfehlen.

snafu · Mittwoch 4. Februar 2026, 17:29

Oder machst du eine Übung zu regulären Ausdrücken? Dann könnte man es so lösen:

Code: Alles auswählen

re.search(r"Auto(bus|mat)?(\W|$)", "Ich habe einen Autobus")

Dies findet Auto, Autobus sowie Automat, gefolgt von Whitespace oder dem Zeilen- bzw. String-Ende. Somit wäre "Autos" kein Treffer.

__blackjack__ · Mittwoch 4. Februar 2026, 17:37

@snafu: Vorgabe war das "Auto" nur "Auto" finden soll, aber nicht "Automat" oder ähnliches. Nach "Automat" sollte extra gesucht werden. Und \b hatte ich ja schon zweimal vorgeschlagen. Kann man natürlich auch umständlich schreiben wenn man möchte.

snafu · Mittwoch 4. Februar 2026, 17:58

\b ist eine gute Idee. So ganz klar ist die Aufgabe IMHO noch nicht.

Dies hier gibt jedenfalls den ersten Treffer aus dem Pattern für die jeweilige Zeile aus:

Code: Alles auswählen

import re

LINES = [
    "Ich fahre lieber mit dem Auto statt mit dem Autobus",
    "Zwei Autos kann ich mir nicht leisten",
    "Der Automat schaltet sich automatisch aus",
]

PATTERN = "Auto(bus|mat)?"

def get_matches(lines):
    pattern = re.compile(rf"\b{PATTERN}\b")
    for line_no, line in enumerate(lines, 1):
        if match := pattern.search(line):
            yield line_no, match.group()

def main():
    for line_no, match in get_matches(LINES):
        print(f"Line #{line_no}: {match}")

if __name__ == "__main__":
    main()

DeaD_EyE · Mittwoch 4. Februar 2026, 19:18

Wer hat schonmal einen regex programmatisch erzeugt?
Ich hab mir einfach einen Anwendungsfall ausgedacht.

Ich möchte Problem XY lösen.
Dann nehme ich einfach Regex
Mist, jetzt hab ich 2 Probleme

Code: Alles auswählen

import re


def make_regex(words: list[str], flags=0) -> re.Pattern:
    if not words:
        raise ValueError("words must not be empty.")

    if len(words) == 1:
        return re.compile(rf"\b{words[0]}\b", flags=flags)
    else:
        inner = "|".join(word for word in words)
        return re.compile(r"\b(" + inner + r")\b", flags=flags)

PS: [b][color=#FF0000]\b[/color][/b] ist wirklich sehr nützlich!!
def make_bold(text: str, regex: re.Pattern) -> str:
    new_text = []
    last = 0

    for m in regex.finditer(text):
        start, end = m.span()
        new_text.append(text[last:start])
        new_text.append("[b]")
        new_text.append(text[start:end])
        new_text.append("[/b]")
        last = end

    new_text.append(text[last:])
    return "".join(new_text)


words = ["Auto", "Autobus", "Automat", "Kreis", "Neustart"]
regex = make_regex(words)

text = (
    "Ich fahre lieber mit dem Auto statt mit dem Autobus\n"
    "Zwei Autos kann ich mir nicht leisten.\n"
    "Der Automat schaltet sich automatisch aus.\n"
    "Die Bushaltestelle ist nicht erreichbar.\n"
    "Für einen Neustart bitte im Kreis drehen.\n"
)

print(make_bold(text, regex))

Ausgabe als Zitat:

Ich fahre lieber mit dem Auto statt mit dem Autobus
Zwei Autos kann ich mir nicht leisten.
Der Automat schaltet sich automatisch aus.
Die Bushaltestelle ist nicht erreichbar.
Für einen Neustart bitte im Kreis drehen.

Man kann auch Flags setzen:

Code: Alles auswählen

print(make_bold(text.lower(), make_regex(words, flags=re.IGNORECASE)))

ich fahre lieber mit dem auto statt mit dem autobus
zwei autos kann ich mir nicht leisten.
der automat schaltet sich automatisch aus.
die bushaltestelle ist nicht erreichbar.
für einen neustart bitte im kreis drehen.

snafu · Mittwoch 4. Februar 2026, 19:49

Das kann man auch mit re.sub() und dem Einsatz von Backreferences haben, wobei ich das nach wie vor etwas tunen würde, wenn gleiche Wortanfänge vorliegen:

Code: Alles auswählen

import re

text = """\
Ich fahre lieber mit dem Auto statt mit dem Autobus.
Zwei Autos kann ich mir nicht leisten.
Der Automat schaltet sich automatisch aus.
Die Bushaltestelle ist nicht erreichbar.
Für einen Neustart bitte im Kreis drehen.
"""

words = "Auto(bus|mat)?", "Kreis", "Neustart"

pattern = r"\b({})\b".format("|".join(words))
print(re.sub(pattern, r"[b]\1[/b]", text))

DeaD_EyE hat geschrieben: Mittwoch 4. Februar 2026, 19:18
Ich möchte Problem XY lösen.
Dann nehme ich einfach Regex
Mist, jetzt hab ich 2 Probleme

Ich würde sagen, das hängt vom Problem ab und wie gut man darin ist, reguläre Ausdrücke zu formulieren und die passenden Funktionen zu nutzen.

Sirius3 · Mittwoch 4. Februar 2026, 20:13

@DeaD_EyE: wenn ein Sonderfall gar kein Sonderfall ist, braucht man ihn auch nicht gesondert behandeln. Ein Generator-Ausdruck der nichts am Input ändert, kann man auch weglassen.
Du weißt, wie man f-Strings anwendet, warum verwendest Du dann Stringzusammenstückeln mit +?
Damit wird die Funktion deutlich übersichtlicher:

Code: Alles auswählen

def make_regex(words, flags=0):
    if not words:
        raise ValueError("words must not be empty.")
    inner = "|".join(words)
    return re.compile(rf"\b({inner})\b", flags=flags)

Und weil es hier noch niemand angesprochen hat: wenn man unbekannte Strings in regulären Ausdrücken verwenden will, sollte man sie per re.escape schützen:

Code: Alles auswählen

def make_regex(words, flags=0):
    if not words:
        raise ValueError("words must not be empty.")
    inner = "|".join(map(re.escape, words))
    return re.compile(rf"\b({inner})\b", flags=flags)

@snafu: Performance-mäßig ist es ziemlich egal, wie Du den regulären Ausdruck schreibst, sowohl `Auto(mat|bus)` als auch `Automat|Autobus` führen zum selben regulären Automaten.

snafu · Mittwoch 4. Februar 2026, 21:47

Und was noch dazu kommt: Als Spielerei ist es ganz nett, eine Wörterliste als Regex zusammen zu führen. Es bläht den resultierenden Ausdruck aber potenziell ziemlich auf. Wie ich schon am Anfang geschrieben hatte, rate ich hier zum zeilenweisen Splitten der Wörter. Dies kann man durchaus mit dem re-Modul umsetzen, wenn man mehr als nur zwischen den Leerzeichen trennen möchte. BJ hatte hier schon ein paar Beispiele gebracht. Die Suche nach Treffern würde ich dann jedenfalls über eine geeignete Datenstruktur erledigen.

Einfach nur als Disclaimer gemeint, dass die Aufgabenstellung IMHO keinen Fall für eine reine Regex-Lösung darstellt.

DeaD_EyE · Donnerstag 5. Februar 2026, 10:08

Sirius3 hat geschrieben: Mittwoch 4. Februar 2026, 20:13 Du weißt, wie man f-Strings anwendet, warum verwendest Du dann Stringzusammenstückeln mit +?

Mir war das schon klar als ich den + Operator verwendet habe.
Das habe ich mit voller Absicht gemacht, damit ihr euch aufregt und etwas Neues lernt.
Mir ist auch aufgefallen, dass die besten Ergebnisse kommen, wenn man euch hart triggert.

Die Funktion re.escape kannte ich noch gar nicht. Wieder was dazugelernt. Man kann nicht alles wissen und ich habe die gesamte Python-Doku mindestens 3-mal am Flughafen und im Flugzeug komplett durchgelesen. Aber wenn man bestimmte Sachen nicht oft anwendet, vergisst man das. Ich habe euch auch schon dabei erwischt

sparrow · Donnerstag 5. Februar 2026, 10:17

DeaD_EyE hat geschrieben: Donnerstag 5. Februar 2026, 10:08Das habe ich mit voller Absicht gemacht, damit ihr euch aufregt und etwas Neues lernt.

Mal ganz abgesehen davon, dass das in meinen Augen fragwürdiges Verhalten ist: Wer ist dieser "ihr" und wo lernt man etwas Neues?

snafu · Donnerstag 5. Februar 2026, 11:09

Warum gibt es hierzu eigentlich noch keine Lösung in BASIC...?

__blackjack__ · Donnerstag 5. Februar 2026, 12:29

@snafu Dafür war/ist mir die Aufgabe noch zu unklar.