Recht trivales Problem aber mir fehlt ein Schlagwort zur Suche, es soll jede Zeile in einer Datei zurückgegeben werden wo mind. ein Wort aus einer Liste von Suchwörter enthalten ist.
Trivial/verschachtelter Ansatz ist langsam, Regex möglich aber gibts andere Algorithmen zur Umsetzung in Python?
Effizient Strings in String suchen
Ich glaube, der RegEx-Ansatz ist vom Verhältnis Implementierungsaufwand zu Geschwindigkeit vielleicht gar nicht so schlecht. Wenn die Datei wiederholt durchsucht werden soll, kann sich auch ein Index-basierter Ansatz lohnen. Wenn du es wirklich selbst implementieren möchtest, kannst du dir hier etwas Geeignetes Aussuchen: https://en.wikipedia.org/wiki/String-se ... algorithms
Generier einen Regex und schieb die Datei in eine Memory Map mit mmap, die kannst du dann mit finditer und co. durchsuchen.
Funktioniert erfahrungsgemäß auch bei Dateien im zweistelligen GB Bereich sehr gut, die man üblicherweise nicht komplett in den Arbeitsspeicher schieben kann. Das ist schnell umzusetzen und auch in der Praxis sehr performant.
Ich glaub kaum dass man in der Praxis wesentlich schneller wird, zumindest nicht mit Python.
Funktioniert erfahrungsgemäß auch bei Dateien im zweistelligen GB Bereich sehr gut, die man üblicherweise nicht komplett in den Arbeitsspeicher schieben kann. Das ist schnell umzusetzen und auch in der Praxis sehr performant.
Ich glaub kaum dass man in der Praxis wesentlich schneller wird, zumindest nicht mit Python.