Maschine Learning, welche Bibliothek für konkretes Projekt

Dennis89 · Mittwoch 26. Februar 2025, 20:19

Hallo,

ich bräuchte mal euren Rat, zum einen bezüglich der Machbarkeit und zum anderen "mit was" machen.

Die Idee ist, es gibt eine große Anzahl von PDF-Dokumenten, darunter Bücher, Publikationen usw. also eine großes digitale Wissensammlung. Ich hätte gerne ein Tool das ich etwas frage und es mir aussschließlich aus dieser Wissensammlung die Antwort sucht. Also etwas ähnliches wie ChatGPT nur will ich nicht das Netz durchsuchen, sondern meine Dokumente und ich hätte zusätzlich zur Antwort auch die Info in welchem Dokument die Antwort steht.
Das können einfache Fragen sein, in dem ich als Antwort nur eine Berechnungsformel erwarte oder etwas komplexere Sachen, wo man je nach Anforderungen evtl. Tabellen durchsuchen muss und die richtigen Werte "rausholen".

Seht ihr hier eine Chance, das ich so etwas realisieren könnte? Wenn ja, welche Bibliothek würde sich dafür am besten eignen?
Wenn ihr der Meinung seid, dass das nicht für mich machbar ist, ist es grundsätzlich machbar und kann man den Aufwand eines richtigen Programmieres einschätzen?

Danke und Grüße
Dennis

einfachTobi · Mittwoch 26. Februar 2025, 22:46

Ich habe mal mit private-gpt für genau diesen Zweck gespielt. Allerdings hing es immer an der mangelhaften Zuverlässigkeit. Egal welches Modell ich probierte. Teilweise wurden Infos, die explizit in den Dokumenten stehen, also ohne einen Zusammenhang verstehen zu müssen, nicht/falsch wiedergegeben. Damit war das letztlich immer unbrauchbar für meinen Anwendungsfall. Solltest du irgendetwas brauchbares finden, wäre ich ebenfalls interessiert.

Dennis89 · Donnerstag 27. Februar 2025, 07:09

Guten Morgen,

danke für den Link. Auch wenn deine Erfahrungen nicht so gut damit waren, schaue ich mir das mal an.
Und ja natürlich, wenn ich außerhalb des Forums etwas finde, teile ich es hier.

Grüße
Dennis

noisefloor · Donnerstag 27. Februar 2025, 07:37

Hallo,

also grundsätzlich geht das wohl, ich habe es selber aber noch nie gemacht. Zwei Artikel dazu, die IMHO ganz interessant sind:

* https://konfuzio.com/en/text-analysis-in-python/
* https://medium.com/@aadaam/how-to-use-t ... a1fa7dd8ca

Das prinzipielle Problem dabei ist IMHO, dass Textmengen, die wir Menschen als "viel" empfinden, für eine KI eher wenig Trainingsdaten sind. Mit entsprechenden Ergebnis, was sich mit ja auch mit der Erfahrung von @einfachTobi deckt. Außerdem hört sich die Anforderung auch so an, als wäre ein Teil der Anforderungen eher eine intelligente Verschlagwortung mit "google-ähnlicher" Suche als eine KI-generierte Zusammenfassung zu einem bestimmten Thema.

Aber spannend ist die Projektidee auf jeden Fall.

Gruß, noisefloor

ThomasL · Donnerstag 27. Februar 2025, 09:44

Installiere dir doch Windows 11 mit aktiviertem Recall. Brauchst allerdings Hardware die das unterstützt.

nezzcarth · Donnerstag 27. Februar 2025, 17:14

Was du beschreibst, kommt NotebookLM von Google sehr nahe. Je nach dem, was das für Dokumente sind, darf oder will man die da aber natürlich nicht hochladen. Ich hoffe aber, als Stichwort hilft das vielleicht. Ich selbst bin an dem Thema auch sehr interessiert, aber noch nicht dazu gekommen, mich tiefer damit zu befassen. NotbookLM zeigt aber, dass es mit dem richtigen Ansatz auch möglich ist, ein Modell zu haben, das für kleine Textmengen funktioniert.

Ich benutze seit sehr vielen Jahren recoll (https://www.recoll.org/) als Volltextsuche für meine Dokumente. Das ist nicht KI-basiert, aber ja vielleicht trotzdem als Überbrückung interessant, bis du eine andere Lösung gefunden hast.

Dennis89 · Donnerstag 27. Februar 2025, 18:02

Danke für die weiteren Tipps und Links. Werde ich mich alles nacheinander durchlesen.

Hochladen will ich eigentlich nichts, das sind Bücher und Normen dabei, die man gekauft hat, das soll weiterhin lokal bleiben, damit da nichts ungewollt irgendwie in Umlauf kommt und ich nachher irgendwelche Probleme bekomme.

Grüße
Dennis