Hallo,
ich bräuchte mal euren Rat, zum einen bezüglich der Machbarkeit und zum anderen "mit was" machen.
Die Idee ist, es gibt eine große Anzahl von PDF-Dokumenten, darunter Bücher, Publikationen usw. also eine großes digitale Wissensammlung. Ich hätte gerne ein Tool das ich etwas frage und es mir aussschließlich aus dieser Wissensammlung die Antwort sucht. Also etwas ähnliches wie ChatGPT nur will ich nicht das Netz durchsuchen, sondern meine Dokumente und ich hätte zusätzlich zur Antwort auch die Info in welchem Dokument die Antwort steht.
Das können einfache Fragen sein, in dem ich als Antwort nur eine Berechnungsformel erwarte oder etwas komplexere Sachen, wo man je nach Anforderungen evtl. Tabellen durchsuchen muss und die richtigen Werte "rausholen".
Seht ihr hier eine Chance, das ich so etwas realisieren könnte? Wenn ja, welche Bibliothek würde sich dafür am besten eignen?
Wenn ihr der Meinung seid, dass das nicht für mich machbar ist, ist es grundsätzlich machbar und kann man den Aufwand eines richtigen Programmieres einschätzen?
Danke und Grüße
Dennis
Maschine Learning, welche Bibliothek für konkretes Projekt
-
- User
- Beiträge: 510
- Registriert: Mittwoch 13. November 2019, 08:38
Ich habe mal mit private-gpt für genau diesen Zweck gespielt. Allerdings hing es immer an der mangelhaften Zuverlässigkeit. Egal welches Modell ich probierte. Teilweise wurden Infos, die explizit in den Dokumenten stehen, also ohne einen Zusammenhang verstehen zu müssen, nicht/falsch wiedergegeben. Damit war das letztlich immer unbrauchbar für meinen Anwendungsfall. Solltest du irgendetwas brauchbares finden, wäre ich ebenfalls interessiert.
Guten Morgen,
danke für den Link. Auch wenn deine Erfahrungen nicht so gut damit waren, schaue ich mir das mal an.
Und ja natürlich, wenn ich außerhalb des Forums etwas finde, teile ich es hier.
Grüße
Dennis
danke für den Link. Auch wenn deine Erfahrungen nicht so gut damit waren, schaue ich mir das mal an.
Und ja natürlich, wenn ich außerhalb des Forums etwas finde, teile ich es hier.
Grüße
Dennis
"When I got the music, I got a place to go" [Rancid, 1993]
- noisefloor
- User
- Beiträge: 4149
- Registriert: Mittwoch 17. Oktober 2007, 21:40
- Wohnort: WW
- Kontaktdaten:
Hallo,
also grundsätzlich geht das wohl, ich habe es selber aber noch nie gemacht. Zwei Artikel dazu, die IMHO ganz interessant sind:
* https://konfuzio.com/en/text-analysis-in-python/
* https://medium.com/@aadaam/how-to-use-t ... a1fa7dd8ca
Das prinzipielle Problem dabei ist IMHO, dass Textmengen, die wir Menschen als "viel" empfinden, für eine KI eher wenig Trainingsdaten sind. Mit entsprechenden Ergebnis, was sich mit ja auch mit der Erfahrung von @einfachTobi deckt. Außerdem hört sich die Anforderung auch so an, als wäre ein Teil der Anforderungen eher eine intelligente Verschlagwortung mit "google-ähnlicher" Suche als eine KI-generierte Zusammenfassung zu einem bestimmten Thema.
Aber spannend ist die Projektidee auf jeden Fall.
Gruß, noisefloor
also grundsätzlich geht das wohl, ich habe es selber aber noch nie gemacht. Zwei Artikel dazu, die IMHO ganz interessant sind:
* https://konfuzio.com/en/text-analysis-in-python/
* https://medium.com/@aadaam/how-to-use-t ... a1fa7dd8ca
Das prinzipielle Problem dabei ist IMHO, dass Textmengen, die wir Menschen als "viel" empfinden, für eine KI eher wenig Trainingsdaten sind. Mit entsprechenden Ergebnis, was sich mit ja auch mit der Erfahrung von @einfachTobi deckt. Außerdem hört sich die Anforderung auch so an, als wäre ein Teil der Anforderungen eher eine intelligente Verschlagwortung mit "google-ähnlicher" Suche als eine KI-generierte Zusammenfassung zu einem bestimmten Thema.
Aber spannend ist die Projektidee auf jeden Fall.
Gruß, noisefloor
Installiere dir doch Windows 11 mit aktiviertem Recall. Brauchst allerdings Hardware die das unterstützt. 

Ich bin Pazifist und greife niemanden an, auch nicht mit Worten.
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Was du beschreibst, kommt NotebookLM von Google sehr nahe. Je nach dem, was das für Dokumente sind, darf oder will man die da aber natürlich nicht hochladen. Ich hoffe aber, als Stichwort hilft das vielleicht. Ich selbst bin an dem Thema auch sehr interessiert, aber noch nicht dazu gekommen, mich tiefer damit zu befassen. NotbookLM zeigt aber, dass es mit dem richtigen Ansatz auch möglich ist, ein Modell zu haben, das für kleine Textmengen funktioniert.
Ich benutze seit sehr vielen Jahren recoll (https://www.recoll.org/) als Volltextsuche für meine Dokumente. Das ist nicht KI-basiert, aber ja vielleicht trotzdem als Überbrückung interessant, bis du eine andere Lösung gefunden hast.
Ich benutze seit sehr vielen Jahren recoll (https://www.recoll.org/) als Volltextsuche für meine Dokumente. Das ist nicht KI-basiert, aber ja vielleicht trotzdem als Überbrückung interessant, bis du eine andere Lösung gefunden hast.
Danke für die weiteren Tipps und Links. Werde ich mich alles nacheinander durchlesen.
Hochladen will ich eigentlich nichts, das sind Bücher und Normen dabei, die man gekauft hat, das soll weiterhin lokal bleiben, damit da nichts ungewollt irgendwie in Umlauf kommt und ich nachher irgendwelche Probleme bekomme.
Grüße
Dennis
Hochladen will ich eigentlich nichts, das sind Bücher und Normen dabei, die man gekauft hat, das soll weiterhin lokal bleiben, damit da nichts ungewollt irgendwie in Umlauf kommt und ich nachher irgendwelche Probleme bekomme.
Grüße
Dennis
"When I got the music, I got a place to go" [Rancid, 1993]