Namen in einem chaotischen Text erkennen
Verfasst: Sonntag 23. August 2020, 02:20
Hallo,
Ich habe erst vor einer Woche mit Python angefangen da ich folgendes Problem habe. Ich habe einen chaotischen Text (also einen Text, der wild Satzzeichen, Leerzeichen, Datum, Email, Namen, Kundennummern, Personalnummern usw. enthält. Dazwischen befindet sich ganz normaler Text. Nun möchte ich dieses Dokument annonymisieren. Ich habe also die Idee mit recognision entitiy erst einmal alle regulären Expressions wie Datum, Email (also allem was ein klares Format hat) raus zu filter und zu ersetzten. Nun bleibt theoretisch das Problem mit den Namen. Ich habe gehört, dass Spacy diese erkennen soll.. da es sich aber um einen chaotischen Text handelt, findet Spacy die Namen nur sehr schlecht bzw labelt fast alle Worte falsch... ich denke, dass es vielleicht funktioniert, wenn ich erst alles bekannte eben wie Datum,Email rausfilter und ersetzte und dann alle unnötigen Satzzeichen wie << oder ... lösche. Dann würde ich gerne eine neue Liste erstellen. In dieser Liste soll er nun alle Worte die er kennt abspeichern und alle anderen Worte, die er nicht kennt, in eine andere Liste. Dann würde ich gerne die unbekannte Liste nach Namen (von Hand )kontrollieren und löschen. Danach soll er die verbleibenden Worte wieder mit der anderen Liste zum Ursprungs Dokument zusammenfügen. Nun zu meiner Frage. Ist mein Vorhaben Theoretisch möglich oder habt ihr eine bessere Idee. Wie gesagt, ich bin kein Informatiker und ich würde ungern anfangen viel auszuprobieren und zu verzweifeln um dann zu erfahren das mein Vorhaben ohnehin eine ganz dumme Idee war. Danke schon mal im Vorraus
Ich habe erst vor einer Woche mit Python angefangen da ich folgendes Problem habe. Ich habe einen chaotischen Text (also einen Text, der wild Satzzeichen, Leerzeichen, Datum, Email, Namen, Kundennummern, Personalnummern usw. enthält. Dazwischen befindet sich ganz normaler Text. Nun möchte ich dieses Dokument annonymisieren. Ich habe also die Idee mit recognision entitiy erst einmal alle regulären Expressions wie Datum, Email (also allem was ein klares Format hat) raus zu filter und zu ersetzten. Nun bleibt theoretisch das Problem mit den Namen. Ich habe gehört, dass Spacy diese erkennen soll.. da es sich aber um einen chaotischen Text handelt, findet Spacy die Namen nur sehr schlecht bzw labelt fast alle Worte falsch... ich denke, dass es vielleicht funktioniert, wenn ich erst alles bekannte eben wie Datum,Email rausfilter und ersetzte und dann alle unnötigen Satzzeichen wie << oder ... lösche. Dann würde ich gerne eine neue Liste erstellen. In dieser Liste soll er nun alle Worte die er kennt abspeichern und alle anderen Worte, die er nicht kennt, in eine andere Liste. Dann würde ich gerne die unbekannte Liste nach Namen (von Hand )kontrollieren und löschen. Danach soll er die verbleibenden Worte wieder mit der anderen Liste zum Ursprungs Dokument zusammenfügen. Nun zu meiner Frage. Ist mein Vorhaben Theoretisch möglich oder habt ihr eine bessere Idee. Wie gesagt, ich bin kein Informatiker und ich würde ungern anfangen viel auszuprobieren und zu verzweifeln um dann zu erfahren das mein Vorhaben ohnehin eine ganz dumme Idee war. Danke schon mal im Vorraus