Fremdsprachenunterricht: Unbekannte Wörter in einem Text identifizieren

Du hast eine Idee für ein Projekt?
Antworten
Johannes.Bauer
User
Beiträge: 1
Registriert: Sonntag 24. Juli 2022, 09:15

Hallo!
Ich bin Französisch-Lehrer. Es wäre extrem nützlich für mich und alle meine Kollegen, wenn es folgendes Tool gäbe (soweit ich das überblicke, existiert das noch nicht in der Form, in der ich das bräuchte):
Eine Möglichkeit, einen Text mir einer Liste des bislang von einer Klasse erarbeiteten Lernwortschatzes abzugleichen und dann eine Liste der Wörter, die darin nicht erhalten sind, zu erhalten. Oder, noch besser, die unbekannten Wörter im Text unterstrichen angezeigt zu bekommen. Flektierte (deklinierte, konjugierte) Wörter sollten dabei natürlich nicht als neu angezeigt werden.

Es ist extrem schwierig als Lehrer den genauen Überblick darüber zu behalten, welche Wörter die Klasse schon kann. Ein solches Tool würde es sehr erleichtern, authentische Texte schon in den ersten Lernjahren in den Unterricht einzubeziehen und über das Schulbuch hinauszugehen. Einzelne unbekannte und unerklärte Wörter sind kein Problem und sogar erwünscht, wenn es aber zu viele werden, wird es für die Schüler schnell frustrierend. Deshalb klebt der Fremdsprachenunterricht meist sehr am Schulbuch.
Eine Handvoll Vokabelangaben oder eine Vorentlastung lösen dieses Problem, die zu erstellen ist aber sehr aufwändig. Das oben beschriebene Tool würde die Vorbereitung solcher Hilfestellungen extrem beschleunigen und die Verwendung anderer Texte sehr erleichtern.

Wer also eine gute Tat tun will, der kann sich darüber vielleicht mal Gedanken machen.

Ich muss dazusagen dass ich von Python überhaupt keine Ahnung habe.
Benutzeravatar
sparrow
User
Beiträge: 4187
Registriert: Freitag 17. April 2009, 10:28

Das offizielle Tutorial ist ein guter Einstiegspunkt um mit dem Lernen von Python zu beginnen.

Aus eigener Erfahrung kann ich dir sagen, dass Textanalyse nicht so trivial ist, wie man denkt.
__deets__
User
Beiträge: 14529
Registriert: Mittwoch 14. Oktober 2015, 14:29

Ich vermute mal nicht, dass der TE vor hat, selbst Python zu lernen. Sondern hofft, es findet sich ein interessierter, dieses Produkt zu erstellen. Und im Verhaeltnis zu den ganzen Crypto-Bots und aenhlichem, dass die Leute hier gerne programmiert haetten, ist das ja sogar ein recht nobles Vorhaben. Aber es sind hunderte Stunden Arbeit, da muss wahlweise schon eine Vermarktung oder ein sehr tiefes persoenliches Interesse vorliegen.
nezzcarth
User
Beiträge: 1633
Registriert: Samstag 16. April 2011, 12:47

Wie sparrow schon andeutete, liegt der Aufwand hier insbesondere darin, sich in die Verarbeitung natürlicher Sprache (NLP) einzuarbeiten. Ähnlich wie man das als Mensch bei der Analyse natürlicher Sprachen macht, gibt es verschiedene Schritte (Wortarten bestimmen, Syntax analysieren, Grundformen bestimmen, etc. ), für die einzelne Softwarekomponenten existieren, die man zu einer Analyse-Pipeline (NLP-Pipeline) kombinieren kann. Hierzu gibt es auch fertige Softwarebibliotheken, die man in Python relativ einfach benutzen kann, (wenn man Python beherrscht und sich mit NLP auskennt). Zu Lernzwecken eignet sich insbesondere NLTK; wenn man sich dann etwas auskennt, kann man sich später Bibliotheken wie Spacy anschauen.

Für das, was du vorhast, würde man in einem naiven, ersten Ansatz vielleicht grob so vorgehen: Man zerlegt den Text in einzelne Bestandteile ("Tokenisierung") und bestimmt von diesen dann die Grundform ("Lemmatisierung" ("philologisch korrekte" Grundformen) / "Stemming" ("irgendwelche" Formen, die nur eindeutig sein müssen) ). Diese gleich man dann mit den Grundformen in der Wortliste ab. Eine einfache Variante davon, im Sinne eines Proofs-of-Concept, lässt sich schon mit NTLK umsetzen. Wenn das aber wirklich robust sein soll, muss man aber sehr viel mehr Aufwand investieren und sich vielleicht auch Dinge wie Wortarten, die Satzstruktur, etc. anschauen. Man muss zudem auch schauen, was die bewährten Techniken und Ansätze für die Zielsprache (Französisch) sind und hoffen, dass es auch für diese schon gut nutzbare Implementierungen gibt. Und dann muss man das Ganze auch noch in eine Form überführen, in der es allgemein benutzbar ist.
Benutzeravatar
noisefloor
User
Beiträge: 3856
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

ich starte mal von der anderen Seite: eine Liste aller Wörter (in der Grundform) mit der Liste der bereits gelernten Wörter (in der Grundform) abzugleichen und die Differenz auszugeben ist einfach. Das bekommt man auch mit Grundwissen Python als Anfänger gut hin.

Frage, so rein Interesse halber: wo kommen die Wortlisten und Texte denn her? Die müssen ja auch irgendwie in den Rechner rein. Soll das jemand über Stunden und Tage abtippen?

Gruß, noisefloor
Antworten