DataFrame/ Worthäufigkeit

Chloya · Samstag 8. Februar 2020, 11:09

Hallo zusammen,
bin neu im Forum und habe in meinem Studium ein Pythonseminar, d.h. habe bis jetzt noch nie etwas mit dem Programm gehabt. Viele Sachen habe ich mir durch Selbstrecherche angeignet, aber an einer Aufgabe bleibe ich hängen und bitte deshalb um Hilfe:

Gegeben ist folgender String:

literature='''Bird, Steven, Ewan Klein, und Edward Loper (2009): Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. https://sites.google.com/site/naturalla ... olkit/book.
Downey, Allen (2012): Think Python. How to Think Like a Computer Scientist. O’Reilly Media, Incorporated. http://www.greenteapress.com/thinkpytho ... index.html.
Downey, Allen B (2014): Think Stats: Exploratory Data Analysis. 2 edition. Sebastopol, CA: O’Reilly Media. http://greenteapress.com/wp/think-stats-2e/.
Friedman, Jerome H (1997): „On Bias, Variance, 0/1—Loss, and the Curse-of-Dimensionality“ (1023):
Landauer, Thomas K (1998): „An introduction to latent semantic analysis“. Discourse processes 25 (2–3): 259–284.'''

Frage:
Erzeugen Sie einen DataFrame, der die Worthäufigkeiten der einzelnen Quellenangabe enthält. Benutzen Sie dabei die in dargestellten Tokenisierungsregeln : Tokenisieren nach alphanumerischen Zeichen/ Unterstrich/Apostroph/Minuszeichen.
Der resultierende Datensatz sollte folgende Form aufweisen:

Wort 1 Wort 2 … Wort n

Quelle 1
Quelle 2
…
Quelle m

Bis jetzt habe ich zur Tokenisierung Folgendes angewendet:

bearbeitet=re.findall(r'[a-zA-Z0-9_"„-]+', literature)
print(bearbeitet)

Vielen Dank im Voraus für jede Hilfe.
Chloya

__blackjack__ · Samstag 8. Februar 2020, 12:24

@Chloya: Dann hast Du *eine* Liste mit *allen* Worten. So wie die Aufgabe aussieht soll das aber pro Quelle gemacht werden.

Und sind Anführungszeichen tatsächlich Bestandtteil von Worten? Also wäre "„An" tatsächlich ein anderes Wort als "An"?

Eine Abbildung Wort auf Anzahl kann man mit `collections.Counter` erstellen. Daraus kann man dann ein Pandas-Series-Objekt pro Quelle erstellen, und die dann zu einem Dataframe mergen.

Chloya · Samstag 8. Februar 2020, 14:37

Danke ,blackjack, für deine schnelle Antwort .
Ob die Anführungszeichen ein Bestandteil vom Wort sind,weiß ich nicht

und den 'collections.Counter` kenne ich auch nicht

__deets__ · Samstag 8. Februar 2020, 14:47

Ersteres musst du deinen Dozenten fragen. Oder drueber nachdenken, ob das sein kann. Wir koennen es nicht wissen.

Und fuer zweiteres - hast du mal in die Dokumentation von Python geschaut? Da ist das beschrieben, was das kann.

Chloya · Samstag 8. Februar 2020, 17:08

Danke für NICHTS!

__deets__ · Samstag 8. Februar 2020, 17:43

Spannende Einstellung. Kommt man damit weit im Leben? Frage fuer einen Freund.

Chloya · Samstag 8. Februar 2020, 18:09

Diesen Forum kann man kaum gebrauchen, abgesehen davon Jemanden zu empfehlen.

__deets__ · Samstag 8. Februar 2020, 18:19

? Das ist kein vollstaendiger Satz.

Und es tut mir wirklich leid, aber gerade heute morgen ist mein Helikopter kaputt gegangen. Sonst waere ich natuerlic *SOFORT* zu dir nach Hause geflogen, und haette dir dein Problem am eigenen Rechner geloest. Und natuerlich noch was vom Baecker oder Supermarkt mitgebracht, damit du nicht auch noch vor die Tuer musst.

Im Ernst: hier werden keine Loesungen vorgekaut, ein mindestmass an Auseinandersetzung mit der eigenen Aufgabe, und gegebenen Hinweisen, wird vorrausgesetzt. Ich hab's schonmal gesagt, und ich sage es nochmal: WIR koennen nicht wissen, was die Regeln zur Tokenisierung sind. Und der Hinweis auf eine Datenstruktur die zur Loesung fuehrt, ist ernst gemeint und wichtig. Wenn du nicht mal soviel Energie aufbringen kannst, danach mal zu googlen und damit rum zu spielen, und weitere Fragen stellen - dann solltest du vielleicht eher ein Spargelstecher-Seminar besuchen.