DataFrame/ Worthäufigkeit
Verfasst: Samstag 8. Februar 2020, 11:09
Hallo zusammen,
bin neu im Forum und habe in meinem Studium ein Pythonseminar, d.h. habe bis jetzt noch nie etwas mit dem Programm gehabt. Viele Sachen habe ich mir durch Selbstrecherche angeignet, aber an einer Aufgabe bleibe ich hängen und bitte deshalb um Hilfe:
Gegeben ist folgender String:
literature='''Bird, Steven, Ewan Klein, und Edward Loper (2009): Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. https://sites.google.com/site/naturalla ... olkit/book.
Downey, Allen (2012): Think Python. How to Think Like a Computer Scientist. O’Reilly Media, Incorporated. http://www.greenteapress.com/thinkpytho ... index.html.
Downey, Allen B (2014): Think Stats: Exploratory Data Analysis. 2 edition. Sebastopol, CA: O’Reilly Media. http://greenteapress.com/wp/think-stats-2e/.
Friedman, Jerome H (1997): „On Bias, Variance, 0/1—Loss, and the Curse-of-Dimensionality“ (1023):
Landauer, Thomas K (1998): „An introduction to latent semantic analysis“. Discourse processes 25 (2–3): 259–284.'''
Frage:
Erzeugen Sie einen DataFrame, der die Worthäufigkeiten der einzelnen Quellenangabe enthält. Benutzen Sie dabei die in dargestellten Tokenisierungsregeln : Tokenisieren nach alphanumerischen Zeichen/ Unterstrich/Apostroph/Minuszeichen.
Der resultierende Datensatz sollte folgende Form aufweisen:
Wort 1 Wort 2 … Wort n
Quelle 1
Quelle 2
…
Quelle m
Bis jetzt habe ich zur Tokenisierung Folgendes angewendet:
bearbeitet=re.findall(r'[a-zA-Z0-9_"„-]+', literature)
print(bearbeitet)
Vielen Dank im Voraus für jede Hilfe.
Chloya
bin neu im Forum und habe in meinem Studium ein Pythonseminar, d.h. habe bis jetzt noch nie etwas mit dem Programm gehabt. Viele Sachen habe ich mir durch Selbstrecherche angeignet, aber an einer Aufgabe bleibe ich hängen und bitte deshalb um Hilfe:
Gegeben ist folgender String:
literature='''Bird, Steven, Ewan Klein, und Edward Loper (2009): Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O’Reilly Media. https://sites.google.com/site/naturalla ... olkit/book.
Downey, Allen (2012): Think Python. How to Think Like a Computer Scientist. O’Reilly Media, Incorporated. http://www.greenteapress.com/thinkpytho ... index.html.
Downey, Allen B (2014): Think Stats: Exploratory Data Analysis. 2 edition. Sebastopol, CA: O’Reilly Media. http://greenteapress.com/wp/think-stats-2e/.
Friedman, Jerome H (1997): „On Bias, Variance, 0/1—Loss, and the Curse-of-Dimensionality“ (1023):
Landauer, Thomas K (1998): „An introduction to latent semantic analysis“. Discourse processes 25 (2–3): 259–284.'''
Frage:
Erzeugen Sie einen DataFrame, der die Worthäufigkeiten der einzelnen Quellenangabe enthält. Benutzen Sie dabei die in dargestellten Tokenisierungsregeln : Tokenisieren nach alphanumerischen Zeichen/ Unterstrich/Apostroph/Minuszeichen.
Der resultierende Datensatz sollte folgende Form aufweisen:
Wort 1 Wort 2 … Wort n
Quelle 1
Quelle 2
…
Quelle m
Bis jetzt habe ich zur Tokenisierung Folgendes angewendet:
bearbeitet=re.findall(r'[a-zA-Z0-9_"„-]+', literature)
print(bearbeitet)
Vielen Dank im Voraus für jede Hilfe.
Chloya