__deets__ hat geschrieben: Mittwoch 25. September 2019, 13:29
Ohne zu wissen, wie deine Daten aussehen, kann man dir auch nicht erzaehlen, wie man die Daten so aufbereitet, dass sie deinem Ansatz genuegen. Und am besten waere, wenn du auch noch spezifizierst wie die Daten dann aussehen muessen, damit sie dem Lernverfahren vorgeworfen werden koennen. ZB indem du das Tutorial selbst ausfuehrst und die entsprechende Stelle so modifizierst, dass die du die Daten sichtbar machst. Denn sonst muss man sich da selbst durcharbeiten, und ich zumindest habe die Zeit nicht.
Lieber __deets__,
berechtigter Einwand. Ich versuche das mal mit meinem Udemy-Noobwissen rüber zu bringen:
Das Tutorial von Alice Zhao ist wie folgt aufgebaut:
1. Web scraping - ziehen von Skripten aus dem Netz via Requests und BeautifulSoup
2. Daten zusammenfügen/zwischenspeichern via pickles
Code: Alles auswählen
import requests
from bs4 import BeautifulSoup
import pickle
def url_to_transcript(url):
'''Returns transcript data specifically from scrapsfromtheloft.com.'''
page = requests.get(url).text
soup = BeautifulSoup(page, "lxml")
text = [p.text for p in soup.find(class_="post-content").find_all('p')]
print(url)
return text
urls = ['http://scrapsfromtheloft.com/2017/05/06/louis-ck-oh-my-god-full-transcript/',
'http://scrapsfromtheloft.com/2017/04/11/dave-chappelle-age-spin-2017-full-transcript/',
'http://scrapsfromtheloft.com/2018/03/15/ricky-gervais-humanity-transcript/',
'http://scrapsfromtheloft.com/2017/08/07/bo-burnham-2013-full-transcript/',
'http://scrapsfromtheloft.com/2017/05/24/bill-burr-im-sorry-feel-way-2014-full-transcript/',
'http://scrapsfromtheloft.com/2017/04/21/jim-jefferies-bare-2014-full-transcript/',
'http://scrapsfromtheloft.com/2017/08/02/john-mulaney-comeback-kid-2015-full-transcript/',
'http://scrapsfromtheloft.com/2017/10/21/hasan-minhaj-homecoming-king-2017-full-transcript/',
'http://scrapsfromtheloft.com/2017/09/19/ali-wong-baby-cobra-2016-full-transcript/',
'http://scrapsfromtheloft.com/2017/08/03/anthony-jeselnik-thoughts-prayers-2015-full-transcript/',
'http://scrapsfromtheloft.com/2018/03/03/mike-birbiglia-my-girlfriends-boyfriend-2013-full-transcript/',
'http://scrapsfromtheloft.com/2017/08/19/joe-rogan-triggered-2016-full-transcript/']
comedians = ['louis', 'dave', 'ricky', 'bo', 'bill', 'jim', 'john', 'hasan', 'ali', 'anthony', 'mike', 'joe']
transcripts = [url_to_transcript(u) for u in urls]
So wie sie das händelt, fügt sie die Skripte zu einer großen Datei zusammen, sodass sie diese dann bereinigen und darauf das Topic Modeling anwenden kann.
Das ist der erste Schritt ihres Tutorials und da hänge ich bereits. Meine Dateien (> 4.000 txt-files) müssen nicht aus dem Netz gezogen werden, sondern sind lokal gespeichert. Ich habe keinerlei Ansatz im Netz gefunden, wie ich diese 4000 Files "einlesen" und ebenfalls via pickles zusammenfügen/zwischenspeichern kann.
Wenn ich das Tutorial 1:1 nachbaue funktioniert alles (logischerweise), auch die Datenbereinigung (Großbuchstaben, Interpunktion und Sonderzeichenbereinigung - alles was fürs Topic Modeling notwendig ist) funktioniert.
Meine Dateien sind abgelegt unter
C:\Users\xxxxxx\Desktop\transcripts
Die Dateien sind durchnummeriert, beginnend mit
01.txt
02.txt
03.txt
und beinhalten folgenden Beispieltext:
This will create a barrier to entry for start ups and inventors looking to create new services.
The proposal as written raises First Amendment concerns.
It’s premature to craft regulations for an industry that’s so new and still in flux. Bitcoin and similar virtual currencies are
still in their infancy, and we don’t yet know what new tools and services might be created. This regulatory proposal
could cut that innovation off at the knees, before we have a chance to see the potential societal benefits.