ich schlage mich gerade mit Python rum und muss für meine Masterarbeit ein paar Tweets analysieren.
Dazu muss ich erstmal diese "cleanen". Mein Code ist im Moment wie folgt:
Code: Alles auswählen
import pandas as pd
df = pd.read_excel("Allianz_Test.xlsx")
df['Text'] = df['Text'].astype('string')
tweets = []
tweets = list(df["Text"])
tweets[0:]
result = ";".join(tweets[0:])
result_lower = result.lower()
import re
result_URL = re.sub('((www\.[^\s]+)|(https?://[^\s]+))',"", result_lower)
result_AT = re.sub('@[^\s]+',"", result_URL)
result_Hash = re.sub(r'#([^\s]+)', r'\1', result_AT)
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
from nltk.tokenize import word_tokenize
tokens = word_tokenize(result_Hash)
result1 = [i for i in tokens if not i in stop_words]
Ohne das wird es bei der tokenize Phase sehr unsauber, weil alles durcheinander ist und ich damit nicht wirklich weiterarbeiten kann.
Ich würde mich freuen, wenn mir jemand weiterhelfen kann, komme mit Googeln und Büchern nicht weiter.
Tausend Dank!!
Teresa