Python Text Cleaning - HELP
Verfasst: Montag 30. März 2020, 14:09
Hallo Alle,
ich schlage mich gerade mit Python rum und muss für meine Masterarbeit ein paar Tweets analysieren.
Dazu muss ich erstmal diese "cleanen". Mein Code ist im Moment wie folgt:
Ist nicht der schönste Code, aber tut eigentlich was er soll. Mein Problem ist nur, dass ich aus meiner Exceltabelle keine Liste in Liste hinbekomme. Also das jeder Tweet eine Liste ist und alle in einer Liste abgespeichert sind.
Ohne das wird es bei der tokenize Phase sehr unsauber, weil alles durcheinander ist und ich damit nicht wirklich weiterarbeiten kann.
Ich würde mich freuen, wenn mir jemand weiterhelfen kann, komme mit Googeln und Büchern nicht weiter.
Tausend Dank!!
Teresa
ich schlage mich gerade mit Python rum und muss für meine Masterarbeit ein paar Tweets analysieren.
Dazu muss ich erstmal diese "cleanen". Mein Code ist im Moment wie folgt:
Code: Alles auswählen
import pandas as pd
df = pd.read_excel("Allianz_Test.xlsx")
df['Text'] = df['Text'].astype('string')
tweets = []
tweets = list(df["Text"])
tweets[0:]
result = ";".join(tweets[0:])
result_lower = result.lower()
import re
result_URL = re.sub('((www\.[^\s]+)|(https?://[^\s]+))',"", result_lower)
result_AT = re.sub('@[^\s]+',"", result_URL)
result_Hash = re.sub(r'#([^\s]+)', r'\1', result_AT)
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
from nltk.tokenize import word_tokenize
tokens = word_tokenize(result_Hash)
result1 = [i for i in tokens if not i in stop_words]
Ohne das wird es bei der tokenize Phase sehr unsauber, weil alles durcheinander ist und ich damit nicht wirklich weiterarbeiten kann.
Ich würde mich freuen, wenn mir jemand weiterhelfen kann, komme mit Googeln und Büchern nicht weiter.
Tausend Dank!!
Teresa