Ich möchte, wie im Betreff schon geschrieben, einen Text vom Web nehmen und den in eine .txt Datei bekommen + Tokenization. Ich habe schon einen Ansatz dafür, der auch zum Teil funktioniert.
Code: Alles auswählen
from bs4 import BeautifulSoup
import requests
import spacy
dlf_artikel = 'https://www.deutschlandfunk.de/zustand-deutscher-waelder-auch-buchenwaelder-und-eichen.694.de.html?dram:article_id=475483'
homepage_erste = 'https://www.deutschlandfunk.de/'
url_get = requests.get(dlf_artikel)
soup = BeautifulSoup(url_get.content, 'lxml')
inhalt = [inhalt1.get_text(strip=True) for inhalt1 in soup.select('div[class="articlemain"]')]
with open('01.txt', 'w', encoding='utf-8') as f_out:
f_out.write(inhalt[0])
nlp = spacy.load("de_core_news_md")
my_doc = nlp(inhalt[0])
token_list = []
for token in my_doc:
token_list.append(token.text)
with open('01.txt', 'w', encoding='utf-8') as f_out:
f_out.write(token_list[0])
Mein Problem ist, dass ich nicht weiß, wie ich alle Wörter in der .txt Datei "tokenized" bekomme. Ich weiß, dass der Code extrem ineffizient ist, aber als Anfänger bekomme ich zurzeit nichts besseres hin. Ist es überhaupt realisierbar, dass man einen Text aus dem Web zieht und in einer .txt Datei speichert + ihn anschließend noch mal auf Tokenization filtert? Ich erwarte keine Lösung oder ähnliches, aber wäre dankbar für ein paar Tipps oder vielleicht einen Lösungsvorschlag. Falls irgendwelches Details benötigt werden, einfach Fragen. Ich poste diese schnellstmöglich. Danke schon mal im voraus!!