Crawling mit Hindernissen
Verfasst: Donnerstag 27. September 2018, 09:12
Hallo Schwarmintelligenz.
Ich arbeite zur Zeit an folgendem Projekt - Ich möchte die Textinhalte einer Plattform crawlen.
Die Seite ist azlyrics.com.
Ziel ist es, alle Texte aller Alben der Band The Rolling Stones in Listen zu speichern und per Graph darzustellen, wie häufig ein Wort in diesem Album vorkommt.
Leider funktioniert der Seitenwechsel und die Speicherung in Listen nicht, wie ich mir das vorstelle.
Hier meine bisherigen Ergebnisse:
Ich habe meine Anmerkungen drin gelassen. Möglicherweise hilft das beim Verstehen.
import requests
from bs4 import BeautifulSoup
import re
import time
from nltk.corpus import stopwords
from string import punctuation
from nltk import FreqDist
r = requests.get('https://www.azlyrics.com/lyrics/rolling ... 6.html')
#r1= requests.get('https://www.azlyrics.com/lyrics/rolling ... u.html')
doc = BeautifulSoup(r.text, "html.parser")
#doc1= BeautifulSoup(r1.text, "html.parser")
print(doc.title.text)
div_tags =doc.find('div', attrs={'class':'col-xs-12 col-lg-8 text-center'})
lyrics= div_tags.find('div', attrs={'class':None})
print(lyrics.text)
r1 = requests.get('https://www.azlyrics.com/r/rollingstones.html')
doc1 = BeautifulSoup(r1.text, "html.parser")
for song in doc1.findAll('div', attrs={'id':'listAlbum'}):
print(song.text)
#Seitenwechsel
album=doc.find('div', attrs={'id':'listAlbum'})
for link in album.find_all('a'):
# link.replace("..",'https://www.azlyrics.com')
a = link.get('href')
# for b in a:
#b = a.replace("..",'https://www.azlyrics.com')
print(a)
(P.S.: Sorry, wenn ich hier vielleicht im Vergleich zu anderen Beiträgen zu den Basics downgrade, aber ich komme einfach nicht weiter.)
VIELEN DANK IM VORAUS!!!!!
Ich arbeite zur Zeit an folgendem Projekt - Ich möchte die Textinhalte einer Plattform crawlen.
Die Seite ist azlyrics.com.
Ziel ist es, alle Texte aller Alben der Band The Rolling Stones in Listen zu speichern und per Graph darzustellen, wie häufig ein Wort in diesem Album vorkommt.
Leider funktioniert der Seitenwechsel und die Speicherung in Listen nicht, wie ich mir das vorstelle.
Hier meine bisherigen Ergebnisse:
Ich habe meine Anmerkungen drin gelassen. Möglicherweise hilft das beim Verstehen.
import requests
from bs4 import BeautifulSoup
import re
import time
from nltk.corpus import stopwords
from string import punctuation
from nltk import FreqDist
r = requests.get('https://www.azlyrics.com/lyrics/rolling ... 6.html')
#r1= requests.get('https://www.azlyrics.com/lyrics/rolling ... u.html')
doc = BeautifulSoup(r.text, "html.parser")
#doc1= BeautifulSoup(r1.text, "html.parser")
print(doc.title.text)
div_tags =doc.find('div', attrs={'class':'col-xs-12 col-lg-8 text-center'})
lyrics= div_tags.find('div', attrs={'class':None})
print(lyrics.text)
r1 = requests.get('https://www.azlyrics.com/r/rollingstones.html')
doc1 = BeautifulSoup(r1.text, "html.parser")
for song in doc1.findAll('div', attrs={'id':'listAlbum'}):
print(song.text)
#Seitenwechsel
album=doc.find('div', attrs={'id':'listAlbum'})
for link in album.find_all('a'):
# link.replace("..",'https://www.azlyrics.com')
a = link.get('href')
# for b in a:
#b = a.replace("..",'https://www.azlyrics.com')
print(a)
(P.S.: Sorry, wenn ich hier vielleicht im Vergleich zu anderen Beiträgen zu den Basics downgrade, aber ich komme einfach nicht weiter.)
VIELEN DANK IM VORAUS!!!!!