Scrapy Link folgen
Verfasst: Montag 29. Mai 2017, 20:40
Hallo,
wie der Titel schon sagt, habe ich ein Problem mit dem folgen der links auf einer Webseite mit Hilfe von Scrapy.
Habe mir schon unzählige Beispiele angeschaut, nur hat alles nicht geholfen, daher nun meine Frage, wie der Codeschnipsel abgeändert werden muss,
um die Inhalte aus dem Links zu ziehen.
Dabei sind innerhalb der verschiedenen container einzelne Links hinterlegt, die er öffnen soll um die Informationen zu speichern.
Die Url http://fischausnorwegen.de/Fischschule/Fischlexikon/.
Vielleicht weiß einer Rat.
wie der Titel schon sagt, habe ich ein Problem mit dem folgen der links auf einer Webseite mit Hilfe von Scrapy.
Habe mir schon unzählige Beispiele angeschaut, nur hat alles nicht geholfen, daher nun meine Frage, wie der Codeschnipsel abgeändert werden muss,
um die Inhalte aus dem Links zu ziehen.
Dabei sind innerhalb der verschiedenen container einzelne Links hinterlegt, die er öffnen soll um die Informationen zu speichern.
Code: Alles auswählen
class FischSpider(scrapy.Spider):
name = 'fish'
start_urls = ['http://fischausnorwegen.de/Fischschule/Fischlexikon/']
def parse (self, response):
fishs = response.xpath('//div[@class = "recipe-teaser"]')
for fish in fishs:
name = fish.xpath('h3/a/text()').extract_first()
text = fish.xpath('p/text()').extract()
Titel = fish.xpath('//div[@class = "article"]/h2')
Text2 =fish.xpath('//div[@class = "article"]/p')
relative_url = fish.xpath('h3/a/@href').extract_first()
absolute_url = response.urljoin(relative_url)
yield{'Name':name,'Beschreibung':text,'URL':relative_url,'URL2': absolute_url,'Titel':Titel,'Text':Text2}
next_page = fish.xpath('h3/a/@href').extract_first()
if next_page is not None:
#next_page = respone.xpath('h3/a/@href').extract_first()
#next_page = response.urljoin(next_page)
yield response.follow(next_page, callback = self.parse)
Vielleicht weiß einer Rat.