wie der Titel schon sagt, habe ich ein Problem mit dem folgen der links auf einer Webseite mit Hilfe von Scrapy.
Habe mir schon unzählige Beispiele angeschaut, nur hat alles nicht geholfen, daher nun meine Frage, wie der Codeschnipsel abgeändert werden muss,
um die Inhalte aus dem Links zu ziehen.
Dabei sind innerhalb der verschiedenen container einzelne Links hinterlegt, die er öffnen soll um die Informationen zu speichern.
Code: Alles auswählen
class FischSpider(scrapy.Spider):
name = 'fish'
start_urls = ['http://fischausnorwegen.de/Fischschule/Fischlexikon/']
def parse (self, response):
fishs = response.xpath('//div[@class = "recipe-teaser"]')
for fish in fishs:
name = fish.xpath('h3/a/text()').extract_first()
text = fish.xpath('p/text()').extract()
Titel = fish.xpath('//div[@class = "article"]/h2')
Text2 =fish.xpath('//div[@class = "article"]/p')
relative_url = fish.xpath('h3/a/@href').extract_first()
absolute_url = response.urljoin(relative_url)
yield{'Name':name,'Beschreibung':text,'URL':relative_url,'URL2': absolute_url,'Titel':Titel,'Text':Text2}
next_page = fish.xpath('h3/a/@href').extract_first()
if next_page is not None:
#next_page = respone.xpath('h3/a/@href').extract_first()
#next_page = response.urljoin(next_page)
yield response.follow(next_page, callback = self.parse)
Vielleicht weiß einer Rat.