Crawler mit [b]requests[/b] und html auf der HD

Hugin · Freitag 7. Februar 2020, 14:42

Hallo zusammen..

ich bastel grad an meinem 1.ten Crawler.

Nun wollte ich, bis mein Crawler alles richtig ausgibt, eine Seite "index.html" als offline Testobjekt dafür hernehmen um nicht bei jedem Versuch eine Anfrage an den Host zu schicken.

Leider beschwert sich requests (eigentlich auch klar).. das es keine Internetseite ist.
Gibt es da einen Trick die *.html auf der HD abzufragen?

Code: Alles auswählen

import requests
from bs4 import BeautifulSoup

url = ".index.html"

r = requests.get(url)
doc = BeautifulSoup(r.text, "html.parser")

Ich finde leider nichts auf https://requests.readthedocs.io oder ich such nach dem falschen Sachen :/

Grüße,

Hugin · Freitag 7. Februar 2020, 15:09

meine Ungeduld und mein schlechtes English..

bin grad über die Lösung gestolpert..

Code: Alles auswählen

import requests
from bs4 import BeautifulSoup

f = open('index.html', 'r')
s = f.read()

doc = BeautifulSoup(s, "html.parser")

Man kann zwar damit nur die eine html auslesen aber das reicht ja erstmal.