Hi,
nochmal Danke für eure Hilfe.
Ich habe am Ende doch noch das ein oder andere geändert. Ich persönlich habe Probleme mit dem erstellen und verstehen der csv... Deshalb habe ich dann nach langem googeln dafür entschieden das auf excel zu machen.
Code: Alles auswählen
# coding: utf-8
import csv
import xlsxwriter
from bs4 import BeautifulSoup
from urllib.request import urlopen
urlpfad = ("april-2015")
soup = BeautifulSoup (urlopen("http://www.xyz.de/"+urlpfad.rstrip()+"/m.html"), "html.parser")
list_id = []
list_temp = []
list_format = []
list_datum = []
#start scrapping de
results0 = soup.find_all("li", {"class": "lvresult"})
# print([results0])
for result_back_one in results0:
zero_de = result_back_one
list_id.append(zero_de.get('id'))
#print (list_id_de)
result1
...
try:
result2
...
except Exception:
pass
result3
...
#Ausgabe xlsx
workbook = xlsxwriter.Workbook(urlpfad+'.xlsx')
worksheet = workbook.add_worksheet("Sheet1")
index = 1
for entry in list_id:
worksheet.write_string(index, 0, entry)
index = index + 1
index = 1
for entry in list_temp:
worksheet.write_string(index, 1, entry)
index = index + 1
index = 1
for entry in list_format:
worksheet.write_string(index, 2, entry)
index = index + 1
index = 1
for entry in list_datum:
worksheet.write_string(index, 3, entry)
index = index + 1
print(urlpfad+'.xlsx wurde erstellt')
workbook.close()
In diesem Code verwende ich
urlpfad
Jetzt dachte ich mir, ich mache mir eine Textdatei auf dem PC, da stehen Zeilengetrennt die einzelnen "urlpfad". Und lasse das Script für jede Zeile erneut durchlaufen. Allerdings habe ich starke Probleme beim Loop. Alles was ich angefangen habe zu machen, habe ich wieder verworfen da es einfach nicht geklappt hat.
Ich habe angefangen, die Textdatei einzulessen.
Code: Alles auswählen
fileobject = open("test-import.txt")
for urlpfad in fileobject:
print (urlpfad.rstrip())
fileobject.close()
for ergebnis in urlpfad:
if ergebnis == "EoF":
break
print(ergebnis)
else:
print("Keine weiteren Pfade")
print("Finish")
Die erste Printausgabe print (urlpfad.rstrip()) hat mir das angezeigt was ich sehen wollte. Genauso wie in der Textdatei Zeilengetrennt die
urlpfad
Aber die zweite Printausgabe print(ergebnis) macht nach jedem Buchstaben oder Zahl eine neue Zeile.
Nun die frage, wie bekomme ich auch im zweiten print das sauber angezeigt, so dass ich das dann später in das Hauptscript einbauen kann?