Falsche Formatierung beim scrappen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
nexuz89
User
Beiträge: 18
Registriert: Montag 27. Juli 2020, 10:59

Hi zusammen

Ich hab da ein kleines Problem das ich leider zu spät bemerkt habe. Ich habe eine Homepage ausgelesen.
und habe eine Falsche Formatierung ausgespuckt bekommen die ich leider so nicht gebrauchen kann.


Ausgespuckte datei in Exel:

(1,2,3) sind die Exel Tabellen/Zeilen


(1)2,BALDRIPARAN Zur Beruhigung überzogene Tabletten,`1 Pack,,"27,69",Tabletten & Kapseln,https://www.apo-rot.de/details/baldripa ... ttel,"<img alt=""BALDRIPARAN Zur Beruhigung überzogene Tabletten"" class=""img-responsive"" name=""/mproducts.own/baldriparan-zur-beruhigung-ueberzogene-tabletten-120-st.png"" src=""https://bilder.apo-rot.de/mproducts.own ... 120-st.png"" title=""BALDRIPARAN Zur Beruhigung überzogene Tabletten"">

(2)<span class=""glyphicon glyphicon-zoom-in icon-grey float-right"" style=""font-size:1.25rem

(3)</img>",10124803



Gewünschte Formatierung:

(1) 2,BALDRIPARAN Zur Beruhigung überzogene Tabletten,`1 Pack,,"27,69",Tabletten & Kapseln,https://www.apo-rot.de/details/baldripa ... hlafmittel, https://bilder.apo-rot.de/mproducts.own ... 120-st.png,
10124803

sind leider über 100.000 tausend daten also die Option den Python Code umzuschreiben und nochmal neu zuscrappen kommt nicht in frage.

Wäre echt um eine Hilfe sehr dankbar.

Vielen dank schon mal im Voraus.
Benutzeravatar
pillmuncher
User
Beiträge: 1530
Registriert: Samstag 21. März 2009, 22:59
Wohnort: Pfaffenwinkel

Was du hast scheint HTML zu sein. Da musst du halt deine Daten rauslesen und in dem Format abspeichern, das du haben willst. Schau dir mal BeautifulSoup an.
In specifications, Murphy's Law supersedes Ohm's.
Antworten