Seite 1 von 1

Pandas, Zeilenumbruch in Zelle

Verfasst: Mittwoch 16. März 2022, 13:33
von R0r3ch4ch
Hu Hu zusammen,

ich habe folgendes Anliegen. Ich möchte eine HTML Datei auslesen und als CSV speichern. Das klappt auch soweit mit diesem Code:

Code: Alles auswählen

import pandas as pd
url = 'toimport.HTM'
df = pd.read_html(url)
df = df[0]
print(df)
df.to_csv('data.csv', index=False)
Das ist super, nun folgendes Problem. In der Original HTM(L) werden in einer Spalte in in den jeweiligen Zellen mehrere Nummern mit einem Zeichenumbruch angegeben. Beim auslesen und schreiben in die csv werden diese nun "falsch" ausgegeben.

Als Beispiel:

in der HTML steht:

Code: Alles auswählen

... 12<br>345<br>6... 
in der CSV steht:

Code: Alles auswählen

..., 123456, ...
Da die Nummern unterschiedliche Länge haben kann ich diese auch nicht einfach nach einer gewissen Anzahl "trennen".
Die HTML Datei wird aus einem anderen Programm generiert und ich kann diese leider nur bedingt beeinflussen (z.B. Reihenfolge und Bezeichnung der Spalten).

Nun die Frage, wie kann ich diesen Zeilenumbruch erkennen und behandeln. Am Besten wär es, wenn für jede Zeile innerhalb der Zelle eine neue Spalte in der csv erstellt wird. Da ich die CSV später weiterverarbeite wäre mir auch geholfen, wenn ich ein bestimmtes Zeichen dazwischen setze o.ä.

Oder gibt es einen anderen/besseren Ansatz dafür? Tipps?

Sorry, ich bin mit Python/Programmierungen nicht sehr bewandert.

LG und Vielen Dank

Re: Pandas, Zeilenumbruch in Zelle

Verfasst: Mittwoch 16. März 2022, 15:31
von Sirius3
read_html ignoriert diese Tags, und ich habe keinen Weg gesehen, das zu verhindern.
Da mußt Du wohl oder übel die HTML-Seite mit BeautifulSoup selbst parsen.

Re: Pandas, Zeilenumbruch in Zelle

Verfasst: Mittwoch 16. März 2022, 16:02
von einfachTobi
Gibt auch gerade ein Issue auf Github inklusive PR dazu: https://github.com/pandas-dev/pandas/issues/29528.
Also ja, da musst du wohl aktuell noch 'händisch' ran. Hier eine Idee dazu: https://stackoverflow.com/questions/414 ... -read-html.

Re: Pandas, Zeilenumbruch in Zelle

Verfasst: Mittwoch 16. März 2022, 16:58
von R0r3ch4ch
Danke für euren Input! Ich guck mir das mal genauer an. Gebe anschließend Feedback.