ich habe folgendes Anliegen. Ich möchte eine HTML Datei auslesen und als CSV speichern. Das klappt auch soweit mit diesem Code:
Code: Alles auswählen
import pandas as pd
url = 'toimport.HTM'
df = pd.read_html(url)
df = df[0]
print(df)
df.to_csv('data.csv', index=False)
Als Beispiel:
in der HTML steht:
Code: Alles auswählen
... 12<br>345<br>6...
Code: Alles auswählen
..., 123456, ...
Die HTML Datei wird aus einem anderen Programm generiert und ich kann diese leider nur bedingt beeinflussen (z.B. Reihenfolge und Bezeichnung der Spalten).
Nun die Frage, wie kann ich diesen Zeilenumbruch erkennen und behandeln. Am Besten wär es, wenn für jede Zeile innerhalb der Zelle eine neue Spalte in der csv erstellt wird. Da ich die CSV später weiterverarbeite wäre mir auch geholfen, wenn ich ein bestimmtes Zeichen dazwischen setze o.ä.
Oder gibt es einen anderen/besseren Ansatz dafür? Tipps?
Sorry, ich bin mit Python/Programmierungen nicht sehr bewandert.
LG und Vielen Dank