Definitionsliste umgeben von Text scrapen
Verfasst: Sonntag 16. April 2023, 18:04
Hallo zusammen,
ich möchte gerne den Inhalt einer Seite scrapen und das entsprechend formatiert in ein Word Dokument kopieren. Das funktioniert soweit auch ganz gut, nur bei Definitionslisten hänge ich aktuell.

Ziel soll sein, das diese Struktur auch im Word Dokument so zu finden ist.
Problem ist, wenn ich den Text extrahiere, dann sind die Definistionslisten als "nomaler" Text im Word Dokument, wenn ich die Listen extrahiere, bekomme ich Sie nur am Ende des Paragraph eingesetzt, aber nicht in der richtigen Reihenfolge.
Hoffe, es kann mir jemand den richtigen Denkanstoß geben, der Code sieht aktuell so aus:
ich möchte gerne den Inhalt einer Seite scrapen und das entsprechend formatiert in ein Word Dokument kopieren. Das funktioniert soweit auch ganz gut, nur bei Definitionslisten hänge ich aktuell.

Ziel soll sein, das diese Struktur auch im Word Dokument so zu finden ist.
Problem ist, wenn ich den Text extrahiere, dann sind die Definistionslisten als "nomaler" Text im Word Dokument, wenn ich die Listen extrahiere, bekomme ich Sie nur am Ende des Paragraph eingesetzt, aber nicht in der richtigen Reihenfolge.
Hoffe, es kann mir jemand den richtigen Denkanstoß geben, der Code sieht aktuell so aus:
Code: Alles auswählen
paragraphs = element.find_all("div", {"class": "jurAbsatz"})
for p in paragraphs:
document.add_paragraph(p.text)
definition_lists = p.find_all('dl')
for definition_list in definition_lists:
# Hinzufügen der Definition-Liste
document.add_paragraph('')
# Extrahieren und Formatieren der Definitionen der Definition-Liste
definitions = definition_list.find_all('dd')
for i, definition in enumerate(definitions, 1):
document.add_paragraph(f"{definition.text}", style='List Number')
# Speichern des Word-Dokuments
document.save('output.docx')