Ist mein Problem in Python lösbar?

Fi1892 · Montag 25. November 2019, 01:40

Lieber Forenmitglieder,

ich bin bisher nicht wirklich mit Python bewandert, jedoch mit excel VBA und R Studio. Daher habe ich mich gefragt, ob man ich mir für folgendes Problem in Python etwas schreiben könnte:
Ich muss für eine wissenschaftliche Analyse feststellen, ob eine bestimme Firma Familiengeführt ist oder nicht. Dafür habe ich eine excel mit Firmennamen und Jahreszahlen, für die ich feststellen muss, wer denn im Vorstand in einem bestimmten Jahr sitzt. Das alles finde ich über den Jahresabschluss der Firma heraus, der auf einer Website veröffentlich ist (alle Firmen müssen den dort auf der Seite hochladen). Kann ich nun ein Skript bauen, dass sich den Firmen Namen und das Jahr aus excel zieht, es dort auf der Website eingibt, den Jahresabschluss findet und als pdf speichert in einem Ordner mit dem Firmennamen? Da ich das für 6000 Einträge machen muss, würde ich mir den Monkey work gerne sparen. Würde mich also freuen, wenn wir jemand sagen kann, ob das geht und welche Grundelemente aus Python ich mir dafür angucken muss.
Vielen Dank vorab

__deets__ · Montag 25. November 2019, 09:47

Lösbar ist es, und das Thema zu dem du dich schlau machen musst für sowas nennt sich Web-scraping. Da findest du Bibliotheken und Vorgehensweisen. Und IMHO muss man zum programmieren von sowas die üblichen Kontrollstrukturen und Datentypen beherrschen. Darunter geht eigentlich nichts außer den super simplen “ich lasse eine LED blinken” Beispielen.

sparrow · Montag 25. November 2019, 09:48

Grundsätzlich geht das.

Einlesen von Excel: pandas
Webseiten parsen: BeautifulSoup

Der Rest sollte mit der Standard-Bibliothek machbar sein. Sollte die Webseite Maßnahmen haben, die das automatisierte Zugreifen verhindern oder erschweren, wird es natürlich entsprechend aufwändig.

DasIch · Montag 25. November 2019, 11:28

Je nachdem was man mit Excel machen will, ist xlwings auch einen Blick wert.

Um PDFs zu generieren gibt es z.B. reportlab. Man kann aber auch gut einfach LaTex Dokumente generieren und daraus PDFs erstellen.

__blackjack__ · Montag 25. November 2019, 12:31

Wobei es für HTML nach PDF auch noch ein paar spezialisiertere Programme gibt. Und sich eventuell auch die Frage stellt ob es überhaupt PDF sein muss. Zumindest *zusätzlich* würde ich die gescrapten Daten jedenfalls in einem Format speichern, welches man maschinell weiterverarbeiten kann. Denn wenn man später noch mal irgend etwas anderes mit den Daten machen möchte, dann bekommt man die nur schwer wieder aus PDFs rausgekratzt, weil da viel, wenn nicht alles an Struktur verloren geht, was man beispielsweise im HTML noch hat(te).