Ist mein Problem in Python lösbar?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Fi1892
User
Beiträge: 1
Registriert: Montag 25. November 2019, 01:33

Lieber Forenmitglieder,

ich bin bisher nicht wirklich mit Python bewandert, jedoch mit excel VBA und R Studio. Daher habe ich mich gefragt, ob man ich mir für folgendes Problem in Python etwas schreiben könnte:
Ich muss für eine wissenschaftliche Analyse feststellen, ob eine bestimme Firma Familiengeführt ist oder nicht. Dafür habe ich eine excel mit Firmennamen und Jahreszahlen, für die ich feststellen muss, wer denn im Vorstand in einem bestimmten Jahr sitzt. Das alles finde ich über den Jahresabschluss der Firma heraus, der auf einer Website veröffentlich ist (alle Firmen müssen den dort auf der Seite hochladen). Kann ich nun ein Skript bauen, dass sich den Firmen Namen und das Jahr aus excel zieht, es dort auf der Website eingibt, den Jahresabschluss findet und als pdf speichert in einem Ordner mit dem Firmennamen? Da ich das für 6000 Einträge machen muss, würde ich mir den Monkey work gerne sparen. Würde mich also freuen, wenn wir jemand sagen kann, ob das geht und welche Grundelemente aus Python ich mir dafür angucken muss.
Vielen Dank vorab
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Lösbar ist es, und das Thema zu dem du dich schlau machen musst für sowas nennt sich Web-scraping. Da findest du Bibliotheken und Vorgehensweisen. Und IMHO muss man zum programmieren von sowas die üblichen Kontrollstrukturen und Datentypen beherrschen. Darunter geht eigentlich nichts außer den super simplen “ich lasse eine LED blinken” Beispielen.
Benutzeravatar
sparrow
User
Beiträge: 4538
Registriert: Freitag 17. April 2009, 10:28

Grundsätzlich geht das.

Einlesen von Excel: pandas
Webseiten parsen: BeautifulSoup

Der Rest sollte mit der Standard-Bibliothek machbar sein. Sollte die Webseite Maßnahmen haben, die das automatisierte Zugreifen verhindern oder erschweren, wird es natürlich entsprechend aufwändig.
DasIch
User
Beiträge: 2718
Registriert: Montag 19. Mai 2008, 04:21
Wohnort: Berlin

Je nachdem was man mit Excel machen will, ist xlwings auch einen Blick wert.

Um PDFs zu generieren gibt es z.B. reportlab. Man kann aber auch gut einfach LaTex Dokumente generieren und daraus PDFs erstellen.
Benutzeravatar
__blackjack__
User
Beiträge: 14050
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

Wobei es für HTML nach PDF auch noch ein paar spezialisiertere Programme gibt. Und sich eventuell auch die Frage stellt ob es überhaupt PDF sein muss. Zumindest *zusätzlich* würde ich die gescrapten Daten jedenfalls in einem Format speichern, welches man maschinell weiterverarbeiten kann. Denn wenn man später noch mal irgend etwas anderes mit den Daten machen möchte, dann bekommt man die nur schwer wieder aus PDFs rausgekratzt, weil da viel, wenn nicht alles an Struktur verloren geht, was man beispielsweise im HTML noch hat(te).
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
Antworten