Seite 1 von 1

Bachelorarbeit technisches Problem

Verfasst: Samstag 30. November 2024, 14:26
von Marius
Hallo zusammen,
ich arbeite an meiner Bachelorarbeit und habe eine Excel-Datei mit ca. 11.000 Unternehmensnamen. Ziel ist es, jedem Unternehmen automatisiert eine passende Branche und ggf. Unterbranche (z. B. über den NACE-Code) zuzuordnen.
Aktuell habe ich nur die Unternehmensnamen, keine weiteren Informationen. Meine Idee ist, mithilfe von Python und einer API (z. B. OpenCorporates) oder ähnlichen Tools die Brancheninformationen abzurufen und die Tabelle so zu ergänzen:

Unternehmensname Branche Unterbranche
Siemens AG 27 – Herstellung von Maschinen 27.1 – Elektrotechnik
Deutsche Bank AG 64 – Finanzdienstleistungen 64.1 – Banken

Die Haupthürde besteht darin, allen 11.000 Unternehmen effizient und korrekt den NACE-Code und die Branche zuzuordnen. Da ich einen Business-Hintergrund habe, fehlt mir die technische Expertise für die Umsetzung.
Ich suche nach Ansätzen, um das Problem möglichst automatisiert zu lösen – sei es über APIs, externe Datenbanken oder andere Tools. Über Tipps und Unterstützung wäre ich sehr dankbar! 😊

Ich kann hier leider keine files anhängen, deswegen falls mir wer gerne helfen würde... discord: manoskananos

Re: Bachelorarbeit technisches Problem

Verfasst: Montag 2. Dezember 2024, 09:04
von Kebap
Lassen wir mal die Menge von 11.000 kurz außen vor. Das sind ja sehr viele. Machen wir es greifbarer.
Wähle mal 5 Unternehmen zufällig aus der Liste. Gerne auch etwas ausgefallenere Beispiele. Um ein Gefühl für die Bandbeite zu bekommen.
Wie würdest du jetzt konkret vorgehen, um ohne Python aber z.B. mit OpenCorporates die Branche und ggf. Unterbranche zu recherchieren?
Gibt es da so ein Vorgehen, das im Detail immer recht ähnlich bleibt, und das man anschließend automatisieren kann?
Oder ist es immer ein bisschen unwägbar, und man kann das nicht gut auf eine einfache Logik herunterbrechen?
Sind bspw. die Namen wirklich immer eindeutig? Oder würde man eher mehrere Unternehmen finden?
Wie genau sollte die Logik dann vorgehen, um genau den einen "richtigen" Treffer zu liefern?

Außerdem, willst du das selbst programmieren lernen, oder suchst du eigentlich eine Dienstleistung?

Re: Bachelorarbeit technisches Problem

Verfasst: Montag 2. Dezember 2024, 09:28
von imonbln
Auch ich würde wie Kebap empfiehlt mir Random eine kleine Menge heraussuchen, dann in Prosa aufschreiben was zu tun ist, um die Daten zusammenzutragen. Gerne auch nach dem Schema, wenn du die Daten hier nicht findest, siehe dort nach, wiederhole die folgenden Schritte n-mal, wen das alles nicht geht, trage denn Datensatz in eine Sonderliste ein und nimm denn nächsten.

Dannach ist es gut sich Feedback zu holen, in dem du jemanden bittest nach dieser Anleitung, einen willkürlichen Datensatz mit den Informationen anzureichern, dabei beobachtest du wie er sich anstellt, gibst aber möglichst keine Hilfestellung. Damit hast du den ersten Automatisierungsgrad erreicht, aufschreiben was gemacht werden soll!

Als nächstes Ziel versuche nach der Anleitung eine art Flowchart zu erstellen, der dann eine ziemlich gute Basis ist, das Problem mit einer Programmiersprache wie Python zu lösen.