Dokumente automatisch "abgreifen" und herunterladen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
HDCraftY
User
Beiträge: 4
Registriert: Freitag 8. Dezember 2017, 15:12

Hallo,

ich sitze gerade im Hiwi-Büro meines Institutes und habe unter anderem die Aufgabe verschiedene Verlags-Datenbanken nach Artikeln zu durchforsten. Anschließend sind sie falls (konstenlos) verfügbar herunterzuladen, umzubennen und in einem Ordner abzuspeichern. Zusätzlich soll ich die Artikel dann in eine Excel-Tabelle aufnehmen.

Nun wäre meine Frage: Lässt sich dieser Vorgang, bis zum Abspeichern in einem Ordner über ein Skript automatisieren ? Falls ja, gibt es dazu irgendwelche Tutorials, Beispiele etc. Das wäre nämlich mal ein schönes Projekt für mich, da ich aber wenig Erfahrung habe, wollte ich mal hier anfragen, ob das so überhaupt möglich ist und falls ja, wie potentiell komplex das werden könnte.

Mfg

HDCraftY
Benutzeravatar
pixewakb
User
Beiträge: 1408
Registriert: Sonntag 24. April 2011, 19:43

Zur Info vorab: https://www.lawbster.de/der-urheberrech ... elplaenen/

Nachtrag: Verlags-Datenbanken -- im wissenschaftlichen Bereich halte ich Verlage für potentiell schwierig. Die verbieten das sicher...

Nachtrag 2: https://de.wikipedia.org/wiki/Aaron_Swartz

Ansonsten: Eine Datenbank zu parsen stelle ich mir schwierig vor, das hängt aber davon ab, wie nett die sind: Datenbank mit Parameter-Übergabe mittels GET = einfach, Parameter-Übergabe mittels POST etwas schwieriger, aber noch einfach. Du nimmst requests mit beautifulsoup oder selenium mit beautifulsoup, falls requests nicht funktioniert.

Das Abspeichern läuft über Abgleich des Ziellinks z. B. mit Einträgen in einer Datenbank, um zu erfassen, was du schon heruntergeladen hast. Danach wird runtergeladen mittels requests oder selenium (letzteres sollte gehen). Infos nach Excel schreiben geht z. B. mit openpyxl.

Das, was du das skizzierst, ist technisch eher mittelprächtig-einfach, meine Einschätzung. Smartphone-Apps mit Machine Learning im Unterbau erscheint mir komplexer...
Benutzeravatar
noisefloor
User
Beiträge: 3843
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,
Lässt sich dieser Vorgang, bis zum Abspeichern in einem Ordner über ein Skript automatisieren ?
Grundsätzlich ja. Zu den rechtlichen Bedenken hat pixewakb ja schon was geschrieben.

Willst du wirklich eine Datenbank durchsuchen oder die Webseiten der Verlage?

Gruß, noisefloor
HDCraftY
User
Beiträge: 4
Registriert: Freitag 8. Dezember 2017, 15:12

Hallo,

danke für die schnellen Antworten. Der Fall Aaron Swartz ist mir bekannt.

Die Rechtslage ist mir da auch nicht so klar. Ich mache das ja nicht für mich, sonder für das Institut selbst. Gibt es da einen Unterschied. Das wird ja gar nicht veröffentlicht oder jemandem zu Verfügung gestellt, der nicht ohnehin Zugang hätte. Es ist eine Literaturrecherche bzw. Listenerstellung für die Wissenschaftlichen Mitarbeiter dort.

Ich denke, dass ich da wohl eine Datenbank durchsuchen würde und keine Website. Ich gebe ja, wie bei einer Bibliothek über eine Suchmaske Stichworte ein, welche mir dann die entsprechenden Dokumente anzeigen. Aber da das in die hunderte geht... Keine Ahnung, kann mir nicht vorstellen, dass die am Insitut erwarten, dass ich das alles per Hand mache.
Benutzeravatar
noisefloor
User
Beiträge: 3843
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

das müsstest du halt alles mal klären, also vor allem _wo_ du suchst. Davon ist nämlich entscheidend der mögliche Weg abhängig.
Keine Ahnung, kann mir nicht vorstellen, dass die am Insitut erwarten, dass ich das alles per Hand mache.
Du wirst doch als HiWi auf Stundenbasis bezahlt, oder? Also: so what - mehr Arbeit, mehr Geld ;-)

Gruß, noisefloor
HDCraftY
User
Beiträge: 4
Registriert: Freitag 8. Dezember 2017, 15:12

Aber monotone eintönige Arbeit. Da ich einen festen Studensatz habe, kann ich auch schwer vorausarbeiten, sonst wäre ich dann die nächsten 4 Monate nicht mehr da ;).

Konkret ginge es um den Verlag Wiley-VCH. Amerikanisch... hmmm xd
Benutzeravatar
noisefloor
User
Beiträge: 3843
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

die Frage ist halt, ob du _direkten_ Zugriff auf deren DB hast (z.B. über eine API, die die Hochschulen bereitstellen) oder ob du die Suche über deren (vermutlich vorhandenen) Web-basierten Suchmaske machen musst.

Der Programmier-technische Ansatz wäre dann nämlich völlig unterschiedlich.

Gruß, noisefloor
HDCraftY
User
Beiträge: 4
Registriert: Freitag 8. Dezember 2017, 15:12

Scheint wohl Hochschulintern zu sein. Ich denke, dann lass ich da lieber mal meine Finger davon.
nezzcarth
User
Beiträge: 1632
Registriert: Samstag 16. April 2011, 12:47

Für solche Zwecken werden die Daten normalerweise strukturiert über Schnittstellen (z. B. SRU, OAI-PMH, Z39.50) angeboten. Allerdings wirst du, wenn es für deine Datenbanken so etwas gibt, da vmtl. nicht so einfach Zugriff drauf bekommen (du kannst aber mal suchen, vielleicht hast du ja Glück). Ansonsten musst du's halt doch händisch erledigen. :)
Antworten