Aufgabenstellung
1.Lesen sie die die HTML-Tabellen des Wikipedia-Artikels zu den US-amerikanischen Präsidentschaftswahlen von 2016 ein. Die URL lautet:
https://en.wikipedia.org/wiki/United_St ... gn_finance
Sollten sie die Pandas read_html() Funktion nutzen, so beachten sie bitte den Hinweis, dass es sich um die Tabelle an Indexstelle 25 handelt.
2.Bereiten sie den Datensatz folgendermaßen auf:
Benennen sie die Spalten entsprechend Liste 1 um.
Entfernen sie die ersten zwei Zeilen des Datensatzes, so dass nur die Zeilen mit Kandidaten übrig bleiben.
Entfernen sie die Fußnoten aus den Strings der Kandidatennamen (gemeint sind die eckigen Klammern und die darin enthaltenen Zahlen). Tips: Text-Daten in Pandas, str.replace
3.Ersetzen sie den numerischen Index mit der Spalte 'Candidate'.
Entfernen sie das Dollarzeichen und die Kommatas aus den verbleibenden Zellen und ändern sie den dtype der verbliebenen Zellen zu einem numerischen Typ. Tip: .astype()
4. Recherchieren sie folgende Informationen über den Datensatz und stellen sie diese kurz dar:
Was sind die Merkmalsträger?
Was sind die Variablen? Beschreiben sie hier auch, was für Informationen in den Daten kodiert sind.
Überlegen sie sich eine Fragestellung, zu deren Beantwortung diese Daten beitragen könnten.
Gehen sie zu folgender Destatis Genesis URL:
https://www-genesis.destatis.de/genesis ... scheiben=1
Laden sie den Datensatz „Studienanfänger: Bundesländer, Semester, Nationalität, Geschlecht“ als CSV Datei herunter.
Lesen sie den Datensatz mittels Pandas I/O Funktionen ein. Achten sie dabei insbesondere auf die Zeichen, die zur Seperation verwendet wurden (Tip: sep=).
Grenzen sie den Datensatz auf die zentrale Datentabelle ein. speichern sie diese als Stata Datensatz.
Material
Liste 1
'Candidate'
'Campaign committee Money raised'
'CC Money spent'
'CC Cash on hand'
'CC Debt'
'Outside groups Money raised'
'OG Money spent'
'OG Cash on hand'
'OG Total spent'