mein Cluserting ist mittlerweilte ganz ansehnlich geworden, das einzige Problem dass ich noch habe ist das Einlesen der CSV.
Dort gibt es für jede Artikelnummer eine gewisse Anzahl Datums zu denen Verkaufswerte vorliegen. Dabei kommt es zu folgenden Sachen:
Es gibt mehere Werte zum gleichen Datum (Artikelnummer 1 und 2 haben am Tag X Werte von z.B. 150 und 200, also : 2018-07, 150,200)
Es gibt Lücken, das heißt am Tag X hat Artikelnummer 1 einen Verkaufswert, 2,3 und 4 zum Beispiel aber nicht.
Wenn ich das Dataframe folgendermaßen befülle, klappt das:
Code: Alles auswählen
ef extract_articles(data, article_numbers):
result = pd.concat(
[
data[data['ARTICLENO'] == article_no]['QUANTITY']
for article_no in article_numbers
],
axis=1,
).fillna(0)
result.columns = article_numbers
return result
Wenn ich so allerdingd z.B. 100000 Zeilen einlesen will, erhalte ich folgenden Error:
ValueError: cannot reindex from a duplicate axis
Das ist ja sogar korrekt, den es gibt ja tatsächlich zu jedem Datum verschiedene Einträge.
Code: Alles auswählen
434078808 432670975
DATE
2014-06-30 0.0 1069.0
2014-07-07 448.0 1269.0
2014-08-11 281.0 1776.0
2014-08-18 235.0 1378.0
2014-08-25 357.0 0.0
2014-09-08 269.0 853.0
2014-09-22 590.0 856.0
2014-09-29 250.0 745.0
2014-10-06 305.0 966.0
2014-10-27 257.0 789.0
2014-11-24 285.0 511.0
2014-12-15 328.0 1237.0
2014-12-29 247.0 849.0
2015-01-05 189.0 848.0
2015-01-19 212.0 672.0
2015-01-26 280.0 856.0
2015-02-02 0.0 0.0
2015-02-16 250.0 953.0
2015-02-23 327.0 678.0
Geht das irgendwie? Ich hätte für die spätere Verarbeitung möglichst gerne diese Strukur.
Vielen Dank und viele Grüße