ich versuche mich immernoch an meinem Clustering.
Aktuell lese ich eine CSV-Datei mit Verkaufszahlen ein.
Das zugehörige Dataframe sieht dann so aus:
Code: Alles auswählen
     0     1     2     3    4    5    6    7    8    9   ...     40      41  \
0   348   381   335   347  279  290  250  305  257  285  ...    442   451   
1  1149  1169  1136  1148  903  756  745  966  887  811  ...    983  1049   
2  1216   966   834   772  463  438  425  409  386  376  ...    744   564  
3   456   471   462   478  376  348  281  276  326  249  ...    302     0.0   
Ich brauche sozusagen folgendes:
Code: Alles auswählen
     0      1         2         3...
     348    1149     1216      456
     381    1169     1136      471
     ....       ....       ....        ....
Code: Alles auswählen
def extract_articles(data, article_numbers):
    return pd.DataFrame(
        [
            data[data['ARTICLENO'] == article_no]['QUANTITY'].values
            for article_no in article_numbers
        ]
    ).fillna(0)
def read_csv_file(file_name, number_of_lines):
    return pd.read_csv(file_name, parse_dates=['DATE'], nrows=number_of_lines)
def get_unique_article_numbers(data):
    return data['ARTICLENO'].unique()
def main():
    data = read_csv_file('statistics.csv', 200)
    modeling_article_numbers = get_unique_article_numbers(data)
    modeling_data = extract_articles(data, modeling_article_numbers)
EDIT: Ich weiß, dass man mit pct_change(axis=1) auch zeilenweise berechnen kann, das bringt mir ja aber im kmeans-Algorithmus nichts, oder? Der geht ja nach wie vor von oben nach unten?

 weißt du zufällig, wie der kmeans-Algorithmus aus dem sklearn-package arbeitet?
 weißt du zufällig, wie der kmeans-Algorithmus aus dem sklearn-package arbeitet?