Machine Learning- Vorhersage von meheren Datensätzen

AdeptusAstartes · Montag 11. November 2024, 18:49

Guten Tag zusammen,

ich arbeite an einem Projekt für meine Uni und komme nicht weiter. Ich möchte ein Machine learning Model (SVM) schreiben welches den Wärmeverbrauch vorhersagt dazu habe ich mehre Datensätze (in .csv format). Ein Datensatz ist jeweils der Wärmeverbrauch von einem Haus über das gesamte Jahr 2023, diese Datei muss ich mit einer Excel Datei verbinden um die dazugehörigen Außentemperaturen ins Model einzubinden. Nun läuft die SVM und das ist auch alles gut, allerdings nur für eine Datei. Soviel zur Erklärung jetzt die Frage:
Ich habe ein Ordner wo alle 3500 csv Datein sind, davon sollen jetzt davon sollen 100 random ausgewählt werden die Vorhersage gemacht werden und anschließend die vorhergesagten Daten gespeichert und der Durchschnitt gebildet werden und anschließend hochgerechnet.
Ich weiß allerdings nicht mit welchen Code man das machen soll oder in welchem Punkt der Aufgestellt werden muss?

Ich wäre jeden über hilfe dankbar

Ich sollte dazu noch sagen ich bin noch sehr neu mit dem Programmieren daher bräuchte ich eine möglichst genau Erklärung.
Vielen Dank im Voraus!

__blackjack__ · Montag 11. November 2024, 20:39

@AdeptusAstartes: Woran genau hakt es denn? Für Dateinamen/-pfade gibt es das `pathlib`-Modul und für Zufall das `random`-Modul. So ganz grundsätzlich gibt es in der Python-Dokumentation ein Grundlagentutorial.

AdeptusAstartes · Montag 11. November 2024, 20:52

@__blackjack__ Es ist im Prinzip durchlauf der 100 Datensätze also das die Datensätze für sich genommen, vorhergesagt werden und gespeichert werden.
Bislang lade ich halt mit pandas die 2 Datein rein um eine Vorhersage zu machen, aber dies soll dann noch mit mehreren gemacht werden die auch wieder mit der Excel datei verrbunden werden müssen diese bleibt gleich.
Quasi wie ein loop denke ich mir nur ich weis nicht wie ich ds Programmieren soll damit es ein Datei nimmt es mit der Excel datei verbindet die vorhersage macht, die Vorsage abspeichert und dann die nächste Datei nimmt un den Prozess wiederholt? Bis alle 100 Dateien durch sind um dann den mittelwert zu Berechnen.

__blackjack__ · Montag 11. November 2024, 21:25

@AdeptusAstartes: Wie gesagt: In der Python-Dokumentation gibt es ein Grundlagentutorial. Das sollte man mal durchgearbeitet haben.

Kebap · Dienstag 12. November 2024, 09:36

AdeptusAstartes hat geschrieben: Montag 11. November 2024, 18:49 ich bin noch sehr neu mit dem Programmieren daher bräuchte ich eine möglichst genau Erklärung.

Möchtest du, dass jemand diesen Code für dich schreibt? Oder möchtest du es lernen?

AdeptusAstartes · Dienstag 12. November 2024, 15:04

Kebap hat geschrieben: Dienstag 12. November 2024, 09:36
AdeptusAstartes hat geschrieben: Montag 11. November 2024, 18:49 ich bin noch sehr neu mit dem Programmieren daher bräuchte ich eine möglichst genau Erklärung.
Möchtest du, dass jemand diesen Code für dich schreibt? Oder möchtest du es lernen?

Aufgrund der zeitlichen Dringlichkeit würde ich es ehrlicherweise sehr schätzen wenn jemand diesen Code schreibt, aber prinzipiell möchte ich es lernen.

DeaD_EyE · Dienstag 12. November 2024, 17:07

Erinnert mich an Bulimielernen im Endstadium.
Hier schonmal ein Anfang, um die Dateien zu finden, in eine Liste packen und davon 100 zufällig auswählen.

Code: Alles auswählen

import random
from pathlib import Path


ALL_CSV = tuple(Path("/pfad/zu/csv/dateien").glob("*.csv"))


def get_100_samples():
    return  ramdom.sample(ALL_CSV, 100)


samples = get_100_samples()

Dann am besten eine Funktion schreiben, die z.B. eine CSV-Datei einliest und dann daraus die gewünschten Werte berechnet.

snafu · Dienstag 12. November 2024, 19:13

@AdeptusAstartes:
Nimm ne KI, die auf das Erzeugen von Programmcode spezialisiert ist. Den fertig erzeugten Code könntest du dann hier vorstellen und mit etwas Glück vielleicht noch ein paar Verbesserungen dafür erhalten. So ganz ohne Grundlage ist es jedenfalls schwierig einzuschätzen, was du am Ende wirklich haben willst. Programmieren funktioniert halt besser, wen man in Code und nicht in Prosa spricht...