Dataframesauswertung Auslastung bezüglich Zeit

mit matplotlib, NumPy, pandas, SciPy, SymPy und weiteren mathematischen Programmbibliotheken.
Antworten
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

Hallo zusammen,
ich habe eine etwas komplexere Aufgabe...zumindest scheint es mir so eine zu sein.
Ich habe ein Dataframe mit Trips eines Bikessharing Unternehmens mit "Start Station Number", "End Station Number", "Start Date" (Formate DateTime) & "End Date" (Formate DateTime).
Dazu ein zweites Dataframe mit "Station Number" und Bikeanzahl, etc. (quasi ein allgemeines Dataframe mit allen Stations inkl. Zusatzinfos)
Gibt es eine Möglichkeit die Auslastung der Stationen herauszufinden aufgrund der Start und Endzeiten der Trips sowie der zugeordneten Bikeanzahl.

Viele Grüße und danke schonmal,
Matthias :D :D
Benutzeravatar
sparrow
User
Beiträge: 4187
Registriert: Freitag 17. April 2009, 10:28

Ja.
Benutzeravatar
__blackjack__
User
Beiträge: 13077
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@Matze396: Zu welchem Zeitpunkt sind denn die Daten im zweiten DataFrame? Bevor die Trips stattfanden oder danach?
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

__blackjack__ hat geschrieben: Donnerstag 20. Juni 2019, 16:09 @Matze396: Zu welchem Zeitpunkt sind denn die Daten im zweiten DataFrame? Bevor die Trips stattfanden oder danach?
Die sind allgemein. Da stehen quasi nur allgemeine Daten zu den Stationen drin.
Also ohne jegliche Zeitpunkte. Die Bikeanzahl ist quasi nur die maximale Anzahl an Bikes die zur Verfügung steht ohne jegliche Aktualisierung.
Benutzeravatar
sparrow
User
Beiträge: 4187
Registriert: Freitag 17. April 2009, 10:28

Dann ist die Information über die Station eigentlich überflüssig. Es sei denn, es gibt so etwas wie maximale Stellplätze und die sind relevant als Obergrenze oder deren Auslastung ist gefragt.
Benutzeravatar
__blackjack__
User
Beiträge: 13077
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

Es könnte noch sein das man die Stationsnummern aus diesem zweiten Datensatz braucht, denn Stationen die an keinen Trip beteiligt waren, sind im ersten Datensatz ja gar nicht vorhanden.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

sparrow hat geschrieben: Donnerstag 20. Juni 2019, 16:43 Dann ist die Information über die Station eigentlich überflüssig. Es sei denn, es gibt so etwas wie maximale Stellplätze und die sind relevant als Obergrenze oder deren Auslastung ist gefragt.
Der zweite Datensatz enthält ja quasi nur die maximalen Stellplätze zur jeweiligen Station(Über Stationsnummer kann diese zugeordnet werden)
Benutzeravatar
__blackjack__
User
Beiträge: 13077
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@Matze396: Aber was nützt Dir diese Information wenn Du nicht vor oder nach den Trips auch Zahlen hast wie viele von diesen Stellplätzen jeweils belegt sind?
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
__deets__
User
Beiträge: 14528
Registriert: Mittwoch 14. Oktober 2015, 14:29

Hab ich mich auch gefragt, denke aber inzwischen: Relativ reicht. Die Spanne von geringster Belegung (anhand des Materials auch eine negative Nummer) zu Höchststand bestimmt die Fluktuation im gegebenen Zeitraum. Und das kann man durch die maximale Belegung dividieren und hat da einen durchaus halbwegs sinnvollen Indikator. Man kann natürlich nicht rausfinden, wieviele Leute enttäuscht abgezogen sind, weil bei 25 Kapazität aber nur 5 startbelegung nix mehr ging. Oder umgekehrt man kein Rad mehr los wurde. Doch wenn die halbwegs bestückt sind, sollte man die individuelle Attraktivität durchaus bewerten können.
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

__deets__ hat geschrieben: Donnerstag 20. Juni 2019, 19:53 Hab ich mich auch gefragt, denke aber inzwischen: Relativ reicht. Die Spanne von geringster Belegung (anhand des Materials auch eine negative Nummer) zu Höchststand bestimmt die Fluktuation im gegebenen Zeitraum. Und das kann man durch die maximale Belegung dividieren und hat da einen durchaus halbwegs sinnvollen Indikator. Man kann natürlich nicht rausfinden, wieviele Leute enttäuscht abgezogen sind, weil bei 25 Kapazität aber nur 5 startbelegung nix mehr ging. Oder umgekehrt man kein Rad mehr los wurde. Doch wenn die halbwegs bestückt sind, sollte man die individuelle Attraktivität durchaus bewerten können.
Ja relativ leicht. Soll kein Haargenaues Modell sein, sondern nur ein ungefährer Indikator dafür sein.
Danke dir schon mal:)
__deets__
User
Beiträge: 14528
Registriert: Mittwoch 14. Oktober 2015, 14:29

Wofür? Ich hab ja nix gemacht. Wenn dir klar ist, dass dir das reicht - was hast du probiert um das zu berechnen? Wir werden dir hier nicht Code frei Haus liefern, noch dazu aus recht vagen Beschreibungen. Wie konkret sehen deine Daten aus, wie konkret liest du die ein, was willst du mit denen anstellen?
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

__deets__ hat geschrieben: Donnerstag 20. Juni 2019, 21:50 Wofür? Ich hab ja nix gemacht. Wenn dir klar ist, dass dir das reicht - was hast du probiert um das zu berechnen? Wir werden dir hier nicht Code frei Haus liefern, noch dazu aus recht vagen Beschreibungen. Wie konkret sehen deine Daten aus, wie konkret liest du die ein, was willst du mit denen anstellen?
Ich soll nen groben Indikator liefern, der mir die Ungleichheit von verfügbaren und nachgefragten Bikes pro Station liefert sozusagen um das grob zu sagen.
Hab bisher nur mal die Anzahl der Starts und die Anzahl der Enden pro Station gezählt und prozentual berechnet ob ein Trip bei dieser Station öfter gestartet als beendet wird bzw. umgekehrt. So richtig Aussagekräftig ist das aber glaub ich noch nicht wirklich.
Ich brauch auch keinen Code frei haus...ich bräuchte nur etwas Hilfe oder Möglichkeiten wie man das gewünschte Ergebnis erreicht....hab gemeint ihr wisst vllt Ansätze bzw. Tools bzw. Packages die das ganze etwas erleichtern.
__deets__
User
Beiträge: 14528
Registriert: Mittwoch 14. Oktober 2015, 14:29

natürlich ist das nicht aussagekräftig. Eine Station kann 500 Starts und 500 Stops pro Tag haben, und in der Summe ist das 0 - genauso geil wie eine Station auf dem Mond nach der metrik.

Tools sind pandas und numpy.
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

__deets__ hat geschrieben: Donnerstag 20. Juni 2019, 22:05 natürlich ist das nicht aussagekräftig. Eine Station kann 500 Starts und 500 Stops pro Tag haben, und in der Summe ist das 0 - genauso geil wie eine Station auf dem Mond nach der metrik.

Tools sind pandas und numpy.
Naja aber wenn eine Station zB über einen bestimmten Zeitraum gesehen 5600 Starts aber nur 4000 Stops hat weiß man dass dort die Verfügbarkeiten für Bikes eher niedriger sein werden da viele die Bikes wo anders abstelle oder sehe ich das falsch?
__deets__
User
Beiträge: 14528
Registriert: Mittwoch 14. Oktober 2015, 14:29

Ja und? Es geht doch nicht darum, dass deine Metrik alle Stationen gleich bewertet. Habe ich nie gesagt. Doch sie klassifiziert zwei Stationen mit sehr unterschiedlicher Nutzung gleich. Findest du das sinnvoll? Soll die Firma genauso viele Bikes auf den Mond schaffen wie an den Berliner Hauptbahnhof?
Matze396
User
Beiträge: 7
Registriert: Donnerstag 20. Juni 2019, 15:45

__deets__ hat geschrieben: Donnerstag 20. Juni 2019, 23:33 Ja und? Es geht doch nicht darum, dass deine Metrik alle Stationen gleich bewertet. Habe ich nie gesagt. Doch sie klassifiziert zwei Stationen mit sehr unterschiedlicher Nutzung gleich. Findest du das sinnvoll? Soll die Firma genauso viele Bikes auf den Mond schaffen wie an den Berliner Hauptbahnhof?
Nein defintiv nicht, aber da es sich bei meinem Indikatoren um einen prozentualen Wert handelt ist das glaub ich zu vernachlässigen.
__deets__
User
Beiträge: 14528
Registriert: Mittwoch 14. Oktober 2015, 14:29

Eh. Ich glaube du hast nicht verstanden wo der Hase im Pfeffer liegt. Aber ist ja auch deine und nicht meine Aufgabe. Mit den genannten Tools kannst du deine Datenauswertung dann ja nach deinem Gusto machen.

Und noch eine Bitte: nicht immer Full Quote des Beitrages direkt davor. Den kann jeder auch so lesen.
Benutzeravatar
sparrow
User
Beiträge: 4187
Registriert: Freitag 17. April 2009, 10:28

@Matze396: Und genau das ist das Problem. Dein Indikator für was? Und prozentual von was?
Deine Aussagen wirken ein bisschen so, als wüsstest du selbst gar nicht, was du eigentlich Auswerten willst. Last, Frequenz, Bedarf - Beliebtheit?

Du solltest erst einmal klären, was du eigentlich möchtest.

__deets__ hat weiter oben im Thread ja schon eine Möglichkeit genannt, wie man einen einigermaßen aussagekräftigen Indikator ermitteln kann.
Antworten