Flexible Datenaggregation
Verfasst: Samstag 25. Oktober 2008, 21:01
Hej!
Die letzten Tage habe ich mit einer Idee gespielt, dich ich gerne testen würde:
Es geht um flexible Datenaggregation. Genauer: Ich würde gerne Daten aus Logfiles in eine hierarchische Struktur organisieren (z. B. ein apache-log nach Browser und dann nach Version schachteln) und dann aggregieren (also für jeden Browser und für jede Version des Browsers die Häufigkeit berechnen), um schließlich eine Liste/Diagramm zu bauen.
Natürlich könnte ich auch die Logs zeilenweise durchgehen und einfach aufsummieren -- aber das wäre langweilig, nicht? Ich müsste zudem schon im Voraus wissen, welche Browser auftauchen werden.
Außerdem würde ich dann später gerne z. B. auch über Http-responses und URLs aggregieren, also wie oft habe ich welche Fehler, und wo wird jeder dieser Fehler produziert (und wie häufig jeweils). Oder schauen, an welchem Wochentag die Leute am längsten auf der Seite bleiben, oder ... Ich suche also eine eher allgemeine Lösung.
Wie könnte man das (ungefähr) umsetzen? Bäume aus "geschachtelten" Objekten bauen? Nested lists? Gäbe es womöglich eine bessere/einfachere Art, diese Dinge zu analysieren?
Ich würde mich über Antworten und Ideen sehr freuen -- schonmal ganz herzlichen Dank
-blinky
Die letzten Tage habe ich mit einer Idee gespielt, dich ich gerne testen würde:
Es geht um flexible Datenaggregation. Genauer: Ich würde gerne Daten aus Logfiles in eine hierarchische Struktur organisieren (z. B. ein apache-log nach Browser und dann nach Version schachteln) und dann aggregieren (also für jeden Browser und für jede Version des Browsers die Häufigkeit berechnen), um schließlich eine Liste/Diagramm zu bauen.
Natürlich könnte ich auch die Logs zeilenweise durchgehen und einfach aufsummieren -- aber das wäre langweilig, nicht? Ich müsste zudem schon im Voraus wissen, welche Browser auftauchen werden.
Außerdem würde ich dann später gerne z. B. auch über Http-responses und URLs aggregieren, also wie oft habe ich welche Fehler, und wo wird jeder dieser Fehler produziert (und wie häufig jeweils). Oder schauen, an welchem Wochentag die Leute am längsten auf der Seite bleiben, oder ... Ich suche also eine eher allgemeine Lösung.
Wie könnte man das (ungefähr) umsetzen? Bäume aus "geschachtelten" Objekten bauen? Nested lists? Gäbe es womöglich eine bessere/einfachere Art, diese Dinge zu analysieren?
Ich würde mich über Antworten und Ideen sehr freuen -- schonmal ganz herzlichen Dank
-blinky