Big Data - wie geht man das Thema an?
Verfasst: Freitag 8. Mai 2015, 02:18
Hallo,
habe jetzt schon einige Tage über Big Data gelesen und bekomme so langsam einen Eindruck - leider keinen sehr speziellen, da vieles recht theoretisch geschrieben ist.
Was ich versuche ist folgendes:
Würde gerne Websites/Shops/Blog auf News/Produkte/Preise in einer sehr speziellen Nische analysieren.
Die URLs würde ich manuell einpflegen - alles andere soll Software übernehmen.
Ich hatte mir das jetzt so gedacht:
Man braucht einen Parser, der durchläuft alle URLs und kontrolliert um was es sich bei diesen handelt (Blog/Produkt/News/etc.) und versucht dann die Daten zu extrahieren.
Zeitstempel, Produkttitel, Preis, Shop URL, etc.
Diese Daten würde ich dann z. B. in einer CSV Datei speichern oder in einer denormalisierten DB.
Dann würde ich mir eine Software heraus suchen die Data Mining bzw. Analytics beherrscht und mir aus den Daten Informationen extrahieren kann.
Wichtig wäre mir:
Dass das alles auf Freeware/OpenSource Basis geschieht - das ist ein Lernprojekt um ein Einstieg in das Thema zu finden.
Das ich keine fundamentalen (Denk)fehler mache, da es eben mein erstes Projekt in dieser Richtung ist und selbst wenn ich noch so viele Kurse/Tutorials/Berichte lese, wird es da kaum ein ganz konkretes Vorgehen für mein Vorhaben geben.
Wenn da jemand Tipps / Ideen für mich hat - bitte gern
Jede Info die zu diesem Projekt passt ist willkommen.
Bye, Chris
habe jetzt schon einige Tage über Big Data gelesen und bekomme so langsam einen Eindruck - leider keinen sehr speziellen, da vieles recht theoretisch geschrieben ist.
Was ich versuche ist folgendes:
Würde gerne Websites/Shops/Blog auf News/Produkte/Preise in einer sehr speziellen Nische analysieren.
Die URLs würde ich manuell einpflegen - alles andere soll Software übernehmen.
Ich hatte mir das jetzt so gedacht:
Man braucht einen Parser, der durchläuft alle URLs und kontrolliert um was es sich bei diesen handelt (Blog/Produkt/News/etc.) und versucht dann die Daten zu extrahieren.
Zeitstempel, Produkttitel, Preis, Shop URL, etc.
Diese Daten würde ich dann z. B. in einer CSV Datei speichern oder in einer denormalisierten DB.
Dann würde ich mir eine Software heraus suchen die Data Mining bzw. Analytics beherrscht und mir aus den Daten Informationen extrahieren kann.
Wichtig wäre mir:
Dass das alles auf Freeware/OpenSource Basis geschieht - das ist ein Lernprojekt um ein Einstieg in das Thema zu finden.
Das ich keine fundamentalen (Denk)fehler mache, da es eben mein erstes Projekt in dieser Richtung ist und selbst wenn ich noch so viele Kurse/Tutorials/Berichte lese, wird es da kaum ein ganz konkretes Vorgehen für mein Vorhaben geben.
Wenn da jemand Tipps / Ideen für mich hat - bitte gern
Jede Info die zu diesem Projekt passt ist willkommen.
Bye, Chris