Big Data - wie geht man das Thema an?

Alles, was nicht direkt mit Python-Problemen zu tun hat. Dies ist auch der perfekte Platz für Jobangebote.
Antworten
chris8080
User
Beiträge: 2
Registriert: Freitag 8. Mai 2015, 02:07

Freitag 8. Mai 2015, 02:18

Hallo,

habe jetzt schon einige Tage über Big Data gelesen und bekomme so langsam einen Eindruck - leider keinen sehr speziellen, da vieles recht theoretisch geschrieben ist.
Was ich versuche ist folgendes:
Würde gerne Websites/Shops/Blog auf News/Produkte/Preise in einer sehr speziellen Nische analysieren.
Die URLs würde ich manuell einpflegen - alles andere soll Software übernehmen.

Ich hatte mir das jetzt so gedacht:
Man braucht einen Parser, der durchläuft alle URLs und kontrolliert um was es sich bei diesen handelt (Blog/Produkt/News/etc.) und versucht dann die Daten zu extrahieren.
Zeitstempel, Produkttitel, Preis, Shop URL, etc.

Diese Daten würde ich dann z. B. in einer CSV Datei speichern oder in einer denormalisierten DB.

Dann würde ich mir eine Software heraus suchen die Data Mining bzw. Analytics beherrscht und mir aus den Daten Informationen extrahieren kann.

Wichtig wäre mir:
Dass das alles auf Freeware/OpenSource Basis geschieht - das ist ein Lernprojekt um ein Einstieg in das Thema zu finden.
Das ich keine fundamentalen (Denk)fehler mache, da es eben mein erstes Projekt in dieser Richtung ist und selbst wenn ich noch so viele Kurse/Tutorials/Berichte lese, wird es da kaum ein ganz konkretes Vorgehen für mein Vorhaben geben.

Wenn da jemand Tipps / Ideen für mich hat - bitte gern :)
Jede Info die zu diesem Projekt passt ist willkommen.

Bye, Chris
Benutzeravatar
snafu
User
Beiträge: 5465
Registriert: Donnerstag 21. Februar 2008, 17:31
Wohnort: Gelsenkirchen

Freitag 8. Mai 2015, 04:19

@chris8080: Ich glaube, du interessiert dich weniger für Big Data, sondern mehr für Data Mining, also die Analyse von Daten in Hinblick auf bestimmte Merkmale. Da ist sicherlich ein interessantes Thema. Ich finde es zum Beispiel im Zusammenhang mit sozialen Netzwerken interessant. Für diesen Bereich gibt es Tools, die einem nette Graphen erstellen können, wo diverse Beziehungen zwischen Datenobjekten (zum Beispiel Facebook-Benutzern) erstellt werden können.

Es ist aber IMHO auch schon spannend, mit Datenbanken an sich zu arbeiten und mittels entsprechender Queries diverse Informationen dort herauszuholen. Hast du denn ernstzunehmende Vorkenntnisse im Bereich Datenbanken? Weil die sollte man schon haben, bevor man im großen Stil Daten analysiert.
shcol (Repo | Doc | PyPi)
chris8080
User
Beiträge: 2
Registriert: Freitag 8. Mai 2015, 02:07

Freitag 8. Mai 2015, 06:09

Bin Dipl. Inf. - arbeite seit ca. 10 Jahren mit PHP / MySQL aber stark im Web-Bereich und habe auch schon Oracle Schulungen hinter mir.

Ganz genau wie du schreibst - in erster Linie Mining / Analytics. Ob man das jetzt BigData nennen muss oder nicht und wie das nachher aussieht - das kann man sicher später auch bedenken.
Aber wenn es um Mining oder sogar BI geht, dann stellt sich ja für einen Entwickler schon die erste große Frage: Normalisieren oder nicht? Und falls ja, bis zu welcher NF? Da scheiden sich ja die Geister. Bei mir ist es ja so, dass ich insgesamt nicht viel Performance brauche, aber wenn dann eher in der Analyse - also eher nicht normalisieren würde ich sagen!?

Dann die nächste Frage nach wie geht es weiter .. würde mich da ungern in DataMiner einarbeiten den es ja in einer Free Version gibt und dann später an Grenzen zu stoßen. Es gibt ja auch Weka/Lumify/Orange und andere OS Varianten - wichtig wäre ja hierbei sicher zu sein, was sie können und ob sie für meine Idee passen, bevor man sich über Tage und Wochen da rein arbeitet.

Und dann gibt es ja noch NoSQL DB und Software die unstrukturierte Daten verarbeiten kann - damit habe ich aber noch nichts gemacht. Wäre das evtl. interessant? Oder sollte ich lieber ganz klassisch über einen Parser gehen um möglichst gute Daten zu erhalten?
Antworten