Twitter API - Follower + Datenbank

Killver · Sonntag 22. August 2010, 21:52

Hallo!

Ich bin derzeit dabei via der Twitter API sehr, sehr viele Follower von sehr, sehr vielen Usern abzufragen. Ich benutze für die API calls derzeit die Twitter Library für Python (welche teilweise leider bisschen sehr lange braucht).

Nun folgendes Problem, ich möchte die Tabelle in meiner Datenbank in etwa so aufbauen:

ID1, TweetID, UserID, FollowerID, Is Friend

D.h. beispielhaft sollte das so aussehen dann:

1, 1, 5678, 6789, 1
1, 1, 5678, 9857, 0
1, 2, 6744, 4000, 1

Ich glaub man kann sich ein Bild machen wie ich mir das in etwa vorstelle (muss dann in Zukunft Group Bys auf die FollwoerIDs machen). IsFriend is nur ein Bool das mir sagt ob eine gegenseitige Freundschaft besteht.

Nun aber das wirkliche Problem:

Die API Calls dauern EWWWIG, d.h ich möchte, um es zumindest ein bisschen zu vereinfachen immer schauen ob ich die follower des users schon habe, um mir einen API Call zu sparen. Aber da die Tabelle astronomisch groß wird, verzögert sich die Abfrage. Ein Index würde hier zwar was bringen, aber der wächst ja nicht mit, d.h. ich müsste dauernd den Index upgraden, oder?

Vielleicht die Tabelle auf zwei Tabellen aufteilen?

Bion über Ideen sehr dankbar. Falls ich es zu kompliziert erklärt habe, bitte nochmal nachfragen

Und vielleicht jemand eine Idee wie ich di Twitter API Calls schneller amchen kann? Brauche immer Follower und Friends von user_ids.

Danke und lg
Philipp

BlackJack · Montag 23. August 2010, 06:57

@Killver: Ein Index wird ständig mitgeführt, den muss man nicht manuell aktualisieren. Was übrigens auch heisst, dass man mit Indizes Abfragen beschleunigen kann, Daten einfügen aber etwas länger dauern kann als ohne Index. Wenn man viele Daten einfügt und weiss, dass man während der Zeit keine Abfragen macht, könnte man so einen Index für die Zeit auch absichtlich abschalten oder wegwerfen und nach dem Einfügen wieder aktivieren bzw. neu aufbauen.

Deine Tabelle anscheinend nicht in Normalform. Die Follower-Beziehungen sind doch nicht von den Tweets abhängig. Oder willst Du die Veränderungen über die Zeit erfassen? Also sowas wie: bei Tweet X ist Benutzer A noch nicht Benutzer B gefolgt, aber bei Tweet Y war das der Fall. Wenn Du diese Fragen nicht an Deine DB hast, stecken dort zwei verschiedene Tabellen in einer.

Und `IsFriend` scheint mir redundant zu sein!?

noisefloor · Montag 23. August 2010, 07:20

Hallo,

aufgrund der Struktur kannst du mal über ein KV-Store nachdenken. Ist abgesehen davon schneller als MySQL & Co.

Gruß, noisefloor

jens · Montag 23. August 2010, 07:30

Hat evtl. Twitter nach außen hin eine Bremse in der API eingebaut?

Hyperion · Montag 23. August 2010, 09:52

jens hat geschrieben:Hat evtl. Twitter nach außen hin eine Bremse in der API eingebaut?

Besser wäre eine Art "Kanten"-Limit

DasIch · Montag 23. August 2010, 10:11

jens hat geschrieben:Hat evtl. Twitter nach außen hin eine Bremse in der API eingebaut?

IO dauert einfach und man kann nur eine bestimmte Anzahl an Request in einem bestimmten Zeitraum machen, sonst blockt Twitter.

Killver · Montag 23. August 2010, 10:13

BlackJack hat geschrieben: Deine Tabelle anscheinend nicht in Normalform. Die Follower-Beziehungen sind doch nicht von den Tweets abhängig. Oder willst Du die Veränderungen über die Zeit erfassen? Also sowas wie: bei Tweet X ist Benutzer A noch nicht Benutzer B gefolgt, aber bei Tweet Y war das der Fall. Wenn Du diese Fragen nicht an Deine DB hast, stecken dort zwei verschiedene Tabellen in einer.

Und `IsFriend` scheint mir redundant zu sein!?

Ich muss, sobald ich alle User-Follower Beziehungen habe, sagen können, wie welche Follower wie viele Tweets gesehen haben.

D.h. ein GROUP BY auf die Follower_IDs und ein COUNT auf die TweetIDs. Lässt sich so also nicht vermeiden :/

noisefloor · Montag 23. August 2010, 10:40

Hallo,

KV-Store.

Struktur wie folgt (sofern ich dein Anliegen richtig verstanden habe):

$USERID:tweets = (Liste der Tweet-IDs)
$USERSID:follower = (Lister der Follower-IDs)
$TWEEDID:follower =(Lister der User-IDs, die dem Tweet gefolgt sind)
$FOLLOWERID:tweets = (Liste der Tweet-IDs)

Sollte sich mit z.B. mit Redis + Python-Bindings recht leicht realisieren lassen.

Gruß, noisefloor