TXT oder Datenbank wer ist schneller?

sttrader · Montag 16. Mai 2011, 13:47

Hallo Liebe Python Freunde

Ich habe mal eine Grundsatz Frage ich schreibe Börsen Handelssysteme und
verarbeite die Kurse im CSV Format. Da die Dateim immer zwischen 500 MB bis 2GB
Groß sind ist die verarbeitungs Geschwindigkeit Recht Langsamm ca 3 - 6 Minuten.

Sind Datenbanken hier schneller oder gibt es noch andere Wege die Daten schneller zu verarbeiten ??

LG ST

sparrow · Montag 16. Mai 2011, 14:21

Hallo,

die Frage ist zu allgemein, die kann man so schwer bis gar nicht beantworten.
Es gibt verschiedene Faktoren die da mit reinspielen. Wenn du die Daten sequentiell aus der Datei liest, also einmal von oben nach unten durch rauscht, dann ist da nicht mehr viel mit optimieren. Es sei denn du hälst die Daten die ganze Zeit im Speicher und sparst dir so den Festplattenzugriff.

Wenn es allerdings darum geht die Daten zu filtern, gruppieren oder bestimmte Datensätze im Betrieb auszuwählen könnte eine Datenbank um einiges schneller sein. Da liegt immerhin das Augenmerk darauf bestimmte Dataensätze recht schnell zu finden und entsprechendes Know-How liegt auf den Indexen, etc.

Gruß
Sparrow

numerix · Montag 16. Mai 2011, 15:06

sttrader hat geschrieben:Sind Datenbanken hier schneller oder gibt es noch andere Wege die Daten schneller zu verarbeiten ??

Hier findest du zwar keine finale Antwort, aber zumindest Anregungen zum Weiterdenken:
http://www.python-forum.de/viewtopic.ph ... 0&p=185537

sttrader · Montag 16. Mai 2011, 15:36

Hallo

Danke für die Antworten

Kann man denn mit dem CSV Modul auch auf datein im Ram direkt zugreifen bzw wie
Lade ich denn die CSV in den Ram ?

Hyperion · Montag 16. Mai 2011, 16:03

sttrader hat geschrieben: Kann man denn mit dem CSV Modul auch auf datein im Ram direkt zugreifen bzw

Naja mittels `StringIO`-Modul kannst Du immer File-like Objekte im RAM vorrätig halten. Die Frage ist nur: Wieso solltest Du das wollen?

Letztlich sind Speicherformate wie CSV ja nur serialisierte Daten; diese muss man vor einer internen Verarbeitung eben parsen. Sinn dahinter ist aber ja gerade, diese Daten in geeignete Datenstrukturen der Programmiersprache zu überführen.

Bei CSV fallen einem da spontan Listen, Tupel oder gar Dicts ein.

sttrader · Samstag 21. Mai 2011, 00:05

Hallo

Was meint ihr mit Raid 0 sollte es doch eigentlich auch Deutlich schneller werden oder Täusche ich mich da???

LG ST

BlackJack · Samstag 21. Mai 2011, 00:57

@sttrader: So etwas kann man nicht so pauschal beantworten. Am besten sind IMHO immer Messungen um zu sehen wo die meiste Zeit verbraucht wird, um die Stellen zu finden, wo sich Verbesserungen am ehesten lohnen. Du könntest zum Beispiel die Zeiten zwischen Verarbeitung der gleichen Daten von Festplatte und aus einer RAM-Disk vergleichen um zu sehen welchen Anteil Festplatten-I/O am Gesamtprogramm hat. Dabei musst Du aber darauf achten, dass die Daten beim Festplattentest tatsächlich von der Platte und nicht aus dem Cache kommen. Und das die Daten bei der RAM-Disk auch parallel zum benötigten Speicher bei der Verarbeitung ins physische RAM passen, damit eine Auslagerung auf Festplatte das Ergebnis nicht verfälscht.

Ansonsten müsstest Du um belastbare Zahlen zu bekommen halt mal ein RAID 0 aufsetzen und das testen.

/me · Samstag 21. Mai 2011, 07:30

sttrader hat geschrieben:Was meint ihr mit Raid 0 sollte es doch eigentlich auch Deutlich schneller werden oder Täusche ich mich da???

Ein Börsen-Handelssystem möchtest du nicht mit RAID-0 implementieren. So ein System sollte möglichst nicht ausfallen und mit RAID-0 erhöhst du die Ausfallwahrscheinlichkeit noch.

Wenn das Entscheidende die Leseperformance ist, dann verwende RAID-5. Dort kannst du parallel lesen wie bei RAID-0, hast aber noch die redundanten Informationen die bei einem Ausfall einer Platte dein System weiterarbeiten lassen. Wenn du zusätzlich noch eine hohe Schreibgeschwindigkeit benötigst, dann nimm RAID-10 (also ein RAID-0 über mehrere RAID-1 Systeme).

Bevor du allerdings anfängst hier in Hardware zu investieren solltest du allerdings wirklich erst den Flaschenhals in der aktuellen Verarbeitung finden und - falls möglich - beseitigen.

sttrader · Samstag 21. Mai 2011, 10:17

Hallo BlackJack und /me

Danke für eure Ideen und vor allem Anregungen, das Performance Problem hab ich ja nur
im Backtest auf Tick Daten der Handel per Python ist gar kein Problem Sau schnell, nur wenn
ich 1,9 GB Historische Tick Daten also wirklich jeden gehandelten Kurs (je sekunde bis 10 werte) durch ein
Handelssystem jage dann dauert es schon eine ganze weile.

Erste Messung: AMD x2 2450e, 4GB DDR2 800 Ram, hat der Test 3:30 Minuten gedauert
Zweite Messung: AMD x4 955 BE 4 GB DDR2 800 Ram, hat der Test 2:34 Minuten gedauert

Die Daten Liegen im CSV Format vor
Objekt Orientierung nicht genutzt, sondern Funktion da OO ja auch ein wenig verlangsamt,
und bei den Projekten auch nicht unbedingt nötig ist.

Wenn ich nun in den Handelssystem z.b per Brute Force Optimierung die Parameter des Regelwerkes
zu Optimieren versuchen würde, würde das jeden Normalen Zeit rammen sprengen.

Deshalb werde ich noch mal ein Test in einer RamDisk machen und mal sehen ob das was bringt ???
Irgendwo muss er doch sein der Flaschenhals

LG ST

BlackJack · Samstag 21. Mai 2011, 11:11

@sttrader: Der Flaschenhals dürfte nicht bei der Festplatte liegen. 2 GiB ⁄ 6 min sind ≈5,7 MiB⁄s und 500 MiB ⁄ 3 min sind ≈2,8 MiB⁄s. Das sind Durchsätze, die jede normale Festplatte auch ohne zusätzliche Verarbeitungszeit packt.

sttrader · Samstag 21. Mai 2011, 12:35

Hallo

Du hast recht Blackjack an der Festplatte liegt es nicht in der RAMDISK lief es überhaupt nicht schneller,
aber ich hab gesehen das einer der vier Kerne mit 100% Läuft

Bei den Prozessen macht Python zwischen 92 und 108

Jetzt gehen mir die Ideen aus

LG ST

Leonidas · Samstag 21. Mai 2011, 12:58

``multiprocessing`` eventuell?

sttrader · Samstag 21. Mai 2011, 14:34

Da wäre der Aufwand zu groß es müssten zu viele Systeme
grundlegend geändert werden

Es bleibt also dabei mit dem Langsamen Leben zu Müssen oder
eben weniger Tick Daten sondern er Minuten Daten zu nutzen was
ja geht wenn man keine Scalping System schreibt.

LG ST

HerrHagen · Samstag 21. Mai 2011, 16:00

Ich kenn deine Daten nicht, aber evtl. lässt sich das ganze mit numpy erheblich beschleunigen.
http://www.scipy.org/Cookbook/InputOutput