Ich habe ein Problem, beidem ich nicht weiterkomme:
Ich habe 2 Datensätze:
1)
CONTIG SEQUENZ
contig1 U35_12
contig1 U35_156
contig1 U35_89
contig2 U35_23
contig2 U35_9789
2)
SEQUENZ PVALUE
U35_12 568
U35_156 12
U35_89 79
U35_23 13
U35_9789 66
Ich möchte pro CONTIG die SEQUENZ mit dem niedrigsten PVALUE haben, also:
CONTIG SEQUENZ PVALUE
contig1 U35_156 12
contig2 U35_23 13
Ein weiteres Problem ist, dass der Datensatz ziemlich gross ist (2 x 51000 Zeilen). Ich wollte über eine SQlite3 Datenbank gehen aber alleine diese zu generieren dauert Stunden. Wie kann man sowas am Besten (und schnellesten) lösen? Über dict bräuchte man ja quasi ein dict im dict:
Code: Alles auswählen
(d = {'contig1':('U35_12':568), ('U35_156':12)...})
Bin für jeden Hinweis dankbar!
Liebe Grüsse
Stefanie