Ich versuche gerade einen Parser zu schreiben, der mir ein Blast Result aufstückelt. Text a` la:
Ich möchte zwei Listen haben:Press ctrl-F to search in page. Press ctrl-A to copy all to clipboard
To zoom Press ctrl-plus/ctrl-minus or turn mouse wheel with ctrl-key
program-name=WU-blastp program-version=2.0MP-WashU [04-May-2006]
databases=[ name = pdb created = 2007-07-18T23:00:16+01:00]
1> PDB:1ATK_ mol:protein length:215 CATHEPSIN K
Score = 1167 (415.9), Expect = 4.3E-119
Identities = 100/215, Positives = 100/215
Q 1 APDSVDYRKKGYVTPVKNQGQCGSCWAFSSVGALEGQLKKKTGKLLNLSPQNLVDCVSEN 60 usw.
eine mit dem PDB Code(nur der Code, am besten nicht mal Anführungszeichen), sowie eine nur mit der Scoring Zahl (nur die Zahl).
Bei meinem kläglichen Versuch habe ich die störenden Reste mit "replace" entfernt...
Mein Versuch:
Code: Alles auswählen
from re import*
re1 = compile("PDB:.+?\s")
re2 = compile("Score.=.+\d")
handle= open("blast_1yk7_easy.txt")
y =handle.read()
z =re1.findall(y)
j =re2.findall(y)
handle.close()
print z
print j
Vielen Dank!