Andererseits sind solche Indexe immer ein bisschen unschön, weil man da "magische" Zahlen verwendet. Der Name `tag` für ein Tag ist jedenfalls verständlicher als eine 1. Deshalb habe ich im ersten Verarbeitungsschritt der Zeile die drei Bestandteile direkt an Namen gebunden:
Code: Alles auswählen
token, tag, dummy = line.split('\t')
Statt `dummy` hätte ich auch den Namen `lemma` nehmen können, aber ich kennzeichne auf diese Weise gerne Namen, die nicht verwendet werden.
Als unleserlicher Einzeiler sähe das übrigens so aus:
Code: Alles auswählen
print''.join((lambda a,b,_:a+'/'+b.split('.')[0]+' ')(*s.split('\t'))if s else'\n'for s in korpus.splitlines())
Edit: @numerix: Ätsch, meins ist ein Zeichen kürzer.