ich bin neu was Python angeht und versuche gerade mit regulären Ausdrücken Daten aus dem öffentlich zugänglichen Handedict (Chinesich-Deutsch Wörterbuch zu extrahieren)
Die Einträge sind wie folgt aufgebaut:
ChinesischeZeichen [wo shi de guo] / dt.Übersetzung
nun möchte ich gerne alle geklammerten Ausdrücke zum testen in eine eigene Datei schreiben.
Hier ist mein Code:
Code: Alles auswählen
#!/usr/bin/env python
# encoding: utf-8
from re import search, sub
from sys import argv
pfad="./handedict.u8"
datei = open( pfad, 'r' ).readlines() #zeilenweise
for zeilen in datei:
pinyin = search(r'\[(.*)\]', zeilen) #pinyin extrahieren
pinyin = pinyin.groups()[0]
print pinyin
open( datei + '.pinyin', 'w' ).writelines(pinyin)
Leider kommt immer die Fehlermeldung:
Traceback (most recent call last):
File "dict.py", line 21, in <module>
pinyin = pinyin.groups()[0]
AttributeError: 'NoneType' object has no attribute 'groups'
Hat jemand eine Idee?
MfG
Timo