Identische IDs aus 2 XML-Dateien auslesen

Windmuehle · Montag 3. Oktober 2011, 19:46

Hallo zusammen,

ich als Python-Neuling habe ein Problem mit zwei XML-Dateien und hoffe, ihr könnt mir weiterhelfen

Die zwei XML-Dateien beinhalten u. a. sogenannte FeatureIDs. Jede FeatureID setzt sich aus 32 Zeichen zusammen (Buchstaben und Ziffern).
Ich möchte alle FeatureIDs auslesen, die sowohl in der einen, als auch in der anderen XML-Datei auftreten. Diese "doppelten" Werte sollen in eine neue Textdatei geschrieben werden.
Gibt es eine Möglichkeit, in die Suche reguläre Ausdrücke zu integrieren, um gezielt nach den FeatureIDs zu suchen, z. B. FeatureID="\(.\)\{32\}"?

Über alle Ideen zur Lösung des Problems würde ich mich sehr freuen! Danke!!

BlackJack · Montag 3. Oktober 2011, 19:51

@Windmuehle: Vergiss am besten sofort dass es reguläre Ausdrücke gibt. XML-Dateien sollte man mit einem entsprechenden Parser verarbeiten. In der Standardbibliothek gibt es `xml.etree`. Noch besser wäre das `lxml`-Paket, dass auch die `etree`-API bietet, aber mit ein paar Erweiterungen. Zum Beispiel XPath. Womit die Aufgabe zu einem Kinderspiel werden sollte.

Als Neuling sollte man sich mit den Grunddatentypen vertraut machen. In diesem Fall zum Beispiel besonders mit Mengen: `set()`.