Ziel ist erstmal, dass der Name des Artikels eingegeben wird und man den Rohtext ohne Formatierungen und Bildern erhält. Nachdem ich mich ein bißchen in die Wikipedia-API eingelesen habe, erhalte ich zumindest schonmal den eigentlichen Wikitext eines Artikels. Der nächste Schritt wäre das Parsen. Als am vielversprechendsten sah für mich hier der
Creoleparser aus, aber leider ist auch dort, wie bei ähnlichen Projekten, die Zielsetzung zu stark auf eine HTML-Ausgabe gelegt. Was ich gerne hätte, wäre der Zugriff auf einen Parse-Tree, so wie man das von den gängigen HTML-Parsern kennt. Kann mir da jemand einen Tip geben?
Die Unterteilung in Abschnitte (sonst macht das Zitieren wenig Sinn) folgt entsprechend danach. Ich dachte mir eine Syntax wie "1,3,2" = 1. Hauptabschnitt, davon der 3. Unterabschnitt und dort der 2. Absatz. Außerdem wäre eine Suchfunktion nach Überschriften gut, z.B. "Nebenwirkungen" bei einem Medikament oder "Discografie" für Bands. Erstmal müsste aber die Sache mit dem Parser gelöst werden. Vielleicht fällt ja jemandem noch was ein...
Achso,
hier der Weg, den ich gegangen bin, um an das besagte Markup zu kommen.