Der Koran als Topic Map

Kai Borrmann · Montag 12. Mai 2008, 16:04

Der Korantext liegt nun in einer Datei vor, in welcher jedem Satz die Nummer der Sure und der Ayat, also von Kapitel und Vers, vorangestellt ist. Ein Ausschnitt:

[71:1] #.)inn%-a #.)arsaln%-a n%-u%..han #.)il%-a qawmih%-i #.)an #.)an%--dir qawmaka min qabli #.)an ya#.)tiyahum #.(a%--d%-abun #.)al%-im
[71:2] q%-ala y%-a-qawmi #.)inn%-i lakum na%--d%-irun mub%-in
[71:3] #.)ani #.(bud%-u ll%-aha wa-ttaq%-uhu wa-#.)a%..t%-i#.(%-un
[71:4] ya%.gfir lakum min %--dun%-ubikum wa-yu#.)a%))h%))hirkum #.)il%-a #.)a%>galin musamman #.)inna #.)a%>gala ll%-ahi #.)i%--d%-a %>g%-a#.)a l%-a yu#.)a%))h%))haru law kuntum ta#.(lam%-un
[71:5] q%-ala rabbi #.)inn%-i da#.(awtu qawm%-i laylan wa-nah%-ara
[71:6] fa-lam yazidhum du#.(%-a#.)%-i #.)ill%-a fir%-ara
[71:7] wa-#.)inn%-i kullam%-a da#.(awtuhum li-ta%.gfira lahum %>ga#.(al%-u #.)a%..s%-abi#.(ahum f%-i #.)%-a%--d%-anihim wa-sta%.g\'9aaw %--tiy%-abahum wa-#.)a%..sarr%-u wa-stakbar%-u stikb%-ara
[71:8] %--tumma #.)inn%-i da#.(awtuhum %>gih%-ara
[71:9] %--tumma #.)inn%-i #.)a#.(lantu lahum wa-#.)asrartu lahum #.)isr%-ara

Im Ganzen sind das einige tausend Sätze.

Gibt es irgendwo eine Möglichkeit, diese nach ihrer Ähnlichkeit zu sortieren? Hat jemand vielleicht eine Idee?

Leonidas · Montag 12. Mai 2008, 19:26

Je nachdem wie du Ähnlichkeit definierst, kannst du versuchen es etwa mittels Levensthein-Distanz zu ermitteln.

Kai Borrmann · Mittwoch 14. Mai 2008, 23:28

Auf der folgenden Seite habe ich mal die Ausgangsüberlegungen und einige der bisherigen Ergebnisse zusammengebracht:

http://www.raunaq.info-a.googlepages.co ... ernet.html

Mein Dank an alle, die dabei geholfen haben!

audax · Donnerstag 15. Mai 2008, 00:14

*duck*

Die Einrückung des Python-Code stimmt nicht

Kai Borrmann · Donnerstag 12. Juni 2008, 19:57

Die Sache ist jetzt weiter gediehen.

Mit "Surfin' the Qur'an" lassen sich eine englische Übersetzung

und eine Transkription miteinander vergleichen. Viel Spaß!

http://qibla.appspot.com/

Kai Borrmann · Dienstag 24. Juni 2008, 10:05

Die Firma TextWise bietet sogenannte "Semantic Signatures" an.

Auf ihrer Webseite kann man Text eingeben,
der dann durch quantitative Methoden analysiert wird,
so daß dessen Ähnlichkeit mit bereits bestehenden Texten ermittelt werden kann:

http://www.semantichacker.com/

Für englische Passagen aus dem Qur'an bekam ich gute Ergebnisse.

Nun handelt es sich um kommerzielle Software;
aber vielleicht gibt es im Umfeld von Python bereits Entwicklungen,
mit denen Texte in Vektorräumen abgebildet werden?

Kai Borrmann · Donnerstag 24. Juli 2008, 17:55

Unserer Seite

http://qibla.appspot.com haben wir jetzt auch das arabische Original
und eine deutsche Übersetzung hinzugefügt.

Gruß, K.B.

farid · Donnerstag 16. Oktober 2008, 03:39

BlackJack hat geschrieben:Vorstellbar ist vieles.

Ich weiss nicht so recht ob dieses Forum die richtige Anlaufstelle ist. Die Aufgabe erfordert wesentlich mehr Fachwissen, sowohl was die Religionswissenschaft, als auch spezielle Datenstrukturen und Algorithmen für die "sematische" Aufbereitung und Speicherung von Texten betrifft, als spezielles Python-Wissen.

Unabhaengig vom Eingabetext, geht es hier allgemeinen um die Transformation eines morphologisch getaggten Textes (hier konkret der Koran, laut einem Projekt der Uni Haifa: http://cl.haifa.ac.il/projects/quran/) in ein semantisches Netzwerk.

An sich, ist es als Teilgebiet des NLP (natural language processing) aeusserst interessant, unabaengig vom Eingabetext. Es eroeffnet den Weg zur automatischen Uebersetzung aber auch Verstaendnis von Texten, auch wenn es noch bis dahin ein sehr weiter Weg ist.

@Kai: Was die Auswahl des Eingabetextes angeht (hier der Koran), da bezweifle ich aber, dass dies irgendwelche sinnvollen Ergebnisse produzieren wird. Religioese Skripturen sind in sich leider nicht abgeschlossen, d.h. sie enthalten nicht alle Informationen, die man benoetigt, um ein kohaerentes semantisches Netz zu erzeugen. Es fehlen dafuer entscheidende Teile des historischen und psychosozialen Kontexts ihrer Entstehungszeit und -umgebung. Ohne diese zusaetzlichen Informationen wird man vermutlich nicht viel daraus gewinnen koennen (trotzdem waere es interessant zu sehen, was dabei rauskommt, egal wie bruchstueckhaft es ist).

Anders ware es z.B. bei formal kodifizierten Gesetzestexten. Ich koennte mir vorstellen, dass der gesamte Korpus der deutschen Gesetze zu einem durchaus kohaerenten semantischen Netz transformiert werden koennte, was interessante Anwendungen im Bereich der Experten-Systeme eroeffnen wuerde (so eine Art "Rechtsanwalt-o-mat"). Vielleicht kommt man auch da nicht ohne bestimmte externe Zusatzinformationen aus, aber mein Bauchgefuehl(tm) verraet mir, dass es wesentlich weniger Kontextinformationen sein wuerden als bei Bibel, Koran & Co. noetig waeren.

Sorry fuer die nicht direkt auf Python bezogene Antwort.

BlackJack · Donnerstag 16. Oktober 2008, 09:04

@farid: Bei Gesetzen bin ich mir da auch nicht sicher. Mal davon abgesehen, dass es bestimmt Widersprüche geben wird, muss man ja auch Urteile mit einbeziehen, und da gibt's auf jeden Fall Widersprüche. Verschiedene Gerichte interpretieren verschiedene Paragraphen anders, was dann wieder in die Bedeutung der Paragrapgen einfliesst, weil sich andere Gerichte teilweise auf voran gegangene Urteile beziehen, andererseits aber nicht an vorangegangene Urtiele gebunden sind. Und dann beziehen sich die Gesetze immer auf Objekte von ausserhalb. Die Gesetze bestehen ja nicht zum Selbstzweck. Und die Abbildung von "realen Objekten" auf "formale Parameter" von Gesetzen ist wieder Interpretationssache.

farid · Donnerstag 16. Oktober 2008, 16:08

BlackJack hat geschrieben:@farid: Bei Gesetzen bin ich mir da auch nicht sicher.

Auch wieder wahr! Wenn's so einfach waere, haetten wir laengst entsprechende Experten-Systeme.

Aber bei Gesetzen werden die Begriffe schon ziemlich genau definiert, oft in eigens dafuer geschriebenen Paragraphen. Ausserdem werden diese Begriffe (meistens) auch genau in dem Sinne verwendet, in dem sie definiert wurden. Das ist jetzt nicht so streng wie Mathematik, aber im Vergleich zu normalen (und erst recht religioesen) Texten, sind solche juristischen Texte von einer kaum zu uebertreffenden begrifflichen Strenge.

Es stimmt aber auch, dass auch hier externer Kontext noetig ist; sei es die Rechtsprechung oder gar allgemeine philosophische Grundlagen, die bis in die griechische Antike zurueckreichen.

lunar · Donnerstag 16. Oktober 2008, 17:12

farid hat geschrieben:Aber bei Gesetzen werden die Begriffe schon ziemlich genau definiert, oft in eigens dafuer geschriebenen Paragraphen. Ausserdem werden diese Begriffe (meistens) auch genau in dem Sinne verwendet, in dem sie definiert wurden.

Gegenbeispiel Hackerparagraph. Der enthält zwar eine Definition der verbotenen Programme, die ist allerdings so schwammig, dass sie kaum zu generalisieren und somit immer abhängig vom Kontext ist.

farid · Donnerstag 16. Oktober 2008, 19:03

lunar hat geschrieben:Gegenbeispiel Hackerparagraph. Der enthält zwar eine Definition der verbotenen Programme, die ist allerdings so schwammig, dass sie kaum zu generalisieren und somit immer abhängig vom Kontext ist.

Das stimmt wiederrum! Gegen absichtlich schwammig formulierte Gummiparagraphen ist kein Kraut gewachsen...

lunar · Donnerstag 16. Oktober 2008, 19:13

Du hältst große Stücke auf die Intelligenz unserer Volksvertreter, wenn du ihnen eine absichtliche Formulierung eines derart schwammigen Paragraphen zutraust. Ich persönlich halte es ja nicht für ausgeschlossen, dass die geschätzten Herren und Damen Parlamentarier schlichtweg nur absolut gar keine Ahnung von der Materie haben, so dass ihnen nicht in den Sinn kommt, dass jedes "böse" Tool auch eine nützliche Seite hat.

Kai Borrmann · Freitag 16. Januar 2009, 16:27

Nachdem im Juli 2008 eine erste funktionsfähige Webseite veröffentlicht wurde, auf der durch das Anklicken des Textes der Koran nach beliebigen Wörtern durchsucht werden kann, bietet die Arbeitsgruppe „Qibla“ nun ein kostenloses Softwarepaket an, welches zahlreiche Verbesserungen enthält.

Wesentlich sind dies:

- unter den zahlreichen Koranübersetzungen befindet sich mit „qoraan“ eine Transkription, des weiteren eine Reduktion des Textes auf die arabischen Wurzeln sowie selbstverständlich auch das arabische Original selbst. Hierdurch potenzieren sich die Kombinationsmöglichkeiten der Suche, da bei dieser ja jeweils zwei Texte miteinander kombiniert werden können. Bitte beachten Sie, daß nur bei den bereits auf der Webseite veröffentlichten Texten die Fragen des Copyright eindeutig geklärt sind; im Zweifelsfalle schlagen wir vor, sich mit dem Übersetzer in Verbindung zu setzen.

- Nach der Eingabe eines Suchwortes wird eine Liste der Fundstellen ausgegeben. Darunter erscheint eine Graphik, welche die Verteilung der Wörter über das Textganze hinweg veranschaulicht. Neben der Gliederung des Textes in Suren können auch andere Gliederungselemente ausgewählt werden, wahlweise sind dies „Manzil“, Sure“ „Juz“ oder „ruku'“. Hierdurch ändert sich auch entscheidend die Granulariät der Darstellung.

- Hält man während des Suchvorganges im Firefox-Browser die STRING-Taste gedrückt, so wird jedes Ergebnis mit einem Tab versehen. Somit kann man anschließend bequem zwischen verschiedenen Ergebnissen, und damit Textebenen, hin- und herklicken.

Peer Janssen hat die neue Version der „Qibla“ hier zum Download zur Verfügung gestellt. http://as-stras.dyndns.info/Koranserver_V0.3.zip

Es ist zu beachten, dass für die (neue) Verteilungsdiagrammfunktion auch die Python Image Library (PIL) installiert werden muss. Wo man diese erhält, ist jetzt auch auf der Installationsseite angegeben.

Mit der kürzlich herausgegebenen (und absichtlich NICHT rückwärtskompatiblen) Version 3(000) von Python wird das Programm übrigens nicht funktionieren.

Kai Borrmann · Freitag 30. Januar 2009, 13:01

In dem Softwarepacket befindet sich auch eine Datei namens "Rootquran", die es erlaubt,
nach Bedeutungsfeldern zu suchen, die an eine arabische Konsonantenwurzel geknüpft sind.

Hier mal eine Auswahl von sozial relevanten Schlüsselwörtern:

&(dh)b (strafen, trinkbar)
&bd (als Sklave dienen, Sklave, Diener)
&dl (gerecht sein, gleich, recht, gerecht)
&dw (feindlich)
&hd (Bündnis, Bund)
&iisaa (Jesus)
&jm (Nichtaraber)
&lm (wissen)
&mr (Befehl, Befehl,Gebot, Sache)
&qb (strafen)
&ql (verständig sein, Verstand)
&yb (Schandtat)
(dh)n (hören, Verkündung)
'(th)m (sündigen, Sünde)
'Hd (Einer, Bündnis)
'aHmad (Gepriesener)
'mr (befehlen, Befehl, Gebot, Sache)
(dh)bH (schlachten)
(dh)mm (gedemütigt, stumm)
(sh)TT (Übeltat)
(sh)rk (beigesellen)
(sh)wk (Kampfgeist)
DbH (schlachten)
Drb (schlagen, prägen, einen Weg einschlagen)
HSb ((ab)rechnen)
Hjb (Schleier, verschleiern)
Hjj (Beweis, wallfahren, rechten, Beweis, Pilgerfahrt)
Hqq (Recht, Verhängnis, rechtens, wahr)
Hr(th) (Erbe, Acker)
Hrb (Krieg, Nische)
Hrm (verbieten, sakrosankt)
Hrr (frei, ungebunden)
Hsb (abrechnen, meinen,wähnen, Abrechnung)
HyD (Menstruation, Monatsblutung)
Hzb (Sonderung, Schar, Rotte, Partei)
SlH (friedfertig, rechtschaffen handeln, Salih)
Slb (kreuzigen, Lende)
Slw (beten, Gebet)
Snm (Standbild, Statue, Götzenbild)
Swr (gestalten, Sure, Gestalt)
Thr (gereinigt, rein, reinigen, Reinheit)
Tlb (erstreben, begehren)
Tlq (sich scheiden, Scheidung)
Tm(th) (entjungfert)
Tms (Menstruationsblut)
lm (unterjochen, Finsternis, Missetat)
b&l (Eheherr, Baal)
bhl (ein Gottesgericht herbeiwünschen)
bkr (jungfräulich, Morgen)
dhr (blindes Geschick)
dnr (Dinar, Denarius)
drhm (Dirham, Drachme)
fdy (sich aufopfern für)
fir&awn (Pharao)
fqh (deuten, ausdeuten)
fsd (unrechttun, verderben)
ftn (anfechten, in Versuchung führen)
fty (Auskunft begehren)
grb (Westen, Rabe)
hjr (auswandern)
hrb (flüchten)
hwd (Juden, Hud)
hyl (List)
jhd (Einsatz zeigen, abmühen,Djihad)
jhl (ungebärdig sein, unbändig, roh)
jm& (vereinigen, zusammen(bringen))
jnd (Heer, Heeresschar)
jrm (Missetat, Missetäter)
jsd (Leib)
jsm (Körper)
jzy (vergelten)
kfr (ungläubig, Kampfer, leugnen, Leugner)
klf (Unterhalt gewähren, auferlegen)
luuT (Loth)
miSr (Maysir-Spiel)
msH (Christus, der Gesalbte)
muHammad (der Gepriesene)
nSr (Sieg, Christen(Nazarener))
njs (unrein)
nsw (Ehefrauen, Frauen)
qr' (Rezitation, vortragen, Koran, Zyklus)
qrD (ein Darlehen geben, erscheinen)
qrd (Affen)
qwm (stehen, bestehen, verrichten, Volk)
r(sh)d (Mündigkeit, mündig sein)
rD& (säugen)
ramaDan (Ramadan)
rbw (Zins)
rf(th) (Beischlaf ausüben)
rhn (Unterpfand)
rjm (steinigen)
rjs (Befleckung, schmutzig, widerwärtig)
rzq (Unterhalt, ernähren)
sjd (niederknien, Moscheen, niederwerfen)
sjn (Strafgefangene, Gefängnis)
slH (Waffen)
slT (herrschen, Herrschergewalt)
slm (Frieden wünschen, sich ergeben, Friede, Ergebung, Muslim, Islam, friedvoll sein, sich ergeben in)
smm (Glutwind, (Nadel)Öhr)
swr (malen, Sure, Sure)
tawraat (Torah)
w(th)n (Götzen)
wTn (Heimatland)
wfd (Versammlung)
wqf (ruhen lassen)
wr(th) (erben, Erbe)
xTb (Ansprache, ein Begehren vortragen, predigen)
xmr (Wein)
xnq (erstickt)
xnzr (Schwein)
yhd (Juden)
zkw (Zakat, entsühnen, Entsühnung)
zny (ehebrechen)
zwj (Gatten, ehelichen, Heirat, Gatte)