Corpus zu Stilmitteln

sunny8691 · Dienstag 28. Februar 2017, 15:24

Hallo,

ich sitze gerade an meinem Projekt, welches Kindergeschichten zum Thema hat. Mein Ziel ist es herauszufinden wie alt die Sprecher in der Geschichte sind. :K
Dazu möchte ich den Satzbau/-ebene der direkten Rede sowie Stilmittel darin untersuchen.
Gibt es einen Corpus der Stilmittel herausfindet ? Oder vielleicht auch einen der Alttags/Umgangs/Jugendsprache etc unterscheidet? Oder vielleicht auch noch einen anderen hilfreichen Corpus?

Vielen lieben Dank für eure Hilfe

pixewakb · Donnerstag 2. März 2017, 19:00

Ich würde den Dozenten fragen, meine Meinung. Das, was Du da beschreibst, ist nicht mein Arbeitsgebiet, d. h. ich kann dazu nichts (!) zuverlässig sagen. Ich hatte vor Jahren mal in einer User Group mit einer Computerlinguistin zu tun, allerdings interessierte die sich für Syntax und nicht für Literatur(wissenschaft). Was spricht ggf. dagegen selbst ein Corpus zusammenzustellen? Ich würde an so etwas wie WikiSource oder Projekt Gutenberg oder ... denken. Ich habe am Rande hier im Forum mal mitbekommen, dass es fertige Corpora geben soll, kenne aber keine Adresse und es blieb für mich schwammig.

pixewakb · Donnerstag 2. März 2017, 19:10

https://de.wikipedia.org/wiki/Computerlinguistik

http://www.computerlinguistik.org/porta ... Ressourcen

u. a.

http://www.deutschestextarchiv.de/list/ ... lletristik

Kinderliteratur
Bake, Elise: Der Ball der Tiere. Dresden, [1891].
Brentano, Clemens: Gockel, Hinkel und Gackeleia. Frankfurt, 1838.
Busch, Wilhelm: Max und Moritz. München, 1865.
Schwab, Gustav: Die schönsten Sagen des klassischen Alterthums. Bd. 1. Stuttgart, 1838.
Schwab, Gustav: Die schönsten Sagen des klassischen Alterthums. Bd. 2. Stuttgart, 1839.
Schwab, Gustav: Die schönsten Sagen des klassischen Alterthums. Bd. 3. Stuttgart, 1840.
Widmayer, Paul: Lustiges abc. Esslingen u. a., [1892].
Das Konzert der Tiere. s. l., um 1890.

Die scheinen das Problem mit dem Urheberrecht zu haben (nur sehr alte Schinken). Ich würde den Dozenten fragen, mal bei Wikisource vorbeischauen und überlegen, einen eigenen Corpus aufzusetzen und dabei ggf. auch kleinere Texte in den Blicke nehmen.

nezzcarth · Donnerstag 2. März 2017, 20:31

@sunn8691:
Inwiefern unterscheidet sich diese Frage von deiner letzten?
Hast du dir die genannten Childes Korpora (die man übrigens auch mit NLTK ansprechen kann) angesehen? Oder suchst du -- wie
pixewakb vermutet -- keine Geschichten von Kindern (also Transkripte gesprochener Erzählungen), sondern Geschichten für
Kinder (also Kinderliteratur)? Den Vorschlag, die Dozentin/den Dozent zu befragen, würde ich unterstützen.

@pixewakb:
Es kommt natürlich darauf an, was man genau vor hat. Tendenziell geht das Erstellen eines eigenes Korpus, das gängige Merkmale aufweist, um sich für übliche (computer)linguistische Fragestellungen zu eigenen, (weit) für eine "normale" Studienleistung hinaus. Daher verwendet man oft fertige Korpora, die es teilweise frei im Netz, teilweise bei kommerziellen Anbietern gibt.

pixewakb · Samstag 4. März 2017, 21:12

@nezzcarth: Kennst Du eigentlich pysv? Falls Du in dem Bereich - professionell noch aktiv - bist, wäre es nicht schlecht, du würdest Deine Arbeit in dem Bereich z. B. dort auf einer Seite mal vorstellen, also was man als Computerlinguist professionell so macht, welche Rolle Python dabei spielt und welche Module, Ressourcen und welche Literatur man kennen sollte. Das gibt es da viel zu wenig und wäre möglicherweise für die Vernetzung ganz interessant.

Bevor die Frage aufkommt: Mein Bereich ist sehr speziell, es gibt aber prominentere Leute als mich und die sind bereits ausreichend präsent mit ihrer Arbeit.

sunny8691 · Dienstag 7. März 2017, 17:29

Vielen Dank für eure Ratschläge.

In unserem Seminar musste sich jede eine Kindergeschichte von Gutenberg.org aussuchen und mit Webanno annotieren. Also Speech, Speaker und SpeechVerb. Jetzt müssen wir ein Abschlussprojekt gestalten.
Leider gibt uns unsere Dozentin keine Tips oder Hilfe.
Den Childes Corpus Reader habe ich mir angeschaut, leider weiß ich noch nicht so ganz wie ich den anwenden soll.
Ich habe mir deswegen erstmal folgendes Vorgehen überlegt:

Programm: Liste mit Speech, Speaker
Sprecher
Liste nur mit Speaker
Gender-Korpus auf Speaker anwenden
—> Goldstandard: bei Abweichung in Problemstellung

Satzbau/Satzzeichen
Programm: Liste mit Speech und Speaker
Liste nur mit Fragesätzen: Annahme: mehr Kinder
Liste nur mit Befehlen : Annahme: mehr Erwachsene
—> Gold-Standard bei beiden
Programm: len—> zählt die Anzahl der Zeichenketten
—> Gold-Standard
Parataxen untersuchen : zB ,dass

Sprachebene/ Stilmittel
- Aufteilung der Speech: Kinder, Jugendliche, Erwachsene
Liste mit Verben aus Speech
Liste mit Adjektiven aus Speech
—> Vergleich
ggf auch eigene Liste Fachausdrücke/Umgangssprache
—> Graph
Wiederholungen

Haltet ihr das für sinnvoll?