Refine
Document Type
- Part of a Book (3)
Language
- German (3)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
- Korpus <Linguistik> (3)
- Annotation (2)
- Deutsch (1)
- Fremdsprachenlernen (1)
- Interimsprache (1)
- Lernerkorpora (1)
- Methodologie (1)
- Muttersprache (1)
- Phänomenmodellierung (1)
- Sprachstatistik (1)
Publicationstate
Reviewstate
Publisher
- de Gruyter (3)
Die Sprache von Lerner/-innen einer Fremdsprache unterscheidet sich auf allen linguistischen Ebenen von der Sprache von Muttersprachler/-innen. Seit einigen Jahrzehnten werden Lernerkorpora gebaut, um Lernersprache quantitativ und qualitativ zu analysieren. Hier argumentieren wir anhand von drei Fallbeispielen (zu Modifikation, Koselektion und rhetorischen Strukturen) für eine linguistisch informierte, tiefe Phänomenmodellierung und Annotation sowie für eine auf das jeweilige Phänomen passende formale und quantitative Modellierung. Dabei diskutieren wir die Abwägung von tiefer, mehrschichtiger Analyse einerseits und notwendigen Datenmengen für bestimmte quantitative Verfahren andererseits und zeigen, dass mittelgroße Korpora (wie die meisten Lernerkorpora) interessante Erkenntnisse ermöglichen, die große, flacher annotierte Korpora so nicht erlauben würden.
Der vorliegende Aufsatz beschäftigt sich mit einigen Aspekten der variationistischen Annotation von Korpusdaten. Anhand von mehreren Beispielen wird gezeigt, dass der Vergleich von Kategorien in einem Korpus oder der Vergleich von zwei Korpora nur unter bestimmten Bedingungen variationistisch interpretiert werden kann. Da die Definition von Variablen oft schwierig ist und die Zuordnung von Varianten zu Variablen je nach Forschungsfrage unterschiedlich sein kann, müssen Variablen und Varianten in einem Korpus (für alle transparent und nachvollziehbar) annotiert werden. Dabei wird für eine offene Korpusarchitektur argumentiert, in der in einem bestehenden Korpus jederzeit Variablen und Varianten hinzugefügt werden können.
Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z. B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ,,flach“ annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen. Ich argumentiere anhand der Fehlerannotation in einem Lernerkorpus dafür, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann, davon profitieren, in Mehrebenen-Modellen kodiert zu werden.