Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik

Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z. B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ,,flach“ annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen. Ich argumentiere anhand der Fehlerannotation in einem Lernerkorpus dafür, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann, davon profitieren, in Mehrebenen-Modellen kodiert zu werden.

Metadaten
Author:	Anke Lüdeling
DOI:	https://doi.org/10.1515/9783110439083-004
Parent Title (German):	Sprachkorpora. Datenmengen und Erkenntnisfortschritt
Series (Serial Number):	Jahrbuch / Institut für Deutsche Sprache (^ 2006)
Publisher:	de Gruyter
Place of publication:	Berlin [u.a.]
Editor:	Werner Kallmeyer, Gisela Zifonun
Document Type:	Part of a Book
Language:	German
Year of first Publication:	2007
Date of Publication (online):	2018/09/25
Publicationstate:	Veröffentlichungsversion
Reviewstate:	(Verlags)-Lektorat
GND Keyword:	Annotation; Deutsch; Korpus <Linguistik>; Methodologie; Sprachstatistik
First Page:	28
Last Page:	48
DDC classes:	400 Sprache / 430 Deutsch
Open Access?:	ja
Leibniz-Classification:	Sprache, Linguistik
Linguistics-Classification:	Korpuslinguistik
Licence (German):	Urheberrechtlich geschützt

Open Access