GiesKaNe: Korpusaufbau zwischen Standard und Innovation
- Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Author: | Volker EmmrichGND, Mathilde HennigGND |
---|---|
URN: | urn:nbn:de:bsz:mh39-116070 |
DOI: | https://doi.org/10.1515/9783111085708-010 |
ISBN: | 978-3-11-108570-8 |
ISSN: | 0537-7900 |
Parent Title (German): | Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial |
Series (Serial Number): | Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) (2022) |
Publisher: | de Gruyter |
Place of publication: | Berlin/Boston |
Editor: | Arnulf Deppermann, Christian Fandrych, Marc Kupietz, Thomas Schmidt |
Document Type: | Part of a Book |
Language: | German |
Year of first Publication: | 2023 |
Date of Publication (online): | 2023/04/14 |
Publishing Institution: | Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung] |
Publicationstate: | Zweitveröffentlichung |
Reviewstate: | (Verlags)-Lektorat |
Tag: | Baumbank; Korpus GiesKaNe; Korpusaufbau; Mehrebenenannotation; POS-Tagging; Referenzkorpus; TIGER |
GND Keyword: | Annotation; Deutsch; Interoperabilität; Korpus <Linguistik>; Maschinelles Lernen |
First Page: | 199 |
Last Page: | 223 |
DDC classes: | 400 Sprache / 430 Deutsch |
Open Access?: | ja |
Linguistics-Classification: | Korpuslinguistik |
Licence (German): | ![]() |