@incollection{EmmrichHennig2023, author = {Volker Emmrich and Mathilde Hennig}, title = {GiesKaNe: Korpusaufbau zwischen Standard und Innovation}, series = {Korpora in der germanistischen Sprachwissenschaft. M{\"u}ndlich, schriftlich, multimedial}, editor = {Arnulf Deppermann and Christian Fandrych and Marc Kupietz and Thomas Schmidt}, publisher = {de Gruyter}, address = {Berlin/Boston}, isbn = {978-3-11-108570-8}, issn = {0537-7900}, doi = {10.1515/9783111085708-010}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-116070}, pages = {199 -- 223}, year = {2023}, abstract = {Der vorliegende Beitrag er{\"o}rtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[{\"s}en]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verh{\"a}ltnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modell{\"u}bernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank f{\"u}r das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilit{\"a}t gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses erm{\"o}glicht es, aus den vorhandenen Textoberfl{\"a}chenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleicherma{\"s}en gerecht werden kann.}, language = {de} }