430 Deutsch
Refine
Year of publication
- 2023 (16) (remove)
Document Type
- Article (10)
- Part of a Book (5)
- Review (1)
Language
- German (16)
Has Fulltext
- yes (16)
Is part of the Bibliography
- no (16) (remove)
Keywords
- Deutsch (9)
- Korpus <Linguistik> (7)
- Annotation (2)
- Kognitive Linguistik (2)
- Mehrebenenannotation (2)
- Referenzkorpus (2)
- Sprachdaten (2)
- Sprachgebrauch (2)
- Sprachpflege (2)
- Wortschatz (2)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (15)
- Peer-Review (1)
Publisher
What is the subject of German linguistics? This seemingly simple question has no obvious answer. In the ZGL’s first issue, the editors required contributions to cover the whole of the German language and to be theoretically sound but application-orientated, whereas the current ZGL-homepage defines the German language of present and history in all its differentiations as its subject matter.
Looking through the fifty volumes of ZGL, three relationships can be identified as presumably enlightening the role of language, in particular the German language: language and mind; language and language use; language and culture. Though of a different systematic type, language and data should be added as an increasingly important pairing for conceptualizing language. On this basis, I also discuss the position of linguistic studies of the German language, mirrored in the ZGL-volumes, between social, cultural and natural sciences, as well as the corresponding epistemic approaches – like explaining vs. understanding.
In Dresden entsteht für den Forschungshub Digital Herrnhut der Pilot für ein agiles und multimodales Referenzkorpus der nächsten Generation (Nex-Gen Agile Reference Corpus (NARC)) in Zusammenarbeit mit der Sächsischen Landesbibliothek - Staats- und Universitätsbibliothek Dresden (SLUB). Dieses Korpus (N-ARC1) wird textliche, kartografische und audiovisuelle Quellen sowie weitere Artefakte fassen, die, miteinander vernetzt, als offene Forschungsdaten (teil-)maschinell angereichert werden können und in einer virtuellen Forschungsumgebung öffentlich und nachnutzbar zur Verfügung stehen sollen. Dafür bieten die Dokumente und Spuren der Herrnhuter Brüdergemeine - eine am Beginn des 18. Jahrhundert gegründete und in nur wenigen Jahrzehnten weltumspannende Glaubensgemeinschaft - einen idealen Ausgangspunkt. Im Beitrag werde ich exemplarisch an einigen ausgewählten Beispielen aus den Themenkreisen Datenerschließung, Datenstrukturierung, -erweiterung und -vernetzung zwischen akademischer Lehre, Forschung und bürgerwissenschaftlicher Beteiligung die Herausforderungen illustrieren, vor denen wir derzeit in der Umsetzung in Dresden stehen.
Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.