Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (63)
- Article (10)
- Book (5)
- Review (3)
Has Fulltext
- yes (81)
Keywords
- Korpus <Linguistik> (71)
- Deutsch (27)
- Annotation (10)
- Gesprochene Sprache (9)
- Germanistik (7)
- Sprachgebrauch (7)
- Deutsches Referenzkorpus (DeReKo) (6)
- Sprachdaten (6)
- Sprachvariante (6)
- Forschungsdaten (5)
Publicationstate
- Zweitveröffentlichung (49)
- Veröffentlichungsversion (29)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (66)
- Peer-Review (12)
Publisher
- de Gruyter (81) (remove)
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Anders als bei Sonntagspredigten haben die katholischen und evangelischen AutorInnen von Kirche in 1live nur 90 Sekunden zur Verfügung, um ihre christliche Botschaft zu vermitteln. Vorliegender Beitrag untersucht, wie die katholischen und evangelischen AutorInnen dies tun. Welche Inhalte erachten sie für relevant? Welche sprachliche Gestaltung wählen sie? Greifen katholische und evangelische AutorInnen zu den gleichen Inhalten und sprachlichen Mitteln oder zeigen sich konfessionelle Präferenzen und Differenzen? Diesen Fragen soll an einem Korpus aus Kirche in 1live-Radiopredigten aus den Jahren 2012 bis 2021 (= 2.755 Texte mit insgesamt 726.570 Token) mit einem quantitativen und qualitativen Methoden-Mix nachgegangen werden. Die Studie wird im Rahmen des DFG-Projekts „Sprache und Konfession 500 Jahre nach der Reformation“ am Germanistischen Institut der Westfälischen Wilhelms-Universität Münster durchgeführt.
We investigate the optional omission of the infinitival marker in a Swedish future tense construction. During the last two decades the frequency of omission has been rapidly increasing, and this process has received considerable attention in the literature. We test whether the knowledge which has been accumulated can yield accurate predictions of language variation and change. We extracted all occurrences of the construction from a very large collection of corpora. The dataset was automatically annotated with language-internal predictors which have previously been shown or hypothesized to affect the variation. We trained several models in order to make two kinds of predictions: whether the marker will be omitted in a specific utterance and how large the proportion of omissions will be for a given time period. For most of the approaches we tried, we were not able to achieve a better-than-baseline performance. The only exception was predicting the proportion of omissions using autoregressive integrated moving average models for one-step-ahead forecast, and in this case time was the only predictor that mattered. Our data suggest that most of the language-internal predictors do have some effect on the variation, but the effect is not strong enough to yield reliable predictions.
In Dresden entsteht für den Forschungshub Digital Herrnhut der Pilot für ein agiles und multimodales Referenzkorpus der nächsten Generation (Nex-Gen Agile Reference Corpus (NARC)) in Zusammenarbeit mit der Sächsischen Landesbibliothek - Staats- und Universitätsbibliothek Dresden (SLUB). Dieses Korpus (N-ARC1) wird textliche, kartografische und audiovisuelle Quellen sowie weitere Artefakte fassen, die, miteinander vernetzt, als offene Forschungsdaten (teil-)maschinell angereichert werden können und in einer virtuellen Forschungsumgebung öffentlich und nachnutzbar zur Verfügung stehen sollen. Dafür bieten die Dokumente und Spuren der Herrnhuter Brüdergemeine - eine am Beginn des 18. Jahrhundert gegründete und in nur wenigen Jahrzehnten weltumspannende Glaubensgemeinschaft - einen idealen Ausgangspunkt. Im Beitrag werde ich exemplarisch an einigen ausgewählten Beispielen aus den Themenkreisen Datenerschließung, Datenstrukturierung, -erweiterung und -vernetzung zwischen akademischer Lehre, Forschung und bürgerwissenschaftlicher Beteiligung die Herausforderungen illustrieren, vor denen wir derzeit in der Umsetzung in Dresden stehen.
Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.
Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.
Der Beitrag thematisiert den Zusammenhang von Korpusaufbereitung, Datenanreicherung und Nutzungsszenarien im Kontext des Discourse Lab, das an der TU Darmstadt und der Universität Heidelberg betrieben und in linguistischen und interdisziplinären Forschungs- und Lehrprojekten genutzt wird. Für die Diskursforschung sind Korpora genauso konstitutiv wie die Einbeziehung von Kontexten des Sprachgebrauchs in die Analyse. Daher ist die Frage nach Repräsentationsformaten von Kontexten besonders wichtig. Eine große Rolle bei der korpuslinguistischen Kontextualisierung spielen auch Annotationen. Das wird am Darmstädter-Tagblatt-Korpus, den Plenarprotokollen des Deutschen Bundestags und den Korpora der DFG-Forschungsgruppe Kontroverse Diskurse diskutiert.
Der Beitrag liefert einen Einblick in korpuslinguistische Projekte und Aktivitäten aus dem österreichischen Sprachraum. Der Fokus liegt auf zwei primär auf die Analyse gesprochener Sprache ausgerichteten Korpora (DiÖ-Korpus und WBÖ-Korpus) sowie auf dem medial wie konzeptionell schriftlich angelegten Austrian Media Corpus. Institutionell eingebettet sind die Korpora in den Spezialforschungsbereich „Deutsch in Österreich (DiÖ)“ sowie in die Aktivitäten des Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) an der Österreichischen Akademie der Wissenschaften. Die theoretisch-methodologische Perspektive der Diskussion ist eine variationslinguistische, wobei sozio- und systemlinguistische Aspekte im Beitrag Berücksichtigung finden.