Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (141)
- Article (72)
- Book (22)
- Conference Proceeding (11)
- Part of Periodical (9)
- Other (7)
- Review (4)
- Working Paper (4)
- Report (2)
- Bachelor Thesis (1)
Language
- German (274) (remove)
Keywords
- Korpus <Linguistik> (225)
- Deutsch (112)
- Gesprochene Sprache (33)
- Korpuslinguistik (23)
- Grammatik (19)
- Sprachdaten (16)
- Sprachgebrauch (16)
- Annotation (14)
- Deutsches Referenzkorpus (DeReKo) (14)
- Computerlinguistik (12)
Publicationstate
- Veröffentlichungsversion (127)
- Zweitveröffentlichung (102)
- Postprint (10)
- Erstveröffentlichung (1)
Reviewstate
Publisher
In diesem Beitrag werden Komposita mit den relationalen Zweitgliedern Gatte und Gattin aus genderlinguistischer Perspektive untersucht, basierend auf manuell annotiertem zeitungssprachlichen Korpusmaterial. Frauen werden im analysierten Korpus ca. 12-mal häufiger in ihrer ehelichen Rolle versprachlicht als Männer. Statistische Analysen zeigen, dass sie dabei systematisch in ein possessives Verhältnis zum Ehemann gesetzt werden (Arztgattin = Gattin eines Arztes), während Ehemänner in den untersuchten Komposita tendenziell doppelt individualisiert werden (Arztgatte = Gatte, der Arzt ist). Neben den Zweitgliedern geben auch die Genera der beiden Konstituenten Aufschluss über die kodierte Bedeutungsrelation: Genusgleichheit (Kanzlergatte) führt zu einer qualifizierenden, Genusdivergenz (Kanzleringatte) zu einer possessiven Lesart. Die Analyse belegt außerdem die Existenz movierter Kompositumserstglieder – diese sind sogar die häufigste Form zur Benennung weiblicher Personen im Erstglied. Trotzdem herrscht bei der Bezugnahme auf Frauen eine größere Formenvarianz als bei Männern, welche fast ausschließlich mit maskulinen Erstgliedern versprachlicht werden. Damit zeigt die Studie, wie genderlinguistische Perspektiven auch im Bereich der Wortbildung einen neuen Analysezugang bilden.
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Redeeinleiter sind sprachliche Ausdrücke unterschiedlicher Wortarten, die relativ zur Redewiedergabe in Voran-, Mittel- oder Nachstellung stehen und eine direkte oder indirekte Redewiedergabe einleiten. Dadurch sind Redeeinleiter sehr vielfältig, womit sie sich als Untersuchungsgegenstand einer Analyse zur lexikalischen Vielfalt von Teilwortschätzen eignen.
Als Datengrundlage der vorliegenden Untersuchung dienen die manuell annotierten direkten und indirekten Redeeinleiter des Redewiedergabe-Korpus. Dieses setzt sich aus fiktionalen und nicht-fiktionalen Textausschnitten, die zwischen 1840–1920 veröffentlicht wurden, zusammen. Ziel der Analyse ist es, zu ermitteln, wie sich der Teilwortschatz der direkten und der der indirekten Redeeinleiter in ihrer lexikalischen Vielfalt voneinander unterscheiden und wie diese Unterschiede zu begründen sind. Dafür wird ein Set an quantitativen Methoden erarbeitet mit dem die lexikalische Vielfalt von Teilwortschätzen bestimmt werden kann und das in zukünftigen Untersuchungen zur lexikalischen Vielfalt als Standardrepertoire herangezogen werden kann.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.
Das Austrian Media Corpus (amc) ist mit derzeit rund 11 Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren.
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.