Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (141)
- Article (72)
- Book (22)
- Conference Proceeding (11)
- Part of Periodical (9)
- Other (7)
- Review (4)
- Working Paper (4)
- Report (2)
- Bachelor Thesis (1)
Language
- German (274) (remove)
Keywords
- Korpus <Linguistik> (225)
- Deutsch (112)
- Gesprochene Sprache (33)
- Korpuslinguistik (23)
- Grammatik (19)
- Sprachdaten (16)
- Sprachgebrauch (16)
- Annotation (14)
- Deutsches Referenzkorpus (DeReKo) (14)
- Computerlinguistik (12)
Publicationstate
- Veröffentlichungsversion (127)
- Zweitveröffentlichung (102)
- Postprint (10)
- Erstveröffentlichung (1)
Reviewstate
Publisher
In diesem Beitrag werden Komposita mit den relationalen Zweitgliedern Gatte und Gattin aus genderlinguistischer Perspektive untersucht, basierend auf manuell annotiertem zeitungssprachlichen Korpusmaterial. Frauen werden im analysierten Korpus ca. 12-mal häufiger in ihrer ehelichen Rolle versprachlicht als Männer. Statistische Analysen zeigen, dass sie dabei systematisch in ein possessives Verhältnis zum Ehemann gesetzt werden (Arztgattin = Gattin eines Arztes), während Ehemänner in den untersuchten Komposita tendenziell doppelt individualisiert werden (Arztgatte = Gatte, der Arzt ist). Neben den Zweitgliedern geben auch die Genera der beiden Konstituenten Aufschluss über die kodierte Bedeutungsrelation: Genusgleichheit (Kanzlergatte) führt zu einer qualifizierenden, Genusdivergenz (Kanzleringatte) zu einer possessiven Lesart. Die Analyse belegt außerdem die Existenz movierter Kompositumserstglieder – diese sind sogar die häufigste Form zur Benennung weiblicher Personen im Erstglied. Trotzdem herrscht bei der Bezugnahme auf Frauen eine größere Formenvarianz als bei Männern, welche fast ausschließlich mit maskulinen Erstgliedern versprachlicht werden. Damit zeigt die Studie, wie genderlinguistische Perspektiven auch im Bereich der Wortbildung einen neuen Analysezugang bilden.
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Redeeinleiter sind sprachliche Ausdrücke unterschiedlicher Wortarten, die relativ zur Redewiedergabe in Voran-, Mittel- oder Nachstellung stehen und eine direkte oder indirekte Redewiedergabe einleiten. Dadurch sind Redeeinleiter sehr vielfältig, womit sie sich als Untersuchungsgegenstand einer Analyse zur lexikalischen Vielfalt von Teilwortschätzen eignen.
Als Datengrundlage der vorliegenden Untersuchung dienen die manuell annotierten direkten und indirekten Redeeinleiter des Redewiedergabe-Korpus. Dieses setzt sich aus fiktionalen und nicht-fiktionalen Textausschnitten, die zwischen 1840–1920 veröffentlicht wurden, zusammen. Ziel der Analyse ist es, zu ermitteln, wie sich der Teilwortschatz der direkten und der der indirekten Redeeinleiter in ihrer lexikalischen Vielfalt voneinander unterscheiden und wie diese Unterschiede zu begründen sind. Dafür wird ein Set an quantitativen Methoden erarbeitet mit dem die lexikalische Vielfalt von Teilwortschätzen bestimmt werden kann und das in zukünftigen Untersuchungen zur lexikalischen Vielfalt als Standardrepertoire herangezogen werden kann.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.
Das Austrian Media Corpus (amc) ist mit derzeit rund 11 Mrd. Token eines der größten deutschsprachigen Korpora journalistischer Prosa. Es bietet damit weitreichende Analysemöglichkeiten für eine Vielzahl sprachwissenschaftlicher Aspekte, wie z. B. die Analyse grammatischer, orthographischer und lexikalischer Variation oder die Erforschung diskurslinguistischer wie attitudinal-perzeptiver Fragestellungen. In diesem Beitrag geben wir Einblicke in Beispielanalysen zu Standard(schrift)sprache auf Basis des amc sowie deren Bedeutung für die Erforschung von Sprachvariation in Österreich, um das enorme Potenzial des Korpus für sprachwissenschaftliche Fragestellungen zu illustrieren.
Dieser Beitrag beschreibt die Prozesse der Datenerhebung, -aufbereitung und geplanten Veröffentlichung eines Teilkorpus des vom österreichischen Wissenschaftsfonds (FWF) finanzierten Spezialforschungsbereichs (SFB) „Deutsch in Österreich. Variation – Kontakt – Perzeption“ (FWF F060). Die Daten werden v. a. aus variationslinguistischer, kontaktlinguistischer wie auch perzeptionslinguistischer Perspektive analysiert, wofür eigene Tools entwickelt wurden, die – ebenso wie das Korpus selbst – mittelfristig der interessierten Öffentlichkeit zur Verfügung gestellt werden.
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
Einleitung
(2023)
Das Werk versteht sich als eine Darstellung der wichtigsten syntaktischen, prosodischen, semantischen und pragmatischen Eigenschaften kausaler und konditionaler Konnektoren des gesprochenen Deutsch.
Die Untersuchung formuliert notwendige theoretische Grundlagen und zeigt die komplexe Interaktion mehrerer Faktoren, die sich auf die Interpretation einer Äußerung auswirken. Empirische Daten belegen, dass die kontextuelle und pragmatische Interpretation der untersuchten Relationen stark mit ihren syntaktischen und prosodischen Mustern korreliert. Jedoch handelt es sich nicht um eine Eins-zu-eins-Beziehung, denn gleiche Lesarten können von kausalen und konditionalen Relationen unterschiedlich markiert sein. Anhand der Ergebnisse wird das Verhältnis zwischen Konditionalität und Kausalität diskutiert.
Anhand einer korpusgestützten Untersuchung komplexer Adjektive mit dem Erstelement {gender-} mit DeReKoVecs wird gezeigt, welche Möglichkeiten zur differenzierten sprachlichen Integration von neuen Diskurselementen die Wortbildung des Adjektivs bietet. Gerade die zwischen den klassischen Typen Komposition und Derivation stehenden Techniken bieten hier eine erhebliche Bandbreite an Möglichkeiten.
For many reasons, Mennonite Low German is a language whose documentation and investigation is of great importance for linguistics. To date, most research projects that deal with this language and/ or its speakers have had a relatively narrow focus, with many of the data cited being of limited relevance beyond the projects for which they were collected. In order to create a resource for a broad range of researchers, especially those working on Mennonite Low German, the dataset presented here has been transformed into a structured and searchable corpus that is accessible online. The translations of 46 English, Spanish, or Portuguese stimulus sentences into Mennonite Low German by 321 consultants form the core of the MEND-corpus (Mennonite Low German in North and South America) in the Archive for Spoken German. In addition to describing the origin of this corpus and discussing possibilities and limitations for further research, we discuss the technical structure and search possibilities of the Database for Spoken German. Among other things, this database allows for a structured search of metadata, a context-sensitive token search, and the generation of virtual corpora that can be shared with others. Moreover, thanks to its text-sound alignment, one can easily switch from a particular text section of the corpus to the corresponding audio section. Aside from the desire to equip the reader with the technical knowledge necessary to use this corpus, a further goal of this paper is to demonstrate that the corpus still offers many possibilities for future research.
Anders als bei Sonntagspredigten haben die katholischen und evangelischen AutorInnen von Kirche in 1live nur 90 Sekunden zur Verfügung, um ihre christliche Botschaft zu vermitteln. Vorliegender Beitrag untersucht, wie die katholischen und evangelischen AutorInnen dies tun. Welche Inhalte erachten sie für relevant? Welche sprachliche Gestaltung wählen sie? Greifen katholische und evangelische AutorInnen zu den gleichen Inhalten und sprachlichen Mitteln oder zeigen sich konfessionelle Präferenzen und Differenzen? Diesen Fragen soll an einem Korpus aus Kirche in 1live-Radiopredigten aus den Jahren 2012 bis 2021 (= 2.755 Texte mit insgesamt 726.570 Token) mit einem quantitativen und qualitativen Methoden-Mix nachgegangen werden. Die Studie wird im Rahmen des DFG-Projekts „Sprache und Konfession 500 Jahre nach der Reformation“ am Germanistischen Institut der Westfälischen Wilhelms-Universität Münster durchgeführt.
Sprachanfragen als authentische Primärdaten bergen Erkenntnispotenziale für eine große Bandbreite linguistischer und transferwissenschaftlicher Forschungsfragen und Methoden. Der Beitrag skizziert diese Potenziale und legt dabei den Fokus auf wissenschaftskommunikative Prozesse im Austausch linguistischer Laien und Experten. Anhand erster Ergebnisse einer empirischen korpusgestützten Untersuchung von ca. 50.000 Sprachanfragen wird skizziert, welche Erkenntnisse aus diesen Daten für die Vermittlung von Sprachwissen in einer zunehmend digitalisierten und vernetzten Gesellschaft gewonnen werden können.
Metadaten zu Gesprächen und den beteiligten Sprecher/-innen enthalten Informationen, die für die Beschreibung, Erschließung und Analyse von Korpora wichtig sind. Bisher werden sie jedoch in der Konversationsanalyse und der Interaktionalen Linguistik so gut wie nicht genutzt. Dieser Beitrag zeigt exemplarisch, wie Metadaten des Gesprächskorpus „Forschungs- und Lehrkorpus Gesprochenes Deutsch“ (FOLK) im Rahmen einer interaktionslinguistischen Untersuchung verwendet werden können, um Regularitäten der Verwendung einer untersuchten Gesprächspraktik zu identifizieren und ihren Zusammenhang mit den Eigenschaften von Aktivitäten und Sprecherrollen zu klären. In allgemeinerer Perspektive diskutiert der Beitrag, wie und an welchen Stellen einer interaktionslinguistischen Untersuchung Metadaten von Nutzen sein können und wie ihr Stellenwert im Rahmen dieser Methodologie kritisch reflektiert werden muss.
Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
(2023)
OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird.
Die sprachlichen Auffälligkeiten, die in Gedichten zu beobachten sind, haben immer wieder Anlass zu verschiedenen Versionen der Abweichungstheorie gegeben, derzufolge die in Gedichten verwendete Sprache von nicht-lyrischer Sprache abweicht. Expressionistische Lyrik ist insbesondere für ihre argumentstrukturellen Innovationen bekannt. Auf der Basis eines Korpus expressionistischer Gedichte wird eine Übersicht über diese Auffälligkeiten gegeben, die die Grundlage für weitere Studien darstellen soll, in denen zu zeigen sein wird, inwieweit unter bestimmten grammatiktheoretischen Annahmen die Abweichungstheorie zurückgewiesen werden kann.