Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (71)
- Article (29)
- Book (11)
- Other (5)
- Conference Proceeding (2)
- Report (2)
- Working Paper (2)
- Review (1)
Language
- German (123) (remove)
Is part of the Bibliography
- yes (123) (remove)
Keywords
- Korpus <Linguistik> (114)
- Deutsch (47)
- Gesprochene Sprache (21)
- Korpuslinguistik (16)
- Sprachdaten (12)
- Grammatik (10)
- Deutsches Referenzkorpus (DeReKo) (9)
- Germanistik (9)
- Sprachgebrauch (8)
- Datenbank (7)
Publicationstate
- Zweitveröffentlichung (59)
- Veröffentlichungsversion (58)
- Postprint (10)
- Erstveröffentlichung (1)
Reviewstate
Publisher
In diesem Beitrag werden Komposita mit den relationalen Zweitgliedern Gatte und Gattin aus genderlinguistischer Perspektive untersucht, basierend auf manuell annotiertem zeitungssprachlichen Korpusmaterial. Frauen werden im analysierten Korpus ca. 12-mal häufiger in ihrer ehelichen Rolle versprachlicht als Männer. Statistische Analysen zeigen, dass sie dabei systematisch in ein possessives Verhältnis zum Ehemann gesetzt werden (Arztgattin = Gattin eines Arztes), während Ehemänner in den untersuchten Komposita tendenziell doppelt individualisiert werden (Arztgatte = Gatte, der Arzt ist). Neben den Zweitgliedern geben auch die Genera der beiden Konstituenten Aufschluss über die kodierte Bedeutungsrelation: Genusgleichheit (Kanzlergatte) führt zu einer qualifizierenden, Genusdivergenz (Kanzleringatte) zu einer possessiven Lesart. Die Analyse belegt außerdem die Existenz movierter Kompositumserstglieder – diese sind sogar die häufigste Form zur Benennung weiblicher Personen im Erstglied. Trotzdem herrscht bei der Bezugnahme auf Frauen eine größere Formenvarianz als bei Männern, welche fast ausschließlich mit maskulinen Erstgliedern versprachlicht werden. Damit zeigt die Studie, wie genderlinguistische Perspektiven auch im Bereich der Wortbildung einen neuen Analysezugang bilden.
Redeeinleiter sind sprachliche Ausdrücke unterschiedlicher Wortarten, die relativ zur Redewiedergabe in Voran-, Mittel- oder Nachstellung stehen und eine direkte oder indirekte Redewiedergabe einleiten. Dadurch sind Redeeinleiter sehr vielfältig, womit sie sich als Untersuchungsgegenstand einer Analyse zur lexikalischen Vielfalt von Teilwortschätzen eignen.
Als Datengrundlage der vorliegenden Untersuchung dienen die manuell annotierten direkten und indirekten Redeeinleiter des Redewiedergabe-Korpus. Dieses setzt sich aus fiktionalen und nicht-fiktionalen Textausschnitten, die zwischen 1840–1920 veröffentlicht wurden, zusammen. Ziel der Analyse ist es, zu ermitteln, wie sich der Teilwortschatz der direkten und der der indirekten Redeeinleiter in ihrer lexikalischen Vielfalt voneinander unterscheiden und wie diese Unterschiede zu begründen sind. Dafür wird ein Set an quantitativen Methoden erarbeitet mit dem die lexikalische Vielfalt von Teilwortschätzen bestimmt werden kann und das in zukünftigen Untersuchungen zur lexikalischen Vielfalt als Standardrepertoire herangezogen werden kann.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Dieser Werkstattbericht zeigt anhand verschiedener korpusbasierter Ressourcen, wie Fragen zu sprachlichen Phänomenen, die für Sprachlernende nicht oder nur unzureichend dokumentiert sind, empirisch beantwortet werden können. Besonderes Augenmerk wird dabei auf OWIDplusLIVE gelegt. Hierbei handelt es sich um ein Werkzeug zur tagesaktuellen Analyse von Token (einzelne Wortformen/Lemmata) und Bi-/Trigrammen (zwei bzw. drei direkt aufeinander folgende Token). Über eine Anbindung an KorAP können zudem Belege aus dem DeReKo (Deutsches Referenzkorpus) abgerufen und analysiert werden.
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
Einleitung
(2023)
For many reasons, Mennonite Low German is a language whose documentation and investigation is of great importance for linguistics. To date, most research projects that deal with this language and/ or its speakers have had a relatively narrow focus, with many of the data cited being of limited relevance beyond the projects for which they were collected. In order to create a resource for a broad range of researchers, especially those working on Mennonite Low German, the dataset presented here has been transformed into a structured and searchable corpus that is accessible online. The translations of 46 English, Spanish, or Portuguese stimulus sentences into Mennonite Low German by 321 consultants form the core of the MEND-corpus (Mennonite Low German in North and South America) in the Archive for Spoken German. In addition to describing the origin of this corpus and discussing possibilities and limitations for further research, we discuss the technical structure and search possibilities of the Database for Spoken German. Among other things, this database allows for a structured search of metadata, a context-sensitive token search, and the generation of virtual corpora that can be shared with others. Moreover, thanks to its text-sound alignment, one can easily switch from a particular text section of the corpus to the corresponding audio section. Aside from the desire to equip the reader with the technical knowledge necessary to use this corpus, a further goal of this paper is to demonstrate that the corpus still offers many possibilities for future research.