Refine
Year of publication
Document Type
- Article (11)
- Part of a Book (5)
- Book (1)
- Conference Proceeding (1)
- Other (1)
- Preprint (1)
- Working Paper (1)
Keywords
- Deutsch (21) (remove)
Publicationstate
- Veröffentlichungsversion (11)
- Zweitveröffentlichung (5)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (7)
- Peer-Review (6)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (6)
- de Gruyter (3)
- IDS-Verlag (2)
- Benjamins (1)
- Buske (1)
- Cornell University (1)
- Erich Schmidt (1)
- Institut für Deutsche Sprache (1)
- MDPI (1)
- Palgrave Macmillan (1)
Less than one percent of words would be affected by gender-inclusive language in German press texts
(2024)
Research on gender and language is tightly knitted to social debates on gender equality and non-discriminatory language use. Psycholinguistic scholars have made significant contributions in this field. However, corpus-based studies that investigate these matters within the context of language use are still rare. In our study, we address the question of how much textual material would actually have to be changed if non-gender-inclusive texts were rewritten to be gender-inclusive. This quantitative measure is an important empirical insight, as a recurring argument against the use of gender-inclusive German is that it supposedly makes written texts too long and complicated. It is also argued that gender-inclusive language has negative effects on language learners. However, such effects are only likely if gender-inclusive texts are very different from those that are not gender-inclusive. In our corpus-linguistic study, we manually annotated German press texts to identify the parts that would have to be changed. Our results show that, on average, less than 1% of all tokens would be affected by gender-inclusive language. This small proportion calls into question whether gender-inclusive German presents a substantial barrier to understanding and learning the language, particularly when we take into account the potential complexities of interpreting masculine generics.
We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.
In a recent article, Meylan and Griffiths (Meylan & Griffiths, 2021, henceforth, M&G) focus their attention on the significant methodological challenges that can arise when using large-scale linguistic corpora. To this end, M&G revisit a well-known result of Piantadosi, Tily, and Gibson (2011, henceforth, PT&G) who argue that average information content is a better predictor of word length than word frequency. We applaud M&G who conducted a very important study that should be read by any researcher interested in working with large-scale corpora. The fact that M&G mostly failed to find clear evidence in favor of PT&G's main finding motivated us to test PT&G's idea on a subset of the largest archive of German language texts designed for linguistic research, the German Reference Corpus consisting of ∼43 billion words. We only find very little support for the primary data point reported by PT&G.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. In this short paper, we present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated frequency lists), a continuously updated HTML page tracking the diversity of the vocabulary in the RSS corpus and a Shiny web application that enables other researchers and the broader public to explore the corpus in terms of basic frequencies.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
cOWIDplus Viewer
(2020)
Diachrone Wortschatzveränderungen werden in der Regel exemplarisch anhand bestimmter Phänomene oder Phänomenbereiche untersucht. Wir widmen uns der Frage, ob und wie Wandelprozesse auch auf globaler Ebene, also ohne sich auf bestimmte Wortschatzausschnitte festzulegen, messbar sind. Zur Untersuchung dieser Frage nutzen wir das Spiegel-Korpus, in dem alle Ausgaben der Wochenzeitschrift seit 1947 enthalten sind. Dabei gehen wir auf grundlegende Herausforderungen ein, die es dabei zu lösen gilt, wie die Verteilung sprachlicher Daten und die Folgen unterschiedlicher Subkorpusgrößen, d.h. im konkreten Fall die variierende Größe des Spiegelkorpus über die Zeit hinweg. Wir stellen ein Verfahren vor, mit dem wir in der Lage sind, flankiert von einem „Lackmustest“ zur Überprüfung der Ergebnisse, Wortschatzwandelprozesse bis auf die Mikroebene, d.h. zwischen zwei Monaten oder gar Wochen, quantitativ nachzuvollziehen.
Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.
Thema des Aufsatzes ist die Komplementsatzdistribution im Deutschen. Überprüft wird die These, dass die lexikalisch-semantischen Eigenschaften der einbettenden Verben, dabei v.a. ihre Kontrolleigenschaften sowie ihre temporale und modale Spezifikation, dafür verantwortlich sind, ob bevorzugt ein dass-Satz oder ein zu-Infinitiv selegiert wird. Eine korpuslinguistische Überprüfung dieser These zeigt, dass die genannten drei Kriterien in unterschiedlicher Weise von Bedeutung für die Komplementselektion sind. Als bedeutendster Faktor erweist sich das Kontrollkriterium. Ein weiteres wichtiges Ergebnis der Untersuchung ist, dass die Komplementselektion dem Prinzip der argumentstrukturellen Trägheit entspricht: Verben neigen dazu, als Essenz memorisierter Gebrauchsspuren eine graduelle Präferenz für ein bestimmtes Komplementationsmuster zu entwickeln.
This paper explores speakers’ notions of the situational appropriacy of linguistic variants. We conducted a web-based survey in which we collected ratings of the appropriacy of variants of linguistic variables in spoken German. A range of quantitative methods (cluster analysis, factor analysis and various forms of visualization techniques) is applied in order to analyze metalinguistic awareness and the differences in the evaluation of written vs. spoken stimuli. First, our data show that speakers’ ratings of the appropriacy of linguistic variants vary reliably with two rough clusters representing formal and informal speech situations and genres. The findings confirm that speakers adhere to a notion of spoken standard German which takes genre and register-related variation into account. Secondly, our analysis reveals a written language bias: metalinguistic awareness is strongly influenced by the physical mode of the presentation of linguistic items (spoken vs. written).
Metalinguistic awareness of standard vs standard usage. The case of determiners in spoken German
(2015)
Der Beitrag stellt die Ergebnisse einer Onlinebenutzungsstudie zur Funktion und Rezeption von Belegen im einsprachigen deutschen Onlinewörterbuch elexiko vor. Diese werden vor dem Hintergrund allgemeiner metalexikographischer und konzeptioneller Überlegungen interpretiert, ein Ausblick führt zu weiteren relevanten Fragestellungen.
Im vorliegenden Beitrag werden Ergebnisse aus zwei Benutzungsstudien präsentiert, die zum Wörterbuch elexiko im Januar bzw. März 2011 realisiert wurden. Wörterbuchbenutzungsforschung für ein neu konzipiertes, noch im Aufbau befindliches, umfangreiches Onlinewörterbuch zur deutschen Gegenwartssprache wie elexiko ist bislang nur in geringem Umfang durchgeführt worden.Dabei ist der Bedarf an Klärung der Benutzerbedürfnisse und -meinungen insgesamt groß. Solch eine Klärung kann einerseits als Bestätigung von Entscheidungen, die für Inhalt und Präsentation des Wörterbuchs getroffen wurden, dienen. Sie dient andererseits aber auch als Anregung für deren Verbesserung auf der Grundlage nicht vermeintlicher, sondern tatsächlicher Bedürfnisse und Meinungen zur Wörterbuchbenutzung.