Refine
Year of publication
Document Type
- Part of a Book (363)
- Conference Proceeding (237)
- Article (189)
- Book (63)
- Other (31)
- Working Paper (22)
- Contribution to a Periodical (7)
- Review (7)
- Doctoral Thesis (6)
- Preprint (5)
Language
- German (516)
- English (416)
- French (5)
- Multiple languages (3)
Keywords
- Korpus <Linguistik> (940) (remove)
Publicationstate
- Veröffentlichungsversion (544)
- Zweitveröffentlichung (203)
- Postprint (51)
- Erstveröffentlichung (2)
- Ahead of Print (1)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (404)
- Peer-Review (304)
- Peer-review (12)
- Verlags-Lektorat (11)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (8)
- Review-Status-unbekannt (5)
- Peer-Revied (4)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (3)
- Zweitveröffentlichung (2)
- (Verlags-)Lektorat (1)
Publisher
- de Gruyter (138)
- Institut für Deutsche Sprache (57)
- Narr (47)
- European Language Resources Association (ELRA) (29)
- Leibniz-Institut für Deutsche Sprache (IDS) (29)
- IDS-Verlag (25)
- European Language Resources Association (23)
- Narr Francke Attempto (23)
- Association for Computational Linguistics (18)
- Leibniz-Institut für Deutsche Sprache (17)
Diese Monografie setzt sich neu mit Laiengedanken zur deutschen Sprache auseinander. Mit einem kleinen, aber aussagekräftigen Korpus von rund 480 schriftlichen Äußerungen muttersprachlicher und nichtmuttersprachlicher Laien zwischen 1992 und 2023 fokussiert sie sich durch viele Detailanalysen erstens auf Themen, die Laien bewegen, zweitens auf Argumente, die Laien zur Bekräftigung ihrer Ansichten anführen, und drittens auf Ausdruckstopoi, mit denen Laien argumentieren.
Die Monografie ist Ideengeber vor allem für linguistische, soziolinguistische, psychologische und gesellschaftspolitische Projekte zum Laiendiskurs im öffentlichen Raum, speziell für Projekte zu brisanten, aktuell heftig diskutierten Themen wie Antirassismus und Gendern, für Projekte zu Anglizismen, für Projekte zu Sprachwandel, Sprachverfall, Sprachpflege und Sprachpurismus, für Projekte zu Jugendsprache und Generation sowie für Projekte zur Sprache als Herrschaftsinstrument.
GraphVar ist ein Korpus aus über 1.600 Abiturarbeiten, die zwischen 1917 und 2018 an einem niedersächsischen Gymnasium geschrieben wurden. Das Hauptinteresse beim Aufbau bestand in der Beschreibung graphematischer Variation und ihrer Entwicklung über die Zeit. Leitend war die Frage, was Schreiberinnen und Schreiber eigentlich tatsächlich machen bzw. gemacht haben – und zwar unbeeinflusst von technischen Hilfsmitteln oder Schluss- und Endredaktion, aber unter vergleichbaren Bedingungen. Das Korpus bietet somit ein Fenster auf den unverfälschten Schreibgebrauch von Abiturientinnen und Abiturienten im Laufe der Zeit. Zum jetzigen Zeitpunkt sind 1.618 Arbeiten transkribiert, linguistisch annotiert und über eine ANNIS-Instanz erreichbar (graphvar.unibonn.de, Stand: 8.8.2023). Im Sommer 2022 konnten weitere 1.600 Arbeiten zwischen 1900 und 2021 an einem Gymnasium in Nordrhein-Westfalen digitalisiert werden. Neben schriftlinguistischen Fragestellungen ist das Korpus prinzipiell auch für syntaktische, morphologische und lexikalische Fragestellungen geeignet; auch didaktische Untersuchungen sind möglich, genau wie kulturwissenschaftliche.
Redeeinleiter sind sprachliche Ausdrücke unterschiedlicher Wortarten, die relativ zur Redewiedergabe in Voran-, Mittel- oder Nachstellung stehen und eine direkte oder indirekte Redewiedergabe einleiten. Dadurch sind Redeeinleiter sehr vielfältig, womit sie sich als Untersuchungsgegenstand einer Analyse zur lexikalischen Vielfalt von Teilwortschätzen eignen.
Als Datengrundlage der vorliegenden Untersuchung dienen die manuell annotierten direkten und indirekten Redeeinleiter des Redewiedergabe-Korpus. Dieses setzt sich aus fiktionalen und nicht-fiktionalen Textausschnitten, die zwischen 1840–1920 veröffentlicht wurden, zusammen. Ziel der Analyse ist es, zu ermitteln, wie sich der Teilwortschatz der direkten und der der indirekten Redeeinleiter in ihrer lexikalischen Vielfalt voneinander unterscheiden und wie diese Unterschiede zu begründen sind. Dafür wird ein Set an quantitativen Methoden erarbeitet mit dem die lexikalische Vielfalt von Teilwortschätzen bestimmt werden kann und das in zukünftigen Untersuchungen zur lexikalischen Vielfalt als Standardrepertoire herangezogen werden kann.
Less than one percent of words would be affected by gender-inclusive language in German press texts
(2024)
Research on gender and language is tightly knitted to social debates on gender equality and non-discriminatory language use. Psycholinguistic scholars have made significant contributions in this field. However, corpus-based studies that investigate these matters within the context of language use are still rare. In our study, we address the question of how much textual material would actually have to be changed if non-gender-inclusive texts were rewritten to be gender-inclusive. This quantitative measure is an important empirical insight, as a recurring argument against the use of gender-inclusive German is that it supposedly makes written texts too long and complicated. It is also argued that gender-inclusive language has negative effects on language learners. However, such effects are only likely if gender-inclusive texts are very different from those that are not gender-inclusive. In our corpus-linguistic study, we manually annotated German press texts to identify the parts that would have to be changed. Our results show that, on average, less than 1% of all tokens would be affected by gender-inclusive language. This small proportion calls into question whether gender-inclusive German presents a substantial barrier to understanding and learning the language, particularly when we take into account the potential complexities of interpreting masculine generics.
Exploration und statistisch valide Analysen annotierter Textkorpora helfen bei der induktiven Aufdeckung systematischer Schreibgebrauchsmuster. Umgekehrt lassen sich – deduktiv – Vorgaben der kodifizierten Norm (amtliches Regelwerk) quantitativ überprüfen. Wir präsentieren eine Methodik für die empirisch informierte Beschreibung orthografisch motivierter Phänomene, gehen auf prototypische Fälle ein und werfen ein Schlaglicht auf Fallstricke der Korpusnutzung für die Orthografieforschung. Abschließend skizzieren wir Funktionen und Wirkungsweisen aggregierender Visualisierungen für die Forschungskommunikation am Beispiel des amtlichen Wörterverzeichnisses.
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
In a previous study, Aceves and Evans present a large-scale quantitative information-theoretic analysis of parallel corpus data in ~1,000 languages to show that there are apparently strong associations between the way languages encode information into words and patterns of communication, e.g. the configuration of semantic information. During the peer review process, one reviewer raised the question of the extent to which the presented results depend on different corpus sizes (see the Peer Review File). This is a very important question given that most, if not all, of the quantities associated with word frequency distributions vary systematically with corpus size. While Aceves and Evans claim that corpus size does not affect the results presented, I challenge this view by presenting reanalyses of the data that clearly suggest that it does.
This contribution explores the relationship between the English CEFR (Common European Framework of Reference for Languages) vocabulary levels and user interest in English Wiktionary entries. User interest was operationalized through the number of views of these entries in Wikimedia server logs covering a period of four years (2019–2022). Our findings reveal a significant relationship between CEFR levels and user interest: entries classified at lower CEFR levels tend to attract more views, which suggests a greater user interest in more basic vocabulary. A multiple regression model controlling for other known or potential factors affecting interest: corpus frequency, polysemy, word prevalence, and age of acquisition confirmed that lower CEFR levels attract significantly more views even after taking into account the other predictors. These findings highlight the importance of CEFR levels in predicting which words users are likely to look up, with implications for lexicography and the development of language learning materials.
We investigate the optional omission of the infinitival marker in a Swedish future tense construction. During the last two decades the frequency of omission has been rapidly increasing, and this process has received considerable attention in the literature. We test whether the knowledge which has been accumulated can yield accurate predictions of language variation and change. We extracted all occurrences of the construction from a very large collection of corpora. The dataset was automatically annotated with language-internal predictors which have previously been shown or hypothesized to affect the variation. We trained several models in order to make two kinds of predictions: whether the marker will be omitted in a specific utterance and how large the proportion of omissions will be for a given time period. For most of the approaches we tried, we were not able to achieve a better-than-baseline performance. The only exception was predicting the proportion of omissions using autoregressive integrated moving average models for one-step-ahead forecast, and in this case time was the only predictor that mattered. Our data suggest that most of the language-internal predictors do have some effect on the variation, but the effect is not strong enough to yield reliable predictions.
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren strukturelle Einbettung in den Satz oder den Text (also kotextuelle und pragmasyntaktischen Struktureinbettungen), um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem philosophisch-linguistischen Fachterminus ‚Pragmem‘ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
In diesem Beitrag werden Komposita mit den relationalen Zweitgliedern Gatte und Gattin aus genderlinguistischer Perspektive untersucht, basierend auf manuell annotiertem zeitungssprachlichen Korpusmaterial. Frauen werden im analysierten Korpus ca. 12-mal häufiger in ihrer ehelichen Rolle versprachlicht als Männer. Statistische Analysen zeigen, dass sie dabei systematisch in ein possessives Verhältnis zum Ehemann gesetzt werden (Arztgattin = Gattin eines Arztes), während Ehemänner in den untersuchten Komposita tendenziell doppelt individualisiert werden (Arztgatte = Gatte, der Arzt ist). Neben den Zweitgliedern geben auch die Genera der beiden Konstituenten Aufschluss über die kodierte Bedeutungsrelation: Genusgleichheit (Kanzlergatte) führt zu einer qualifizierenden, Genusdivergenz (Kanzleringatte) zu einer possessiven Lesart. Die Analyse belegt außerdem die Existenz movierter Kompositumserstglieder – diese sind sogar die häufigste Form zur Benennung weiblicher Personen im Erstglied. Trotzdem herrscht bei der Bezugnahme auf Frauen eine größere Formenvarianz als bei Männern, welche fast ausschließlich mit maskulinen Erstgliedern versprachlicht werden. Damit zeigt die Studie, wie genderlinguistische Perspektiven auch im Bereich der Wortbildung einen neuen Analysezugang bilden.
Dieser Beitrag gibt einen Überblick über die methodischen Ausgangspunkte des Projekts MIT. Qualität und stellt einige zentrale Erkenntnisse zur Modellbildung, der korpuslinguistischen Analyse und Akzeptabilitätserhebungen in der Sprachgemeinschaft vor. Wir zeigen dabei, wie bestehende Textqualitätsmodelle anhand einer Analyse einschlägiger Ratgeberliteratur erweitert werden können. Es wurden zwei empirische Fallstudien durchgeführt, die beide auf die Herstellung von textueller Kohärenz mittels des Kausalkonnektors weil fokussieren. Wir stellen zunächst eine korpuskontrastive Analyse vor. Weiterhin zeigen wir, wie man anhand verschiedener Aufgabenstellungen diverse Aspekte von Akzeptabilität in der Sprachgemeinschaft abprüfen kann.
Der Umgang mit längeren, komplexeren Redebeiträgen hat als Gegenstand der Mündlichkeitsdidaktik in Sprachvermittlung sowie Sprachbildung viel Aufmerksamkeit erfahren. Empirische Untersuchungen dazu, in welchen Sprachverwendungskontexten lange Redebeiträge in natürlichen Gesprächssituationen häufig vorkommen und damit die Fähigkeit, sie verstehen und produzieren zu können, eine Anforderung für Lernende bildet, stehen jedoch noch aus. Der Beitrag stellt eine explorative Studie auf der Basis des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) vor, die zeigt, wie durch korpuslinguistische Analysen anhand von Interaktionskorpora eine Beschreibung der Gebrauchsspezifika langer Redebeiträge für ein weites Spektrum an Gesprächskontexten gewonnen und damit eine Grundlage für die zielgruppenspezifische Vermittlung diskursiver Fähigkeiten im DaF/DaZ-Unterricht bereitgestellt werden kann.
Der Datensatz enthält 10.113 Korpusbelege für Konstruktionen, in denen ein Substantiv mit einem dass-Satz oder einem zu-Infinitiv auftritt (das Versprechen, dass man sich irgendwann wiedersieht vs. das Versprechen, sich irgendwann wiederzusehen).
Die Daten wurden erhoben aus:
1. dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
2. dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Developments within the field of Second Language Acquisition (SLA) have meant that scholars are increasingly engaging with corpora and corpus-based resources, providing a source of “‘authentic’ language” to learners and educators (Mitchell 2020: 254), and contributing to “state-of-the-art research methodologies” (Deshors and Gries 2023: 164). However, there are areas in which progress can still be made, particularly in the area of metadata, such as information about the speaker and contexts of the language use, as well as increased variety in the text types and genres of corpora used to develop SLA materials (Paquot 2022: 36). This post discusses one such possibility for increasing the variety of text types and providing a rich source of authentic language that can be used to create engaging SLA materials, particularly for young people learning German, namely the use of the NottDeuYTSch corpus (to download the corpus in a variety of formats, see Cotgrove 2018).
OWID und OWIDplus – lexikographisch-lexikologische Online-Informationssysteme des IDS Mannheim
(2023)
Lexikographische und lexikalische Ressourcen zum Deutschen werden an vielen unterschiedlichen Institutionen erarbeitet, z. B. an Akademien der Wissenschaften oder in privatwirtschaftlichen Verlagen. Auch am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim werden solche Materialien erstellt und der (Fach-)Öffentlichkeit unter dem Dach von OWID, dem „Online-Wortschatz-Informationssystem Deutsch“ (owid.de), präsentiert.