Korpuslinguistik
Refine
Year of publication
Document Type
- Part of a Book (275)
- Conference Proceeding (177)
- Article (120)
- Book (36)
- Part of Periodical (13)
- Other (11)
- Working Paper (7)
- Review (5)
- Report (4)
- Doctoral Thesis (3)
Language
- English (337)
- German (319)
- Multiple languages (1)
Keywords
- Korpus <Linguistik> (557)
- Deutsch (195)
- Gesprochene Sprache (74)
- Annotation (64)
- Historische Sprachwissenschaft (47)
- Computerlinguistik (40)
- Forschungsdaten (36)
- Korpuslinguistik (31)
- Grammatik (29)
- corpus linguistics (28)
Publicationstate
- Veröffentlichungsversion (361)
- Zweitveröffentlichung (216)
- Postprint (31)
- Erstveröffentlichung (1)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (323)
- Peer-Review (226)
- Peer-review (5)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (5)
- Zweitveröffentlichung (3)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (2)
- Verlags-Lektorat (2)
- Peer-reviewed (1)
- Review-Status-unbekannt (1)
- Verlagslektorat (1)
Publisher
- Narr (88)
- de Gruyter (82)
- Institut für Deutsche Sprache (60)
- European Language Resources Association (ELRA) (27)
- Leibniz-Institut für Deutsche Sprache (IDS) (27)
- European Language Resources Association (25)
- Narr Francke Attempto (23)
- IDS-Verlag (17)
- Leibniz-Institut für Deutsche Sprache (11)
- Universitäts- und Landesbibliothek Darmstadt (11)
Investigating OKAY across genres, modes and languages: A corpus-based study on German and French
(2019)
In our study, we used the spoken language corpus FOLK and the Wikipedia corpus family, provided by the Institute for the German Language (IDS) in Mannheim, to examine the usage of OKAY in various spelling and pronunciation variants across genre types (Wikipedia articles vs. talk pages), across modes (transcribed spoken vs. written language), and across languages (German vs. French Wikipedia talk pages). Our comparison of German Wikipedia talk and article pages made evident that OKAY is used far more frequently in the CMC-like Wikipedia talk pages than in the text-like Wikipedia articles. The comparison of the CMC data with the FOLK corpus of transcribed spoken language revealed interesting differences in the distribution of functional and topological features. The results suggest the emergence of particular functions and usage patterns for OKAY in written CMC that differ from the patterns observed in spoken interaction. The comparison of German and French Wikipedia talk pages yielded common usage patterns in both languages, e.g. the preference for "speedy" spelling variants (ok, OK, Ok) and a similar distribution of topological features, but also differences in the distribution of functional features.
Dieser Beitrag gibt einen Überblick über zwei dynamische Forschungsfelder, die in den letzten fünf Jahren intensiv ausgebaut wurden: Die Linguistische Wikipedistik umfasst Arbeiten aus der Linguistik, die sich mit der Online-Enzyklopädie Wikipedia und Wikis im Allgemeinen als Untersuchungsgegenstände beschäftigen. Als disziplinäre Facetten dieses Forschungsfeldes werden in diesem Beitrag neben korpuslinguistischen Zugängen auch text-, interaktions- und diskursanalytische Ansätze sowie genderlinguistische Forschungsergebnisse der Linguistischen Wikipedistik überwiegend aus der Germanistischen Linguistik vorgestellt. Im Fokus der Wikipedaktik steht die Zielsetzung, das didaktische Potenzial der Wikipedia und Wikis als Reflexionsgegenstände, Lehr-Lern-Plattformen sowie Orte digitaler Partizipation und Emanzipation in Vermittlungskontexten zu nutzen.
This book explores the vibrant linguistic world of young speakers through their YouTube comments. Combining linguistics, youth language and digitally mediated communication, this study is anchored in the groundbreaking NottDeuYTSch corpus, a collection of over 33 million words taken from YouTube comments spanning a decade (2008-2018). The book examines lexical, morphological, syntactic, and orthographic phenomena through three detailed corpus linguistic case studies. From the development of iconic slang terms to non-standard syntax and the creative use of graphical characters, Abogeil! reveals how young people innovate and reshape language in digital spaces. Essential for linguists, educators and anyone interested in digital youth culture, this work highlights the intersection of language, technology and identity in the 21st century.
Gebrauchsbasierte Sprachmodelle gehen davon aus, dass Sprecher/innen auf der Basis ihres sprachlichen Inputs ein Musterwissen ausbilden und zwar auch in Bezug auf die Assoziationen sprachlicher Mittel zu Merkmalen des situativen Kontextes. Korpuslinguistisch sind statistisch belegbare Assoziationen von Ausdrucksmitteln zu im Korpus erfassten Kontextmerkmalen (Indizierungspotenziale) erschließbar und können in den Mustern ihrer Verteilung betrachtet werden. Es wird eine Untersuchung vorgestellt, die diesen Ansatz anhand der Assoziationen von Kommunikationsverben zu Interaktionsdomänen exploriert. Dabei wird das FOLK-Korpus als Modell des gesprochenen Deutsch behandelt, für das Typen domänenbezogener Indizierungspotenziale ermittelt und Gesprächskonstellationen nach Ähnlichkeit ihrer Indizierungspotenzialprofile gruppiert werden. Der Beitrag zeigt exemplarisch, wie sich Konstellationen des Lebensbereichs Bildung aus dieser Perspektive beschreiben lassen.
Im Folgenden berichten wir von Veranstaltungen im öffentlichen und halböffentlichen Raum, auf denen wir mehrere Sprachspende-Formate umgesetzt haben, die verschiedene Fragestellungen verfolgten und sich an unterschiedliche Zielgruppen richteten. Diese ersten Schritte dienten der Auslotung und Testung von Formaten und der Beitrag stellt die erste Zusammenschau dieser niedrigschwelligen Transfer- und Datenerhebungsaktivitäten dar.
Digitale Grammatikvermittlung im Projekt LernGrammis. Der Grammatikbaustein „Gesprochenes Deutsch“
(2024)
Im Beitrag wird eine digitale Lehr- und Lerneinheit zur Grammatik des gesprochenen Deutsch präsentiert, das am Leibniz-Institut für Deutsche Sprache (Mannheim) im Rahmen des Projektes LernGrammis entsteht. Ziel des Projektes ist ein niederschwelliger, adaptiver Zugang zur Grammatik der deutschen Sprache. Wie im Beitrag am Beispiel der Lerneinheit „Gesprochenes Deutsch“ gezeigt wird, erfolgt dies durch die didaktische Aufbereitung von Korpusbeispielen. Wenn es um gesprochene Sprache geht, sind diese besonders relevant, allerdings ist ihr Einsatz zu didaktischen Zwecken wegen ihres höheren Schwierigkeitsgrads im Vergleich mit konstruierten Bespielen nicht ganz unproblematisch. Im Beitrag werden entsprechende Lösungswege gezeigt und diskutiert.
In diesem Beitrag gehen wir der Frage nach, welche Reflexe übereinzelsprachlicher Varianz im Bereich der propositionalen Argumente sich in Lernertexten nachweisen lassen. Datengrundlage sind Texte aus den Korpora Dulko, Falko und Merlin, die von Deutschlernern mit englischer, italienischer, polnischer und ungarischer Muttersprache verfasst wurden. Behandelt werden die Varianz zwischen finiten und infiniten Formen in Objektfunktion und das (Nicht-)Vorkommen von propositionalen Proformen zu Objektsätzen. Für beide Phänomenbereiche können drei potenzielle Einflussfaktoren identifiziert werden, die die Wahl der Realisierungsform des propositionalen Arguments und die (Nicht-)Setzung der propositionalen Proform steuern: die Muttersprache des Lerners, der Typus des Lernertexts (Essay- oder Übersetzungstext) und die allgemeine Vorkommensfrequenz des Matrixprädikats.
Das DGS-Korpus-Projekt erstellt ein Referenzkorpus der Deutschen Gebärdensprache (DGS) und macht mit dem Öffentlichen DGS-Korpus und dem korpusbasierten Wörterbuch der DGS diese Sprache in ihrer Vielfalt öffentlich zugänglich. Um den verschiedenen Nutzungsaspekten gerecht zu werden, stehen die Daten des Öffentlichen Korpus in drei verschiedenen Portalen zur Verfügung. Inhalte des Wörterbuchs werden bereits als Vorabeinträge veröffentlicht. Der Artikel gibt einen Überblick über die Inhalte und Funktionen der drei Portale sowie des Wörterbuchs, die untereinander verlinkt sind.
Inducing linguistic networks from historical corpora. Towards a new method in historical semantics
(2013)
In this paper, we experiment with exploring linguistic networks as a new method in historical semantics. Our starting point is a long-term historical corpus (i.e., the Patrologia Patina) which we analyse regarding the conceptual stability of a key concept in medieval literature (i.e., virtus). Most analyses in historical semantics explore small data sets by focusing on narrow contexts of lexical usages, but we propose a more comprehensive method based on lexical networks that represent the underlying documents as a whole. We demonstrate both the topological stability of document-based lexical networks and their usefulness in providing empirical evidence in historical semantics.
Although the alternation between was and were has been extensively recorded in modern varieties of British and overseas English, there is comparatively little information about the distribution of was and were in older varieties of speech. This has been largely due both to the scarcity of old regional material, and the consequent lack of dia- chronic dialect corpora. In light of this, this paper looks at some of the Lancashire texts included in the Salamanea Corpus. It examines the evidence provided by literary representations of the dialect with regard to past tense BE forms. Though largely neglected for linguistic investigation, literary samples of Lancashire English may go some way towards casting light on the forms of BE in the county between 1700 and 1900. Our aim is thus twofold: firstly, to contribute to previous research into past tense BE forms in Lancashire by adding historical data that have not been thus far considered, and secondly, to illustrate the linguistic possibilities of the corpus, arguing that it may serve as a complementary missing link to expand the database of English diachronic dialectology.