Refine
Document Type
- Article (7) (remove)
Has Fulltext
- yes (7)
Is part of the Bibliography
- yes (7)
Keywords
- Wortschatz (7) (remove)
Publicationstate
- Veröffentlichungsversion (4)
- Zweitveröffentlichung (3)
- Postprint (1)
Reviewstate
- Peer-Review (4)
- (Verlags)-Lektorat (1)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- Benjamins (1)
- Erich Schmidt (1)
- MDPI (1)
- de Gruyter (1)
We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.
Die Corona-Pandemie betrifft fast alle Facetten des öffentlichen Lebens und hat nicht nur erhebliche Auswirkungen auf den persönlichen Umgang miteinander, sondern beherrscht auch die Berichterstattung im großen Stil. In unserem Beitrag wollen wir zeigen, welche lexikalischen Spuren oder Trends der Coronakrise wir in der deutschen Online-Nachrichtenberichterstattung beobachten können, obwohl wir uns noch mitten in der Pandemie zu befinden scheinen. „Lexikalische Spuren“ bedeutet, dass wir z.B. die am häufigsten verwendeten Wörter, Wortbildungsprodukte rund um „Corona“ oder Häufigkeitskurven einzelner Wortformen analysieren. Auf der Grundlage von Online-Nachrichtenberichten aus 13 deutschsprachigen Quellen, die seit Anfang 2020 gesammelt wurden, zeigen wir unter anderem, wie über wöchentliche Übersichten der am häufigsten verwendeten Wörter zu sehen ist, wann die Corona-Pandemie zum dominierenden Thema in der Nachrichtenberichterstattung wird; wie eine wahre Explosion von Wortbildungsprodukten mit „Corona“ wie „Vor-Corona-Gesellschaft“ oder „Post-Corona Zukunft“ beobachtet werden kann, wie andere Themen – z.B. der Fußball – durch Corona verdrängt werden, wie sich die Diskussion um Auswege aus dem Lockdown in den Daten widerspiegelt, oder wie prominente Virolog/-innen in die gleiche „Frequenzliga“ wie Politiker/-innen aufsteigen.
The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. In this short paper, we present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated frequency lists), a continuously updated HTML page tracking the diversity of the vocabulary in the RSS corpus and a Shiny web application that enables other researchers and the broader public to explore the corpus in terms of basic frequencies.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
Lexikographische und lexikalische Ressourcen zum Deutschen werden an vielen unterschiedlichen Institutionen erarbeitet. Zum einen im Dudenverlag, der mit den gedruckten Wörterbüchern der Duden-Reihe und mit „Duden online“ die meistkonsultierten gegenwartssprachlichen Wörterbücher zum Deutschen erstellt, dann die Union deutscher Akademien, unter deren Dach an verschiedenen einzelnen Akademien zahlreiche historische wie auch synchrone Wörterbücher zum Deutschen erstellt werden (z. B. das „Digitale Wörterbuch der deutschen Sprache“, das „Wörterbuchnetz“ sowie das geplante Informationssystem des neuen „Zentrums für digitale Lexikographie der deutschen Sprache“). Auch am Institut für Deutsche Sprache in Mannheim werden wissenschaftliche wortschatzbezogene Ressourcen zum Deutschen erarbeitet und der (Fach-)Öffentlichkeit unter dem Dach von OWID, dem „Online-Wortschatz-Informationssystem Deutsch“, präsentiert. Obwohl wir uns in OWID auf Ressourcen zu spezialisierten Wortschatzbereichen konzentriert haben, erreichen wir Nutzerinnen und Nutzer in verschiedensten Ländern der Welt. Wir wollen hier die Gelegenheit wahrnehmen, den ZGL-Leserinnen und -Lesern unsere Ressourcen in OWID und OWIDplus näher vorzustellen.