OPUS 4 | Search

Refine

Has Fulltext

yes (35)
no (2)

37 search hits

1 to 10

Sort by

Year
Year
Title
Title
Author
Author

cOWIDplus Analyse: Wie sehr schränkt die Corona-Krise das Vokabular deutschsprachiger Online-Presse ein? (2020)

Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank ; Müller-Spitzer, Carolin

cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.

cOWIDplus (2020)

Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank ; Müller-Spitzer, Carolin

Die Corona-Krise hat Einfluss auf die Sprache in deutschsprachigen Online-Medien. Wir haben die Hypothese, dass sich die Vielfältigkeit des verwendeten Vokabulars einschränkt. Wir glauben zudem, dass sich die Diversität des Vokabulars nach "überstandener" Krise wieder auf ein "Prä-Pandemie-Niveau" einpendeln wird. Diese zweite Hypothese lässt sich erst im Laufe der Zeit überprüfen.

cOWIDplus Viewer (2020)

Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank ; Müller-Spitzer, Carolin

Introducing DeReKoGram: A novel frequency dataset with lemma and part-of-speech information for German (2023)

Wolfer, Sascha ; Koplenig, Alexander ; Kupietz, Marc ; Müller-Spitzer, Carolin

We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.

Weniger ist mehr? Eine Analyse zur „Neigung zum Hinzufügen“ im Deutschen anhand des neuen Häufigkeitsdatensatzes DeReKoGram (2024)

Wolfer, Sascha ; Koplenig, Alexander ; Kupietz, Marc ; Müller-Spitzer, Carolin

OWIDplusLIVE. Day-to-day collection, exploration, analysis, and visualization of N-Gram frequencies in German (online press) language (2022)

Rüdiger, Jan Oliver ; Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank ; Müller-Spitzer, Carolin ; Ochs, Samira ; Cotgrove, Louis

With OWIDplusLIVE, we would like to introduce the EURALEX community to two resources that provide analytical access to daily updated data (data: frequency data and N-grams – reference point: previous day).

cOWIDplus Viewer: Sprachliche Spuren der Corona-Krise in deutschen Online-Nachrichtenmeldungen. Explorieren Sie selbst! (2020)

Müller-Spitzer, Carolin ; Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank

cOWIDplus Viewer: Sprachliche Spuren der Corona-Krise in deutschen Online-Nachrichtenmeldungen. Explorieren Sie selbst! (2020)

Müller-Spitzer, Carolin ; Wolfer, Sascha ; Koplenig, Alexander ; Michaelis, Frank

Observing online dictionary users: Studies using wiktionary log files (2015)

Müller-Spitzer, Carolin ; Wolfer, Sascha ; Koplenig, Alexander

We present studies using the 2013 log files from the German version of Wiktionary. We investigate several lexicographically relevant variables and their effect on look-up frequency: Corpus frequency of the headword seems to have a strong effect on the number of visits to a Wiktionary entry. We then consider the question of whether polysemic words are looked up more often than monosemic ones. Here, we also have to take into account that polysemic words are more frequent in most languages. Finally, we present a technique to investigate the time-course of look-up behaviour for specific entries. We exemplify the method by investigating influences of (temporary) social relevance of specific headwords.

Quantitative Analyse lexikalischer Daten (2018)

Müller-Spitzer, Carolin ; Wolfer, Sascha ; Koplenig, Alexander

Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.

1 to 10

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

37 search hits