OPUS 4 | S1: Korpuslinguistik

Einleitung (2023)

10. International Contrastive Linguistics Conference (ICLC). July 18-21, 2023, Mannheim, Germany. Book of abstracts (2023)

This conference booklet provides information about 10th International Contrastive Linguistics Conference (ICLC-10) that took place in Mannheim, Germany, from 18 to 21 July 2023. It contains – a description of the conference aims, – details on the conference venue, – information on committees, – the conference program, – the abstracts of the keynotes, oral and poster presentations, and – an author index.

Introducing DeReKoGram: A novel frequency dataset with lemma and part-of-speech information for German (2023)

Wolfer, Sascha ; Koplenig, Alexander ; Kupietz, Marc ; Müller-Spitzer, Carolin

We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.

A distributional comparison between FOLK and DeReKo (2023)

Kupietz, Marc ; Fankhauser, Peter ; Ruppenhofer, Josef

Studying the distribution of reply relations in Wikipedia talk pages (2023)

Lüngen, Harald ; Herzberg, Laura

This paper presents an extended annotation and analysis of interpretative reply relations focusing on a comparison of reply relation types and targets between conflictual pages and neutral pages of German Wikipedia (WP) talk pages. We briefly present the different categories identified for interpretative reply relations to analyze the relationship between WP postings as well as linguistic cues for each category. We investigate referencing strategies of WP authors in discussion page postings, illustrated by means of reply relation types and targets taking into account the degree of disagreement displayed on a WP talk page. We provide richly annotated data that can be used for further analyses such as the identification of interactional relations on higher levels, or for training tasks in machine learning algorithms.

DeReKo im Kontext deutschsprachiger Gegenwartskorpora: Perspektiven - Ziele - Visionen (2023)

Kupietz, Marc ; Lüngen, Harald ; Witt, Andreas

Der Beitrag betrachtet das Deutsche Referenzkorpus DeReKo in Bezug auf Strategien für seinen Ausbau, den Zugriff über die Korpusanalyseplattform KorAP und seine Einbettung in Forschungsinfrastrukturen und in die deutschsprachige und europäische Korpuslandschaft. Ausgehend von dieser Bestandsaufnahme werden Perspektiven zu seiner Weiterentwicklung aufgezeigt. Zu den Zukunftsvisionen gehören die Verteilung von Korpussressourcen und die Konstruktion multilingualer vergleichbarer Korpora anhand der Bestände der National- und Referenzkorpora, eine Plattform zur Abgabe und Aufbereitung von Sprachspenden als eine Anwendung von Citizen Science sowie eine Komponente zur automatischen Identifikation von übersetzten bzw. maschinenverfassten Texten.

Neue Entwicklungen in der Korpuslandschaft der Germanistik. Beiträge zur IDS-Methodenmesse 2022 (2023)

Die in diesem Band versammelten Beiträge zur Methodenmesse der Jahrestagung 2022 des Leibniz-Instituts für Deutsche Sprache geben einen Überblick über die aktuelle Korpuslandschaft in der germanistischen Linguistik: von historischen Sammlungen authentischer Sprachdaten über aktuelle Zeitungs- und Social-Media-Korpora, Gesprächskorpora, Korpora aus Texten von Deutschlernenden bis hin zu einem Korpus mit Texten leichter Sprache und einem Gebärdensprachekorpus. Die Beiträge erläutern jeweils die Designkriterien sowie die Methodik der Datenerhebung und geben einen Einblick, wie die Daten sprachwissenschaftlich verwendet werden können.

Einleitung (2023)

Kupietz, Marc ; Schmidt, Thomas

Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. Vom Design bis zur Verwendung und darüber hinaus (2023)

Kupietz, Marc ; Lüngen, Harald ; Diewald, Nils

Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.

Zur Einführung: Korpora in der germanistischen Sprachwissenschaft (2023)

Deppermann, Arnulf ; Fandrych, Christian ; Kupietz, Marc ; Schmidt, Thomas

Open Access

S1: Korpuslinguistik

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Publicationstate

Reviewstate

Publisher

11 search hits