Korpuslinguistik
Refine
Year of publication
Document Type
- Article (6)
- Part of a Book (6)
- Conference Proceeding (1)
- Other (1)
Language
- German (14) (remove)
Has Fulltext
- yes (14)
Keywords
- Deutsches Referenzkorpus (DeReKo) (14) (remove)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (8)
- Peer-Review (2)
Für die spezifischen Bedürfnisse der Schreibbeobachtung wurde das Orthografische Kernkorpus (OKK) als virtuelles Korpus in DeReKo entwickelt. Mit derzeit rund 14 Mrd. Token deckt es den Schriftsprachgebrauch in den deutschsprachigen Ländern im Zeitraum von 1995 bis in die Gegenwart ab. Der Zugriff über die Korpusanalyseplattform KorAP erlaubt nicht nur die Nutzung verschiedener Annotationen, sondern über die API-Schnittstellen auch die Einbindung in diverse Auswertungsumgebungen wie RStudio über den RKorAPClient und macht es so für zahlreiche Analyse- und Visualisierungsmöglichkeiten zugänglich.
Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.
In this paper, the basic assumptions are presented against the background of the development of a corpus-based method to determine suitable headword candidates for the LeGeDe-prototype (LeGeDe= Lexik des gesprochenen Deutsch), a lexicographical resource on spoken German. In a first quantitatively oriented step, potential one-word headword candidates are identified with the help of frequency class comparisons from a corpus for spoken (FOLK) and a subset from a corpus for written German (DEREKO). Qualitative analyses based on a project-specifically defined sample of data from the FOLK corpus lead to multi-word headword candidates. The results of the qualitative analyses were also compared with the results of studies from the research literature as well as (quantitative-orientated) bi- and trigram analyses. In their multi-word form, these candidates are particularly characterized by the fact that they assume a very special interactional function in the (authentic) interaction and have to be described as a whole unit. The paper explains this combined procedure, which was extracted in the LeGeDe-project for the appointment of headword candidates.
Der Beitrag beschreibt die Motivation und Ziele des Europäischen Referenzkorpus EuReCo, einer offenen Initiative, die darauf abzielt, dynamisch definierbare virtuelle vergleichbare Korpora auf der Grundlage bestehender nationaler, Referenz- oder anderer großer Korpora bereitzustellen und zu verwenden. Angesichts der bekannten Unzulänglichkeiten anderer Arten mehrsprachiger Korpora wie Parallel- bzw. Übersetzungskorpora oder rein webbasierte vergleichbare Korpora, stellt das EuReCo eine einzigartige linguistische Ressource dar, die neue Perspektiven für germanistische und vergleichende wie angewandte Korpuslinguistik, insbesondere im europäischen Kontext, eröffnet.