Korpuslinguistik
Refine
Year of publication
- 2021 (34) (remove)
Document Type
- Part of a Book (12)
- Conference Proceeding (10)
- Article (9)
- Book (1)
- Other (1)
- Report (1)
Keywords
- Korpus <Linguistik> (32)
- Forschungsdaten (9)
- Deutsch (7)
- Gesprochene Sprache (6)
- Computerlinguistik (5)
- Datenmanagement (5)
- Urheberrecht (5)
- corpus linguistics (5)
- Kontrastive Linguistik (4)
- CLARIN (3)
Publicationstate
- Veröffentlichungsversion (21)
- Zweitveröffentlichung (13)
- Postprint (1)
Reviewstate
- Peer-Review (19)
- (Verlags)-Lektorat (13)
Publisher
- de Gruyter (10)
- Linköping University Electronic Press (6)
- Leibniz-Institut für Deutsche Sprache (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- CLARIN (1)
- Deutsche Gesellschaft für Sprachwissenschaft (1)
- Edinburgh University Press (1)
- Erich Schmidt (1)
- Institute of the Polish Language (1)
- Narr Francke Attempto (1)
In this paper, we present an overview of freely available web applications providing online access to spoken language corpora. We explore and discuss various solutions with which the corpus providers and corpus platform developers address the needs of researchers who are working with spoken language. The paper aims to contribute to the long-overdue exchange and discussion of methods and best practices in the design of online access to spoken language corpora.
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
CMDI Explorer
(2021)
We present CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.
Dieser Beitrag präsentiert die neue multilinguale Ressource CoMParS (Collection of Multilingual Parallel Sequences). CoMParS versteht sich als eine funktional-semantisch orientierte Datenbank von Parallelsequenzen des Deutschen und anderer europäischer Sprachen, in der alle Daten neben den sprachspezifischen und universellen (im Sinne von Universal Dependencies) morphosyntaktischen Annotationen auch nach sprachübergreifenden funktional-semantischen Informationen auf der neudefinierten Annotationsebene Functional Domains annotiert und auf mehreren Ebenen (auch ebenenübergreifend) miteinander verlinkt sind. CoMParS wird in TEI P5 XML kodiert und sowohl als monolinguale wie auch als multilinguale Sprachressource modelliert.
Making research data publicly available for evaluation or reuse is a fundamental part of good scientific practice. However, regulations such as copyright law can prevent this practice and thereby hamper scientific progress. In Germany, text-based research disciplines have for a long time been mostly unable to publish corpora made from material outside of the public domain, effectively excluding contemporary works. While there are approaches to obfuscate text material in a way that it is no longer covered by the original copyright, many use cases still require the raw textual context for evaluation or follow-up research. Recent changes in copyright now permit text and data mining on copyrighted works. However, questions regarding reusability and sharing of such corpora at a later time are still not answered to a satisfying degree. We propose a workflow that allows interested third parties to access customized excerpts of protected corpora in accordance with current German copyright law and the soon to be implemented guidelines of the Digital Single Market directive. Our prototype is a very lightweight web interface that builds on commonly used repository software and web standards.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist mit seinem Design bislang vornehmlich auf Nutzergruppen aus der sprachwissenschaftlichen Forschung ausgerichtet, prinzipiell aber auch hervorragend dafür geeignet, für die Nutzung im handlungsorientierten DaF- (und eventuell auch DaZ-)Unterricht fruchtbar gemacht zu werden. Lehrende und Lernende des Deutschen als Fremd- oder Zweitsprache bilden eine gesellschaftlich zunehmend relevante Zielgruppe und auch einen beträchtlichen Anteil der registrierten NutzerInnen des Korpus. Im vorliegenden Beitrag soll daher anhand eines exemplarischen Annotationsprojekts gezeigt werden, inwiefern die besonderen Ressourcen und Potentiale von FOLK für den DaF-Unterricht und dort speziell für den Aspekt des authentischen, kompetenten sprachlichen Handelns in Interaktion sinnvoll aufbereitet und schrittweise zugänglicher gemacht werden können.
Das ZDL-Regionalkorpus umfasst Zeitungsartikel aus Lokal- und Regionalressorts deutschsprachiger Tageszeitungen. Es dient als empirische Grundlage für die lexikografische Beschreibung der diatopischen Variation im Digitalen Wörterbuch der deutschen Sprache (DWDS). Darüber hinaus steht es allen angemeldeten Nutzern der DWDS-Korpusplattform für die Recherche zur Verfügung. Die Abfrage kann auf bestimmte diatopische Areale oder diachrone Zeiträume beschränkt werden. Die Verteilung der Treffer über Areale und Zeiträume lässt sich in verschiedener Form darstellen; dabei werden neben absoluten Trefferzahlen auch normalisierte PPM-Werte ausgegeben.
Die LeGeDe-Ressource: korpusbasierte lexikografische Einblicke und anwendungsorientierte Ausblicke
(2021)
Der Beitrag stellt die lexikografische Online-Ressource LeGeDe, den ersten korpusbasierten Prototypen für Besonderheiten der Lexik des Deutschen in der Interaktion vor. Dabei werden sowohl die Herausforderungen an das innovative Projekt thematisiert als auch Möglichkeiten für einen anwendungsorientierten Nutzen im DaF- und DaZ-Bereich diskutiert und als Ausblick Desiderata für die weitere Beschäftigung mit der lexikografischen Kodifizierung gesprochensprachlicher Spezifika des Deutschen aufgezeigt.
This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST also develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are a questionnaire and automatic quality assurance for depositors of language resources, both developed as web applications. They are accompanied by a knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we consider three main data maturity levels in order to decide on a suitable level of strictness of the quality assurance. This division has been introduced to avoid that a set of ideal quality criteria prevent researchers from depositing or even assessing their (legacy) data. The tools described in the paper are work in progress and are expected to be released by the end of the QUEST project in 2022.
The main aim of this contribution is to present the range of lexicographic information from LeGeDe, an electronic prototype for lexical and interactional features of spoken German. The focus lies on the detailed description of the different lexicographical information classes using illustrative examples and figures from the resource. In addition to highlighting the lexicographic microstructure and providing an overview of the outer texts and the multimedia information offer, the contribution also presents detailed background data on the conception of the LeGeDe resource. Innovative aspects and possible applications are outlined and forward-looking desiderata are offered.