Refine
Document Type
- Part of a Book (6)
- Article (5)
- Conference Proceeding (5)
- Book (1)
Has Fulltext
- yes (17)
Keywords
- Korpus <Linguistik> (14)
- Gesprochene Sprache (8)
- Deutsch (7)
- oral corpora (4)
- Abfragesprache (3)
- Fremdsprache (3)
- Mündliche Kommunikation (3)
- Computerlinguistik (2)
- Datenbank (2)
- Korpora in DaF/DaZ (2)
Publicationstate
- Veröffentlichungsversion (13)
- Zweitveröffentlichung (3)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (8)
- Peer-Review (6)
Publisher
- European Language Resources Association (ELRA) (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (2)
- Beltz Juventa (1)
- Edinburgh University Press (1)
- European Language Resources Association (1)
- Institut für Deutsche Sprache (1)
- Narr Francke Attempto (1)
- UCREL (1)
- Uniwersytet im. Adama Mickiewicza w Poznaniu (1)
- Zenodo (1)
ZuRecht steht für Zugang zur Recherche in Transkripten. Es handelt sich um eine prototypische Implementierung einer webbasierten grafischen Benutzeroberfläche, welche Zugriff auf Transkripte gesprochener Sprache aus dem Archiv für Gesprochenes Deutsch (AGD) des Leibniz-Instituts für Deutsche Sprache (IDS) bietet. Der Zugriff erfolgt über die neue, im Projekt „ZuMult“ entwickelte Schnittstelle zur Suche in mündlichen Korpora. ZuRecht dient einerseits der Demonstration der Möglichkeiten der neuen Schnittstelle, indem es komplexe Suchanfragen mit der speziell für die Korpusrecherche entwickelten Anfragesprache CQP auf Transkriptionen gesprochener Sprache erlaubt. Andererseits kommt ZuRecht als Erweiterung der Datenbank für Gesprochenes Deutsch (DGD) zum Einsatz und eröffnet den DGD-Nutzer:innen viele neue Forschungsmöglichkeiten, insbesondere auf den Gebieten der Gesprächsanalyse und der DaF/DaZ-bezogenen Forschung. Im Beitrag werden die Funktionalitäten von ZuRecht ausführlich vorgestellt und ihre Einsatzmöglichkeiten in den genannten Disziplinen exemplarisch vorgeführt.
Im vorliegenden Artikel wird ein Überblick über das von der DFG geförderte Projekt Zugänge zu multimodalen Korpora gesprochener Sprache – Vernetzung und zielgruppenspezifische Ausdifferenzierung (ZuMult) gegeben. Dabei wird zunächst auf die Sprachdaten und auf die technische Basis der Applikationen eingegangen, die dem Projekt zugrunde liegen. Im Anschluss werden die weiteren Beiträge in diesem Themenheft von KorDaF kurz vorgestellt. Übergeordnetes Thema von ZuMult ist die Verbesserung der Zugänglichkeit von digitalen mündlichen Sprachdaten für verschiedene Anwendungen und Zielgruppen, wobei der Fokus dieses Themenhefts auf Applikationen und Anwender:innen aus der Fremdsprachendidaktik und der DaF-/DaZ-Forschung und -Lehre liegt. Die einzelnen Beiträge beleuchten zentrale methodische und/oder technische Aspekte dieses Themas und beschreiben die Architektur und verschiedene prototypische Anwendungen, die das Projekt entwickelt hat.
As a part of the ZuMult-project, we are currently modelling a backend architecture that should provide query access to corpora from the Archive of Spoken German (AGD) at the Leibniz-Institute for the German Language (IDS). We are exploring how to reuse existing search engine frameworks providing full text indices and allowing to query corpora by one of the corpus query languages (QLs) established and actively used in the corpus research community. For this purpose, we tested MTAS - an open source Lucene-based search engine for querying on text with multilevel annotations. We applied MTAS on three oral corpora stored in the TEI-based ISO standard for transcriptions of spoken language (ISO 24624:2016). These corpora differ from the corpus data that MTAS was developed for, because they include interactions with two and more speakers and are enriched, inter alia, with timeline-based annotations. In this contribution, we report our test results and address issues that arise when search frameworks originally developed for querying written corpora are being transferred into the field of spoken language.
This contribution presents the background, design and results of a study of users of three oral corpus platforms in Germany. Roughly 5.000 registered users of the Database for Spoken German (DGD), the GeWiss corpus and the corpora of the Hamburg Centre for Language Corpora (HZSK) were asked to participate in a user survey. This quantitative approach was complemented by qualitative interviews with selected users. We briefly introduce the corpus resources involved in the study in section 2. Section 3 describes the methods employed in the user studies. Section 4 summarizes results of the studies focusing on selected key topics. Section 5 attempts a generalization of these results to larger contexts.
The present article describes the first stage of the KorAP project, launched recently at the Institut für Deutsche Sprache (IDS) in Mannheim, Germany. The aim of this project is to develop an innovative corpus analysis platform to tackle the increasing demands of modern linguistic research. The platform will facilitate new linguistic findings by making it possible to manage and analyse primary data and annotations in the petabyte range, while at the same time allowing an undistorted view of the primary linguistic data, and thus fully satisfying the demands of a scientific tool. An additional important aim of the project is to make corpus data as openly accessible as possible in light of unavoidable legal restrictions, for instance through support for distributed virtual corpora, user-defined annotations and adaptable user interfaces, as well as interfaces and sandboxes for user-supplied analysis applications. We discuss our motivation for undertaking this endeavour and the challenges that face it. Next, we outline our software implementation plan and describe development to-date.
Die Dokumentation und Untersuchung deutscher Sprachinselvarietäten war schon immer eine der wichtigsten Aufgaben der germanistischen Sprachwissenschaft. Mittlerweile stellt sich aber immer öfter die Frage der Nachhaltigkeit der erhobenen Spachinseldaten. Insbesondere in Bezug auf die vom Sprachtod bedrohten Varietäten, wie z.B. im Fall der russlanddeutschen Dialekte aus den noch intakten Sprachinseln der ehemaligen Sowjetunion, ist es äußerst wichtig, die existierenden Audioaufnahmen systematisch und dauerhaft zu archivieren. Aber nicht nur die Archivierung, sondern auch der freie und unkomplizierte Zugang zu diesen Materialien ist ein wesentlicher Aspekt im Konzept der Nachhaltigkeit. Wie sollte dieser Zugang aber gestaltet sein und in welcher Form sollen die Daten präsentiert werden? Auf genau diese Frage ist das Projekt „Elektronisches Wörterbuch. Ein Online-Informationsangebot zu Sprache und Dialekten der Russlanddeutschen" eingegangen. In diesem Projekt wurden historische Tonaufnahmen russlanddeutscher Dialekte linguistisch aufbereitet und in Form einer strukturierten Russlanddeutschen Dialektdatenbank (RuDiDat) online veröffentlicht. Diese Datenbank ist frei verfügbar und ermöglicht die Recherche im Korpus des Russlanddeutschen. Der vorliegende Beitrag stellt die Datenbank vor und thematisiert Herausforderungen, die durch unterschiedliche Ausprägungsformen des Russlanddeutschen entstehen könnten, wenn man die im Internet freigegebenen Sprachinseldaten für vergleichende Analysen heranzieht.
In this paper, we address two problems in indexing and querying spoken language corpora with overlapping speaker contributions. First, we look into how token distance and token precedence can be measured when multiple primary data streams are available and when transcriptions happen to be tokenized, but are not synchronized with the sound at the level of individual tokens. We propose and experiment with a speaker based search mode that enables any speaker’s transcription tier to be the basic tokenization layer whereby the contributions of other speakers are mapped to this given tier. Secondly, we address two distinct methods of how speaker overlaps can be captured in the TEI based ISO Standard for Spoken Language Transcriptions (ISO 24624:2016) and how they can be queried by MTAS – an open source Lucene-based search engine for querying text with multilevel annotations. We illustrate the problems, introduce possible solutions and discuss their benefits and drawbacks.