Refine
Year of publication
Document Type
- Part of a Book (148)
- Article (98)
- Conference Proceeding (53)
- Book (29)
- Working Paper (17)
- Review (9)
- Other (2)
- Preprint (2)
- Doctoral Thesis (1)
- Master's Thesis (1)
Keywords
- Gesprochene Sprache (361) (remove)
Publicationstate
- Veröffentlichungsversion (176)
- Zweitveröffentlichung (67)
- Postprint (16)
- Erstveröffentlichung (2)
Reviewstate
Publisher
This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Jubel über Bum Bum Becker
(1985)
Smooth turn-taking in conversation depends in part on speakers being able to communicate their intention to hold or cede the floor. Both prosodic and gestural cues have been shown to be used in this context. We investigate the interplay of pitch movements and hand gestures at locations at which speaker change becomes relevant, comparing their use in German and Swedish. We find that there are some shared functions of prosody and gesture with regard to turn-taking in the two languages, but that these shared functions appear to be mediated by the different phonological demands on pitch in the two languages.
Maskierung
(2015)
Aus forschungsethischen Gründen müssen die Daten aus Gesprächsaufzeichnungen, die Metadaten sowie die Transkripte maskiert werden. Der Beitrag stellt Arbeitsschritte der Maskierung vor, die auf den Erfahrungen bei der Datenaufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD) basieren.
Transkriptionsaufwand
(2015)
Während die Erhebung von Gesprächsdaten zwar zeitaufwändig, aber doch noch relativ zügig zu bewältigen ist, handelt es sich bei der Transkription um eine langwierige Aufgabe, die oft unterschätzt wird. Damit Studierende, Promovierende sowie WissenschaftlerInnen, die Exposés, Arbeitspläne usw. aufstellen oder Zuschüsse für Projekte beantragen müssen, zukünftig über fundiertere Werte verfügen und damit realistischere Aussagen über den benötigten Aufwand (zeitliche wie personelle Ressourcen) treffen können, stellt der Beitrag die Ergebnisse einer Erhebung des Transkriptionsaufwandes im FOLK-Projekt vor.
We present a descriptive analysis on the two datasets from the shared task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS), the only existing German dataset for opinion role extraction of its size. Our analysis discusses the individual properties of the three components, subjective expressions, sources and targets and their relations towards each other. Our observations should help practitioners and researchers when building a system to extract opinion roles from German data.
Die Guidelines sind eine Erweiterung des STTS (Schiller et al. 1999) für die Annotation von Transkripten gesprochener Sprache. Dieses Tagset basiert auf der Annotation des FOLK-Korpus des IDS Mannheim (Schmidt 2014) und es wurde gegenüber dem STTS erweitert in Hinblick auf typisch gesprochensprachliche Phänomene bzw. Eigenheiten der Transkription derselben. Es entstand im Rahmen des Dissertationsprojekts „POS für(s) FOLK – Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten“ (Westpfahl 2017 (i.V.)).
In this paper, we present a GOLD standard of part-of-speech tagged transcripts of spoken German. The GOLD standard data consists of four annotation layers – transcription (modified orthography), normalization (standard orthography), lemmatization and POS tags – all of which have undergone careful manual quality control. It comes with guidelines for the manual POS annotation of transcripts of German spoken data and an extended version of the STTS (Stuttgart Tübingen Tagset) which accounts for phenomena typically found in spontaneous spoken German. The GOLD standard was developed on the basis of the Research and Teaching Corpus of Spoken German, FOLK, and is, to our knowledge, the first such dataset based on a wide variety of spontaneous and authentic interaction types. It can be used as a basis for further development of language technology and corpus linguistic applications for German spoken language.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
Wie können Diskursmarker in einem Korpus gesprochener Sprache auffindbar gemacht werden? Was ist Part-of-Speech-Tagging und wie funktioniert es? In diesem Artikel soll anhand der POS-Kategorie Diskursmarker dargestellt werden, wie für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ein Part-of-Speech-Tagging entwickelt wurde, das auf die Annotation typisch gesprochen-sprachlicher Phänomene ausgerichtet ist. Diskursmarker sollen dafür aus der Sicht maschineller Sprachverarbeitung dargestellt werden, d. h. wie eine POS-Kategorie Diskursmarker so definiert werden kann, dass sie automatisch annotiert werden kann. Schließlich soll gezeigt werden, wie man auch weitere Diskursmarker in der Datenbank auffinden kann
Der Band leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Dabei setzt er zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch; zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Der Band ist eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit. Er gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.
Berichtet wird aus einem Forschungsprojekt des Instituts für deutsche Sprache, Mannheim, das sich zum Ziel gesetzt hat, Sprachwandel in statu nascendi zu beobachten, den Sprecher und die individuellen Veränderungen seines Sprechens und seiner Einstellung zur Sprache nach Ablauf von etwa vier Jahrzehnten in den Blick zu nehmen. Erneut interviewt werden Sprecher deutscher Dialekte oder Umgangssprachen, die in verschiedenen Forschungsprojekten in den 50er und 60er Jahren aufgenommen wurden und von denen eine Tonbandaufnahme im Deutschen Spracharchiv archiviert ist. Im Rahmen einer dem Forschungsprojekt vorgeschalteten inzwischen abgeschlossenen Pilotstudie wurde ein umfängliches methodisches Instrumentarium erprobt, um aussagekräftiges Vergleichsmaterial und Sprachbiographien einiger ausgewählter Sprecher elizitieren zu können. Auf der Basis dieser Studie werden das Projektdesign und die Analysekategorien für die Hauptuntersuchung festgelegt.