Refine
Year of publication
- 2019 (13) (remove)
Document Type
- Conference Proceeding (6)
- Article (3)
- Working Paper (2)
- Book (1)
- Part of a Book (1)
Has Fulltext
- yes (13)
Keywords
- Gesprochene Sprache (13) (remove)
Publicationstate
- Veröffentlichungsversion (13) (remove)
Reviewstate
- Peer-Review (9)
- (Verlags)-Lektorat (4)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (2)
- Lexical Computing CZ s.r.o. (2)
- Association for Computational Linguistics (1)
- Erich Schmidt (1)
- Leibniz-Institut für Deutsche Sprache (1)
- University of Paderborn (1)
- Université de Lille (1)
- Verlag für Gesprächsforschung (1)
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
In German oral discourse, previous research has shown that okay can be used both as a response token (e.g., for agreeing with the previous turn or for claiming a certain degree of understanding) and as a discourse marker (e.g., for closing conversational topics or sequences and/or indicating transitions). This contribution focuses on the use of okay as a response token and how it is connected with the speakers’ interactional state of knowledge (their understanding, their assumptions etc.). The analysis is based on video recorded everyday conversations in German and a sequential, micro-analytic approach (multimodal conversation analysis). The main function of conversational okay in the selected data set is related to indicating the acceptance of prior information. By okay, speakers however claim acceptance of a piece of information that they can’t verify or check. The analysis contrasts different sequences containing okay only with sequences in which change-of-state tokens such as ah and achso co-occur with okay. This illustrates that okay itself does not index prior information as new, and that it is not used for agreeing with or for confirming prior information. Instead it enables the speaker to adopt a kind of neutral, “non-agreeing” position towards a given piece of information.
In this paper, we describe a data processing pipeline used for annotated spoken corpora of Uralic languages created in the INEL (Indigenous Northern Eurasian Languages) project. With this processing pipeline we convert the data into a loss-less standard format (ISO/TEI) for long-term preservation while simultaneously enabling a powerful search in this version of the data. For each corpus, the input we are working with is a set of files in EXMARaLDA XML format, which contain transcriptions, multimedia alignment, morpheme segmentation and other kinds of annotation. The first step of processing is the conversion of the data into a certain subset of TEI following the ISO standard ’Transcription of spoken language’ with the help of an XSL transformation. The primary purpose of this step is to obtain a representation of our data in a standard format, which will ensure its long-term accessibility. The second step is the conversion of the ISO/TEI files to a JSON format used by the “Tsakorpus” search platform. This step allows us to make the corpora available through a web-based search interface. As an addition, the existence of such a converter allows other spoken corpora with ISO/TEI annotation to be made accessible online in the future.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
We present a descriptive analysis on the two datasets from the shared task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS), the only existing German dataset for opinion role extraction of its size. Our analysis discusses the individual properties of the three components, subjective expressions, sources and targets and their relations towards each other. Our observations should help practitioners and researchers when building a system to extract opinion roles from German data.
Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we investigate the impact of task setup and data representation, encoding of context information as well as different model architectures for this task.
This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and methodological approaches that were used for the initial planning of the resource. The headword candidates were selected by analyzing corpus-based data. Therefore, the data of two corpora (written and spoken German) were compared with quantitative methods. The information that was gathered on the selected headword candidates can be assigned to two different sections: meanings and functions in interaction.
Additionally, two studies on the expectations of future users towards the resource were carried out. The results of these two studies were also taken into account in the development of the prototype. Focusing on the presentation of the resource’s content, the paper shows both the different lexicographical information in selected dictionary entries, and the information offered by the provided hyperlinks and external texts. As a conclusion, it summarizes the most important innovative aspects that were specifically developed for the implementation of such a resource.
Smooth turn-taking in conversation depends in part on speakers being able to communicate their intention to hold or cede the floor. Both prosodic and gestural cues have been shown to be used in this context. We investigate the interplay of pitch movements and hand gestures at locations at which speaker change becomes relevant, comparing their use in German and Swedish. We find that there are some shared functions of prosody and gesture with regard to turn-taking in the two languages, but that these shared functions appear to be mediated by the different phonological demands on pitch in the two languages.
Untersuchungsgegenstand dieser Arbeit sind retrospektive Äußerungen, d.h. Nachfragen und fremdinitiierte Erweiterungen, die an den Sprecher der Ausgangsäußerung gerichtet sind. In der Forschung werden Nachfragen und Erweiterungen meist unabhängig voneinander mit unterschiedlichen Funktionen beschrieben. Die vorliegende Untersuchung setzt sich mit den gemeinsamen Eigenschaften beider Äußerungsformate auseinander, unabhängig von ihren deklarativen und interrogativen Merkmalen. Im Rahmen der Triangulation werden die Methode der Konversationsanalyse und die Annahmen der Relevanztheorie verbunden, um zu beschreiben, wie Sprecher in retrospektiven Äußerungen auf inhaltlicher Ebene mit den Informationen aus vorhergehenden Redebeiträgen umgehen. Primäre Datengrundlage sind die narrativen Interviews des Berliner Wendekorpus, ca. 60 Stunden gesprochenes Deutsch. Die Arbeit analysiert die grammatischen und lexikalischen Mittel, mit denen Sprecher bei der Bedeutungskonstruktion epistemische Unterstützung zum Ausdruck bringen. Weitere Analyseebenen sind die grammatische Kohärenz retrospektiver Äußerungen als evidentiale Strategie und die Ähnlichkeitsrelationen zwischen der interpretativen Annahme und den jeweiligen Bezugskomponenten.
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.