Refine
Year of publication
Document Type
- Part of a Book (148)
- Article (98)
- Conference Proceeding (53)
- Book (29)
- Working Paper (17)
- Review (9)
- Other (2)
- Preprint (2)
- Doctoral Thesis (1)
- Master's Thesis (1)
Keywords
- Gesprochene Sprache (361) (remove)
Publicationstate
- Veröffentlichungsversion (176)
- Zweitveröffentlichung (67)
- Postprint (16)
- Erstveröffentlichung (2)
Reviewstate
Publisher
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Kultur ist nicht nur zu einem Schlüsselbegriff der Geisteswissenschaften geworden, sondern wird auch entterminologisiert als Alltagsbegriff benutzt. In diesem Beitrag wird untersucht, wie der Ausdruck Kultur (einschließlich Derivationen und Komposita) in der mündlichen Interaktion verwendet wird. Auf Basis von 82 Instanzen im Korpus FOLK des IDS Mannheim wurde festgestellt, dass der Ausdruck von SprecherInnen in zumeist semiformellen bis formellen Interaktionstypen benutzt wird. Es findet sich ein breites Spektrum unterschiedlicher, teils ineinander übergehender Bedeutungen, welches dem der wissenschaftlichen Literatur der Kulturtheorie ähnlich ist. Dabei lassen sich jeweils relevante Kernbedeutungen identifizieren, mit denen mehr oder weniger vage assoziierte Bedeutungen verbunden sind. Kultur zeigt sich als kontroverser Begriff: Die Referenz von Kultur, die Wertung und seine Relevanz als Erklärungsressource sind häufig umstritten.
Sogenannte „Pragmatikalisierte Mehrworteinheiten“ sind im Deutschen hochfrequent und unterliegen bisweilen tiefgreifenden phonetischen Reduktionsprozessen. Diese können Realisierungsvarianten hervorbringen, die in der Rückschau auf mehr als eine lexematische Ursprungsform zurückführbar sind. Die vorliegende Studie untersucht mit [ˈzɐmɐ] einen besonders prägnanten Fall dieser Art anhand eines Perzeptionsexperimentes.
This paper presents a short insight into a new project at the "Institute for the German Language” (IDS) (Mannheim). It gives an insight into some basic ideas for a corpus-based dictionary of spoken German, which will be developed and compiled by the new project "The Lexicon of spoken German” (Lexik des gesprochenen Deutsch, LeGeDe). The work is based on the "Research and Teaching Corpus of Spoken German” (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK), which is implemented in the "Database for Spoken German” (Datenbank für Gesprochenes Deutsch, DGD). Both resources, the database and the corpus, have been developed at the IDS.
This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and methodological approaches that were used for the initial planning of the resource. The headword candidates were selected by analyzing corpus-based data. Therefore, the data of two corpora (written and spoken German) were compared with quantitative methods. The information that was gathered on the selected headword candidates can be assigned to two different sections: meanings and functions in interaction.
Additionally, two studies on the expectations of future users towards the resource were carried out. The results of these two studies were also taken into account in the development of the prototype. Focusing on the presentation of the resource’s content, the paper shows both the different lexicographical information in selected dictionary entries, and the information offered by the provided hyperlinks and external texts. As a conclusion, it summarizes the most important innovative aspects that were specifically developed for the implementation of such a resource.
Ph@ttSessionz and Deutsch heute are two large German speech databases. They were created for different purposes: Ph@ttSessionz to test Internet-based recordings and to adapt speech recognizers to the voices of adolescent speakers, Deutsch heute to document regional variation of German. The databases differ in their recording technique, the selection of recording locations and speakers, elicitation mode, and data processing.
In this paper, we outline how the recordings were performed, how the data was processed and annotated, and how the two databases were imported into a single relational database system. We present acoustical measurements on the digit items of both databases. Our results confirm that the elicitation technique affects the speech produced, that f0 is quite comparable despite different recording procedures, and that large speech technology databases with suitable metadata may well be used for the analysis of regional variation of speech.
There have been several attempts to annotate communicative functions to utterances of verbal feedback in English previously. Here, we suggest an annotation scheme for verbal and non-verbal feedback utterances in French including the categories base, attitude, previous and visual. The data comprises conversations, maptasks and negotiations from which we extracted ca. 13,000 candidate feedback utterances and gestures. 12 students were recruited for the annotation campaign of ca. 9,500 instances. Each instance was annotated by between 2 and 7 raters. The evaluation of the annotation agreement resulted in an average best-pair kappa of 0.6. While the base category with the values acknowledgement, evaluation, answer, elicit and other achieves good agreement, this is not the case for the other main categories. The data sets, which also include automatic extractions of lexical, positional and acoustic features, are freely available and will further be used for machine learning classification experiments to analyse the form-function relationship of feedback.
We present a descriptive analysis on the two datasets from the shared task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS), the only existing German dataset for opinion role extraction of its size. Our analysis discusses the individual properties of the three components, subjective expressions, sources and targets and their relations towards each other. Our observations should help practitioners and researchers when building a system to extract opinion roles from German data.
We apply a decision tree based approach to pronoun resolution in spoken dialogue. Our system deals with pronouns with NP- and non-NP-antecedents. We present a set of features designed for pronoun resolution in spoken dialogue and determine the most promising features. We evaluate the system on twenty Switchboard dialogues and show that it compares well to Byron’s (2002) manually tuned system.
We present a study on gaps in spoken language interaction as a potential candidate for syntactic boundaries. On the basis of an online annotation experiment, we can show that there is an effect of gap duration and gap type on its likelihood of being a syntactic boundary. We discuss the potential of these findings for an automation of the segmentation process.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
Modalverben gehören zu den hochfrequenten Verben des Deutschen und weisen in der gesprochenen Sprache eine hohe grammatische, semantische und funktionale Flexibilität auf. Die Studie befasst sich aus interaktionslinguistischer Sicht mit dem Verwendungsspektrum von Konstruktionen, in denen Modalverben “absolut”, das heißt hier: ohne infinites Vollverb, gebraucht werden. Es wird untersucht, welche Bedeutungen die Modalverben in Interaktionen haben bzw. welche Faktoren ihre Interpretation beeinflussen und inwiefern die jeweiligen Konstruktionen für spezifische sprachliche Handlungen und in speziellen interaktiven Kontexten verwendet werden.
Als entscheidend für die Analyse zeigen sich neben der signifikanten Medialitätsdifferenz auch Interaktivität, Online-Produktion und Gattungs- bzw. Registermerkmale wie Informalität. Die Studie demonstriert außerdem, dass die Modalverbkonstruktionen sehr unterschiedliche Grade von Schematizität, Spezifizität und (Nicht-) Kompositionalität aufweisen.
In this paper, we present an overview of freely available web applications providing online access to spoken language corpora. We explore and discuss various solutions with which the corpus providers and corpus platform developers address the needs of researchers who are working with spoken language. The paper aims to contribute to the long-overdue exchange and discussion of methods and best practices in the design of online access to spoken language corpora.
This paper introduces the Aix Map Task corpus, a corpus of audio and video recordings of task-oriented dialogues. It was modelled after the original HCRC Map Task corpus. Lexical material was designed for the analysis of speech and prosody, as described in Astésano et al. (2007). The design of the lexical material, the protocol and some basic quantitative features of the existing corpus are presented. The corpus was collected under two communicative conditions, one audio-only condition and one face-to-face condition. The recordings took place in a studio and a sound attenuated booth respectively, with head-set microphones (and in the face-to-face condition with two video cameras). The recordings have been segmented into Inter-Pausal-Units and transcribed using transcription conventions containing actual productions and canonical forms of what was said. It is made publicly available online.
Aktuelle Regionalsprachforschung zum Deutschen. Das IDS-Projekt Variation des gesprochenen Deutsch
(2010)
This paper aims to describe different patterns of syntactic extensions of turns-at-talk in mundane conversations in Czech. Within interactional linguistics, same-speaker continuations of possibly complete syntactic structures have been described for typologically diverse languages, but have not yet been investigated for Slavic languages. Based on previously established descriptions of various types of extensions (Vorreiter 2003; Couper-Kuhlen & Ono 2007), our initial description shall therefore contribute to the cross-linguistic exploration of this phenomenon. While all previously described forms for continuing a turn-constructional unit seem to exist in Czech, some grammatical features of this language (especially free word order and strong case morphology) may lead to problems in distinguishing specific types of syntactic extensions. Consequently, this type of language allows for critically evaluating the cross-linguistic validity of the different categories and underlines the necessity of analysing syntactic phenomena within their specific action contexts.
In the project LeGeDe („Lexik des gesprochenen Deutsch”), we are developing a corpus-based lexicographical resource focusing on features of the lexicon of spoken German. To investigate the expectations of future users, two studies were conducted: interviews with a smaller group of experts and a large-scale online survey. We report on selected results, mainly from the online survey and with a focus on the learning perspective. We want to show if and to which extent the L2-learners’
expectations differ from those of native speakers and in which aspects the two groups agree. We also want to give an outlook on the possibilities that will be available to learners in the planned lexicographical resource.
Annotating Discourse Relations in Spoken Language: A Comparison of the PDTB and CCR Frameworks
(2016)
In discourse relation annotation, there is currently a variety of different frameworks being used, and most of them have been developed and employed mostly on written data. This raises a number of questions regarding interoperability of discourse relation annotation schemes, as well as regarding differences in discourse annotation for written vs. spoken domains. In this paper, we describe ouron annotating two spoken domains from the SPICE Ireland corpus (telephone conversations and broadcast interviews) according todifferent discourse annotation schemes, PDTB 3.0 and CCR. We show that annotations in the two schemes can largely be mappedone another, and discuss differences in operationalisations of discourse relation schemes which present a challenge to automatic mapping. We also observe systematic differences in the prevalence of implicit discourse relations in spoken data compared to written texts,find that there are also differences in the types of causal relations between the domains. Finally, we find that PDTB 3.0 addresses many shortcomings of PDTB 2.0 wrt. the annotation of spoken discourse, and suggest further extensions. The new corpus has roughly theof the CoNLL 2015 Shared Task test set, and we hence hope that it will be a valuable resource for the evaluation of automatic discourse relation labellers.
Annotating Spoken Language
(2014)
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
Das von der Leibniz-Gemeinschaft geförderte Projekt „Lexik des gesprochenen Deutsch“(LeGeDe, Leibniz-Wettbewerb 2016, Förderlinie I: „Innovative Vorhaben“) nahm im September 2016 am Institut für Deutsche Sprache (IDS) seine Arbeit auf.1 Das Hauptziel ist die Erstellung einer korpusbasierten lexikografischen Online-Ressource zur Lexik des gesprochenen Deutsch auf der Grundlage von lexikologischen und gesprächsanalytischen Untersuchungen authentischer gesprochensprachlicher Daten. Als Kooperationsprojekt der Abteilungen Lexik und Pragmatik arbeiten Mitarbeiter/innen aus der Lexikologie, Lexikografie, Interaktionalen bzw. Gesprächslinguistik, Korpus- und Computerlinguistik und den Empirischen Methoden zusammen, wodurch sowohl aus der Sicht der Gesprochene- Sprache-Forschung als auch aus lexikografischer Perspektive eine innovative Form der Sprachbeschreibung entstehen soll.
We present an implemented machine learning system for the automatic detection of nonreferential it in spoken dialog. The system builds on shallow features extracted from dialog transcripts. Our experiments indicate a level of performance that makes the system usable as a preprocessing filter for a coreference resolution system. We also report results of an annotation study dealing with the classification of it by naive subjects.
This paper presents observations on the phonetic realisations of the German particles ja – ‘yes’ and naja – approximately ‘well’. As part of a large-scale study on the particle ja, we identified numerous instances in the dataset that had been orthographically transcribed as ja, but were phonetically realised as [nja]. Using phonetic and functional parameters, we explore the question whether these instances can be attributed to either the lexeme ja or naja. While phonetic measurements yield ambivalent results, analyses of pragmatic parameters such as function and turn position seem to indicate that [nja] was predominantly intended to be ja, although some functional differences between ja and [nja] could also be identified.
Der Auftaktworkshop "Lexik des gesprochenen Deutsch: Forschungsstand, Erwartungen und Anforderungen an die Entwicklung einer innovativen lexikografischen Ressource" fand am 16. und 17. Februar 2017 am Institut fur Deutsche Sprache (IDS) in Mannheim statt. Das von der Leibniz-Gemeinschaft geforderte Projekt "Lexik des gesprochenen Deutsch" (=LeGeDe, Leibniz-Wettbewerb 2016, Forderlinie "Innovative Vorhaben") nahm im September 2016 am IDS seine Arbeit auf. Das Hauptziel ist die Erstellung einer korpusbasierten elektronischen Ressource zur Lexik des gesprochenen Deutsch auf der Grundlage von lexikologischen und gesprachsanalytischen Untersuchungen authentischer gesprochensprachlicher Daten.
Bericht über die 15. Arbeitstagung zur Gesprächsforschung vom 30. März - 1. April 2011 in Mannheim
(2011)
Bericht über die 19. Arbeitstagung zur Gesprächsforschung vom 16. bis 18. März 2016 in Mannheim
(2016)
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
CLARIN contractual framework for sharing language data: the perspective of personal data protection
(2020)
The article analyses the responsibility for ensuring compliance with the General Data Protection Regulation (GDPR) in research settings. As a general rule, organisations are considered the data controller (responsible party for the GDPR compliance). Research constitutes a unique setting influenced by academic freedom. This raises the question of whether academics could be considered the controller as well. However, there are some court cases and policy documents on this issue. It is not settled yet. The analysis serves a preliminary analytical background for redesigning CLARIN contractual framework for sharing data.
We present web services which implement a workflow for transcripts of spoken language following the TEI guidelines, in particular ISO 24624:2016 “Language resource management – Transcription of spoken language”. The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.
We present web services implementing a workflow for transcripts of spoken language following TEI guidelines, in particular ISO 24624:2016 "Language resource management - Transcription of spoken language". The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.
Comparaison de deux marqueurs d’affirmation dans des séquences de co-construction: voilà et genau
(2016)
This contribution investigates the German response particle genau and the French response particle voilà within collaborative turn sequences in videotaped ordinary conversations. Adopting a conversation analytic approach to cross-linguistic comparison, I will show that the basic epistemic value of both particles allows them to be used in similar sequential environments. When a co-participant formulates a candidate conclusion in environments where it can be easily inferred from previous talk, first speakers may confirm the adequacy of the pre-emptive completion by voilà or genau. These particles may then also be followed by self- or other-repeats. The analyses aim to illustrate that participants rely on a variety of practices in order to positively assess a pre-emptive completion, and to refute a supposed binary opposition of refusal vs. acceptance in the receipt slot.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.
We present an approach to making existing CLARIN web services usable for spoken language transcriptions. Our approach is based on a new TEI-based ISO standard for such transcriptions. We show how existing tool formats can be transformed to this standard, how an encoder/decoder pair for the TCF format enables users to feed this type of data through a WebLicht tool chain, and why and how web services operating directly on the standard format would be useful.
Except for some recent advances in spoken language lexicography (cf. Verdonik & Sepesy Maučec 2017, Hansen & Hansen 2012, Siepmann 2015), traditional lexicographic work is mainly oriented towards the written language. In this paper, we describe a method we used to identify relevant headword candidates for a lexicographic resource for spoken language that is currently being developed at the Institute for the German Language (IDS, Mannheim). We describe the challenges of the headword selection for a dictionary of spoken language, and having made considerations regarding our headword concept, we present the corpus-based procedures that we used in order to facilitate the headword selection. After presenting the results regarding the selection of one-word lemmas, we discuss the opportunities and limitations of our approach.
Cutler, Anne: Native listening. Language experience and the recognition of spoken words [Rezension]
(2013)
Das Archiv für Gesprochenes Deutsch und das Forschungs- und Lehrkorpus für Gesprochenes Deutsch
(2022)
Der Beitrag stellt das Archiv für Gesprochenes Deutsch (AGD) und das
Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK) als Ressourcen für die sprachwissenschaftliche Forschung vor. Besonderes Augenmerk liegt dabei auf deren Potenzial für die sprachwissenschaftliche Forschung zu Sprachgebrauch in Gesellschaft und Politik.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Das Bild von der 'Sprache der DDR' in der alten Bundesrepublik oder: Haben sie so gesprochen?
(2004)
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist mit seinem Design bislang vornehmlich auf Nutzergruppen aus der sprachwissenschaftlichen Forschung ausgerichtet, prinzipiell aber auch hervorragend dafür geeignet, für die Nutzung im handlungsorientierten DaF- (und eventuell auch DaZ-)Unterricht fruchtbar gemacht zu werden. Lehrende und Lernende des Deutschen als Fremd- oder Zweitsprache bilden eine gesellschaftlich zunehmend relevante Zielgruppe und auch einen beträchtlichen Anteil der registrierten NutzerInnen des Korpus. Im vorliegenden Beitrag soll daher anhand eines exemplarischen Annotationsprojekts gezeigt werden, inwiefern die besonderen Ressourcen und Potentiale von FOLK für den DaF-Unterricht und dort speziell für den Aspekt des authentischen, kompetenten sprachlichen Handelns in Interaktion sinnvoll aufbereitet und schrittweise zugänglicher gemacht werden können.
Das Verb machen im gesprochenen Deutsch. Bedeutungskonstitution und interaktionale Funktionen
(2017)
Die Arbeit untersucht unter anderem sowohl die semantischen Interpretationen von machen als auch seine pragmatischen Funktionen in der Interaktion, diskutiert die Behandlung von machen in der Lexikographie und liefert dazu einen Vergleich mit der Bedeutung und Funktion des Verbs tun in der gesprochenen Sprache. Außerdem wird die Konstitution von Bedeutung am Beispiel von machen anhand eines eigens entwickelten Ebenenmodells dargestellt, durch welches sich die einzelnen (außer-)sprachlichen Ebenen jeweils abgrenzen und einzeln beschreiben lassen. Die Analysen basieren dabei auf der Grundlage aktueller und spontansprachlicher Interaktionen unterschiedlicher Gesprächstypen.
Data and transcription
(2008)
The goal of the present chapter is to explore the possibility of providing the research (but also the industrial) community that commonly uses spoken corpora with a stable portfolio of well-documented standardized formats that allow a high reuse rate of annotated spoken resources and, as a consequence, better interoperability across tools used to produce or exploit such resources.
Speech islands are historically and developmentally unique and will inevitably disappear within the next decades. We urgently need to preserve their remains and exploit what is left in order to make research on language-in-contact and historical as well as current comparative language research possible.
The Archive for Spoken German (AGD) at the Institute for German Language collects, fosters and archives data from completed research projects and makes them available to the wider research community.
Besides large variation corpora and corpora of conversational speech, the archive already contains a range of collections of data on German speech minorities. The latter will be outlined in this chapter. Some speech island data is already made available through the personal service of the AGD, or the database of spoken German (DGD), e.g. data on Australian German, Unserdeutsch, or German in North America. Some corpora are still being prepared for publication, but still important to document for potentially interested research projects. We therefore also explain the current problems and efforts related to the curation of speech island data, from the digitization of recordings and the collection of metadata, to the integration of transcriptions, annotations and other ways of accessing and sharing data.
Daten und Metadaten
(2022)
In diesem Kapitel werden Metadaten als Daten definiert, die der Dokumentation und/oder Beschreibung empirischer Sprachdaten dienen. Einleitend werden die verschiedenen Funktionen von Metadaten im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität diskutiert. Anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) werden dann Metadaten eines konkreten Korpus vorgestellt, und es wird gezeigt, wie diese bei Korpusanalysen zum Einsatz kommen.
Dieser Aufsatz befasst sich mit Fragen, die sich im Zusammenhang mit der Archivierung und öffentlichen Bereitstellungen von gesprächsanalytischen Daten (Audio- bzw. Videoaufnahmen und deren Transkriptionen) stellen. Er gibt zunächst einen Überblick über die Forschungsperspektiven, die eine verbesserte Praxis der Datenm•chivierung flir die Gesprächsforschung bieten würde, und nennt dann einige der wesentlichen Probleme, die in der derzeitigen Praxis der Schaffung solcher Archive im Wege stehen können. Anschließend werden vorhandene Lösungsansätze vorgestellt, die helfen können, diese Probleme zu überwinden.
Deontische Infinitivkonstruktionen : Syntax, Semantik, Pragmatik und interaktionale Verwendung
(2006)
Im Beitrag steht das LeGeDe-Drittmittelprojekt und der im Laufe der Projektzeit entwickelte korpusbasierte lexikografische Prototyp zu Besonderheiten des gesprochenen Deutsch in der Interaktion im Zentrum der Betrachtung. Die Entwicklung einer lexikografischen Ressource dieser Art knüpft an die vielfältigen Erfahrungen in der Erstellung von korpusbasierten Onlinewörterbüchern (insbesondere am Leibniz-Institut für Deutsche Sprache, Mannheim) und an aktuelle Methoden der korpusbasierten Lexikologie sowie der Interaktionsanalyse an und nimmt als multimedialer Prototyp für die korpusbasierte lexikografische Behandlung von gesprochensprachlichen Phänomenen eine innovative Position in der modernen Onlinelexikografie ein. Der Beitrag befasst sich im Abschnitt zur LeGeDe-Projektpräsentation ausführlich mit projektrelevanten Forschungsfragen, Projektzielen, der empirischen Datengrundlage und empirisch erhobenen Erwartungshaltungen an eine Ressource zum gesprochenen Deutsch. Die Darstellung der komplexen Struktur des LeGeDe-Prototyps wird mit zahlreichen Beispielen illustriert. In Verbindung mit der zentralen Information zur Makro- und Mikrostruktur und den lexikografischen Umtexten werden die vielfältigen Vernetzungs- und Zugriffsstrukturen aufgezeigt. Ergänzend zum abschließenden Fazit liefert der Beitrag in einem Ausblick umfangreiche Vorschläge für die zukünftige lexikografische Arbeit mit gesprochensprachlichen Korpusdaten.
Das sprachlich-kommunikative Verhalten einer nordbayerischen kommunalpolitischen Frauengruppe ist Untersuchungsgegenstand dieser gesprächsanalytischen Studie. Ethnographien der Kommunikation zeichnen ein „Portrait“ des kommunikativen sozialen Stils einer Interaktionsgemeinschaft und bringen Erkenntnisse über Strategien der Beziehungsarbeit sowie der Selbst- und Fremddarstellung hervor. Übergreifende Konzepte wie das Face, die Modalität und die Frage nach präferierten Themen und Aktivitätstypen werden für die Analyse herangezogen. Elemente „professioneller“ Interaktion (Sitzungsleitung, Tagesordnung, Regeln der Rederechtsvergabe) mischen sich bei der untersuchten Gruppe mit einem freundschaftlich-privaten und scherzhaften „Umgangston“ sowie mit Eigenheiten weiblichen Kommunikationsverhaltens. Dabei referieren die Beteiligten auf ihre geteilte Lebenswelt, ihre gemeinsamen Werte und Ziele und entwickeln einen sozialen Stil des Sprechens, der sowohl Integrationsfaktor, als auch Strategie zur Bewältigung der spezifischen Lebensanforderungen ist.
Der Umgang mit Gesprächskorpora am IDS Mannheim: Die Recherche in der COSMAS-II-Gesprächsdatenbank
(2005)
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.
Designing a Bilingual Speech Corpus for French and German Language Learners: a Two-Step Process
(2014)
We present the design of a corpus of native and non-native speech for the language pair French-German, with a special emphasis on phonetic and prosodic aspects. To our knowledge there is no suitable corpus, in terms of size and coverage, currently available for the target language pair. To select the target L1-L2 interference phenomena we prepare a small preliminary corpus (corpus1), which is analyzed for coverage and cross-checked jointly by French and German experts. Based on this analysis, target phenomena on the phonetic and phonological level are selected on the basis of the expected degree of deviation from the native performance and the frequency of occurrence. 14 speakers performed both L2 (either French or German) and L1 material (either German or French). This allowed us to test, recordings duration, recordings material, the performance of our automatic aligner software. Then, we built corpus2 taking into account what we learned about corpus1. The aims are the same but we adapted speech material to avoid too long recording sessions. 100 speakers will be recorded. The corpus (corpus1 and corpus2) will be prepared as a searchable database, available for the scientific community after completion of the project.
Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we investigate the impact of task setup and data representation, encoding of context information as well as different model architectures for this task.
This document presents ongoing work related to spoken language data within a project that aims to establish a common and unified infrastructure for the sustainable provision of linguistic primary research data at the Institut für Deutsche Sprache (IDS). In furtherance of its mission to “document the German language as it is currently used”, the project expects to enable the research community to access a broad empirical base of working material via a single platform. While the goal is to eventually cover all linguistically relevant digital resources of the IDS, including lexicographic information systems such as the IDS German Vocabulary Portal, OWID, written language corpora such as the IDS German Reference Corpus, DeReKo, and spoken language corpora such as the IDS German Speech Corpus for Research and Teaching, FOLK, the work presented here predominantly focuses on the latter type of data, i.e. speech corpora. Within this context, the present document pictures the project’s contributions to the development of standards and best practice guidelines concerning data storage, process documentation and legal issues for the sustainable preservation and long-term accessibility of primary linguistic research data.
Hypermedia und Internet revolutionieren die Gesellschaft in vielen Lebens- und Arbeitsbereichen. Sie sind auch in der Linguistik nicht nur zum Forschungsgegenstand, sondern auch zum Präsentationsmedium geworden. Auch und besonders in der Gesprächsanalyse werden die Möglichkeiten der Darstellung und der Analyse durch den Einsatz elektronischer Systeme um ein Vielfaches erweitert. In diesem Beitrag möchten wir darüber informieren, wie und zu welchem Zweck Videodateien in verschiedenen online oder offline verfügbaren Systemen zur Gesprächsforschung eingesetzt werden, und versuchen, den Stellenwert dieses Einsatzes im gesprächsanalytischen Arbeitsprozess aufzuzeigen. Nach einer Darstellung der bisherigen wesentlichen Entwicklungsschritte des Gesprächsanalytischen Informationssystems GAIS und einem Überblick über andere Hypermediasysteme zeigen wir, wie man mit Hilfe von Videos die Flüchtigkeit des originalen Kommunikationsereignisses nachbilden oder in spezifischer Weise auf dieses Ereignis zugreifen kann. Ferner zeigen wir, wie sich der Videoeinsatz mit Phasen des gesprächsanalytischen Arbeitsprozesses verknüpfen lässt, und plädieren für eine Integration der didaktischen Vermittlung in diesen Prozess. Wir beschäftigen uns hier also mit den didaktischen Einsatzmöglichkeiten für Lehrende und den Lernmöglichkeiten für Studierende, die hypermediale Systeme in der Gesprächsanalyse bieten.
In literate societies linguistic competence includes speaking as well as writing. Talking and writing are rather different activities, therefore one should expect that in foreign language teaching (and especially in german-as-foreign-language teaching) both parts are included in equal proportions. However, the practise of teaching shows that written language is dominant and spoken language lives a shadow existence (section 1). In the following I will give five reasons as to why spoken language stands in the background and why it is such a bulky and clumsy subject (section 2). After which I will characterise two points of view one can take in regards to the magnitude of the differences between spoken and written language (section 3) and I will describe some of the central differences (section 4). Finally, 1 will formulate some consequences of this study for foreign language teaching, and I will argue that the difficulties connected with spoken language should be confronted, as in my opinion spoken language is an indispensable part of foreign language teaching (section 5).
Dieser Beitrag skizziert einen paradoxen Wandelprozess, den wir „Denaturierung" nennen: Ursprünglich natürlichsprachige, orale, ersterworbene Varietäten werden durch sprachplanerische Maßnahmen zu literalen, nicht ersterworbenen Systemen. Wir diskutieren zunächst die Grundlagen dieses Prozesses: Die Literalisierung von Sprachsystemen und Gesellschaften bringt orale Non-Standard-Varietäten in funktionale Konkurrenzsituationen mit Standardvarietäten. Der Wunsch nach Bewahrung und (Re-)Vitalisierung dieser Varietäten erzwingt - um ihre funktionale Leistungsfähigkeit auszubauen - Standardisierungsprozesse der betroffenen Varietäten, wodurch in ihren Systemen Elemente auftreten, die nicht durch L1-Erwerb weitergegeben werden (können). Paradoxerweise soll also das Verschwinden natürlicher Sprachen (der muttersprachlich erworbenen Dialekte), die sich definitorisch gerade durch die funktionale Distanz zur Standardsprache auszeichnen, durch Eingriffe unterbunden werden, die ihrem Status als natürliche Sprachen entgegenwirken. Wir postulieren, dass diese Denaturierung eine Konsequenz der Faktoren Attrition und Standardisierung ist. Dazu illustrieren und kontrastieren wir den Verlauf dieses Prozesses anhand von drei germanischen Varietäten: Während das Bairische noch am Anfang einer möglichen Denaturierung steht, kann das sowohl von starker Attrition als auch gezielter Standardisierung betroffene Niederdeutsche in dieser Hinsicht bereits als fortgeschritten angesehen werden. Im modernen Färöischen, wo bei bewahrter hoher mündlicher Variation eine stark historisierende, unifizierende Schriftvarietät installiert wurde, fällt die Denaturierung mangels Attrition dagegen nur schwach aus.
Am 1. September 2016 hat das Forschungsprojekt „Lexik des gesprochenen Deutsch“ (= LeGeDe) am Institut für Deutsche Sprache in Mannheim als Kooperationsprojekt der Abteilungen Pragmatik und Lexik seine Arbeit aufgenommen. Dieses drittmittelgeförderte Projekt der Leibniz-Gemeinschaft (Leibniz-Wettbewerb 2016; Förderlinie 1: Innovative Vorhaben) hat eine Laufzeit von drei Jahren (1.9.2016-31.8.2019) und besteht aus einem Team von Mitarbeiterinnen und Mitarbeitern aus den Bereichen Lexikologie, Lexikografie, Gesprächsforschung, Korpus- und Computerlinguistik sowie Empirische Methoden. Im folgenden Beitrag werden neben Informationen zu den Eckdaten des Projekts, zu den unterschiedlichen Ausgangspunkten, dem Gegenstandsbereich, den Zielen sowie der LeGeDe-Datengrundlage vor allem einige grundlegende Forschungsfragen und methodologische Ansätze aufgezeigt sowie erste Vorschläge zur Gewinnung, Analyse und Strukturierung der Daten präsentiert. Zur lexikografischen Umsetzung werden verschiedene Möglichkeiten skizziert und im Ausblick einige Herausforderungen zusammengefasst.
In diesem Beitrag möchte ich die These vertreten, dass Varianz das konstitutive Merkmal von Sprache ist - der geschriebenen, aber insbesondere auch der gesprochenen. Demgegenüber stand in der Linguistik über lange Zeit die Vorstellung im Vordergrund, dass Sprache ein homogener Gegenstand sei - und sie dies, um wechselseitige Verständigung zu ermöglichen, auch sein müsse. Ich werde zunächst in Abschnitt 2 diese Homogenitätsthese in Erinnerung rufen, um dann in Abschnitt 3 zu explizieren, was ich unter sprachlicher Varianz verstehe. In Abschnitt 4 werde ich einige theoretische Konzepte zur linguistischen Modellierung von Varianz skizzieren und ihre Grundannahmen explizieren. Die besondere Vielfalt der Varianz in der gesprochenen Sprache und die Gründe für diese Vielfalt stehen im Mittelpunkt von Abschnitt 5. Schließen werde ich, indem ich in Abschnitt 6 ein alternatives Konzept zur Modellierung von Varianz vorstelle, das für die Beschreibung der Varianz in der gesprochenen Sprache in besonderer Weise geeignet ist. Es konzeptualisiert Varianz als graduelles und kontinuierliches Phänomen, nicht als qualitative Differenz zwischen in sich annähernd homogenen Entitäten.