Refine
Year of publication
Document Type
- Part of a Book (44)
- Article (28)
- Conference Proceeding (17)
- Book (4)
- Review (3)
- Working Paper (3)
- Part of Periodical (1)
Has Fulltext
- yes (100)
Is part of the Bibliography
- no (100) (remove)
Keywords
- Gesprochene Sprache (100) (remove)
Publicationstate
- Veröffentlichungsversion (100) (remove)
Reviewstate
- (Verlags)-Lektorat (67)
- Peer-Review (22)
- Review-Status-unbekannt (2)
Publisher
Post-field syntax and focalization strategies in National Socialist political speech. This paper deals with a syntactic feature of spoken German, i.e. post-field filling, and with its occurrence in one specific discourse type – political speech – throughout one significant period of the history of German language – National Socialism. This paper aims at pointing out the communicative pragmatic function of right dislocation in the NS political speech on the basis of some collected examples.
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
We apply a decision tree based approach to pronoun resolution in spoken dialogue. Our system deals with pronouns with NP- and non-NP-antecedents. We present a set of features designed for pronoun resolution in spoken dialogue and determine the most promising features. We evaluate the system on twenty Switchboard dialogues and show that it compares well to Byron’s (2002) manually tuned system.
We present an implemented machine learning system for the automatic detection of nonreferential it in spoken dialog. The system builds on shallow features extracted from dialog transcripts. Our experiments indicate a level of performance that makes the system usable as a preprocessing filter for a coreference resolution system. We also report results of an annotation study dealing with the classification of it by naive subjects.
In this paper we investigate the coverage of the two knowledge sources WordNet and Wikipedia for the task of bridging resolution. We report on an annotation experiment which yielded pairs of bridging anaphors and their antecedents in spoken multi-party dialog. Manual inspection of the two knowledge sources showed that, with some interesting exceptions, Wikipedia is superior to WordNet when it comes to the coverage of information necessary to resolve the bridging anaphors in our data set. We further describe a simple procedure for the automatic extraction of the required knowledge from Wikipedia by means of an API, and discuss some of the implications of the procedure’s performance.
Schriftlich-Mündlich
(1990)
Die überführte Sprache?
(1991)
Der Beitrag rekonstruiert die Geschichte des Korpus „Deutsche Mundarten: DDR“ von den ersten Planungen der Tonaufnahmen am Beginn der 1950er Jahre über ihre Durchführung und Aufbereitung bis hin zur Rezeption in der Sprachwissenschaft der DDR und der BRD. Besonderes Augenmerk wird auf das Verhältnis der DDR-Aufnahmen zum impulsgebenden Parallelprojekt Zwirners gelegt. Am Schicksal des Korpus wird überdies nachgezeichnet, wie sich die Dialektologie in der DDR unter politischem Druck in die Richtung einer modernen Regionalsprachenforschung entwickelte. Quellengrundlage der Korpusgeschichte sind Archivbestände der ehemaligen Akademie der Wissenschaften der DDR, Akten zur Förderung Eberhard Zwirners durch die Deutsche Forschungsgemeinschaft sowie zeitgenössische und neuere linguistische Publikationen, die mit dem Aufnahmekorpus gearbeitet haben.
Comparaison de deux marqueurs d’affirmation dans des séquences de co-construction: voilà et genau
(2016)
This contribution investigates the German response particle genau and the French response particle voilà within collaborative turn sequences in videotaped ordinary conversations. Adopting a conversation analytic approach to cross-linguistic comparison, I will show that the basic epistemic value of both particles allows them to be used in similar sequential environments. When a co-participant formulates a candidate conclusion in environments where it can be easily inferred from previous talk, first speakers may confirm the adequacy of the pre-emptive completion by voilà or genau. These particles may then also be followed by self- or other-repeats. The analyses aim to illustrate that participants rely on a variety of practices in order to positively assess a pre-emptive completion, and to refute a supposed binary opposition of refusal vs. acceptance in the receipt slot.
In German oral discourse, previous research has shown that okay can be used both as a response token (e.g., for agreeing with the previous turn or for claiming a certain degree of understanding) and as a discourse marker (e.g., for closing conversational topics or sequences and/or indicating transitions). This contribution focuses on the use of okay as a response token and how it is connected with the speakers’ interactional state of knowledge (their understanding, their assumptions etc.). The analysis is based on video recorded everyday conversations in German and a sequential, micro-analytic approach (multimodal conversation analysis). The main function of conversational okay in the selected data set is related to indicating the acceptance of prior information. By okay, speakers however claim acceptance of a piece of information that they can’t verify or check. The analysis contrasts different sequences containing okay only with sequences in which change-of-state tokens such as ah and achso co-occur with okay. This illustrates that okay itself does not index prior information as new, and that it is not used for agreeing with or for confirming prior information. Instead it enables the speaker to adopt a kind of neutral, “non-agreeing” position towards a given piece of information.
This paper aims to describe different patterns of syntactic extensions of turns-at-talk in mundane conversations in Czech. Within interactional linguistics, same-speaker continuations of possibly complete syntactic structures have been described for typologically diverse languages, but have not yet been investigated for Slavic languages. Based on previously established descriptions of various types of extensions (Vorreiter 2003; Couper-Kuhlen & Ono 2007), our initial description shall therefore contribute to the cross-linguistic exploration of this phenomenon. While all previously described forms for continuing a turn-constructional unit seem to exist in Czech, some grammatical features of this language (especially free word order and strong case morphology) may lead to problems in distinguishing specific types of syntactic extensions. Consequently, this type of language allows for critically evaluating the cross-linguistic validity of the different categories and underlines the necessity of analysing syntactic phenomena within their specific action contexts.
Gerade wenn es um die Gewinnung und eine erste Bewertung von Forschungsdaten geht, ist derzeit oft vom Übergang zu citizen science die Rede. Nachdem dieses Konzept zunächst in den Lebenswissenschaften eine größere Rolle gespielt hat, findet es sich neuerdings auch in Teilen der Sprachwissenschaft. Viele einschlägige Initiativen schließen an die Tätigkeiten an, bei denen sich auch traditionell schon die professionalisierte Wissenschaft der Hilfe der ‚Laien‘ bediente, sie können allerdings jetzt die in ungeahntem Ausmaß gewachsenen Möglichkeiten elektronischer Kommunikation und elektronischen Daten-Managements nutzen. Das digitale Interagieren erweitert die Möglichkeiten der als beteiligte „Laien“ gesehenen Personen aber doch so sehr, dass sich auch qualitativ ein neues Verhältnis zwischen den am Forschungsprozess Beteiligten entwickelt. In diesem Beitrag wird diskutiert, welche Folgen diese Veränderung für die wissenschaftliche Praxis, aber auch für das Verständnis des Konzepts „Wissenschaft“ hat.
Annotating Spoken Language
(2014)
Untersuchungsgegenstand dieser Arbeit sind retrospektive Äußerungen, d.h. Nachfragen und fremdinitiierte Erweiterungen, die an den Sprecher der Ausgangsäußerung gerichtet sind. In der Forschung werden Nachfragen und Erweiterungen meist unabhängig voneinander mit unterschiedlichen Funktionen beschrieben. Die vorliegende Untersuchung setzt sich mit den gemeinsamen Eigenschaften beider Äußerungsformate auseinander, unabhängig von ihren deklarativen und interrogativen Merkmalen. Im Rahmen der Triangulation werden die Methode der Konversationsanalyse und die Annahmen der Relevanztheorie verbunden, um zu beschreiben, wie Sprecher in retrospektiven Äußerungen auf inhaltlicher Ebene mit den Informationen aus vorhergehenden Redebeiträgen umgehen. Primäre Datengrundlage sind die narrativen Interviews des Berliner Wendekorpus, ca. 60 Stunden gesprochenes Deutsch. Die Arbeit analysiert die grammatischen und lexikalischen Mittel, mit denen Sprecher bei der Bedeutungskonstruktion epistemische Unterstützung zum Ausdruck bringen. Weitere Analyseebenen sind die grammatische Kohärenz retrospektiver Äußerungen als evidentiale Strategie und die Ähnlichkeitsrelationen zwischen der interpretativen Annahme und den jeweiligen Bezugskomponenten.
Online Access Tools for Spoken German: The Resources of the Deutsches Spracharchiv in a Database
(2002)
This paper shows some details of the modernization of the Deutsches Spracharchiv (DSAv). It explores some future possibilities of linguistical documentation and analysis using the Web. The Institut für Deutsche Sprache (IDS) in Mannheim is the central institution for linguistic research in Germany. The DSAv in the IDS is the center for documentation and research of spoken German. These archives include the largest collection of sound recordings of spoken German (dialects and colloquial speech, including e.g. lots of extinct dialects of former German territories in Eastern Europe) - altogether more than 15,000 sound recordings. The lacking clarification and accessibility of this data material has been felt as an essential deficit. The opportunity to edit the sound signal digitally offers a much easier access to spoken language. Through the integration of the already existing information about the corpora and the transcribed texts in an information- and full text databank, as well as the linking of the data with the acoustic signal (alignment), arises a data-pool with considerably better documentation of the materials and a fast direct grasp of the recorded sounds. Thus, the DSAv initiates totally new research questions for the work at the IDS, as well as for linguistics altogether.
Sprache und Gehirn
(2008)
Sprachverstehen ist ein hochkomplexer Prozess bei dem eine Reihe von Subprozessen aufgerufen und zeitlich koordiniert werden müssen. Linguistische Theorien und psycholinguistische Modelle postulieren unterschiedliche Prozessdomänen für die Verarbeitung von gesprochener Sprache: Semantik, Syntax und Phonologie und innerhalb dieser, die Prosodie. Neurophysiologische Studien, die auf den zeitlichen Verlauf dieser Prozesse im Gehirn fokussieren, zeigen, dass syntaktische Information früh und unabhängig von semantischer Information verarbeitet wird. Bildgebende Verfahren belegen, dass diese verschiedenen Prozessdomänen von unterschiedlichen neuronalen Netzwerken in der linken Hirnhälfte unterstützt werden. Für die syntaktische Verarbeitung können dabei zwei Subnetzwerke differenziert werden. Ein Netzwerk, bestehend aus dem frontalen Operculum und dem anterioren Anteil des oberen Temporalgyrus, zeichnet verantwortlich für die Verarbeitung der lokalen Phrasenstruktur. Ein zweites Netzwerk, bestehend aus dem Broca-Areal und dem hinteren Anteil des oberen Temporalgyrus, ist verantwortlich für die Verarbeitung hierarchischer Strukturen. Die rechte Hirnhälfte ist vornehmlich für die Verarbeitung prosodischer Information auf Satzebene zuständig. Die schnelle Kommunikation zwischen beiden Hirnhälften ist Voraussetzung für eine enge Koppelung von syntaktischer und prosodischer Verarbeitung auf dem Weg zum Sprachverstehen. Diese wird durch eine Hirnstruktur gesichert, die die beiden Hemisphären miteinander verbindet. Als Beleg hierfür gilt der Befund, dass Patienten mit Schädigung dieser Hirnstruktur keine normale Interaktion zwischen grammatischer und prosodischer Information zeigen.
Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen
(2007)
Dieser Beitrag beschreibt computerlinguistische Arbeiten zur automatischen Zusammenfassung gesprochener Dialoge. Der Beitrag geht sowohl auf die notwendige Vorverarbeitung als auch auf die eigentliche Zusammenfassung durch automatische Erkennung von Themengrenzen und Extraktion relevanter Äußerungen ein. Ein weiterer Schwerpunkt liegt in der Beschreibung von Arbeiten zur automatischen Anaphernresolution in gesprochener Sprache. Der Beitrag betont vor allem die Rolle und Bedeutung von annotierten Korpora für die computerlinguistische Forschung und Entwicklung.
In what follows I would like to do three things. First, I want to show that what we have been talking about as urban youth language is actually quite durable, both historically and biographically, so something like ‘youth style’ doesn’t really work as a label. Second, I shall argue that we would do better just talking about ‘contemporary urban vernaculars’, though, third, I would like to nest this in a broadly practice-theory perspective that I will elaborate on in the last part of my talk.
I will start with some data.
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Die Beiträge des Bandes konzentrieren sich auf die Fragen: Was umfasst der Begriff 'Standardsprache', wie hat sich die deutsche Standardsprache seit dem 19. Jh. entwickelt, wie ist ihr gegenwärtiger Zustand sprachwissenschaftlich angemessen zu beschreiben und welche längerfristigen Entwicklungstendenzen lassen sich erkennen? Die Antworten reflektieren auch Notwendigkeit und Grenzen von Normativität.
Linguistische Analyse
(1982)
This paper presents an extension to the Stuttgart-Tübingen TagSet, the standard part-of-speech tag set for German, for the annotation of spoken language. The additional tags deal with hesitations, backchannel signals, interruptions, onomatopoeia and uninterpretable material. They allow one to capture phenomena specific to spoken language while, at the same time, preserving inter-operability with already existing corpora of written language.
We present the annotation of information structure in the MULI project. To learn more about the information structuring means in prosody, syntax and discourse, theory- independent features were defined for each level. We describe the features and illustrate them on an example sentence. To investigate the interplay of features, the representation has to allow for inspecting all three layers at the same time. This is realised by a stand-off XML mark-up with the word as the basic unit. The theory-neutral XML stand-off annotation allows integrating this resource with other linguistic resources such as the Tiger Treebank for German or the Penn treebank for English.
Vorschlag zu einer Typik der Kommunikationssituationen in der gesprochenen deutschen Standardsprache
(1975)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
We present an XML-based metadata standard for the documentation of speech and multimedia corpora that was developed at the Institute for German Language (IDS) in Mannheim, Germany. The IDS is one of the major institutions providing German speech and language corpora to researchers. These corpora stem from many different sources and were previously documented in a rather heterogeneous fashion using a variety of data models and formats. In order to unify the documentation for existing and future corpora, the IDS- internal Archive for Spoken German collaborated with several projects and developed a set of standardised XML metadata schemas. These XML schemas build on existing internal and external documentation schemas (such as IMDI) and take into account the workflow of speech corpus production. In order to minimise redundancy, separate schemas were designed for projects, speakers, recording sessions, and entire corpora. The resulting schemas are tested in ongoing speech and multi-media projects at the IDS and are regularly revised. They are accompanied by element definitions, guidelines, and examples. In addition, a mapping to IMDI will be provided.
In my article I argue the need for an existence of grammar in spoken language. It would have the same functions as the grammar of written language: describing and explaining the fundamental units of spoken language and their features, describing the composition of those units and their conjunction. The basic units in the grammar of spoken language can be named as: the sound, the word, the functional unit, the conversational turn and the conversation itself. Further the central characteristics of spoken language and their impact on grammar have to be taken into account. They are: the interactivity, the multimodality, the processabihty and the great variability. After displaying my concepts I discuss three alternative concepts of a grammar in spoken language: online-syntax, construction grammar and multimodal grammar. The article concludes by discussing the role of spoken language grammar in language and foreign language teaching.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
Bericht über die 19. Arbeitstagung zur Gesprächsforschung vom 16. bis 18. März 2016 in Mannheim
(2016)
Dieser Beitrag stellt nach einer kurzen allgemeinen Einführung die Datenbank für Gesprochenes Deutsch (DGD) und das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente speziell für gesprächsanalytisches Arbeiten vor. Anhand des Beispiels sprich als Diskursmarker für Reformulierungen werden Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen illustriert: Nutzungsmöglichkeiten der Token-, Kontext-, Metadaten- und Positionssuche werden gezeigt, jeweils in Bezug auf und im wechselseitigen Verhältnis mit qualitativen Fallanalysen, auch mit Belegannotationen nach analyserelevanten (strukturellen und funktionalen) Kategorien. Schließlich wird das heißt als weiterer Reformulierungsindikator für eine vergleichende Analyse herangezogen. Dieser Beitrag stellt eine detailliertere Ausarbeitung einer kürzeren, eher technisch-didaktischen Online-Handreichung (Kaiser/ Schmidt 2016) zu diesem Thema dar, und hat einen stärker inhaltlich-analytischen Fokus.
Ph@ttSessionz and Deutsch heute are two large German speech databases. They were created for different purposes: Ph@ttSessionz to test Internet-based recordings and to adapt speech recognizers to the voices of adolescent speakers, Deutsch heute to document regional variation of German. The databases differ in their recording technique, the selection of recording locations and speakers, elicitation mode, and data processing.
In this paper, we outline how the recordings were performed, how the data was processed and annotated, and how the two databases were imported into a single relational database system. We present acoustical measurements on the digit items of both databases. Our results confirm that the elicitation technique affects the speech produced, that f0 is quite comparable despite different recording procedures, and that large speech technology databases with suitable metadata may well be used for the analysis of regional variation of speech.
Designing a Bilingual Speech Corpus for French and German Language Learners: a Two-Step Process
(2014)
We present the design of a corpus of native and non-native speech for the language pair French-German, with a special emphasis on phonetic and prosodic aspects. To our knowledge there is no suitable corpus, in terms of size and coverage, currently available for the target language pair. To select the target L1-L2 interference phenomena we prepare a small preliminary corpus (corpus1), which is analyzed for coverage and cross-checked jointly by French and German experts. Based on this analysis, target phenomena on the phonetic and phonological level are selected on the basis of the expected degree of deviation from the native performance and the frequency of occurrence. 14 speakers performed both L2 (either French or German) and L1 material (either German or French). This allowed us to test, recordings duration, recordings material, the performance of our automatic aligner software. Then, we built corpus2 taking into account what we learned about corpus1. The aims are the same but we adapted speech material to avoid too long recording sessions. 100 speakers will be recorded. The corpus (corpus1 and corpus2) will be prepared as a searchable database, available for the scientific community after completion of the project.
The IFCASL corpus is a French-German bilingual phonetic learner corpus designed, recorded and annotated in a project on individualized feedback in computer-assisted spoken language learning. The motivation for setting up this corpus was that there is no phonetically annotated and segmented corpus for this language pair of comparable of size and coverage. In contrast to most learner corpora, the IFCASL corpus incorporate data for a language pair in both directions, i.e. in our case French learners of German, and German learners of French. In addition, the corpus is complemented by two sub-corpora of native speech by the same speakers. The corpus provides spoken data by about 100 speakers with comparable productions, annotated and segmented on the word and the phone level, with more than 50% manually corrected data. The paper reports on inter-annotator agreement and the optimization of the acoustic models for forced speech-text alignment in exercises for computer-assisted pronunciation training. Example studies based on the corpus data with a phonetic focus include topics such as the realization of /h/ and glottal stop, final devoicing of obstruents, vowel quantity and quality, pitch range, and tempo.
ln diesem Beitrag sollen anhand von Materialien aus Gesprächskorpora des IDS Schwierigkeiten und Möglichkeiten der maschinellen Recherche vorgeführt werden. Grundlage dafür sind Gesprächstranskripte, die in digitaler Form vorliegen und in einem System mit Rechercheprozeduren zugreifbar sind. Mit diesem Ziel wird auf Rechercheverfahren zurückgegriffen, die in den 1990er Jahren in einem Projekt SHRGF.S im IDS als Anwendung der COSMAS-Technologie auf Gesprächskorpora entwickelt wurden. Die hier gegebenen Recherchemöglichkeiten werden an einem Auswahlkorpus von Gesprächstranskripten mit einem Gesamtumfang von 87.629 laufenden Wörtern versuchsweise angewendet und in ihren Beschränkungen und ihrer Fruchtbarkeit für explorative Untersuchungen betrachtet. Damit soll ein Beitrag zur Klärung der Frage geleistet werden, welche Recherchemöglichkeiten aus einer gesprächsanalytischen Perspektive vorstellbar und erwünscht sind und insofern bei der weiteren korpustechnologischen Entwicklung berücksichtigt werden sollten.
This paper presents the first release of the KiezDeutsch Korpus (KiDKo), a new language resource with multiparty spoken dialogues of Kiezdeutsch, a newly emerging language variety spoken by adolescents from multi-ethnic urban areas in Germany. The first release of the corpus includes the transcriptions of the data as well as a normalisation layer and part-of-speech annotations. In the paper, we describe the main features of the new resource and then focus on automatic POS tagging of informal spoken language. Our tagger achieves an accuracy of nearly 97% on KiDKo. While we did not succeed in further improving the tagger using ensemble tagging, we present our approach to using the tagger ensembles for identifying error patterns in the automatically tagged data.
Annotating Discourse Relations in Spoken Language: A Comparison of the PDTB and CCR Frameworks
(2016)
In discourse relation annotation, there is currently a variety of different frameworks being used, and most of them have been developed and employed mostly on written data. This raises a number of questions regarding interoperability of discourse relation annotation schemes, as well as regarding differences in discourse annotation for written vs. spoken domains. In this paper, we describe ouron annotating two spoken domains from the SPICE Ireland corpus (telephone conversations and broadcast interviews) according todifferent discourse annotation schemes, PDTB 3.0 and CCR. We show that annotations in the two schemes can largely be mappedone another, and discuss differences in operationalisations of discourse relation schemes which present a challenge to automatic mapping. We also observe systematic differences in the prevalence of implicit discourse relations in spoken data compared to written texts,find that there are also differences in the types of causal relations between the domains. Finally, we find that PDTB 3.0 addresses many shortcomings of PDTB 2.0 wrt. the annotation of spoken discourse, and suggest further extensions. The new corpus has roughly theof the CoNLL 2015 Shared Task test set, and we hence hope that it will be a valuable resource for the evaluation of automatic discourse relation labellers.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels "sprich" als Diskursmarker bzw. Reformulierungsindikator Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand vier verschiedener Beispiele Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels metapragmatischer Modalisierungen mit den Adverbien "sozusagen" und "gewissermaßen" und mit der Formel "in Anführungszeichen/-strichen" Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Nach Eve Sweetser (1990) kann eine Äußerung auf drei kognitiven Ebenen - Sachverhaltsebene, epistemische Ebene und Sprechaktebene - gedeutet werden. In diesem Beitrag werden auf der Basis eines Korpus gesprochensprachlicher Daten' sowohl syntaktische als auch prosodische Besonderheiten kausaler und konditionaler konnektorhaltiger Relationen untersucht, die auf unterschiedlichen Ebenen gedeutet werden können. Ein besonderes Interesse gilt dabei der Frage, ob die Sweetser’sehen Ebenen im Deutschen sprachlich markiert sind. Es wird gezeigt, dass syntaktische und prosodische Signale mit den Ebenen sehr stark korrelieren, die Ebenen im kausalen Bereich aber anders markiert sind als im konditionalen Bereich. Aufgrund dieses Befundes wird gegen die Annahme Sweetsers argumentiert, dass Kausalität als Basisbedeutung für Konditionalität angesehen werden könne.
Aktuelle Regionalsprachforschung zum Deutschen. Das IDS-Projekt Variation des gesprochenen Deutsch
(2010)
There have been several attempts to annotate communicative functions to utterances of verbal feedback in English previously. Here, we suggest an annotation scheme for verbal and non-verbal feedback utterances in French including the categories base, attitude, previous and visual. The data comprises conversations, maptasks and negotiations from which we extracted ca. 13,000 candidate feedback utterances and gestures. 12 students were recruited for the annotation campaign of ca. 9,500 instances. Each instance was annotated by between 2 and 7 raters. The evaluation of the annotation agreement resulted in an average best-pair kappa of 0.6. While the base category with the values acknowledgement, evaluation, answer, elicit and other achieves good agreement, this is not the case for the other main categories. The data sets, which also include automatic extractions of lexical, positional and acoustic features, are freely available and will further be used for machine learning classification experiments to analyse the form-function relationship of feedback.
Die 7. Auflage der Duden-Grammatik ist u.a. erweitert um ein Kapitel "Gesprochene Sprache" im Umfang von 80 Druckseiten. Der Beitrag behandelt eine Reihe von konzeptionellen Fragen, die sich beim Verfassen dieses Kapitels ergaben, und stellt seinen Aufbau und Inhalt vor. Nach einer Skizzierung der Rahmenbedingungen (Abschnitt 2.) wird der Gegenstandsbereich einer Grammatik gesprochener Sprache diskutiert (Abschnitte 3. bis 5.). Abschnitt 6. behandelt einige Konsequenzen, die sich aus der Andersartigkeit des Gegenstands 'Gesprochene Sprache' für die Grammatikschreibung ergeben. Ein weiteres Problem stellt die Frage dar, ob bzw. inwieweit die schriftsprachlich geprägten Kategorien der traditionellen Grammatik geeignet sind, Phänomene der gesprochenen Sprache zu beschreiben und inwieweit gegenstandsangemessene Kategorien entwickelt werden müssen. Abschnitt 7. exemplifiziert diese Frage am Beispiel der sog. Apokoinukonstruktionen. Ein methodisches Problem stellt die Ermittlung von Besonderheiten der gesprochenen Sprache durch den Vergleich mit der geschriebenen dar (Abschnitt 8.). Abschnitt 9. skizziert Inhalte und Gliederung des Kapitels "Gesprochene Sprache". Abschließend werden konzeptionelle Probleme der Duden-Grammatik angesprochen (Abschnitt 10.).
Instrumente für die Arbeit mit Korpora gesprochener Sprache. Text-Ton-Alignment und COSMAS II
(2000)
In literalen Gesellschaften umfasst das Sprachvermögen sowohl das Sprechen wie auch das Schreiben. Dies gilt für die Muttersprache ebenso wie für Fremdsprachen. Sprechen und Schreiben sind dabei recht unterschiedliche Tätigkeiten, so dass zu erwarten wäre, dass sie im Fremdsprachen- wie auch im DaF-Unterricht zu gleichen Anteilen berücksichtigt werden. Die Unterrichtspraxis zeigt jedoch, dass die Schriftsprache dominant vertreten ist und die gesprochene Sprache ein Schattendasein führt. In diesem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache in dieser Weise im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Im Anschluss versuche ich zu verdeutlichen, wie weitreichend die Unterschiede zwischen gesprochener und geschriebener Sprache sind (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist m.E.ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts.
Was sind die Grundeinheiten gesprochener Sprache? Ein altes Problem und ein neuer Lösungsvorschlag
(2003)
This article revives the question of what the fundamental units of spoken language are. In chapter 2 some answers of current and previous theory are listed. In chapter 3 I argue that turns are the basic units of conversation, although the question of the constituents of a single turn arises. In chapter 4 a turn is broken down into atomistic units: the functional units. A functional unit is the smallest constituent of interaction to which a recipient can ascribe function for the communicative process. Functional units are distinguished into three types: contigently independent, projective and associated. A tentative account of different subtypes is suggested.
Das Buch reflektiert die Entwicklung der Erforschung gesprochener Sprache in den letzten 30 Jahren und erarbeitet auf dieser Grundlage eine eigene theoretische Konzeptualisierung des Gegenstandes. Zunächst wird die Spezifik mündlicher Kommunikation und gesprochener Sprache charakterisiert. Dazu werden die Grundbedingungen mündlicher Verständigung herausgearbeitet und in ihrem Einfluss auf die Ausbildung kommunikativer Verfahren und sprachlicher Mittel beschrieben. Der zweite Teil behandelt die methodologische Frage, ob und inwieweit die Untersuchung gesprochener Sprache spezifische Analyse- und Beschreibungskategorien erfordert. Dabei wird insbesondere das Problem der Einheiten in gesprochener Sprache diskutiert. Die empirische Untersuchung und theoretische Modellierung einer bestimmten grammatischen Konstruktion, der Operator- Skopus-Struktur, die in den letzten Jahren in der gesprochenen Sprache stark expandiert, stehen im Zentrum der exemplarischen Analysen des Schlussteils.
Die vorliegende empirisch basierte Studie zu Verwendungsweisen von ‘wenn' in gesprochenem Deutsch versteht sich als kleiner Beitrag zur Konnektorensemantik. Anhand eines Korpus gesprochener Sprache werden im ersten Schritt die Bedeutungsvarianten von wenn auf der Basis der Oppositionspaare ‘faktisch' vs. ‘nicht-faktisch’ und ‘generisch' vs. ‘spezifisch' typologisiert und im Hinblick auf ihre syntaktischen Spezifika untersucht. Im zweiten Schritt wird gezeigt, wie die so ermittelten Typen von wenn-Relationen mit den in Sweetser (1990) ausgefiihrten Verknüpfungsdomänen (Sachverhaltsebene, epistemische Ebene, Sprechaktebene), die durch pragmatische Ambiguität gekennzeichnet sind, korrelieren.
This document presents ongoing work related to spoken language data within a project that aims to establish a common and unified infrastructure for the sustainable provision of linguistic primary research data at the Institut für Deutsche Sprache (IDS). In furtherance of its mission to “document the German language as it is currently used”, the project expects to enable the research community to access a broad empirical base of working material via a single platform. While the goal is to eventually cover all linguistically relevant digital resources of the IDS, including lexicographic information systems such as the IDS German Vocabulary Portal, OWID, written language corpora such as the IDS German Reference Corpus, DeReKo, and spoken language corpora such as the IDS German Speech Corpus for Research and Teaching, FOLK, the work presented here predominantly focuses on the latter type of data, i.e. speech corpora. Within this context, the present document pictures the project’s contributions to the development of standards and best practice guidelines concerning data storage, process documentation and legal issues for the sustainable preservation and long-term accessibility of primary linguistic research data.
Operator-Skopus-Strukturen
(1999)
Gesprochene Sprache
(2005)
h ach KOMM; hör AUF mit dem klEInkram. Die Partikel komm zwischen Interjektion und Diskursmarker
(2014)
Der vorliegende Beitrag beschreibt das Formen-, Funktions- und Bedeutungsspek-trum der Partikel komm im gesprochenen Deutsch. Die Untersuchung zeigt, dass sich alle Verwendungen auf eine gemeinsame Grundfunktion zurückführen lassen, die als 'Aufforderung zum Aktivitätswechsel mit Appell an den common ground' bezeichnet wird. Es wird gezeigt, dass sich weitere, in der Literatur häufig der Partikel selbst zugeschriebene Bedeutungsbestandteile aus dem syntaktischen und sequenziellen Kontext ergeben. Verschiedene Kontexte lassen verschiedene Aspekte des Aktivitätswechsels salient erscheinen, so dass die Aufforderung ent-weder den Beginn einer neuen Handlung oder das Beenden einer vorausgehenden Aktivität fokussiert. Außerdem wird diskutiert, welcher Subklasse der Diskurspartikeln sich komm zuordnen lässt. Es zeigt sich, dass sowohl Merkmale von Dis-kursmarkern als auch von Interjektionen vorliegen, dass die Partikel aber auch von den prototypischen Vertretern beider Kategorien abweichende Merkmale zeigt, so dass vorgeschlagen wird, auf eine Klassifikation unterhalb der Ebene der Diskurspartikel zu verzichten, solange nicht weitere von Imperativen abgeleitete Partikeln (z.B. warte, sag mal) empirisch untersucht sind, mit denen komm möglicherweise eine eigene Subklasse bildet.
Der Umgang mit Gesprächskorpora am IDS Mannheim: Die Recherche in der COSMAS-II-Gesprächsdatenbank
(2005)
Einleitung
(2002)
In literate societies linguistic competence includes speaking as well as writing. Talking and writing are rather different activities, therefore one should expect that in foreign language teaching (and especially in german-as-foreign-language teaching) both parts are included in equal proportions. However, the practise of teaching shows that written language is dominant and spoken language lives a shadow existence (section 1). In the following I will give five reasons as to why spoken language stands in the background and why it is such a bulky and clumsy subject (section 2). After which I will characterise two points of view one can take in regards to the magnitude of the differences between spoken and written language (section 3) and I will describe some of the central differences (section 4). Finally, 1 will formulate some consequences of this study for foreign language teaching, and I will argue that the difficulties connected with spoken language should be confronted, as in my opinion spoken language is an indispensable part of foreign language teaching (section 5).
In meinem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache im DaF-Unterricht, aber auch generell in der Sprachwissenschaft im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Sodann charakterisiere ich zwei unterschiedliche Positionen zum Ausmaß der Unterschiede zwischen gesprochener und geschriebener Sprache und beschreibe einige zentrale Unterschiede (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist meines Erachtens ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts (Abschnitt 4).
The research project “German Today” aims to determine the amount of regional variation in (near-)standard German spoken by young and older educated adults and to identify and locate regional features. To this end, we compile an areally extensive corpus of read and spontaneous German speech. Secondary school students and 50-to-60-year-old locals are recorded in 160 cities throughout the German speaking area of Europe. All participants read a number of short texts and a word list, name pictures, translate words and sentences from English, answer questions in a sociobiographic interview, and take part in a map task experiment. The resulting corpus comprises over 1000 hours of speech, which is transcribed orthographically. Automatically derived broad phonetic transcriptions, selective manual narrow phonetic transcriptions, and variationalist annotations are added. Focussing on phonetic variation we aim to show to what extent national or regional standards exist in spoken German. Furthermore, the linguistic variation due to different contextual styles (read vs. spontaneous speech) shall be analysed. Finally, the corpus enables us to investigate whether linguistic change has occurred in spoken (near-)standard German.
Hypermedia und Internet revolutionieren die Gesellschaft in vielen Lebens- und Arbeitsbereichen. Sie sind auch in der Linguistik nicht nur zum Forschungsgegenstand, sondern auch zum Präsentationsmedium geworden. Auch und besonders in der Gesprächsanalyse werden die Möglichkeiten der Darstellung und der Analyse durch den Einsatz elektronischer Systeme um ein Vielfaches erweitert. In diesem Beitrag möchten wir darüber informieren, wie und zu welchem Zweck Videodateien in verschiedenen online oder offline verfügbaren Systemen zur Gesprächsforschung eingesetzt werden, und versuchen, den Stellenwert dieses Einsatzes im gesprächsanalytischen Arbeitsprozess aufzuzeigen. Nach einer Darstellung der bisherigen wesentlichen Entwicklungsschritte des Gesprächsanalytischen Informationssystems GAIS und einem Überblick über andere Hypermediasysteme zeigen wir, wie man mit Hilfe von Videos die Flüchtigkeit des originalen Kommunikationsereignisses nachbilden oder in spezifischer Weise auf dieses Ereignis zugreifen kann. Ferner zeigen wir, wie sich der Videoeinsatz mit Phasen des gesprächsanalytischen Arbeitsprozesses verknüpfen lässt, und plädieren für eine Integration der didaktischen Vermittlung in diesen Prozess. Wir beschäftigen uns hier also mit den didaktischen Einsatzmöglichkeiten für Lehrende und den Lernmöglichkeiten für Studierende, die hypermediale Systeme in der Gesprächsanalyse bieten.
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
Forschungsstelle Freiburg
(2014)