Refine
Year of publication
Document Type
- Part of a Book (70)
- Article (48)
- Conference Proceeding (34)
- Working Paper (12)
- Book (7)
- Review (4)
- Part of Periodical (1)
Has Fulltext
- yes (176)
Keywords
- Gesprochene Sprache (176) (remove)
Publicationstate
- Veröffentlichungsversion (176) (remove)
Reviewstate
- (Verlags)-Lektorat (99)
- Peer-Review (61)
- Review-Status-unbekannt (2)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
- Verlag für Gesprächsforschung (16)
- de Gruyter (15)
- Institut für Deutsche Sprache (12)
- Narr (11)
- Leibniz-Institut für Deutsche Sprache (IDS) (9)
- European Language Resources Association (ELRA) (8)
- Association for Computational Linguistics (5)
- European Language Resources Association (5)
- Lang (5)
- Leibniz-Institut für Deutsche Sprache (3)
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Sogenannte „Pragmatikalisierte Mehrworteinheiten“ sind im Deutschen hochfrequent und unterliegen bisweilen tiefgreifenden phonetischen Reduktionsprozessen. Diese können Realisierungsvarianten hervorbringen, die in der Rückschau auf mehr als eine lexematische Ursprungsform zurückführbar sind. Die vorliegende Studie untersucht mit [ˈzɐmɐ] einen besonders prägnanten Fall dieser Art anhand eines Perzeptionsexperimentes.
This paper presents a short insight into a new project at the "Institute for the German Language” (IDS) (Mannheim). It gives an insight into some basic ideas for a corpus-based dictionary of spoken German, which will be developed and compiled by the new project "The Lexicon of spoken German” (Lexik des gesprochenen Deutsch, LeGeDe). The work is based on the "Research and Teaching Corpus of Spoken German” (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK), which is implemented in the "Database for Spoken German” (Datenbank für Gesprochenes Deutsch, DGD). Both resources, the database and the corpus, have been developed at the IDS.
This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and methodological approaches that were used for the initial planning of the resource. The headword candidates were selected by analyzing corpus-based data. Therefore, the data of two corpora (written and spoken German) were compared with quantitative methods. The information that was gathered on the selected headword candidates can be assigned to two different sections: meanings and functions in interaction.
Additionally, two studies on the expectations of future users towards the resource were carried out. The results of these two studies were also taken into account in the development of the prototype. Focusing on the presentation of the resource’s content, the paper shows both the different lexicographical information in selected dictionary entries, and the information offered by the provided hyperlinks and external texts. As a conclusion, it summarizes the most important innovative aspects that were specifically developed for the implementation of such a resource.
Ph@ttSessionz and Deutsch heute are two large German speech databases. They were created for different purposes: Ph@ttSessionz to test Internet-based recordings and to adapt speech recognizers to the voices of adolescent speakers, Deutsch heute to document regional variation of German. The databases differ in their recording technique, the selection of recording locations and speakers, elicitation mode, and data processing.
In this paper, we outline how the recordings were performed, how the data was processed and annotated, and how the two databases were imported into a single relational database system. We present acoustical measurements on the digit items of both databases. Our results confirm that the elicitation technique affects the speech produced, that f0 is quite comparable despite different recording procedures, and that large speech technology databases with suitable metadata may well be used for the analysis of regional variation of speech.
There have been several attempts to annotate communicative functions to utterances of verbal feedback in English previously. Here, we suggest an annotation scheme for verbal and non-verbal feedback utterances in French including the categories base, attitude, previous and visual. The data comprises conversations, maptasks and negotiations from which we extracted ca. 13,000 candidate feedback utterances and gestures. 12 students were recruited for the annotation campaign of ca. 9,500 instances. Each instance was annotated by between 2 and 7 raters. The evaluation of the annotation agreement resulted in an average best-pair kappa of 0.6. While the base category with the values acknowledgement, evaluation, answer, elicit and other achieves good agreement, this is not the case for the other main categories. The data sets, which also include automatic extractions of lexical, positional and acoustic features, are freely available and will further be used for machine learning classification experiments to analyse the form-function relationship of feedback.
We present a descriptive analysis on the two datasets from the shared task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS), the only existing German dataset for opinion role extraction of its size. Our analysis discusses the individual properties of the three components, subjective expressions, sources and targets and their relations towards each other. Our observations should help practitioners and researchers when building a system to extract opinion roles from German data.
We apply a decision tree based approach to pronoun resolution in spoken dialogue. Our system deals with pronouns with NP- and non-NP-antecedents. We present a set of features designed for pronoun resolution in spoken dialogue and determine the most promising features. We evaluate the system on twenty Switchboard dialogues and show that it compares well to Byron’s (2002) manually tuned system.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
Aktuelle Regionalsprachforschung zum Deutschen. Das IDS-Projekt Variation des gesprochenen Deutsch
(2010)
This paper aims to describe different patterns of syntactic extensions of turns-at-talk in mundane conversations in Czech. Within interactional linguistics, same-speaker continuations of possibly complete syntactic structures have been described for typologically diverse languages, but have not yet been investigated for Slavic languages. Based on previously established descriptions of various types of extensions (Vorreiter 2003; Couper-Kuhlen & Ono 2007), our initial description shall therefore contribute to the cross-linguistic exploration of this phenomenon. While all previously described forms for continuing a turn-constructional unit seem to exist in Czech, some grammatical features of this language (especially free word order and strong case morphology) may lead to problems in distinguishing specific types of syntactic extensions. Consequently, this type of language allows for critically evaluating the cross-linguistic validity of the different categories and underlines the necessity of analysing syntactic phenomena within their specific action contexts.
Annotating Discourse Relations in Spoken Language: A Comparison of the PDTB and CCR Frameworks
(2016)
In discourse relation annotation, there is currently a variety of different frameworks being used, and most of them have been developed and employed mostly on written data. This raises a number of questions regarding interoperability of discourse relation annotation schemes, as well as regarding differences in discourse annotation for written vs. spoken domains. In this paper, we describe ouron annotating two spoken domains from the SPICE Ireland corpus (telephone conversations and broadcast interviews) according todifferent discourse annotation schemes, PDTB 3.0 and CCR. We show that annotations in the two schemes can largely be mappedone another, and discuss differences in operationalisations of discourse relation schemes which present a challenge to automatic mapping. We also observe systematic differences in the prevalence of implicit discourse relations in spoken data compared to written texts,find that there are also differences in the types of causal relations between the domains. Finally, we find that PDTB 3.0 addresses many shortcomings of PDTB 2.0 wrt. the annotation of spoken discourse, and suggest further extensions. The new corpus has roughly theof the CoNLL 2015 Shared Task test set, and we hence hope that it will be a valuable resource for the evaluation of automatic discourse relation labellers.
Annotating Spoken Language
(2014)
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
Auf dem Weg zu einer Kartographie: automatische und manuelle Analysen am Beispiel des Korpus ISW
(2021)
We present an implemented machine learning system for the automatic detection of nonreferential it in spoken dialog. The system builds on shallow features extracted from dialog transcripts. Our experiments indicate a level of performance that makes the system usable as a preprocessing filter for a coreference resolution system. We also report results of an annotation study dealing with the classification of it by naive subjects.
Der Auftaktworkshop "Lexik des gesprochenen Deutsch: Forschungsstand, Erwartungen und Anforderungen an die Entwicklung einer innovativen lexikografischen Ressource" fand am 16. und 17. Februar 2017 am Institut fur Deutsche Sprache (IDS) in Mannheim statt. Das von der Leibniz-Gemeinschaft geforderte Projekt "Lexik des gesprochenen Deutsch" (=LeGeDe, Leibniz-Wettbewerb 2016, Forderlinie "Innovative Vorhaben") nahm im September 2016 am IDS seine Arbeit auf. Das Hauptziel ist die Erstellung einer korpusbasierten elektronischen Ressource zur Lexik des gesprochenen Deutsch auf der Grundlage von lexikologischen und gesprachsanalytischen Untersuchungen authentischer gesprochensprachlicher Daten.
Bericht über die 19. Arbeitstagung zur Gesprächsforschung vom 16. bis 18. März 2016 in Mannheim
(2016)
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
CLARIN contractual framework for sharing language data: the perspective of personal data protection
(2020)
The article analyses the responsibility for ensuring compliance with the General Data Protection Regulation (GDPR) in research settings. As a general rule, organisations are considered the data controller (responsible party for the GDPR compliance). Research constitutes a unique setting influenced by academic freedom. This raises the question of whether academics could be considered the controller as well. However, there are some court cases and policy documents on this issue. It is not settled yet. The analysis serves a preliminary analytical background for redesigning CLARIN contractual framework for sharing data.
We present web services which implement a workflow for transcripts of spoken language following the TEI guidelines, in particular ISO 24624:2016 “Language resource management – Transcription of spoken language”. The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.
Comparaison de deux marqueurs d’affirmation dans des séquences de co-construction: voilà et genau
(2016)
This contribution investigates the German response particle genau and the French response particle voilà within collaborative turn sequences in videotaped ordinary conversations. Adopting a conversation analytic approach to cross-linguistic comparison, I will show that the basic epistemic value of both particles allows them to be used in similar sequential environments. When a co-participant formulates a candidate conclusion in environments where it can be easily inferred from previous talk, first speakers may confirm the adequacy of the pre-emptive completion by voilà or genau. These particles may then also be followed by self- or other-repeats. The analyses aim to illustrate that participants rely on a variety of practices in order to positively assess a pre-emptive completion, and to refute a supposed binary opposition of refusal vs. acceptance in the receipt slot.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.
We present an approach to making existing CLARIN web services usable for spoken language transcriptions. Our approach is based on a new TEI-based ISO standard for such transcriptions. We show how existing tool formats can be transformed to this standard, how an encoder/decoder pair for the TCF format enables users to feed this type of data through a WebLicht tool chain, and why and how web services operating directly on the standard format would be useful.
Except for some recent advances in spoken language lexicography (cf. Verdonik & Sepesy Maučec 2017, Hansen & Hansen 2012, Siepmann 2015), traditional lexicographic work is mainly oriented towards the written language. In this paper, we describe a method we used to identify relevant headword candidates for a lexicographic resource for spoken language that is currently being developed at the Institute for the German Language (IDS, Mannheim). We describe the challenges of the headword selection for a dictionary of spoken language, and having made considerations regarding our headword concept, we present the corpus-based procedures that we used in order to facilitate the headword selection. After presenting the results regarding the selection of one-word lemmas, we discuss the opportunities and limitations of our approach.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ist mit seinem Design bislang vornehmlich auf Nutzergruppen aus der sprachwissenschaftlichen Forschung ausgerichtet, prinzipiell aber auch hervorragend dafür geeignet, für die Nutzung im handlungsorientierten DaF- (und eventuell auch DaZ-)Unterricht fruchtbar gemacht zu werden. Lehrende und Lernende des Deutschen als Fremd- oder Zweitsprache bilden eine gesellschaftlich zunehmend relevante Zielgruppe und auch einen beträchtlichen Anteil der registrierten NutzerInnen des Korpus. Im vorliegenden Beitrag soll daher anhand eines exemplarischen Annotationsprojekts gezeigt werden, inwiefern die besonderen Ressourcen und Potentiale von FOLK für den DaF-Unterricht und dort speziell für den Aspekt des authentischen, kompetenten sprachlichen Handelns in Interaktion sinnvoll aufbereitet und schrittweise zugänglicher gemacht werden können.
Im Beitrag steht das LeGeDe-Drittmittelprojekt und der im Laufe der Projektzeit entwickelte korpusbasierte lexikografische Prototyp zu Besonderheiten des gesprochenen Deutsch in der Interaktion im Zentrum der Betrachtung. Die Entwicklung einer lexikografischen Ressource dieser Art knüpft an die vielfältigen Erfahrungen in der Erstellung von korpusbasierten Onlinewörterbüchern (insbesondere am Leibniz-Institut für Deutsche Sprache, Mannheim) und an aktuelle Methoden der korpusbasierten Lexikologie sowie der Interaktionsanalyse an und nimmt als multimedialer Prototyp für die korpusbasierte lexikografische Behandlung von gesprochensprachlichen Phänomenen eine innovative Position in der modernen Onlinelexikografie ein. Der Beitrag befasst sich im Abschnitt zur LeGeDe-Projektpräsentation ausführlich mit projektrelevanten Forschungsfragen, Projektzielen, der empirischen Datengrundlage und empirisch erhobenen Erwartungshaltungen an eine Ressource zum gesprochenen Deutsch. Die Darstellung der komplexen Struktur des LeGeDe-Prototyps wird mit zahlreichen Beispielen illustriert. In Verbindung mit der zentralen Information zur Makro- und Mikrostruktur und den lexikografischen Umtexten werden die vielfältigen Vernetzungs- und Zugriffsstrukturen aufgezeigt. Ergänzend zum abschließenden Fazit liefert der Beitrag in einem Ausblick umfangreiche Vorschläge für die zukünftige lexikografische Arbeit mit gesprochensprachlichen Korpusdaten.
Der Umgang mit Gesprächskorpora am IDS Mannheim: Die Recherche in der COSMAS-II-Gesprächsdatenbank
(2005)
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.
Designing a Bilingual Speech Corpus for French and German Language Learners: a Two-Step Process
(2014)
We present the design of a corpus of native and non-native speech for the language pair French-German, with a special emphasis on phonetic and prosodic aspects. To our knowledge there is no suitable corpus, in terms of size and coverage, currently available for the target language pair. To select the target L1-L2 interference phenomena we prepare a small preliminary corpus (corpus1), which is analyzed for coverage and cross-checked jointly by French and German experts. Based on this analysis, target phenomena on the phonetic and phonological level are selected on the basis of the expected degree of deviation from the native performance and the frequency of occurrence. 14 speakers performed both L2 (either French or German) and L1 material (either German or French). This allowed us to test, recordings duration, recordings material, the performance of our automatic aligner software. Then, we built corpus2 taking into account what we learned about corpus1. The aims are the same but we adapted speech material to avoid too long recording sessions. 100 speakers will be recorded. The corpus (corpus1 and corpus2) will be prepared as a searchable database, available for the scientific community after completion of the project.
Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we investigate the impact of task setup and data representation, encoding of context information as well as different model architectures for this task.
This document presents ongoing work related to spoken language data within a project that aims to establish a common and unified infrastructure for the sustainable provision of linguistic primary research data at the Institut für Deutsche Sprache (IDS). In furtherance of its mission to “document the German language as it is currently used”, the project expects to enable the research community to access a broad empirical base of working material via a single platform. While the goal is to eventually cover all linguistically relevant digital resources of the IDS, including lexicographic information systems such as the IDS German Vocabulary Portal, OWID, written language corpora such as the IDS German Reference Corpus, DeReKo, and spoken language corpora such as the IDS German Speech Corpus for Research and Teaching, FOLK, the work presented here predominantly focuses on the latter type of data, i.e. speech corpora. Within this context, the present document pictures the project’s contributions to the development of standards and best practice guidelines concerning data storage, process documentation and legal issues for the sustainable preservation and long-term accessibility of primary linguistic research data.
Hypermedia und Internet revolutionieren die Gesellschaft in vielen Lebens- und Arbeitsbereichen. Sie sind auch in der Linguistik nicht nur zum Forschungsgegenstand, sondern auch zum Präsentationsmedium geworden. Auch und besonders in der Gesprächsanalyse werden die Möglichkeiten der Darstellung und der Analyse durch den Einsatz elektronischer Systeme um ein Vielfaches erweitert. In diesem Beitrag möchten wir darüber informieren, wie und zu welchem Zweck Videodateien in verschiedenen online oder offline verfügbaren Systemen zur Gesprächsforschung eingesetzt werden, und versuchen, den Stellenwert dieses Einsatzes im gesprächsanalytischen Arbeitsprozess aufzuzeigen. Nach einer Darstellung der bisherigen wesentlichen Entwicklungsschritte des Gesprächsanalytischen Informationssystems GAIS und einem Überblick über andere Hypermediasysteme zeigen wir, wie man mit Hilfe von Videos die Flüchtigkeit des originalen Kommunikationsereignisses nachbilden oder in spezifischer Weise auf dieses Ereignis zugreifen kann. Ferner zeigen wir, wie sich der Videoeinsatz mit Phasen des gesprächsanalytischen Arbeitsprozesses verknüpfen lässt, und plädieren für eine Integration der didaktischen Vermittlung in diesen Prozess. Wir beschäftigen uns hier also mit den didaktischen Einsatzmöglichkeiten für Lehrende und den Lernmöglichkeiten für Studierende, die hypermediale Systeme in der Gesprächsanalyse bieten.
In literate societies linguistic competence includes speaking as well as writing. Talking and writing are rather different activities, therefore one should expect that in foreign language teaching (and especially in german-as-foreign-language teaching) both parts are included in equal proportions. However, the practise of teaching shows that written language is dominant and spoken language lives a shadow existence (section 1). In the following I will give five reasons as to why spoken language stands in the background and why it is such a bulky and clumsy subject (section 2). After which I will characterise two points of view one can take in regards to the magnitude of the differences between spoken and written language (section 3) and I will describe some of the central differences (section 4). Finally, 1 will formulate some consequences of this study for foreign language teaching, and I will argue that the difficulties connected with spoken language should be confronted, as in my opinion spoken language is an indispensable part of foreign language teaching (section 5).
Am 1. September 2016 hat das Forschungsprojekt „Lexik des gesprochenen Deutsch“ (= LeGeDe) am Institut für Deutsche Sprache in Mannheim als Kooperationsprojekt der Abteilungen Pragmatik und Lexik seine Arbeit aufgenommen. Dieses drittmittelgeförderte Projekt der Leibniz-Gemeinschaft (Leibniz-Wettbewerb 2016; Förderlinie 1: Innovative Vorhaben) hat eine Laufzeit von drei Jahren (1.9.2016-31.8.2019) und besteht aus einem Team von Mitarbeiterinnen und Mitarbeitern aus den Bereichen Lexikologie, Lexikografie, Gesprächsforschung, Korpus- und Computerlinguistik sowie Empirische Methoden. Im folgenden Beitrag werden neben Informationen zu den Eckdaten des Projekts, zu den unterschiedlichen Ausgangspunkten, dem Gegenstandsbereich, den Zielen sowie der LeGeDe-Datengrundlage vor allem einige grundlegende Forschungsfragen und methodologische Ansätze aufgezeigt sowie erste Vorschläge zur Gewinnung, Analyse und Strukturierung der Daten präsentiert. Zur lexikografischen Umsetzung werden verschiedene Möglichkeiten skizziert und im Ausblick einige Herausforderungen zusammengefasst.
Die überführte Sprache?
(1991)
Der Beitrag rekonstruiert die Geschichte des Korpus „Deutsche Mundarten: DDR“ von den ersten Planungen der Tonaufnahmen am Beginn der 1950er Jahre über ihre Durchführung und Aufbereitung bis hin zur Rezeption in der Sprachwissenschaft der DDR und der BRD. Besonderes Augenmerk wird auf das Verhältnis der DDR-Aufnahmen zum impulsgebenden Parallelprojekt Zwirners gelegt. Am Schicksal des Korpus wird überdies nachgezeichnet, wie sich die Dialektologie in der DDR unter politischem Druck in die Richtung einer modernen Regionalsprachenforschung entwickelte. Quellengrundlage der Korpusgeschichte sind Archivbestände der ehemaligen Akademie der Wissenschaften der DDR, Akten zur Förderung Eberhard Zwirners durch die Deutsche Forschungsgemeinschaft sowie zeitgenössische und neuere linguistische Publikationen, die mit dem Aufnahmekorpus gearbeitet haben.
Wie können Diskursmarker in einem Korpus gesprochener Sprache auffindbar gemacht werden? Was ist Part-of-Speech-Tagging und wie funktioniert es? In diesem Artikel soll anhand der POS-Kategorie Diskursmarker dargestellt werden, wie für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ein Part-of-Speech-Tagging entwickelt wurde, das auf die Annotation typisch gesprochen-sprachlicher Phänomene ausgerichtet ist. Diskursmarker sollen dafür aus der Sicht maschineller Sprachverarbeitung dargestellt werden, d. h. wie eine POS-Kategorie Diskursmarker so definiert werden kann, dass sie automatisch annotiert werden kann. Schließlich soll gezeigt werden, wie man auch weitere Diskursmarker in der Datenbank auffinden kann
Der vorliegende Band ist die erste Publikation in Buchform, die sich umfassend den Diskursmarkern im gesprochenen Deutsch widmet. Vor dem Hintergrund des Forschungsstands zu anderen Sprachen gibt er einen repräsentativen Überblick über Formen und Funktionen von Diskursmarkern in der deutschen Gegenwartssprache.
Die zwölf Beiträge befassen sich mit dem Diskursmarkerbegriff und seiner definitorischen Abgrenzung sowie mit den interaktionalen Funktionen von Diskursmarker-Subklassen und ausgewählten Einzelmarkern. Alle Beiträge stützen sich auf Originalaufnahmen mündlicher Interaktionen. Teilweise werden ergänzend schriftlich konstituierte Daten herangezogen.
In diesem Aufsatz werden Diskursmarker als Operatoren definiert, die Skopus über Sprechakte nehmen, d.h. Sprechakte modifizieren oder miteinander verknüpfen. Als Sprechakte in diesem Sinne kommen neben perlokutionären und illokutionären auch lokutionäre Akte in Betracht. Die Operation eines Diskursmarkers wird als Zuordnung thematischer Rollen konzeptualisiert. Dafür muss der Diskursmarker zu seinem Operanden im syntaktischen Verhältnis eines Kopfes zu seinem Komplement oder eines Adjunktes zu seinem Wirt stehen, oder er muss ein syntaktisch unabhängiger referentieller Ausdruck sein, der seinen Operanden als Verweisziel nimmt. Linear stehen Diskursmarker typischerweise peripher zu ihren Operanden. In satzförmigen Operanden können adverbiale Diskursmarker auch Binnenstellungen einnehmen.
Das Buch reflektiert die Entwicklung der Erforschung gesprochener Sprache in den letzten 30 Jahren und erarbeitet auf dieser Grundlage eine eigene theoretische Konzeptualisierung des Gegenstandes. Zunächst wird die Spezifik mündlicher Kommunikation und gesprochener Sprache charakterisiert. Dazu werden die Grundbedingungen mündlicher Verständigung herausgearbeitet und in ihrem Einfluss auf die Ausbildung kommunikativer Verfahren und sprachlicher Mittel beschrieben. Der zweite Teil behandelt die methodologische Frage, ob und inwieweit die Untersuchung gesprochener Sprache spezifische Analyse- und Beschreibungskategorien erfordert. Dabei wird insbesondere das Problem der Einheiten in gesprochener Sprache diskutiert. Die empirische Untersuchung und theoretische Modellierung einer bestimmten grammatischen Konstruktion, der Operator- Skopus-Struktur, die in den letzten Jahren in der gesprochenen Sprache stark expandiert, stehen im Zentrum der exemplarischen Analysen des Schlussteils.
Der Beitrag beschreibt die Entwicklung und Anwendung des TEI-basierten ISO-Standards ISO 24624:2016 Transcription of spoken language, der seit einigen Jahren für gesprochensprachliche Forschungsdaten aus unterschiedlichen Kontexten eingesetzt wird. Ein standardisiertes Dateiformat ermöglicht Interoperabilität zwischen verschiedenen Werkzeugen und weiteren Angeboten von Datenzentren und Infrastrukturen. Durch die methodologisch fundierte Abwägung zwischen Standardisierung und Flexibilität kann der ISO/TEI-Standard zudem Forschungsdaten aus verschiedenen Forschungskontexten abbilden, und so interdisziplinäre Vorhaben erleichtern. Der Beitrag stellt einige Anwendungsbereiche aus dem Lebenszyklus gesprochensprachlicher Forschungsdaten vor, in denen auf dem ISO/TEI-Standard basierenden Erweiterungen existierender Softwarelösungen erfolgreich umgesetzt werden konnten, und zeigt weitere Beispiele für die zunehmende Verbreitung des Formats.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels "sprich" als Diskursmarker bzw. Reformulierungsindikator Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand vier verschiedener Beispiele Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels metapragmatischer Modalisierungen mit den Adverbien "sozusagen" und "gewissermaßen" und mit der Formel "in Anführungszeichen/-strichen" Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Einleitung
(2002)
Einleitung
(2018)
This paper presents an extension to the Stuttgart-Tübingen TagSet, the standard part-of-speech tag set for German, for the annotation of spoken language. The additional tags deal with hesitations, backchannel signals, interruptions, onomatopoeia and uninterpretable material. They allow one to capture phenomena specific to spoken language while, at the same time, preserving inter-operability with already existing corpora of written language.
In this paper, we present a GOLD standard of part-of-speech tagged transcripts of spoken German. The GOLD standard data consists of four annotation layers – transcription (modified orthography), normalization (standard orthography), lemmatization and POS tags – all of which have undergone careful manual quality control. It comes with guidelines for the manual POS annotation of transcripts of German spoken data and an extended version of the STTS (Stuttgart Tübingen Tagset) which accounts for phenomena typically found in spontaneous spoken German. The GOLD standard was developed on the basis of the Research and Teaching Corpus of Spoken German, FOLK, and is, to our knowledge, the first such dataset based on a wide variety of spontaneous and authentic interaction types. It can be used as a basis for further development of language technology and corpus linguistic applications for German spoken language.
Forschungsstelle Freiburg
(2014)
In what follows I would like to do three things. First, I want to show that what we have been talking about as urban youth language is actually quite durable, both historically and biographically, so something like ‘youth style’ doesn’t really work as a label. Second, I shall argue that we would do better just talking about ‘contemporary urban vernaculars’, though, third, I would like to nest this in a broadly practice-theory perspective that I will elaborate on in the last part of my talk.
I will start with some data.
The research project “German Today” aims to determine the amount of regional variation in (near-)standard German spoken by young and older educated adults and to identify and locate regional features. To this end, we compile an areally extensive corpus of read and spontaneous German speech. Secondary school students and 50-to-60-year-old locals are recorded in 160 cities throughout the German speaking area of Europe. All participants read a number of short texts and a word list, name pictures, translate words and sentences from English, answer questions in a sociobiographic interview, and take part in a map task experiment. The resulting corpus comprises over 1000 hours of speech, which is transcribed orthographically. Automatically derived broad phonetic transcriptions, selective manual narrow phonetic transcriptions, and variationalist annotations are added. Focussing on phonetic variation we aim to show to what extent national or regional standards exist in spoken German. Furthermore, the linguistic variation due to different contextual styles (read vs. spontaneous speech) shall be analysed. Finally, the corpus enables us to investigate whether linguistic change has occurred in spoken (near-)standard German.
Gesprochene Sprache
(2005)
In meinem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache im DaF-Unterricht, aber auch generell in der Sprachwissenschaft im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Sodann charakterisiere ich zwei unterschiedliche Positionen zum Ausmaß der Unterschiede zwischen gesprochener und geschriebener Sprache und beschreibe einige zentrale Unterschiede (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist meines Erachtens ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts (Abschnitt 4).
In literalen Gesellschaften umfasst das Sprachvermögen sowohl das Sprechen wie auch das Schreiben. Dies gilt für die Muttersprache ebenso wie für Fremdsprachen. Sprechen und Schreiben sind dabei recht unterschiedliche Tätigkeiten, so dass zu erwarten wäre, dass sie im Fremdsprachen- wie auch im DaF-Unterricht zu gleichen Anteilen berücksichtigt werden. Die Unterrichtspraxis zeigt jedoch, dass die Schriftsprache dominant vertreten ist und die gesprochene Sprache ein Schattendasein führt. In diesem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache in dieser Weise im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Im Anschluss versuche ich zu verdeutlichen, wie weitreichend die Unterschiede zwischen gesprochener und geschriebener Sprache sind (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist m.E.ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts.
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
Dieser Beitrag setzt sich mit Gesprächskorpora als einem besonderen Typus von Korpora gesprochener Sprache auseinander. Es werden zunächst wesentliche Eigenschaften solcher Korpora herausgearbeitet und einige der wichtigsten deutschsprachigen Gesprächskorpora vorgestellt. Der zweite Teil des Beitrags setzt sich dann mit dem Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) auseinander. FOLK hat sich zum Ziel gesetzt, ein wissenschaftsöffentliches Korpus von Interaktionsdaten aufzubauen, das methodisch und technisch dem aktuellen Forschungsstand entspricht. Die Herausforderungen, die sich beim Aufbau von FOLK in methodischer und korpustechnologischer Hinsicht stellen, werden in abschließenden Abschnitt diskutiert.
Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen
(2007)
Dieser Beitrag beschreibt computerlinguistische Arbeiten zur automatischen Zusammenfassung gesprochener Dialoge. Der Beitrag geht sowohl auf die notwendige Vorverarbeitung als auch auf die eigentliche Zusammenfassung durch automatische Erkennung von Themengrenzen und Extraktion relevanter Äußerungen ein. Ein weiterer Schwerpunkt liegt in der Beschreibung von Arbeiten zur automatischen Anaphernresolution in gesprochener Sprache. Der Beitrag betont vor allem die Rolle und Bedeutung von annotierten Korpora für die computerlinguistische Forschung und Entwicklung.
Die Arbeit wurde vom Verein für Gesprächsforschung mit dem Dissertationsförderpreis 2020 ausgezeichnet.
Bis heute gehört die Frage, wie InteraktionsteilnehmerInnen verstehen, welche von mehreren möglichen Lesarten eines sprachlichen Formats im jeweiligen Kontext gilt, zu den größten Herausforderungen der Konversationsanalyse. Aufbauend auf den Erkenntnissen über soziales Handeln in der Interaktion in Sprechakttheorie und Konversationsanalyse beschäftigt sich diese Arbeit mit dem Verhältnis zwischen rekurrenten sprachlichen Formaten und sozialen Handlungen. Im Fokus stehen interrogative und deklarative Modalverbformate: soll ich...?, kannst du...?, willst/magst/möchtest du...?, du kannst... und ich kann...
Eine umfassende, korpusdatengestützte Untersuchung zu diesen Formaten im Deutschen fehlte bisher. In der Forschung zu anderen Sprachen wurden vergleichbare Formate eingehender untersucht, aber fast ausschließlich in Bezug auf direktiv-kommissive Handlungen, wie Bitten, Aufforderungen, Angebote, Vorschläge etc., während das breitere Handlungsspektrum und -potenzial der Formate nicht aufgezeigt wurde.
Die vorliegende Untersuchung zeigt auf,
1. welches Handlungsspektrum die untersuchten Formate aufweisen,
2. wie die Komposition eines Turns, dessen Position (i.e., in der laufenden Sequenz, in der Interaktion, in der Aktivität oder in der Interaktionsgeschichte) sowie weitere kontextuelle Faktoren (wie z.B. die Verteilung von epistemischen und deontischen Rechten) dazu beitragen, wie das Format als diese oder jene Handlung in der Interaktion verstanden wird, und
3. welches Handlungspotenzial bzw. welche globale Handlungsbedeutung das jeweilige Format aufweist.
Die Untersuchung bedient sich der Methodik der Konversationsanalyse und der Interaktionalen Linguistik und beruht auf mehr als 500 Belegen aus Videoaufnahmen natürlicher Interaktion aus dem FOLK-Korpus.
Die vorliegende Arbeit zeigt, welche Handlungen mit den untersuchten Formaten vollzogen werden und welche Rolle unterschiedliche Faktoren (wie die Position des Turns, die Verteilung von deontischen und epistemischen Rechten, und die Verantwortung für das Projekt, auf das sich die Handlung bezieht, das Agens der künftigen Handlung, das nonverbale Verhalten von Interagierenden während der Realisierung des fokalen Turns etc.) dafür spielen, wie das jeweilige Format verstanden wird. Überdies wird nachgewiesen, welche weiteren linguistischen Merkmale (wie z.B. Vorkommen von Adverbien und Modal- bzw. Abtönungspartikeln, Argumentrealisierung, Wortfolge, Semantik des Vollverbs etc.) zusätzlich zum Modalverbformat für Handlungskonstitution und -zuschreibung relevant sein können und wann. Somit werden Faktoren herausgearbeitet, die für die weitere Entwicklung des Konzeptes ‚Format für soziale Handlungen‘ notwendig sind.
Die Arbeit zeigt, dass eine umfassende Analyse des gesamten Handlungsspektrums der Verwendung sprachlicher Formen auf Basis eines großen Korpus notwendig ist, um die für bestimmte Handlungsfunktionen relevanten Realisierungs- und Kontextbedingungen korrekt identifizieren zu können und vorschnellen Schlüssen über die Assoziation von linguistischen Formaten mit bestimmten Handlungen vorzubeugen. Trotz unterschiedlicher feingranularer Funktionen der Formate ist allerdings stets eine Kernbedeutung feststellbar, die zum Handlungspotenzial des jeweiligen Formats beiträgt.
In my article I argue the need for an existence of grammar in spoken language. It would have the same functions as the grammar of written language: describing and explaining the fundamental units of spoken language and their features, describing the composition of those units and their conjunction. The basic units in the grammar of spoken language can be named as: the sound, the word, the functional unit, the conversational turn and the conversation itself. Further the central characteristics of spoken language and their impact on grammar have to be taken into account. They are: the interactivity, the multimodality, the processabihty and the great variability. After displaying my concepts I discuss three alternative concepts of a grammar in spoken language: online-syntax, construction grammar and multimodal grammar. The article concludes by discussing the role of spoken language grammar in language and foreign language teaching.
The possibilities of re-use and archiving of spoken and written corpora are affected by personality rights (depending on legal tradition also called: the right of publicity), copyright law and data protection / privacy laws. These recommendations include information about legal aspects which should be considered while creating corpora to ensure the greatest archivability and re-usability possible in compliance with current laws.
The information compiled here shall serve researchers who plan to create corpora or who are involved in evaluation of such measures as a guideline. This information is not exhaustive or to be considered as legal advice. Researchers should consult institutional legal departments and management before making legally relevant decisions. That said, further legal expertise should be sought if possible as early as project planning phases.
h ach KOMM; hör AUF mit dem klEInkram. Die Partikel komm zwischen Interjektion und Diskursmarker
(2014)
Der vorliegende Beitrag beschreibt das Formen-, Funktions- und Bedeutungsspek-trum der Partikel komm im gesprochenen Deutsch. Die Untersuchung zeigt, dass sich alle Verwendungen auf eine gemeinsame Grundfunktion zurückführen lassen, die als 'Aufforderung zum Aktivitätswechsel mit Appell an den common ground' bezeichnet wird. Es wird gezeigt, dass sich weitere, in der Literatur häufig der Partikel selbst zugeschriebene Bedeutungsbestandteile aus dem syntaktischen und sequenziellen Kontext ergeben. Verschiedene Kontexte lassen verschiedene Aspekte des Aktivitätswechsels salient erscheinen, so dass die Aufforderung ent-weder den Beginn einer neuen Handlung oder das Beenden einer vorausgehenden Aktivität fokussiert. Außerdem wird diskutiert, welcher Subklasse der Diskurspartikeln sich komm zuordnen lässt. Es zeigt sich, dass sowohl Merkmale von Dis-kursmarkern als auch von Interjektionen vorliegen, dass die Partikel aber auch von den prototypischen Vertretern beider Kategorien abweichende Merkmale zeigt, so dass vorgeschlagen wird, auf eine Klassifikation unterhalb der Ebene der Diskurspartikel zu verzichten, solange nicht weitere von Imperativen abgeleitete Partikeln (z.B. warte, sag mal) empirisch untersucht sind, mit denen komm möglicherweise eine eigene Subklasse bildet.
Smooth turn-taking in conversation depends in part on speakers being able to communicate their intention to hold or cede the floor. Both prosodic and gestural cues have been shown to be used in this context. We investigate the interplay of pitch movements and hand gestures at locations at which speaker change becomes relevant, comparing their use in German and Swedish. We find that there are some shared functions of prosody and gesture with regard to turn-taking in the two languages, but that these shared functions appear to be mediated by the different phonological demands on pitch in the two languages.
Der vorliegende Beitrag beschäftigt sich mit ICH WEIß NICHT und der Frage danach, ob einige der Verwendungen als Diskursmarker bezeichnet werden können oder nicht. Es wird zunächst ein Überblick über die Kriterien gegeben, die in der interaktionalen Linguistik für die Diskursmarkerdefinition diskutiert wurden. Dabei wird versucht, definitorische Kriterien von empirischen Befunden abzugrenzen. Es folgt eine Analyse verschiedener Verwendungen von ICH WEIß NICHT. Ein Schwerpunkt liegt dabei auf Verwendungen als epistemischer und pragmatischer Marker, die sowohl mit prospektiver Orientierung als auch mit retrospektiver Orientierung vorkommen. Abschließend wird der Unterschied zwischen definitorischen und empirischen Kriterien für die Diskursmarkerdefinition systematisiert. Auf dieser Basis argumentieren wir dafür, dass alle Verwendungen von ICH WEIß NICHT, die diskursfunktionale Eigenschaften haben und syntaktisch desintegriert sind, Diskursmarkerverwendungen sind. Einige davon sind prototypischer, während andere Fälle eher marginal sind, da sie einige Merkmale, die die meisten Diskursmarker kennzeichnen, nicht aufweisen.
Instrumente für die Arbeit mit Korpora gesprochener Sprache. Text-Ton-Alignment und COSMAS II
(2000)
I’ve got a construction looks funny – representing and recovering non-standard constructions in UD
(2020)
The UD framework defines guidelines for a crosslingual syntactic analysis in the framework of dependency grammar, with the aim of providing a consistent treatment across languages that not only supports multilingual NLP applications but also facilitates typological studies. Until now, the UD framework has mostly focussed on bilexical grammatical relations. In the paper, we propose to add a constructional perspective and discuss several examples of spoken-language constructions that occur in multiple languages and challenge the current use of basic and enhanced UD relations. The examples include cases where the surface relations are deceptive, and syntactic amalgams that either involve unconnected subtrees or structures with multiply-headed dependents. We argue that a unified treatment of constructions across languages will increase the consistency of the UD annotations and thus the quality of the treebanks for linguistic analysis.
In this paper we investigate the coverage of the two knowledge sources WordNet and Wikipedia for the task of bridging resolution. We report on an annotation experiment which yielded pairs of bridging anaphors and their antecedents in spoken multi-party dialog. Manual inspection of the two knowledge sources showed that, with some interesting exceptions, Wikipedia is superior to WordNet when it comes to the coverage of information necessary to resolve the bridging anaphors in our data set. We further describe a simple procedure for the automatic extraction of the required knowledge from Wikipedia by means of an API, and discuss some of the implications of the procedure’s performance.
This paper gives an insight into the basic concepts for a corpus-based lexical resource of spoken German, which is being developed by the project "The Lexicon of Spoken German"(Lexik des gesprochenen Deutsch, LeGeDe) at the "Institute for the German Language" (Institut für Deutsche Sprache, IDS) in Mannheim. The focus of the paper is on initial ideas of semi-automatic and automatic resources that assist the quantitative analysis of the corpus data for the creation of dictionary content. The work is based on the "Research and Teaching Corpus of Spoken German" (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK).