Refine
Year of publication
Document Type
- Article (9)
- Contribution to a Periodical (7)
- Conference Proceeding (6)
- Part of a Book (5)
- Other (1)
- Preprint (1)
Keywords
- gesprochene Sprache (29) (remove)
Publicationstate
Reviewstate
- Peer-Review (4)
- Review-Status-unbekannt (1)
Publisher
- Erich Schmidt (2)
- European Language Resources Association (ELRA) (2)
- Schwann (2)
- Universität (2)
- Universitäts- und Landesbibliothek Darmstadt (2)
- Association for Computational Linguistics and Dublin City University (1)
- Europ. Akad. (1)
- Institute of Cybernetics, Institute of the Estonian Language (1)
- Lambert-Lucas (1)
- Niemeyer (1)
Zum Verschmelzungsverhalten von definitem Artikel und Präposition in der Schriftsprache des Deutschen liegen bereits diverse Erkenntnisse vor, wohingegen die Kenntnislage für die gesprochene Sprache noch unzureichend ist. Die vorliegende Untersuchung widmet sich diesem Desiderat und analysiert Präposition-Artikel-Kombinationen anhand von Daten aus FOLK, um die linguistische Beschreibung dieser Struktur voranzutreiben. In der durchgeführten Korpusanalyse werden die Auftretenshäufigkeiten synthetischer und analytischer Präposition-Artikel-Kombinationen verglichen und Gebrauchsbesonderheiten auf syntaktisch-lexikalischer und pragmatischer Ebene herausgearbeitet.
Die Darstellung von und Arbeit mit Transkripten spielt in vielen forschungs- und anwendungsbezogenen Arbeiten mit Daten gesprochener Sprache eine wichtige Rolle. Der im ZuMult-Projekt entwickelte Prototyp ZuViel (Zugang zu Visualisierung von Transkripten) knüpft an etablierte Verfahren zur Transkriptdarstellung an und erweitert diese durch neue Möglichkeiten des interaktiven Arbeitens mit Transkripten im digitalen Medium. Der Beitrag führt in diese neuen Möglichkeiten ein und erklärt, wie sie in didaktischen DaF/DaZ-Kontexten aber auch hinsichtlich forschungsbezogener Perspektiven angewendet werden können
Das Forschungs- und Lehrkorpus für GesprochenesDeutsch (FOLK) ist ein Korpus des gesprochenen Deutsch in natürlichen sozialen Interaktionen, das seit 2008 in der Abteilung Pragmatik am Leibniz-Institut für Deutsche Sprache in Mannheim aufgebaut wird. FOLK besteht aus Audio- und Videoaufzeichnungen natürlicher Gespräche aus verschiedensten gesellschaftlichen Bereichen (private, institutionelle und öffentliche Interaktionsdomäne), die durch Transkription, weitere Annotationen und Metadaten-Dokumentation für korpusgestützte Analysen erschlossen und zur wissenschaftlichen Nutzung bereitgestellt werden. FOLK wird auf vielfältige Weise für Untersuchungen zum gesprochenen Deutsch genutzt, insbesondere in der Gesprächsforschung, der Korpuslinguistik und anwendungsorientierten Zweigen der Linguistik.
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.
The naturalness of synthetic speech depends strongly on the prediction of appropriate prosody. For the present study the original annotation of the German speech database “Kiel Corpus of Read Speech” was extended automatically with syntactic features, word frequency, and syllable boundaries. Several classification and regression trees for predicting symbolic prosody features, postlexical phonological processes, duration, and F0 were trained on this database. The perceptual evaluation showed that the overall perceptual quality of the German text-to-speech system MARY can be significantly improved by training all models that contribute to prosody prediction on the same database. Furthermore, it showed that the error introduced by symbolic prosody prediction perceptually equals the error produced by a direct method that does not exploit any symbolic prosody features.
Der Beitrag erkundet die Eignung der Construction Grammar als Rahmentheorie für eine Grammatik der gesprochenen Sprache. Ausgangspunkt der Construction Grammar sind zwei, gerade für gesprochene Sprache sehr häufig zutreffende Beobachtungen: Phrasen- und Satzstrukturen sind oft semantisch nicht kompositional; syntaktische Regeln sind meist nicht formal und allgemein, sondern nur von begrenzter, semantisch und lexikalisch restingierter Reichweite. Im Beitrag werden drei zentrale Thesen der Construction Grammar vorgestellt: Konstruktionen seien das umfassende, letzten Endes alle Aspekte sprachlicher Praxis integrierende Beschreibungsmodell für sprachliches Wissen; Langackers Symbolic Thesis, nach der Konstruktionen nicht rein formal sind, sondern stets auch eine eigene Semantik bzw. Pragmatik besitzen; das Usage-based Model, nach dem Prozesse der Routinebildung und der sukzessiven induktiven Schematisierung für den Erwerb und die Repräsentation von Konstruktionen maßgeblich sind. In Bezug auf diese drei Thesen werden Konvergenzen zwischen Ansätzen und Befunden der Gesprächsanalyse bzw. der Interaktionalen Linguistik diskutiert. Der Beitrag plädiert abschließend für eine Verknüpfung von sequenzanalytisch-interpretativen und korpuslinguistischen Methoden sowie für den Versuch der Integration kognitiver und interaktionaler Betrachtungsweisen.
Part-of-speech tagging (POS-tagging) of spoken data requires different means of annotation than POS-tagging of written and edited texts. In order to capture the features of German spoken language, a distinct tagset is needed to respond to the kinds of elements which only occur in speech. In order to create such a coherent tagset the most prominent phenomena of spoken language need to be analyzed, especially with respect to how they differ from written language. First evaluations have shown that the most prominent cause (over 50%) of errors in the existing automatized POS-tagging of transcripts of spoken German with the Stuttgart Tübingen Tagset (STTS) and the treetagger was the inaccurate interpretation of speech particles. One reason for this is that this class of words is virtually absent from the current STTS. This paper proposes a recategorization of the STTS in the field of speech particles based on distributional factors rather than semantics. The ultimate aim is to create a comprehensive reference corpus of spoken German data for the global research community. It is imperative that all phenomena are reliably recorded in future part-of-speech tag labels.
Der Autor möchte mit seinem Beitrag zeigen, in welcher Weise die aktuellen Korpus-Projekte und Datenbankentwicklungen in der Abteilung Pragmatik des Instituts für Deutsche Sprache Mannheim (IDS) Fragestellungen und Forschungspraktiken der Gesprächsanalyse bedienen. Abschließend stelle er die Entwicklungsarbeit an der Nachfolge-Version 2.0 der Datenbank Gesprochenes Deutsch für die gegenwärtig angebotene Version vor.
The Database for Spoken German (Datenbank für Gesprochenes Deutsch, DGD2, http://dgd.ids-mannheim.de) is the central platform for publishing and disseminating spoken language corpora from the Archive of Spoken German (Archiv für Gesprochenes Deutsch, AGD, http://agd.ids-mannheim.de) at the Institute for the German Language in Mannheim. The corpora contained in the DGD2 come from a variety of sources, some of them in-house projects, some of them external projects. Most of the corpora were originally intended either for research into the (dialectal) variation of German or for studies in conversation analysis and related fields. The AGD has taken over the task of permanently archiving these resources and making them available for reuse to the research community. To date, the DGD2 offers access to 19 different corpora, totalling around 9000 speech events, 2500 hours of audio recordings or 8 million transcribed words. This paper gives an overview of the data made available via the DGD2, of the technical basis for its implementation, and of the most important functionalities it offers. The paper concludes with information about the users of the database and future plans for its development.