Refine
Year of publication
Document Type
- Part of a Book (20)
- Conference Proceeding (12)
- Article (8)
- Working Paper (8)
- Contribution to a Periodical (4)
- Book (3)
- Other (1)
- Preprint (1)
Language
- German (39)
- English (16)
- French (1)
- Multiple languages (1)
Keywords
- Transkription (57) (remove)
Publicationstate
- Veröffentlichungsversion (18)
- Zweitveröffentlichung (9)
- Postprint (4)
- Erstveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (16)
- Peer-Review (10)
- Verlagslektorat (1)
Publisher
- Retorika (8)
- Verlag für Gesprächsforschung (4)
- CLARIN (2)
- Leibniz-Institut für Deutsche Sprache (2)
- Linköping University Electronic Press (2)
- Narr (2)
- Universität Hamburg - Sonderforschungsbereich 538 (2)
- Wilhelm Fink (2)
- Benjamins (1)
- ELDA (1)
We present a collection of (currently) about 5.500 commands directed to voice-controlled virtual assistants (VAs) by sixteen initial users of a VA system in their homes. The collection comprises recordings captured by the VA itself and with a conditional voice recorder (CVR) selectively capturing recordings including the VA-directed commands plus some surrounding context. Next to a description of the collection, we present initial findings on the patterns of use of the VA systems during the first weeks after installation, including usage timing, the development of usage frequency, distributions of sentence structures across commands, and (the development of) command success rates. We discuss the advantages and disadvantages of the applied collection-specific recording approach and describe potential research questions that can be investigated in the future, based on the collection, as well as the merit of combining quantitative corpus linguistic approaches with qualitative in-depth analyses of single cases.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
In diesem sprachwissenschaftlichen Projekt wurden Verfahren des Sprecherwechsels und der Bedeutungsaushandlung in authentischen, telefonisch gedolmetschten Beratungsgesprächen untersucht. Die Daten liegen als PDF (nach dem HIAT-Verfahren) und als bearbeitbare Rohdaten in einer .exb-Datei vor. Die Transkripte dokumentieren Beratungsgespräche zwischen arabischsprechenden Klienten und einer Migrations- und Sozialberaterin, zu denen verschiedene Dolmetscher via Telefon herangezogen werden. Die Dolmetscher befinden sich jeweils in einem anderen Raum als die Beraterin und die Klienten. Die Gespräche erfolgten nach vorheriger Anmeldung. Die Beraterin ruft den Dolmetscher jeweils zum vereinbarten Termin an. Die Klienten sind subsidiär geschützte syrische Geflüchtete mit sehr geringen Deutschkenntnissen, die Hilfe beim Familiennachzug, Spracherwerb oder anderen authentischen Anliegen benötigen. Die Dolmetscher sprechen verschiedene regionale Varietäten des Arabischen. Daten, die auf die beteiligten Personen sowie auf die Beratungsstelle schließen lassen, wurden anonymisiert. Technisch bedingte Übertönungen und andere Handlungen der Beteiligten, die wegen der mangelnden Kopräsenz nicht für alle Beteiligten in den beiden Interaktionsräumen hörbar oder in einem Interaktionsraum nur visuell wahrnehmbar sind, wurden in den jeweiligen Annotationsspuren durchgehend annotiert. Dagegen wurden non- und paraverbale Phänomene wie etwa die Atmung ausschließlich im Hinblick auf ihre kommunikative Bedeutung sowie Relevanz für den Sprecherwechsel transkribiert und bei eingeschränkter akustischen Wahrnehmung kenntlich gemacht. Natürliche Phänomene menschlichen Sprechens, wie das Einatmen, Schlucken und Schmatzen, mit denen keine turnbezogene Handlungen einhergehen, blieben unberücksichtigt. Die nonverbalen Handlungen der Aktanten und deren Prosodie werden nur ansatzweise und im Hinblick auf die Untersuchungsfrage angedeutet.
Es werden in Veröffentlichungen ein englisches oder ein deutsches Kürzel als Bezeichnung für das Korpus verwendet (TIGA und TeDo). Die Nummerierung der Dateien ist jedoch immer die selbe.
Weitere Sprachen in dieser Datensammlung sind verschiedene Varietäten des gesprochenen Arabisch. Die Datensammlung stammt aus dem DFG-Projekt ME 3439/3 "Turn-taking und Verständnissicherung beim Telefondolmetschen Deutsch-Arabisch".
Das Forschungs- und Lehrkorpus für GesprochenesDeutsch (FOLK) ist ein Korpus des gesprochenen Deutsch in natürlichen sozialen Interaktionen, das seit 2008 in der Abteilung Pragmatik am Leibniz-Institut für Deutsche Sprache in Mannheim aufgebaut wird. FOLK besteht aus Audio- und Videoaufzeichnungen natürlicher Gespräche aus verschiedensten gesellschaftlichen Bereichen (private, institutionelle und öffentliche Interaktionsdomäne), die durch Transkription, weitere Annotationen und Metadaten-Dokumentation für korpusgestützte Analysen erschlossen und zur wissenschaftlichen Nutzung bereitgestellt werden. FOLK wird auf vielfältige Weise für Untersuchungen zum gesprochenen Deutsch genutzt, insbesondere in der Gesprächsforschung, der Korpuslinguistik und anwendungsorientierten Zweigen der Linguistik.
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
In diesem Beitrag wird anhand von per Telefon gedolmetschten Gesprächen zwischen einer deutschsprechenden Asylverfahrensberaterin und arabischsprechenden KlientInnen die Notwendigkeit eines reflektierten computergestützten Transkriptionsverfahrens für interaktionsbezogene Untersuchungen diskutiert. Gesprächstranskription erfordert die Verwendung eines romanisierten, rechtsläufigen Schriftsystems für die schriftliche und grafische Darstellung der zeitlichen Dimensionen, d. h. die Synchronizität, Simultaneität und Reziprozität des sprachlichen Handelns. Durch die Entwicklung einer transparenten Systematik zur Romanisierung und Übersetzung von Gesprächsdaten wird ihre Opazität sowohl für LeserInnen ohne Arabischkenntnisse als auch für Sprachkundige ohne Kenntnisse über die rekonstruierten Varietäten reduziert und ansatzweise eine Lesbarkeit auch für Nicht-Sprachkundige geschaffen. Dies ist für die Datenkuratierung und etwaige Nachnutzungen von besonderer Bedeutung.
The paper deals with the process of computer-aided transcription regarding Arabic-German data material for interaction-based studies. First of all, it sheds light upon some major methodological challenges posed by the conversation-analytic approaches: due to current corpus technology, the reciprocity, linearity, and simultaneity of linguistic activities cannot be reconstructed in an analytically proper way when using the Arabic characters in multilingual and bidirectional transcripts. The difficulty of transcribing Arabic encounters is also compounded by the fact that Spoken Arabic as well as its varieties and phenomena have not been standardised enough (for conversation-analytic purposes). Therefore, the second part of this paper is dedicated to preliminary, self-developed solutions, namely a systematic method for transcribing Spoken Arabic.
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Korpora gesprochener Sprache
(2022)
Korpora gesprochener Sprache bestehen aus Audio- oder Videoaufnahmen sprachlicher Produktionen, die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden. Sie kommen zur Untersuchung unterschiedlichster sprachwissenschaftlicher Fragestellungen unter anderem in der Gesprächsforschung, der Dialektologie und der Phonetik zum Einsatz. Dieser Beitrag diskutiert die wichtigsten Eigenschaften von Korpora gesprochener Sprache und stellt einige Vertreter der verschiedenen Kategorien vor.
FAIR-Prinzipien und Qualitätskriterien für Transkriptionsdaten. Empfehlungen und offene Fragen
(2022)
Dieser Beitrag behandelt die mittlerweile als Bestandteil guter wissenschaftlicher Praxis anerkannten FAIR-Prinzipien in Bezug auf die Transkription und Annotation gesprochener Sprache und multimodaler Interaktion. Forschungsdaten - und somit Transkriptionsdaten - sollen heute Findable, Accessible, Interoperable und Reusable sein. Der Beitrag versucht dementsprechend, empirische Methoden im Prozess der Digitalisierung und generische Prinzipien des digitalen Forschungsdatenmanagements zusammenzubringen, um für diesen Kontext einem operationalisierten Begriff der „FAIRness“ näher zu kommen und möglichst konkrete Empfehlungen aufzustellen. Der Beitrag sollte aber gleichzeitig zur Diskussion anregen, denn konkrete Anforderungen in Bezug auf das Forschungsdatenmanagement und die Datenqualität müssen auch im Rahmen der FAIR-Prinzipien von den Fachgemeinschaften selbst herausgearbeitet werden.