400 Sprache
Refine
Document Type
- Working Paper (3)
- Part of a Book (2)
- Article (1)
- Book (1)
- Part of Periodical (1)
Has Fulltext
- yes (8)
Keywords
- Gesprochene Sprache (8) (remove)
Publicationstate
Reviewstate
- Peer-Review (4)
- (Verlags)-Lektorat (3)
Die Studie untersucht die syntaktischen und lexikalischen Mittel, die verwendet werden, um die in der Spontansprache bevorzugte Verteilung von Information herzustellen. Quantitativ wird die von Du Bois als ‚Preferred Argument Structure‘ beschriebene Beschränkung von Teilsätzen auf einen neuen Referenten, der zudem in transitiven Sätzen in der Regel nicht als Subjekt erscheint, fürs Deutsche bestätigt und präzisiert. Qualitativ wird gezeigt, welche unterschiedlichen Funktionen bei der Ein- und Weiterführung von Referenten hochfrequente, semantisch unspezifische Verben (z.B. ‚haben‘ und ‚machen‘) übernehmen. Theoretisch wird vor dem Hintergrund gebrauchsbasierter Ansätze wie der Konstruktionsgrammatik die Möglichkeit der Integration diskurspragmatischer Tendenzen ins sprachliche Wissen diskutiert.
This paper presents observations on the phonetic realisations of the German particles ja – ‘yes’ and naja – approximately ‘well’. As part of a large-scale study on the particle ja, we identified numerous instances in the dataset that had been orthographically transcribed as ja, but were phonetically realised as [nja]. Using phonetic and functional parameters, we explore the question whether these instances can be attributed to either the lexeme ja or naja. While phonetic measurements yield ambivalent results, analyses of pragmatic parameters such as function and turn position seem to indicate that [nja] was predominantly intended to be ja, although some functional differences between ja and [nja] could also be identified.
In this paper, we address two problems in indexing and querying spoken language corpora with overlapping speaker contributions. First, we look into how token distance and token precedence can be measured when multiple primary data streams are available and when transcriptions happen to be tokenized, but are not synchronized with the sound at the level of individual tokens. We propose and experiment with a speaker based search mode that enables any speaker’s transcription tier to be the basic tokenization layer whereby the contributions of other speakers are mapped to this given tier. Secondly, we address two distinct methods of how speaker overlaps can be captured in the TEI based ISO Standard for Spoken Language Transcriptions (ISO 24624:2016) and how they can be queried by MTAS – an open source Lucene-based search engine for querying text with multilevel annotations. We illustrate the problems, introduce possible solutions and discuss their benefits and drawbacks.
Der Beitrag beschreibt die Entwicklung und Anwendung des TEI-basierten ISO-Standards ISO 24624:2016 Transcription of spoken language, der seit einigen Jahren für gesprochensprachliche Forschungsdaten aus unterschiedlichen Kontexten eingesetzt wird. Ein standardisiertes Dateiformat ermöglicht Interoperabilität zwischen verschiedenen Werkzeugen und weiteren Angeboten von Datenzentren und Infrastrukturen. Durch die methodologisch fundierte Abwägung zwischen Standardisierung und Flexibilität kann der ISO/TEI-Standard zudem Forschungsdaten aus verschiedenen Forschungskontexten abbilden, und so interdisziplinäre Vorhaben erleichtern. Der Beitrag stellt einige Anwendungsbereiche aus dem Lebenszyklus gesprochensprachlicher Forschungsdaten vor, in denen auf dem ISO/TEI-Standard basierenden Erweiterungen existierender Softwarelösungen erfolgreich umgesetzt werden konnten, und zeigt weitere Beispiele für die zunehmende Verbreitung des Formats.
The possibilities of re-use and archiving of spoken and written corpora are affected by personality rights (depending on legal tradition also called: the right of publicity), copyright law and data protection / privacy laws. These recommendations include information about legal aspects which should be considered while creating corpora to ensure the greatest archivability and re-usability possible in compliance with current laws.
The information compiled here shall serve researchers who plan to create corpora or who are involved in evaluation of such measures as a guideline. This information is not exhaustive or to be considered as legal advice. Researchers should consult institutional legal departments and management before making legally relevant decisions. That said, further legal expertise should be sought if possible as early as project planning phases.