Refine
Document Type
- Part of a Book (1)
- Conference Proceeding (1)
Has Fulltext
- no (2) (remove)
Is part of the Bibliography
- yes (2)
Keywords
- ASR (1)
- Automatische Spracherkennung (1)
- Deutsch (1)
- Flexion (1)
- Gesprochene Sprache (1)
- Grammatik (1)
- Kasus (1)
- Korpus <Linguistik> (1)
- Plurizentrische Sprache (1)
- Ripuarian (1)
Publicationstate
- Zweitveröffentlichung (2) (remove)
Reviewstate
- (Verlags)-Lektorat (1)
- Peer-Review (1)
Publisher
The newest generation of speech technology caused a huge increase of audio-visual data nowadays being enhanced with orthographic transcripts such as in automatic subtitling in online platforms. Research data centers and archives contain a range of new and historical data, which are currently only partially transcribed and therefore only partially accessible for systematic querying. Automatic Speech Recognition (ASR) is one option of making that data accessible. This paper tests the usability of a state-of-the-art ASR-System on a historical (from the 1960s), but regionally balanced corpus of spoken German, and a relatively new corpus (from 2012) recorded in a narrow area. We observed a regional bias of the ASR-System with higher recognition scores for the north of Germany vs. lower scores for the south. A detailed analysis of the narrow region data revealed – despite relatively high ASR-confidence – some specific word errors due to a lack of regional adaptation. These findings need to be considered in decisions on further data processing and the curation of corpora, e.g. correcting transcripts or transcribing from scratch. Such geography-dependent analyses can also have the potential for ASR-development to make targeted data selection for training/adaptation and to increase the sensitivity towards varieties of pluricentric languages.
Eine am Gebrauch orientierte Sprachbeschreibung ist auch in der Grammatik mit sprachlicher Variation und mit Veränderungen des Gebrauchs konfrontiert. Anhand dreier Beispiele aus dem zentralen Bereich der deutschen Grammatik soll gezeigt werden, dass sich in der Variation, die man dort beobachtet, eine funktionale Nutzung des vorhandenen Inventars darstellt. Diese funktionale Nutzung ist dadurch gekennzeichnet, dass seltenere und daher synchron auffälligere Konstruktionen für spezifische Funktionen genutzt werden. Der Genitiv ist tatsächlich aus formalen Gründen seiner Morphologie auffällig. Er ist nicht vom Dativ unterschieden beim Femininum, doppelt markiert bei den starken Maskulina und Neutra und nur beschränkt bildbar im Plural. Diese Eigenheiten beschränken seine Nutzung als normaler Kasus. Gerade aber die auffällige Markierung mit dem Element {-(e)s} hat dazu geführt, dass der Genitiv nun zur Anzeige genereller Abhängigkeit genutzt wird, und zwar als Genitivattribut wie als unmarkierte Form bei einer Gruppe von Präpositionen (wie ‚dank‘, ‚trotz‘, ‚wegen‘, ‚entlang‘ usw.). Beim zweiten Fall, dem Verhältnis von starken und schwachen Verben, zeigt sich, dass der Übergang von der starken zur schwachen Flexion, die erkennbar den Normalfall im morphologischen System darstellt, gerade häufige und in ihrer Bedeutung grundlegende Verben (wie ‚geben‘, ‚nehmen‘ usw.) nicht betrifft, so dass die starke Flexion als Markierung für solch einen zentralen Status gelten kann. Der dritte Punkt hängt damit zusammen: das Ausgreifen der ‚würde‘-Form als Konjunktiv II (auch bei gut markierten starken Verben) ist so im größeren Zusammenhang der Nutzung von Klammerformen zu sehen.