Phonetik / Phonologie
Refine
Year of publication
Document Type
- Conference Proceeding (51)
- Part of a Book (43)
- Article (21)
- Book (2)
- Doctoral Thesis (2)
- Review (2)
- Working Paper (2)
- Part of Periodical (1)
Keywords
- Deutsch (55)
- Phonetik (18)
- Prosodie (14)
- German (13)
- Phonologie (13)
- Korpus <Linguistik> (12)
- Kempelen, Wolfgang von (11)
- automatische Sprachproduktion (11)
- Englisch (10)
- Gesprochene Sprache (10)
Publicationstate
- Veröffentlichungsversion (55)
- Zweitveröffentlichung (17)
- Postprint (13)
- Preprint (1)
Reviewstate
Publisher
- de Gruyter (13)
- International Speech Communication Association (8)
- Schwann (8)
- TUDpress (8)
- International Speech Communications Association (5)
- Akademie-Verlag (3)
- European Language Resources Association (3)
- Institut für Deutsche Sprache (3)
- Institut für Phonetik und Sprachliche Kommunikation, Ludwig Maximilians Universität München (3)
- Leibniz-Zentrum allgemeine Sprachwissenschaft (ZAS); Humboldt-Universität zu Berlin (3)
This conversation analytic study compares the use of negation particles in spoken German and Persian, namely nein/nee and na. While these particles have a range of functions in both languages (Ghaderi 2022; Imo 2017), their use in response to news remains understudied. We focus on nein/nee and na in two sequential contexts: (i) after prior disconfirmations (Extract (a)) and (ii) in response to either solicited or unsolicited informings (see Extracts (b) and (c), respectively). In both contexts, nein/nee and na mark unexpectedness and open up an opportunity space for more, but they do so in different ways and with different outcomes. Nein/nee- and na-turns after disconfirming, often minimal responses to first-position confirmable turns mark the prior as unexpected (or even contrasting with the nein/nee/na-speaker’s expectations) and thus as expandable/accountable (cf. Ford 2001; Gubina/Betz 2021). Nein/nee/na-turns after informings (e.g., announcements that display a story teller’s negative emotional stance) differ not only in sequential position but also in prosodic realization. They can be either falling or rising, but all are characterized by marked prosody, i.e., lengthening, very low onset, smiling or breathy voice, or high overall pitch. Through position and turn design features, such nein/nee- and na-turns not only mark a prior turn as counter to (normative) expectations, but may also display the speaker’s affective stance and affiliate with the affective stance of the prior interactant. By comparing the use of nein/nee and na in German and Persian in the two functions illustrated in Extracts (a) and (b/c), we will show (i) how nein/nee- and na-turns shape interactional trajectories after responsive actions and (ii) what role the particles play in managing news and stance-taking as well as epistemic and affective positioning. Apart from revealing similarities in the use of German and Persian negation particles, the results of our crosslinguistic comparison will demonstrate that even if different languages have similar practices for specific actions, the use of these practices is language- and culture-specific. This means that even similar practices in different languages have their own “collateral effects” (Sidnell/Enfield 2012), linguistic and prosodic characteristic features, and, at least sometimes, consequences for social actions accomplished in the specific language (e.g., Dingemanse/Blythe/Dirksmeyer 2014; Evans/Levinson 2009; Floyd/Rossi/Enfield (eds.) 2020; Fox et al. 2009). Our study uses the method of Conversation Analysis (Sidnell/Stivers (eds.) 2013) and draws on more than 80 hours of audio and video recordings of spontaneous interactions (co-present, via video link, and on the telephone) in everyday and institutional contexts.
Morphophonological asymmetries in affixation concern systematic correlations between morphological properties of affixes (e.g. combination with bound versus free stems, position relative to stem (suffixes versus prefixes)) and their phonological properties (e.g. stress behaviour). The arguably most insightful approach to capturing relevant asymmetries invokes a notion of affix coherence, first introduced by Dixon in connection with his work on Yidiɲ, a nearly extinct language spoken in Northern Australia. This notion is based on a categorical division of affixes into ones that integrate into the phonological word of the stem and ones that do not. The integration of affixes is envisioned as being fully determined by phonological and morphological structure in a given language and verifiable by diagnostics relevant to phonological word domains (primarily the syllable and the foot structure). The assumption of two types of prosodic domains characterized by integrated versus non-integrated affixes is manifest in consistent asymmetries that pertain to morphophonological, phonological, and phonetic rules. This consistency constitutes compelling evidence for the structure-based analysis of the impact of various affixes on derived words, as opposed to alternative approaches to capturing these effects by associating affixes with diacritics (morpheme versus word boundary, class 1 versus class 2, stratum 1 versus stratum 2). The present entry aims to demonstrate, mostly on the basis of data from Germanic languages, the breadth of the empirical evidence in support of a fundamental role of affix coherence. Moreover, it aims to draw attention to the various implications of affix coherence for modeling relevant generalizations, in particular the necessary reference to a level of phonological representation characterized by a specific degree of abstractness (‘phonemic’).
Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.
The shortening of linguistic expressions naturally involves some sort of correspondence between short forms and (some portion of) the respective full forms. Based mostly on data from English and Hebrew this article explores the hypothesis that such correspondence concerns necessary sameness of symbolic form, referring either to graphemic or to a specific level of phonological representation. That level indicates a degree of abstractness defined by language-specific contrastiveness (i.e. “phonemic”). Reference to written form can be shown to be highly systematic in certain contexts, including cases where full forms consist of multiple stems. Specific asymmetries pertaining to the targeting of material by correspondence (e.g. initial vs. non-initial position) appear to be alike for both types of representation, a claim supported by a study based on a nomenclature strictly confined to writing (chemical element symbols).
Identity effects in phonology are deviations from regular phonological form (i.e. canonical patterns) which are due to the relatedness between words. More specifically, identity effects are those deviations which have the function to enhance similarity in the surface phonological form of morphologically related words. In rule-based generative phonology the effects in question are described by means of the cycle. For example, the stress on the second syllable in cond[ɛ]nsation as opposed to the stresslessness of the second syllable in comp[ǝ]nsation is described by applying the stress rules initially to the sterns thereby yielding condénse and cómpensàte. Subsequently the stress rules are reapplied to the affixed words with the initial stress assignment (i.e. stress on the second syllable in condense, but not in compensate) leaving its mark in the output form (cf. Chomsky and Halle 1968). A second example are words like lie[p]los 'unloving' in German, which shows the effects of neutralization in coda position (i.e. only voiceless obstruents may occur in coda position) even though the obstruent should 'regularly' be syllabified in head position (i.e. bl is a wellformed syllable head in German). Here the stern is syllabified on an initial cycle, obstruent devoicing applies (i.e. lie[p]) and this structure is left intact when affixation applies (i.e. lie[p ]Ios ) (cf. Hall 1992). As a result the stern of lie[p]los is identical to the base lie[p].
This paper presents observations on the phonetic realisations of the German particles ja – ‘yes’ and naja – approximately ‘well’. As part of a large-scale study on the particle ja, we identified numerous instances in the dataset that had been orthographically transcribed as ja, but were phonetically realised as [nja]. Using phonetic and functional parameters, we explore the question whether these instances can be attributed to either the lexeme ja or naja. While phonetic measurements yield ambivalent results, analyses of pragmatic parameters such as function and turn position seem to indicate that [nja] was predominantly intended to be ja, although some functional differences between ja and [nja] could also be identified.
Sogenannte „Pragmatikalisierte Mehrworteinheiten“ sind im Deutschen hochfrequent und unterliegen bisweilen tiefgreifenden phonetischen Reduktionsprozessen. Diese können Realisierungsvarianten hervorbringen, die in der Rückschau auf mehr als eine lexematische Ursprungsform zurückführbar sind. Die vorliegende Studie untersucht mit [ˈzɐmɐ] einen besonders prägnanten Fall dieser Art anhand eines Perzeptionsexperimentes.
This report presents a corpus of articulations recorded with Schlieren photography, a recording technique to visualize aeroflow dynamics for two purposes. First, as a means to investigate aerodynamic processes during speech production without any obstruction of the lips and the nose. Second, to provide material for lecturers of phonetics to illustrates these aerodynamic processes. Speech production was recorded with 10 kHz frame rate for statistical video analyses. Downsampled videos (500 Hz) were uplodad to a youtube channel for illustrative purposes. Preliminary analyses demonstrate potential in applying Schlieren photography in research.
Anhand der geografischen Distribution des hohen vorderen gerundeten Vokalphonems /y/ in Europa wird das Projekt des Phonologischen Atlas Europas (Phon@Europe) vorgestellt. Der Schwerpunkt der Diskussion liegt auf Fällen der möglichen bzw. strittigen Diffusion von /y/ durch Sprachkontakt. Dabei gilt die Aufmerksamkeit auch der Rolle, die das Deutsche bei der Verbreitung von /y/ in Europa gespielt haben könnte. Es werden Vergleiche zu ähnlich gelagerten Fällen in anderen Teilen des Kontinents gezogen. Die Möglichkeit der kontaktunabhängigen Entstehung von /y/ wird ebenfalls in Betracht gezogen. Abschließend werden die Befunde kontaktlinguistisch und areallinguistisch ausgewertet und das Deutsche in der phonologischen Landschaft Europas situiert.
Smooth turn-taking in conversation depends in part on speakers being able to communicate their intention to hold or cede the floor. Both prosodic and gestural cues have been shown to be used in this context. We investigate the interplay of pitch movements and hand gestures at locations at which speaker change becomes relevant, comparing their use in German and Swedish. We find that there are some shared functions of prosody and gesture with regard to turn-taking in the two languages, but that these shared functions appear to be mediated by the different phonological demands on pitch in the two languages.
A "polyglottal" speech synthesis - modifications for a replica of Kempelen's speaking machine
(2019)
Zum Graphembegriff
(1980)
In diesem Aufsätz wird anhand von überwiegend deutschen Beispielen gezeigt, daß sich phonotaktische Beschränkungen sowohl auf die Silbe als auch auf das Morphem beziehen können. Es wird die Hypothese aufgestellt, daß nur die Beschränkungen, die das Morphem als Domäne haben, Ausnahmen zulassen können.
Im Jahr 2015 ist die 7. Auflage des Duden-Aussprachewörterbuchs erschienen, für deren Bearbeitung erstmals die MitarbeiterInnen des IDS Projekts „Gesprochenes Deutsch“ verantwortlich zeichneten. Im vorliegenden Beitrag werden die konzeptionellen und inhaltlichen Veränderungen beschrieben, die in der Neuauflage umgesetzt wurden. Sie lassen sich im Wesentlichen unter dem Motto „Hinwendung zur Deskriptivität“ zusammenfassen. Neben den üblichen lexikografischen Prozeduren wie der Streichung veralteter Lemmata und der Erweiterung des Lemmabestands um bisher nicht dokumentierte Wörter sind zunächst im Einleitungsteil Kapitel ergänzt, vollständig überarbeitet oder völlig neu erstellt worden. Systematische Veränderungen wurden bei verschiedenen Transkriptionskonventionen vorgenommen (z.B. bei der Notation der Diphthonge). Die wesentlichste Neuerung ist jedoch die Einbeziehung von empirischen Daten zum deutschen Gebrauchsstandard vor allem aus dem Projektkorpus „Deutsch heute“, die es ermöglicht haben, fundierte Angaben zur regionalen Verbreitung von Aussprachevarianten zu machen.
Der Beitrag untersucht das Zusammenspiel von funktionaler Spezialisierung und phonetischer Reduktion bei pragmatischen Markern aus komplexen Syntagmen. Im Fokus steht die Reduktionsform [ˈzɐmɐ], die potenziell auf die Marker <ich sag mal> oder <sagen wir (mal)> zurückgeführt werden konnte. Anhand einer Analyse ihrer phonetischen Reduktionsformen und Interaktionsfunktionen wird gezeigt, dass eine Rückführung auf <sagen wir (mal)> plausibler ist. Im Anschluss werden Realisierungen der Wortverbindung ‚sagen wir‘ als kompositioneller Matrixsatz mit Verwendungen als pragmatischer Marker verglichen. Die Befunde deuten auf einen Einfluss der Funktion der Zielstruktur auf ihre lautliche Realisierung hin, was sich als Indiz für einen unabhängigen Zeichenstatus der reanalysierten Markerverwendung interpretieren lasst.
Der vorliegende Beitrag thematisiert zwei unterschiedliche Forschungsergebnisse aus der Auswertung des Korpus »Deutsch heute«. Im ersten Teil wird in einem lautsystematischen Aufriss die phonetische Variation, wie sie sich in der Vorleseaussprache der österreichischen Schülerinnen in den Korpusdaten manifestiert, dargestellt. Ein zweiter Teil des Beitrags präsentiert metasprachliche Äußerungen aus sprachbiographischen Interviews, die Einblicke in sprachbezogene Kategorien und Konzepte der jungen Österreicherinnen geben und Rückschlüsse auf Spracheinstellungen zulassen. Die Schülerinnen bestätigen nicht nur verschiedene Facetten des für Österreich anzunehmenden diaglossischen Verhältnisses der Varietäten durch ihren Formengebrauch, sondern auch in metasprachlichen Aussagen, die einen hohen Grad der Bewusstheit des eigenen Sprachgebrauchs sowie der formalen wie auch soziosymbolischen Unterschiede der Varietäten erkennen lassen.
To date, little is known about prosodic accommodation and its conversational functions in instances of overlapping talk in conversation. A major conversational action that happens in overlap is turn competition. It is not known whether participants accommodate prosodic parameters locally in the overlapped turn (initialisation) or access a repertoire of prosodic patterns that refer to general prosodic parameter norms (normalisation) when competing for the turn in overlap. This paper investigates the initialisation and normalisation of fundamental frequency (f0) and assesses its role as a resource for turn competition in overlap. We drew instances of overlapping talk from a corpus of conversational multi-party interactions in British English. We annotated the overlaps on a competitiveness scale and categorised them by overlap onset position and conversational function. We automatically extracted f0 parameters from the speech signal and processed them into f0 accommodation features that represent the normalising or the initialising use of f0. Using decision tree classification we found that f0 accommodation is only relevant as a turn competitive resource in overlaps that start clearly before a speaker transition. In this turn context, we found that normalising and initialising f0 features can both be relevant turn competitive resources. Their deployment depends on the conversational function of overlap.
Das Motto der diesjährigen Jahrestagung lautet „Standardvariation - Wie viel Variation verträgt die deutsche Standardsprache?“ Gerade Entlehnungen aus anderen Sprachen werfen in diesem Zusammenhang zum Beispiel bezüglich ihrer Aussprache das Problem auf, welche Merkmale zugrunde gelegt werden sollen, die der abgebenden oder die der aufnehmenden Sprache, und wie der tatsächlich im täglichen Sprachgebrauch vorherrschenden und zum Teil erheblichen Variationsbreite Rechnung getragen werden kann bzw. soll. Anhand der in den letzten Jahrzehnten vermehrt im Deutschen verwendeten Anglizismen, also Entlehnungen aus dem angloamerikanischen Sprachraum. möchte ich im Folgenden einige Aspekte aufzeigen, die mit der lautlichen Integration von Anglizismen im Deutschen einhergehen. Zunächst wird die einschlägige Forschungsliteratur zum Thema kurz referiert, um dann die wichtigsten phonetischen und phonologischen Unterschiede zwischen dem Englischen und dem Deutschen zu beleuchten. Vor diesem Hintergrund soll dann der Frage nachgegangen werden, welche Rolle eine akzeptable oder „normgerechte“ Aussprache von Anglizismen im öffentlichen Sprachgebrauch spielt. Da Wörterbücher auch hier einen nicht unerheblichen normierenden Einfluss ausüben, soll abschließend die Frage beantwortet werden, ob es für die Ausspracheangaben von Anglizismen in deutschen Wörterbüchern einen Standard oder eher eine Variationsbreite zu dokumentieren gilt.
Seit einigen Jahren befassen sich zahlreiche geisteswissenschaftliche Arbeiten verstärkt mit der Stimme in ihrer Bedeutung für die menschliche Kommunikation. Aufgrund der Vielschichtigkeit und Ambivalenz des Phänomens wird oft von einem sehr weiten, eher metaphorischen Begriff von Stimme ausgegangen. In der Sprechwissenschaft, die traditionell einen vor allem empirischen und didaktischen Zugriff auf die Sprechstimme hat, wird dagegen mit einem vergleichsweise engen, physiologischen Begriff von Stimme operiert, im Sinne einer Körperfunktion, als Muskelaktivitätsmuster unterschiedlicher Ausprägung, Gestalt und Funktion. In engem Bezug zur klinischen Sprechstimmdiagnostik und Phoniatrie wird Stimme betrachtet als Organ, dessen Anatomie und Physiologie zu beschreiben ist. In engem Bezug zur Phonetik werden Stimmgebung und -wirkung, stimmlich-artikulatorische Ausdrucksformen merkmalsanalytisch auditiv und akustisch beschrieben. In engem Bezug zur Linguistik, Rhetorik und Soziophonetik wird Stimme betrachtet als Resultat der Stimmgebung; Gegenstand sind Sprechwirkung und interaktive Ausarbeitung der Stimme in ihrer Verwobenheit mit sprachlichen und körperlichen Ausdrucksformen. Hierbei wird die Stimme als Bestandteil des stimmlich-artikulatorischen Ausdrucks aufgefasst, insofern als Teil von persönlicher und sozialer Identität, als Trägerin von ästhetisch-künstlerischem und emotionalem Ausdruck.
Methoden zur empirischen Beschreibung des sprechstimmlichen Ausdrucks werden exemplarisch vorgestellt, sowohl anhand von Arbeiten, in denen stimmlich-artikulatorische Merkmale beschrieben und klassifiziert werden (Stimmphysiologie-, Emotionsforschung), als auch anhand von Arbeiten, in denen der stimmlich-artikulatorische Ausdruck in seiner Wirkung auf Hörer (Sprechwirkungsforschung) und in seiner interaktiven Ausarbeitung (Gesprächsforschung) betrachtet wird. Aus den Ergebnissen der empirischen Studien wird deutlich, inwieweit stimmlich-artikulatorische Ausdrucksformen als Bedeutungsträger fungieren und zur Vereindeutigung der Verständigung beitragen können.
Zur Aussprache nicht haupttoniger Vorsilben mit <e> in Lehnwörtern im deutschen Gebrauchsstandard
(2018)
Vortoniges <e> in Lehnwörtern in offenen Silben (demonstrieren, Elefant) ist in den traditionellen deutschen Aussprachewörterbüchern durchgängig mit gespanntem/geschlossenem [e] kodifiziert. Die Auswertung von insgesamt 17 entsprechenden Belegwörtern aus dem Korpus „Deutsch heute“ zeigt für den deutschen Gebrauchsstandard jedoch eine ausgeprägte Variation zwischen den Lauttypen [e], [ɛ] und [ə], die je nach Lexem in ganz unterschiedlichen Anteilen vorkommen. Als Erklärungsansätze für das differierende Variationsverhalten lassen sich Faktoren wie Wortakzentmuster, Folgekonsonanz, Formalitätsgrad und semantisch-morphologische Durchsichtigkeit der Wortbildung anführen. Außerdem zeigt die Variation auch eine ausgeprägte diatopische Dimension: Während im Norden Deutschlands, aber auch im mittelbairisch geprägten Sprachraum und in der Ostschweiz die [e]-Aussprache dominiert, überwiegen in der südlichen Mitte und im Südwesten Deutschlands, im südbairisch geprägten Sprachraum und vor allem in der Westschweiz Belege mit [ɛ]-Aussprache. Die Ergebnisse von „Deutsch heute“ zeigen sich in ähnlicher Weise auch in zusätzlich ausgewerteten Sprachdaten (Nachrichtensendungen, FOLK-Korpus).
Symbolische Repräsentation sprachlicher Lautstruktur beinhaltet die Zergliederung kontinuierlicher Rede in diskrete Einheiten, die mit einem finiten Inventar von Zeichen assoziiert werden. Die Grundidee hinter dieser Abstraktion ist, „wiederkehrendes“ Material, das trotz phonetischer Unterschiede als gleich aufgefasst wird, mit jeweils gleichen Zeichen zu assoziieren. Die Entwicklung geeigneter Verfahren zur Ermittlung einheitlicher und empirisch adäquater Abstraktionsgrade wurde in strukturalistischen Arbeiten vehement diskutiert, scheint aber allgemein seltsam vernachlässigt. In vorliegendem Beitrag wird ein solches im Rahmen der Optimalitätstheorie entwickeltes Verfahren anhand der sogenannten Vokalopposition im Deutschen vorgestellt. Verschiedene Typen konvergierender empirischer Evidenz untermauern die Annahme einer einzigen phonologisch relevanten Abstraktionsebene mit fünfzehn qualitativ unterschiedlichen Vollvokalen.
Notions such as “corpus-driven” versus “theory-driven” bring into focus the specific role of corpora in linguistic research. As for phonology with its intrinsic focus on abstract categorical representation, there is a question of how a strictly corpus-driven approach can yield insight into relevant structures. Here we argue for a more theory-driven approach to phonology based on the concept of a phonological grammar in terms of interacting constraints. Empirical validation of such grammars comes from the potential convergence of the evidence from various sources including typological data, neutralization patterns, and in particular patterns observed in the creative use of language such as acronym formation, loanword adaptation, poetry, and speech errors. Further empirical validation concerns specific predictions regarding phonetic differences among opposition members, paradigm uniformity effects, and phonetic implementation in given segmental and prosodic contexts. Corpora in the narrowest sense (i.e. “raw” data consisting of spontaneous speech produced in natural settings) are useful for testing these predictions, but even here, special purpose-built corpora are often necessary.
The relation between speed and curvature provides a characterization of the spatio-temporal orchestration of kinematic movements. For hand movements, this relation has been reported to follow a power law with exponent -1/3. The same power law has been claimed to govern articulatory movements. We studied the functional form of speed as predicted by curvature using electromagnetic articulography, focusing on three sensors: the tongue tip, the tongue body, and the lower lip. Of specific interest to us was the question of whether the speed-curvature relation is modified by articulatory practice, gauged with words’ frequencies of occurrence. Although analyses imposing linearity a priori indeed supported a power law, relaxation of this linearity assumption revealed that the effect of curvature on speed levels off substantially for lower values of curvature. A modification of the power law is proposed that takes this curvature into account. Furthermore, controlling statistically for number of phones and word duration, we observed that the speed-curvature function was further modulated by an interaction of lexical frequency by curvature, such that for increasing frequency, speed decreased slightly for low curvatures while it increased slightly for high curvatures. The modulation of the balance between speed and curvature by lexical frequency provides further evidence that the skill of articulation improves with practice on a word-to-word basis, and challenges theories of speech production.
Am Beispiel der polyfunktionalen Mehrworteinheit <was weiß ich> wird das Zusammenspiel von pragmatischer und phonetischer Ausdifferenzierung in Pragmatikalisierungsprozessen untersucht. Hierzu werden spontan-sprachliche Belege aus dem Korpus „Deutsch heute“ analysiert. Die beobachtete phonetische Variationsbreite deutet auf eine komplexe Beziehung zu den jeweiligen pragmatischen Funktionen hin.
In diesem Beitrag werden drei quantitative Studien vorgestellt, mit deren Hilfe untersucht wird, ob neben dem robusten Längenunterschied auch Qualitätsunterschiede für die deutschen <a>-Laute vorhanden sind (z.B. <Saat> versus <satt>). Auf Basis von ausgewählten Korpora und instrumentalphonetischen Messungen kann dieser Zusammenhang bestätigt werden. Zudem zeigen sich signifikante Unterschiede in den dynamischen
Verläufen der beiden Vokale.
We present evidence for the analysis of the vowels in English <say> and <so> as biphonemic diphthongs /ɛi/ and /əu/, based on neutralization patterns, regular alternations, and foot structure. /ɛi/ and /əu/ are hence structurally on a par with the so called “true diphthongs” /ɑi/, /ɐu/, /ɔi/, but also share prosodic organization with the monophthongs /i/ and /u/. The phonological evidence is supported by dynamic measurements based on the American English TIMIT database.
Calculations of F2-slopes proved to be especially suited to distinguish the relevant groups in accordance with their phonologically motivated prosodic organizations.
In order to determine priorities for the improvement of timing in synthetic speech this study looks at the role of segmental duration prediction and the role of phonological symbolic representation in listeners' preferences. In perception experiments using German speech synthesis, two standard duration models (Klatt rules and CART) were tested. The input to these models consisted of symbolic strings which were either derived from a database or a text-to-speech system. Results of the perception experiments show that different duration models can only be distinguished when the symbolic string is appropriate. Considering the relative importance of the symbolic representation, "post-lexical" segmental rules were investigated with the outcome that listeners differ in their preferences regarding the degree of segmental reduction. As a conclusion, before fine-tuning the duration prediction, it is important to calculate an appropriate phonological symbolic representation in order to improve timing in synthetic speech.
In this study we investigate the intonational characteristics of the four utterance types statement, wh-question, yes/no-question and declarative question. Readings of two German scripted dialogues were examined to ascertain characteristic features of the F0 contour for each utterance type. Final boundary tone, nuclear pitch accent, F0 offset, F0 onset, F0 range, and the slopes of a topline and a bottomline were determined for each utterance and compared for the four utterance types. Results show that for an average speaker, the final boundary tone, the F0 range, and the slope of the topline can be used to distinguish between the four utterance types. However, speakers may deviate from this pattern and exploit other intonational means to distinguish certain utterance types or choose not to mark a syntactic difference at all.
Wolfgang von Kempelen's book "The Mechanism of Human Speech" from 1791 is a famous milestone in the history of speech communication research. It has an enormous relevance for the phonetic sciences and it marks an important turning point for the development of the (mechanical) speech synthesis. So far no English version of this work was available, which excludes many interested researchers. Access to the original versions in German and French is restricted for various reasons. For example the blackletter script of the German version is troublesome for most of today's readers. We report here on a new edition of Kempelen's book which unites a better readable German version and its English translation. It will now also be in a searchable electronic format and has been enriched with many commentaries, which aid in the understanding of details of the late 18th century that are little known or unknown to many researchers today.
There are a number of recent replicas of Wolfgang von Kempelen's speaking machine. Although all of them are explicitly based on Kempelen's own description nearly none of them are identical in construction and sound. In this paper we want to illustrate some of these differences and their reasons for five replicas built by ourselves.
Das 18. Jahrhundert war wissenschaftlich von großen Umbrüchen geprägt, auch im Bereich der Anatomie und Physiologie des Menschen. Die hierauserwachsende lebhafte Diskussion erstreckte sich auch auf das noch sehr junge Gebiet der (mechanischen) Sprachsynthese und ihrer Grundlagen. Das Sprachsynthesekonzept Wolfgang von Kempelens (1734–1804) ist hierbei ein besonders eindrückliches Beispiel dafür, dass eine grundlegende wissenschaftliche Erkenntnis womöglich durch technologische Limitationen nicht notwendigerweise auch praktisch umgesetzt werden kann. Grundsätzlich waren Kempelens Erkenntnisse zur Anatomie und Physiologie des Menschen und damit auch zur Spracherzeugung weitestgehend zutreffend. Die praktische Umsetzung hingegen wirkt aus heutiger Sicht recht kurios. Kempelens Vokaltrakt-Konzept soll exemplarisch dem nur wenig früher entstandenen Prototypen zur Sprachsynthese Christian Gottlieb Kratzensteins (1723–1795) gegenübergestellt werden. Dessen „Erkenntnisse“ müssen heute vielfach als falsch bezeichnet werden; sein Modell zur Vokalsynthese weist einerseits auffällige Parallelen zu demjenigen KEMPELENS auf, geht hinsichtlich der Physiologie jedoch von vielfach irrigen Annahmen aus.
The Partitur Format at BAS
(1997)
Most spoken language resources are produced and disseminated together with symbolic information relating to the speech signal. These are for instance orthographic transcript labeling and segmentation on the phonologic phoneti prosodic phrasal level. Most of the known formats for these symbolic data are defined in a ‘closed form’ that is not fexible enough to allow simple and platform independent processing and easy extensions.
At the Bavarian Archive for Speech Signals (BAS) a new format has been developed and used over the last few years that shows some significant advantages over other existing formats. This paper describes the basic principles behind this format discusses briefly the advantages and gives detailed definitions of the description levels used so far.
This study investigates high vowel laxing in the Louisiana French of the Lafourche Basin. Unlike Canadian French, in which the high vowels /i, y, u/ are traditionally described as undergoing laxing (to [I, Y, U]) in word-final syllables closed by any consonant other than a voiced fricative (see Poliquin 2006), Oukada (1977) states that in the Louisiana French of Lafourche Parish, any coda consonant will trigger high vowel laxing of /i/; he excludes both /y/ and /u/ from his discussion of high vowel laxing. The current study analyzes tokens of /i, y, u/ from pre-recorded interviews with three older male speakers from Terrebonne Parish. We measured the first and second formants and duration for high vowel tokens produced in four phonetic environments, crossing syllable type (open vs. closed) by consonant type (voiced fricative vs. any consonant other than a voiced fricative). Results of the acoustic analysis show optional laxing for /i/ and /y/ and corroborate the finding that high vowels undergo laxing in word-final closed syllables, regardless of consonant type. Data for /u/ show that the results vary widely by speaker, with the dominant pattern (shown by two out of three speakers) that of lowering and backing in the vowel space of closed syllable tokens. Duration data prove inconclusive, likely due to the effects of stress. The formant data published here constitute the first acoustic description of high vowels for any variety of Louisiana French and lay the groundwork for future study on these endangered varieties.
This paper outlines the generation process of a specifi computational linguistic representation termed the Multilingual Time Map, conceptually a multi-tape finit state transducer encoding linguistic data at different levels of granularity. The fi st component acquires phonological data from syllable labeled speech data, the second component define feature profiles the third component generates feature hierarchies and augments the acquired data with the define feature profiles and the fourth component displays the Multilingual Time Map as a graph.
The perception of prosodic prominence is influenced by different sources like different acoustic cues, linguistic expectations and context. We use a generalized additive model and a random forest to model the perceived prominence on a corpus of spoken German. Both models are able to explain over 80% of the variance. While the random forests give us some insights on the relative importance of the cues, the general additive model gives us insights on the interaction between different cues to prominence.
A frequently replicated finding is that higher frequency words tend to be shorter and contain more strongly reduced vowels. However, little is known about potential differences in the articulatory gestures for high vs. low frequency words. The present study made use of electromagnetic articulography to investigate the production of two German vowels, [i] and [a], embedded in high and low frequency words. We found that word frequency differently affected the production of [i] and [a] at the temporal as well as the gestural level. Higher frequency of use predicted greater acoustic durations for long vowels; reduced durations for short vowels; articulatory trajectories with greater tongue height for [i] and more pronounced downward articulatory trajectories for [a]. These results show that the phonological contrast between short and long vowels is learned better with experience, and challenge both the Smooth Signal Redundancy Hypothesis and current theories of German phonology.
The current paper presents a corpus containing 35 dialogues of spontaneously spoken southern German, including half an hour of articulography for 13 of the speakers. Speakers were seated in separate recording chambers, mimicking a telephone call, and recorded on individual audio channels. The corpus provides manually corrected word boundaries and automatically aligned segment boundaries. Annotations are provided in the Praat format. In addition to audio recordings, speakers filled out a detailed questionnaire, assessing among others their audio-visual consumption habits.
The present study introduces articulography, the measurement of the position of tongue and lips during speech, as a promising method to the study of dialect variation. By using generalized additive modeling to analyze articulatory trajectories, we are able to reliably detect aggregate group differences, while simultaneously taking into account the individual variation across dozens of speakers. Our results on the basis of Dutch dialect data show clear differences between the southern and the northern dialect with respect to tongue position, with a more frontal tongue position in the dialect from Ubbergen (in the southern half of the Netherlands) than in the dialect of Ter Apel (in the northern half of the Netherlands). Thus articulography appears to be a suitable tool to investigate structural differences in pronunciation at the dialect level.