Refine
Year of publication
- 2016 (38) (remove)
Document Type
- Conference Proceeding (17)
- Article (8)
- Part of a Book (6)
- Book (3)
- Working Paper (3)
- Part of Periodical (1)
Is part of the Bibliography
- no (38) (remove)
Keywords
- Korpus <Linguistik> (38) (remove)
Publicationstate
- Veröffentlichungsversion (26)
- Zweitveröffentlichung (3)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (13)
- Peer-Review (13)
- Peer-Revied (1)
Publisher
- Nisaba (4)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (3)
- Institut für Deutsche Sprache (3)
- Winter (3)
- European Language Resources Association (2)
- European Language Resources Association (ELRA) (2)
- Academic Publishing Division of the Faculty of Arts of the University of Ljubljana (1)
- Amsterdam [u.a.] (1)
- Austrian Centre for Digital Humanities, Austrian Academy of Sciences (1)
- CLARIN (1)
The current paper presents a corpus containing 35 dialogues of spontaneously spoken southern German, including half an hour of articulography for 13 of the speakers. Speakers were seated in separate recording chambers, mimicking a telephone call, and recorded on individual audio channels. The corpus provides manually corrected word boundaries and automatically aligned segment boundaries. Annotations are provided in the Praat format. In addition to audio recordings, speakers filled out a detailed questionnaire, assessing among others their audio-visual consumption habits.
The IFCASL corpus is a French-German bilingual phonetic learner corpus designed, recorded and annotated in a project on individualized feedback in computer-assisted spoken language learning. The motivation for setting up this corpus was that there is no phonetically annotated and segmented corpus for this language pair of comparable of size and coverage. In contrast to most learner corpora, the IFCASL corpus incorporate data for a language pair in both directions, i.e. in our case French learners of German, and German learners of French. In addition, the corpus is complemented by two sub-corpora of native speech by the same speakers. The corpus provides spoken data by about 100 speakers with comparable productions, annotated and segmented on the word and the phone level, with more than 50% manually corrected data. The paper reports on inter-annotator agreement and the optimization of the acoustic models for forced speech-text alignment in exercises for computer-assisted pronunciation training. Example studies based on the corpus data with a phonetic focus include topics such as the realization of /h/ and glottal stop, final devoicing of obstruents, vowel quantity and quality, pitch range, and tempo.
Dieser Beitrag stellt nach einer kurzen allgemeinen Einführung die Datenbank für Gesprochenes Deutsch (DGD) und das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente speziell für gesprächsanalytisches Arbeiten vor. Anhand des Beispiels sprich als Diskursmarker für Reformulierungen werden Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen illustriert: Nutzungsmöglichkeiten der Token-, Kontext-, Metadaten- und Positionssuche werden gezeigt, jeweils in Bezug auf und im wechselseitigen Verhältnis mit qualitativen Fallanalysen, auch mit Belegannotationen nach analyserelevanten (strukturellen und funktionalen) Kategorien. Schließlich wird das heißt als weiterer Reformulierungsindikator für eine vergleichende Analyse herangezogen. Dieser Beitrag stellt eine detailliertere Ausarbeitung einer kürzeren, eher technisch-didaktischen Online-Handreichung (Kaiser/ Schmidt 2016) zu diesem Thema dar, und hat einen stärker inhaltlich-analytischen Fokus.
Names in competition: A corpus-based quantitative investigation into the use of colonial place names
(2016)
Referentially equivalent toponyms occur very often in colonial and postcolonial contexts. These names are in competition, and this competition is reflected in language use and in changing frequencies of use in large corpora. The main theoretical and methodological assumption of this paper is that corpus frequencies of referentially equivalent toponyms change according to particular patterns, and that the Google Ngram Corpora and Google Ngram Viewers can be used to detect these patterns. The aims of this paper are twofold: firstly, a corpus-linguistic method for investigations into the use of names will be presented, applied, and critically evaluated; secondly, it will be shown that the correlation between patterns of frequency changes and patterns of socio-historical colonial and postcolonial events gives rise to cross-linguistic generalizations, for example, that an increase in public interest in a place strongly promotes one of the referenlially equivalent names, or that in renaming scenarios colonial toponyms in relation to new toponyms remain in stronger use in the language of the former colonial power than in languages of other colonial powers.
KorAP is a corpus search and analysis platform, developed at the Institute for the German Language (IDS). It supports very large corpora with multiple annotation layers, multiple query languages, and complex licensing scenarios. KorAP’s design aims to be scalable, flexible, and sustainable to serve the German Reference Corpus DEREKO for at least the next decade. To meet these requirements, we have adopted a highly modular microservice-based architecture. This paper outlines our approach: An architecture consisting of small components that are easy to extend, replace, and maintain. The components include a search backend, a user and corpus license management system, and a web-based user frontend. We also describe a general corpus query protocol used by all microservices for internal communications. KorAP is open source, licensed under BSD-2, and available on GitHub.
Kookkurrenzen (zum Beispiel ‘Beziehungen pflegen’ oder ‘wirtschaftlich bankrott’) gehören zum zentralen Gegenstand jeder korpusanalytischen Studie. Als Wortverbindungen sind sie Einheiten, die unter bestimmten kontextuellen Voraussetzungen zustande kommen und die wichtige Funktionen im Syntagma, Satz oder Text aufweisen. Kookkurrenzen stellen den systematischen Zugang zur Erfassung von Bedeutung, Funktionen sowie von konventionalisierten Mustern dar. Ihre Relevanz wird auch zunehmend in kultur- und politikwissenschaftlich und in kognitiv orientierten Wissenschaftsbereichen anerkannt.
Mit diesem Band wird Fachliteratur zu zentralen Bereichen und Themen zusammengefasst, bei denen korpusanalytische Verfahren zur Untersuchung typischer Wortkombinationen im Mittelpunkt stehen. Dazu zählen neben Überblicksliteratur und allgemeinen Einführungen auch interessante Einzelstudien, die mit diversen Korpusansätzen arbeiten, sowie weiterführende Links und Materialsammlungen. Dieser Band bildet insbesondere die Themenschwerpunkte ab, die gegenwärtig viel Aufmerksamkeit erhalten.