Sprache im 20. Jahrhundert. Gegenwartssprache
Refine
Year of publication
Document Type
- Part of a Book (24)
- Article (5)
- Conference Proceeding (4)
- Working Paper (3)
- Book (1)
- Doctoral Thesis (1)
- Other (1)
Has Fulltext
- yes (39)
Keywords
- Korpus <Linguistik> (39) (remove)
Publicationstate
- Veröffentlichungsversion (39) (remove)
Reviewstate
Publisher
- Narr (6)
- Institut für Deutsche Sprache (5)
- de Gruyter (5)
- Olms (3)
- Niemeyer (2)
- V&R unipress (2)
- BKA (1)
- CECL Papers 1 (1)
- European Language Resources Association (ELRA) (1)
- Europäische Akademie (1)
Vorwort
(2018)
The development of tools for computer-assisted transcription and analysis of extensive speech corpora is one main issue at the Institute of German Language (IDS) and the Institute of Natural Language Processing (IMS). Corpora of natural spoken dialogue have been transcribed, and the analogue recordings of these discourses are digitized. An automatic segmentation system is employed which is based on Hidden Markov Models. The orthographic representation of the speech signal is transformed into a phonetic representation, the phonetic transcription is transformed into a system-internal representation, and the time alignment between text and speech signal follows. In this article, we also describe the retrieval software Cosmas II and its special features for searching discourse transcripts and playing time aligned passages.
Valenz und Kookkurrenz
(2015)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Sprechen im Umbruch. Zeitzeugen erzählen und argumentieren rund um den Fall der Mauer im Wendekorpus
(2019)
Der Beitrag diskutiert linguistische Fragestellungen und Probleme, die sich aus dem Projekt "Gesamtdeutsche Korpusinitiative" ergeben. Ausgangspunkt der Überlegungen ist die Frage, welchen Nutzen das Wendekorpus als Kern und eine weiterzuführende Dokumentation der deutschen Gegenwartssprache für sprachwissenschaftliche Analysen bringen könnte. Im Zentrum der Untersuchungen steht das Spannungsverhältnis zwischen Kontinuität, Variation und wirklichem Wandel der Sprachverwendung. Dabei schließt sich an übergreifende, sich von Einzelphänomenen lösende Aussagen zur Sprache der Wende (Abschnitt I.) die exemplarische Vorführung von Kontinuität und Dynamik sprachlicher Strukturen an Textausschnitten aus dem Wendekorpus an (Abschnitt II.).
Olaf Scholz gendert. Eine Analyse von Personenbezeichnungen in Weihnachts- und Neujahrsansprachen
(2022)
Schlagzeilen wie die in unserer Überschrift blieben im Januar 2022 aus. Dabei enthielt die erste Neujahrsansprache von Olaf Scholz kein einziges generisches Maskulinum, sondern Doppelformen (Mitbürgerinnen und Mitbürger, Expertinnen und Experten), geschlechtsabstrahierende Ausdrücke (Eltern, Familien, Geimpfte, Menschen) und Personalisierungen bzw. Umschreibungen wie uns allen, es haben sich 60 Millionen […] impfen lassen, oder ich möchte allen danken. Die Rede nutzt somit durchgängig verschiedene Formen geschlechtergerechter Sprache, wohl aber so unauffällige Formen, dass dies keine mediale Aufmerksamkeit auf sich gezogen hat. Nebenbei: Dies zeigt, dass es bei den hitzigen öffentlichen Diskussionen rund um das Thema nicht um alle Formen geschlechtergerechter Sprache geht, sondern eigentlich nur um bestimmte Formen, wie z.B. die Verwendung des Gendersterns. Wir stellen hier einige Beobachtungen basierend auf einem annotierten Korpus von Ansprachen vor, die Sie selbst anhand einer Online-App nachvollziehen können.
Dieser Beitrag nimmt Bezug auf ein lexikologisches Arbeitsprojekt des Instituts für deutsche Sprache (Mannheim) und will einen Einblick in die Voraussetzungen und Ziele dieses Vorhabens sowie in die Arbeitsweise der Projektmitarbeiter geben. Dabei soll Aspekten der Korpus- und Computernutzung in den einzelnen Arbeitsetappen besondere Aufmerksamkeit gelten.
In der Geschichte der Sprachwissenschaft hat das Lexikon in unterschiedlichem Maße Aufmerksamkeit erfahren. In jüngerer Zeit ist es vor allem durch die Verfügbarkeit sprachlicher Massendaten und die Entwicklung von Methoden zu ihrer Analyse wieder stärker ins Zentrum des Interesses gerückt. Dies hat aber nicht nur unseren Blick für lexikalische Phänomene geschärft, sondern hat gegenwärtig auch einen profunden Einfluss auf die Entstehung neuer Sprachtheorien, beginnend bei Fragen nach der Natur lexikalischen Wissens bis hin zur Auflösung der Lexikon-Grammatik-Dichotomie. Das Institut für Deutsche Sprache hat diese Entwicklungen zum Anlass genommen, sein aktuelles Jahrbuch in Anknüpfung an die Jahrestagung 2017 – „Wortschätze: Dynamik, Muster, Komplexität“ – der Theorie des Lexikons und den Methoden seiner Erforschung zu widmen.
We present the annotation of information structure in the MULI project. To learn more about the information structuring means in prosody, syntax and discourse, theory- independent features were defined for each level. We describe the features and illustrate them on an example sentence. To investigate the interplay of features, the representation has to allow for inspecting all three layers at the same time. This is realised by a stand-off XML mark-up with the word as the basic unit. The theory-neutral XML stand-off annotation allows integrating this resource with other linguistic resources such as the Tiger Treebank for German or the Penn treebank for English.
We present an XML-based metadata standard for the documentation of speech and multimedia corpora that was developed at the Institute for German Language (IDS) in Mannheim, Germany. The IDS is one of the major institutions providing German speech and language corpora to researchers. These corpora stem from many different sources and were previously documented in a rather heterogeneous fashion using a variety of data models and formats. In order to unify the documentation for existing and future corpora, the IDS- internal Archive for Spoken German collaborated with several projects and developed a set of standardised XML metadata schemas. These XML schemas build on existing internal and external documentation schemas (such as IMDI) and take into account the workflow of speech corpus production. In order to minimise redundancy, separate schemas were designed for projects, speakers, recording sessions, and entire corpora. The resulting schemas are tested in ongoing speech and multi-media projects at the IDS and are regularly revised. They are accompanied by element definitions, guidelines, and examples. In addition, a mapping to IMDI will be provided.
All linguistics should be media linguistics, but it is not. This thesis is presented by using linguistic landscapes as an example. LL research does not belong to the traditional core of either mainstream linguis-tics or media linguistics. This is why not everything within power has been done yet to make full use of their thematic, conceptual and methodological possibilities. Visible signs in public space, however, are an everyday phenomenon. You have to pull out all the stops to research them extensively. The distinction between linguistics and media linguistics turns out to be counterproductive. But this does not only apply to the case of linguistic landscapes. It also stands for any comprehensive investigation of language and language use. (Ex-ceptions may be very narrow questions for specific purposes.) The above thoughts are supported by a database of the project „Metro-polenzeichen“ with more than 25.000 systematically collected, ge-ocoded and tagged photographs.