Refine
Year of publication
- 2020 (357) (remove)
Document Type
- Part of a Book (139)
- Article (124)
- Conference Proceeding (29)
- Book (17)
- Other (15)
- Part of Periodical (15)
- Review (12)
- Doctoral Thesis (2)
- Working Paper (2)
- Master's Thesis (1)
Language
- German (252)
- English (101)
- French (2)
- Multiple languages (2)
Keywords
- Deutsch (95)
- Korpus <Linguistik> (64)
- COVID-19 (44)
- Sprachgebrauch (41)
- Neologismus (30)
- Forschungsdaten (25)
- Gesprochene Sprache (24)
- Grammatik (23)
- Mundart (23)
- Wortschatz (21)
Publicationstate
- Veröffentlichungsversion (169)
- Zweitveröffentlichung (137)
- Postprint (19)
- Ahead of Print (2)
Reviewstate
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (77)
- Narr Francke Attempto (44)
- de Gruyter (43)
- European Language Resources Association (19)
- Erich Schmidt (10)
- CLARIN (6)
- Gesellschaft für deutsche Sprache e.V. (6)
- Heidelberg University Publishing (6)
- Spektrum der Wissenschaft Verlagsgesellschaft (5)
- Association for Computational Linguistics (4)
Wie wirkt sich das Schreiben kürzerer Texte in interaktionsorienterter Online-Kommunikation langfristig auf das Schreiben und die Qualität monologischer Texte aus? Auf diese Frage geht der Beitrag ein und präsentiert dazu empirische Daten aus einer Korpus-Vergleichsstudie, in der die Verwendung ausgewählter Konnektoren in einem Facebook-Korpus quantitativ und qualitativ analysiert und mit der Verwendung in dialogischen Texten von Wikipedia-Diskussionsseiten einerseits und in monologischen Texten wie Zeitungskommentaren und Schulertexten anderseits verglichen wurde. Die Analysen fokussieren darauf, wie Konnektoren in Online-Texten eingesetzt werden, ob sich spezifische Online-Verwendungen etablieren und ob „Spuren“ typischer Online-Verwendungen auch in normgebundener Umgebung nachweisbar sind.
Heute wird mehr geschrieben als je zuvor und die digitale Kommunikation trägt wesentlich dazu bei; ein großer Teil des heutigen Schreibens ist dialogisches Schreiben im Alltag. Konsequenterweise wird die Online-Kommunikation zunehmend Thema in Bildungskontexten und in der Deutschdidaktik. Offen ist aber weiterhin, wie Texte des interaktionsorientierten Schreibens bewertet werden sollen, die sich von solchen des textorientierten Schreibens in vielerlei Hinsicht unterscheiden können. Während es für textorientiertes Schreiben Normen gibt, die in Sprachkodizes erfasst sind, ist es nicht klar, was der Bezugspunkt für interaktionsorientierte Texte sein könnte. In diesem Beitrag analysieren wir die Verwendung von Konnektoren in der Online-Kommunikation und die Repräsentation von online-spezifischen Besonderheiten in Sprachressourcen. Die Ergebnisse zeigen, dass spezifische Online-Verwendungsweisen von Konnektoren in Sprachkodizes kaum berücksichtigt und beschrieben werden.
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.
Die sprachliche Situation im Kanton Graubünden, wo eine Vielzahl von italienischen, romanischen und deutschen Varietäten in lang andauerndem Kontakt stehen, ist bisher nur wenig beschrieben, eine wahrnehmungslinguistische Untersuchung steht noch ganz aus. Ausgehend von der Annahme, dass Salienz abhängig vom eigenen sprachlichen System und vom Sprecherwissen ist, wurde ein Experiment konzipiert, bei dem Hörer aus Graubünden und Zürich Aufnahmen aus drei Bündner Orten, in denen Rätoromanisch und Deutsch in unterschiedlichen Kontaktverhältnissen stehen, hören und kommentieren sollten. Dabei konnte gezeigt werden, dass Bündner aufgrund ihres Sprecherwissens über die Variation in Graubünden andere Merkmale wahrgenommen und die Aufnahmen anders charakterisiert haben als Zürcher.
The annual microcensus provides Germany’s most important official statistics. Unlike a census it does not cover the whole population, but a representative 1%-sample of it. In 2017, the German microcensus asked a question on the language of the population, i.e. ‘Which language is mainly spoken in your household?’ Unfortunately, the question, its design and its position within the whole microcensus’ questionnaire feature several shortcomings. The main shortcoming is that multilingual repertoires cannot be captured by it. Recommendations for the improvement of the microcensus’ language question: first and foremost the question (i.e. its wording, design, and answer options) should make it possible to count multilingual repertoires.
Studenten, StudentInnen, Studierende? Aktuelle Verwendungspräferenzen bei Personenbezeichnungen
(2020)
Im Beitrag werden Meinungen und Einstellungen zur geschlechtergerechten Sprache dargestellt. Dazu werden verschiedene Möglichkeiten für die Bezeichnung von Personen, die studieren, in den Blick genommen. Diese werden zunächst beschrieben und ihre Frequenzen im Deutschen Referenzkorpus ausgewertet. Anschließend werden explizit die Meinungen und Einstellungen behandelt. Dafür werden die Daten der Deutschland-Erhebung 2008 und der Deutschland-Erhebung 2017 ausgewertet. In der aktuellen Erhebung wurden laienlinguistische Verwendungspräferenzen von Personenbezeichnungen erhoben; präferiert wird von den meisten Befragten die Partizipialform (den Studierenden). Die Verwendungspräferenzen hangen vor allem mit dem Alter der Befragten und ihrer politischen Orientierung zusammen. Insgesamt zeigt sich jedoch, dass das Thema der geschlechtergerechten Sprache für die meisten Befragten nur eine untergeordnete Rolle spielt.
In diesem Beitrag werden neue, repräsentative Daten zur arealen Variation in Deutschland vorgestellt, die das Leibniz-Institut für Deutsche Sprache im Rahmen der Innovationsstichprobe des Sozio-ökonomischen Panels (SOEP) des Deutschen Instituts für Wirtschaftsforschung (DIW) in der Befragungsrunde 2017/2018 erhoben hat. Zum einen wurde die Dialektkompetenz abgefragt; überindividuell zeigt sich hier das bekannte Nord-Süd-Gefälle, beim individuellen Grad der Kompetenz der Dialektsprecher gibt es aber regional nur geringe Unterschiede. Zum anderen wurden die Bewertungen von Dialekten erhoben; hier werden Norddeutsch und Bayerisch besonders positiv, Sächsisch hingegen besonders negativ bewertet, wobei regionale Muster eine Rolle spielen. Auffällig ist ferner die bundesweit sehr einheitlich positive Bewertung des Hochdeutschen.
Die Sprache in Sozialen Medien zeigt auf allen Ebenen eine hohe Variabilität und wurde daher als eine Mischung verschiedener Register (Tagliamonte/Denis 2008) analysiert, die sowohl informelle als auch formelle Formen umfassen. Im Gegensatz zu herkömmlichen schriftlichen Medien, wie z.B. Zeitungstexten, sind Soziale Medien wie Chat, Twitter, Forumsdiskussionen, Facebook oder Blogs für diverse Autor/innen zugänglich, sind spontaner, und unterliegen weniger den sprachlichen Standards. Ein Teil der in diesen Kommunikationskanälen gefundenen Variabilität wird häufig auf Fehler zurückgeführt, es gibt jedoch viele Phänomene, die eigenen Regeln folgen. In Bezug auf das Kontinuum von konzeptueller/medialer Mündlichkeit/Schriftlichkeit (Koch/Oesterreicher 1985) befinden sich die meisten Social-Media-Beitrage in der Mitte des konzeptuellen Oralitätskontinuums, obwohl deren genaue Position bisher weitgehend unbestimmt ist. Soweit Nicht-Standard-Merkmale untersucht wurden, wurde meist die Orthographie, Morphologie, das Lexikon und die Syntax (z.B. Abkürzungen, Emoticons, Ellipsis) berücksichtigt.
Im Gegensatz dazu wählen wir einen pragmatischen, diskursorientierten Standpunkt: Welche Diskursstrategien wählen Sprecher/innen in Sozialen Medien und wie unterscheiden sich diese von bisher untersuchten Medienformen?
Preface
(2020)
Der Beitrag diskutiert Interpunktion als ein Teilsystem des Deutschen, an dem das Verhältnis zwischen Sprachwandel und dem gesamtgesellschaftlichen Wandelprozess der Digitalisierung besonders gut ablesbar ist. Der Gebrauch von Interpunktionszeichen im interaktionsorientierten digitalen Schreiben ist gekennzeichnet durch eine distributive Umstrukturierung des Interpunktionsinventars sowie durch Prozesse der Pragmatikalisierung, Syntaktisierung und Ikonizität, die verschiedene Satzzeichen betreffen. In der privaten und öffentlichen metasprachlichen Reflexion zeigen sich eine nicht-binäre Wahrnehmung digitaler Interpunktion und eine Registrierung einzelner Interpunktionspraktiken mit sozialen Gruppen. Die Verlagerung interpersonaler Kommunikation auf digitale Schriftlichkeit führt insgesamt zu einer Ausfächerung des interaktionalen Umgangs mit Interpunktion und zur Herausbildung domänenspezifischer Interpunktionsstile.
In diesem Beitrag stellen wir die Ergebnisse einer Studie über die Intonation von Frageaktivitäten in deutschen Alltagsgesprächen vor. Unsere Untersuchung erforscht, inwieweit die Intonation zur Kontextualisierung von konversationellen Fragen beiträgt. In der Analyse stützen wir uns auf das autosegmental-metrische Modell von Peters und das taxonomische Modell der interaktionalen Prosodieforschung von Selting. Diese Modelle beschreiben jeweils phonologische oder pragmatische Aspekte der Frageintonation, zwei Dimensionen, die für sich genommen, keine vollständige Beschreibung liefern können. Auf der Grundlage authentischer Gesprächsdaten aus dem Korpus FOLK argumentieren wir für die Kompatibilität des autosegmental-metrischen Modells von Peters und des taxonomischen Modells der Frageintonation von Selting. Die Merkmale aus beiden Modellen lassen sich zu Bündeln kombinieren, die es erlauben, die Intonation von Fragen zu erfassen.
This paper presents the QUEST project and describes concepts and tools that are being developed within its framework. The goal of the project is to establish quality criteria and curation criteria for annotated audiovisual language data. Building on existing resources developed by the participating institutions earlier, QUEST develops tools that could be used to facilitate and verify adherence to these criteria. An important focus of the project is making these tools accessible for researchers without substantial technical background and helping them produce high-quality data. The main tools we intend to provide are the depositors’ questionnaire and automatic quality assurance, both developed as web applications. They are accompanied by a Knowledge base, which will contain recommendations and descriptions of best practices established in the course of the project. Conceptually, we split linguistic data into three resource classes (data deposits, collections and corpora). The class of a resource defines the strictness of the quality assurance it should undergo. This division is introduced so that too strict quality criteria do not prevent researchers from depositing their data.
Der Beitrag bespricht in Abgrenzung zum vorherrschenden onomasiologischen Paradigma der Terminologielehre die Vor- und Nachteile einer semasiologischen Terminologiearbeit und -modelierung. Hierbei wird davon ausgegeangen, dass terminologische Einheiten diskursiv konstituiert werden und dass aus einer relationalen Beschreibung semasiologisch verstandener terminologischer Einheiten eine begriffsorientierte Beschreibung emergent hervorgeht. Zu diesem Zweck empfiehlt der Beitrag ein Prinzip der Zeichenorientierung, mit dem zudem die theoretische Beschreibung von terminologiestrukturierenden Beziehungstypen vereinheitlicht werden kann.
The CMDI Explorer
(2020)
We present the CMDI Explorer, a tool that empowers users to easily explore the contents of complex CMDI records and to process selected parts of them with little effort. The tool allows users, for instance, to analyse virtual collections represented by CMDI records, and to send collection items to other CLARIN services such as the Switchboard for subsequent processing. The CMDI Explorer hence adds functionality that many users felt was lacking from the CLARIN tool space.
This technology watch report discusses digital repository solutions, in the context of the research infrastructure projects CLARIAH-DE, CLARIN, and DARIAH. It provides an overview of different repository systems, comparing them and discussing their respective applicabilities from the perspectives of the project partners at the time of writing.
This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources, especially where objects can be part of multiple releases but also part of different collections, and (3) the conversion of data to new formats for digital preservation. It is motivated why language resources may have to be changed, and why formats may need to be converted. As a solution, the use of an intermediate proxy object called a signpost is suggested. The approach will be exemplified with respect to the corpora of the Leibniz Institute for the German Language in Mannheim, namely the German Reference Corpus (DeReKo) and the Archive for Spoken German (AGD).
Signposts for CLARIN
(2020)
An implementation of CMDI-based signposts and its use is presented in this paper. Arnold et al. 2020 present Signposts as a solution to challenges in long-term preservation of corpora, especially corpora that are continuously extended and subject to modification, e.g., due to legal injunctions, but also may overlap with respect to constituents, and may be subject to migrations to new data formats. We describe the contribution Signposts can make to the CLARIN infrastructure and document the design for the CMDI profile.
Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestutzt. Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsachlich realisiert wird. Zu diesem Zweck bieten wir auf der DWDS-Plattform neben den zeitlich und nach Textsorten ausgewogenen Kernkorpora und den Zeitungskorpora eine Reihe von Spezialkorpora an, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora.
When humans have a conversation with one-another, they generally take turns speaking one after the other without overlapping each others talk or leaving silence between turns for long stretches of time. Previous research has shown that conversation is a structured practice following rules that help interlocutors to manage the flow of conversation interactively. While at the beginning of a conversation it remains open who will speak when about what and for how long, interlocutors regulate the flow of conversation as it unfolds. One basic set of rules that interlocutors operate with governs the allocation of speaking turns, with the central rule stating that whoever starts speaking first at a point in time when speaker change becomes relevant has the rights and obligations to produce the next turn. The organization of turn allocation, therefore, is one reason for conversational turn taking to be so remarkably fast, with the beginnings of turns most often being quite accurately aligned with the ends of the previous turns. Observations of this outstanding speed of turn taking gave rise to a number of questions concerning language processing in conversational situations. The studies presented in this thesis investigate some of these questions from the perspective of the current listener preparing to be the next speaker who will respond to the current turn.
The study presented in Chapter 2 investigates when next speakers begin to plan their own turn with respect to two points in time, (i) the moment when the incoming turn’s message becomes clear enough to make response planning possible and (ii) the moment when the incoming turn terminates. Results of previous studies were inconclusive about the timing of language planning in conversation, with evidence in favour of both late and early response planning. Furthermore, previous studies presented both evidence as well as counter evidence indicating that response planning depends or does not depend on an accurate prediction of the timing of the incoming turn’s end. The study presented here makes use of a novel experimental paradigm which includes a dialogic task that participants need to fulfil in response to critical utterances by a confederate. These critical utterances were structured, on the one hand, so that their message became clear either only at the end of the turn or before the end of the turn, and, on the other hand, so that it was either predictable or not predictable when exactly the turn would end. Participant’s eye-movements as well as their response latencies indicated that they always planned their next turn as early as possible, irrespective of the predictability of the incoming turn’s end. The presented results provide evidence in favour of models of turn taking that predict speech planning to happen in overlap with the incoming turn.
Having established that next speakers begin to plan their turn in overlap, the study presented in Chapter 3 goes more into detail investigating to which depth language planning progresses while the incoming turn is still unfolding. To this end, a number of psycholinguistic paradigms were combined. In the study’s main experiment, participants had to fulfil a switch-task in which they switched from picture naming in response to an auditorily presented question to making a lexical decision. By manipulating the relatedness of the word for lexical decision with the picture that was prepared to be named before the task-switch it was possible to draw inferences on which processing stages were entered during the speech production process in overlap with the incoming turn. Participants’ behavioural responses in the lexical decision task revealed that they entered the stage of phonological encoding while the incoming turn was still unfolding, showing that planning in overlap is not limited to conceptual preparation but includes all sub-processes of formulation.
Given that speech production regularly enters the stages of formulation in overlap with the incoming turn, as shown in Chapters 2 and 3, the question arises whether planning the next turn in overlap is cognitively more demanding than during the gap between turns. This question is approached in the study presented in Chapter 4 by measuring pupillometric responses of participants in a dialogic task. An increase in pupil diameter during a cognitive task is indicative of increased processing load, and pupillometric responses to planning in overlap with the incoming turn were found to be greater than responses to planning in the gap between turns. These results show that planning in overlap is more demanding than planning during the gap, even though it is highly practiced by speakers.
After Chapters 2 to 4 investigated the timing and mechanisms of speech planning in conversation, Chapter 5 turns towards the timing of articulation of a planned turn, asking the question what sources of information next speakers use to time the articulation of a planned utterance to start closely after the incoming turn comes to an end. In this Chapter’s study, participants taking turns with a confederate responded to utterances containing or not containing different cues to the location of the incoming turn’s end. Participants made use of lexical and turn-final intonational cues, but not of turn-initial intonational cues, responding faster when the relevant cues were present than when they were not present. These results show that the timing of turn initiation in next speakers depends on the recognition of the incoming turn’s point of completion and not merely on the progress in planning the next turn.
All evidence presented in Chapters 2 to 5 is summed up and bundled together in a cognitive model of turn taking, which is being presented in Chapter 6. This model assumes, centrally, that the planning of a turn and the timing of its articulation are separate cognitive processes that run in parallel in any next speaker during conversation. Planning generally starts as early as possible, often in overlap with the incoming turn, while the timing of articulation depends on the next speaker’s level of certainty that speaker change has become relevant at a particular moment, with a number of cues to the end of the incoming turn leading to an increase of certainty. Next turns are assumed to often be planned down to fully formulated utterance plans including their phonological form as early as possible on the basis of anticipations of the incoming turn’s message, which are created with the help of the general and situational knowledge about the world, the current speaker and her intentions, as well as the input that has been received so far. The level of certainty that speaker change becomes relevant rises or decreases as lexico-syntactic, prosodic, and pragmatic projections about the development of the current turn are fulfilled or not fulfilled. As the incoming turn progresses towards its end as was projected by the current listener, he becomes certain that speaker change becomes relevant and will initiate articulation of the prepared next turn. Viewing these two processes, planning a next turn and timing of its articulation, as separate makes it possible to explain the observable fast timing of turn taking while still modelling the allocation of turns as interactionally managed by interlocutors — a considerable advantage of the presented model compared to more traditional perspectives on turn taking and conversation.
To ensure short gaps between turns in conversation, next speakers regularly start planning their utterance in overlap with the incoming turn. Three experiments investigate which stages of utterance planning are executed in overlap. E1 establishes effects of associative and phonological relatedness of pictures and words in a switch-task from picture naming to lexical decision. E2 focuses on effects of phonological relatedness and investigates potential shifts in the time-course of production planning during background speech. E3 required participants to verbally answer questions as a base task. In critical trials, however, participants switched to visual lexical decision just after they began planning their answer. The task-switch was time-locked to participants' gaze for response planning. Results show that word form encoding is done as early as possible and not postponed until the end of the incoming turn. Hence, planning a response during the incoming turn is executed at least until word form activation.
Der Beitrag behandelt die Frage, wie sich das spezifisch Neue internetbasierter Kommunikation unter linguistischer Perspektive fassen und in Traditionen des sprachlichen Handelns einordnen lässt. Es wird gezeigt, dass sich die internetbasierte Kommunikation weder als Interaktion noch als Textkommunikation hinreichend beschreiben lasst, zugleich aber Merkmale mit beiden Formen teilt. Mit dem Konzept der Textformen-basierten Interaktion wird ein Vorschlag formuliert, wie dieses Dilemma aufgelöst werden kann: Das Innovationspotenzial internetbasierter Kommunikationstechnologien liegt gerade darin, dass diese durch Indienstnahme von Textformen die Möglichkeiten von Interaktion erweitern. Das hat einerseits Konsequenzen fur die linguistische Analyse und lässt sich andererseits fruchtbar machen fur die Entwicklung von Standards fur die Repräsentation von Korpora.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019.
Historiquement, les variétés germaniques de la Moselle-Est (ancienne région Lorraine) font partie du continuum dialectal de l’allemand. Après la Seconde Guerre mondiale, leur utilisation (y compris celle de l’allemand standard) a été fortement réprimée et la francisation résolument poursuivie. Depuis quelques décennies maintenant, des efforts ont été faits pour élever les dialectes de la Moselle-Est au statut de langue indépendante afin de marquer une distance par rapport à la langue allemande, de permettre leur identification et de pouvoir les réutiliser. Le paysage linguistique donne une bonne indication de la manière dont coexistent les différents groupes linguistiques et une indication sur le statut de leurs langues. Dans le cadre d’une analyse qualitative, les contextes d’apparition, les fonctions et les auteurs des éléments linguistiques visibles dans l’espace public en allemand standard et dialectal seront discutés pour la Moselle-Est. Il s’avère qu’ils constituent des exceptions notables, distribuées de manière significative. L’allemand (standard) apparaît dans les inscriptions historiques ainsi que dans le domaine des relations internationales, et est donc implicitement exogénéisé. En revanche, on trouve le dialecte (appelé « platt ») dans des contextes ayant des références locales et portant sur des aspects identitaires.
Le bilinguisme en Moselle-Est. Un projet de documentation linguistique de la situation actuelle.
(2020)
Qui parle aujourd'hui quelle langue avec qui et à quelle occasion? Quelles idées les habitants de la Moselle germanophone associent-ils aux dialectes et aux langues? Comment le Platt lorrain est-il transmis? à quoi cela ressemble-t-il dans les différents coins de la Moselle ? Pour répondre à ces questions, le Leibniz- Institut für Deutsche Sprache (IDS) a lancé un projet de documentation sonore pour la recherche linguistique.
Die diesjährige Jahrestagung des Leibniz-Instituts für Deutsche Sprache in Mannheim mit dem Titel „Deutsch in Europa“ zielte auf eine Perspektivenerweiterung ab. In zwölf Fachvorträgen, neun Projektvorstellungen im Rahmen einer Methodenmesse und einer Podiumsdiskussion wurden sprachpolitische, grammatische und methodische Aspekte des sprachlichen Nebeneinanders in Europa, des Sprachvergleichs und des Deutscherwerbs diskutiert.
Einleitung
(2020)
As immigration and mobility increases, so do interactions between people from different linguistic backgrounds. Yet while linguistic diversity offers many benefits, it also comes with a number of challenges. In seven empirical articles and one commentary, this Special Issue addresses some of the most significant language challenges facing researchers in the 21st century: the power language has to form and perpetuate stereotypes, the contribution language makes to intersectional identities, and the role of language in shaping intergroup relations. By presenting work that aims to shed light on some of these issues, the goal of this Special Issue is to (a) highlight language as integral to social processes and (b) inspire researchers to address the challenges we face. To keep pace with the world’s constantly evolving linguistic landscape, it is essential that we make progress toward harnessing language’s power in ways that benefit 21st century globalized societies.
Linguistic Variation and Change in 250 Years of English Scientific Writing: A Data-Driven Approach
(2020)
We trace the evolution of Scientific English through the Late Modern period to modern time on the basis of a comprehensive corpus composed of the Transactions and Proceedings of the Royal Society of London, the first and longest-running English scientific journal established in 1665. Specifically, we explore the linguistic imprints of specialization and diversification in the science domain which accumulate in the formation of “scientific language” and field-specific sublanguages/registers (chemistry, biology etc.). We pursue an exploratory, data-driven approach using state-of-the-art computational language models and combine them with selected information-theoretic measures (entropy, relative entropy) for comparing models along relevant dimensions of variation (time, register). Focusing on selected linguistic variables (lexis, grammar), we show how we deploy computational language models for capturing linguistic variation and change and discuss benefits and limitations.
Sogenannte „Pragmatikalisierte Mehrworteinheiten“ sind im Deutschen hochfrequent und unterliegen bisweilen tiefgreifenden phonetischen Reduktionsprozessen. Diese können Realisierungsvarianten hervorbringen, die in der Rückschau auf mehr als eine lexematische Ursprungsform zurückführbar sind. Die vorliegende Studie untersucht mit [ˈzɐmɐ] einen besonders prägnanten Fall dieser Art anhand eines Perzeptionsexperimentes.
affiziertes Objekt
(2020)
Effiziertes Objekt
(2020)
This chapter focuses on the formation of adverbs from a corpuslinguistic perspective, providing an overview of adverb formation patterns in German that includes frequencies and hints to productivity as well as combining quantitative methods and theoretically founded hypotheses to address questions that concern possible grammaticalization paths in domains that are formally marked by prepositional elements or inflectional morphology (in particular, superlative or superlative-derived forms). Within our collection of adverb types from the project corpus, special attention is paid to adverbs built from primary prepositions. The data suggest that generally, such adverb formation involves the saturation of the internal argument slot of the relation-denoting preposition. In morphologically regular formations with the preposition in final position, pronominal forms like da ‘there’, hier ‘here’, wo ‘where’ as well as hin ‘hither’ and her ‘thither’ serve to derive adverbs. On the other hand, morphologically irregular formations with the preposition – in particular: zu ‘to’ or vor ‘before, in front of’ – in initial posi-tion show traits of syntactic origin such as (remnants of) inflectional morphology. The pertaining adverb type dominantly saturates the internal argument slot by means of universal quantification that is part and parcel as well of the derivation of superlatives and demonstrably fuels the productivity of the pertaining formation pattern.
Corpus REDEWIEDERGABE
(2020)
This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.
Die vorgestellte Studie untersucht die Anteile unterschiedlicher Redewiedergabeformen im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur – definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen – und Heftromanen, massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden und früher abwertend als „Romane der Unterschicht” (Nusser 1981) bezeichnet wurden. Unsere These ist, dass sich diese Literaturtypen hinsichtlich ihrer Erzählweise unterscheiden, und sich dies in den verwendeten Wiedergabeformen niederschlägt. Der Fokus der Untersuchung liegt auf der Dichotomie zwischen direkter und nicht-direkter Wiedergabe, die schon in der klassischen Rhetorik aufgemacht wurde.
We present recognizers for four very different types of speech, thought and writing representation (STWR) for German texts. The implementation is based on deep learning with two different customized contextual embeddings, namely FLAIR embeddings and BERT embeddings. This paper gives an evaluation of our recognizers with a particular focus on the differences in performance we observed between those two embeddings. FLAIR performed best for direct STWR (F1=0.85), BERT for indirect (F1=0.76) and free indirect (F1=0.59) STWR. For reported STWR, the comparison was inconclusive, but BERT gave the best average results and best individual model (F1=0.60). Our best recognizers, our customized language embeddings and most of our test and training data are freely available and can be found via www.redewiedergabe.de or at github.com/redewiedergabe.
Die Sozialen Medien haben sich zunehmend zu einem Raum öffentlicher Meinungsbildung entwickelt. Die öffentliche Diskussion um Hass-Kommentare im Internet macht deutlich, dass Soziale Medien über die epistemische Dimension rationaler Diskurse hinaus emotionalisierte, strategische und identitätsorientierte Diskurse begünstigen, die das deliberative Paradigma öffentlicher Meinungsbildung und die Prinzipien politischer Rationalität und logischen Argumentierens in Frage stellen. Der Beitrag untersucht am Beispiel der drei Plattformen Facebook, Twitter und Youtube den Zusammenhang von Plattformlogik und Interaktionsstrukturen mit einem Schwerpunkt auf den Diskurspraktiken des Emotionalisierens. Es wird auch die Frage geklärt, inwiefern die vorhandenen Ansätze der Konversations- und Dialoganalyse auf Interaktionen in Sozialen Medien anwendbar sind.
Dialekt und Regiolekt in der politischen Kommunikation: Code-Switching, -Mixing und -Shifting
(2020)
Politische Kommunikation erfolgt in Bayern im Kontinuum zwischen Standardsprache, Regiolekt und Basisdialekt. Dieser Wechsel zwischen den Sprechlagen in der bayerischen Kommunalpolitik ist Gegenstand dieses Beitrags. Das zugrundeliegende Korpus besteht aus Aufzeichnungen von Stadtratssitzungen in zwei Kleinstädten im mittelbairischen Dialektgebiet Niederbayerns. Dieser Beitrag will die im Untersuchungsmaterial festgestellten Wechselphänomene des Code-Switching, -Mixing und -Shifting anhand der sprecherinternen (interindividuellen) Schwankungen des Abstands zur Standardsprache sowohl phonetisch, als auch unter Berücksichtigung der innersprachlichen Ebenen Lexik, Morphologie und Syntax sowie unter dem Aspekt der Sprecherstrategien untersuchen.
Türkisch in Deutschland
(2020)
Der Einfluss extremistischer Gewaltereignisse auf das Framing von Extremismus in Online-Medien
(2020)
In diesem Beitrag untersuchen wir die Darstellung von Rechtsextremismus, Linksextremismus und Islamismus im medialen Diskurs am Beispiel von SPIEGEL Online, einem der deutschen Leitmedien. Wir leiten vier zentrale Dimensionen für die Konzeptualisierung von Extremismen ab: Ideologie und Organisation, Herkunft der Akteure, Stellung zur Gesellschaft und Typische Handlungen. Wir beobachten die Entwicklung der Darstellung der drei Extremismen an möglichen Bruchpunkten: Wir untersuchen das assoziative Framing der drei Extremismen vor und nach prominenten extremismusbezogenen Gewaltereignissen, namentlich die Anschläge des 11. September, die Veröffentlichung des NSU-Skandals und linksextremistische Aktivitäten während des G20-Gipfels in Hamburg. Mittels einer Kollokationsanalyse identifizieren wir mit den Extremismen assoziierte Aspekte und ordnen diese den Konzeptualisierungsdimensionen zu. Wir beobachten Veränderungen im Framing, die durch die ausgewählten Ereignisse bedingt sind, und vergleichen das resultierende Framing mit den Kerndefinitionen des Verfassungsschutzes aus dem Bericht des Jahres 2017, um mögliche Unterschiede in der Konzeptualisierung von Extremismen mit möglicherweise unterschiedlichen Handlungslogiken als Resultat divergierender Konzeptualisierungen herauszuarbeiten.
Interoperability in an Infrastructure Enabling Multidisciplinary Research: The case of CLARIN
(2020)
CLARIN is a European Research Infrastructure providing access to language resources and technologies for researchers in the humanities and social sciences. It supports the use and study of language data in general and aims to increase the potential for comparative research of cultural and societal phenomena across the boundaries of languages and disciplines, all in line with the European agenda for Open Science. Data infrastructures such as CLARIN have recently embarked on the emerging frameworks for the federation of infrastructural services, such as the European Open Science Cloud and the integration of services resulting from multidisciplinary collaboration in federated services for the wider domain of the social sciences and humanities (SSH). In this paper we describe the interoperability requirements that arise through the existing ambitions and the emerging frameworks. The interoperability theme will be addressed at several levels, including organisation and ecosystem, design of workflow services, data curation, performance measurement and collaboration. For each level, some concrete outcomes are described.
Interaktionale Semantik
(2020)