Refine
Year of publication
- 2020 (357) (remove)
Document Type
- Part of a Book (139)
- Article (124)
- Conference Proceeding (29)
- Book (17)
- Other (15)
- Part of Periodical (15)
- Review (12)
- Doctoral Thesis (2)
- Working Paper (2)
- Master's Thesis (1)
Language
- German (252)
- English (101)
- French (2)
- Multiple languages (2)
Keywords
- Deutsch (95)
- Korpus <Linguistik> (64)
- COVID-19 (44)
- Sprachgebrauch (41)
- Neologismus (30)
- Forschungsdaten (25)
- Gesprochene Sprache (24)
- Grammatik (23)
- Mundart (23)
- Wortschatz (21)
Publicationstate
- Veröffentlichungsversion (169)
- Zweitveröffentlichung (137)
- Postprint (19)
- Ahead of Print (2)
Reviewstate
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (77)
- Narr Francke Attempto (44)
- de Gruyter (43)
- European Language Resources Association (19)
- Erich Schmidt (10)
- CLARIN (6)
- Gesellschaft für deutsche Sprache e.V. (6)
- Heidelberg University Publishing (6)
- Spektrum der Wissenschaft Verlagsgesellschaft (5)
- Association for Computational Linguistics (4)
Seit dem Präsidentschaftswahlkampf in den USA sorgen „Fake News“ für eine lebhafte wissenschaftliche Debatte. Bisherige Definitionen sind allerdings weder einheitlich noch widerspruchsfrei und werden zudem nicht nachvollziehbar entwickelt, sondern meist einfach gesetzt. Unser Beitrag will dieses Theoriedefizit mittels einer Begriffsexplikation unter Rückgriff auf Literatur zu Desinformation, Lüge und (öffentliche) Kommunikation abstellen. Dabei ersetzen wir den Begriff „Fake News“ durch „aktuelle Desinformation“ und erörtern systematisch, welche Bedingungen notwendig sind, um von diesem Phänomen sprechen zu können. Wir definieren aktuelle Desinformation als Kommunikation wissentlich und empirisch falscher Informationen zu neuen und relevanten Sachverhalten mit dem Anspruch auf Wahrheit.
"Systemrelevant" - eine sprachwissenschaftliche Betrachtung des Begriffs aus aktuellem Anlass
(2020)
Sogenannte „Pragmatikalisierte Mehrworteinheiten“ sind im Deutschen hochfrequent und unterliegen bisweilen tiefgreifenden phonetischen Reduktionsprozessen. Diese können Realisierungsvarianten hervorbringen, die in der Rückschau auf mehr als eine lexematische Ursprungsform zurückführbar sind. Die vorliegende Studie untersucht mit [ˈzɐmɐ] einen besonders prägnanten Fall dieser Art anhand eines Perzeptionsexperimentes.
Song lyrics can be considered as a text genre that has features of both written and spoken discourse, and potentially provides extensive linguistic and cultural information to scientists from various disciplines. However, pop songs play a rather subordinate role in empirical language research so far - most likely due to the absence of scientifically valid and sustainable resources. The present paper introduces a multiply annotated corpus of German lyrics as a publicly available basis for multidisciplinary research. The resource contains three types of data for the investigation and evaluation of quite distinct phenomena: TEI-compliant song lyrics as primary data, linguistically and literary motivated annotations, and extralinguistic metadata. It promotes empirically/statistically grounded analyses of genre-specific features, systemic-structural correlations and tendencies in the texts of contemporary pop music. The corpus has been stratified into thematic and author-specific archives; the paper presents some basic descriptive statistics, as well as the public online frontend with its built-in evaluation forms and live visualisations.
We present a new resource for German causal language, with annotations in context for verbs, nouns and adpositions. Our dataset includes 4,390 annotated instances for more than 150 different triggers. The annotation scheme distinguishes three different types of causal events (CONSEQUENCE, MOTIVATION, PURPOSE). We also provide annotations for semantic roles, i.e. of the cause and effect for the causal event as well as the actor and affected party, if present. In the paper, we present inter-annotator agreement scores for our dataset and discuss problems for annotating causal language. Finally, we present experiments where we frame causal annotation as a sequence labelling problem and report baseline results for the prediciton of causal arguments and for predicting different types of causation.
This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources, especially where objects can be part of multiple releases but also part of different collections, and (3) the conversion of data to new formats for digital preservation. It is motivated why language resources may have to be changed, and why formats may need to be converted. As a solution, the use of an intermediate proxy object called a signpost is suggested. The approach will be exemplified with respect to the corpora of the Leibniz Institute for the German Language in Mannheim, namely the German Reference Corpus (DeReKo) and the Archive for Spoken German (AGD).
affiziertes Objekt
(2020)
In diesem Beitrag werden neue, repräsentative Daten zur arealen Variation in Deutschland vorgestellt, die das Leibniz-Institut für Deutsche Sprache im Rahmen der Innovationsstichprobe des Sozio-ökonomischen Panels (SOEP) des Deutschen Instituts für Wirtschaftsforschung (DIW) in der Befragungsrunde 2017/2018 erhoben hat. Zum einen wurde die Dialektkompetenz abgefragt; überindividuell zeigt sich hier das bekannte Nord-Süd-Gefälle, beim individuellen Grad der Kompetenz der Dialektsprecher gibt es aber regional nur geringe Unterschiede. Zum anderen wurden die Bewertungen von Dialekten erhoben; hier werden Norddeutsch und Bayerisch besonders positiv, Sächsisch hingegen besonders negativ bewertet, wobei regionale Muster eine Rolle spielen. Auffällig ist ferner die bundesweit sehr einheitlich positive Bewertung des Hochdeutschen.
Repeating the movements associated with activities such as drawing or sports typically leads to improvements in kinematic behavior: these movements become faster, smoother, and exhibit less variation. Likewise, practice has also been shown to lead to faster and smoother movement trajectories in speech articulation. However, little is known about its effect on articulatory variability. To address this, we investigate the extent to which repetition and predictability influence the articulation of the frequent German word “sie” [zi] (they). We find that articulatory variability is proportional to speaking rate and the duration of [zi], and that overall variability decreases as [zi] is repeated during the experiment. Lower variability is also observed as the conditional probability of [zi] increases, and the greatest reduction in variability occurs during the execution of the vocalic target of [i]. These results indicate that practice can produce observable differences in the articulation of even the most common gestures used in speech.
This study examines asymmetries between so-called inherent and contextual categories in relation to the morphological complexity of the nominal and verbal inflectional domain of languages. The observations are traced back to the influence of adult L2 learning in scenarios of intense language contact. A method for a simple comparison of the amount of inherent versus contextual categories is proposed and applied to the German-based creole language Unserdeutsch (Rabaul Creole German) in comparison to its lexifier language. The same procedure will be applied to two further language pairs. The grammatical systems of Unserdeutsch and other contact languages display a noticeable asymmetry regarding their structural complexity. Analysing different kinds of evidence, the explanatory key factor seems to be the role of (adult) L2 acquisition in the history of a language, whereby languages with periods of widespread L2 acquisition tend to lose contextual features. This impression is reinforced by general tendencies in pidgin and creole languages. Beyond that, there seems to be a tendency for inherent categories to be more strongly associated with the verb, while contextual categories seem to be more strongly associated with the noun. This leads to an asymmetry in categorical complexity between the noun phrase and the verb phrase in languages that experienced periods of intense L2 learning.
Politische Grenzen haben nachweislich sowohl auf den Sprachgebrauch als auch auf die Sprachwahrnehmung einen großen Einfluss. Die vorliegende Arbeit analysiert für den die Länder Deutschland, Österreich und Italien übergreifenden bairischen Sprachraum, wie Sprecher/Hörer diesen räumlich (horizontal-areal) sowie hinsichtlich seines Verhaltensspektrums (vertikal-sozial) gliedern. Dabei werden die Wahrnehmungen sprachlicher und außersprachlicher Merkmale und die Einstellungen dazu genauer betrachtet.
Mithilfe eines pluridimensionalen Erhebungssettings, bestehend aus Tiefeninterview, Online-Fragebogen, Mental-Map-Erhebung und Hörerurteilstest, kann gezeigt werden, dass extralinguistische Barrieren, wie etwa politische Grenzen, stark mit attitudinal-perzeptiven Grenzen korrelieren. Damit stellt im Bewusstsein der Befragten auch die Staatsgrenze zwischen Deutschland und Österreich eine Sprachgrenze dar.
This chapter focuses on the formation of adverbs from a corpuslinguistic perspective, providing an overview of adverb formation patterns in German that includes frequencies and hints to productivity as well as combining quantitative methods and theoretically founded hypotheses to address questions that concern possible grammaticalization paths in domains that are formally marked by prepositional elements or inflectional morphology (in particular, superlative or superlative-derived forms). Within our collection of adverb types from the project corpus, special attention is paid to adverbs built from primary prepositions. The data suggest that generally, such adverb formation involves the saturation of the internal argument slot of the relation-denoting preposition. In morphologically regular formations with the preposition in final position, pronominal forms like da ‘there’, hier ‘here’, wo ‘where’ as well as hin ‘hither’ and her ‘thither’ serve to derive adverbs. On the other hand, morphologically irregular formations with the preposition – in particular: zu ‘to’ or vor ‘before, in front of’ – in initial posi-tion show traits of syntactic origin such as (remnants of) inflectional morphology. The pertaining adverb type dominantly saturates the internal argument slot by means of universal quantification that is part and parcel as well of the derivation of superlatives and demonstrably fuels the productivity of the pertaining formation pattern.
„Bausteine einer Korpusgrammatik des Deutschen“ ist eine neue Schriftenreihe, die am Leibniz-Institut für Deutsche Sprache in Mannheim (IDS) entsteht. Sie setzt sich zum Ziel, mit korpuslinguistischen Methoden die Vielfalt und Variabilität der deutschen Grammatik in großer Detailschärfe zu erfassen und gleichzeitig für die Validierbarkeit der Ergebnisse zu sorgen. Die erste Ausgabe enthält eine Einführung in die Reihe sowie vier als Kapitel einer neuen Grammatik gestaltete Texte: 1. Grundlegende Aspekte der Wortbildung, 2. Bau von und Umbau zu Adverbien, 3. Starke vs. schwache Flexion aufeinanderfolgender attributiver Adjektive und 4. Reihenfolge attributiver Adjektive. Die Ausgabe ist mit einer interaktiven Datenbank zu attributiven Adjektiven verknüpft.
Die Terminologielehre(speziell die Terminologielehre nach Eugen Wüster)liefert eine Basis und Methoden für terminologische Anwendungen in der Praxis. Viele Unternehmen und Institutionen richten ihr Terminologiemanagement danach aus. Nach einer kurzen Vorstellung der entsprechenden Ziele und Prozesse werden wichtige Typen von Begriffssystemen dargestellt, und es wird aufgezeigt, welche positiven Effekte das Erarbeiten von Begriffssystemen auf die Qualität der Terminologiearbeit hat. Als nächster inhaltlicher Schwerpunkt werden Möglichkeiten und Besonderheiten der Terminologieverwaltung unter besonderer Berücksichtigung der Eintragsmodellierung in terminologischen Datenbanken erörtert. Den Abschluss der Betrachtungen bildet die Zusammenführung der zwei Bereiche: Welche Optionen stehen für die Repräsentation von Begriffssystemen in Terminologieverwaltungssystemen zur Verfügung bzw. können dort umgesetzt werden?
Der Beitrag zeigt die Dialekte auf, die im Rahmen eines Online-Fragebogens von österreichischen Gewährspersonen als besonders „beliebt“, „unbeliebt“ sowie als „markant/auffällig“ bewertet wurden ebenso wie die hierfür herangezogenen Begründungen. In einem zweiten Schritt wird mithilfe eines Hörerurteilstests belegt, dass die als „auffällig“ empfundenen Dialekte durchaus erkannt und zu einem Großteil korrekt dem richtigen Bundesland zugeordnet werden. Dies sind vor allem das Vorarlbergerische und Tirolerische neben dem Kärntnerischen, Wienerischen und Steirischen.
Bericht vom ersten nationalen Best-Practice-Workshop der deutschen Open-Access-Monografienfonds
(2020)
Beyond Citations: Corpus-based Methods for Detecting the Impact of Research Outcomes on Society
(2020)
This paper proposes, implements and evaluates a novel, corpus-based approach for identifying categories indicative of the impact of research via a deductive (top-down, from theory to data) and an inductive (bottom-up, from data to theory) approach. The resulting categorization schemes differ in substance. Research outcomes are typically assessed by using bibliometric methods, such as citation counts and patterns, or alternative metrics, such as references to research in the media. Shortcomings with these methods are their inability to identify impact of research beyond academia (bibliometrics) and considering text-based impact indicators beyond those that capture attention (altmetrics). We address these limitations by leveraging a mixed-methods approach for eliciting impact categories from experts, project personnel (deductive) and texts (inductive). Using these categories, we label a corpus of project reports per category schema, and apply supervised machine learning to infer these categories from project reports. The classification results show that we can predict deductively and inductively derived impact categories with 76.39% and 78.81% accuracy (F1-score), respectively. Our approach can complement solutions from bibliometrics and scientometrics for assessing the impact of research and studying the scope and types of advancements transferred from academia to society.
Im vorliegenden Beitrag werden erstmals Daten zweier aktueller Projekte zu Einstellungen von Deutschschweizer/-innen zu Hochdeutsch und Dialekt verglichen. Dabei wird beleuchtet, welche Unterschiede und Gemeinsamkeiten sich in den Daten der Samples – einem bezüglich Bildung und Beruf heterogenen und einem bezüglich dieser Faktoren homogenen – feststellen lassen. Es zeigt sich eine vielschichtige Konzeptualisierung des Hochdeutschen in beiden Studien, die mit der Annahme unterschiedlicher mentaler Hochdeutsch-Modelle (Norm, Plurizentrizität, Schriftlichkeit, Mündlichkeit mit zwei Untermodellen) erklärt werden kann.
Blogg Dir deinen Urlaub nach Tunesien! Zur Erläuterung des Musters [VImp PROPReflexivDat NPAkk]
(2020)
In diesem Beitrag soll das Muster [VImp PROPReflexivDat NPAkk] semantisch und syntaktisch erläutert werden. Dieses Muster, das semantisch mit Verben des Erwerbens wie anschaffen korreliert, wird auch im Zusammenhang mit Kommunikationsverben wie bloggen und facebooken sowie mit dem Kontaktverb rubbeln belegt. Mithilfe des Konzeptes der Koerzion bzw. der semantischen Anpassung soll das Kovorkommen des erwänhten Musters mit diesen Verben beschrieben und erklärt werden. Als empirische Quelle dient das Korpus für das Deutsche 2012 und 2014 aus den Corpora from the Web. Die vorliegende Untersuchung ist im Rahmen meiner Dissertationsarbeit zum Thema Argumentstruktur und Bedeutung medialer Kommunikationsverben des Deutschen und des Spanischen im Sprachvergleich durchgeführt worden.
Im Projekt fussballlinguistik.de baue ich Korpora mit schriftlichen und mündlichen Texten aus dem Bereich der Fußballberichterstattung auf und mache sie über das webbasierte Tool CQPweb (Hardie 2012) der Fachöffentlichkeit zuganglich (Meier 2017). Die Korpora (www.fussballlinguistik.de/korpora) enthalten vornehmlich internetbasierte Texte wie etwa Liveticker, Spielberichte und Taktikanalysen, aber auch transkribierte Radioreportagen im Umfang von 44,8 Mio. Tokens (Stand Marz 2019) in den Sprachen Deutsch, Englisch, Niederländisch und Russisch in vollständig annotierter Form. Ein Teil der Daten ist zudem in das Deutsche Referenzkorpus (DeReKo 2018–II) eingegangen. Die seit gut 50 Jahren etablierte sprachwissenschaftliche Forschung zur Sprache des Fußballs hat dadurch eine in ihrer Themenspezifik einzigartige empirische Ressource erhalten.
CLARIN contractual framework for sharing language data: the perspective of personal data protection
(2020)
The article analyses the responsibility for ensuring compliance with the General Data Protection Regulation (GDPR) in research settings. As a general rule, organisations are considered the data controller (responsible party for the GDPR compliance). Research constitutes a unique setting influenced by academic freedom. This raises the question of whether academics could be considered the controller as well. However, there are some court cases and policy documents on this issue. It is not settled yet. The analysis serves a preliminary analytical background for redesigning CLARIN contractual framework for sharing data.
We present web services which implement a workflow for transcripts of spoken language following the TEI guidelines, in particular ISO 24624:2016 “Language resource management – Transcription of spoken language”. The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.
In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019.
Are borrowed neologisms accepted more slowly into the German language than German words resulting from the application of word formation rules? This study addresses this question by focusing on two possible indicators for the acceptance of neologisms: a) frequency development of 239 German neologisms from the 1990s (loanwords as well as new words resulting from the application of word formation rules) in the German reference corpus DeReKo and b) frequency development in the use of pragmatic markers (‘flags’, namely quotation marks and phrases such as sogenannt ‘so-called’) with these words. In the second part of the article, a psycholinguistic approach to evaluating the (psychological) status of different neologisms and non-words in an experimentally controlled study and plans to carry out interviews in a field test to collect speakers’ opinions on the acceptance of the analysed neologisms are outlined. Finally, implications for the lexicographic treatment of both types of neologisms are discussed.
Ancient Chinese poetry is constituted by structured language that deviates from ordinary language usage; its poetic genres impose unique combinatory constraints on linguistic elements. How does the constrained poetic structure facilitate speech segmentation when common linguistic and statistical cues are unreliable to listeners in poems? We generated artificial Jueju, which arguably has the most constrained structure in ancient Chinese poetry, and presented each poem twice as an isochronous sequence of syllables to native Mandarin speakers while conducting magnetoencephalography (MEG) recording. We found that listeners deployed their prior knowledge of Jueju to build the line structure and to establish the conceptual flow of Jueju. Unprecedentedly, we found a phase precession phenomenon indicating predictive processes of speech segmentation—the neural phase advanced faster after listeners acquired knowledge of incoming speech. The statistical co-occurrence of monosyllabic words in Jueju negatively correlated with speech segmentation, which provides an alternative perspective on how statistical cues facilitate speech segmentation. Our findings suggest that constrained poetic structures serve as a temporal map for listeners to group speech contents and to predict incoming speech signals. Listeners can parse speech streams by using not only grammatical and statistical cues but also their prior knowledge of the form of language.
Using video-recordings from one day of a theater project for young adults, this paper investigates how the meaning of novel verbal expressions is interactionally constituted and elaborated over the interactional history of a series of activities. We examine how the theater director introduces and instructs the group in the Chekhovian technique of acting, which is based on “imagining with the body,” and how the imaginary elements of the technique are “brought into existence” in the language of the instructions. By tracking shifts in the instructor’s use of the key expressions invisible/imaginary/inner body or movement through a series of exercises, we demonstrate how they are increasingly treated as real and perceivable bodily conduct. The analyses focus on the instructor’s attribution of factual and agentive properties to these expressions, and the changes that these properties undergo over the series of instructions. This case demonstrates the significance of longitudinal processes for the establishment of shared meaning in social interaction. The study thereby contributes to the field of interactional semantics and to longitudinal studies of social interaction.
Corona- und andere Partys
(2020)
The present paper outlines the projected second part of the Corpus Query Lingua Franca (CQLF) family of standards: CQLF Ontology, which is currently in the process of standardization at the International Standards Organization (ISO), in its Technical Committee 37, Subcommittee 4 (TC37SC4) and its national mirrors. The first part of the family, ISO 24623-1 (henceforth CQLF Metamodel), was successfully adopted as an international standard at the beginning of 2018. The present paper reflects the state of the CQLF Ontology at the moment of submission for the Committee Draft ballot. We provide a brief overview of the CQLF Metamodel, present the assumptions and aims of the CQLF Ontology, its basic structure, and its potential extended applications. The full ontology is expected to emerge from a community process, starting from an initial version created by the authors of the present paper.
Corpus REDEWIEDERGABE
(2020)
This article presents the corpus REDEWIEDERGABE, a German-language historical corpus with detailed annotations for speech, thought and writing representation (ST&WR). With approximately 490,000 tokens, it is the largest resource of its kind. It can be used to answer literary and linguistic research questions and serve as training material for machine learning. This paper describes the composition of the corpus and the annotation structure, discusses some methodological decisions and gives basic statistics about the forms of ST&WR found in this corpus.
The annual microcensus provides Germany’s most important official statistics. Unlike a census it does not cover the whole population, but a representative 1%-sample of it. In 2017, the German microcensus asked a question on the language of the population, i.e. ‘Which language is mainly spoken in your household?’ Unfortunately, the question, its design and its position within the whole microcensus’ questionnaire feature several shortcomings. The main shortcoming is that multilingual repertoires cannot be captured by it. Recommendations for the improvement of the microcensus’ language question: first and foremost the question (i.e. its wording, design, and answer options) should make it possible to count multilingual repertoires.
cOWIDplus
(2020)
Die Corona-Krise hat Einfluss auf die Sprache in deutschsprachigen Online-Medien. Wir haben die Hypothese, dass sich die Vielfältigkeit des verwendeten Vokabulars einschränkt. Wir glauben zudem, dass sich die Diversität des Vokabulars nach "überstandener" Krise wieder auf ein "Prä-Pandemie-Niveau" einpendeln wird. Diese zweite Hypothese lässt sich erst im Laufe der Zeit überprüfen.
cOWIDplus Analyse ist eine kontinuierlich aktualisierte Ressource zu der Frage, ob und wie stark sich der Wortschatz ausgewählter deutscher Online-Pressemeldungen während der Corona-Pandemie systematisch einschränkt und ob bzw. wann sich das Vokabular nach der Krise wieder ausweitet. In diesem Artikel erläutern die Autor*innen die hinter der Ressource stehende Forschungsfrage, die zugrunde gelegten Daten, die Methode sowie die bisherigen Ergebnisse.
cOWIDplus Viewer
(2020)
Das "Verzeichnis grundlegender grammatischer Fachbegriffe" 2019. Anliegen, Konzeption, Perspektiven
(2020)
Südtirol ist eine mehrsprachige italienische Provinz, in der die Verwendung unterschiedlicher Sprachen, besonders Deutsch und Italienisch, sowie der lokalen deutschen Dialekte in der mündlichen Kommunikation in formalen wie informalen Sprechsituationen einen hohen gesellschaftlichen Stellenwert hat. Mit der Frage, welche Sprachen bzw. Varietäten in der schriftlichen Alltagskommunikation verwendet werden und welche soziolinguistischen Faktoren dabei eine Rolle spielen, hat sich das Projekt DiDi befasst, in dem die Sprach- und Varietätenverwendung in Facebook-Texten näher untersucht wurden. Dabei stellte sich unter anderem heraus, dass das Schreiben im Dialekt besonders unter Jugendlichen weit verbreitet ist (Glaznieks/Frey 2018). Mithilfe des aus diesem Projekt entstandenen und für wissenschaftliche Nutzung frei zugänglichen Facebook-Korpus kann die Sprach- und Varietätenverwendung Südtiroler Facebooknutzer/innen in der internetbasierten Kommunikation aus unterschiedlichen linguistischen Perspektiven untersucht werden.
Dieser Beitrag widmet sich der Beschreibung des Korpus Deutsch in Namibia (DNam), das über die Datenbank für Gesprochenes Deutsch (DGD) frei zugänglich ist. Bei diesem Korpus handelt es sich um eine neue digitale Ressource, die den Sprachgebrauch der deutschsprachigen Minderheit in Namibia sowie die zugehörigen Spracheinstellungen umfassend und systematisch dokumentiert. Wir beschreiben die Datenerhebung und die dabei angewandten Methoden (freie Gespräche, „Sprachsituationen“, semi-strukturierte Interviews), die Datenaufbereitung inklusive Transkription, Normalisierung und Tagging sowie die Eigenschaften des verfügbaren Korpus (Umfang, verfügbare Metadaten usw.) und einige grundlegende Funktionalitäten im Rahmen der DGD. Erste Forschungsergebnisse, die mithilfe der neuen Ressource erzielt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen aus den Bereichen Kontakt-, Variations-
und Soziolinguistik.
Sprachkämpfe gibt es so manche, aber wer hätte gedacht, dass ausgerechnet das Erscheinen der 28. Auflage des Rechtschreibdudens die Gemüter so in Wallung versetzen würde, dass gleich mehrere davon in die nächste Runde gehen. Verlag und Redaktion werden auf die sprachpolitische Bühne gezerrt, weil man die deutsche Sprache so gut für Zwecke identitärer Politik instrumentalisieren kann.
Der Einfluss extremistischer Gewaltereignisse auf das Framing von Extremismus in Online-Medien
(2020)
In diesem Beitrag untersuchen wir die Darstellung von Rechtsextremismus, Linksextremismus und Islamismus im medialen Diskurs am Beispiel von SPIEGEL Online, einem der deutschen Leitmedien. Wir leiten vier zentrale Dimensionen für die Konzeptualisierung von Extremismen ab: Ideologie und Organisation, Herkunft der Akteure, Stellung zur Gesellschaft und Typische Handlungen. Wir beobachten die Entwicklung der Darstellung der drei Extremismen an möglichen Bruchpunkten: Wir untersuchen das assoziative Framing der drei Extremismen vor und nach prominenten extremismusbezogenen Gewaltereignissen, namentlich die Anschläge des 11. September, die Veröffentlichung des NSU-Skandals und linksextremistische Aktivitäten während des G20-Gipfels in Hamburg. Mittels einer Kollokationsanalyse identifizieren wir mit den Extremismen assoziierte Aspekte und ordnen diese den Konzeptualisierungsdimensionen zu. Wir beobachten Veränderungen im Framing, die durch die ausgewählten Ereignisse bedingt sind, und vergleichen das resultierende Framing mit den Kerndefinitionen des Verfassungsschutzes aus dem Bericht des Jahres 2017, um mögliche Unterschiede in der Konzeptualisierung von Extremismen mit möglicherweise unterschiedlichen Handlungslogiken als Resultat divergierender Konzeptualisierungen herauszuarbeiten.
Im Beitrag steht das LeGeDe-Drittmittelprojekt und der im Laufe der Projektzeit entwickelte korpusbasierte lexikografische Prototyp zu Besonderheiten des gesprochenen Deutsch in der Interaktion im Zentrum der Betrachtung. Die Entwicklung einer lexikografischen Ressource dieser Art knüpft an die vielfältigen Erfahrungen in der Erstellung von korpusbasierten Onlinewörterbüchern (insbesondere am Leibniz-Institut für Deutsche Sprache, Mannheim) und an aktuelle Methoden der korpusbasierten Lexikologie sowie der Interaktionsanalyse an und nimmt als multimedialer Prototyp für die korpusbasierte lexikografische Behandlung von gesprochensprachlichen Phänomenen eine innovative Position in der modernen Onlinelexikografie ein. Der Beitrag befasst sich im Abschnitt zur LeGeDe-Projektpräsentation ausführlich mit projektrelevanten Forschungsfragen, Projektzielen, der empirischen Datengrundlage und empirisch erhobenen Erwartungshaltungen an eine Ressource zum gesprochenen Deutsch. Die Darstellung der komplexen Struktur des LeGeDe-Prototyps wird mit zahlreichen Beispielen illustriert. In Verbindung mit der zentralen Information zur Makro- und Mikrostruktur und den lexikografischen Umtexten werden die vielfältigen Vernetzungs- und Zugriffsstrukturen aufgezeigt. Ergänzend zum abschließenden Fazit liefert der Beitrag in einem Ausblick umfangreiche Vorschläge für die zukünftige lexikografische Arbeit mit gesprochensprachlichen Korpusdaten.
In internetgestützten Medien ist eine Reihe von medienspezifischen Kommunikationspraktiken entstanden - vom Flaming und Trolling aus der Frühzeit des Internet bis zum für die Sozialen Medien charakteristischen Shitstorm. In diesem Beitrag befasse ich mich anhand einer Fallstudie eines von mir als „personalisiert“ bezeichneten Shitstorms gegen die Sprachwissenschaftlerin Luise Pusch mit der Frage, inwiefern diese Form des Shitstorms mit den medialen Eigenschaften sozialer Netze - speziell, des Netzwerks Twitter - zusammenhängt und welche gesellschaftlichen Rahmenbedingungen er benötigt.
Der Weihnachtsbrief
(2020)
Die diesjährige Jahrestagung des Leibniz-Instituts für Deutsche Sprache in Mannheim mit dem Titel „Deutsch in Europa“ zielte auf eine Perspektivenerweiterung ab. In zwölf Fachvorträgen, neun Projektvorstellungen im Rahmen einer Methodenmesse und einer Podiumsdiskussion wurden sprachpolitische, grammatische und methodische Aspekte des sprachlichen Nebeneinanders in Europa, des Sprachvergleichs und des Deutscherwerbs diskutiert.
Im alltäglichen Leben sind Sozialen Medien kaum mehr entbehrlich: ob zum Zweck der Kommunikation, wie auf WhatsApp, zum Teilen von Inhalten und Fotos, z.B. durch Facebook und Instagram, oder zur Teilhabe am Weltgeschehen über Twitter. Der Band untersucht, ob und wie Soziale Medien unsere Kommunikation und auch unsere Sprache verändern und welche neuartigen kommunikativen Formen der Gebrauch Sozialer Medien hervorgebracht hat.
Dialekt und Regiolekt in der politischen Kommunikation: Code-Switching, -Mixing und -Shifting
(2020)
Politische Kommunikation erfolgt in Bayern im Kontinuum zwischen Standardsprache, Regiolekt und Basisdialekt. Dieser Wechsel zwischen den Sprechlagen in der bayerischen Kommunalpolitik ist Gegenstand dieses Beitrags. Das zugrundeliegende Korpus besteht aus Aufzeichnungen von Stadtratssitzungen in zwei Kleinstädten im mittelbairischen Dialektgebiet Niederbayerns. Dieser Beitrag will die im Untersuchungsmaterial festgestellten Wechselphänomene des Code-Switching, -Mixing und -Shifting anhand der sprecherinternen (interindividuellen) Schwankungen des Abstands zur Standardsprache sowohl phonetisch, als auch unter Berücksichtigung der innersprachlichen Ebenen Lexik, Morphologie und Syntax sowie unter dem Aspekt der Sprecherstrategien untersuchen.
Die Thematisierung von Dialekt im Unterricht ist einem größeren Wandel unterworfen. Als neue Komponente trat der dialektale Spracherwerb hinzu, für den insbesondere im niederdeutschen Sprachraum Strukturen und Materialien geschaffen wurden und fortgesetzt ergänzt werden. Bedeutsam ist die Abgrenzung dialekt- und regionalsprachdidaktischer Zielsetzungen. Regionalsprachliche Reflexion und gesteuerter Dialekterwerb betreffen unterschiedliche Lernziele, die in einen neuen Einklang einer parallelen Existenz im Unterrichtsgeschehen zu bringen sind.
Innerhalb der Wahrnehmungsdialektologie werden Begriffe oft vortheoretisch benutzt. Ziel dieses Beitrages ist, ein an den Bedürfnissen der Disziplin orientierten Begriff dialektologischen Wissens zu entwerfen, der auf den Wissenserwerb wie auf die Repräsentation gleichermaßen eingeht. Dafür wird zunächst eine Bestandsaufnahme bisheriger Konzeptionen vorgenommen, von der ausgehend im Anschluss an Erkenntnisse der kognitiven Linguistik ein neuer Wissensbegriff entworfen wird. Das Zentrum ist dabei das sogenannte Epistemikon, das die einzelnen Wissensbestände (Episteme) in sich vereint und organisiert.
Sprachliche Zeichen im öffentlichen Raum (Linguistic Landscape - LL) tragen neben ihrer primären Bedeutung und Funktion wie Auskunft und Werbung auch sekundäre Informationen zur Sprachenhierarchie, zur Repräsentation von Minderheitensprachen, zur sprachlichen Toleranz gegenüber der Mehrsprachigkeit in diesem Raum, etc. Diese Vielschichtigkeit macht die sprachlichen Zeichen im öffentlichen Raum zu wertvollen Lernobjekten, an denen die im Berufsleben so bedeutende diskursive Lesefähigkeit der Studierenden trainiert werden kann. Der Beitrag öffnet Perspektiven auf die Möglichkeiten der Verknüpfung der LL-Analyse mit den Inhalten der traditionellen germanistischen Curricula wie auch benachbarter Fachbereiche und verweist auf bisherige Studien in diesem Bereich.
Grammatische Termini sind in ihrer Existenz nicht immer stabil. neue wissenschaftliche Erkenntnisse, erweiterte Perspektiven und Paradigmenwechsel führen zu einem Wandelin der Terminologie. Während die Termini in Linguistischen Grammatiken dem aktuellen Status Quo der sprachwissenschaftlichen Grammatikschreibung weitgehend entsprechen, hinkt die sprachpraktische Anwendung in der Didaktik deutsch als Fremdsprache oft hinterher. Dies wird mithilfe einer Auswahl grammatischer Themen (Konnektoren, Verbvalenz, Wortbildung des Verbs und dem Bereich der Kollokationen/usuellen Wortverbindungen) und der im DAF-Bereich häufig verwendeten Pädagogisch-didaktischen Grammatiken, Handbüchern und Fachlexika sowie Lehrwerken aufgezeigt.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
Die Sprachpolitik der AfD
(2020)
Sprachpolitik hat sich in den letzten Jahren als ein lohnendes Politikfeld etabliert. Im Umfeld der AfD und in der parlamentarischen Repräsentanz der Partei werden durch Aufrufe, Anträge, Anfragen und Gesetzesinitiativen verschiedene Themen adressiert, die schon im AfD-Grundsatzprogramm von 2016 gesetzt wurden. Um was für sprachpolitische Positionen handelt es sich, und was ist der Grund für das Interesse an diesen Themen?
Die Kernaufgabe der Projektgruppe des DWDS besteht darin, den in den Korpora enthaltenen Wortschatz lexikografisch und korpusbasiert zu beschreiben. In der modernen Lexikografie werden die Aussagen zu den sprachlichen Aspekten und Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf Korpusevidenz gestutzt. Empirisch können riesige Textsammlungen Hypothesen genauer oder ausführlicher belegen. Dabei wird deutlich, wie vielfältig Sprache im Gebrauch tatsachlich realisiert wird. Zu diesem Zweck bieten wir auf der DWDS-Plattform neben den zeitlich und nach Textsorten ausgewogenen Kernkorpora und den Zeitungskorpora eine Reihe von Spezialkorpora an, die hinsichtlich ihres Gegenstandes oder ihrer sprachlichen Charakteristika von den erstgenannten Korpora abweichen. Die Webkorpora bilden einen wesentlichen Bestandteil dieser Spezialkorpora.
Texte aus Sozialen Medien finden in linguistischen Diskursanalysen bisher noch wenig Berücksichtigung. Viele Diskursanalysen konzentrieren sich auf Zeitungstexte als Untersuchungsgegenstände. Dieser Beitrag unterbreitet einen Vorschlag zur Überwindung dieses Newspaper Bias, um das Programm und das Methodeninventar der Diskurslinguistik am Beispiel der Wikipedia hin zu digitalen Diskursanalysen zu erweitern. Neben den besonderen Eigenschaften digitaler Diskurse wird die Bedeutung digitaler Objekte (v.a. Links) in den Diskursfragmenten der Wikipedia thematisiert. Zuletzt wird ein Analysemodell präsentiert, das einen umfassenden Rahmen für die Untersuchung von digitalen Diskursen bietet.
Der Beitrag diskutiert Interpunktion als ein Teilsystem des Deutschen, an dem das Verhältnis zwischen Sprachwandel und dem gesamtgesellschaftlichen Wandelprozess der Digitalisierung besonders gut ablesbar ist. Der Gebrauch von Interpunktionszeichen im interaktionsorientierten digitalen Schreiben ist gekennzeichnet durch eine distributive Umstrukturierung des Interpunktionsinventars sowie durch Prozesse der Pragmatikalisierung, Syntaktisierung und Ikonizität, die verschiedene Satzzeichen betreffen. In der privaten und öffentlichen metasprachlichen Reflexion zeigen sich eine nicht-binäre Wahrnehmung digitaler Interpunktion und eine Registrierung einzelner Interpunktionspraktiken mit sozialen Gruppen. Die Verlagerung interpersonaler Kommunikation auf digitale Schriftlichkeit führt insgesamt zu einer Ausfächerung des interaktionalen Umgangs mit Interpunktion und zur Herausbildung domänenspezifischer Interpunktionsstile.
Diskurs - ethisch
(2020)
Die Sprache in Sozialen Medien zeigt auf allen Ebenen eine hohe Variabilität und wurde daher als eine Mischung verschiedener Register (Tagliamonte/Denis 2008) analysiert, die sowohl informelle als auch formelle Formen umfassen. Im Gegensatz zu herkömmlichen schriftlichen Medien, wie z.B. Zeitungstexten, sind Soziale Medien wie Chat, Twitter, Forumsdiskussionen, Facebook oder Blogs für diverse Autor/innen zugänglich, sind spontaner, und unterliegen weniger den sprachlichen Standards. Ein Teil der in diesen Kommunikationskanälen gefundenen Variabilität wird häufig auf Fehler zurückgeführt, es gibt jedoch viele Phänomene, die eigenen Regeln folgen. In Bezug auf das Kontinuum von konzeptueller/medialer Mündlichkeit/Schriftlichkeit (Koch/Oesterreicher 1985) befinden sich die meisten Social-Media-Beitrage in der Mitte des konzeptuellen Oralitätskontinuums, obwohl deren genaue Position bisher weitgehend unbestimmt ist. Soweit Nicht-Standard-Merkmale untersucht wurden, wurde meist die Orthographie, Morphologie, das Lexikon und die Syntax (z.B. Abkürzungen, Emoticons, Ellipsis) berücksichtigt.
Im Gegensatz dazu wählen wir einen pragmatischen, diskursorientierten Standpunkt: Welche Diskursstrategien wählen Sprecher/innen in Sozialen Medien und wie unterscheiden sich diese von bisher untersuchten Medienformen?
Entity framing is the selection of aspects of an entity to promote a particular viewpoint towards that entity. We investigate entity framing of political figures through the use of names and titles in German online discourse, enhancing current research in entity framing through titling and naming that concentrates on English only. We collect tweets that mention prominent German politicians and annotate them for stance. We find that the formality of naming in these tweets correlates positively with their stance. This confirms sociolinguistic observations that naming and titling can have a status-indicating function and suggests that this function is dominant in German tweets mentioning political figures. We also find that this status-indicating function is much weaker in tweets from users that are politically left-leaning than in tweets by right leaning users. This is in line with observations from moral psychology that left-leaning and right-leaning users assign different importance to maintaining social hierarchies.
In informal interaction, speakers rarely thank a person who has complied with a request. Examining data from British English, German, Italian, Polish, and Telugu, we ask when speakers do thank after compliance. The results show that thanking treats the other’s assistance as going beyond what could be taken for granted in the circumstances. Coupled with the rareness of thanking after requests, this suggests that cooperation is to a great extent governed by expectations of helpfulness, which can be long-standing, or built over the course of a particular interaction. The higher frequency of thanking in some languages (such as English or Italian) suggests that cultures differ in the importance they place on recognizing the other’s agency in doing as requested.
Duden - Die deutsche Rechtschreibung. Auf der Grundlage der aktuellen amtlichen Rechtschreibregeln
(2020)
Editorial
(2020)
Effiziertes Objekt
(2020)
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.
Einleitung
(2020)
A corpus-based academic grammar of German is an enormous undertaking, especially if it aims at using state-of-the-art methodology while ensuring that its study results are verifiable. The Bausteine-series, which is being developed at the Leibniz Institute for the German Language (IDS), presents individual “building blocks” for such a grammar. In addition to the peer-reviewed texts, the series publishes the results of statistical analyses and, for selected topics, the underlying data sets.
Einleitung
(2020)
Older adults are often exposed to elderspeak, a specialized speech register linked with negative outcomes. However, previous research has mainly been conducted in nursing homes without considering multiple contextual conditions. Based on a novel contextually-driven framework, we examined elderspeak in an acute general versus geriatric German hospital setting. Individuallevel information such as cognitive impairment (CI) and audio-recorded data from care interactions between 105 older patients (M = 83.2 years; 49% with severe CI) and 34 registered nurses (M = 38.9 years) were assessed. Psycholinguistic analyses were based on manual coding (k = .85 to k = .97) and computer-assisted procedures. First, diminutives (61%), collective pronouns (70%), and tag questions (97%) were detected. Second, patients’ functional impairment emerged as an important factor for elderspeak. Our study suggests that functional impairment may be a more salient trigger of stereotype activation than CI and that elderspeak deserves more attention in acute hospital settings.
The sentiment polarity of an expression (whether it is perceived as positive, negative or neutral) can be influenced by a number of phenomena, foremost among them negation. Apart from closed-class negation words like no, not or without, negation can also be caused by so-called polarity shifters. These are content words, such as verbs, nouns or adjectives, that shift polarities in their opposite direction, e. g. abandoned in “abandoned hope” or alleviate in “alleviate pain”. Many polarity shifters can affect both positive and negative polar expressions, shifting them towards the opposing polarity. However, other shifters are restricted to a single shifting direction. Recoup shifts negative to positive in “recoup your losses”, but does not affect the positive polarity of fortune in “recoup a fortune”. Existing polarity shifter lexica only specify whether a word can, in general, cause shifting, but they do not specify when this is limited to one shifting direction. To address this issue we introduce a supervised classifier that determines the shifting direction of shifters. This classifier uses both resource-driven features, such as WordNet relations, and data-driven features like in-context polarity conflicts. Using this classifier we enhance the largest available polarity shifter lexicon.
Esipuhe/Preface
(2020)