Refine
Document Type
- Article (108)
- Other (5)
- Part of a Book (3)
- Report (3)
- Working Paper (3)
- Book (1)
- Course Material (1)
- Part of Periodical (1)
Has Fulltext
- yes (125) (remove)
Is part of the Bibliography
- yes (125) (remove)
Keywords
- Deutsch (38)
- COVID-19 (36)
- Neologismus (33)
- Sprachgebrauch (31)
- Korpus <Linguistik> (17)
- Wortschatz (17)
- Worthäufigkeit (14)
- Deutschland (10)
- Lexikostatistik (10)
- Leibniz-Institut für Deutsche Sprache (IDS) (8)
Publicationstate
- Veröffentlichungsversion (125) (remove)
Reviewstate
- (Verlags)-Lektorat (84)
- Peer-Review (4)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (125) (remove)
Der deutschen Muttersprachen
(2023)
This paper presents an extended annotation and analysis of interpretative reply relations focusing on a comparison of reply relation types and targets between conflictual pages and neutral pages of German Wikipedia (WP) talk pages. We briefly present the different categories identified for interpretative reply relations to analyze the relationship between WP postings as well as linguistic cues for each category. We investigate referencing strategies of WP authors in discussion page postings, illustrated by means of reply relation types and targets taking into account the degree of disagreement displayed on a WP talk page. We provide richly annotated data that can be used for further analyses such as the identification of interactional relations on higher levels, or for training tasks in machine learning algorithms.
This paper analyses intensification in German digitally-mediated communication (DMC) using a corpus of YouTube comments written by young people (the NottDeuYTSch corpus). Research on intensification in written language has traditionally focused on two grammatical aspects: syntactic intensification, i.e. the use of particles and other lexical items and morphological intensification, i.e. the use of compounding. Using a wide variety og examples from the corpus, the paper identifies novel ways that have been used for intensification in DMC, and suggests a new taxonomy of classification for future analysis of intensification.
Following the successes of the ninth conference in 2022 held in the wonderful Santiago de Compostela, Spain, we are pleased to present the proceedings of the 10th edition of International Conference on CMC and Social Media Corpora for the Humanities (CMC-2023). The focal point of
the conference is to investigate the collection, annotation, processing, and analysis of corpora of computer-mediated communication (CMC) and social media.
Our goal is to serve as the meeting place for a wide variety of language-oriented investigations into CMC and social media from the fields of linguistics, philology, communication sciences, media
studies, and social sciences, as well as corpus and computational linguistics, language technology, textual technology, and machine learning.
This year’s event is the largest so far with 45 accepted submissions: 32 papers and 13 poster presentations, each of which were reviewed by members of our ever-growing scientific committee. The contributions were presented in five sessions of two or three streams, and a single poster session. The talks in these proceedings cover a wide range of topics, including the corpora construction, digital identities, digital knowledge-building, digitally-mediated interaction, features
of digitally-mediated communication, and multimodality in digital spaces.
As part of the conference, we were delighted to include two invited talks: an international keynote speech by Unn Røyneland from the University of Oslo, Norway, on the practices and perceptions of
researching dialect writing in social media, and a national keynote speech by Tatjana Scheffler from the Ruhr-University of Bochum on analysing individual linguistic variability in social media and
constructing corpora from this data. Additionally, participants could take part in a workshop on processing audio data for corpus linguistic analysis. This volume contains abstracts of the invited talks, short papers of oral presentations, and abstracts of posters presented at the conference.
Welche Veränderungen fallen Menschen in der deutschen Sprache auf? Sprache in Zahlen: Folge 11
(2023)
Konvergenz und Divergenz
(2021)
Das Leibniz-Institut für Deutsche Sprache (IDS) führt seit den 1990er Jahren regelmäßig Repräsentativerhebungen zu sprachlichen Fragen durch. Über die letzten Umfragen, die Deutschland-Erhebung 2017 und die Erhebung Dialekt und Beruf 2019, wurde bereits in dieser Reihe berichtet. Informationen über die Deutschland-Erhebung 2017 finden sich in Folge 1 bis 6 dieser Reihe. In den Folgen 7 bis 9 wurden Ergebnisse der Erhebung Dialekt und Beruf 2019 vorgestellt. Im Winter 2022 hat das IDS eine neue Repräsentativumfrage durchgeführt: die Deutschland-Erhebung 2022. Darin wurden Einstellungen zum Deutschen und anderen Sprachen sowie die Wahrnehmung von sprachlichen Veränderungen erfasst. In dieser Folge 10 werden die Erhebung und erste Ergebnisse vorgestellt
Spiele und Spielgeräte: Tamagotchi, Sudoku oder doch Puzzle? (Aus der Rubrik Neuer Wortschatz)
(2021)
Die zentrale Aufgabenstellung des Verbundprojektes TextTransfer (Pilot) war eine Machbarkeitsprüfung für die Entwicklung eines Text-Mining-Verfahrens, mit dem Forschungsergebnisse automatisiert auf Hinweise zu Transfer- und Impactpotenzialen untersucht werden können. Das vom Projektkoordinator IDS verantwortete Teilprojekt konzentrierte sich dabei auf die Entwicklung der methodischen Grundlagen, während der Projektpartner TIB vornehmlich für die Bereitstellung eines geeigneten Datensatzes verantwortlich war. Solchen automatisierten Verfahren liegen zumeist textbasierte Daten als physisches Manifest wissenschaftlicher Erkenntnisse zugrunde, die im Falle von TextTransfer (Pilot) als empirische Grundlage herangezogen wurden. Das im Verbund zur Anwendung gebrachte maschinelle Lernverfahren stützte sich ausschließlich auf deutschsprachige Projektendberichte öffentlich geförderter Forschung. Diese Textgattung eignet sich insbesondere hinsichtlich ihrer öffentlichen Verfügbarkeit bei zuständigen Gedächtnisorganisationen und aufgrund ihrer im Vergleich zu anderen Formaten wissenschaftlicher Publikation relativen strukturellen wie sprachlichen Homogenität. TextTransfer (Pilot) ging daher grundsätzlich von der Annahme struktureller bzw. sprachlicher Ähnlichkeit in Berichtstexten aus, bei denen der Nachweis tatsächlich erfolgten Transfers zu erbringen war. Im Folgenden wird in diesen Fällen von Texten bzw. textgebundenen Forschungsergebnissen mit Transfer- und Impactpotenzial gesprochen werden. Es wurde ferner postuliert, dass sich diese Indizien von sprachlichen Eigenschaften in Texten zu Projekten ohne nachzuweisenden bzw. ggf. auch niemals erfolgtem, aber potenziell möglichem Transfer oder Impact unterscheiden lassen. Mit einer Verifizierung dieser Annahmen war es möglich, Transfer- oder Impactwahrscheinlichkeiten in großen Mengen von Berichtsdaten ohne eingehende Lektüre zu prognostizieren.
Deutsche Genitivattribute benötigen eine hinreichend overte Kasusmarkierung an abhängigen Wortarten (Determinierern, Adjektiven), mitunter in Kombination mit einer Markierung am Genitivnomen selbst. Wenn die Struktur der Attributsphrase solche Markierungen unmöglich macht, wird eine Präpositionalphrase mit von genutzt. Es gibt allerdings eine Reihe von Grenzfällen, die Genitivgebrauch erlauben, obwohl keine hinreichende Markierung möglich ist. Die vorliegende Studie liefert zu drei solchen Fällen empirische Daten: 1. Fälle, wo der unflektierte Wortstamm des Adjektivs oder des Genitivnomens einem Genitivsuffix gleicht („Pseudoflexion“), 2. Fälle, wo Determinierer und Genitivnomen schwach flektiert werden („doppelt schwache Flexion“) und 3. Fälle, wo die Determiniererposition durch einen weiteren, pränominalen Genitiv besetzt ist, der keine Kongruenz aufweisen kann („verschachtelte Genitivattribute“). Anhand umfassender Korpusuntersuchungen kann so eingeschätzt werden, welche Rolle diese Grenzfälle im System der deutschen Standardsprache spielen.
Der Datensatz enthält 16.604 Korpusbelege aus Nominalphrasen mit Genitiv- und von-Attributen (die Ideen zahlreicher Kinder, die Ideen von zahlreichen Kindern), wobei die Genitivattribute prä- oder postnominal erscheinen können (Mannheims Sehenswürdigkeiten, die Sehenswürdigkeiten Mannheims).
Für jeden Beleg sind Informationen zu Land, Dekade und Medium enthalten. Hinzu kommen Angaben zu Kopf- und/oder Attributslemma (z. B. Namentyp, Flexionsklasse), Gesamtphrase (z. B. Definitheit, Kasus) und Attributsphrase (z. B. Kasusdistinktion, Länge). Zahlreiche Sonderfälle sind ebenfalls annotiert (z. B. Genitiv bei nichtflektiertem Adjektiv wie Gebäck Mannheimer Bäckereien, Phrasen mit adjektivisch flektierendem Attributsnomen wie die Ideen Jugendlicher, die Ideen von Jugendlichen).
Der Datensatz enthält 409 Korpusbelege aus Nominalphrasen mit eingebetteten Genitivattributen, die wiederum ein eingebettetes Genitivattribut aufweisen (Petras Nachfolgers Beisein). Die Belege sind danach klassifiziert, ob die erste eingebettete Nominalphrase vor oder hinter dem Kopfnomen der Gesamtnominalphrase steht (Petras Nachfolgers Beisein vs. Beisein Petras Nachfolgers) und ob die erste eingebettete Nominalphrase neben einem Genitiv noch ein Adjektiv enthält (Beisein Petras direkten Nachfolgers). Für jeden Beleg werden zudem die Lemmas der drei Nomen in ihrer Einbettungsreihenfolge angegeben. Darüber hinaus sind Metadaten (Land, Jahr) enthalten.
Der Datensatz enthält die Gesamtheit der relevanten Belege aus dem KoGra-Untersuchungskorpus mit den im Folgenden aufgeführten Strukturen. Die Abfragen für die vier Strukturtypen führten zu 15.875 potenziellen Belegen, von denen sich bei manueller Durchsicht 409 als tatsächliche Nominalphrasen mit zweifach eingebetteten Genitivattributen erwiesen.
Der Datensatz dient der Untersuchung der Sonderfälle des Genitivattributs (Kopf 2021).
In so-called Let’s Plays, video gaming is presented and verbally commented by Let’s Players on the internet for an audience. When only watched but not played, the most attractive features of video games, immersion and interactivity, get lost – at least for the internet audience. We assume that the accompanying reactions (transmitted via a so-called facecam) and verbal comments of Let’s Players on their game for an audience contribute to an embodiment of their avatars which makes watching a video game more attractive. Following an ethnomethodological conversation analytical (EMCA) approach, our paper focusses on two practices of embodying avatars. A first practice is that Let’s Players verbally formulate their actions in the game. By that, they make their experiences and the 'actions' of avatars more transparent. Secondly, they produce response cries (Goffman) in reaction to game events. By that, they enhance the liveliness of their avatars. Both practices contribute to a co-construction of a specific kind of (tele-)presence.
The teaching slides accompany the following textbook:
Svenja Völkel & Franziska Kretzschmar (2021): Introducing linguistic research. Cambridge: Cambridge University Press.
The slides follow the structure of the book chapters and can be used for teaching in class. They include the basic information per chapter and exercises to work on in class or as homework. More detailed information, additional exercises, suggestions for research projects and recommendations for further reading can be found in the textbook.
Datensatz Nominalphrasen
(2021)
Der Datensatz Nominalphrasen enthält Belege zu nichtpronominalen (d.h. vollen, lexikalischen) Nominalphrasen (NPs) mit einem Substantiv oder einer Nominalisierung als Kopf. Jeder Beleg ist in Bezug auf eine Reihe linguistisch relevanter Merkmale annotiert. Insgesamt enthält der Datensatz 8.137 Belegstellen. Nach dem Aussortieren von Fehlbelegen (siehe Spalten „valide“ und „nicht-valide_Begründung“) bleiben noch 7.813 einschlägige Belege. Die Suchanfrage erfolgte über das Kopfnomen; für Details zur Datenerhebung siehe Weber (2021a). Das Kopfnomen erscheint in der Spalte „Kopf_der_NP“. In manchen Fällen besteht die NP nur aus dem Kopfnomen, in den meisten Fällen geht sie aber darüber hinaus; sie erstreckt sich dann auf einen Teil des vorangehenden Kontexts (Spalte „Satzkontext_vor_Beleg“) und/oder des nachfolgenden Kontexts („Satzkontext_nach_Beleg“). Der Datensatz dient der Untersuchung der syntaktischen Funktionen von NPs (Weber 2021a) und der Determination in der NP (Weber 2021b).