Refine
Year of publication
- 2022 (140) (remove)
Document Type
- Part of a Book (56)
- Article (37)
- Conference Proceeding (19)
- Book (13)
- Other (9)
- Doctoral Thesis (2)
- Preprint (2)
- Review (2)
Language
- German (72)
- English (65)
- French (2)
- Multiple languages (1)
Is part of the Bibliography
- yes (140) (remove)
Keywords
- Deutsch (47)
- Korpus <Linguistik> (35)
- Nationalsozialismus (18)
- Wörterbuch (15)
- Kommunikation (12)
- Sprachdaten (12)
- Interaktion (11)
- Lexikografie (10)
- Neologismus (10)
- Diskurs (9)
Publicationstate
- Veröffentlichungsversion (140) (remove)
Reviewstate
Publisher
In diesem Beitrag widmen wir uns der Frage, welche Schritte unternommen werden müssen, um Skripte, die bei der Aufbereitung und/oder Auswertung von Forschungsdaten Anwendung finden, so FAIR wie möglich zu gestalten. Dabei nehmen wir sowohl Reproduzierbarkeit, also den Weg von den (Roh)daten zu den Ergebnissen einer Studie, als auch Wiederverwertbarkeit, also die Möglichkeit, die Methoden einer Studie mittels des Skripts auf andere Daten anzuwenden, in den Fokus und beleuchten dabei die folgenden Aspekte: Arbeitsumgebung, Datenvalidierung, Modularisierung, Dokumentation und Lizenz.
Comprehending conditional statements is fundamental for hypothetical reasoning about situations. However, the online comprehension of conditional statements containing different conditional connectives is still debated. We report two self-paced reading experiments on German conditionals presenting the conditional connectives wenn (‘if’) and nur wenn (‘only if’) in identical discourse contexts. In Experiment 1, participants read a conditional sentence followed by the confirmed antecedent p and the confirmed or negated consequent q. The final, critical sentence was presented word by word and contained a positive or negative quantifier (ein/kein ‘one/no’). Reading times of the two quantifiers did not differ between the two conditional connectives. In Experiment 2, presenting a negated antecedent, reading times for the critical positive quantifier (ein) did not differ between conditional connectives, while reading times for the negative quantifier (kein) were shorter for nur wenn than for wenn. The results show that comprehenders form distinct predictions about discourse continuations due to differences in the lexical semantics of the tested conditional connectives, shedding light on the role of conditional connectives in the online interpretation of conditionals in general.
Standards in CLARIN
(2022)
This chapter looks at a fragment of the ongoing work of the CLARIN Standards Committee (CSC) on producing a shared set of recommendations on standards, formats, and related best practices supported by the CLARIN infrastructure and its participating centres. What might at first glance seem to be a straightforward goal has over the years proven to be rather complex, reflecting the robustness and heterogeneity of the emerging distributed digital research infrastructure and the various disciplines and research traditions of the language-based humanities that it serves and represents, and therefore part of the chapter reviews the various initiatives and proposals that strove to produce helpful standards-related guidance. The focus turns next to a subtask initiated in late 2019, its scope narrowed to one of the core activities and responsibilities of CLARIN backbone centres, namely the provision of data deposition services. Centres are obligated to publish their recom-mendations concerning the repertoire of data formats that are best suited for their research profiles. We look at how this requirement has been met by the particular centres and suggest that having centres maintain their information in the Standards Information System (SIS) is the way to improve on the current state of affairs.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
Aus Platzgründen musste in der Druckfassung des Artikels „Beobachtungen zu Frequenz und Funktionen von ja in deutscher Spontansprache“ (in: Deutsche Sprache 50, S. 336–363; https://doi.org/10.37307/j.1868-775X.2022.04.04) auf den Abdruck der illustrierenden Abbildungen 2–18 im Abschnitt 5.2 verzichtet werden. Das entsprechende Kapitel inklusive aller Abbildungen ist hier abrufbar.
Der Beitrag präsentiert Ergebnisse des Projekts „Deutsch im Beruf: Die sprachlich-kommunikative Integration der Flüchtlinge“, das am Leibniz-Institut für Deutsche Sprache (IDS) durchgeführt wird. Im ersten Teil wird auf die zweistufige Sprachstandserhebung in den allgemeinen Integrationskursen eingegangen, die zusammen mit dem Goethe-Institut umgesetzt wurde. Bei der ersten Erhebung zu Beginn der Kurse wurden mit einer Tabletumfrage die Sozialdaten und Sprachenbiografien der Teilnehmenden erhoben. Bei der zweiten Erhebung am Ende der gleichen Kurse ging es darum, mit Hilfe der Analyse von Sprachaufnahmen das erreichte mündliche Kompetenzniveau der Teilnehmenden zu ermitteln. Im zweiten Teil des Beitrags stellen wir Ergebnisse unserer ethnografisch-gesprächsanalytischen Feldstudien vor, die wir in verschiedenen Arbeitskontexten wie Qualifizierungsmaßnahmen, duale Berufsausbildung und betriebliche Praktika durchgeführt haben. In Bezug auf die zentralen Fragen zu gegenseitiger Verständigung und der Sprachvermittlung am Arbeitsplatz konnten wir im Rahmen unserer Ethnografien drei prototypische Praktiken feststellen, auf die wir näher eingehen: a) „kaum Verständnissicherung und Sprachvermittlung“, b) „ad-hoc Verständnissicherung und Sprachvermittlung“ und c) „systematische Verständnissicherung und Sprachvermittlung“. Des Weiteren fokussieren wir im letzten Teil des Beitrags die Ergebnisse unserer ethnografischen Langzeitstudie zu Betriebspraktika von studierenden Geflüchteten. Anhand der Untersuchung von Reparaturen zeigt sich hier die Entwicklung der interaktionalen Kompetenz eines L2-Sprechers, die mit einer zunehmenden kommunikativen Integration in Teamgesprächen einhergeht.
This thesis is a corpus linguistic investigation of the language used by young German speakers online, examining lexical, morphological, orthographic, and syntactic features and changes in language use over time. The study analyses the language in the Nottinghamer Korpus deutscher YouTube‐Sprache ("Nottingham corpus of German YouTube language", or NottDeuYTSch corpus), one of the first large corpora of German‐language comments taken from the videosharing website YouTube, and built specifically for this project. The metadatarich corpus comprises c.33 million tokens from more than 3 million comments posted underneath videos uploaded by mainstream German‐language youthorientated YouTube channels from 2008‐2018.
The NottDeuYTSch corpus was created to enable corpus linguistic approaches to studying digital German youth language (Jugendsprache), having identified the need for more specialised web corpora (see Barbaresi 2019). The methodology for compiling the corpus is described in detail in the thesis to facilitate future construction of web corpora. The thesis is situated at the intersection of Computer‐Mediated Communication (CMC) and youth language, which have been important areas of sociolinguistic scholarship since the 1980s, and explores what we can learn from a corpus‐driven, longitudinal approach to (online) youth language. To do so, the thesis uses corpus linguistic methods to analyse three main areas:
1. Lexical trends and the morphology of polysemous lexical items. For this purpose, the analysis focuses on geil, one of the most iconic and productive words in youth language, and presents a longitudinal analysis, demonstrating that usage of geil has decreased, and identifies lexical items that have emerged as potential replacements. Additionally, geil is used to analyse innovative morphological productiveness, demonstrating how different senses of geil are used as a base lexeme or affixoid in compounding and derivation.
2. Syntactic developments. The novel grammaticalization of several subordinating conjunctions into both coordinating conjunctions and discourse markers is examined. The investigation is supported by statistical analyses that demonstrate an increase in the use of non‐standard syntax over the timeframe of the corpus and compares the results with other corpora of written language.
3. Orthography and the metacommunicative features of digital writing. This analysis identifies orthographic features and strategies in the corpus, e.g. the repetition of certain emoji, and develops a holistic framework to study metacommunicative functions, such as the communication of illocutionary force, information structure, or the expression of identities. The framework unifies previous research that had focused on individual features, integrating a wide range of metacommunicative strategies within a single, robust system of analysis.
By using qualitative and computational analytical frameworks within corpus linguistic methods, the thesis identifies emergent linguistic features in digital youth language in German and sheds further light on lexical and morphosyntactic changes and trends in the language of young people over the period 2008‐2018. The study has also further developed and augmented existing analytical frameworks to widen the scope of their application to orthographic features associated with digital writing.
Kampf
(2022)
In darauf aufbauender, aber auch sich davon differenzierender Art und Weise, findet das Konzept Kampf ebenso im politischen Diskurs des Nationalsozialismus Anwendung. Während im Zweiten Weltkrieg vor allem die Bedeutung von ›Kampf als Gefecht‹ im militärischen Kontext hervorgebracht wurde, sind die Verwendungen von ›Kampf als Bemühung‹, ›Kampf als Engagement‹ bis hin zu ›Kampf als Heroismus‹ (vgl. Klemperer 2018: 13), verknüpft mit ›Kampf als Kontroverse‹, vordergründig für das Verständnis der politischen Bedeutung des Kampfkonzepts im Nationalsozialismus. Im Folgenden werden nach einer einführenden begriffsgeschichtlichen Betrachtung ausgehend von diskursiv realisierten Wortformen der Lexeme Kampf und kämpfen konzeptkonstituierende Gebrauchsweisen für die verschiedenen Akteursklassen NS-Apparat, integrierte Gesellschaft, Ausgeschlossene und Widerstand dargelegt.
Im Folgenden soll es um kommunikative Praktiken in einem geheimen US-Kriegsgefangenenlager gehen, in dem deutsche Wehrmachtssoldaten inhaftiert waren, die dort verhört und deren Zellengespräche heimlich abgehört, mitgeschnitten und protokolliert wurden. Anhand von Auszügen aus verschiedenen Dokumententypen soll ein Schlaglicht auf die medial zugerichteten Praktiken des Verhörlagers geworfen werden. Die These, der in diesem Kapitel nachgegangen wird, lautet, dass die Protokollier- und Dokumentationspraktiken der Gefangennehmenden ebenso wie die durch sie dokumentierten Situationen die soziale Ordnung im Verhörlager wesentlich prägten und sich folglich aus ihnen figurierende Praktiken der sozialen Kategorisierung ablesen lassen, die einen Rückschluss auf die brüchige Übergangssituation zwischen politischen Systemen bzw. politisch geprägten Arrangements und Konstellationen, in denen die Beteiligten sich befanden, ermöglichen. Somit kennzeichnen die bearbeiteten kommunikativen Praktiken auch, wenngleich nicht durchgehend und auch nicht sonderlich explizit, Bezugnahmen auf und Auseinandersetzungen mit dem Nationalsozialismus, die zeitlich während des Nationalsozialismus, aber räumlich (und somit territorial, auch in einem ordnungspolitischen Sinne) außerhalb des Nationalsozialismus stattfanden.
Sich selbst und andere politisch zu gesellschaftlichen Themen zu positionieren, ist eine elementare sprachliche und soziale Praxis. Ziel der Akademiekonferenz war es, zu verstehen, wie Positionierungen vollzogen werden, ob bzw. inwiefern sie politisch sind und in welchem wechselseitigen Zusammenhang sie zu gesellschaftlichen, sozialen und politischen Arrangements und Ordnungen stehen. Das Thema der politischen Positionierung wurde in sieben Panels durch unterschiedliche geistes- und sozialwissenschaftliche Disziplinen wie Linguistik, Soziologie, Geschichts-, Literatur- oder Politikwissenschaft bearbeitet. Die Fokussierung von sprachlichen Diskurspraktiken in diversen sozialen und politischen Zusammenhängen zog sich dabei als roter Faden durch die Beiträge.
Einleitung
(2022)
Einleitung
(2022)
Germany’s diverse history in the 20th century raises the question of how social upheavals were constituted in and through political discourse. By analysing basic concepts, the research network “The 20th century in basic concepts” (based at the Leibniz institutes IDS, ZfL, ZZF) aims to identify continuities and discontinuities in political and social discourse. In this way, historical sediments of the present are to be uncovered and those challenges identified that emerged in the course of the 20th century and continue to shape political discourse until the present.
Dieses Kapitel lotet Möglichkeiten und Methoden aus, digitale Diskursanalysen nationalsozialistischer Quellentexte durchzuführen. Digitale Technologie wird dabei als heuristisches Werkzeug betrachtet, mit dem der Sprachgebrauch während des Nationalsozialismus im Rahmen größerer Quellenkorpora untersucht werden kann. In einem theoretischen Abschnitt wird grundsätzlich dafür plädiert, während des Analyseprozesses hermeneutisches Sinnverstehen mit breitflächigen korpusbasierten Abfragen zu kombinieren. Verdeutlicht wird diese Herangehensweise an zwei empirischen Beispielen: Anhand eines Korpus von Hitler- und Goebbels-Reden wird dem Auftauchen und der diskursiven Ausgestaltung des nationalsozialistischen Konzepts „Lebensraum“ nachgespürt. Schritt für Schritt wird offengelegt, welche Analysewege durch das Abfragen von Schlüsseltexten, Keywords, Konkordanzen und Kollokationen verfolgt werden können. Das zweite Beispiel zeigt anhand von Eingaben, die aus der Bevölkerung an Staats- und Parteiinstanzen gerichtet wurden, wie solche Quellen mithilfe eines digitalen Tools manuell annotiert werden können, um sie danach auf Musterhaftigkeiten im Sprachgebrauch hin auswerten zu können.
Brief
(2022)
Der folgende Beitrag untersucht Briefe aus der Zeitspanne des Nationalsozialismus, die von unterschiedlichen Akteur*innen in unterschiedlichen Beteiligungsrollen verfasst worden sind. Es handelt sich um von Soldaten und ihren Angehörigen verfasste Feldpost-, um von Gegner*innen des Nationalsozialismus geschriebene Haftbriefe sowie um Eingaben an Staats- und Parteiinstanzen, die Teil des institutionellen Briefverkehrs sind. Alle diese Formen des Briefschreibens besitzen eine längere Tradition. Ihre Nutzung während der NS-Zeit ist jedoch durch spezifische Ausprägungen gekennzeichnet, die in den jeweiligen Abschnitten beleuchtet werden.
CLARIN stands for “Common Language Resources and Technology Infrastructure”. In 2012 CLARIN ERIC was established as a legal entity with the mission to create and maintain a digital infrastructure to support the sharing, use, and sustainability of language data (in written, spoken, or multimodal form) available through repositories from all over Europe, in support of research in the humanities and social sciences and beyond. Since 2016 CLARIN has had the status of Landmark research infrastructure and currently it provides easy and sustainable access to digital language data and also offers advanced tools to discover, explore, exploit, annotate, analyse, or combine such datasets, wherever they are located. This is enabled through a networked federation of centres: language data repositories, service centres, and knowledge centres with single sign-on access for all members of the academic community in all participating countries. In addition, CLARIN offers open access facilities for other interested communities of use, both inside and outside of academia. Tools and data from different centres are interoperable, so that data collections can be combined and tools from different sources can be chained to perform operations at different levels of complexity. The strategic agenda adopted by CLARIN and the activities undertaken are rooted in a strong commitment to the Open Science paradigm and the FAIR data principles. This also enables CLARIN to express its added value for the European Research Area and to act as a key driver of innovation and contributor to the increasing number of industry programmes running on data-driven processes and the digitalization of society at large.
This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model implementation for German is compared with state-of-the-art approaches. The presented solution is faster than other tools while maintaining comparable quality.
When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state of the art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.
When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state-ofthe-art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.
This chapter will present lessons learned from CLARIN-D, the German CLARIN national consortium. Members of the CLARIN-D communities and of the CLARIN-D consortium have been engaged in innovative, data-driven, and community-based research, using language resources and tools in the humanities and neigh-bouring disciplines. We will present different use cases and users’ stories that demonstrate the innovative research potential of large digital corpora and lexical resources for the study of language change and variation, for language documentation, for literary studies, and for the social sciences. We will emphasize the added value of making language resources and tools available in the CLARIN distributed research infrastructure and will discuss legal and ethical issues that need to be addressed in the use of such an infrastructure. Innovative technical solutions for accessing digital materials still under copyright and for data mining such materials will be presented. We will outline the need for close interaction with communities of interest in the areas of curriculum development, data management, and training the next generation of digital humanities scholars. The importance of community-supported standards for encoding language resources and the practice of community-based quality control for digital research data will be presented as a crucial step toward the provisioning of high quality research data. The chapter will conclude with a discussion of impor-tant directions for innovative research and for supporting infrastructure development over the next decade and beyond.
Cette contribution se concentre sur les locuteurs de l’allemand en situation minoritaire dans le Caucase. Il s’agit de descendants d’anciennes minorités allemandes de l’Empire russe et de l’Union soviétique, qui ont émigré vers les territoires transcaucasiens en plusieurs phases à partir de la fin du xviiie siècle. Les personnes interrogées sont celles qui, en raison de mariages interethniques, ont évité les déportations de 1941 et vivent toujours dans le Caucase du Sud. Avec les méthodes caractéristiques de la sociolinguistique, l’auteure a enregistré, transcrit et analysé des entretiens formels semi-dirigés effectués en 2017 dans le Caucase du Sud avec deux générations de descendants. L’article présente la situation des variétés de l’allemand (dialecte souabe et allemand standard) et de leurs locuteurs dans des constellations de langues en contact dans le Caucase ainsi que les actions menées par différents groupes d’acteurs pour préserver la langue et la culture allemandes en Géorgie.
Lexikalische Wiederholungen nehmen in der Lehre von den rhetorischen Stilfiguren viel Raum ein; in der Linguistik des schriftsprachlichen Deutsch spielen sie dagegen kaum ein Rolle. Die Arbeit überprüft, inwieweit sich die Funktionsweise zweier Figuren der meist unmittelbaren Ausdruckswiederholung, der Geminatio und der Anadiplose, auf der Basis von Standardannahmen zur Syntax, Semantik und Pragmatik des Deutschen erklären lässt.
Zugrunde liegt der Arbeit eine Sammlung von über 700 Instanzen der Geminatio und Anadiplose aus deutschsprachigen Gedichten des 17. bis 21. Jahrhunderts. Es wird daran gezeigt, wie die Geminatio unter Ausnutzung von satztopologischen und NP-internen Positionierungen und darauf aufbauenden bedeutungskompositionellen und implikaturenbasierten Prozessen der Bedeutungkonstitution zum ikonischen Ausdruck der Gradierung von Eigenschaften dient. Die Anadiplose wiederum entpuppt sich als Mittel zur Hervorhebung von Themen und Propositionen, die pragmatisch und informationsstrukturell auf ihrer Einbindung in Herausstellungskonstruktionen und Satzverknüpfungen gründet.
Damit liefern die beiden rhetorischen Figuren kaum Argumente für die Abweichungstheorie literarischer Sprache, derzufolge die Sprachverwendung in literarischen und insbesondere lyrischen Texten oft nicht den Regeln und dem Usus des nicht-literarischen Deutsch folgt. Die Funktionsweise der Geminatio und der Anadiplose ist gut in das syntaktische, semantische und pragmatische System des Deutschen eingebunden. Insbesondere die Geminatio zeigt dabei in Gedichten auch deutliche Parallelen zu entsprechenden Phänomenen im gesprochenen Deutsch.
Uneigentliches Reden, insbesondere die Schaffung und Verwendung von Metaphern und Metonymien, ist weit stärker sprachstrukturell lizenziert als es der kreativ-sprachspielerische Effekt vermuten lässt, der durch neue Tropen erzeugt wird. In diesem Beitrag wird es vor allem um das Konzept des paradigmatischen metaphorischen Musters gehen, dem zufolge die Wörter innerhalb eines Wortfelds ein ähnliches, auf abstrakten Merkmalen basierendes metaphorisches Potenzial entfalten. Dazu werde ich zunächst in Abschnitt 2 auf paradigmatische metonymische Muster eingehen, die in verschiedenen Kontexten und unter verschiedenen Bezeichnungen bereits häufiger untersucht wurden. In Abschnitt 3 werden grundlegende Überlegungen zur Metapher vorgestellt, und in Abschnitt 4 entwickle ich anhand verschiedener Beispiele das Konzept des metaphorischen Musters. In Abschnitt 5 wird der Zusammenhang zwischen metaphorischen Mustern und konzeptuellen Metaphern beleuchtet
Tok Pisin is a pidgin/creole language spoken since the late 19th century in most of the area that nowadays constitutes Papua New Guinea where it emerged under German colonial rule. Unusual for a pidgin/creole, Tok Pisin is characterized by a extensive lexicographic history. The Tok Pisin Dictionary Collection at the Leibniz Institute for the German Language, described in this article, includes about fifty dictionaries. The collection forms the basis for the sketch of the history of Tok Pisin lexicography as part of colonial history presented here. The basic thesis is that in the history of Tok Pisin, lexicographic strat egies, dictionary structures, and publication patterns reflect the interest (and disinterest) of various groups of colonial actors. Among these colonial actors, European scientists, Catholic missionaries, and the Australian and US militaries played important roles.
Tok Pisin is a pidgin/creole language spoken since the late 19th century in most of the area that nowadays constitutes Papua New Guinea where it emerged under German colonial rule. Unusual for a pidgin/creole, Tok Pisin is characterized by a extensive lexicographic history. The Tok Pisin Dictionary Collection at the Leibniz Institute for the German Language, described in this article, includes about fifty dictionaries. The collection forms the basis for the sketch of the history of Tok Pisin lexicography as part of colonial history presented here. The basic thesis is that in the history of Tok Pisin, lexicographic strategies, dictionary structures, and publication patterns reflect the interest (and disinterest) of various groups of colonial actors. Among these colonial actors, European scientists, Catholic missionaries, and the Australian and US militaries played important roles.
We present the use of count-based and predictive language models for exploring language use in the German Reference Corpus DeReKo. For collocation analysis along the syntagmatic axis we employ traditional association measures based on co-occurrence counts as well as predictive association measures derived from the output weights of skipgram word embeddings. For inspecting the semantic neighbourhood of words along the paradigmatic axis we visualize the high dimensional word embeddings in two dimensions using t-stochastic neighbourhood embeddings. Together, these visualizations provide a complementary, explorative approach to analysing very large corpora in addition to corpus querying. Moreover, we discuss count-based and predictive models w.r.t. scalability and maintainability in very large corpora.
Dieser Beitrag analysiert, wie sich Verbosität als Widerstandsphänomen sprachlich-interaktional manifestiert. Widerstand gilt in der psychodynamischen Therapie als Schutzfunktion der Patienten vor Veränderung, die den Fortschritt der Therapie hemmt, ist aus therapeutischer Sicht jedoch ein wertvoller Indikator für dahinterliegende, bedeutungsvolle Erfahrungen der Patienten. Gegenstand der Analyse sind drei Fallbeispiele aufgezeichneter ambulanter, psychodynamischer Therapiesitzungen. Die folgenden Merkmale von Verbosität sind Ergebnisse der Untersuchung: a) eine Themenverschiebung zu Beginn der jeweiligen Erzählung; b) Erzählgegenstand sind dritte, nicht anwesende Personen und/oder alltägliche Begebenheiten; c) Emotionen werden wenig oder gar nicht thematisiert; d) die Erzählungen weisen einen hohen Detailliertheitsgrad auf. Therapeuten behandeln die Erzählungen nur implizit als verbos durch eine zunächst abwartende Haltung, wenig bis keine Nachfragen sowie die Thematisierung von Emotionen und der Bedeutung des Gesagten für die Patienten selbst. Außerdem lenken sie das Gespräch auf die Patienten bzw. auf das vorherige Gesprächsthema oder übertragen die erzählte Geschichte auf die aktuelle Gesprächssituation.
Widerstand als psychoanalytisches Konzept beschreibt die Ambivalenz von Psychotherapiepatient*innen gegenüber dem therapeutischen Veränderungsprozess. Während der*die Patient*in sich mit dem Wunsch, bestimmte Veränderungen zu erzielen, auf die Therapie einlässt, stellen sich diesem Wunsch unbewusste Kräfte entgegen, die versuchen, den Status quo aufrechtzuerhalten. Hintergrund ist die Annahme, dass Widerstand eine Schutzfunktion darstellt, um schmerzhafte Affekte abzuwehren, die integraler Bestandteil eines psychotherapeutischen Prozesses sind. Therapeut*innen sehen sich vor der Aufgabe, Widerstandsphänomene als solche zu erkennen, deren Funktion zu verstehen und einen gemeinsamen Verstehensprozess mit dem*der Patient*in zu ermöglichen. Eine gesprächsanalytische Untersuchung von Widerstand und dessen kommunikativer Bearbeitung bietet eine wertvolle Ergänzung zur psychotherapeutischen Betrachtungsweise. Ein bislang in der Literatur wenig beachtetes Widerstandsphänomen ist Verbosität, womit gemeinhin ausufernde, unfokussierte Erzählungen gemeint sind. Aufbauend auf der bisher einzigen gesprächsanalytischen Untersuchung zu Verbosität als Widerstandsphänomen von Fenner, Spranz-Fogasy und Montan (2022) ist das Ziel der vorliegenden Arbeit, herauszuarbeiten, wie Widerstandsmanagement bei Verbosität verwendet wird. Dafür werden zwei Fallbeispiele gesprächsanalytisch untersucht. Diese stammen aus einem Korpus 34 videographierter ambulanter psychodynamischer Therapiesitzungen. Anhand des ersten Fallbeispiels wird deutlich, dass Verbosität als Widerstandsphänomen nicht nur patient*innenseitig geäußert wird, sondern gemeinsam mit dem*der Therapeut*in interaktiv hergestellt und forciert werden kann. Das zweite Beispiel zeigt, wie Widerstandsmanagement zu einer Auflösung des Widerstands führen kann. Die Analysen verdeutlichen zum einen auch, dass der psychoanalytische Widerstandsbegriff aus gesprächsanalytischer Sicht kritisch zu betrachten ist und zum anderen, dass beide Disziplinen nicht unbedingt zu den gleichen Ergebnissen kommen.
Preface
(2022)
In this paper, we address two problems in indexing and querying spoken language corpora with overlapping speaker contributions. First, we look into how token distance and token precedence can be measured when multiple primary data streams are available and when transcriptions happen to be tokenized, but are not synchronized with the sound at the level of individual tokens. We propose and experiment with a speaker based search mode that enables any speaker’s transcription tier to be the basic tokenization layer whereby the contributions of other speakers are mapped to this given tier. Secondly, we address two distinct methods of how speaker overlaps can be captured in the TEI based ISO Standard for Spoken Language Transcriptions (ISO 24624:2016) and how they can be queried by MTAS – an open source Lucene-based search engine for querying text with multilevel annotations. We illustrate the problems, introduce possible solutions and discuss their benefits and drawbacks.
Le bas allemand, répandu dans le tiers nord de l’Allemagne, est une langue régionale dont l’existence est menacée. Elle compte certes encore un grand nombre de locuteurs, mais ceux-ci présentent une structure d’âge très défavorable. Depuis deux générations, la transmission de la langue au sein des familles n’est plus assurée et l’ensemble des locuteurs est fortement vieillissant. Il existe cependant une pratique de théâtre amateur très vivante dans le nord de l’Allemagne : 3 000 troupes de théâtre jouent en effet en bas allemand. Or ces petites unités organisationnelles touchent justement les jeunes avec leurs offres et leur ouvrent l’accès à la langue régionale. Une enquête menée en ligne en 2017 par le Leibniz-Institut für Deutsche Sprache et l’Institut für niederdeutsche Sprache auprès des troupes de théâtre amateur a montré que ces groupes peuvent offrir un cadre stable pour l’utilisation du bas allemand. De nombreux participants à cette enquête ont indiqué que la possibilité d’utiliser le bas allemand constituait pour eux une motivation importante pour participer à leur troupe de théâtre respective.
Die Arbeit wurde vom Verein für Gesprächsforschung mit dem Dissertationsförderpreis 2020 ausgezeichnet.
Bis heute gehört die Frage, wie InteraktionsteilnehmerInnen verstehen, welche von mehreren möglichen Lesarten eines sprachlichen Formats im jeweiligen Kontext gilt, zu den größten Herausforderungen der Konversationsanalyse. Aufbauend auf den Erkenntnissen über soziales Handeln in der Interaktion in Sprechakttheorie und Konversationsanalyse beschäftigt sich diese Arbeit mit dem Verhältnis zwischen rekurrenten sprachlichen Formaten und sozialen Handlungen. Im Fokus stehen interrogative und deklarative Modalverbformate: soll ich...?, kannst du...?, willst/magst/möchtest du...?, du kannst... und ich kann...
Eine umfassende, korpusdatengestützte Untersuchung zu diesen Formaten im Deutschen fehlte bisher. In der Forschung zu anderen Sprachen wurden vergleichbare Formate eingehender untersucht, aber fast ausschließlich in Bezug auf direktiv-kommissive Handlungen, wie Bitten, Aufforderungen, Angebote, Vorschläge etc., während das breitere Handlungsspektrum und -potenzial der Formate nicht aufgezeigt wurde.
Die vorliegende Untersuchung zeigt auf,
1. welches Handlungsspektrum die untersuchten Formate aufweisen,
2. wie die Komposition eines Turns, dessen Position (i.e., in der laufenden Sequenz, in der Interaktion, in der Aktivität oder in der Interaktionsgeschichte) sowie weitere kontextuelle Faktoren (wie z.B. die Verteilung von epistemischen und deontischen Rechten) dazu beitragen, wie das Format als diese oder jene Handlung in der Interaktion verstanden wird, und
3. welches Handlungspotenzial bzw. welche globale Handlungsbedeutung das jeweilige Format aufweist.
Die Untersuchung bedient sich der Methodik der Konversationsanalyse und der Interaktionalen Linguistik und beruht auf mehr als 500 Belegen aus Videoaufnahmen natürlicher Interaktion aus dem FOLK-Korpus.
Die vorliegende Arbeit zeigt, welche Handlungen mit den untersuchten Formaten vollzogen werden und welche Rolle unterschiedliche Faktoren (wie die Position des Turns, die Verteilung von deontischen und epistemischen Rechten, und die Verantwortung für das Projekt, auf das sich die Handlung bezieht, das Agens der künftigen Handlung, das nonverbale Verhalten von Interagierenden während der Realisierung des fokalen Turns etc.) dafür spielen, wie das jeweilige Format verstanden wird. Überdies wird nachgewiesen, welche weiteren linguistischen Merkmale (wie z.B. Vorkommen von Adverbien und Modal- bzw. Abtönungspartikeln, Argumentrealisierung, Wortfolge, Semantik des Vollverbs etc.) zusätzlich zum Modalverbformat für Handlungskonstitution und -zuschreibung relevant sein können und wann. Somit werden Faktoren herausgearbeitet, die für die weitere Entwicklung des Konzeptes ‚Format für soziale Handlungen‘ notwendig sind.
Die Arbeit zeigt, dass eine umfassende Analyse des gesamten Handlungsspektrums der Verwendung sprachlicher Formen auf Basis eines großen Korpus notwendig ist, um die für bestimmte Handlungsfunktionen relevanten Realisierungs- und Kontextbedingungen korrekt identifizieren zu können und vorschnellen Schlüssen über die Assoziation von linguistischen Formaten mit bestimmten Handlungen vorzubeugen. Trotz unterschiedlicher feingranularer Funktionen der Formate ist allerdings stets eine Kernbedeutung feststellbar, die zum Handlungspotenzial des jeweiligen Formats beiträgt.
Hintergrund
Die sprachlichen Äußerungen sind ein zentrales Medium in Psychotherapien, d. h., Psychotherapie wirkt im Wesentlichen über die Sprache, über das Miteinanderreden. Angesichts der Bedeutung des sprachlichen Austauschs ist es relevant, die Mechanismen, über die Sprache in Psychotherapieprozessen wirkt, genauer zu verstehen. Die linguistische Psychotherapieforschung nutzt hierfür vielfältige Methoden.
Ziel der Arbeit
Vorliegender Beitrag demonstriert exemplarisch 2 mikroanalytische Ansätze.
Material und Methoden
Eine transkribierte Psychotherapiesitzungssequenz wurde aus Perspektive der psychodynamischen Theorie inhaltlich interpretiert und bezüglich sprachlicher Merkmale mithilfe von 2 Methoden mikroanalytisch beurteilt: Die verbalen Techniken (Fokus Therapeutenäußerungen) wurden mithilfe der Psychodynamischen Interventionsliste (PIL) geratet und eine detaillierte Konversationsanalyse (Fokus Dialog) erfolgte.
Ergebnisse
Analysen mit der PIL zeigten, dass im Sitzungsausschnitt überwiegend die Techniken „Bedeutung hinzufügen“ und „Wiederholen, Umschreiben, Zusammenfassen“ verwendet wurden. Thematisch wurde besonders auf den „Vater“ Bezug genommen, gefolgt von der „Therapeutin“. Der zeitliche Bezug lag schwerpunktmäßig in der „Vergangenheit“. Die Gesprächsanalyse rekonstruiert, dass der Wechsel auf die Erlebensebene die Therapiesituation selbst in den Fokus rückt. Mithilfe sequenzieller Handlungszwänge werden extratherapeutische Konstellationen in der Vergangenheit und therapeutische Gegenwart kontrastierbar sowie intersubjektiv bearbeitbar gemacht.
Schlussfolgerung
Die eigene Sprache und den Dialog im Therapieprozess zu beobachten, kann für Therapeuten aufschlussreiche Erkenntnisse über Folgen und Voraussetzungen eigener Interventionen liefern. Forschungen an der interdisziplinären Schnittstelle von Psychotherapie und Linguistik sind lohnenswert.
This paper describes the TEI-based ISO standard 24624:2016 ‘Transcription of spoken language’ and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability between these formats and with rele- vant tools and services. The main idea behind the paper is that a digital infrastructure providing language resources and services to researchers should also allow the combined use of resources and/or services from different contexts. This requires syntactic and semantic interoperability. We propose a solution based on the ISO/TEI format and describe the necessary steps for this format to work as an exchange format with basic semantic interoperability for spoken language resources across the CLARIN infrastructure and beyond.
The normative layer of CLARIN is, alongside the organizational and technical layers, an essential part of the infrastructure. It consists of the regulatory framework (statutory law, case law, authoritative guidelines, etc.), the contractual framework (licenses, terms of service, etc.), and ethical norms. Navigating the normative layer requires expertise, experience, and qualified effort. In order to advise the Board of Directors, a standing committee dedicated to legal and ethical issues, the CLIC, was created. Since its establishment in 2012, the CLIC has made considerable efforts to provide not only the BoD but also the general public with information and guidance. It has published many articles (both in proceedings of CLARIN conferences and in its own White Paper Series) and developed several LegalTech tools. It also runs a Legal Information Platform, where accessible information on various issues affecting language resources can be found.
The debate on the use of personal data in language resources usually focuses — and rightfully so — on anonymisation. However, this very same debate usually ends quickly with the conclusion that proper anonymisation would necessarily cause loss of linguistically valuable information. This paper discusses an alternative approach — pseudonymisation. While pseudonymisation does not solve all the problems (inasmuch as pseudonymised data are still to be regarded as personal data and therefore their processing should still comply with the GDPR principles), it does provide a significant relief, especially — but not only — for those who process personal data for research purposes. This paper describes pseudonymisation as a measure to safeguard rights and interests of data subjects under the GDPR (with a special focus on the right to be informed). It also provides a concrete example of pseudonymisation carried out within a research project at the Institute of Information Technology and Communications of the Otto von Guericke University Magdeburg.
Ethical issues in Language Resources and Language Technology are often invoked, but rarely discussed. This is at least partly because little work has been done to systematize ethical issues and principles applicable in the fields of Language Resources and Language Technology. This paper provides an overview of ethical issues that arise at different stages of Language Resources and Language Technology development, from the conception phase through the construction phase to the use phase. Based on this overview, the authors propose a tentative taxonomy of ethical issues in Language Resources and Language Technology, built around five principles: Privacy, Property, Equality, Transparency and Freedom. The authors hope that this tentative taxonomy will facilitate ethical assessment of projects in the field of Language Resources and Language Technology, and structure the discussion on ethical issues in this domain, which may eventually lead to the adoption of a universally accepted Code of Ethics of the Language Resources and Language Technology community.
In dem auf die Forschungsdaten sprach- und textbasierter Disziplinen ausgerichteten NFDI-Konsortium Text+ spielen Normdaten eine zentrale Rolle für die interoperable Beschreibung und semantische Verknüpfung von verteilten Datenquellen. Insbesondere die Gemeinsame Normdatei (GND) ist ein bedeutender Hub im Zentrum eines im Entstehen begriffenen, domänenübergreifenden Wissensgraphen. Diese Funktion soll im Rahmen von Text+ durch den Aufbau einer GND-Agentur für sprach- und textbasierte Forschungsdaten weiterentwickelt und ausgebaut werden. Ziel ist es, niedrigschwellige, qualitätsgesicherte Beteiligungsmöglichkeiten für Forschende zu schaffen und zugleich den Vernetzungsgrad der GND auch durch Terminologie-Mappings zu erweitern. Spezifische Anforderungen und Nutzungspraktiken werden hierbei anhand der Datendomänen von Text+ exemplifziert.
Between January 2020 and July 2021, many new words and phrases contributed to the expansion of the German vocabulary to enable communication under the new conditions that evolved during the Covid-19 pandemic. Medical and epidemiological vocabulary was integrated into the general language to a large extent. Suddenly, some lexemes from general language were used with very high frequency, while other words were used less often than before. These processes of language change can be studied in various ways, for example, in corpus linguistics with respect to the frequency or emergence of certain words in certain types of texts (e.g. press releases vs. posts in social media), in critical discourse analysis with respect to certain participants of the discourse (e.g. vocabulary of Covid-19 pandemic deniers), or in conversation analysis (e.g. with respect to new verbal interactions in greetings and farewells). The rapid expansion of vocabulary has notably affected also lexicography as a discipline of applied linguistics.
This article will focus on the ways in which a German neologism dictionary project has chosen to capture and document lexicographic information in a timely manner. Both challenges and advantages arise from lexicographic practice “at the pulse of time”. The Neologismenwörterbuch is presented as an example that lends itself well to such a discussion because its subject (neologisms) is characterized as new, innovative, and constantly changing.
Not only professional lexicographers, but also people without a professional background in lexicography, have reacted to the increased need for information on new words or medical and epidemiological terms being used in the context of the COVID-19 pandemic. In this study, corona-related glossaries published on German news websites are presented, as well as different kinds of responses from professional lexicography. They are compared in terms of the amount of encyclopaedic information given and the methods of definition used. In this context, answers to corona-related words from a German questionanswer platform are also presented and analyzed. Overall, these different reactions to a unique challenge shed light on the importance of lexicography for society and vice versa.
Not only professional lexicographers, but also people without a professional background in lexicography, have reacted to the increased need for information on new words or medical and epidemiological terms being used in the context of the COVID-19 pandemic. In this study, corona-related glossaries published on German news websites are presented, as well as different kinds of responses from professional lexicography. They are compared in terms of the amount of encyclopaedic information given and the methods of definition used. In this context, answers to corona-related words from a German questionanswer platform are also presented and analyzed. Overall, these different reactions to a unique challenge shed light on the importance of lexicography for society and vice versa.
This volume of Lexicographica : Series Maior focuses on lexicographic neology and neological lexicography concerning COVID-19 neologisms, featuring papers originally presented at the third Globalex Workshop on Lexicography and Neology (GWLN 2021).
The thirteen papers in this volume focus on ten languages: one Altaic (Korean), one Finno-Ugric (Hungarian), two Germanic (English and German), four Romance (French, Italian, [Brazilian and European] Portuguese and [Pan-American and European] Spanish), and one Slavic (Croatian), as well as the Sign Language of New Zealand. Specialized dictionaries of neologisms are discussed as well as general language ones, monolingual, bilingual and multilingual lexical resources, print and electronic dictionaries. Questions regarding terminology as well as general language and standard and norm regarding COVID-19 neologisms are raised and different methods of detecting candidates in media corpora, as well as by user contributions, are discussed.
Die Integration englischer er-Personenbezeichnungen ins System der deutschen Nomina agentis geht aufgrund struktureller Parallelen scheinbar schnell vonstatten. Auffällig, aber in bestehenden Untersuchungen unberücksichtigt, ist jedoch die (Nicht-)Movierung der Entlehnungen (Sharon ist Manager neben Managerin). Eine Fragebogenstudie mit zwölf prädikativen Konstruktionen, die sich auf weibliche Individuen beziehen, zeigt zunächst, dass Movierung für die meisten Teilnehmenden (ca. ¾) der Normalfall ist. Nur zwei Personen movieren nie. Bei den Teilnehmenden mit schwankender Movierung lässt sich kein Einfluss der Faktoren Geschlecht, Alter und Herkunft der Teilnehmenden sowie Geschlechterstereotyp des Lexems nachweisen. Einfluss auf die Variation haben dagegen der Fremdwortstatus (native Lexeme werden tendenziell eher moviert als Anglizismen), die Gebrauchsfrequenz (frequentere Lexeme werden tendenziell eher moviert als weniger frequente) und die Länge des Lexems (kürzere Lexeme werden tendenziell eher moviert als längere). Die statistische Untersuchung wird von kleineren qualitativen Beobachtungen aus den erhobenen Antworten und aus anderen Datenquellen (v.a. Korpora) ergänzt.
In a previous study published in Nature Human Behaviour, Varnum and Grossmann claim that reductions in gender inequality are linked to reductions in pathogen prevalence in the United States between 1951 and 2013. Since the statistical methods used by Varnum and Grossmann are known to induce (seemingly) significant correlations between unrelated time series, so-called spurious or non-sense correlations, we test here whether the statistical association between gender inequality and pathogens prevalence in its current form also is the result of mis-specified models that do not correctly account for the temporal structure of the data. Our analysis clearly suggests that this is the case. We then discuss and apply several standard approaches of modelling time-series processes in the data and show that there is, at least as of now, no support for a statistical association between gender inequality and pathogen prevalence.
It was recently suggested in a study published in Nature Human Behaviour that the historical loosening of American culture was associated with a trade-off between higher creativity and lower order. To this end, Jackson et al. generate a linguistic index of cultural tightness based on the Google Books Ngram corpus and use this index to show that American norms loosened between 1800 and 2000. While we remain agnostic toward a potential loosening of American culture and a statistical association with creativity/order, we show here that the methods used by Jackson et al. are neither suitable for testing the validity of the index nor for establishing possible relationships with creativity/order.
The present paper reports two acceptability-rating experiments and a supporting corpus study for Polish that tested the acceptability and frequency of five verb classes (WATCH, SEE, HATE, KNOW, EXHIBIT), entailing different sets of agentivity features, in different syntactic constructions: a) the personal passive (e.g. zachód słońca był oglądany ‘the sunset was watched’), b) the impersonal -no/-to construction (e.g. oglądano zachód słońca ‘people/they/one watched the sunset’), and c) the personal active construction (e.g. niektórzy oglądali zachód słońca ‘some (people) watched the sunset’). We asked whether acceptability ratings would show identical acceptability clines across constructions affected by agentivity, as predicted from Dowty’s (1991) prototype account of semantic roles with feature accumulation as its central mechanism, or whether clines would vary depending on syntactic construction, as predicted from Himmelmann & Primus’ (2015) prominence account that uses feature weighting to describe role-related effects. In contrasting the applicability of these two accounts, we also investigated whether previous research findings from German replicate in Polish, thereby revealing cross-linguistic stability or variation. Our results show that the five verb classes yield different acceptability clines in all three Polish constructions and that the clines for Polish and German passives show cross-linguistic variation. This pattern cannot be explained by role prototypicality, so that the experiments provide further evidence for the prominence account of role-related effects in sentence interpretation. Moreover, our data suggest that experiencer verbs interact differently with the animacy of the subject referent, yielding different results for perception verbs (SEE), emotion verbs (HATE), and cognition verbs (KNOW).
Enabling appropriate access to linguistic research data, both for many researchers and for innovative research applications, is a challenging task. In this chapter, we describe how we address this challenge in the context of the German Reference Corpus DeReKo and the corpus analysis platform KorAP. The core of our approach, which is based on and tightly integrated into the CLARIN infrastructure, is to offer access at different levels. The graduated access levels make it possible to find a low-loss compromise between the possibilities opened up and the costs incurred by users and providers for each individual use case, so that, viewed over many applications, the ratio between effort and results achieved can be effectively optimized. We also report on experiences with the current state of this approach.
Dieser Beitrag beschreibt die Motivation und Ziele hinter der Initiative Europäisches Referenzkorpus EuReCo. Ausgehend von den Desiderata, die sich aufgrund der Defizite verfügbarer Forschungsdaten wie monolinguale Korpora, Parallelkorpora und Vergleichskorpora für den Sprachvergleich ergeben, werden die bisherigen und die laufenden Arbeiten im Rahmen von EuReCo präsentiert und anhand vergleichender deutsch-rumänischer Kookkurrenzanalysen neue Perspektiven für kontrastive Korpuslinguistik, die die EuReCo-Initiative öffnet, skizziert.
In diesem Beitrag wird der in den vorliegenden zwei Bänden häufig verwendete Terminus ›Exklusion‹ systematisch und empirisch fundiert als akteursdifferenziertes Beschreibungselement interpretiert. Diese Akteursdifferenzierung(nach NS-Apparat, NS-affin, ausgeschlossen) bedeutet, Exklusion im Sinn einer sprachlich-kommunikativen Praktik bzw. Strategie und unter der Voraussetzung, dass wir es hinsichtlich der entsprechenden sprachlichen Realisate mit Identitätszu- und -abschreibungen zu tun haben, als Identitätsmanagement in den drei Handlungsperspektiven zu beschreiben.
Gegenstand des nachfolgenden Beitrags sind emotionale Positionierungen. Auf der Grundlage dieser Egodokumente, die 1934 entstanden sind und die von den Jahren vom Ersten Weltkrieg bis zum Jahr 1934, mit der Kernzeit der Weimarer Republik, erzählen, wird nach der Funktion von Gefühlsthematisierungen gefragt. Dabei wird vorausgesetzt, dass gerade in der sogenannten »Bewegungsphase« der NSDAP, der Phase des Aufstiegs zwischen Mitte der 1920er Jahre bis zur Machtübergabe 1933, bei aller Politisierung der Akteure dennoch Emotion und Affekt von großer, den Nationalsozialismus stabilisierender Bedeutung waren. Der nachfolgende emotionsgeschichtlich orientierte Versuch wird also auf der Grundlage retrospektiver sprachlicher Konstituierungen seitens der NSDAP-Mitglieder nach 1933 rekonstruiert. Sie formulieren diese Retrospektiven nach dem aus ihrer Sicht erfolgreichen Ende des »Kampfes«.
Die »Prestigeveranstaltung Olympische Spiele« (ebd.) war Gegenstand eines höchst komplexen multimodalen und multimedialen, in allen semiotischen Dimensionen stattfindenden Diskurses. Aus kulturlinguistischer Sicht war der Diskurs der Olympischen Spiele von 1936 ein sprachliches Realisat, in dem sich Faktoren einer sprachlichen Sozialgeschichte verdichteten. Der Hauptfokus ist im Folgenden auf die Frage gerichtet, wie und mit welchen kommunikativen Praktiken Beteiligte aus entgegengesetzten Diskurspositionen auf die Olympischen Spiele Bezug nahmen, um die aufgrund je spezifischer Haltungen zu den Spielen konträren Ereigniskonstitutionen ›olympische Sommerspiele‹ sichtbar zu machen.
Die nachfolgende Konzeptbeschreibung ist ein Beitrag zur »linguistischen Anthropologie« (vgl. den so betitelten Aufsatz von Fritz Hermanns 1994) zur Zeit des Nationalsozialismus. Es geht um »sprachgeprägte Menschenbilder« (Hermanns 1994: 37). Wir rekonstruieren Zuschreibungen von »Eigenschaften und Verhaltensweisen« (ebd., auch 46). Es handelt sich im Sinn sprachlicher Praktiken um Stereotypisierungen, die sich durch die Kontextualisierung von »kategoriengebundenen Merkmalen« (vgl. Stocker 2005: 74–81) und Geschlechts- bzw. Generationenbezeichnungen ausdrücken.
Rede
(2022)
Die auf verschiedenen Ebenen ablaufenden textkommunikativen Funktionalisierungs- und Anpassungsprozesse widerständischer Akteure sowie Konstitutionsprozesse von Akteuren des NS-Apparates anhand der Textsorte ›politische Rede‹ sollen Gegenstand dieses Beitrages sein, innerhalb dessen sowohl historisch relevante als auch bisher von der Forschung kaum oder gar nicht beachtete politische Reden der verschiedenen Akteursgruppen analysiert werden sollen: Insgesamt wurden 32 Reden in die Analyse einbezogen. 23 stammen von Akteuren des NS-Apparates, neun von Mitgliedern des Widerstands.
Tagebuch
(2022)
Die Subjektivität des Tagebuchs als eine Art Archiv historischer Daten ist insofern zum einen im Zeichen einer sprachlichen Sozialgeschichte zu analysieren und zum andern, aus der Retrospektive, von hohem sprach-, diskurs- sowie kommunikationsgeschichtlichem Wert. Die Spezifik und akteursbedingte Variantenvielfalt darzustellen, ist das Ziel dieses Beitrags. Er basiert auf der Auswertung von insgesamt elf Tagebüchern. Zwei sind von NS-Akteuren verfasst, eines von einer NS-affinen Akteurin der Integrierten Gesellschaft, eines von einem dissidenten Akteur der Integrierten Gesellschaft, vier von Mitgliedern des Widerstands und drei Tagebücher von ausgeschlossenen Akteuren.
Um die mit dem Ausdruck Volksgemeinschaft gegebene Handlungsanleitung auf sprachlicher Ebene nachzuzeichnen und in diesem Zusammenhang auch die Dynamik des Gemeinschaftsbegriffs zwischen 1933 und 1945 einzufangen, beschreiten wir methodisch den Weg, die Kotextprofile über die morphosyntaktische Einbettung und damit über die Kontextualisierung des Ausdrucks zu erfassen. Akteursbezogen werden dabei diejenigen Handlungsmuster relevant, in denen das Konzept der Volksgemeinschaft besprochen, behauptet oder beschworen wird. Aufgrund der semantischen Polyvalenz der Wortbildung Volksgemeinschaft und ihrer hohen Reichweite in alle gesellschaftliche Bereiche wird für eine textnahe Interpretation erhoben, zu welchen Themenbereichen die unter dem Gemeinschaftsgedanken verhandelten Gegenstände gehören (z. B. Sport, Architektur, Fahrten etc.), aber auch, wie sich der einzelne oder das Kollektiv in diese Wissens- und Handlungsfelder einschreiben.
In this article we examine moments in which parents or other caregivers overtly invoke rules during episodes in which they take issue with, intervene against, and try to change a child’s ongoing behavior or action(s). Drawing on interactional data from four different languages (English, Finnish, German, Polish) and using Conversation Analytic methods, we first illustrate the variety of ways in which parents may use such overt rule invocations as part of their behavior modification attempts, showing them to be functionally versatile interactional objects. Their interactional flexibility notwithstanding, we find that parents typically invoke rules when, in the course of the intervention episode, they encounter trouble with achieving an acceptable compliant outcome. To get at the distinct import of rule formulations in this context, we then compare them to two sequential alternatives: parental expressions of an experienced negative affective state, and parental threats. While the former emphasize aspects of social solidarity, the latter seek to enforce compliance by foregrounding a power asymmetry between the parent and the child. Rule formulations, by contrast, are designedly impersonal and appear to be directed at what the parents construe as shortcomings in common-sense practical reasoning on the child’s part. Reflexively, the child is thereby cast as not having properly applied common-sense ‘practical reason’ when engaging in what is treated as the problematic behavior or action. Overt rule invocations can, therefore, be understood as indexical appeals to practical reason.
Seit Mitte der 1990er Jahre wird am Institut für deutsche Sprache (IDS) in Mannheim erforscht, wie der hochkomplexe Gegenstandsbereich „Grammatik“ unter Ausnutzung hypertextueller Navigationsstrukturen wissenschaftlich fundiert und anschaulich vermittelt werden kann. Eine zentrale Bedeutung kommt folglich einer konsistenten, theorieübergreifenden Vernetzung sämtlicher Textinhalte zu. Um eine automatisierbare Bezugnahme zwischen mit unterschiedlichem terminologischem Vokabular formulierten, aber das gleiche sprachliche Phänomen beschreibenden Inhalten zu befördern, bildet eine onomasiologisch konzipierte Terminologiedatenbank das Rückgrat des Online-Systems. Der Beitrag beschreibt Konzeption und Aufbau der skizzierten linguistischen Fachterminologie.
Metadata provides important information relevant both to finding and understanding corpus data. Meaningful linguistic data requires both reasonable annotations and documentation of these annotations. This documentation is part of the metadata of a dataset. While corpus documentation has often been provided in the form of accompanying publications, machinereadable metadata, both containing the bibliographic information and documenting the corpus data, has many advantages. Metadata standards allow for the development of common tools and interfaces. In this paper I want to add a new perspective from an archive’s point of view and look at the metadata provided for four learner corpora and discuss the suitability of established standards for machine-readable metadata. I am are aware that there is ongoing work towards metadata standards for learner corpora. However, I would like to keep the discussion going and add another point of view: increasing findability and reusability of learner corpora in an archiving context.
The QUEST (QUality ESTablished) project aims at ensuring the reusability of audio-visual datasets (Wamprechtshammer et al., 2022) by devising quality criteria and curating processes. RefCo (Reference Corpora) is an initiative within QUEST in collaboration with DoReCo (Documentation Reference Corpus, Paschen et al. (2020)) focusing on language documentation projects. Previously, Aznar and Seifart (2020) introduced a set of quality criteria dedicated to documenting fieldwork corpora. Based on these criteria, we establish a semi-automatic review process for existing and work-in-progress corpora, in particular for language documentation. The goal is to improve the quality of a corpus by increasing its reusability. A central part of this process is a template for machine-readable corpus documentation and automatic data verification based on this documentation. In addition to the documentation and automatic verification, the process involves a human review and potentially results in a RefCo certification of the corpus. For each of these steps, we provide guidelines and manuals. We describe the evaluation process in detail, highlight the current limits for automatic evaluation and how the manual review is organized accordingly.
In der atelischen an-Konstruktion im Deutschen treten die Verben mit einer an-Präpositionalphrase auf (an etwas malen/essen/basteln). Basierend auf Korpusdaten wird in diesem Band gegen die verbreitete Alternationsanalyse der an-Konstruktion als präpositionales Pendant der transitiven Verbverwendung argumentiert. Stattdessen werden an-Phrasen als ereignisinterne Modifikatoren von einstelligen Activity-Verbvarianten analysiert, die eine in der lokalen Bedeutung der Präposition wurzelnde boundary-Relation einführen. Aus empirischer Perspektive wird ein Inventar von korpusbasierten Methoden und Maßen für die Untersuchung von (vermeintlichen) Argumentalternationen vorgestellt. Schließlich wird der bisher wenig diskutierte Zusammenhang von Argumentrealisierung und Metaphernbildung diskutiert.
Die Studie wurde mit dem Wilhelm von Humboldt Preis des Jahres 2022 der Deutschen Gesellschaft für Sprachwissenschaft ausgezeichnet.
In this paper, we deal with register-driven variation from a probabilistic perspective, as proposed in Schäfer, Bildhauer, Pankratz, Müller (2022). We compare two approaches to analyse this variation within HPSG. On the one hand, we consider a multiple-grammar approach and combine it with the architecture proposed in the CoreGram project Müller (2015) - discussing its advantages and disadvantages. On the other hand, we take into account a single-grammar approach and argue that it appears to be superior due to its computational efficiency and cognitive plausibility.
Dieser Beitrag möchte einen Überblick über die Rolle geben, die die Regionalsprache Lettgallisch im Bildungssektor im Baltikum spielt. Zum einen soll in groben Zügen die historische gesellschaftliche Entwicklung des Lettgallischen mit einem Schwerpunkt auf dem Bildungsbereich dargestellt werden, zum anderen werden Entwicklungen der letzten Jahre diskutiert, in denen Diskurse und Einstellungen zum Lettgallischen eine Wandlung durchlaufen. Der theoretische Rahmen dafür sind internationale Diskussionen zu Regional- und Minderheitensprachen sowie Debatten in der Bildungspolitik. Damit soll nicht zuletzt Aufmerksamkeit für das Lettgallische in der deutschsprachigen Wahrnehmung des Baltikums generiert werden, das in einem Kompendium zu Bildungsgeschichte(n) im Baltikum nicht fehlen darf. Nach einer kurzen Einführung in die Region Lettgallen (Latgale) und das Lettgallische folgen aktuelle Beispiele für den sich ändernden Gebrauch des Lettgallischen und seine Einordung in Diskurse zu Minderheitensprachen. Schließlich wird auf jüngste politische Entwicklungen eingegangen, etwa im Kontext der Ausarbeitung neuer Lehrstandards für die staatlichen Schulen in Lettland.
Every Regional Dossier begins with an introduction about the region in question, followed by six chapters that each deal with a specific level of the education system (e.g. primary education). Chapters 8 and 9 cover the main lines of research into education of the minority language under discussion, and the prospects for the minority language in general and in education in particular, respectively. Chapter 10 provides a summary of statistics. Lists of (legal) references and useful addresses regarding the minority language are given at the end of the dossier.
The CLARIN Concept Registry (CCR) is the common semantic ground for most CMDI-based profiles to describe language-related resources in the CLARIN universe. While the CCR supports semantic interoperability within this universe, it does not extend beyond it. The flexibility of CMDI, however, allows users to use other term or concept registries when defining their metadata components. In this paper, we describe our use of schema.org, a light ontology used by many parties across disciplines.
Kontrastiv-multilingual angelegte empirische Studien erfordern eine vergleichbare Datengrundlage. Je nachdem, welche Forschungsfragen im Zentrum der sprachvergleichenden Untersuchungen stehen, bieten sich entweder Parallelkorpora oder vergleichbare einzelsprachliche Korpora als Datengrundlage an. Dieser Beitrag verfolgt hauptsächlich das Ziel, die Herausforderungen aufzuzeigen, die die Arbeit mit vergleichbaren Korpora im multilingualen Sprachvergleich aufwirft. Dabei soll u.a. das Prinzip der Vergleichbarkeit von Korpora thematisiert und methodologische Vorschläge für konkrete empirisch angelegte sprachvergleichende Analysen vorgelegt werden. Die Möglichkeiten und Grenzen der empirisch basierten quantitativen und qualitativen Analysearbeit werden durch die Präsentation einiger exemplarischer Forschungsfragen und -ergebnisse aufgezeigt. Einige Desiderata für zukünftige korpusbasierte Studien auf der Basis von vergleichbaren Korpora im multilingualen Raum schließen den Beitrag ab.
This paper presents the Lehnwortportal Deutsch, a new, freely accessible publication platform for resources on German lexical borrowings in other languages, to be launched in the second half of 2022. The system will host digital-native sources as well as existing, digitized paper dictionaries on loanwords, initially for some 15 recipient languages. All resources remain accessible as individual standalone dictionaries; in addition, data on words (etyma, loanwords etc.) together with their senses and relations to each other is represented as a cross-resource network in a graph database, with careful distinction between information present in the original sources and the curated portal network data resulting from matching and merging information on, e. g., lexical units appearing in multiple dictionaries. Special tooling is available for manually creating graphs from dictionary entries during digitization and for editing and augmenting the graph database. The user interface allows users to browse individual dictionaries, navigate through the underlying graph and ‘click together’ complex queries on borrowing constellations in the graph in an intuitive way. The web application will be available as open source.
This paper presents the Lehnwortportal Deutsch, a new, freely accessible publication platform for resources on German lexical borrowings in other languages, to be launched in the second half of 2022. The system will host digital-native sources as well as existing, digitized paper dictionaries on loanwords, initially for some 15 recipient languages. All resources remain accessible as individual standalone dictionaries; in addition, data on words (etyma, loanwords etc.) together with their senses and relations to each other is represented as a cross-resource network in a graph database, with careful distinction between information present in the original sources and the curated portal network data resulting from matching and merging information on, e. g., lexical units appearing in multiple dictionaries. Special tooling is available for manually creating graphs from dictionary entries during digitization and for editing and augmenting the graph database. The user interface allows users to browse individual dictionaries, navigate through the underlying graph and ‘click together’ complex queries on borrowing constellations in the graph in an intuitive way. The web application will be available as open source.
In semantic fieldwork, it is common to use a language other than the language under investigation for presenting linguistic materials to the language consultants, e.g. discourse contexts in acceptability judgment tasks. Previous works commenting on the use of a ‘meta-language’ or ‘language of wider communication’ in this sense (AnderBois and Henderson 2015; Matthewson 2004) have argued that this practice is not methodologically inferior to the exclusive use of the object language for elicitation, but that the fieldworker needs to be alert to potential influences of the meta-language or, indeed, the object language, on the elicited judgments. Thus, the choice of a language for presenting discourse contexts is an integral component of fieldwork methodology. This paper provides a research report with a focus on this component. It describes a multilingual fieldwork setting offering several potential meta-languages, which the fieldworker and the consultants master to varying degrees. The choice of the languages in this setting is discussed with regard to methodological, social and practical considerations and related to selected, more general methodological questions regarding semantic fieldwork practice.
We present a simple tool for extracting text and markup information from printouts of (not only) scientific documents. While the heavy-lifting OCR is done by off-the-shelf tesseract, our focus is on detection, extraction, and basic categorization of color-highlighted text sections, as well as on providing a framework for downstream processing of extraction results. The tool can be useful for document analysis tasks that must, or benefit from being able to, use printed paper.
Zumutung, Herausforderung, Notwendigkeit? Zum Stand der Forschung zu geschlechtergerechter Sprache
(2022)
Wissenschaftlich basierte allgemeine Wörterbücher des Deutschen werden heute meist korpusbasiert erarbeitet, d. h. die in ihnen beschriebene Sprache wird vor der lexikografischen Beschreibung empirisch erforscht. Diese Korpora sind allerdings, wie die großen linguistischen Textsammlungen zum Deutschen allgemein, durch Zeitungstexte dominiert. Daher beruhen die in Wörterbüchern beschriebenen Kollokationen und typischen Verwendungskontexte zumindest teilweise auf dieser Textsorte. Wir untersuchen in unserem Beitrag anhand einer Fallstudie zu Mann und Frau, wie stark sich die Beschreibung solcher Kollokationssets ändern würde, wenn als Korpusgrundlage nicht Zeitungen, sondern Publikumszeitschriften oder belletristische Texte herangezogen würden und wie unterschiedlich demnach Geschlechterstereotype dargestellt würden. Damit diskutieren wir auch die Frage, ob Zeitungstexte in diesem Fall ein adäquates und vielseitiges Abbild des Gebrauchsstandards zeigen. Auf einer allgemeineren Ebene wird dadurch ein grundlegendes Problem korpuslinguistischer Forschungsarbeiten tangiert, nämlich die Frage, inwieweit durch Korpora überhaupt ein ‚objektives‘ Bild der sprachlichen Wirklichkeit gezeichnet werden kann.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality”1 depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.
Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Dictionaries are often a reflection of their time; their respective (socio-)historical context influences how the meaning of certain lexical units is described. This also applies to descriptions of personal terms such as man or woman. Lexicographers have a special responsibility to comprehensively investigate current language use before describing it in the dictionary. Accordingly, contemporary academic dictionaries are usually corpus-based. However, it is important to acknowledge that language is always embedded in cultural contexts. Our case study investigates differences in the linguistic contexts of the use of man and woman, drawing from a range of language collections (in our case fiction books, popular magazines and newspapers). We explain how potential differences in corpus construction would therefore influence the “reality” depicted in the dictionary. In doing so, we address the far-reaching consequences that the choice of corpus-linguistic basis for an empirical dictionary has on semantic descriptions in dictionary entries.Furthermore, we situate the case study within the context of gender-linguistic issues and discuss how lexicographic teams can engage with how dictionaries might perpetuate traditional role concepts when describing language use.
Olaf Scholz gendert. Eine Analyse von Personenbezeichnungen in Weihnachts- und Neujahrsansprachen
(2022)
Schlagzeilen wie die in unserer Überschrift blieben im Januar 2022 aus. Dabei enthielt die erste Neujahrsansprache von Olaf Scholz kein einziges generisches Maskulinum, sondern Doppelformen (Mitbürgerinnen und Mitbürger, Expertinnen und Experten), geschlechtsabstrahierende Ausdrücke (Eltern, Familien, Geimpfte, Menschen) und Personalisierungen bzw. Umschreibungen wie uns allen, es haben sich 60 Millionen […] impfen lassen, oder ich möchte allen danken. Die Rede nutzt somit durchgängig verschiedene Formen geschlechtergerechter Sprache, wohl aber so unauffällige Formen, dass dies keine mediale Aufmerksamkeit auf sich gezogen hat. Nebenbei: Dies zeigt, dass es bei den hitzigen öffentlichen Diskussionen rund um das Thema nicht um alle Formen geschlechtergerechter Sprache geht, sondern eigentlich nur um bestimmte Formen, wie z.B. die Verwendung des Gendersterns. Wir stellen hier einige Beobachtungen basierend auf einem annotierten Korpus von Ansprachen vor, die Sie selbst anhand einer Online-App nachvollziehen können.
This contribution investigates the use of the Czech particle jako (“like”/“as”) in naturally occurring conversations. Inspired by interactional research on unfinished or suspended utterances and on turn-final conjunctions and particles, the analysis aims to trace the possible development of jako from conjunction to a tag-like particle that can be exploited for mobilizing affiliative responses. Traditionally, jako has been described as conjunction used for comparing two elements or for providing a specification of a first element [“X (is) like Y”]. In spoken Czech, however, jako can be flexibly positioned within a speaking turn and does not seem to operate as a coordinating or hypotactic conjunction. As a result, prior studies have described jako as a polyfunctional particle. This article will try to shed light on the meaning of jako in spoken discourse by focusing on its apparent fuzzy or “filler” uses, i.e., when it is found in a mid-turn position in multi-unit turns and in the immediate vicinity of hesitations, pauses, and turn suspensions. Based on examples from mundane, video-recorded conversations and on a sequential and multimodal approach to social interaction, the analyses will first show that jako frequently frames discursive objects that co-participants should respond to. By using jako before a pause and concurrently adopting specific embodied displays, participants can more explicitly seek to mobilize responsive action. Moreover, as jako tends to cluster in multi-unit turns involving the formulation of subjective experience or stance, it can be shown to be specifically designed for mobilizing affiliative responses. Finally, it will be argued that the potential of jako to open up interactive turn spaces can be linked to the fundamental comparative semantics of the original conjunction.
Kammerspiel
(2022)
The article investigates the hypothesis that prominence phenomena on different levels of linguistic structure are systematically related to each other. More specifically, it is hypothesized that prominence relations in morphosyntax reflect, and contribute to, prominence management in discourse. This hypothesis is empirically based on the phenomenon of agentivity clines, i.e. the observation that the relevance of agentivity features such as volition or sentience is variable across different constructions. While some constructions, including German DO-clefts, show a strong preference for highly agentive verbs, other constructions, including German basic active constructions, have no particular requirements regarding the agentivity of the verb, except that at least one agentivity feature should be present. Our hypothesis predicts that this variable relevance of agentivity features is related to the discourse constraints on the felicitous use of a given construction, which in turn, of course, requires an explicit statement of such constraints. We propose an original account of the discourse constraints on DO-clefts in German using the ‘Question Under Discussion’ framework. Here, we hypothesize that DO-clefts render prominent one implicit question from a set of alternative questions available at a particular point in the developing discourse. This then yields a prominent question-answer pair that changes the thematic structure of the discourse. We conclude with some observations on the possibility of relating morphosyntactic prominence (high agentivity) to discourse prominence (making a Question Under Discussion prominent by way of clefting).
Recent years have seen a growing interest in linguistic phenomena that challenge the received division of labour between lexicon and grammar, and hence often fall through the cracks of traditional dictionaries and grammars. Such phenomena call for novel, pattern based types of linguistic reference works (see various papers in Herbst 2019). The present paper introduces one such resource: MAP (“Musterbank argumentmarkierender Präpositionen”), a web based corpus linguistic patternbank of prepositional argument structure constructions in German. The paper gives an overview of the design and functionality of the MAP prototype currently developed at the Leibniz Institute for the German Language in Mannheim. We give a brief account of the data and our analytic workflow, illustrate the descriptions that make up the resource and sketch available options for querying it for specific lexical, semantic and structural properties of the data.
Recent years have seen a growing interest in linguistic phenomena that challenge the received division of labour between lexicon and grammar, and hence often fall through the cracks of traditional dictionaries and grammars. Such phenomena call for novel, pattern-based types of linguistic reference works (see various papers in Herbst 2019). The present paper introduces one such resource: MAP (“Musterbank argumentmarkierender Präpositionen”), a web-based corpus-linguistic patternbank of prepositional argument structure constructions in German. The paper gives an overview of the design and functionality of the MAP-prototype currently developed at the Leibniz-Institute for the German Language in Mannheim. We give a brief account of the data and our analytic workflow, illustrate the descriptions that make up the resource and sketch available options for querying it for specific lexical, semantic and structural properties of the data.
The shortening of linguistic expressions naturally involves some sort of correspondence between short forms and (some portion of) the respective full forms. Based mostly on data from English and Hebrew this article explores the hypothesis that such correspondence concerns necessary sameness of symbolic form, referring either to graphemic or to a specific level of phonological representation. That level indicates a degree of abstractness defined by language-specific contrastiveness (i.e. “phonemic”). Reference to written form can be shown to be highly systematic in certain contexts, including cases where full forms consist of multiple stems. Specific asymmetries pertaining to the targeting of material by correspondence (e.g. initial vs. non-initial position) appear to be alike for both types of representation, a claim supported by a study based on a nomenclature strictly confined to writing (chemical element symbols).
Head alignment in German compounds: Implications for prosodic constituency and morphological parsing
(2022)
The notion of head alignment was introduced to account for the observation that in a word with multiple feet, one is more prominent than the others. In particular, this notion is meant to capture the characteristic edge-orientation of main stress by requiring the (left or right) word boundary and the respective (left or right) boundary of the head foot to coincide (McCarthy & Prince 1993). In the present paper the notion of head alignment will be applied to compounds, which are also characterized by the property that one of their members, located in a margin position, is most prominent.
The adequacy of an analysis in terms of head alignment hinges on the question of whether observable prominence peaks associate with the boundaries of independently motivated constituents. It will be argued that such links exist for German compounds, indicating reference to at least three distinct compound categories established on morphological grounds: copulative, phrasal, and a default class of “regular” compounds. The evidence for the relevant distinctions sheds light on morphological parsing, indicating that compound categories can be – and often are – determined by properties pertaining to their complete form, rather than by conditions affecting their (original) construction.
This paper presents a compositional annotation scheme to capture the clusivity properties of personal pronouns in context, that is their ability to construct and manage in-groups and out-groups by including/excluding the audience and/or non-speech act participants in reference to groups that also include the speaker. We apply and test our schema on pronoun instances in speeches taken from the German parliament. The speeches cover a time period from 2017-2021 and comprise manual annotations for 3,126 sentences. We achieve high inter-annotator agreement for our new schema, with a Cohen’s κ in the range of 89.7-93.2 and a percentage agreement of > 96%. Our exploratory analysis of in/exclusive pronoun use in the parliamentary setting provides some face validity for our new schema. Finally, we present baseline experiments for automatically predicting clusivity in political debates, with promising results for many referential constellations, yielding an overall 84.9% micro F1 for all pronouns.
The question of whether a letter is a grapheme or not is a perennial issue in writing research. The answer depends on which criteria are used to differentiate between letters and graphemes and, ultimately,how the unit ‘grapheme’ is defined. This problem is particularly relevant to complex graphemes, i.e. sequences of letters that behave like a single grapheme in certain respects. Typical for German is the ‹ch›. This paper argues for a scalar concept of graphemes, which compares the grapheme status of each of the units under investigation. For this purpose, new criteria for the identification of complex graphemes are used, which originate from handwriting analysis. There, it is shown that complex graphemes are connected with each other disproportionately often and also have deviating letter forms disproportionately often.