Refine
Year of publication
- 2019 (137) (remove)
Document Type
- Article (53)
- Conference Proceeding (30)
- Part of a Book (23)
- Book (15)
- Other (5)
- Review (5)
- Working Paper (4)
- Part of Periodical (2)
Language
- German (76)
- English (57)
- Multiple languages (2)
- Ukrainian (2)
Keywords
- Deutsch (46)
- Korpus <Linguistik> (31)
- Gesprochene Sprache (13)
- Automatische Sprachanalyse (12)
- Konversationsanalyse (9)
- corpus linguistics (9)
- Interaktion (7)
- Social Media (7)
- Kommunikation (6)
- Sprachstatistik (6)
Publicationstate
- Veröffentlichungsversion (137) (remove)
Reviewstate
- Peer-Review (75)
- (Verlags)-Lektorat (57)
Publisher
- Leibniz-Institut für Deutsche Sprache (IDS) (26)
- Leibniz-Institut für Deutsche Sprache (19)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (9)
- Lexical Computing CZ s.r.o. (6)
- Institut für Deutsche Sprache (5)
- de Gruyter (5)
- Heidelberg University Publishing (4)
- Narr (4)
- The Association for Computational Linguistics (4)
- Spektrum der Wissenschaft Verlagsgesellschaft (3)
We examine the new task of detecting derogatory compounds (e.g. curry muncher). Derogatory compounds are much more difficult to detect than derogatory unigrams (e.g. idiot) since they are more sparsely represented in lexical resources previously found effective for this task (e.g. Wiktionary). We propose an unsupervised classification approach that incorporates linguistic properties of compounds. It mostly depends on a simple distributional representation. We compare our approach against previously established methods proposed for extracting derogatory unigrams.
Naming and titling have been discussed in sociolinguistics as markers of status or solidarity. However, these functions have not been studied on a larger scale or for social media data. We collect a corpus of tweets mentioning presidents of six G20 countries by various naming forms. We show that naming variation relates to stance towards the president in a way that is suggestive of a framing effect mediated by respectfulness. This confirms sociolinguistic theory of naming and titling as markers of status.
Die korpusbasierte Lexikografie ist ein interessanter und vielfältiger wissenschaftlicher Anwendungsbereich, der auch im muttersprachlichen Deutschunterricht und im Deutsch-als-Fremdsprache-Unterricht eine größere Rolle einnehmen sollte. In unserem Beitrag stellen wir deshalb geeignete Korpora und Korpusanalysewerkzeuge vor, mit deren Hilfe Nutzerinnen und Nutzer einzelne Angabebereiche in einem Wörterbuch nicht nur nachvollziehen, sondern auch eigenständig erarbeiten können. Neben vorhandenen Ansätzen geschieht dies am Beispiel des Denktionarys, eines wikibasierten Wörterbuches, für das Schülerinnen und Schüler im Rahmen des Projekts Schüler machen Wörterbücher – Wörterbücher machen Schule im muttersprachlichen Deutschunterricht selbst korpusbasierte Artikel verfassten.
The article starts by outlining the theoretical and conceptual foundations in the field of multimodal interaction analysis, which, based on its spatiallinguistic orientation, deals with the meaning of space for the constitution of social meaning. Conceptually, we refer to the ideas of architecture-forinteraction and social topography. Empirically, we look towards the entire range of visually perceptible physical expressions of the Communion participants. We also focus on the spatial prerequisites and the space-related knowledge of the visitors, which becomes evident in their situational behaviour. From our point of view, Communion is not only a ritual in worship but also a task of coordination and positioning. We analyse video excerpts of two Communions in Lutheran-Protestant worship. The central question is: How do the people who hand out the sacrament to the participants take part in the procedure themselves (self-supply)? The video excerpts are from Germany(Rimbach and Zotzenbach, South Hesse). We see self-supply as a situational reproduction of institutional structures and relevancies. Methodologically, we first analyse an example in detail, in which we elaborate constitutive aspects of self-supply and the associated implications in the sense of an arising communitisation of the faithful. The subsequent analysis is carried out from a comparative perspective with reference to the results already obtained. The analyses lead to two basic models. Firstly, we identified a two-phase model in which first the churchgoers and then separately the institution’s representatives celebrate Communion. Structurally linked to this model is the is the diverging presence of those who have already completed the ritual, divergence resulting in two ensembles with their respective interaction space. The churchgoers watch the pastor and his assistants perform the ritual themselves. Secondly, we were able to formulate an integrative model in which the pastor celebrates Communion as one of the community. This preserves cohesion among all churchgoers and there is no ritual display of the institution’s representatives as in the two-phase model. As for model-shaping factors, two aspects become particularly clear: The first are the opportunities which the architecture-forinteraction, i.e. the concrete space for the Communion, provides. The second is the number of participants who perform the ceremony under these spatial conditions. Both aspects have a direct impact on the organisation of Communion, the movement within the church space and, indirectly, on the structure and implications of self-supply.
Einleitung
(2019)
Gerhard Stickel (*1937) bietet in diesem Band eine Auswahl aus seinen kleineren Arbeiten, die in der Zeit von 1966 bis 2019 erschienen sind. Geboten wird eine bunte Vielfalt von Aufsätzen und Essays zu Themen, mit denen der Autor sich in all den Jahren befasst hat, darunter: Negation, Kontrastive Grammatik, ‚Fremdwörter', Sprache und Geschlecht, Spracheinstellungen, Rechts- und Verwaltungssprache sowie deutsche und europäische Sprachpolitik. Mehrere Arbeiten sind während Stickels langjähriger Tätigkeit als Direktor des Instituts für Deutsche Sprache (1976-2002) entstanden und ab 2003 im Zusammenhang mit seinen Aufgaben in und für EFNIL, der European Federation of National Institutions for Language. Erhofft wird, dass auch die älteren Arbeiten über ihre Zeitgebundenheit hinaus für manche Linguistinnen und Linguisten sowie andere Sprachinteressierte anregend sein können.
Im Mittelpunkt der vorliegenden Untersuchung stehen ausgewählte deutschsprachige Werbeslogans mit hohem Wiedererkennungswert und einer Tendenz zur Usualisierung im aktuellen Sprachgebrauch. Ihre angesichts des häufigen Gebrauchs durch zahlreiche Sprecher begründete bzw. angenommene lexikalische Verfestigung wird korpusinformiert anhand umfangreicher elektronischer Korpora validiert und rekonstruiert. Für die Beschreibung ihrer Verwendungsspezifik als eigenständige satzwertige Wortschatzeinheiten außerhalb der Domäne Werbung wird das Modell der usuellen Wortverbindungen sowie die korpuslinguistische Methodologie angewendet und mit weiteren qualitativen und quantitativen Methoden gekoppelt. In den detaillierten lexikografischen Beschreibungen ausgewählter Slogans werden sprachliche, kontextuelle und funktionale Aspekte dargestellt und die Mikrodiachronie ihres Gebrauchs in Zeitverlaufsgrafiken illustriert.
Studying Lexical Dynamics and Language Change via Generalized Entropies: The Problem of Sample Size
(2019)
Recently, it was demonstrated that generalized entropies of order α offer novel and important opportunities to quantify the similarity of symbol sequences where α is a free parameter. Varying this parameter makes it possible to magnify differences between different texts at specific scales of the corresponding word frequency spectrum. For the analysis of the statistical properties of natural languages, this is especially interesting, because textual data are characterized by Zipf’s law, i.e., there are very few word types that occur very often (e.g., function words expressing grammatical relationships) and many word types with a very low frequency (e.g., content words carrying most of the meaning of a sentence). Here, this approach is systematically and empirically studied by analyzing the lexical dynamics of the German weekly news magazine Der Spiegel (consisting of approximately 365,000 articles and 237,000,000 words that were published between 1947 and 2017). We show that, analogous to most other measures in quantitative linguistics, similarity measures based on generalized entropies depend heavily on the sample size (i.e., text length). We argue that this makes it difficult to quantify lexical dynamics and language change and show that standard sampling approaches do not solve this problem. We discuss the consequences of the results for the statistical analysis of languages.
How do people communicate in mobile settings of interaction? How does mobility affect the way we speak? How does mobility exert influence on the manner in which talk itself is consequential for how we move in space? Recently, questions of this sort have attracted increasing attention in the human and social sciences. This Special Issue contributes to the emerging body of studies on mobility and talk by inspecting an ordinary and ubiquitous phenomenon in which communication among mobile participants is paramount: participation in traffic. This editorial presents previous work on mobility in natural settings, as carried out by interactionally oriented researchers. It also shows how the investigation into traffic participation adds new perspectives to research on language and communication.
This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying developments in form and usage over time and in different types of texts. The contribution summarizes results of a pilot study: First, it describes the manual annotation of a corpus of short narrative texts in relation to linguistic descriptions of ST&WR. Then, two different techniques of automatic detection – a rule-based and a machine learning approach – are described and compared. Evaluation of the results shows success with automatic detection, especially for direct and indirect ST&WR.
We present an approach for automatic detection and correction of OCR-induced misspellings in historical texts. The main objective is the post-correction of the digitized Royal Society Corpus, a set of historical documents from 1665 to 1869. Due to the aged material the OCR procedure has made mistakes, thus leading to files corrupted by thousands of misspellings. This motivates a post processing step. The current correction technique is a pattern-based approach which due to its lack of generalization suffers from bad recall.
To generalize from the patterns we propose to use the noisy channel model. From the pattern based substitutions we train a corpus specific error model complemented with a language model. With an F1-Score of 0.61 the presented technique significantly outperforms the pattern based approach which has an F1-score of 0.28. Due to its more accurate error model it also outperforms other implementations of the noisy channel model.
Untersuchungsgegenstand dieser Arbeit sind retrospektive Äußerungen, d.h. Nachfragen und fremdinitiierte Erweiterungen, die an den Sprecher der Ausgangsäußerung gerichtet sind. In der Forschung werden Nachfragen und Erweiterungen meist unabhängig voneinander mit unterschiedlichen Funktionen beschrieben. Die vorliegende Untersuchung setzt sich mit den gemeinsamen Eigenschaften beider Äußerungsformate auseinander, unabhängig von ihren deklarativen und interrogativen Merkmalen. Im Rahmen der Triangulation werden die Methode der Konversationsanalyse und die Annahmen der Relevanztheorie verbunden, um zu beschreiben, wie Sprecher in retrospektiven Äußerungen auf inhaltlicher Ebene mit den Informationen aus vorhergehenden Redebeiträgen umgehen. Primäre Datengrundlage sind die narrativen Interviews des Berliner Wendekorpus, ca. 60 Stunden gesprochenes Deutsch. Die Arbeit analysiert die grammatischen und lexikalischen Mittel, mit denen Sprecher bei der Bedeutungskonstruktion epistemische Unterstützung zum Ausdruck bringen. Weitere Analyseebenen sind die grammatische Kohärenz retrospektiver Äußerungen als evidentiale Strategie und die Ähnlichkeitsrelationen zwischen der interpretativen Annahme und den jeweiligen Bezugskomponenten.
Variation im Sprachgebrauch - 'angenommen' und 'vorausgesetzt' als einbettende Prädikatsausdrücke
(2019)
"Wie Schule Sprache macht"
(2019)
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.
Die Arbeiten in diesem Band zeigen anhand ausgewählter morphosyntaktischer Phänomene exemplarisch auf, wie ein korpuslinguistischer Zugang genutzt werden kann, um die Vielfalt und Variabilität des Sprachgebrauchs in einer größeren Detailschärfe zu beschreiben, als dies bisher möglich war. Ausgangspunkt ist die Überlegung, dass sprachliche Variation als integraler Bestandteil der (Standard-)Sprache anzusehen ist und somit auch deskriptiv erfasst werden muss. Dabeigeht es zunächst um eine möglichst genaue Beschreibung der Verteilung und Häufigkeit verschiedener Ausprägungen ausgewählter Variablen. Eine umfassende Beschreibung eines Variationsphänomens beinhaltet zudem die Ermittlung und Gewichtung der Faktoren, die die Distribution der Variantensteuern. In diesem Zusammenhang werden Hypothesen aus der einschlägigen Forschungsliteratur unter Verwendung moderner statistischer Verfahren überprüft. Darüber hinaus enthalten die vorliegenden Studien eine explorative Komponente, die sich mit der Aufdeckung neuer Muster, Regularitäten und linguistischer Zusammenhänge befasst. Dabei werden verschiedene korpuslinguistische und statistische Ansätze und Verfahren erprobt und evaluiert.
Large-scale empirical evidence indicates a fascinating statistical relationship between the estimated number of language users and its linguistic and statistical structure. In this context, the linguistic niche hypothesis argues that this relationship reflects a negative selection against morphological paradigms that are hard to learn for adults, because languages with a large number of speakers are assumed to be typically spoken and learned by greater proportions of adults. In this paper, this conjecture is tested empirically for more than 2000 languages. The results question the idea of the impact of non-native speakers on the grammatical and statistical structure of languages, as it is demonstrated that the relative proportion of non-native speakers does not significantly correlate with either morphological or information-theoretic complexity. While it thus seems that large numbers of adult learners/speakers do not affect the (grammatical or statistical) structure of a language, the results suggest that there is indeed a relationship between the number of speakers and (especially) information-theoretic complexity, i.e. entropy rates. A potential explanation for the observed relationship is discussed.
Both compounds and multi-word expressions are complex lexical units, made up of at least two constituents. The most basic difference is that the former are morphological objects and the latter result from syntactic processes. However, the exact demarcation between compounds and multi-word expressions differs greatly from language to language and is often a matter of debate in and across languages. Similarly debated is whether and how these two different kinds of units complement or compete with each other.
The volume presents an overview of compounds and multi-word expressions in a variety of European languages. Central questions that are discussed for each language concern the formal distinction between compounds and multi-word expressions, their formation and their status in lexicon and grammar.
The volume contains chapters on German, English, Dutch, French, Italian, Spanish, Greek, Russian, Polish, Finnish, and Hungarian as well as a contrastive overview with a focus on German. It brings together insights from word-formation theory, phraseology and theory of grammar and aims to contribute to the understanding of the lexicon, both from a language-specific and cross-linguistic perspective.