Refine
Year of publication
- 2019 (361) (remove)
Document Type
- Article (124)
- Part of a Book (110)
- Conference Proceeding (39)
- Book (34)
- Review (25)
- Part of Periodical (14)
- Other (9)
- Working Paper (4)
- Doctoral Thesis (1)
- Report (1)
Language
- German (250)
- English (106)
- Multiple languages (2)
- Ukrainian (2)
- Chinese (1)
Keywords
- Deutsch (144)
- Korpus <Linguistik> (65)
- Gesprochene Sprache (26)
- Sprache (19)
- Konversationsanalyse (17)
- Rezension (16)
- Automatische Sprachanalyse (15)
- Grammatik (15)
- Interaktion (15)
- Kommunikation (15)
Publicationstate
- Zweitveröffentlichung (164)
- Veröffentlichungsversion (137)
- Postprint (29)
- Erstveröffentlichung (2)
Reviewstate
- Peer-Review (148)
- (Verlags)-Lektorat (145)
- (Verlags-)Lektorat (2)
- Peer review (1)
- Peer-review (1)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (1)
Publisher
- de Gruyter (66)
- Leibniz-Institut für Deutsche Sprache (IDS) (33)
- Leibniz-Institut für Deutsche Sprache (20)
- Erich Schmidt (18)
- Narr Francke Attempto (11)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (9)
- Stauffenburg (8)
- Winter (8)
- Institut für Deutsche Sprache (7)
- Lang (6)
Transdisciplinary research is research not only on, but also for and, most of all, with practitioners. In the research framework of transdisciplinarity, scholars and practitioners collaborate throughout research projects with the aim of mutual learning. This paper shows the value transdisciplinarity can add to media linguistics. It does so by investigating the digital literacy shift in journalism: the change, in the last two decades, from the predominance of a writing mode that we have termed focused writing to a mode we have called writing-by-the-way. Large corpora of writing process data have been generated and analyzed with the multimethod approach of progression analysis in order to combine analytical depth with breadth. On the object level of doing writing in journalism, results show that the general trend towards writing-by-the-way opens up new niches for focused writing. On a meta level of doing research, findings explain under what conditions transdisciplinarity allows for deeper insights into the medialinguistic object of investigation.
Die vorliegende Arbeit geht der Frage nach, wie bzw. mit welchen sprachlichen Mitteln der Islam im öffentlichen Diskurs konstituiert wird. Hierfür wurde ein Korpus aus überregionalen Medientexten erstellt und qualitativ analysiert. Die Auswertung des gesamten Korpus weist darauf hin, welche inhaltlichen Merkmale im Islamdiskurs sprachlich nachweisbar sind und sich im gesamten Diskurs stets wiederholen. Schlüsselwörter wie Islam, Islamismus, Islamisierung, Muslim, Dschihad, Scharia oder Koran wurden detailliert präsentiert. Außerdem wurden die aus dem untersuchten Korpus entstandenen Stereotype rekonstruiert. Weiterhin wurden Metaphern bzw. Metaphernkonzepte untersucht, die sich im Islamdiskurs abbilden lassen. Exemplarisch anhand der drei Weltereignisse Iranische Revolution 1978/79, 11. September 2001 und Arabischer Frühling 2011 hat die vorliegende Arbeit gezeigt, wie der Islam in unterschiedlichen Zeitabständen wahrgenommen wird und inwieweit gesellschaftspolitische Ereignisse und Auseinandersetzungen die Thematisierung des Islams beeinflussen können.
Kultur ist nicht nur zu einem Schlüsselbegriff der Geisteswissenschaften geworden, sondern wird auch entterminologisiert als Alltagsbegriff benutzt. In diesem Beitrag wird untersucht, wie der Ausdruck Kultur (einschließlich Derivationen und Komposita) in der mündlichen Interaktion verwendet wird. Auf Basis von 82 Instanzen im Korpus FOLK des IDS Mannheim wurde festgestellt, dass der Ausdruck von SprecherInnen in zumeist semiformellen bis formellen Interaktionstypen benutzt wird. Es findet sich ein breites Spektrum unterschiedlicher, teils ineinander übergehender Bedeutungen, welches dem der wissenschaftlichen Literatur der Kulturtheorie ähnlich ist. Dabei lassen sich jeweils relevante Kernbedeutungen identifizieren, mit denen mehr oder weniger vage assoziierte Bedeutungen verbunden sind. Kultur zeigt sich als kontroverser Begriff: Die Referenz von Kultur, die Wertung und seine Relevanz als Erklärungsressource sind häufig umstritten.
"Wie Schule Sprache macht"
(2019)
A "polyglottal" speech synthesis - modifications for a replica of Kempelen's speaking machine
(2019)
This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and methodological approaches that were used for the initial planning of the resource. The headword candidates were selected by analyzing corpus-based data. Therefore, the data of two corpora (written and spoken German) were compared with quantitative methods. The information that was gathered on the selected headword candidates can be assigned to two different sections: meanings and functions in interaction.
Additionally, two studies on the expectations of future users towards the resource were carried out. The results of these two studies were also taken into account in the development of the prototype. Focusing on the presentation of the resource’s content, the paper shows both the different lexicographical information in selected dictionary entries, and the information offered by the provided hyperlinks and external texts. As a conclusion, it summarizes the most important innovative aspects that were specifically developed for the implementation of such a resource.
We present a descriptive analysis on the two datasets from the shared task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS), the only existing German dataset for opinion role extraction of its size. Our analysis discusses the individual properties of the three components, subjective expressions, sources and targets and their relations towards each other. Our observations should help practitioners and researchers when building a system to extract opinion roles from German data.
Classical null hypothesis significance tests are not appropriate in corpus linguistics, because the randomness assumption underlying these testing procedures is not fulfilled. Nevertheless, there are numerous scenarios where it would be beneficial to have some kind of test in order to judge the relevance of a result (e.g. a difference between two corpora) by answering the question whether the attribute of interest is pronounced enough to warrant the conclusion that it is substantial and not due to chance. In this paper, I outline such a test.
A Supervised learning approach for the extraction of opinion sources and targets from German text
(2019)
We present the first systematic supervised learning approach for the extraction of opinion sources and targets on German language data. A wide choice of different features is presented, particularly syntactic features and generalization features. We point out specific differences between opinion sources and targets. Moreover, we explain why implicit sources can be extracted even with fairly generic features. In order to ensure comparability our classifier is trained and tested on the dataset of the STEPS shared task.
The Lehnwortportal Deutsch (2012 seqq.) serves as an integrated online information system on German lexical borrowings into other languages, synthesizing an increasing number of lexicographical dictionaries and providing basic cross-resource search options. The paper discusses the far-reaching revision of the system’s conceptual, lexicographical and technological underpinnings currently under way, focussing on their relevance for multilingual loanword lexicography.
In the first volume of Corpus Linguistics and Linguistic Theory, Gries (2005. Null-hypothesis significance testing of word frequencies: A follow-up on Kilgarriff. Corpus Linguistics and Linguistic Theory 1(2). doi:10.1515/cllt.2005.1.2.277. http://www.degruyter.com/view//cllt.2005.1.issue-2/cllt.2005.1.2.277/cllt.2005.1.2.277.xml: 285) asked whether corpus linguists should abandon null-hypothesis significance testing. In this paper, I want to revive this discussion by defending the argument that the assumptions that allow inferences about a given population – in this case about the studied languages – based on results observed in a sample – in this case a collection of naturally occurring language data – are not fulfilled. As a consequence, corpus linguists should indeed abandon null-hypothesis significance testing.
Akkusativobjekt
(2019)
We investigate whether prototypicality or prominence of semantic roles can account for role-related effects in sentence interpretation. We present two acceptability-rating experiments testing three different constructions: active, personal passive and DO-clefts involving the same type of transitive verbs that differ with respect to the agentive role features they select. Our results reveal that there is no cross-constructional advantage for prototypical roles (e.g., agents), hence disconfirming a central tenet of role prototypicality. Rather, acceptability clines depend on the construction under investigation, thereby highlighting different role features. This finding is in line with one core assumption of the prominence account stating that role features are flexibly highlighted depending on the discourse function of the respective construction.
Distributional models of word use constitute an indispensable tool in corpus based lexicological research for discovering paradigmatic relations and syntagmatic patterns (Belica et al. 2010). Recently, word embeddings (Mikolov et al. 2013) have revived the field by allowing to construct and analyze distributional models on very large corpora. This is accomplished by reducing the very high dimensionality of word cooccurrence contexts, the size of the vocabulary, to few dimensions, such as 100-200. However, word use and meaning can vary widely along dimensions such as domain, register, and time, and word embeddings tend to represent only the most prevalent meaning. In this paper we thus construct domain specific word embeddings to allow for systematically analyzing variations in word use. Moreover, we also demonstrate how to reconstruct domain specific co-occurrence contexts from the dense word embeddings.
In the project LeGeDe („Lexik des gesprochenen Deutsch”), we are developing a corpus-based lexicographical resource focusing on features of the lexicon of spoken German. To investigate the expectations of future users, two studies were conducted: interviews with a smaller group of experts and a large-scale online survey. We report on selected results, mainly from the online survey and with a focus on the learning perspective. We want to show if and to which extent the L2-learners’
expectations differ from those of native speakers and in which aspects the two groups agree. We also want to give an outlook on the possibilities that will be available to learners in the planned lexicographical resource.
This article shows what may be gained by a pattern-based analysis and lexicographic representation of argument structure patterns as compared to one based solely on the valency properties of verbs. The pattern analysed expresses a state whereby two or more entities are positioned on a scale of distinct values. Formally it minimally comprises a verb expressing a state or event and two NPs expressing the entities ranked. The NP referring to the entity occupying the lower position on the scale is embedded in a PP headed by vor. Allowing the identification of instances comprising verbs whose meaning is not straightforwardly related to that of the pattern, the pattern-based analysis employed raises the question of how the metaphorical state meaning of the pattern comes about. Since the verb does not express a ranking and / or a state in a large number of instances, the metaphorical state meaning of the pattern is argued to originate in these cases within the scalar meaning of the preposition and / or to be associated with the pattern itself.
Argumentstrukturmuster. Ein elektronisches Handbuch zu verbalen Argumentstrukturen im Deutschen
(2019)
Valency-based and construction-based approaches to argument structure have been competing for quite a while. However, while valency-based approaches are backed up by numerous valency dictionaries as comprehensive descriptive resources, nothing comparable exists for construction-based approaches. The paper at hand describes the foundations of an ongoing project at the Institut für Deutsche Sprache in Mannheim. Aim of the project is the compilation of an online available description of a net of German argument structure patterns. The main purpose of this resource is to provide an empirical basis for an evaluation of the adequacy of valency- versus construction-based theories of argument structure. The paper at hand addresses the theoretical background, in particular the concepts of pattern and argument structure, and the corpus-based method of the project. Furthermore, it describes the coverage of the resource, the microstructure of the articles, and the macrostructure which is conceived of as a net of argument structure patterns based on family resemblance.
Der vorliegende Beitrag setzt sich mit dem computergestützten Transkriptionsverfahren arabisch-deutscher Gesprächsdaten für interaktionsbezogene Untersuchungen auseinander. Zunächst werden wesentliche methodische Herausforderungen der gesprächsanalytischen Arbeit adressiert: Hinsichtlich der derzeitigen Korpustechnologie ermöglicht die Verwendung von arabischen Schriftzeichen in einem mehrsprachigen, bidirektionalen Transkript keine analysegerechte Rekonstruktion von Reziprozität, Linearität und Simultaneität sprachlichen Handelns. Zudem ist die Verschriftung von arabischen Gesprächsdaten aufgrund der unzureichenden (gesprächsanalytischen) Beschäftigung mit den standardfernen Varietäten und gesprochensprachlichen Phänomenen erschwert. Daher widmet sich der zweite Teil des Beitrags den bisher erarbeiteten und erprobten Lösungsansätzen ̶ einem stringenten, gesprächsanalytisch fundierten Transkriptionssystem für gesprochenes Arabisch.
Common Crawl is a considerably large, heterogeneous multilingual corpus comprised of crawled documents from the internet, surpassing 20TB of data and distributed as a set of more than 50 thousand plain text files where each contains many documents written in a wide variety of languages. Even though each document has a metadata block associated to it, this data lacks any information about the language in which each document is written, making it extremely difficult to use Common Crawl for monolingual applications. We propose a general, highly parallel, multithreaded pipeline to clean and classify Common Crawl by language; we specifically design it so that it runs efficiently on medium to low resource infrastructures where I/O speeds are the main constraint. We develop the pipeline so that it can be easily reapplied to any kind of heterogeneous corpus and so that it can be parameterised to a wide range of infrastructures. We also distribute a 6.3TB version of Common Crawl, filtered, classified by language, shuffled at line level in order to avoid copyright issues, and ready to be used for NLP applications.
This paper describes a rule-based approach to detect direct speech without the help of any quotation markers. As datasets fictional and non-fictional texts were used. Our evaluation shows that the results appear stable throughout different datasets in the fictional domain and are comparable to the results achieved in related work.
The goal of the current contribution is to discuss the specific change potential of requesting examples in the helping formats ‘psychotherapy’ and coaching’. Requesting examples are defined as retrospective requests from the therapist/coach to the patient/client to elaborate the latter’s directly preceding utterance via an exemplary concretization. To appropriately reflect upon past events and upon personal experiences is often considered a key for change given that such reflections allows patients/clients to develop alternative and new perspectives on their lives, their relationships, their selves etc. To work with examples or to present concrete experiences thus functions as a central change practice both in psychotherapy and in coaching. While this discursive practice entails an inherent change potential, we still have to empirically unfold the sequential, thematic and action theoretical design of requesting examples as well as their interaction-type specific change function(s). This has already been done in the context of therapy. We now widen the focus and contrast these findings with analyses of requesting examples in executive coaching. Thereby this contribution does not only provide in-depth insight into the change potential of requesting examples, but also adds to further differentiate therapy and coaching as regards their discursive and interactive layout.
Bild-Makros bzw. 4Memes sind ein präsentes Internetphänomen im Social Web. In sozialen Netzwerken wie Facebook werden diese multimodalen, kulturell geprägten Kommunikate nicht nur veröffentlicht und verbreitet, sondern zudem von NutzerInnen u.a. in Form von Kommentaren rezipiert und interaktiv ausgehandelt. Diese kommunikative Einheit aus einem einerseits eindimensionalen, statischen Kommunikat mit einer andererseits dynamischen, interaktiven Aushandlung stellt dabei eine interdisziplinäre Herausforderung für eine differenzierte (medien-)linguistische Betrachtung dar, der mit einer Kombination von Sehflächenanalyse, Gattungsanalyse sowie Konversations- bzw. Gesprächsanalyse begegnet wird. In dieser Arbeit wird anhand erhobener Daten von Facebook-Gemeinschaftsseiten gezeigt, welche formalen, syntaktisch-semantischen und pragmatisch-funktionalen Mechanismen bei der Kombination der Zeichenressourcen Text und Bild zur Bedeutungskonstitution des (humoristischen) Medienprodukts zusammenspielen, dessen Verständnis auch auf intertextuellem, kulturellem (Kontext- und Gattungs)Wissen basiert. Im Anschluss daran wird dargelegt, wie sich über geteiltes Wissen verfügende RezipientInnen mit technischen und sprachlichen Folgehandlungen auf ein Bild-Makro beziehen und welche sprachlichen Mittel und kommunikativen Verfahren wie Fokussierungsaufforderung und -bestätigung, Bewertung und Übertragung auf die gemeinsame Lebenswelt Anwendung finden.
Nach einigen Überlegungen zu Wörterbüchern und Informationssystemen soll der Frage im Titel des Vortrags auf drei Ebenen nachgegangen werden: (a) aktueller Stand der allgemeinen einsprachigen Online-Wörterbücher des Deutschen; (b) die Situation der praktischen Lexikographie und der für sie zuständigen Theorien; (c) die Lage der Wörterbuchforschung an deutschen Universitäten. Dabei soll die kulturelle und gesellschaftliche Verantwortung der praktischen Lexikographie, aber auch der Metalexikographie verdeutlicht werden. Zu wenig Beachtung findet die Lexikographie als kulturelle Praxis der Dokumentation sprachlicher, kultureller und gesellschaftlicher Verhältnisse. Zu wenig Beachtung findet die Metalexikographie als Gesellschaftswissenschaft, die sich mit den Zusammenhängen von Datenermittlung, -verwendung, -interpretation und -präsentation in der Internetlexikographie befasst. Die Ausführungen werden durch Detailanalysen des Datenangebots auf Informationsportalen zur deutschen Sprache und unter Berücksichtigung ausgewählter Benutzungssituationen gestützt. Abschliesend werden Thesen zur Zukunft der Lexikographie formuliert.
Canadian heritage German across three generations: A diary-based study of language shift in action
(2019)
It is well known that migration has an effect on language use and language choice. If the language of origin is maintained after migration, it tends to change in the new contact setting. Often, migrants shift to the new majority language within few generations. The current paper examines a diary corpus containing data from three generations of one German-Canadian family, ranging from 1867 to 1909, and covering the second to fourth generation after immigration. The paper analyzes changes that can be observed between the generations, with respect to the language system as well as to the individuals’ decision on language choice. The data not only offer insight into the dynamics of acquiring a written register of a heritage language, and the eventual shift to the majority language. They also allow us to identify different linguistic profiles of heritage speakers within one community. It is discussed how these profiles can be linked to the individuals’ family backgrounds and how the combination of these backgrounds may have contributed to giving up the heritage language in favor of the majority language.
We present web services implementing a workflow for transcripts of spoken language following TEI guidelines, in particular ISO 24624:2016 "Language resource management - Transcription of spoken language". The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.
The following article shows how several verbal argument structure patterns can build clusters or families. Argument structure patterns are conceptualised as form-meaning pairings related by family relationships. These are based on formal and / or semantic characteristics of the individual patterns making up the family. The small family of German argument structure patterns containing vor sich her and vor sich hin is selected to illustrate the process whereby pattern meaning combines with the syntactic and semantic properties of the patterns’ individual components to constitute a higher-level family or cluster of argument structure patterns. The study shows that the patterns making up the family are similar with regard to some of their formal characteristics, but differ quite clearly with respect to their meaning. The article also discusses the conditions of usage of the individual patterns of the family, the contribution of verb meaning and prepositional meaning to the overall meaning of the patterns, coercion effects, and productivity issues.
Since 2013 representatives of several French and German CMC corpus projects have developed three customizations of the TEI-P5 standard for text encoding in order to adapt the encoding schema and models provided by the TEI to the structural peculiarities of CMC discourse. Based on the three schema versions, a 4th version has been created which takes into account the experiences from encoding our corpora and which is specifically designed for the submission of a feature request to the TEI council. On our poster we would present the structure of this schema and its relations (commonalities and differences) to the previous schemas.
Colonial studies
(2019)
Both compounds and multi-word expressions are complex lexical units, made up of at least two constituents. The most basic difference is that the former are morphological objects and the latter result from syntactic processes. However, the exact demarcation between compounds and multi-word expressions differs greatly from language to language and is often a matter of debate in and across languages. Similarly debated is whether and how these two different kinds of units complement or compete with each other.
The volume presents an overview of compounds and multi-word expressions in a variety of European languages. Central questions that are discussed for each language concern the formal distinction between compounds and multi-word expressions, their formation and their status in lexicon and grammar.
The volume contains chapters on German, English, Dutch, French, Italian, Spanish, Greek, Russian, Polish, Finnish, and Hungarian as well as a contrastive overview with a focus on German. It brings together insights from word-formation theory, phraseology and theory of grammar and aims to contribute to the understanding of the lexicon, both from a language-specific and cross-linguistic perspective.
Are borrowed neologisms accepted more slowly into the German language than German words resulting from the application of wrd formation rules? This study addresses this question by focusing on two possible indicators for the acceptance of neologisms: a) frequency development of 239 German neologisms from the 1990s (loanwords as well as new words resulting from the application of word formation rules) in the German reference corpus DEREKO and b) frequency development in the use of pragmatic markers (‘flags’, namely quotation marks and phrases such as sogenannt ‘so-called’) with these words. In the second part of the article, a psycholinguistic approach to evaluating the (psychological) status of different neologisms and non-words in an experimentally controlled study and plans to carry out interviews in a field test to collect speakers’ opinions on the acceptance of the analysed neologisms are outlined. Finally, implications for the lexicographic treatment of both types of neologisms are discussed.
The paper deals with the process of computer-aided transcription regarding Arabic-German data material for interaction-based studies. First of all, it sheds light upon some major methodological challenges posed by the conversation-analytic approaches: due to current corpus technology, the reciprocity, linearity, and simultaneity of linguistic activities cannot be reconstructed in an analytically proper way when using the Arabic characters in multilingual and bidirectional transcripts. The difficulty of transcribing Arabic encounters is also compounded by the fact that Spoken Arabic as well as its varieties and phenomena have not been standardised enough (for conversation-analytic purposes). Therefore, the second part of this paper is dedicated to preliminary, self-developed solutions, namely a systematic method for transcribing Spoken Arabic.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Leibniz-Institut für Deutsche Sprache ist ein Forschungsdatenzentrum für Korpora des gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von bald 100 Variations-, Interview- und Gesprächskorpora aufgebaut, die u. a. dialektalen Sprachgebrauch, mündliche Kommunikationsformen oder die Sprachverwendung bestimmter Sprechertypen oder zu bestimmten Themen dokumentieren. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
The recognizability of a stretch of conduct as social action depends on details of turn construction as well as the turn’s context. We examine details of turn construction as they enter into actions offering interpretations of prior talk. Such actions either initiate repair or formulate a conclusion from prior talk. We focus on how interpretation markers (das heißt [“that means”] vs. du meinst [“you mean”]) and interpretation formats (phrasal vs. clausal turn completions) each make their invariant contribution to specific interpreting practices. Interpretation marker and turn format go hand in hand, which leads to distinct patterns of interpreting practices: Das heißt+clause is especially apt for formulations, du meinst+phrase for repair. The results suggest that details of turn construction can systematically enter into the constitution of social action. Data are in German with English translation.
In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.
In diesem Beitrag geht es vor allem um die Frage, wie das Smartphone in der Alltagskommunikation als gemeinsamer Bezugspunkt relevant gemacht wird und wie sich die Reaktionen der Interagierenden zum auf dem Display Gezeigten gestalten. Es zeigt sich, dass diese in mehrere responsive Schritte unterteilt werden, in denen die Aufmerksamkeit gebündelt und das Display fokussiert wird sowie eine Abstimmung darüber erfolgt, wie das Gezeigte zu kontextualisieren ist.
In this paper, we present our work-inprogress to automatically identify free indirect representation (FI), a type of thought representation used in literary texts. With a deep learning approach using contextual string embeddings, we achieve f1 scores between 0.45 and 0.5 (sentence-based evaluation for the FI category) on two very different German corpora, a clear improvement on earlier attempts for this task. We show how consistently marked direct speech can help in this task. In our evaluation, we also consider human inter-annotator scores and thus address measures of certainty for this difficult phenomenon.
This article examines a recurrent format that speakers use for defining ordinary expressions or technical terms. Drawing on data from four different languages - Flemish, French, German, and Italian - it focuses on definitions in which a definiendum is first followed by a negative definitional component (‘definiendum is not X’), and then by a positive definitional component (‘definiendum is Y’). The analysis shows that by employing this format, speakers display sensitivity towards a potential meaning of the definiendum that recipients could have taken to be valid. By negating this meaning, speakers discard this possible, yet unintended understanding. The format serves three distinct interactional purposes: (a) it is used for argumentation, e.g. in discussions and political debates, (b) it works as a resource for imparting knowledge, e.g. in expert talk and instructions, and (c) it is employed, in ordinary conversation, for securing the addressee's correct understanding of a possibly problematic expression. The findings contribute to our understanding of how epistemic claims and displays relate to the turn-constructional and sequential organization of talk. They also show that the much quoted ‘problem of meaning’ is, first and foremost, a participant's problem.
It is commonly agreed that the plural -s has become a part of Standard German inflection, yet in dialects such as Alemannic it is often seen as an intruder. We challenge this view based on data from a written survey amongst speakers of Swiss German dialects. Our analysis of pluralised loanwords (e.g. Mango) and abbreviations (e.g. WG ‘flat share’) shows a strong effect of both speakers’ age and grammatical gender that points towards a progressive integration of the plural -s into the dialectal system.While masculine and neuter nouns can express number syntagmatically (using articles that differ in singular and plural), feminine nouns rely heavily on suffixes (as the definite article is d’in both cases). A comparison of the -s plural with traditional dialectal plurals shows clear advantages for -s plurals in both cue strength (output) and scope (input) of the plural schema. We argue that it is due to this that feminine nouns show a significantly higher percentage of -s plurals compared with masculine and neuter nouns in speakers aged 25 and above. The difference disappears for younger speakers while the overall number of -s plurals increases drastically. Combined, we have an apparent time scenario that shows how the -s plural is first borrowed with nouns that rely on overt plural markers, and later spreads to most loans and other words with non-native structure.
Der Spezialforschungsbereich (SFB) „Deutsch in Österreich: Variation – Kontakt – Perzeption“ ist ein vom Fonds zur Förderung der wissenschaftlichen Forschung (FWF) geförderter Spezialforschungsbereich, der seit 2016 an den Universitäten Wien, Salzburg und Graz sowie an der Österreichischen Akademie der Wissenschaft durchgeführt wird. Thema dieses SFB ist das Gesamtspektrum an Variation und Varietäten des Deutschen in Österreich, kurz „DiÖ“. Dieses Gesamtspektrum wird aus den Perspektiven erstens der Variationslinguistik, zweitens der Sprachkontakt- und Mehrsprachigkeitsforschung sowie drittens der soziolinguistisch basierten Perzeptions- und Spracheinstellungsforschung angegangen.
Im vorliegenden Artikel werden einleitend Gegenstand, Fragestellung und Ziele einer Studie zu „absoluten“ Verwendungen von Modalverben in verbaler Interaktion vorgestellt, gefolgt von Bemerkungen zu Forschungskontext, Theorie, Methodik und Datengrundlage. Ergebnisse der Untersuchung werden unter drei Perspektiven präsentiert: Erstens geht es um Modalverbverwendungen, die sich in der Forschung zwischen Vollverbund Ellipsenerklärungen verorten, zweitens um Strukturen mit (grammatischen) Kontextbezügen, drittens um Konstruktionen und usuelle Handlungsformate. Den Abschluss bilden eine Diskussion der Befunde und ein Ausblick auf Vermittlungspotenziale interaktionslinguistischer Befunde im Bereich Deutsch als Fremdsprache.
In this chapter, we discuss steps toward extending CMDI’s semantic interoperability beyond the Social Sciences and Humanities: We stress the need for an initial data curation step, in part supported by a relation registry that helps impose some structure on CMDI vocabulary; we describe the use of authority file information and other controlled vocabulary to help connecting CMDI-based metadata to existing Linked Data; we show how significant parts of CMDI-based metadata can be converted to bibliographic metadata standards and hence entered into library catalogs; and finally we describe first steps to convert CMDI-based metadata to RDF. The initial grassroots approach of CMDI (meaning that anybody can define metadata descriptors and components) mirrors the AAA slogan of the Semantic Web (“Anyone can say Anything about Any topic”). Ironically, this makes it hard to fully link CMDI-based metadata to other Semantic Web datasets. This paper discusses the challenges of this enterprise.
We examine the new task of detecting derogatory compounds (e.g. curry muncher). Derogatory compounds are much more difficult to detect than derogatory unigrams (e.g. idiot) since they are more sparsely represented in lexical resources previously found effective for this task (e.g. Wiktionary). We propose an unsupervised classification approach that incorporates linguistic properties of compounds. It mostly depends on a simple distributional representation. We compare our approach against previously established methods proposed for extracting derogatory unigrams.
Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we investigate the impact of task setup and data representation, encoding of context information as well as different model architectures for this task.
We discuss the impact of data bias on abusive language detection. We show that classification scores on popular datasets reported in previous work are much lower under realistic settings in which this bias is reduced. Such biases are most notably observed on datasets that are created by focused sampling instead of random sampling. Datasets with a higher proportion of implicit abuse are more affected than datasets with a lower proportion.
Question Answering Systems for retrieving information from Knowledge Graphs (KG) have become a major area of interest in recent years. Current systems search for words and entities but cannot search for grammatical phenomena. The purpose of this paper is to present our research on developing a QA System that answers natural language questions about German grammar.
Our goal is to build a KG which contains facts and rules about German grammar, and is also able to answer specific questions about a concrete grammatical issue. An overview of the current research in the topic of QA systems and ontology design is given and we show how we plan to construct the KG by integrating the data in the grammatical information system Grammis, hosted by the Leibniz-Institut für Deutsche Sprache (IDS). In this paper, we describe the construction of the initial KG, sketch our resulting graph, and demonstrate the effectiveness of such an approach. A grammar correction component will be part of a later stage. The paper concludes with the potential areas for future research.
Gegenstand ist eine vergleichende empirische Korpusstudie zur Bedeutung des Ausdrucks geschäftsmäßig im (bundesdeutschen) Gemeinsprach- und juristischen Fachsprachgebrauch. Die Studie illustriert an einem aktuellen Fall strittiger Wortdeutung (hier zu § 217 StGB) die Möglichkeiten computergestützter Sprachgebrauchsanalyse für die Auslegung vor Gericht und die Normtextprognose in der Rechtsetzung.
Wie werden Wörter im Deutschen und im Englischen geschrieben? Wo sind Gemeinsamkeiten, wo sind Unterschiede? Diese Fragen werden aus morphologisch-graphematischer Perspektive bearbeitet. Es geht hier also nicht um Bezüge zwischen Schrift und Lautform (traditionell oft im Fokus der Graphematik), sondern um Korrespondenzen zwischen Schrift und Morphologie. Das betrifft zum einen den Aufbau von Morphemen. Welche Beschränkungen lassen sich hier für die Abfolge der Buchstaben formulieren? Was sind minimale, was sind prototypische Stämme und Affixe? Zum anderen geht es um Fragen der Einheitlichkeit (Wie uniform wird ein Morphem in der Schrift repräsentiert?) und der Eindeutigkeit (Wie distinkt verweist eine Schreibung auf ein Morphem?). Insgesamt zeigt sich, dass im Englischen eher Affixe verlässlich kodiert werden (oft eindeutig und einheitlich), während im Deutschen häufig Stämme einheitlich kodiert werden. Das sind zwei grundsätzlich unterschiedliche Strategien der Leseerleichterung.
Die lexikografische Behandlung von Neologismen aus der Perspektive hispanophoner DaF-Lernender
(2019)
Anhand von einigen medialen Kommunikationsverben wie mailen oder twittern wird das lexikografische Informationsangebot zu Neologismen auf seine Adäquatheit für die fremdsprachige Produktion untersucht. Die Untersuchung erfolgt aus der Perspektive eines spanischsprachigen DaF-Lernenden. Zur Analyse werden sowohl Neologismenwörterbücher und -datenbanken für das Deutsche als auch gängige, bilinguale Online-Wörterbücher für das Sprachenpaar Spanisch–Deutsch gezogen. Die Ergebnisse der lexikografischen Untersuchung werden exemplarisch mit korpusbasierten Daten aus einer Doktorarbeit verglichen. Die Befunde zeigen den Bedarf und die Notwendigkeit auf, die lexikografische Behandlung von (verbalen) Neologismen im spanisch–deutschen Kontext zu optimieren. Dabei soll — insbesondere — die fremdsprachige Textproduktion berücksichtigt werden.
Thema des Beitrags ist die Frage, wie in einer quantitativen Herangehensweise die Spracheinstellungen von linguistischen Laien erfasst werden können. Das IDS hat 2017/18 im Rahmen des Sozio-oekonomischen Panels (SOEP) des Deutschen Instituts für Wirtschaftsforschung (DIW) eine neue bundesweite Repräsentativerhebung zu Spracheinstellungen durchgeführt. Im Beitrag präsentieren wir erste Ergebnisse dieser Erhebung und verknüpfen sie mit früheren Erhebungen. In drei Abschnitten befassen wir uns mit der Bewertung von regionalen Varietäten des Deutschen und der Bewertung des Standards, mit Meinungen zu sprachlichem Gendern sowie, aus einer methodischen Perspektive, mit der Erhebung von sprachlichen Daten im deutschen Mikrozensus.
Im Jahr 2015 ist die 7. Auflage des Duden-Aussprachewörterbuchs erschienen, für deren Bearbeitung erstmals die MitarbeiterInnen des IDS Projekts „Gesprochenes Deutsch“ verantwortlich zeichneten. Im vorliegenden Beitrag werden die konzeptionellen und inhaltlichen Veränderungen beschrieben, die in der Neuauflage umgesetzt wurden. Sie lassen sich im Wesentlichen unter dem Motto „Hinwendung zur Deskriptivität“ zusammenfassen. Neben den üblichen lexikografischen Prozeduren wie der Streichung veralteter Lemmata und der Erweiterung des Lemmabestands um bisher nicht dokumentierte Wörter sind zunächst im Einleitungsteil Kapitel ergänzt, vollständig überarbeitet oder völlig neu erstellt worden. Systematische Veränderungen wurden bei verschiedenen Transkriptionskonventionen vorgenommen (z.B. bei der Notation der Diphthonge). Die wesentlichste Neuerung ist jedoch die Einbeziehung von empirischen Daten zum deutschen Gebrauchsstandard vor allem aus dem Projektkorpus „Deutsch heute“, die es ermöglicht haben, fundierte Angaben zur regionalen Verbreitung von Aussprachevarianten zu machen.
Ziel des Beitrags ist es, in einer explorativen Untersuchung zu ermitteln, ob und wie in Deutschland und in Polen geschlechtergerechter Sprachgebrauch praktiziert wird. In beiden Gesellschaften wird derzeit mit den einschlägigen Verfahren noch experimentiert. Die feministische Presse spielt dabei eine Vorreiterrolle. Der Beitrag ist in drei inhaltliche Teile gegliedert. Der erste Teil schildert in knapper Form die Entwicklung in der sprachlichen Markierung von Sexuszugehörigkeit und -differenz, wie sie in der deutschen und der polnischen Gesellschaft in der Nachkriegszeit stattgefunden hat. Der zweite Teil befasst sich mit den sprachstrukturellen Grundlagen für die Möglichkeiten des ›Genderns‹ in beiden Sprachen. Hier werden sowohl Gemeinsamkeiten als auch Unterschiede nachgewiesen. Der dritte Teil ist einer kleinen empirischen Studie gewidmet. Es werden Publikationen in erster Linie der feministischen Presse beider Länder aus der jüngsten Zeit auf ihren Umgang mit geschlechterdifferenzierender Sprache hin untersucht.
Die Universität als Vorbild/Spiegelbild/Zerrbild für Spracheinstellungen und Sprachgebrauch heute?
(2019)
Der folgende Beitrag beschäftigt sich mit der Frage, wie weit der mündliche Sprachgebrauch an der Universität und die damit verbundenen Spracheinstellungen Vorbild, Spiegelbild oder aber Zerrbild des alltäglichen Sprachgebrauchs und allgemeiner Spracheinstellungen sind. Aus heuristischen Gründen liegt der Fokus dabei auf Sprachformen jenseits des Standards, die üblicherweise nicht mit einem universitären Sprachgebrauch in Verbindung gebracht werden. Die Datenerhebung dokumentiert exemplarisch die Situation an der Universität Salzburg, die Auswertung kombiniert in einem Mixed-Methods-Ansatz quantitative und qualitative Methoden.
Die Zeitung und die Welt
(2019)
Direktes Objekt
(2019)
Modern theoretical linguistics lives by the insight that the meanings of complex expressions derive from the meanings of their parts and the way these are composed. However, the currently dominating theories of the syntax-semantics interface hastily relegate important aspects of meaning which cannot readily be aligned with visible structure to empty projecting heads non-reductively (mainstream Generative Grammar) or to the syntactic construction holistically (Construction Grammar). This book develops an alternative, compositional analysis of the hidden aspectual-temporal, modal and comparative meanings of a range of productive constructions of which pseudorefl exive, excessive and directional complement constructions take center stage. Accordingly, a contradiction-inducing hence semantically problematic part of literally coded meaning is locally ignored and systematically realized „expatriately“ with respect to parts of structure that achieve the indexical anchoring of propositional contents in terms of times, worlds and standards of comparison, thus yielding the observed hidden meanings.
Der Beitrag spürt dem spannungsreichen Verhältnis von diskursanalytischen Ansätzen und (neo-)marxistischer Kapitalismuskritik nach und erkundet mögliche Beiträge diskursanalytischer Perspektiven zu Kapitalismusanalysen. In einem ersten Schritt wird anhand einiger ausgewählter Diskurstheoretikerinnen und -theoretiker der Eindruck einer zwischen affirmierter Nähe und skeptischer Abgrenzung schwankenden Positionierung zu marxistischen Ansätzen verdeutlicht. Gegen elementare Grundannahmen marxistischer Wissenschafts- und Gesellschaftskonzepte, so etwa den Begriff der ‚Ideologie‘ oder die Annahme einer klar nachvollziehbaren und damit voraussagbaren gesellschaftlich-politischen Determinierung durch ökonomische ‚Basisprozesse‘ setzten sie die Ansicht, dass Wissen, Wahrheit, soziale Identitäten wie auch gesellschaftliche Praktiken als kontingente und stets unabgeschlossene Ergebnisse sozialer Konstruktionsprozesse zu begreifen seien. Am Beispiel verschiedener marxistischer Grundannahmen, wie der Trennung von Lohnarbeit und Kapital, dem Verwertungszwang des Kapitals, dem Auseinanderfallen von Politik und Ökonomie, wird anschließend dafür plädiert, diese nicht als gegebene Tatsachen hinzunehmen, sondern in ihrer diskursiven Verfasstheit selbst zu untersuchen. Erst dann – so die Annahme – lässt sich zeigen, ob und wie diese Elemente gesellschaftlich wirkmächtig werden.
Linguistic relativists have traditionally asked 'how language influences thought', but conversation analysts and anthropological linguists have moved the focus from thought to social action. We argue that 'social action' should in this context not become simply a new dependent variable, because the formulation 'does language influence action' suggests that social action would already be meaningfully constituted prior to its local (verbal and multi-modal) accomplishment. We draw on work by the gestalt psychologist Karl Duncker to show that close attention to action-in-a-situation helps us ground empirical work on cross-cultural diversity in an appreciation of the invariances that make culture-specific elements of practice meaningful.
Dulko ist ein im Aufbau befindliches fehlerannotiertes deutsch-ungarisches Lernerkorpus an der Universität Szeged. Es wird seit Sommer 2017 von der Alexander-von-Humboldt-Stiftung gefördert im Rahmen einer Institutspartnerschaft zwischen dem IDS und dem Institut für Germanistik an der Universität Szeged („Deutsch-ungarischer Sprachvergleich: korpustechnologisch, funktional-semantisch und sprachdidaktisch (DeutUng)“). Die in Dulko erhobenen Lernerdaten setzen sich zusammen aus kontrolliert erhobenen deutschsprachigen Essays und Übersetzungen aus dem Ungarischen ins Deutsche. Die Probanden sind Studierende am Institut für Germanistik der Universität Szeged mit Ungarisch als Muttersprache und Deutsch als erster oder zweiter Fremdsprache.
This paper focuses on easily confused items (so-called paronyms) in German in terms of their general, technical or academic contextual uses. It outlines the semantic discrepancies between contextual usages of pairs such as Methode/Methodologie/Methodik and unehelich/nichtehelich/außerehelich depending on their linguistic registers and varieties. While previous studies lack empirical evidence and primarily operate with morphological criteria (cf. Lăzărescu 1999) the descriptions here derive from corpus-based examinations of general written and of technical discourse. It is shown that causes of lexical confusion arise from formal, phonetic resemblances or semantic similarities, regular co-occurrence, incorrect morphological analogies and political governance of language. Context, knowledge, associations and experience determine the choice of lexical terms. Speakers need to apply linguistic and extra-linguistic principles in order to create adequate contexts. With the help of paronym examples and corpus data, these will be elucidated in more detail.
Ein CERN der deutschen Sprache. Überlegungen zu einem Dokumentationszentrum der deutschen Sprache
(2019)
Einleitung
(2019)
Einleitung
(2019)
Der vorliegende Band „Sprachinstitutionen und Sprachkritik“ weist eine unmittelbare Verbindung zu den ersten drei Bänden unserer Handbuchreihe und der Frage auf, wie sich das viel diskutierte und diskursiv konstituierte Konzept der sprachlichen Normierung und Standardisierung einer Nationalsprache im Vergleich der Sprachkulturen entwickelt hat und wie es sich aktuell wandelt. Diese Gesichtspunkte lassen aufschlussreiche Verbindungen zum ersten Handbuchband „Sprachnormierung und Sprachkritik“ erkennen, aber auch zum zweiten („Standardisierung und Sprachkritik“) und zum dritten Handbuchband („Sprachpurismus und Sprachkritik“).
Einleitung
(2019)
Der Beitrag führt in das Sonderheft „Paronymie im deutschen Sprachgebrauch“ ein und bündelt gewonnene Einblicke in die lexikologische, korpusanalytische sowie lexikografische Arbeit des Projektes „Paronymwörterbuch“. Er stellt wichtige Erkenntnisse zu Paronymen, ihrem Vorkommen, ihrer Ermittlung und Darstellung, aber auch zu den Methoden der Bedeutungsanalyse, ihren diskursiven Funktionen und dem Umgang mit Verwechslungspotenzial zusammenfassend dar. Vorgestellt werden Forschungsergebnisse, die sich vor allem auf die Verwendung von Paronymen in der öffentlichen Gebrauchssprache beziehen. Aber auch explorative Korpusverfahren werden erläutert sowie innovative, dynamische e-lexikografische Darstellungen präsentiert. Ausgewählte Probleme, die sowohl im Kontext der theoretischen Auseinandersetzung als auch mit der redaktionellen Erfassung von Paronymen auftreten, werden hier diskutiert. Das Sonderheft verbindet dabei theoretische und praktische lexikografische Herangehensweisen an ein bisher linguistisch wenig dokumentiertes Phänomen, das Muttersprachler/innen und Fremdsprachenlernende gleichermaßen verunsichert. Neben den Rückblicken werden ebenso die Ausblicke auf die kommenden Jahre und die damit verbundenen Fragestellungen des Projektes skizziert.