Refine
Year of publication
Document Type
- Part of a Book (4500)
- Article (2965)
- Book (996)
- Conference Proceeding (688)
- Part of Periodical (308)
- Review (257)
- Other (151)
- Working Paper (83)
- Doctoral Thesis (68)
- Report (35)
Language
- German (8077)
- English (1765)
- Russian (145)
- French (38)
- Multiple languages (22)
- Spanish (16)
- Portuguese (14)
- Italian (9)
- Polish (7)
- Ukrainian (5)
Keywords
- Deutsch (5140)
- Korpus <Linguistik> (940)
- Wörterbuch (605)
- Konversationsanalyse (451)
- Rezension (423)
- Grammatik (405)
- Rechtschreibung (374)
- Gesprochene Sprache (361)
- Sprachgebrauch (356)
- Interaktion (338)
Publicationstate
- Veröffentlichungsversion (3883)
- Zweitveröffentlichung (1641)
- Postprint (395)
- Preprint (10)
- Erstveröffentlichung (8)
- Ahead of Print (7)
- (Verlags)-Lektorat (4)
- Hybrides Open Access (2)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836)
- Peer-Review (1595)
- Verlags-Lektorat (94)
- Peer-review (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (44)
- Review-Status-unbekannt (14)
- Peer-Revied (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (10)
- (Verlags-)Lektorat (9)
- Verlagslektorat (5)
Publisher
- de Gruyter (1334)
- Institut für Deutsche Sprache (1091)
- Schwann (638)
- Narr (484)
- Leibniz-Institut für Deutsche Sprache (IDS) (263)
- De Gruyter (244)
- Niemeyer (200)
- Lang (184)
- Narr Francke Attempto (170)
- IDS-Verlag (144)
In this chapter, a conversation-analytic approach is used to study medical recommendations as an essential part of medical advice. Tlte analyses are based on renal treatment planning conversations in which physicians inform patients about an upcoming dialysis therapy. The data reveals that medical recommendations are marked throughout by their strikingly tentative and relativistic phrasing in which the conflict between physicians duty of care and the patient’s autonomy is obvious. The observed discrepancy between what should be said and what patients and physicians want to be said - and heard - not only gives reason to challenge the ethical and legal requirements concerning medical recommendations and their implications for medical practice, but also to rethink the current models of decision-making in medical communication.
Aus der linguistischen Gesprächs- und Diskursanalyse heraus hat sich in den letzten 10 Jahren eine Angewandte Diskursforschung entwickelt, die das sprachlichkommunikative Handeln in unterschiedlichen gesellschaftlichen Praxisfeldern und Institutionen empirisch untersucht und dabei ausdrücklich auf die Anwendung ihrer Ergebnisse in dieser Praxis abzielt. In dem Beitrag zeigen wir, welche Fragestellungen und Ziele diese Forschungsrichtung verfolgt (Kap. 2), und benennen exemplarisch einige anwendungsrelevante inhaltliche Ergebnisse zu den Bereichen Schule, Medizin und Wirtschaft (Kap. 3). Anschließend stellen wir methodische Überlegungen für die Angewandte Diskursforschung dar und formulieren Prinzipien der Komplexität, der Problemorientierung, der Aktantenorientierung und der normativen Orientierung (Kap. 4). Wie solche Ergebnisse für die Aus- und Fortbildung didaktisch aufbereitet und in die Praxis rückvermittelt werden können und welche Perspektiven wir für die Weiterentwicklung der Zusammenarbeit zwischen Linguistik und Praxis sehen, diskutieren wir am Schluss des Beitrags (Kap. 5 und 6).
Orthographie
(2024)
Ausgehend von den Ergebnissen des letzten IQB-Bildungstrends (2021) zu den orthographischen Kompetenzen von Grundschüler:innen fragt der Beitrag nach Stellenwert und Funktion der Orthographie vor dem Hintergrund der Anforderungen, die an die sprachliche Bildung von Schüler:innen gestellt sind. Orthographie und orthographische Kompetenzen werden funktional im Bereich des Schreibens und einer zu entwickelnden Schreibkompetenz verortet. Wichtig ist dabei der Blick auf die Schreibflüssigkeit. Sie ist grundlegend für die anforderungsreichen Prozesse des Textschreibens. Ausgehend von Befunden neuerer Studien betrachten wir das Verhältnis von Orthographie und Schreiben und daraus resultierende Anforderungen an den schulischen (Recht-)Schreiberwerb.
Dieser Band ergänzt die bisherigen kontrastiv-typologischen Forschungen um eine neue Komponente. Hauptgegenstand ist der Vergleich zweier Satzmodussysteme, nämlich des deutschen und des ungarischen. Die Einbeziehung weiterer Kontrastsprachen erweitert das Vergleichsspektrum um weitere, typologisch relevante Möglichkeiten. Die so erarbeiteten deutsch-ungarischen Vergleiche wurden durch zahlreiche empirische Untersuchungen mit Textkorpora sowie mit Tondokumenten belegt: Die lexikogrammatischen Merkmale wurden in einem deutsch-ungarischen Vergleichskorpus getestet, die Tonmuster mit einem phonetischen Analyseprogramm ausgewertet. Die Motivierung der Entwicklung eines bestimmten Satzmodusmerkmals durch den Wandel eines anderen Merkmals gibt aufschlussreiche Informationen zur Wechselwirkung der Ebenen des Sprachsystems. Eine Zusammenfassung der historischen Entwicklung des Satzmodussystems des Deutschen und des Ungarischen macht typologisch relevante Entwicklungstendenzen sichtbar.
Zeitungsartikel mit wirtschaftlichem Inhalt sind nicht immer nach dem Textmuster „Bericht“ geschrieben, sie können auch erzähltechnische Elemente enthalten. Die Autorinnen untersuchen wirtschaftliche Krisenberichterstattungen aus deutschen, schweizerischen und österreichischen (Wochen-)Zeitungen; sie postulieren, dass Bericht und Erzählung nicht dichotomische Textmuster darstellen, sondern Pole einer Skala, auf der die konkreten Texte verortet werden können. Sie differenzieren vier Grade der Narrativität: nicht /schwach/mittel/stark narrativ. Es zeigt sich, dass der Anteil der schwach und mittel narrativen Texte zwischen 1973 und 2010-12 stark zunimmt. Außerdem werden die Positionen der Gesamtnarration „Krise“ ebenfalls je nach Untersuchungszeitraum bzw. Zeitung verschieden besetzt. Insgesamt dient der Einsatz narrativer Techniken dazu, durch eine textuelle Umsetzung der Krankheitsmetapher zunehmend abstraktere Prozesse zu veranschaulichen.
Viele deutschsprachige Germanisten, hieß es in der Einladung zu dieser Jahrestagung, „haben einen Hang zur Binnenperspektive, zur Betrachtung der deutschen Sprache und Literatur aus der Sicht der ‚Eigentümer‘ […]. Diese eingeschränkte Sicht auf die Sprache lässt sich durch den Blick von außen […] erweitern und relativieren.“ Diesem Ziel näherten sich die fünfzehn Referentinnen und Referenten aus unterschiedlicher Richtung, wobei jedoch nicht unbedingt sprachstrukturelle, sprachvergleichende oder sprachdidaktische Fragen im Zentrum des Interesses stehen mussten, sondern auch sprach(en)politische Probleme das Referat dominieren konnten.
Reden über Geld
(2017)
Der Konstruktionsbegriff hielt seinen Einzug in die Spracherwerbsforschung durch gebrauchsbasierte Lerntheorien, nach denen sprachliche Strukturen als Form-Funktionseinheiten aus dem Input abgeleitet werden, Sprache somit ein emergentes System ist (Tomasello 1998a und b; Behrens 2009a und b). Die Abstraktionseinheit für das Kind ist dabei die Äußerung in ihrer situativen Gebundenheit und ihrer Diskursfunktion, mithin die Konstruktion. Die Konstruktion wird gefasst als schematische Einheit mit mehr oder weniger offenen Slots: Teile der Konstruktion können lexikalisch fixiert oder aber produktiv und durch andere Ausdrücke ersetzbar sein. Der Kontrast zum Valenzbegriff bzw. dem der Argumentstruktur in seiner formaleren Definition liegt darin, dass die lexikalischen Eigenschaften der Wörter die Syntax nicht projizieren, sondern dass sowohl die Eigenschaften der Lemmas als auch die der Morphosyntax aus ihrem Vorkommen in konkreten Sätzen abgeleitet werden.
Empirisch konzentriert sich die Forschung auf die Ermittlung der Generalisierungsprozesse und auf deren Basis im Input, dem Sprachangebot. Erwerbsrelevant ist insbesondere der Input in seinen usualisierten Mustern in typischen Interaktionssituationen. Eher wird vor allem der Grad der Produktivität kindlicher Äußerungen analysiert. Bislang weniger untersucht, aber zunehmend im Fokus sind die Generalisierungsprozesse selbst und damit die generative Kraft des Konstruktionsbegriffs. Sobald Aspekte einer Konstruktion abstrahiert worden (= produktiv) sind, sollten sie auf neue Situationen übertragen werden können, und gilt es zu ermitteln, welche formalen, funktionalen und distributionellen Faktoren die Abstraktion sprachlichen Wissens fördern.
In dem Paradigma der gebrauchsbasierten Konstruktionsgrammatik wird die modulare Trennung zwischen Wörtern und Regeln aufgehoben. Somit kann innerhalb eines einheitlichen theoretischen Rahmens sowohl der Erwerb regelhafter als auch der stärker idiosynkratischer Strukturen erklärt werden.
Zur Syntax in Fachtexten
(1979)
Der Beitrag interpretiert ausgewählte interaktionale Phänomene in Chats, Foren und Wikipedia-Diskussionen als ,Praktiken‘ im Sinne der Interaktionalen Linguistik. Vorgestellt und anhand von Beispielanalysen veranschaulicht werden Praktiken des Revidierens, der Portionierung, des Zitierens, des Adressierens und des nachträglichen Editierens von Kommunikationsbeiträgen. Das Praktikenkonzept erweist sich dabei als grundsätzlich produktiv; hinsichtlich der Äußerungsund Wahrnehmungsbedingungen sowie der für die Interaktionskonstitution zur Verfügung stehenden Ressourcen weist die internetbasierte Kommunikation aber dennoch eine fundamentale Differenz zu Formen mündlicher Interaktion auf. Diese Unterschiede sind bei der Adaption des Praktikenkonzepts für die Analyse der neuen Kommunikationsformen zu berücksichtigen.
Der Beitrag behandelt die Frage, wie sich das spezifisch Neue internetbasierter Kommunikation unter linguistischer Perspektive fassen und in Traditionen des sprachlichen Handelns einordnen lässt. Es wird gezeigt, dass sich die internetbasierte Kommunikation weder als Interaktion noch als Textkommunikation hinreichend beschreiben lasst, zugleich aber Merkmale mit beiden Formen teilt. Mit dem Konzept der Textformen-basierten Interaktion wird ein Vorschlag formuliert, wie dieses Dilemma aufgelöst werden kann: Das Innovationspotenzial internetbasierter Kommunikationstechnologien liegt gerade darin, dass diese durch Indienstnahme von Textformen die Möglichkeiten von Interaktion erweitern. Das hat einerseits Konsequenzen fur die linguistische Analyse und lässt sich andererseits fruchtbar machen fur die Entwicklung von Standards fur die Repräsentation von Korpora.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
The paper presents best practices and results from projects dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC) from four different countries. Even though there are still many open issues related to building and annotating corpora of this type, there already exists a range of tested solutions which may serve as a starting point for a comprehensive discussion on how future standards for CMC corpora could (and should) be shaped like.
Converting and Representing Social Media Corpora into TEI: Schema and best practices from CLARIN-D
(2016)
The paper presents results from a curation project within CLARIN-D, in which an existing lMWord corpus of German chat communication has been integrated into the DEREKO and DWDS corpus infrastructures of the CLARIN-D centres at the Institute for the German Language (IDS, Mannheim) and at the Berlin-Brandenburg Academy of Sciences (BBAW, Berlin). The focus is on the solutions developed for converting and representing the corpus in a TEI format.
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
The paper presents an XML schema for the representation of genres of computer-mediated communication (CMC) that is compliant with the encoding framework defined by the TEI. It was designed for the annotation of CMC documents in the project Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK), which aims at building a corpus on language use in the most popular CMC genres on the German-speaking Internet. The focus of the schema is on those CMC genres which are written and dialogic―such as forums, bulletin boards, chats, instant messaging, wiki and weblog discussions, microblogging on Twitter, and conversation on “social network” sites.
The schema provides a representation format for the main structural features of CMC discourse as well as elements for the annotation of those units regarded as “typical” for language use on the Internet. The schema introduces an element <posting>, which describes stretches of text that are sent to the server by a user at a certain point in time. Postings are the main constituting elements of threads and logfiles, which, in our schema, are the two main types of CMC macrostructures. For the microlevel of CMC documents (that is, the structure of the <posting> content), the schema introduces elements for selected features of Internet jargon such as emoticons, interaction words and addressing terms. It allows for easy anonymization of CMC data for purposes in which the annotated data are made publicly available and includes metadata which are necessary for referencing random excerpts from the data as references in dictionary entries or as results of corpus queries.
Documentation of the schema as well as encoding examples can be retrieved from the web at http://www.empirikom.net/bin/view/Themen/CmcTEI. The schema is meant to be a core model for representing CMC that can be modified and extended by others according to their own specific perspectives on CMC data. It could be a first step towards an integration of features for the representation of CMC genres into a future new version of the TEI Guidelines.
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
Einleitung
(2023)
Since 2013 representatives of several French and German CMC corpus projects have developed three customizations of the TEI-P5 standard for text encoding in order to adapt the encoding schema and models provided by the TEI to the structural peculiarities of CMC discourse. Based on the three schema versions, a 4th version has been created which takes into account the experiences from encoding our corpora and which is specifically designed for the submission of a feature request to the TEI council. On our poster we would present the structure of this schema and its relations (commonalities and differences) to the previous schemas.
Einführung
(2022)
Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen
(2002)
Dieser Beitrag skizziert Strategien zur (semi-)automatischen Annotation von definitorischen Textsegmenten und Termverwendungsinstanzen auf der Grundlage grammatisch annotierter Korpora. Ziel unserer Überlegungen ist es, bei der selektiven Rezeption von Fachtexten in einer Hypertextumgebung die je spezifischen Wissensvoraussetzungen, die der Verwendung von Fachtermini unterliegen und die für das Textverständnis eine entscheidende Rolle spielen, über automatisch generierte Linkangebote rekonstruierbar zu machen.
In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora.
The paper reports on the results of a scientific colloquium dedicated to the creation of standards and best practices which are needed to facilitate the integration of language resources for CMC stemming from different origins and the linguistic analysis of CMC phenomena in different languages and genres. The key issue to be solved is that of interoperability – with respect to the structural representation of CMC genres, linguistic annotations metadata, and anonymization/pseudonymization schemas. The objective of the paper is to convince more projects to partake in a discussion about standards for CMC corpora and for the creation of a CMC corpus infrastructure across languages and genres. In view of the broad range of corpus projects which are currently underway all over Europe, there is a great window of opportunity for the creation of standards in a bottom-up approach.
Der Beitrag betrachtet lexikalisch-semantische Relationen aus einer emergentistischen Perspektive vor dem Hintergrund eines korpusgeleiteten empirisch-linguistischen Ansatzes. Er skizziert, wie eine systematische Erfassung und Auswertung des Kookkurrenzverhaltens von Lexemen – die Analyse der Ahnlichkeit von Kookkurrenzprofilen mit Hilfe von selbstorganisierenden lexikalischen Merkmalskarten und ihre im Diskurs verankerte Interpretation – wichtige Einblicke in die Struktur verschiedenartiger Verwendungsaspekte dieser Lexeme einschlieslich ihrer semantischen Nahe ermoglichen. Die vorgestellte Methodik wird dabei –uber die explorativ-analytischen Zielsetzungen hinaus – als eine abduktive, auf Theoriebildung zielende Generalisierungsstrategie im postulierten Lexikon-Syntax-Kontinuum verstanden. Zum Schluss werden die Anwendungsmoglichkeiten einiger Komponenten dieser Methodik in der Lexikografie, Lexikologie und Didaktik diskutiert.
Taking a usage-based perspective, lexical-semantic relations and other aspects of lexical meaning are characterised as emerging from language use. At the same time, they shape language use and therefore become manifest in corpus data. This paper discusses how this mutual influence can be taken into account in the study of these relations. An empirically driven methodology is proposed that is, as an initial step, based on self-organising clustering of comprehensive collocation profiles. Several examples demonstrate how this methodology may guide linguists in explicating implicit knowledge of complex semantic structures. Although these example analyses are conducted for written German, the overall methodology is language-independent.
Empirical synchronic language studies generally seek to investigate language phenomena for one point in time, even though this point in time is often not stated explicitly. Until today, surprisingly little research has addressed the implications of this time-dependency of synchronic research on the composition and analysis of data that are suitable for conducting such studies. Existing solutions and practices tend to be too general to meet the needs of all kinds of research questions. In this theoretical paper that is targeted at both corpus creators and corpus users, we propose to take a decidedly synchronic perspective on the relevant language data. Such a perspective may be realised either in terms of sampling criteria or in terms of analytical methods applied to the data. As a general approach for both realisations, we introduce and explore the FReD strategy (Frequency Relevance Decay) which models the relevance of language events from a synchronic perspective. This general strategy represents a whole family of synchronic perspectives that may be customised to meet the requirements imposed by the specific research questions and language domain under investigation.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
In vielen Theorien zur Sprachproduktion spielt die Einheit Wort eine zentrale Rolle: Bei der Planung einer Äußerung werden vorsprachliche Konzepte angenommen, die jedes für sich einer lexikalischen Komponente für eine geeignete Wortwahl übergeben werden. Eine syntaktische Komponente sorgt für eine angemessene Formulierung. Kollokationen als Wortverbindungen bringen den zusätzlichen Einfluss mit ein, dass Wörter vielfach gemeinsam in präferierten Kombinationen gewählt werden. Dieser fällt aber nur dann auf, wenn das Ergebnis nicht das sonst Erwartbare ist – das allerdings von verschiedenen Faktoren (z. B. der situativen Angemessenheit) abhängig ist. Ein Kollokationsbegriff, der auf Abweichungen aufbaut, trägt nur im Vergleich zu einem nicht pauschal definierbaren Standard. Wenn sich Kollokationen aber im Kern auf Gebrauchspräferenzen zurückführen lassen, sind sie empirisch zugänglich. Kollokationen zeigen sich ermergent im Sprachgebrauch und lassen sich in Korpora aufspüren. Eine Einordnung bezüglich Auffälligkeiten (etwa zur Übersetzungsäquivalenz oder zur Idiomatik) ist jeweils eine perspektiven-bezogene Interpretation des allgemeinen Konzepts.
CONTRIBUTIONS TO THE STUDY OF GERMAN USAGE A CORPUS-BASED APPROACH
This paper outlines some basic assumptions and principles underlying the corpus linguistics research and some application domains at the Institute for German Language in Mannheim. We briefly address three complementary but closely related tasks: first, the acquisition of very large corpora, second, the research on statistical methods for automatically extracting information about associations between word configurations, and, third, meeting the challenge of understanding the explanatory power of such methods both in theoretical linguistics and in other fields such as second language acquisition or lexicography. We argue that a systematic statistical analysis of huge bodies of text can reveal substantial insights into the language usage und change, far beyond just collocational patterning.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
Grußwort/Welcome address
(2018)
“To cleanse and at the same time enrich your mother tongue is the task of the brightest people.”
With this quote Goethe, the famous German poet, seemed to have described the work of EFNIL today. But is our task really that easy? Do we “cleanse” our language by deleting superfluous elements? Do we not lose the rich abundance of a language in so doing? Or is Goethe asking for other languages to be prevented from influencing his mother tongue? Would this even be feasible in a globalised world?
Rudi Carrell, a famous entertainer on German TV, once said:
“When I came to Germany I only spoke English. But the German language contains so many English words nowadays that I am now fluent in German!”
His opinion is probably shared by many people learning German.
My daily job is to support around 100,000 schools abroad that offer German as a foreign language. We ask ourselves daily: which German language should we be offering young people today? The classical German of literature? Or practical German which will enable young people to join the workforce of many German companies worldwide? And most of all: how do we motivate young people to learn German? Or any other foreign language?
Yes, English, French, German, Spanish – these languages are in competition in many schools. But the most important fact is: the benefit lies in learning a foreign language, no matter which. Because by learning a foreign language we start to understand foreign cultures and other people. And THAT is what matters.
Coronaparty, Jo-jo-Lockdown und Mask-have – Wortschatzerweiterung während des Corona-Stillstands
(2021)
The internationally renowned conference of the European Association for Lexicography (EURALEX) has taken place every two years for the past 39 years. Last year’s conference, held July 12th–16th, 2022, marked EURALEX’s 20th edition, and more than 200 international participants gathered at Mannheim Palace to discuss current developments, learn about new projects, and present their own work — either in lexicography or in one of the many applied or neighboring disciplines such as corpus and computational linguistics.
A comparison between morphological complexity measures: typological data vs. language corpora
(2016)
Language complexity is an intriguing phenomenon argued to play an important role in both language learning and processing. The need to compare languages with regard to their complexity resulted in a multitude of approaches and methods, ranging from accounts targeting specific structural features to global quantification of variation more generally. In this paper, we investigate the degree to which morphological complexity measures are mutually correlated in a sample of more than 500 languages of 101 language families. We use human expert judgements from the World Atlas of Language Structures (WALS), and compare them to four quantitative measures automatically calculated from language corpora. These consist of three previously defined corpus-derived measures, which are all monolingual, and one new measure based on automatic word-alignment across pairs of languages. We find strong correlations between all the measures, illustrating that both expert judgements and automated approaches converge to similar complexity ratings, and can be used interchangeably.
We investigate the optional omission of the infinitival marker in a Swedish future tense construction. During the last two decades the frequency of omission has been rapidly increasing, and this process has received considerable attention in the literature. We test whether the knowledge which has been accumulated can yield accurate predictions of language variation and change. We extracted all occurrences of the construction from a very large collection of corpora. The dataset was automatically annotated with language-internal predictors which have previously been shown or hypothesized to affect the variation. We trained several models in order to make two kinds of predictions: whether the marker will be omitted in a specific utterance and how large the proportion of omissions will be for a given time period. For most of the approaches we tried, we were not able to achieve a better-than-baseline performance. The only exception was predicting the proportion of omissions using autoregressive integrated moving average models for one-step-ahead forecast, and in this case time was the only predictor that mattered. Our data suggest that most of the language-internal predictors do have some effect on the variation, but the effect is not strong enough to yield reliable predictions.
Entlehnungen aus dem Englischen sind weder erst ein Phänomen der Nachkriegsjahre noch die Folge der Globalisierung, in der das Englische als die neue lingua franca nur eines der Ergebnisse dieses Prozesses, zugleich aber sein Vehikel darstellt. In den Ergebnissen der Zeitungs- und Repräsentativerhebungen zu Einstellungen der Deutschen zu ihrer Sprache spiegelt sich der in der Tat seit über 60 Jahren fortschreitende deutsch-englische Sprachkontakt, den die deutsche Sprachgemeinschaft erfährt. Kommunikation zwischen Trägern verschiedener Sprachen begünstigt Übernahmen aus nicht nur genetisch verwandten Sprachen. So finden sich unter dem entlehnten Sprachgut auch Formen, die in der Geber- und Nehmersprache auf eine gemeinsame Wurzel zurück gehen. In dieser Arbeit werden Überlegungen zu fair und fegen in ihrem historische, genetischen und morphologischen Kontext gemacht und auf die Begriffe des Lehnworts und Erbes hin untersucht.
Sprachliche Anpassung. Eine soziolinguistisch-dialektologische Untersuchung zum Rußlanddeutschen
(1998)
Der Band beinhaltet Ergebnisse des IDS-Projekts "Sprachliche Integration von Aussiedlern". Er behandelt die sprachliche Anpassung und Integration von rußlanddeutschen Aussiedlern, die seit Mitte der 80er Jahre nach Deutschland gekommen sind. Ihre sprachlich-soziale Situation in Deutschland ist durch eine charakteristische Mehrsprachigkeit gekennzeichnet.
Die unterschiedlichen sprachlichen Formen werden anschaulich an Textbeispielen demonstriert. Es werden dialektologische und soziolinguistische Untersuchungen durchgeführt, die zeigen, wie sich die Sprechweisen einzelner Gruppen von Aussiedlern im Verlauf des Anpassungs- und Integrationsprozesses verändern, und es werden Konsequenzen für den die Integration unterstützenden Sprachunterricht aufgezeigt.
Nach Aufrufen der Zarin Katharina II und ihrer Nachfolger haben sich viele Menschen „aus deutschen Landen“ – aus Hessen und Baden, aus der Pfalz und Württemberg, aus Bayern, aus Mittel- und Norddeutschland – im 18. und später im 19. Jahrhundert auf den Weg nach Russland gemacht. Mitnehmen konnten sie nicht viel – außer ihren Heimatmundarten. Diese haben sie nicht nur in den ersten Jahrzehnten bewahrt, sondern für viele Generationen und Jahrhunderte danach.
Vom Zarenreich bis Putin folgt die Autorin dem Schicksal der russlanddeutschen Dialekte. Sie reist in die entlegensten Winkel der ehemaligen Sowjetunion, in die kleinen und großen Sprachinseln, besucht Wolhyniendeutsche und Mennoniten im Norden, Schwaben in Kasachstan, Bayern und Pfälzer im Altai-Gebiet und entdeckt überall quicklebendige Mundarten, eine reiche, vielfältige, für die Außenwelt noch weitgehend verschlossene Dialektlandschaft, deren besonderer Reiz das Neben- und Miteinander des Ursprünglichen, Mitgebrachten und des in den russischen Weiten Neuentwickelten und Hinzugekommenen ausmacht. Einen allgemeinen und gleichzeitig detaillierten Einblick in die heute weitgehend verschwundenen deutschen Sprachinselgebiete Russlands und deren Mundarten gibt das gut illustrierte Buch von Nina Berend.
Demografičeskaja charakteristika nositelej severnobavarskogo govora sela jamburg altajskogo kraja
(1978)
Sprache nach der Re-Migration : am Beispiel der russischsprachigen Zuwanderung in Deutschland
(2011)
Over the past 30 years, more than 3 million migrants from the former Soviet Union have settled in Germany. At the Institute for German Language (Mannheim, Germany), the linguistic processes accompanying this Russian-German migration are currently being examined. In the present paper, three typical subtypes of this migration context will be analysed: »Inseldeutsch« (‘island German), »frühes Hochdeutsch« ( ‘early Standard German), and »Aussiedlerdeutsch« (the German of Russian-German migrants). What the analysis will suggest is that the general tendency is for the migrants’ linguistic choices and the emerging (migrant) varieties to be oriented both to the norms of Standard German and to the local dialects of their new homes.
Die Aufnahme deutscher Siedler und die Bildung von Sprachinseln in Russland seit Katharina II
(2011)
Demografičeskaja charakteristika nositelej severnobavarskogo govora sela Jamburg Altajskogo kraja
(1978)
Die Fragestellung der Jahrestagung „Das Deutsch der Migranten“ wird am Beispiel des gesprochenen Deutsch der russischsprachigen Zuwanderer der ersten Generation (Einwanderungsgeneration) untersucht. Hervorgehoben werden auffällige Aspekte einer Langzeitstudie zum gruppenexternen und gruppeninternen Sprachgebrauch dieser Sprechergruppe im bundesdeutschen Kontext. Durch die besondere Migrationskonstellation stellen sich Sprachwandelprozesse ein, die als typisch für die Einwanderungsgeneration dieser Migrantengruppe zu betrachten sind. Die Ergebnisse beziehen sich auf die im Institut für Deutsche Sprache seit den frühen 1990er Jahren und im letzten Jahr erneut durchgeführten Sprachaufnahmen zum Sprachgebrauch der russlanddeutschen Minderheit aus der ehemaligen Sowjetunion.
Der Beitrag behandelt die Frage, inwiefern es sich bei den gegenwärtigen Russlanddeutschen (Erwachsenen und Jugendlichen der ersten Generation, Einwanderungswelle der 1990er Jahre aus Sprachinseln) um Re-Migranten handelt, welche Veränderungen in den Varietätenrepertoires stattfinden und welche Schwierigkeiten und Probleme, aber auch Vorteile sich durch diese spezifische Migrationskonfiguration für die zugewanderten Russlanddeutschen ergeben. Die besondere Situation der Re-Migration mit der spezifischen linguistisch-soziolinguistischen Problematik wird durch Beispiele aus dem aktuellen IDS-Projekt „Migrationslinguistik“ veranschaulicht. Einerseits liegen besondere varietätenlinguistische Konstellationen vor, die bei der russlanddeutschen Migrantenpopulation generationenspezifische Konturen aufweisen. Dadurch entstehen andererseits unikale linguistische Sprachkontaktbedingungen, die die sprachlich-kommunikative Integration und den Erhalt der Migrantensprache Russisch in besonderer Weise beeinflussen können.
Kann Deutsch als "Minderheitensprache" unterrichtet werden? Überlegungen zu einem aktuellen Problem
(2013)
Angesichts der schwindenden Zahl von Angehörigen der deutschen Minderheiten in den osteuropäischen Ländern und deren veränderter Situation nach der Öffnung des Eisernen Vorhangs stellt sich gegenwärtig die Frage, ob und wie das Deutsche in den betreffenden Regionen gefördert werden kann. Ein zentraler Aspekt in Bezug auf die Existenz und Förderung der deutschen Minderheitensprache in Osteuropa ist der Sprachunterricht. Mit dieser Thematik beschäftigt sich der vorliegende Beitrag.
Der Beitrag beschäftigt sich mit der Frage, ob es im Deutschen regionale Gebrauchsstandards gibt und wie diese wissenschaftlich zu erforschen und zu beschreiben sind. Im ersten Abschnitt wird kurz der Forschungsstand erläutert und die These vertreten, dass man im Deutschen sprechsprachliche, gewissermaßen schriftferne Sprachgebrauchsstandards annehmen muss und dass man diese zielgerichtet untersuchen und beschreiben sollte. Im zweiten Abschnitt werden einige Beispiele für Merkmale der sprechsprachlichen Standards exemplarisch vorgestellt, um deutlich zu machen, welche Beschreibungsaufgaben sich ergeben. Danach wird die Frage erörtert, wie viele bzw. welche Gebrauchsstandards für das Deutsche in Deutschland unterschieden werden können/müssen dies auch aufgrund von Anregungen vonseiten der Sprachdidaktik im Bereich Deutsch als Fremdsprache (Abschnitt 3). Im vierten Abschnitt handelt es sich um die Forschungs- und Beschreibungsaufgaben, wie sie in Bezug auf diese Frage im Institut für Deutsche Sprache gesehen werden und wie sich am IDS laufende Vorhaben in den Forschungskontext einfügen.
Im vorliegenden Beitrag wird anhand von Fallstudien der Frage nachgegangen, welche Dialektkompetenz speziell diejenigen russlanddeutschen Aussiedler der Einwanderungsgeneration mitbringen, die zwar in deutschen Sprachinseln geboren und aufgewachsen sind, einen Großteil des erwachsenen Lebens jedoch in russischsprachiger Umgebung verbracht haben.
Zu Geschichte und Gegenwart der deutschen Sprachinseln in Russland und der ehemaligen Sowjetunion
(2006)
This essay deals with the German speaking islands in Russia and the territories of the former Soviet Union. There will be an overview of the formation and historical development of the linguistic islands (in the 19th and 20th centuries), and the present situation of the german linguistic islands in Russia is described. The development is marked by an abrupt change in the situation, that is, migration and emigration to Germany. As a result, almost all the old well functioning German linguistic islands have recently ceased to exist. Also in the recently formed so-called German National Districts, language loss has progressed fairly rapidly. At the present, it is not clear if the German language islands have any future at all.
Aussprachevarianten des Deutschen : Überlegungen zur Gestaltung einer korpusbasierten Datenbank
(2003)
Variation in spoken Standard German as well as in various regional varieties of German has not yet been covered in full detail. This paper sketches a new research project concerned with the empirical analysis and systematic documentation of phonetic-phonological variability in spoken German. The aim of this project is to set up a corpus-based databank of pronunciation variants, which can be used for various purposes, e.g. by scholars and teachers of German as a foreign language.