Refine
Year of publication
Document Type
- Part of a Book (4500)
- Article (2965)
- Book (996)
- Conference Proceeding (688)
- Part of Periodical (308)
- Review (257)
- Other (151)
- Working Paper (83)
- Doctoral Thesis (68)
- Report (35)
Language
- German (8077)
- English (1765)
- Russian (145)
- French (38)
- Multiple languages (22)
- Spanish (16)
- Portuguese (14)
- Italian (9)
- Polish (7)
- Ukrainian (5)
Keywords
- Deutsch (5140)
- Korpus <Linguistik> (940)
- Wörterbuch (605)
- Konversationsanalyse (451)
- Rezension (423)
- Grammatik (405)
- Rechtschreibung (374)
- Gesprochene Sprache (361)
- Sprachgebrauch (356)
- Interaktion (338)
Publicationstate
- Veröffentlichungsversion (3883)
- Zweitveröffentlichung (1641)
- Postprint (395)
- Preprint (10)
- Erstveröffentlichung (8)
- Ahead of Print (7)
- (Verlags)-Lektorat (4)
- Hybrides Open Access (2)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836)
- Peer-Review (1595)
- Verlags-Lektorat (94)
- Peer-review (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (44)
- Review-Status-unbekannt (14)
- Peer-Revied (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (10)
- (Verlags-)Lektorat (9)
- Verlagslektorat (5)
Publisher
- de Gruyter (1334)
- Institut für Deutsche Sprache (1091)
- Schwann (638)
- Narr (484)
- Leibniz-Institut für Deutsche Sprache (IDS) (263)
- De Gruyter (244)
- Niemeyer (200)
- Lang (184)
- Narr Francke Attempto (170)
- IDS-Verlag (144)
Andreas Dulson
(1989)
Georg Dinges
(1989)
Litanei
(1990)
Der Wolgadeutsche Sprachatlas (WDSA) entstand in den 20er Jahren in der Zentralstelle zur Erforschung der Wolgadeutschen Mundarten in der Stadt Engels an der Wolga, der damaligen Hauptstadt der deutschen Wolga-Republik. Von allen anderen deutschen Atlanten unterscheidet er sich wohl in erster Linie dadurch, daß er quasi in zwei Dimensionen zu sehen ist: einerseits entstand er schon vor 60 Jahren, andererseits war seine Existenz bis vor kurzem nicht bekannt. Dabei handelt es sich beim WDSA offensichtlich um einen der ersten deutschen Regionalatlanten: in seiner heutigen Form war er bereits 1929 abgeschlossen. Daß er heute, mehr als 60 Jahre nach seiner Entstehung, noch nicht veröffentlicht ist, hängt mit dem politischen Schicksal der Region zusammen, deren sprachliche Zustände der Atlas widerspiegelt, und dem persönlichen Schicksal der Menschen, die ihn geschaffen haben.
Sprachdrill oder kommunikative Integration: zur Situation der Rußlanddeutschen in der Bundesrepublik
(1993)
Das Sprachverhalten der Rußlanddeutschen und ihre soziolinguistische Situation sind noch nie zum Objekt der wissenschaftlichen Untersuchung geworden. In der Sowjetunion wurden hauptsächlich sprachgeographische Untersuchungen durchgeführt, deren Ziel die Fixierung der noch vorhandenen deutschen Dialekte und die Beschreibung ihrer linguistischen Struktur war. Auf diese Weise entstanden in der Nachkriegszeit dialektologische Beschreibungen der wichtigsten noch erhalten gebliebenen Mundarttypen in der Sowjetunion, eine soziolinguistische Sprachverhaltensanalyse blieb aber aus. Die Dialektsprecher selbst wurden nicht zum unmittelbaren Objekt der Untersuchung: es wurde in einigen Fällen höchstens eine demographische Erhebung in einzelnen Orten durchgeführt, die eine rein statistische Beschreibung der Beziehung zwischen Varietäten, Generationen, dem Bildungsgrad und dem Beruf der Einwohner der betreffenden Siedlung war.
Wie auch andere Dialekte auf dem Territorium der UdSSR zeigt die untersuchte bairische Mundart des Altai charakteristische Züge in der verbalen Wortbildung, die mit den Besonderheiten der Lautentwicklung seit Bestehen der Sprachinsel zusammenhängen. Der Artikel untersucht die spezifische Funktion einiger Wortbildungsmittel dieser Mundart, ihre Verwendungshäufigkeit und Produktivität. Die Materialgrundlage für diese Untersuchung sind 3819 abgeleitete Verben, die aus der Gesamtzahl verbaler Belege (18 095) ausgewählt wurden und die von den Sprechern dieser Mundart in spontaner Rede verwendet wurden.
Am 11. Oktober 1991 verschied im Alter von 71 Jahren Professor Dr. phil. Hugo Jedig. Mit ihm ist der Begründer und langjährige Leiter der dialektologischen Forschungen in Sibirien von uns gegangen, der das Schicksal der deutschen Dialektologie in der Sowjetunion der Nachkriegszeit in entscheidender Weise geprägt hat. Das Leben und Schaffen von Hugo Jedig muß im Zusammenhang mit den Zeitläuften gesehen werden, in denen er wirkte. In einer Zeit, als es in der Sowjetunion noch keine Perestrojka und Glasnost’ gab, in einer Zeit, als alles Deutsche zumindest nicht erwünscht war und oftmals verborgen wurde, in dieser Zeit wagte er es - als einziger Deutscher - sich der Erforschung der deutschen Dialekte in der Sowjetunion zu widmen und sie zu seinem Lebenswerk zu machen. Sein Schaffen muß in dem Rahmen gesehen werden, daß es in der Sowjetunion nicht selbstverständlich war, sich mit deutscher Dialektologie zu befassen. Es ist kein Zufall, daß namhafte Dialektologen wie V. Zirmunskij , A .Dulson , L. Zinder , S. Mironov in der Nachkriegszeit ihre dialektologischen Forschungen völlig aufgegeben haben. Die Leistung von Hugo Jedig besteht darin, daß er die durch den Krieg abgebrochene Forschungstradition wiederaufgenommen und erfolgreich weitergeführt hat. Er ist bis heute der einzige international bekannte und anerkannte Wissenschaftler in der Sowjetunion der Nachkriegszeit, der sich konsequent und nachdrücklich für die Erforschung der deutschen Mundarten einsetzte und der sein Lebenswerk der deutschen Dialektologie widmete.
Wolgadeutscher Sprachatlas (WDSA). Aufgrund der von Georg Dinges 1925-1929 gesammelten Materialien
(1997)
Der Wolgadeutsche Sprachatlas (WDSA) ist ein historischer, regionaler Sprachatlas. Er umfasst Sprachdaten einer deutschen Region im Ausland, die in der Gegenwart nicht mehr existiert. Es handelt sich um das historische deutsche Sprachgebiet im europäischen Teil Russlands, und zwar um das Gebiet beiderseits des russischen Flusses Wolga.
Der Wolgadeutsche Sprachatlas dokumentiert die Sprachverhältnisse dieser deutschen Region um 1920 (bis 1928). Die Sprache, die dort von Anfang an bis 1941 gesprochen wurde, wird traditionell „wolgadeutsch“ genannt.
Entlehnungen aus dem Englischen sind weder erst ein Phänomen der Nachkriegsjahre noch die Folge der Globalisierung, in der das Englische als die neue lingua franca nur eines der Ergebnisse dieses Prozesses, zugleich aber sein Vehikel darstellt. In den Ergebnissen der Zeitungs- und Repräsentativerhebungen zu Einstellungen der Deutschen zu ihrer Sprache spiegelt sich der in der Tat seit über 60 Jahren fortschreitende deutsch-englische Sprachkontakt, den die deutsche Sprachgemeinschaft erfährt. Kommunikation zwischen Trägern verschiedener Sprachen begünstigt Übernahmen aus nicht nur genetisch verwandten Sprachen. So finden sich unter dem entlehnten Sprachgut auch Formen, die in der Geber- und Nehmersprache auf eine gemeinsame Wurzel zurück gehen. In dieser Arbeit werden Überlegungen zu fair und fegen in ihrem historische, genetischen und morphologischen Kontext gemacht und auf die Begriffe des Lehnworts und Erbes hin untersucht.
We investigate the optional omission of the infinitival marker in a Swedish future tense construction. During the last two decades the frequency of omission has been rapidly increasing, and this process has received considerable attention in the literature. We test whether the knowledge which has been accumulated can yield accurate predictions of language variation and change. We extracted all occurrences of the construction from a very large collection of corpora. The dataset was automatically annotated with language-internal predictors which have previously been shown or hypothesized to affect the variation. We trained several models in order to make two kinds of predictions: whether the marker will be omitted in a specific utterance and how large the proportion of omissions will be for a given time period. For most of the approaches we tried, we were not able to achieve a better-than-baseline performance. The only exception was predicting the proportion of omissions using autoregressive integrated moving average models for one-step-ahead forecast, and in this case time was the only predictor that mattered. Our data suggest that most of the language-internal predictors do have some effect on the variation, but the effect is not strong enough to yield reliable predictions.
A comparison between morphological complexity measures: typological data vs. language corpora
(2016)
Language complexity is an intriguing phenomenon argued to play an important role in both language learning and processing. The need to compare languages with regard to their complexity resulted in a multitude of approaches and methods, ranging from accounts targeting specific structural features to global quantification of variation more generally. In this paper, we investigate the degree to which morphological complexity measures are mutually correlated in a sample of more than 500 languages of 101 language families. We use human expert judgements from the World Atlas of Language Structures (WALS), and compare them to four quantitative measures automatically calculated from language corpora. These consist of three previously defined corpus-derived measures, which are all monolingual, and one new measure based on automatic word-alignment across pairs of languages. We find strong correlations between all the measures, illustrating that both expert judgements and automated approaches converge to similar complexity ratings, and can be used interchangeably.
The internationally renowned conference of the European Association for Lexicography (EURALEX) has taken place every two years for the past 39 years. Last year’s conference, held July 12th–16th, 2022, marked EURALEX’s 20th edition, and more than 200 international participants gathered at Mannheim Palace to discuss current developments, learn about new projects, and present their own work — either in lexicography or in one of the many applied or neighboring disciplines such as corpus and computational linguistics.
Coronaparty, Jo-jo-Lockdown und Mask-have – Wortschatzerweiterung während des Corona-Stillstands
(2021)
Grußwort/Welcome address
(2018)
“To cleanse and at the same time enrich your mother tongue is the task of the brightest people.”
With this quote Goethe, the famous German poet, seemed to have described the work of EFNIL today. But is our task really that easy? Do we “cleanse” our language by deleting superfluous elements? Do we not lose the rich abundance of a language in so doing? Or is Goethe asking for other languages to be prevented from influencing his mother tongue? Would this even be feasible in a globalised world?
Rudi Carrell, a famous entertainer on German TV, once said:
“When I came to Germany I only spoke English. But the German language contains so many English words nowadays that I am now fluent in German!”
His opinion is probably shared by many people learning German.
My daily job is to support around 100,000 schools abroad that offer German as a foreign language. We ask ourselves daily: which German language should we be offering young people today? The classical German of literature? Or practical German which will enable young people to join the workforce of many German companies worldwide? And most of all: how do we motivate young people to learn German? Or any other foreign language?
Yes, English, French, German, Spanish – these languages are in competition in many schools. But the most important fact is: the benefit lies in learning a foreign language, no matter which. Because by learning a foreign language we start to understand foreign cultures and other people. And THAT is what matters.
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
CONTRIBUTIONS TO THE STUDY OF GERMAN USAGE A CORPUS-BASED APPROACH
This paper outlines some basic assumptions and principles underlying the corpus linguistics research and some application domains at the Institute for German Language in Mannheim. We briefly address three complementary but closely related tasks: first, the acquisition of very large corpora, second, the research on statistical methods for automatically extracting information about associations between word configurations, and, third, meeting the challenge of understanding the explanatory power of such methods both in theoretical linguistics and in other fields such as second language acquisition or lexicography. We argue that a systematic statistical analysis of huge bodies of text can reveal substantial insights into the language usage und change, far beyond just collocational patterning.
In vielen Theorien zur Sprachproduktion spielt die Einheit Wort eine zentrale Rolle: Bei der Planung einer Äußerung werden vorsprachliche Konzepte angenommen, die jedes für sich einer lexikalischen Komponente für eine geeignete Wortwahl übergeben werden. Eine syntaktische Komponente sorgt für eine angemessene Formulierung. Kollokationen als Wortverbindungen bringen den zusätzlichen Einfluss mit ein, dass Wörter vielfach gemeinsam in präferierten Kombinationen gewählt werden. Dieser fällt aber nur dann auf, wenn das Ergebnis nicht das sonst Erwartbare ist – das allerdings von verschiedenen Faktoren (z. B. der situativen Angemessenheit) abhängig ist. Ein Kollokationsbegriff, der auf Abweichungen aufbaut, trägt nur im Vergleich zu einem nicht pauschal definierbaren Standard. Wenn sich Kollokationen aber im Kern auf Gebrauchspräferenzen zurückführen lassen, sind sie empirisch zugänglich. Kollokationen zeigen sich ermergent im Sprachgebrauch und lassen sich in Korpora aufspüren. Eine Einordnung bezüglich Auffälligkeiten (etwa zur Übersetzungsäquivalenz oder zur Idiomatik) ist jeweils eine perspektiven-bezogene Interpretation des allgemeinen Konzepts.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
Empirical synchronic language studies generally seek to investigate language phenomena for one point in time, even though this point in time is often not stated explicitly. Until today, surprisingly little research has addressed the implications of this time-dependency of synchronic research on the composition and analysis of data that are suitable for conducting such studies. Existing solutions and practices tend to be too general to meet the needs of all kinds of research questions. In this theoretical paper that is targeted at both corpus creators and corpus users, we propose to take a decidedly synchronic perspective on the relevant language data. Such a perspective may be realised either in terms of sampling criteria or in terms of analytical methods applied to the data. As a general approach for both realisations, we introduce and explore the FReD strategy (Frequency Relevance Decay) which models the relevance of language events from a synchronic perspective. This general strategy represents a whole family of synchronic perspectives that may be customised to meet the requirements imposed by the specific research questions and language domain under investigation.
Taking a usage-based perspective, lexical-semantic relations and other aspects of lexical meaning are characterised as emerging from language use. At the same time, they shape language use and therefore become manifest in corpus data. This paper discusses how this mutual influence can be taken into account in the study of these relations. An empirically driven methodology is proposed that is, as an initial step, based on self-organising clustering of comprehensive collocation profiles. Several examples demonstrate how this methodology may guide linguists in explicating implicit knowledge of complex semantic structures. Although these example analyses are conducted for written German, the overall methodology is language-independent.
Der Beitrag betrachtet lexikalisch-semantische Relationen aus einer emergentistischen Perspektive vor dem Hintergrund eines korpusgeleiteten empirisch-linguistischen Ansatzes. Er skizziert, wie eine systematische Erfassung und Auswertung des Kookkurrenzverhaltens von Lexemen – die Analyse der Ahnlichkeit von Kookkurrenzprofilen mit Hilfe von selbstorganisierenden lexikalischen Merkmalskarten und ihre im Diskurs verankerte Interpretation – wichtige Einblicke in die Struktur verschiedenartiger Verwendungsaspekte dieser Lexeme einschlieslich ihrer semantischen Nahe ermoglichen. Die vorgestellte Methodik wird dabei –uber die explorativ-analytischen Zielsetzungen hinaus – als eine abduktive, auf Theoriebildung zielende Generalisierungsstrategie im postulierten Lexikon-Syntax-Kontinuum verstanden. Zum Schluss werden die Anwendungsmoglichkeiten einiger Komponenten dieser Methodik in der Lexikografie, Lexikologie und Didaktik diskutiert.
The paper reports on the results of a scientific colloquium dedicated to the creation of standards and best practices which are needed to facilitate the integration of language resources for CMC stemming from different origins and the linguistic analysis of CMC phenomena in different languages and genres. The key issue to be solved is that of interoperability – with respect to the structural representation of CMC genres, linguistic annotations metadata, and anonymization/pseudonymization schemas. The objective of the paper is to convince more projects to partake in a discussion about standards for CMC corpora and for the creation of a CMC corpus infrastructure across languages and genres. In view of the broad range of corpus projects which are currently underway all over Europe, there is a great window of opportunity for the creation of standards in a bottom-up approach.
Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora.