Refine
Year of publication
Document Type
- Part of a Book (4500)
- Article (2965)
- Book (996)
- Conference Proceeding (688)
- Part of Periodical (308)
- Review (257)
- Other (151)
- Working Paper (83)
- Doctoral Thesis (68)
- Report (35)
Language
- German (8077)
- English (1765)
- Russian (145)
- French (38)
- Multiple languages (22)
- Spanish (16)
- Portuguese (14)
- Italian (9)
- Polish (7)
- Ukrainian (5)
Keywords
- Deutsch (5140)
- Korpus <Linguistik> (940)
- Wörterbuch (605)
- Konversationsanalyse (451)
- Rezension (423)
- Grammatik (405)
- Rechtschreibung (374)
- Gesprochene Sprache (361)
- Sprachgebrauch (356)
- Interaktion (338)
Publicationstate
- Veröffentlichungsversion (3883)
- Zweitveröffentlichung (1641)
- Postprint (395)
- Preprint (10)
- Erstveröffentlichung (8)
- Ahead of Print (7)
- (Verlags)-Lektorat (4)
- Hybrides Open Access (2)
- Verlags-Lektorat (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836)
- Peer-Review (1595)
- Verlags-Lektorat (94)
- Peer-review (56)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (44)
- Review-Status-unbekannt (14)
- Peer-Revied (12)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (10)
- (Verlags-)Lektorat (9)
- Verlagslektorat (5)
Publisher
- de Gruyter (1334)
- Institut für Deutsche Sprache (1091)
- Schwann (638)
- Narr (484)
- Leibniz-Institut für Deutsche Sprache (IDS) (263)
- De Gruyter (244)
- Niemeyer (200)
- Lang (184)
- Narr Francke Attempto (170)
- IDS-Verlag (144)
Andreas Dulson
(1989)
Georg Dinges
(1989)
Litanei
(1990)
Der Wolgadeutsche Sprachatlas (WDSA) entstand in den 20er Jahren in der Zentralstelle zur Erforschung der Wolgadeutschen Mundarten in der Stadt Engels an der Wolga, der damaligen Hauptstadt der deutschen Wolga-Republik. Von allen anderen deutschen Atlanten unterscheidet er sich wohl in erster Linie dadurch, daß er quasi in zwei Dimensionen zu sehen ist: einerseits entstand er schon vor 60 Jahren, andererseits war seine Existenz bis vor kurzem nicht bekannt. Dabei handelt es sich beim WDSA offensichtlich um einen der ersten deutschen Regionalatlanten: in seiner heutigen Form war er bereits 1929 abgeschlossen. Daß er heute, mehr als 60 Jahre nach seiner Entstehung, noch nicht veröffentlicht ist, hängt mit dem politischen Schicksal der Region zusammen, deren sprachliche Zustände der Atlas widerspiegelt, und dem persönlichen Schicksal der Menschen, die ihn geschaffen haben.
Sprachdrill oder kommunikative Integration: zur Situation der Rußlanddeutschen in der Bundesrepublik
(1993)
Das Sprachverhalten der Rußlanddeutschen und ihre soziolinguistische Situation sind noch nie zum Objekt der wissenschaftlichen Untersuchung geworden. In der Sowjetunion wurden hauptsächlich sprachgeographische Untersuchungen durchgeführt, deren Ziel die Fixierung der noch vorhandenen deutschen Dialekte und die Beschreibung ihrer linguistischen Struktur war. Auf diese Weise entstanden in der Nachkriegszeit dialektologische Beschreibungen der wichtigsten noch erhalten gebliebenen Mundarttypen in der Sowjetunion, eine soziolinguistische Sprachverhaltensanalyse blieb aber aus. Die Dialektsprecher selbst wurden nicht zum unmittelbaren Objekt der Untersuchung: es wurde in einigen Fällen höchstens eine demographische Erhebung in einzelnen Orten durchgeführt, die eine rein statistische Beschreibung der Beziehung zwischen Varietäten, Generationen, dem Bildungsgrad und dem Beruf der Einwohner der betreffenden Siedlung war.
Wie auch andere Dialekte auf dem Territorium der UdSSR zeigt die untersuchte bairische Mundart des Altai charakteristische Züge in der verbalen Wortbildung, die mit den Besonderheiten der Lautentwicklung seit Bestehen der Sprachinsel zusammenhängen. Der Artikel untersucht die spezifische Funktion einiger Wortbildungsmittel dieser Mundart, ihre Verwendungshäufigkeit und Produktivität. Die Materialgrundlage für diese Untersuchung sind 3819 abgeleitete Verben, die aus der Gesamtzahl verbaler Belege (18 095) ausgewählt wurden und die von den Sprechern dieser Mundart in spontaner Rede verwendet wurden.
Am 11. Oktober 1991 verschied im Alter von 71 Jahren Professor Dr. phil. Hugo Jedig. Mit ihm ist der Begründer und langjährige Leiter der dialektologischen Forschungen in Sibirien von uns gegangen, der das Schicksal der deutschen Dialektologie in der Sowjetunion der Nachkriegszeit in entscheidender Weise geprägt hat. Das Leben und Schaffen von Hugo Jedig muß im Zusammenhang mit den Zeitläuften gesehen werden, in denen er wirkte. In einer Zeit, als es in der Sowjetunion noch keine Perestrojka und Glasnost’ gab, in einer Zeit, als alles Deutsche zumindest nicht erwünscht war und oftmals verborgen wurde, in dieser Zeit wagte er es - als einziger Deutscher - sich der Erforschung der deutschen Dialekte in der Sowjetunion zu widmen und sie zu seinem Lebenswerk zu machen. Sein Schaffen muß in dem Rahmen gesehen werden, daß es in der Sowjetunion nicht selbstverständlich war, sich mit deutscher Dialektologie zu befassen. Es ist kein Zufall, daß namhafte Dialektologen wie V. Zirmunskij , A .Dulson , L. Zinder , S. Mironov in der Nachkriegszeit ihre dialektologischen Forschungen völlig aufgegeben haben. Die Leistung von Hugo Jedig besteht darin, daß er die durch den Krieg abgebrochene Forschungstradition wiederaufgenommen und erfolgreich weitergeführt hat. Er ist bis heute der einzige international bekannte und anerkannte Wissenschaftler in der Sowjetunion der Nachkriegszeit, der sich konsequent und nachdrücklich für die Erforschung der deutschen Mundarten einsetzte und der sein Lebenswerk der deutschen Dialektologie widmete.
Wolgadeutscher Sprachatlas (WDSA). Aufgrund der von Georg Dinges 1925-1929 gesammelten Materialien
(1997)
Der Wolgadeutsche Sprachatlas (WDSA) ist ein historischer, regionaler Sprachatlas. Er umfasst Sprachdaten einer deutschen Region im Ausland, die in der Gegenwart nicht mehr existiert. Es handelt sich um das historische deutsche Sprachgebiet im europäischen Teil Russlands, und zwar um das Gebiet beiderseits des russischen Flusses Wolga.
Der Wolgadeutsche Sprachatlas dokumentiert die Sprachverhältnisse dieser deutschen Region um 1920 (bis 1928). Die Sprache, die dort von Anfang an bis 1941 gesprochen wurde, wird traditionell „wolgadeutsch“ genannt.
Entlehnungen aus dem Englischen sind weder erst ein Phänomen der Nachkriegsjahre noch die Folge der Globalisierung, in der das Englische als die neue lingua franca nur eines der Ergebnisse dieses Prozesses, zugleich aber sein Vehikel darstellt. In den Ergebnissen der Zeitungs- und Repräsentativerhebungen zu Einstellungen der Deutschen zu ihrer Sprache spiegelt sich der in der Tat seit über 60 Jahren fortschreitende deutsch-englische Sprachkontakt, den die deutsche Sprachgemeinschaft erfährt. Kommunikation zwischen Trägern verschiedener Sprachen begünstigt Übernahmen aus nicht nur genetisch verwandten Sprachen. So finden sich unter dem entlehnten Sprachgut auch Formen, die in der Geber- und Nehmersprache auf eine gemeinsame Wurzel zurück gehen. In dieser Arbeit werden Überlegungen zu fair und fegen in ihrem historische, genetischen und morphologischen Kontext gemacht und auf die Begriffe des Lehnworts und Erbes hin untersucht.
We investigate the optional omission of the infinitival marker in a Swedish future tense construction. During the last two decades the frequency of omission has been rapidly increasing, and this process has received considerable attention in the literature. We test whether the knowledge which has been accumulated can yield accurate predictions of language variation and change. We extracted all occurrences of the construction from a very large collection of corpora. The dataset was automatically annotated with language-internal predictors which have previously been shown or hypothesized to affect the variation. We trained several models in order to make two kinds of predictions: whether the marker will be omitted in a specific utterance and how large the proportion of omissions will be for a given time period. For most of the approaches we tried, we were not able to achieve a better-than-baseline performance. The only exception was predicting the proportion of omissions using autoregressive integrated moving average models for one-step-ahead forecast, and in this case time was the only predictor that mattered. Our data suggest that most of the language-internal predictors do have some effect on the variation, but the effect is not strong enough to yield reliable predictions.
A comparison between morphological complexity measures: typological data vs. language corpora
(2016)
Language complexity is an intriguing phenomenon argued to play an important role in both language learning and processing. The need to compare languages with regard to their complexity resulted in a multitude of approaches and methods, ranging from accounts targeting specific structural features to global quantification of variation more generally. In this paper, we investigate the degree to which morphological complexity measures are mutually correlated in a sample of more than 500 languages of 101 language families. We use human expert judgements from the World Atlas of Language Structures (WALS), and compare them to four quantitative measures automatically calculated from language corpora. These consist of three previously defined corpus-derived measures, which are all monolingual, and one new measure based on automatic word-alignment across pairs of languages. We find strong correlations between all the measures, illustrating that both expert judgements and automated approaches converge to similar complexity ratings, and can be used interchangeably.
The internationally renowned conference of the European Association for Lexicography (EURALEX) has taken place every two years for the past 39 years. Last year’s conference, held July 12th–16th, 2022, marked EURALEX’s 20th edition, and more than 200 international participants gathered at Mannheim Palace to discuss current developments, learn about new projects, and present their own work — either in lexicography or in one of the many applied or neighboring disciplines such as corpus and computational linguistics.
Coronaparty, Jo-jo-Lockdown und Mask-have – Wortschatzerweiterung während des Corona-Stillstands
(2021)
Grußwort/Welcome address
(2018)
“To cleanse and at the same time enrich your mother tongue is the task of the brightest people.”
With this quote Goethe, the famous German poet, seemed to have described the work of EFNIL today. But is our task really that easy? Do we “cleanse” our language by deleting superfluous elements? Do we not lose the rich abundance of a language in so doing? Or is Goethe asking for other languages to be prevented from influencing his mother tongue? Would this even be feasible in a globalised world?
Rudi Carrell, a famous entertainer on German TV, once said:
“When I came to Germany I only spoke English. But the German language contains so many English words nowadays that I am now fluent in German!”
His opinion is probably shared by many people learning German.
My daily job is to support around 100,000 schools abroad that offer German as a foreign language. We ask ourselves daily: which German language should we be offering young people today? The classical German of literature? Or practical German which will enable young people to join the workforce of many German companies worldwide? And most of all: how do we motivate young people to learn German? Or any other foreign language?
Yes, English, French, German, Spanish – these languages are in competition in many schools. But the most important fact is: the benefit lies in learning a foreign language, no matter which. Because by learning a foreign language we start to understand foreign cultures and other people. And THAT is what matters.
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
CONTRIBUTIONS TO THE STUDY OF GERMAN USAGE A CORPUS-BASED APPROACH
This paper outlines some basic assumptions and principles underlying the corpus linguistics research and some application domains at the Institute for German Language in Mannheim. We briefly address three complementary but closely related tasks: first, the acquisition of very large corpora, second, the research on statistical methods for automatically extracting information about associations between word configurations, and, third, meeting the challenge of understanding the explanatory power of such methods both in theoretical linguistics and in other fields such as second language acquisition or lexicography. We argue that a systematic statistical analysis of huge bodies of text can reveal substantial insights into the language usage und change, far beyond just collocational patterning.
In vielen Theorien zur Sprachproduktion spielt die Einheit Wort eine zentrale Rolle: Bei der Planung einer Äußerung werden vorsprachliche Konzepte angenommen, die jedes für sich einer lexikalischen Komponente für eine geeignete Wortwahl übergeben werden. Eine syntaktische Komponente sorgt für eine angemessene Formulierung. Kollokationen als Wortverbindungen bringen den zusätzlichen Einfluss mit ein, dass Wörter vielfach gemeinsam in präferierten Kombinationen gewählt werden. Dieser fällt aber nur dann auf, wenn das Ergebnis nicht das sonst Erwartbare ist – das allerdings von verschiedenen Faktoren (z. B. der situativen Angemessenheit) abhängig ist. Ein Kollokationsbegriff, der auf Abweichungen aufbaut, trägt nur im Vergleich zu einem nicht pauschal definierbaren Standard. Wenn sich Kollokationen aber im Kern auf Gebrauchspräferenzen zurückführen lassen, sind sie empirisch zugänglich. Kollokationen zeigen sich ermergent im Sprachgebrauch und lassen sich in Korpora aufspüren. Eine Einordnung bezüglich Auffälligkeiten (etwa zur Übersetzungsäquivalenz oder zur Idiomatik) ist jeweils eine perspektiven-bezogene Interpretation des allgemeinen Konzepts.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
Empirical synchronic language studies generally seek to investigate language phenomena for one point in time, even though this point in time is often not stated explicitly. Until today, surprisingly little research has addressed the implications of this time-dependency of synchronic research on the composition and analysis of data that are suitable for conducting such studies. Existing solutions and practices tend to be too general to meet the needs of all kinds of research questions. In this theoretical paper that is targeted at both corpus creators and corpus users, we propose to take a decidedly synchronic perspective on the relevant language data. Such a perspective may be realised either in terms of sampling criteria or in terms of analytical methods applied to the data. As a general approach for both realisations, we introduce and explore the FReD strategy (Frequency Relevance Decay) which models the relevance of language events from a synchronic perspective. This general strategy represents a whole family of synchronic perspectives that may be customised to meet the requirements imposed by the specific research questions and language domain under investigation.
Taking a usage-based perspective, lexical-semantic relations and other aspects of lexical meaning are characterised as emerging from language use. At the same time, they shape language use and therefore become manifest in corpus data. This paper discusses how this mutual influence can be taken into account in the study of these relations. An empirically driven methodology is proposed that is, as an initial step, based on self-organising clustering of comprehensive collocation profiles. Several examples demonstrate how this methodology may guide linguists in explicating implicit knowledge of complex semantic structures. Although these example analyses are conducted for written German, the overall methodology is language-independent.
Der Beitrag betrachtet lexikalisch-semantische Relationen aus einer emergentistischen Perspektive vor dem Hintergrund eines korpusgeleiteten empirisch-linguistischen Ansatzes. Er skizziert, wie eine systematische Erfassung und Auswertung des Kookkurrenzverhaltens von Lexemen – die Analyse der Ahnlichkeit von Kookkurrenzprofilen mit Hilfe von selbstorganisierenden lexikalischen Merkmalskarten und ihre im Diskurs verankerte Interpretation – wichtige Einblicke in die Struktur verschiedenartiger Verwendungsaspekte dieser Lexeme einschlieslich ihrer semantischen Nahe ermoglichen. Die vorgestellte Methodik wird dabei –uber die explorativ-analytischen Zielsetzungen hinaus – als eine abduktive, auf Theoriebildung zielende Generalisierungsstrategie im postulierten Lexikon-Syntax-Kontinuum verstanden. Zum Schluss werden die Anwendungsmoglichkeiten einiger Komponenten dieser Methodik in der Lexikografie, Lexikologie und Didaktik diskutiert.
The paper reports on the results of a scientific colloquium dedicated to the creation of standards and best practices which are needed to facilitate the integration of language resources for CMC stemming from different origins and the linguistic analysis of CMC phenomena in different languages and genres. The key issue to be solved is that of interoperability – with respect to the structural representation of CMC genres, linguistic annotations metadata, and anonymization/pseudonymization schemas. The objective of the paper is to convince more projects to partake in a discussion about standards for CMC corpora and for the creation of a CMC corpus infrastructure across languages and genres. In view of the broad range of corpus projects which are currently underway all over Europe, there is a great window of opportunity for the creation of standards in a bottom-up approach.
Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora.
In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen
(2002)
Dieser Beitrag skizziert Strategien zur (semi-)automatischen Annotation von definitorischen Textsegmenten und Termverwendungsinstanzen auf der Grundlage grammatisch annotierter Korpora. Ziel unserer Überlegungen ist es, bei der selektiven Rezeption von Fachtexten in einer Hypertextumgebung die je spezifischen Wissensvoraussetzungen, die der Verwendung von Fachtermini unterliegen und die für das Textverständnis eine entscheidende Rolle spielen, über automatisch generierte Linkangebote rekonstruierbar zu machen.
Einführung
(2022)
Since 2013 representatives of several French and German CMC corpus projects have developed three customizations of the TEI-P5 standard for text encoding in order to adapt the encoding schema and models provided by the TEI to the structural peculiarities of CMC discourse. Based on the three schema versions, a 4th version has been created which takes into account the experiences from encoding our corpora and which is specifically designed for the submission of a feature request to the TEI council. On our poster we would present the structure of this schema and its relations (commonalities and differences) to the previous schemas.
Einleitung
(2023)
Die MoCoDa 2 (https://db.mocoda2.de) ist eine webbasierte Infrastruktur für die Erhebung, Aufbereitung, Bereitstellung und Abfrage von Sprachdaten aus privater Messenger-Kommunikation (WhatsApp und ähnliche Anwendungen). Zentrale Komponenten bilden (1) eine Datenbank, die für die Verwaltung von WhatsApp-Sequenzen eingerichtet ist, die von Nutzer/innen gespendet und für linguistische Recherche- und Analysezwecke aufbereitet wurden, (2) ein Web-Frontend, das die Datenspender/innen dabei unterstützt, gespendete Sequenzen um analyserelevante Metadaten anzureichern und zu pseudonymisieren, und (3) ein Web-Frontend, über das die Daten für Zwecke in Forschung und Lehre abgefragt werden können. Der Aufbau der MoCoDa-2-Infrastruktur wurde im Rahmen des Programms „Infrastrukturelle Forderung für die Geistes- und Gesellschaftswissenschaften“ vom Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen gefordert. Ziel des Projekts ist es, ein aufbereitetes Korpus zur Sprache und Interaktion in der deutschsprachigen Messenger-Kommunikation bereitzustellen, das speziell auch für qualitative Untersuchungen eine wertvolle Grundlage bildet.
The paper presents an XML schema for the representation of genres of computer-mediated communication (CMC) that is compliant with the encoding framework defined by the TEI. It was designed for the annotation of CMC documents in the project Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK), which aims at building a corpus on language use in the most popular CMC genres on the German-speaking Internet. The focus of the schema is on those CMC genres which are written and dialogic―such as forums, bulletin boards, chats, instant messaging, wiki and weblog discussions, microblogging on Twitter, and conversation on “social network” sites.
The schema provides a representation format for the main structural features of CMC discourse as well as elements for the annotation of those units regarded as “typical” for language use on the Internet. The schema introduces an element <posting>, which describes stretches of text that are sent to the server by a user at a certain point in time. Postings are the main constituting elements of threads and logfiles, which, in our schema, are the two main types of CMC macrostructures. For the microlevel of CMC documents (that is, the structure of the <posting> content), the schema introduces elements for selected features of Internet jargon such as emoticons, interaction words and addressing terms. It allows for easy anonymization of CMC data for purposes in which the annotated data are made publicly available and includes metadata which are necessary for referencing random excerpts from the data as references in dictionary entries or as results of corpus queries.
Documentation of the schema as well as encoding examples can be retrieved from the web at http://www.empirikom.net/bin/view/Themen/CmcTEI. The schema is meant to be a core model for representing CMC that can be modified and extended by others according to their own specific perspectives on CMC data. It could be a first step towards an integration of features for the representation of CMC genres into a future new version of the TEI Guidelines.
Converting and Representing Social Media Corpora into TEI: Schema and best practices from CLARIN-D
(2016)
The paper presents results from a curation project within CLARIN-D, in which an existing lMWord corpus of German chat communication has been integrated into the DEREKO and DWDS corpus infrastructures of the CLARIN-D centres at the Institute for the German Language (IDS, Mannheim) and at the Berlin-Brandenburg Academy of Sciences (BBAW, Berlin). The focus is on the solutions developed for converting and representing the corpus in a TEI format.
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
The paper presents best practices and results from projects dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC) from four different countries. Even though there are still many open issues related to building and annotating corpora of this type, there already exists a range of tested solutions which may serve as a starting point for a comprehensive discussion on how future standards for CMC corpora could (and should) be shaped like.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Der Beitrag interpretiert ausgewählte interaktionale Phänomene in Chats, Foren und Wikipedia-Diskussionen als ,Praktiken‘ im Sinne der Interaktionalen Linguistik. Vorgestellt und anhand von Beispielanalysen veranschaulicht werden Praktiken des Revidierens, der Portionierung, des Zitierens, des Adressierens und des nachträglichen Editierens von Kommunikationsbeiträgen. Das Praktikenkonzept erweist sich dabei als grundsätzlich produktiv; hinsichtlich der Äußerungsund Wahrnehmungsbedingungen sowie der für die Interaktionskonstitution zur Verfügung stehenden Ressourcen weist die internetbasierte Kommunikation aber dennoch eine fundamentale Differenz zu Formen mündlicher Interaktion auf. Diese Unterschiede sind bei der Adaption des Praktikenkonzepts für die Analyse der neuen Kommunikationsformen zu berücksichtigen.
Der Beitrag behandelt die Frage, wie sich das spezifisch Neue internetbasierter Kommunikation unter linguistischer Perspektive fassen und in Traditionen des sprachlichen Handelns einordnen lässt. Es wird gezeigt, dass sich die internetbasierte Kommunikation weder als Interaktion noch als Textkommunikation hinreichend beschreiben lasst, zugleich aber Merkmale mit beiden Formen teilt. Mit dem Konzept der Textformen-basierten Interaktion wird ein Vorschlag formuliert, wie dieses Dilemma aufgelöst werden kann: Das Innovationspotenzial internetbasierter Kommunikationstechnologien liegt gerade darin, dass diese durch Indienstnahme von Textformen die Möglichkeiten von Interaktion erweitern. Das hat einerseits Konsequenzen fur die linguistische Analyse und lässt sich andererseits fruchtbar machen fur die Entwicklung von Standards fur die Repräsentation von Korpora.
Zur Syntax in Fachtexten
(1979)
Der Konstruktionsbegriff hielt seinen Einzug in die Spracherwerbsforschung durch gebrauchsbasierte Lerntheorien, nach denen sprachliche Strukturen als Form-Funktionseinheiten aus dem Input abgeleitet werden, Sprache somit ein emergentes System ist (Tomasello 1998a und b; Behrens 2009a und b). Die Abstraktionseinheit für das Kind ist dabei die Äußerung in ihrer situativen Gebundenheit und ihrer Diskursfunktion, mithin die Konstruktion. Die Konstruktion wird gefasst als schematische Einheit mit mehr oder weniger offenen Slots: Teile der Konstruktion können lexikalisch fixiert oder aber produktiv und durch andere Ausdrücke ersetzbar sein. Der Kontrast zum Valenzbegriff bzw. dem der Argumentstruktur in seiner formaleren Definition liegt darin, dass die lexikalischen Eigenschaften der Wörter die Syntax nicht projizieren, sondern dass sowohl die Eigenschaften der Lemmas als auch die der Morphosyntax aus ihrem Vorkommen in konkreten Sätzen abgeleitet werden.
Empirisch konzentriert sich die Forschung auf die Ermittlung der Generalisierungsprozesse und auf deren Basis im Input, dem Sprachangebot. Erwerbsrelevant ist insbesondere der Input in seinen usualisierten Mustern in typischen Interaktionssituationen. Eher wird vor allem der Grad der Produktivität kindlicher Äußerungen analysiert. Bislang weniger untersucht, aber zunehmend im Fokus sind die Generalisierungsprozesse selbst und damit die generative Kraft des Konstruktionsbegriffs. Sobald Aspekte einer Konstruktion abstrahiert worden (= produktiv) sind, sollten sie auf neue Situationen übertragen werden können, und gilt es zu ermitteln, welche formalen, funktionalen und distributionellen Faktoren die Abstraktion sprachlichen Wissens fördern.
In dem Paradigma der gebrauchsbasierten Konstruktionsgrammatik wird die modulare Trennung zwischen Wörtern und Regeln aufgehoben. Somit kann innerhalb eines einheitlichen theoretischen Rahmens sowohl der Erwerb regelhafter als auch der stärker idiosynkratischer Strukturen erklärt werden.
Reden über Geld
(2017)
Viele deutschsprachige Germanisten, hieß es in der Einladung zu dieser Jahrestagung, „haben einen Hang zur Binnenperspektive, zur Betrachtung der deutschen Sprache und Literatur aus der Sicht der ‚Eigentümer‘ […]. Diese eingeschränkte Sicht auf die Sprache lässt sich durch den Blick von außen […] erweitern und relativieren.“ Diesem Ziel näherten sich die fünfzehn Referentinnen und Referenten aus unterschiedlicher Richtung, wobei jedoch nicht unbedingt sprachstrukturelle, sprachvergleichende oder sprachdidaktische Fragen im Zentrum des Interesses stehen mussten, sondern auch sprach(en)politische Probleme das Referat dominieren konnten.
Zeitungsartikel mit wirtschaftlichem Inhalt sind nicht immer nach dem Textmuster „Bericht“ geschrieben, sie können auch erzähltechnische Elemente enthalten. Die Autorinnen untersuchen wirtschaftliche Krisenberichterstattungen aus deutschen, schweizerischen und österreichischen (Wochen-)Zeitungen; sie postulieren, dass Bericht und Erzählung nicht dichotomische Textmuster darstellen, sondern Pole einer Skala, auf der die konkreten Texte verortet werden können. Sie differenzieren vier Grade der Narrativität: nicht /schwach/mittel/stark narrativ. Es zeigt sich, dass der Anteil der schwach und mittel narrativen Texte zwischen 1973 und 2010-12 stark zunimmt. Außerdem werden die Positionen der Gesamtnarration „Krise“ ebenfalls je nach Untersuchungszeitraum bzw. Zeitung verschieden besetzt. Insgesamt dient der Einsatz narrativer Techniken dazu, durch eine textuelle Umsetzung der Krankheitsmetapher zunehmend abstraktere Prozesse zu veranschaulichen.
Dieser Band ergänzt die bisherigen kontrastiv-typologischen Forschungen um eine neue Komponente. Hauptgegenstand ist der Vergleich zweier Satzmodussysteme, nämlich des deutschen und des ungarischen. Die Einbeziehung weiterer Kontrastsprachen erweitert das Vergleichsspektrum um weitere, typologisch relevante Möglichkeiten. Die so erarbeiteten deutsch-ungarischen Vergleiche wurden durch zahlreiche empirische Untersuchungen mit Textkorpora sowie mit Tondokumenten belegt: Die lexikogrammatischen Merkmale wurden in einem deutsch-ungarischen Vergleichskorpus getestet, die Tonmuster mit einem phonetischen Analyseprogramm ausgewertet. Die Motivierung der Entwicklung eines bestimmten Satzmodusmerkmals durch den Wandel eines anderen Merkmals gibt aufschlussreiche Informationen zur Wechselwirkung der Ebenen des Sprachsystems. Eine Zusammenfassung der historischen Entwicklung des Satzmodussystems des Deutschen und des Ungarischen macht typologisch relevante Entwicklungstendenzen sichtbar.
Orthographie
(2024)
Ausgehend von den Ergebnissen des letzten IQB-Bildungstrends (2021) zu den orthographischen Kompetenzen von Grundschüler:innen fragt der Beitrag nach Stellenwert und Funktion der Orthographie vor dem Hintergrund der Anforderungen, die an die sprachliche Bildung von Schüler:innen gestellt sind. Orthographie und orthographische Kompetenzen werden funktional im Bereich des Schreibens und einer zu entwickelnden Schreibkompetenz verortet. Wichtig ist dabei der Blick auf die Schreibflüssigkeit. Sie ist grundlegend für die anforderungsreichen Prozesse des Textschreibens. Ausgehend von Befunden neuerer Studien betrachten wir das Verhältnis von Orthographie und Schreiben und daraus resultierende Anforderungen an den schulischen (Recht-)Schreiberwerb.
Aus der linguistischen Gesprächs- und Diskursanalyse heraus hat sich in den letzten 10 Jahren eine Angewandte Diskursforschung entwickelt, die das sprachlichkommunikative Handeln in unterschiedlichen gesellschaftlichen Praxisfeldern und Institutionen empirisch untersucht und dabei ausdrücklich auf die Anwendung ihrer Ergebnisse in dieser Praxis abzielt. In dem Beitrag zeigen wir, welche Fragestellungen und Ziele diese Forschungsrichtung verfolgt (Kap. 2), und benennen exemplarisch einige anwendungsrelevante inhaltliche Ergebnisse zu den Bereichen Schule, Medizin und Wirtschaft (Kap. 3). Anschließend stellen wir methodische Überlegungen für die Angewandte Diskursforschung dar und formulieren Prinzipien der Komplexität, der Problemorientierung, der Aktantenorientierung und der normativen Orientierung (Kap. 4). Wie solche Ergebnisse für die Aus- und Fortbildung didaktisch aufbereitet und in die Praxis rückvermittelt werden können und welche Perspektiven wir für die Weiterentwicklung der Zusammenarbeit zwischen Linguistik und Praxis sehen, diskutieren wir am Schluss des Beitrags (Kap. 5 und 6).
In this chapter, a conversation-analytic approach is used to study medical recommendations as an essential part of medical advice. Tlte analyses are based on renal treatment planning conversations in which physicians inform patients about an upcoming dialysis therapy. The data reveals that medical recommendations are marked throughout by their strikingly tentative and relativistic phrasing in which the conflict between physicians duty of care and the patient’s autonomy is obvious. The observed discrepancy between what should be said and what patients and physicians want to be said - and heard - not only gives reason to challenge the ethical and legal requirements concerning medical recommendations and their implications for medical practice, but also to rethink the current models of decision-making in medical communication.
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren strukturelle Einbettung in den Satz oder den Text (also kotextuelle und pragmasyntaktischen Struktureinbettungen), um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem philosophisch-linguistischen Fachterminus ‚Pragmem‘ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
In diesem Beitrag beschäftigen wir uns mit moralisierenden Sprachhandlungen, worunter wir diskursstrategische Verfahren verstehen, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (wie beispielsweise „Freiheit“, „Sicherheit“ oder „Glaubwürdigkeit“) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf. Im Fokus unserer Betrachtungen steht dementsprechend das aus pragma-linguistischer Sicht auffällige Phänomen einer spezifischen Redepraxis der Letztbegründung oder Unhintergehbarkeit, die wir als Pragmem auffassen und beschreiben. Hierfür skizzieren wir zunächst den in der linguistischen Pragmatik verorteten Zugang zu Praktiken der Moralisierung, betrachten sprachliche Formen des Moralisierens und deren kotextuellen und insbesondere pragma-syntaktischen Struktureinbettungen, um anschließend Hypothesen zu kontextuellen Wirkungsfunktionen aufzustellen. Darauf basierend leiten wir schließlich anhand von exemplarischen Korpusbelegen Strukturmuster des Moralisierens ab, die wir in dem Terminus „Pragmem“ verdichten und mittels qualitativer und quantitativer Analysen operationalisieren.
Recent typological studies have shown that socio-linguistic factors have a substantial effect on at least certain structures of language. However, we are still far from understanding how such factors should be operationalized and how they interact with other factors in shaping grammar. To address both questions, this study examines the influence of socio-linguistic factors on the number of dedicated conditional constructions in a sample of 374 languages. We test the number of speakers, the degree of multilingualism, the availability of a literature tradition, the use of writing, and the use of the language in the education system. At the same time, we control for genealogical, contact, and bibliographical biases. Our results suggest that the number of speakers is the most informative predictor. However, we find that the association between the number of speakers and the number of dedicated conditional constructions is much weaker than assumed, once genealogical and contact biases are controlled for.
Textsorten und Soziolekte : Funktion und Reziprozität in gesprochener und geschriebener Sprache
(1973)
The present contribution addresses an infrastructural issue of universal relevance, addressed in the specific context of the TEI. We describe a combination of open-source tools and an open-access approach to creating knowledge repositories that have been employed in building a bibliographic reference library for the “TEI for Linguists” special interest group (LingSIG). The authors argue that, for an initiative such as the TEI, it is important to choose open, freely available solutions. If these solutions have the advantage of attracting new users and promoting the initiative itself, so much the better, especially if it is done in a non-committal way: no one using the LingSIG bibliographic repository has to be a member of the LingSIG or a “TEI-er” in general.
CoMParS is a resource under construction in the context of the long-term project German Grammar in European Comparison (GDE) at the IDS Mannheim. The principal goal of GDE is to create a novel contrastive grammar of German against the background of other European languages. Alongside German, which is the central focus, the core languages for comparison are English, French, Hungarian and Polish, representing different typological classes. Unlike traditional contrastive grammars available for German, which usually cover language pairs and are based on formal grammatical categories, the new GDE grammar is developed in the spirit of functionalist typology. This implies that, instead of formal criteria, cognitively motivated functional domains in terms of Givón (1984) are used as tertia comparationis. The purpose of CoMParS is to document the empirical basis of the theoretical assumptions of GDE-V and to illustrate the otherwise rather abstract content of grammar books by as many as possible naturally occurring and adequately presented multilingual examples, including information on their use in specific contexts and registers. These examples come from existing parallel corpora, and our presentation will focus on the legal aspects and consequences of this choice of language data.
Standards in CLARIN
(2022)
This chapter looks at a fragment of the ongoing work of the CLARIN Standards Committee (CSC) on producing a shared set of recommendations on standards, formats, and related best practices supported by the CLARIN infrastructure and its participating centres. What might at first glance seem to be a straightforward goal has over the years proven to be rather complex, reflecting the robustness and heterogeneity of the emerging distributed digital research infrastructure and the various disciplines and research traditions of the language-based humanities that it serves and represents, and therefore part of the chapter reviews the various initiatives and proposals that strove to produce helpful standards-related guidance. The focus turns next to a subtask initiated in late 2019, its scope narrowed to one of the core activities and responsibilities of CLARIN backbone centres, namely the provision of data deposition services. Centres are obligated to publish their recom-mendations concerning the repertoire of data formats that are best suited for their research profiles. We look at how this requirement has been met by the particular centres and suggest that having centres maintain their information in the Standards Information System (SIS) is the way to improve on the current state of affairs.
In mid-2017, as part of our activities within the TEI Special Interest Group for Linguists (LingSIG), we submitted to the TEI Technical Council a proposal for a new attribute class that would gather attributes facilitating simple token-level linguistic annotation. With this proposal, we addressed community feedback complaining about the lack of a specific tagset for lightweight linguistic annotation within the TEI. Apart from @lemma and @lemmaRef, up till now TEI encoders could only resort to using the generic attribute @ana for inline linguistic annotation, or to the quite complex system of feature structures for robust linguistic annotation, the latter requiring relatively complex processing even for the most basic types of linguistic features. As a result, there now exists a small set of basic descriptive devices which have been made available at the cost of only very small changes to the TEI tagset. The merit of a predefined TEI tagset for lightweight linguistic annotation is the homogeneity of tagging and thus better interoperability of simple linguistic resources encoded in the TEI. The present paper introduces the new attributes, makes a case for one more addition, and presents the advantages of the new system over the legacy TEI solutions.