Refine
Year of publication
- 2014 (160) (remove)
Document Type
- Part of a Book (89)
- Article (26)
- Conference Proceeding (19)
- Book (18)
- Working Paper (5)
- Preprint (2)
- Part of Periodical (1)
Is part of the Bibliography
- yes (160) (remove)
Keywords
- Deutsch (56)
- Korpus <Linguistik> (25)
- Computerunterstützte Lexikographie (20)
- Institut für Deutsche Sprache <Mannheim> (18)
- Wörterbuch (9)
- Benutzer (8)
- Konversationsanalyse (7)
- Gesprochene Sprache (6)
- Rumänisch (6)
- Sprachvariante (6)
Publicationstate
- Veröffentlichungsversion (55)
- Postprint (1)
- Zweitveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (38)
- Peer-Review (18)
- Peer-review (6)
- Verlags-Lektorat (4)
- (Verlags)Lektorat (1)
- (Verlags-)Lektorat (1)
- Peer-Revied (1)
Publisher
- Institut für Deutsche Sprache (37)
- De Gruyter (33)
- European Language Resources Association (ELRA) (9)
- Stauffenburg (6)
- Winter (6)
- Cambridge Scholars Publ. (4)
- Benjamins (3)
- Erich Schmidt Verlag (3)
- Lang (3)
- de Gruyter (3)
Mit der Wahrnehmungsdialektologie und der Dialektometrie haben sich in den letzten Jahren zwei wichtige neue Methodenkomplexe etabliert, mit deren Hilfe neue Wege bei der Gliederung von Sprachräumen eingeschlagen werden können. Nach einer umfassenden Analyse traditioneller dialektgeographischer Methoden und der Auswertung älterer Einteilungen wird in diesem Buch eine Sprachraumgliederung des Untersuchungsgebietes Mittelfranken vorgelegt, die Methoden aus allen drei Bereichen berücksichtigt: der traditionellen Dialektgeographie, der Wahrnehmungsdialektologie und der Dialektometrie.
Die Datengrundlage hierfür stammt aus den Erhebungen des Projekts ‚Sprachatlas von Mittelfranken‘, in dessen Rahmen in 167 Orten in Mittelfranken jeweils ein über 2000 Fragen umfassendes Fragebuch abgefragt wurde. Der Vergleich der drei Herangehensweisen und ihrer Ergebnisse erlaubt am Ende nicht nur eine fundierte sprachräumliche Gliederung des Untersuchungsgebietes, sondern liefert auch Erkenntnisse über die Charakteristika und die Vor- und Nachteile der Methoden.
Zu seinem 60. Geburtstag widmen seine Schülerinnen und Schüler Peter Auer eine Festschrift. Die Beiträge des Sammelbandes bilden deren Forschungsschwerpunkte ab. Diese knüpfen naturgemäß an die Arbeiten des Lehrers an und spiegeln die Vielfältigkeit Peter Auers eigener Forschungsinteressen: Die Themen der Beiträge reichen von Variationslinguistik und Mehrsprachigkeit über Interaktionsforschung, Multimodalität, Mündlichkeit und Schriftlichkeit bis hin zu Fragen der Syntax gesprochener Sprache.
Das Beispiel ist seit der Antike ein zentraler Gegenstand der abendländischen Diskussion. In dieser ersten umfassenden Monographie zur Linguistik des Beispiels wird deshalb eine interdisziplinäre Perspektive entfaltet, in der Ansätze aus Rhetorik, Philosophie, Pädagogik und Psychologie sowie linguistischen Ansätze zur Beispielforschung behandelt werden. Die sprachwissenschaftliche Beschäftigung mit Beispielen blieb bisher jedoch ein Randphänomen, obwohl Praktiken der Beispielverwendung in der Alltagskommunikation allgegenwärtig sind.
Orientiert an ›grounded theory‹, linguistischer Hermeneutik und Handlungssemantik wird hier ein Beispielbegriff erarbeitet, demzufolge das Beispielverwenden eine komplexe Form sprachlichen Handelns und eine fundamentale menschliche Denkbewegung darstellt, die darin besteht, einen Konnex zwischen Besonderem und Allgemeinem zu konstituieren. Hierauf basierend werden Beispiele anhand eines umfangreichen Korpus von Gesprächsdaten analysiert und kommunikative Muster, sprachliche Realisierungsformen sowie Funktionen des Beispielverwendens in der Interaktion herausgearbeitet.
In 2010, ISO published a standard for syntactic annotation, ISO 24615:2010 (SynAF). Back then, the document specified a comprehensive reference model for the representation of syntactic annotations, but no accompanying XML serialisation. ISO’s subcommittee on language resource management (ISO TC 37/SC 4) is working on making the SynAF serialisation ISOTiger an additional part of the standard. This contribution addresses the current state of development of ISOTiger, along with a number of open issues on which we are seeking community feedback in order to ensure that ISOTiger becomes a useful extension to the SynAF reference model.
Vernetzung statt Vereinheitlichung. Digitale Forschungsinfrastrukturen in den Geisteswissenschaften
(2014)
Die Entwicklung der digitalen Infrastruktur am Hamburger Zentrum für Sprachkorpora (HZSK) kann als Beispiel für die Evolution individueller technischer Einzellösungen hin zu fachspezifischen virtuellen Arbeits- und Forschungsumgebungen, die im Rahmen supranationaler Forschungsinfrastrukturen für die digitalen Geisteswissenschaften miteinander vernetzt sind, angesehen werden. Im Fokus steht im konkreten Fall des HZSK die Sicherung der langfristigen Zugänglichkeit von Forschungsdaten (multimedialen Daten gesprochener Sprache) durch die Entwicklung einer virtuellen Forschungsumgebung, die einerseits an die zentrenbasierte Forschungsinfrastruktur CLARIN-D angebunden ist und andererseits fachspezifische Benutzerschnittstellen schafft.
Scripted reality shows oscillate between fiction and nonfiction because based on a script they use amateur actors but also adopt the aesthetics of documentary-style reality television. Perception studies have proven that many viewers mistake the contents of such programs as everyday reality. An adequate framework to reveal these ambiguous relations needs to combine the product analysis with the additional analysis of the production aspects. That includes developing a categorization for (scripted) reality television, a combined analysis of the product and its production, and an analysis of the perception of scripted reality on television and through corresponding social media sites.
"Badeölgrüne Buchten", "kükengelbes Haar" und "tomatenrote Tomaten" - Vergleiche mit Farbadjektiven
(2014)
Bezeichnungen für Personen, die sich nicht in ihrem Heimatland aufhalten (z.B. Migrant, Ausländer, Flüchtling) werden in der Sprachgemeinschaft häufig wertend und kontrovers verwendet. In dem Beitrag wird gezeigt, dass die allgemeinsprachige Lexikografie diesen Aspekt bislang nicht angemessen berücksichtigt – weder in der korpusgestützten, methodischen Erfassung und Analyse von Sprachdaten noch in der beschreibenden Darstellung. Am Beispiel von elexiko werden Ansätze vorgestellt, die das Potenzial besitzen, dieses Desiderat einzulösen.
Once a new word or a new meaning is added to a monolingual dictionary, the lexicographer is to provide a definition of this item. This paper focuses on the methodological challenges in writing such definitions. After a short discussion of the central terminology (method and definition), the article describes factors which inform this process: linguistic theories, linguistic and lexicographical methods, and types of definitions. Using the example of elexiko, a dictionary project of the Institute for the German language (IDS) in Mannheim, Germany, the paper finally showcases the compilation of definitions in a monolingual online dictionary of contemporary German.
Der Semantik-Band des Handbuchs der deutschen Konnektoren beschreibt erstmals umfassend die Bedeutung der deutschen Konnektoren und etabliert eine theoretisch begründete semantische Klassifikation dieser Satzverknüpfer, die auf der syntaktischen Klassifikation des ersten Bandes des Handbuchs von Pasch et al. (2003) aufbaut. Der Semantik-Band richtet sich in erster Linie an ein linguistisches Fachpublikum. Durch die Darstellung der spezifischen Gebrauchsbedingungen satzverknüpfender Einheiten ist es darüber hinaus für Bereiche relevant, in denen das Verfassen und Verstehen von Texten Thema ist, wie Deutsch als Fremdsprache, Deutschdidaktik, Computerlinguistik, Übersetzungswissenschaft und angewandte Sprachforschung.
Der Semantik-Band des Handbuchs der deutschen Konnektoren beschreibt erstmals umfassend die Bedeutung der deutschen Konnektoren und etabliert eine theoretisch begründete semantische Klassifikation dieser Satzverknüpfer, die auf der syntaktischen Klassifikation des ersten Bandes des Handbuchs von Pasch et al. (2003) aufbaut. Der Semantik-Band richtet sich in erster Linie an ein linguistisches Fachpublikum. Durch die Darstellung der spezifischen Gebrauchsbedingungen satzverknüpfender Einheiten ist es darüber hinaus für Bereiche relevant, in denen das Verfassen und Verstehen von Texten Thema ist, wie Deutsch als Fremdsprache, Deutschdidaktik, Computerlinguistik, Übersetzungswissenschaft und angewandte Sprachforschung.
Der Beitrag diskutiert ausgehend von einem historischen Sprachbeispiel die Korrelation zwischen lexikalisierten Wortverbindungen, die durch bestimmte außersprachliche Faktoren zu solchen geworden sind, und Wortschatzeinheiten ähnlicher Art, die ihrerseits Muster konstituieren. Es wird gezeigt, dass unauffällige Syntagmen zu verfestigten Wortschatzeinheiten werden können, dass dies aber gleichzeitig nicht im luftleeren Formulierungsraum geschieht. Vielmehr liegt auch hier syntagmatische Musterhaftigkeit in einem Netz graduell verfestigter Einheiten des Lexikons zugrunde. Solche Netze sind immer durch fragmentarischen Gebrauch und Überlappung von spezifischen Komponenten geprägt. Je nach Kommunikationssituation und -bedürfnissen werden Teilstrukturen fokussiert und aktualisiert, während andere im Hintergrund bleiben.
Handlungsverstehen und Intentionszuschreibung in der Interaktion I: Intentionsbekundungen mit wollen
(2014)
On ancient grammars of space
(2014)
This volume presents new research by the Topoi group "The Conception of Spaces in Language" on the expression of spatial relations in ancient languages. The six articles in this volume discuss static and dynamic aspects of the spatial grammars of Ancient to Medieval Greek, Akkadian, Hittite, and Hieroglyphic Ancient Egyptian, as well as field data on eight modern languages (Arabic, Hebrew, English, German, Russian, French, Italian, and Spanish). Among the grams discussed are spatial particles, motion verbs, case and, most prominently, spatial prepositions. All ancient language data are fully explained in linguistic word-by-word glosses and are therefore accessible to scholars who are not themselves experts on the respective languages. Taken together, these contributions extend the scope of research on spatial grammar back to the third millennium BCE.
Discourses of Helping Professions brings together cutting-edge research on professional discourses from both traditional helping contexts such as doctor-patient interaction or psychotherapy and more recent helping contexts such as executive coaching. Unlike workplace, professional and institutional discourse – by now well established fields in linguistic research – discourses of helping professions represent an innovative concept in its orientation to a common communicative goal: solving patients’ and clients’ physical, psychological, emotional, professional or managerial problems via a particular helping discourse. The book sets out to uncover differences, similarities and interferences in how professionals and those seeking help interactively tackle this communicative goal. In its focus on professional helping contexts and its inter-professional perspective, the current book is a primer, intended to spark off more interdisciplinary and (applied) research on helping discourses, a socio-cultural phenomenon that is of growing importance in our post-modern society. As such, it is of great relevance for discourse researchers and discourse practitioners, caretakers and social scientists of all shades as well as for everybody interested in helping professions.
In diesem Wörterbuch finden sich von App bis Zickenalarm mehr als 570 Stichwörter, die die aktuelle Wortschatzerweiterung im Deutschen als Ausdruck der Anpassung des Wortschatzes an neue Gegebenheiten und Sachverhalte spiegeln. Erfasst und in umfangreichen Wortartikeln beschrieben und dokumentiert sind die Neulexeme und Neubedeutungen, die im Zeitraum von 2001 bis 2010 aufgekommen sind und sich weitgehend im allgemeinsprachlichen Teil des Wortschatzes der deutschen Standardsprache etabliert haben.
In diesem Wörterbuch finden sich von App bis Zickenalarm mehr als 570 Stichwörter, die die aktuelle Wortschatzerweiterung im Deutschen als Ausdruck der Anpassung des Wortschatzes an neue Gegebenheiten und Sachverhalte spiegeln. Erfasst und in umfangreichen Wortartikeln beschrieben und dokumentiert sind die Neulexeme und Neubedeutungen, die im Zeitraum von 2001 bis 2010 aufgekommen sind und sich weitgehend im allgemeinsprachlichen Teil des Wortschatzes der deutschen Standardsprache etabliert haben.
The variation of the strong genitive marker of the singular noun has been treated by diverse accounts. Still there is a consensus that it is to a large extent systematic but can be approached appropriately only if many heterogeneous factors are taken into account. Over thirty variables influencing this variation have been proposed. However, it is actually unclear how effective they can be, and above all, how they interact. In this paper, the potential influencing variables are evaluated statistically in a machine learning approach and modelled in decision trees in order to predict the genitive marking variants. Working with decision trees based exclusively on statistically significant data enables us to determine what combination of factors is decisive in the choice of a marking variant of a given noun. Consequently the variation factors can be assessed with respect to their explanatory power for corpus data and put in a hierarchized order.
We present a novel NLP resource for the explanation of linguistic phenomena, built and evaluated exploring very large annotated language corpora. For the compilation, we use the German Reference Corpus (DeReKo) with more than 5 billion word forms, which is the largest linguistic resource worldwide for the study of contemporary written German. The result is a comprehensive database of German genitive formations, enriched with a broad range of intra- und extralinguistic metadata. It can be used for the notoriously controversial classification and prediction of genitive endings (short endings, long endings, zero-marker). We also evaluate the main factors influencing the use of specific endings. To get a general idea about a factor’s influences and its side effects, we calculate chi-square-tests and visualize the residuals with an association plot. The results are evaluated against a gold standard by implementing tree-based machine learning algorithms. For the statistical analysis, we applied the supervised LMT Logistic Model Trees algorithm, using the WEKA software. We intend to use this gold standard to evaluate GenitivDB, as well as to explore methodologies for a predictive genitive model.
Hosting Providers play an essential role in the development of Internet services such as e-Research Infrastructures. In order to promote the development of such services, legislators on both sides of the Atlantic Ocean introduced “safe harbour” provisions to protect Service Providers (a category which includes Hosting Providers) from legal claims (e.g. of copyright infringement). Relevant provisions can be found in § 512 of the United States Copyright Act and in art. 14 of the Directive 2000/31/EC (and its national implementations). The cornerstone of this framework is the passive role of the Hosting Provider through which he has no knowledge of the content that he hosts. With the arrival of Web 2.0, however, the role of Hosting Providers on the Internet changed; this change has been reflected in court decisions that have reached varying conclusions in the last few years. The purpose of this article is to present the existing framework (including recent case law from the US, Germany and France).
In the present-day Germanic languages, free relatives (FRs) share formal properties with indirect question in that both constructions are introduced by w-pronouns. However, at least in German (and historical stages of a larger set of languages, including English), there is an additional pattern which involves the use of d-pronouns such as German der/die/das ‘that.masc./fem./neut.’, which typically introduce headed relative clauses. Focusing on presentday German, this paper shows that d-FRs are set apart from w-FRs by a number of properties including syntactic distribution in the matrix clause, behavior with respect to matching effects, inventory of pronominal forms, and semantic interpretation. From these observations, it is concluded that d-FRs should not be analyzed on a par with w-FRs. More precisely, we argue that d-FRs are in fact regular headed (restrictive) relative clauses where the relative pronoun has been deleted under identity with a demonstrative antecedent. This apparent instance of syntactic haplology is then analyzed as resulting from the same mechanism that eliminates copies/traces in movement dependencies.
Der Aufsatz befasst sich mit den Besonderheiten der Struktur, der Funktion, der Selektion und des Gebrauchs von Subjektsätzen im Deutschen und Rumänischen. Am Beispiel der Argumentrealisierung bei Psych-Verben wird erkundet, inwiefern sprachübergreifende semantische Bedingungen diese Besonderheiten erklären und in welchem Maße sie von einzelsprachlichen und lexikalischen Besonderheiten gesteuert sind. Im Fokus der Studie stehen dabei (i) die Einordnung des Deutschen und des Rumänischen hinsichtlich der zu beobachtenden typologischen Varianz bei Subjektsätzen, (ii) die Besonderheiten der Aufteilung von Argumenten von Psych-Verben auf zwei Satzglieder durch Argumentdoppelung und Argumentspaltung und (iii) die Ermittlung verbidiosynkratischer, sprachspezifischer und sprachübergreifender Präferenzen bei der Realisierung der Argumente von Psych-Verben über eine quantitative Korpusstudie.
Der vorliegende Beitrag besteht aus zwei größeren Teilen: Zum einen (vgl. Abschnitt 2) werden strukturelle Eigenschaften des Infinitivs, oder vielmehr der Infinitive, im Deutschen und Rumänischen erörtert und miteinander verglichen. Leitthema ist dabei die Frage nach dem Verhältnis von Verbalität und Nominalität der Formen. Berücksichtigt werden die Beschreibungsbereiche Morphologie, externe und interne Syntax. Dieser empirischen Erörterung vorausgeschickt (vgl. Abschnitt 1) wird der Versuch einer Begriffsbestimmung: Wie kann, wenn überhaupt, ‘Infinitiv’ übereinzelsprachlich definiert werden? Auf dieser Basis wird zum anderen (vgl. Abschnitt 3) eine prototypische syntaktische Funktion von Infinitiven, die Subjektfunktion, einer vergleichenden Analyse unterzogen. Strukturelle und semantische Beschränkungen für Infinitive in Subjektfunktion in den beiden Vergleichssprachen werden untersucht. Speziell im Falle kausativer Verben als Prädikatsverben lassen sich relevante Unterschiede zwischen dem Deutschen und Rumänischen feststellen. Die Verwendungsrestriktionen für die Subjektfunktion der deutschen und rumänischen Infinitive werden in Beziehung gesetzt zu Eigenschaften der „Orientierung“ bzw. „Kontrolle“ der Infinitivformen. Ausgehend davon lassen sich tendenziell auch feine Gebrauchsunterschiede für den verbalen und nominalen Infinitiv im Deutschen ausmachen.
Gegenstand des Aufsatzes sind Sätze mit so genannten inneren Objekten, das sind Akkusativobjekte, die im Wesentlichen intransitive Verben gelegentlich zu sich nehmen. Sie weisen die Besonderheit auf, dass das Objektsnomen und das Verb morphologisch, etymologisch und/oder semantisch miteinander verwandt sind. Aufgrund von Form- und vor allem Bedeutungsunterschieden lassen sich in beiden Sprachen verschiedene Gruppen von inneren Objekten ausmachen, die genauer beschrieben und unter sprachvergleichenden Gesichtspunkten betrachtet werden. Dazu werden u.a. die syntaktischen Eigenschaften von Sätzen mit inneren Objekten herangezogen. Einige auffallende sprachbezogene Unterschiede werden beschrieben, beispielsweise ist im Rumänischen bei einigen Verben ein präpositionaler Anschluss möglich, wo im Deutschen das innere Objekt ausschließlich im Akkusativ stehen kann. Sätze mit inneren Objekten können als ein Typ von Argumentstrukturmustern betrachtet werden. In diesem Sinne sind sie Form-Bedeutungs-Paare, deren Beziehungen untereinander innerhalb eines Konzepts von Familienähnlichkeiten dargestellt werden, wie man sie auch innerhalb anderer Cluster von Argumentstrukturmustern beobachten kann.
This contribution offers a fine-grained analysis of German and Romanian ditransitive and prepositional transfer constructions. The transfer construction (TC) is shown to be realised in German by 26 argument structure patterns (ASPs), which are conceived of as form-meaning pairings which differ only minimally. The mainstream constructionist view of the different types of TCs being related by polysemy links is rejected, the ASPs being argued instead to be related by family relationships. All but six of the ASPs identified for German are shown to possess a Romanian counterpart. For some ditransitive structures, German is shown to possess two prepositional variants, one with an (‘at’) and one with zu (‘to’) or auf (‘on’), while Romanian has only one. Due to the lack of a Romanian counterpart for the German zu and auf variants, Romanian lacks some of the dative alternations found in German. However, Romanian as well as German permits the double object pattern to interact with take-verbs, verbs of removal and add-verbs, which do not allow the ditransitive construction in English. Since these verb classes also permit at least one prepositional pattern in both languages, Romanian and German show a larger number of dative alternation types than English.
Komplexe Argumentstrukturen. Kontrastive Untersuchungen zum Deutschen, Rumänischen und Englischen
(2014)
Neben dem kanonischen Ausdruck der Argumentstruktur von Verben als Intransitiv- oder Transitivkonstruktion mit Nominal- oder Präpositionalphrasen können Argumente in vielfältiger Weise auch in komplexer, nicht-kanonischer Form realisiert werden. Solche Argumentstrukturen zeigen insbesondere im Sprachvergleich interessante Variationen, wie der vorliegende Band anhand von Studien zum Deutschen, Rumänischen und Englischen zeigt. Er versammelt kontrastive Arbeiten zur Alternation von sententialen und nominalen Subjekten, zu den Typen und Restriktionen von Resultativkonstruktionen, zu den Bedingungen des Auftretens innerer Objekte, zu Eigenschaften infiniter Formen und ihren Verwendungsbeschränkungen als Argumentausdrücke sowie zu den spezifischen Bedingungen der Ditransitiv-Alternation. Die aus verschiedenen theoretischen Perspektiven geschriebenen Arbeiten reflektieren dabei das Spannungsfeld zwischen lexikalischen Forderungen, konstruktionalen Idiosynkrasien und sprachübergreifenden oder sprachspezifischen strukturellen Restriktionen.
In recent years, new developments in the area of lexicography have altered not only the management, processing and publishing of lexicographical data, but also created new types of products such as electronic dictionaries and thesauri. These expand th range of possible uses of lexical data and support users with more flexibility, for instance in assisting human translation. In this article, we give a short and easy-to-understand introduction to the problematic nature of the storage, display and interpretation of lexical data. We then describe the main methods and specifications used to build and represent lexical data.
The methods utilized in the area of research into dictionary use are established research methods in the social sciences. After explicating the different steps of a typical empirical investigation, this article provides examples of how these different methods are used in various user studies conducted in the field of using online dictionaries. Thereby, different kinds of data collection (surveys as online questionnaires, log files and eye tracking) as well as different research design structures (for instance, ex-post-facto design or experimental design) are discussed.
Part-of-speech tagging (POS-tagging) of spoken data requires different means of annotation than POS-tagging of written and edited texts. In order to capture the features of German spoken language, a distinct tagset is needed to respond to the kinds of elements which only occur in speech. In order to create such a coherent tagset the most prominent phenomena of spoken language need to be analyzed, especially with respect to how they differ from written language. First evaluations have shown that the most prominent cause (over 50%) of errors in the existing automatized POS-tagging of transcripts of spoken German with the Stuttgart Tübingen Tagset (STTS) and the treetagger was the inaccurate interpretation of speech particles. One reason for this is that this class of words is virtually absent from the current STTS. This paper proposes a recategorization of the STTS in the field of speech particles based on distributional factors rather than semantics. The ultimate aim is to create a comprehensive reference corpus of spoken German data for the global research community. It is imperative that all phenomena are reliably recorded in future part-of-speech tag labels.
Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora.
Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim
(2014)
Very large corpora have been built and used at the IDS since its foundation in 1964. They have been made available on the Internet since the beginning of the 90’s to currently over 30,000 researchers worldwide. The Institute provides the largest archive of written German (Deutsches Referenzkorpus, DeReKe) which has recently been extended to 24 billion words. DeReKe has been managed and analysed by engines known as COSMAS and afterwards COSMAS II, which is currently being replaced by a new, scalable analysis platform called KorAP. KorAP makes it possible to manage and analyse texts that are accompanied by multiple, potentially conflicting, grammatical and structural annotation layers, and is able to handle resources that are distributed across different, and possibly geographically distant, storage systems. The majority of texts in DeReKe are not licensed for free redistribution, hence, the COSMAS and KorAP systems offer technical solutions to facilitate research on very large corpora that are not available (and not suitable) for download. For the new KorAP system, it is also planned to provide sandboxed environments to support non-remote-API access “near the data” through which users can run their own analysis programs.
As a result of legal restrictions the Google Ngram Corpora datasets are a) not accompanied by any metadata regarding the texts the corpora consist of and the data are b) truncated to prevent an indirect conclusion from the n-gram to the author of the text. Some of the consequences of this strategy are discussed in this article.
This contribution outlines a conceptual analysis of the dictionary-internal cross-reference structure in electronic dictionaries along the lines of Wiegand’s actional-theoretical text theory of print dictionaries. The discussion focuses on issues of XML-based data modeling, using the monolingual German online dictionary elexiko as a running example. The first part of the article demonstrates how Wiegand’s formal theory of mediostructure and its intricate nomenclature can be extended in a systematic and lexicographically justified way to cover the structure of the underlying lexicographical database of online dictionaries. The second part of the article applies the concepts developed to a more technical question, examining the extent to which cross-reference information can be stored and processed separately from the dictionary entry documents, e.g., in a relational database. The results are largely negative; in most real world cases, this leads to an unwanted duplication of XML-related structural information. The concluding third part briefly describes the strategy chosen for elexiko: mediostructural information is not externalized at all; cross-reference consistency checks are performed by a dictionary editing tool that takes advantage of a specialized XML database index and can easily be made more efficient and scalable by using a simple caching technique.
This contribution presents the procedure used in the Handbuch deutscher Kommunikationsverben and in its online version Kommunikationsverben in the lexicographical internet portal OWID to divide sets of semantically similar communication verbs into ever smaller sets of ever closer synonyms. Kommunikationsverben describes the meaning of communication verbs on two levels: a lexical level, represented in the dictionary entries and by sets of lexical features, and a conceptual level, represented by different types of situations referred to by specific types of verbs. The procedure starts at the conceptual level of meaning where verbs used to refer to the same specific situation type are grouped together. At the lexical level of meaning, the sets of verbs obtained from the first step are successively divided into smaller sets on the basis of the criteria of (i) identity of lexical meaning, (ii) identity of lexical features, and (iii) identity of contexts of usage. The stepwise procedure applied is shown to result in the creation of a semantic network for communication verbs.
This paper reports on an ongoing lexicographical project that investigates Polish loanwords from German that were further borrowed into the East Slavic languages Russian, Ukrainian, and Belorussian. The results will be published as three separate dictionaries in the Lehnwortportal Deutsch, a freely available web portal for loanword dictionaries having German as their common source language. On the database level, the portal models lexicographical data as a cross-resource directed acyclic graph of relations between individual words, including German ‘metalemmata’ as normalized representations of diasystemic variants of German etyma. Amongst other things, this technology makes it possible to use the web portal as an ‘inverted loanword dictionary’ to find loanwords in different languages borrowed from the same German etymon. The different possible pathways of German loanwords that went through Polish into the East Slavic languages can be represented directly as paths in the graph. A dedicated in-house dictionary editing software system assists lexicographers in producing and keeping track of these paths even in complex cases where, e.g, only a derivative of a German loanword in Polish has been borrowed into Russian. The paper concludes with some remarks on the particularities of the dictionary/portal access structure needed for presenting and searching borrowing chains.
Topologisches Satzmodell
(2014)
In dem Beitrag diskutieren die Autoren die deutschdidaktische Behauptung (u. a. Dürscheid 2007), dass ein zusätzliches Angebot von Grammatikunterricht im Fach Deutsch der Sekundarstufe II zu besseren und langfristig anhaltenden expliziten Grammatikkenntnissen des Deutschen führt. Laut curricularen Vorgaben ist für die Klassen neun bis zwölf kein Grammatikunterricht vorgesehen. Ob ein solches Angebot tatsächlich zu entsprechend besseren Ergebnissen führt, ist empirisch nicht belegt. Die Autoren konzipieren daher eine longitudinale Untersuchung zur Leistungserhebung, in der zwei Vergleichsgruppen jährlich einmal Aufgaben, aufbauend auf den VERA-8-Arbeiten, in den Klassen acht bis zwölf bearbeiten. Nur eine der beiden Gruppen hat ab Klasse neun am expliziten Grammatikunterricht in Form einer kontrollierten Selbstlerneinheit teilgenommen. Es sollen hierbei dieselben 1000 Schüler befragt werden. Die Befragung erfolgt in den Schuljahren 2014 bis 2018. Das Projekt „Grammatische Kenntnisse in der Sekundarstufe II (GramKidSII)“ wird finanziert vom Institut für Deutsche Sprache in Mannheim.
This article presents an approach that supports the creation of personal learning environments (PLE) suitable for self-regulated learning (SRL). PLEs became very popular in recent years offering more personal freedom to learners than traditional learning environments. However, creating and configuring PLEs demand specific meta-skills that not all learners have. This situation leads to the challenge how learners can be supported to create PLEs that are useful to achieve their intended learning outcomes. The theory of SRL describes learners as self-regulated if they are capable of taking over control of the own learning process. Grounding on that theory, a model has been elaborated that offers guidance for the creation of PLEs containing tools for cognitive and meta-cognitive learning activities. The implementation of this approach has been done in the context of the ROLE infrastructure. A quantitative and qualitative evaluation with teachers describes advantages and ideas for improvement.
German lexical items with similar or related morphological roots and similar meaning potential are easily confused by native speakers and language learners. These include so-called paronyms such as effektiv/effizient , sensitive/sensibel, formell/formal/förmlich . Although these are generally not regarded as synonyms, empirical studies suggest that in some cases items of a paronym set have undergone meaning change and developed synonymous notions. In other cases, they remain similar in meaning, but show subtle differences in definition and restrictions of usage. Whereas the treatment of synonyms has received attention from corpus-linguists (cf. Partington 1998; Taylor 2003), the subject of paronyms has not been revisited with empirical, data-driven methods neither in terms of semantic theory nor in terms of practical lexicography. As a consequence, we also need to search for suitable corpus methods for detailed semantic investigation. Lexicographically, some German paronyms have been documented in printed dictionaries (e.g. Müller 1973; Pollmann & Wolk 2010). However, there is no corpus-assisted reference guide describing paronyms empirically and enabling readers to find the correct contemporary usage. Therefore, solutions to some lexicographic challenges are required.
We describe a systematic and application-oriented approach to training and evaluating named entity recognition and classification (NERC) systems, the purpose of which is to identify an optimal system and to train an optimal model for named entity tagging DeReKo, a very large general-purpose corpus of contemporary German (Kupietz et al., 2010). DeReKo 's strong dispersion wrt. genre, register and time forces us to base our decision for a specific NERC system on an evaluation performed on a representative sample of DeReKo instead of performance figures that have been reported for the individual NERC systems when evaluated on more uniform and less diverse data. We create and manually annotate such a representative sample as evaluation data for three different NERC systems, for each of which various models are learnt on multiple training data. The proposed sampling method can be viewed as a generally applicable method for sampling evaluation data from an unbalanced target corpus for any sort of natural language processing.
We present an approach to an aspect of managing complex access scenarios to large and heterogeneous corpora that involves handling user queries that, intentionally or due to the complexity of the queried resource, target texts or annotations outside of the given user’s permissions. We first outline the overall architecture of the corpus analysis platform KorAP, devoting some attention to the way in which it handles multiple query languages, by implementing ISO CQLF (Corpus Query Lingua Franca), which in turn constitutes a component crucial for the functionality discussed here. Next, we look at query rewriting as it is used by KorAP and zoom in on one kind of this procedure, namely the rewriting of queries that is forced by data access restrictions.
This paper gives an overview of recent developments in the German Reference Corpus DeReKo in terms of growth, maximising relevant corpus strata, metadata, legal issues, and its current and future research interface. Due to the recent acquisition of new licenses, DeReKo has grown by a factor of four in the first half of 2014, mostly in the area of newspaper text, and presently contains over 24 billion word tokens. Other strata, like fictional texts, web corpora, in particular CMC texts, and spoken but conceptually written texts have also increased significantly. We report on the newly acquired corpora that led to the major increase, on the principles and strategies behind our corpus acquisition activities, and on our solutions for the emerging legal, organisational, and technical challenges.
We start by trying to answer a question that has already been asked by de Schryver et al. (2006): Do dictionary users (frequently) look up words that are frequent in a corpus. Contrary to their results, our results that are based on the analysis of log files from two different online dictionaries indicate that users indeed look up frequent words frequently. When combining frequency information from the Mannheim German Reference Corpus and information about the number of visits in the Digital Dictionary of the German Language as well as the German language edition of Wiktionary, a clear connection between corpus and look-up frequencies can be observed. In a follow-up study, we show that another important factor for the look-up frequency of a word is its temporal social relevance. To make this effect visible, we propose a de-trending method where we control both frequency effects and overall look-up trends.
Diskurse, die in der nichtlinguistischen Welt über Sprache geführt werden, sind typischerweise Sprachverfallsdiskurse – gleich, ob es um Neue Medien, Anglizismen, Orthographie oder Schülerleistungen geht. Linguistische Laien neigen dazu, Sprache als etwas Homogenes, Monolithisches, das stabilen Normen unterliegt, zu sehen. Variation und Sprachwandel werden, so sie denn zur Kenntnis genommen werden, vielfach als Bedrohung wahrgenommen; häufig werden sie sozial interpretiert. Tatsächlich aber findet die Mehrzahl der Phänomene, die Anlass für sprachkritische Debatten der Öffentlichkeit geben, ihren systematischen Ort im Bereich von Variation oder von Sprachwandelprozessen.
Der vorliegende Band versammelt die Vorträge der 49. Jahrestagung des Instituts für Deutsche Sprache; er liefert einerseits eine sprachhistorische und variationslinguistische Einordnung der vom Sprachverfalls-Diskurs betroffenen Systembereiche, andererseits bietet er eine sprachsoziologische Analyse der dem öffentlichen Diskurs zugrundeliegenden Prozesse.
Sprachverfall? Einleitung
(2014)
Die Leibniz-Gemeinschaft
(2014)
Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert.
In diesem Beitrag wird an einigen Beispielen aus der nominalen Morphologie bzw. der Morphosyntax der deutschen Substantivgruppe gezeigt, wie sich in den Veränderungen in diesem Bereich, die sich über das 20. Jahrhundert hin beobachten lassen, Fragen eines langfristigen Systemwandels mit Regularitäten des Sprachgebrauchs überlagern. Im Mittelpunkt soll die Frage der Markierung der Kasus – insbesondere in den allgemein als „kritisch“ angesehenen Fällen von Genitiv und Dativ – stehen. Wenn man die Daten dazu betrachtet, sieht man, dass in den meisten Fällen schon zum Anfang des 20. Jahrhunderts eine weitgehende Anpassung an die Regularitäten der Monoflexion erfolgt war, auch, dass dieser Prozess über das Jahrhundert hin fortschreitet. Bemerkenswert ist, dass insgesamt die als „alt“ angesehenen Fälle in den untersuchten Korpora geschriebener Sprache (sehr) selten auftauchen, dass aber in zunehmendem Ausmaß die daraus folgende Markiertheit in der einen oder anderen Weise funktional genutzt wird. Einen Fall eigener Art stellt in diesem Zusammenhang der Genitiv dar, der sich bei den starken Maskulina und Neutra bekanntlich dem Trend zur „Einmalmarkierung“ der Kasus an den flektierten, das Substantiv begleitenden Elementen widersetzt. Das führt zu der bekannten Orientierung dieser Formen auf die Nicht-Objekt-Verwendungen und auch zu einem auffälligen Maß an Variation in der Nutzung der entsprechenden Flexionsformen.