Refine
Year of publication
- 2018 (95) (remove)
Document Type
- Part of a Book (47)
- Article (26)
- Book (12)
- Other (6)
- Conference Proceeding (2)
- Part of Periodical (1)
- Review (1)
Language
- German (68)
- English (25)
- French (1)
- Multiple languages (1)
Is part of the Bibliography
- yes (95) (remove)
Keywords
- Deutsch (95) (remove)
Publicationstate
- Veröffentlichungsversion (44)
- Zweitveröffentlichung (32)
- Postprint (13)
Reviewstate
- (Verlags)-Lektorat (40)
- Peer-Review (38)
Publisher
- de Gruyter (16)
- Institut für Deutsche Sprache (12)
- Narr Francke Attempto (10)
- Erich Schmidt (7)
- Heidelberg University Publishing (4)
- European language resources association (ELRA) (3)
- Springer (3)
- Winter (3)
- Austrian Academy of Sciences (2)
- De Gruyter (2)
Am Beispiel der polyfunktionalen Mehrworteinheit <was weiß ich> wird das Zusammenspiel von pragmatischer und phonetischer Ausdifferenzierung in Pragmatikalisierungsprozessen untersucht. Hierzu werden spontan-sprachliche Belege aus dem Korpus „Deutsch heute“ analysiert. Die beobachtete phonetische Variationsbreite deutet auf eine komplexe Beziehung zu den jeweiligen pragmatischen Funktionen hin.
We present a testsuite for POS tagging German web data. Our testsuite provides the original raw text as well as the gold tokenisations and is annotated for parts-of-speech. The testsuite includes a new dataset for German tweets, with a current size of 3,940 tokens. To increase the size of the data, we harmonised the annotations in already existing web corpora, based on the Stuttgart-Tübingen Tag Set. The current version of the corpus has an overall size of 48,344 tokens of web data, around half of it from Twitter. We also present experiments, showing how different experimental setups (training set size, additional out-of-domain training data, self-training) influence the accuracy of the taggers. All resources and models will be made publicly available to the research community.
Terminological resources play a central role in the organization and retrieval of scientific texts. Both simple keyword lists and advanced modelings of relationships between terminological concepts can make a most valuable contribution to the analysis, classification, and finding of appropriate digital documents, either on the web or within local repositories. This seems especially true for long-established scientific fields with elusive theoretical and historical branches, where the use of terminology within documents from different origins is often far from being consistent. In this paper, we report on the progress of a linguistically motivated project on the onomasiological re-modeling of the terminological resources for the grammatical information system grammis. We present the design principles and the results of their application. In particular, we focus on new features for the authoring backend and discuss how these innovations help to evaluate existing, loosely structured terminological content, as well as to efficiently deal with automatic term extraction. Furthermore, we introduce a transformation to a future SKOS representation. We conclude with a positioning of our resources with regard to the Knowledge Organization discourse and discuss how a highly complex information environment like grammis benefits from the re-designed terminological KOS.
In HDK-1 und in HDK-2 werden Perfektpartizipien wie angenommen und vorausgesetzt in der ‚absoluten‘ Verwendung ohne Auxiliar als vollständig grammatikalisierte Konnektoren mit konditionaler Semantik behandelt. Zwar werden sie von semantisch unterschiedlichen Verben gebildet, in der Verwendung als Konnektor lassen sich aber zumindest hinsichtlich der Wahrheitsbedingungen kaum semantische Unterschiede mehr erkennen. Deutliche Unterschiede zeigen sich aber im Sprachgebrauch: Basierend auf einer groß angelegten Korpusstudie wird gezeigt, dass sich angenommen und vorausgesetzt stark unterscheiden hinsichtlich a) ihrer Präferenz für die Einbettung von V2- vs. dass-Nebensätzen, b) des präferierten Verbmodus im Nebensatz, c) der topologischen Präferenz des untergeordneten Satzes sowie d) der Kookkurrenz mit anderen Ausdrücken. Es wird versucht, diese Unterschiede mit einem pragmatisch-funktionalen Ansatz zu erklären.
German is a language with complex morphological processes. Its long and often ambiguous word forms present a bottleneck problem in natural language processing. As a step towards morphological analyses of high quality, this paper introduces a morphological treebank for German. It is derived from the linguistic database CELEX which is a standard resource for German morphology. We build on its refurbished, modernized and partially revised version. The derivation of the morphological trees is not trivial, especially for such cases of conversions which are morpho-semantically opaque and merely of diachronic interest. We develop solutions and present exemplary analyses. The resulting database comprises about 40,000 morphological trees of a German base vocabulary whose format and grade of detail can be chosen according to the requirements of the applications. The Perl scripts for the generation of the treebank are publicly available on github. In our discussion, we show some future directions for morphological treebanks. In particular, we aim at the combination with other reliable lexical resources such as GermaNet.
Neulich sah ich am Pfeifferswörth, wo immer die freundlich orangen Wagen der Mannheimer Abfallwirtschaft runterbrettern, einen Cityfanten, auf dem Cityfant stand. Das fällt einer Sprachwissenschaftlerin natürlich auf, die sich aus ihrer Jugend an den Ottifanten erinnert und mal was über einen aus dem Ei gepellten Mammufanten geschrieben hat. Also habe ich nachrecherchiert, ob es nicht noch mehr Bildungen mit fant als zweitem Teil gibt.
Except for some recent advances in spoken language lexicography (cf. Verdonik & Sepesy Maučec 2017, Hansen & Hansen 2012, Siepmann 2015), traditional lexicographic work is mainly oriented towards the written language. In this paper, we describe a method we used to identify relevant headword candidates for a lexicographic resource for spoken language that is currently being developed at the Institute for the German Language (IDS, Mannheim). We describe the challenges of the headword selection for a dictionary of spoken language, and having made considerations regarding our headword concept, we present the corpus-based procedures that we used in order to facilitate the headword selection. After presenting the results regarding the selection of one-word lemmas, we discuss the opportunities and limitations of our approach.
Das Wort
(2018)
Die kompetente Verwendung von Wörtern im Kontext einer Sprache stellt ein hochspezialisiertes Fähigkeitssystem dar, das wir unbewusst beherrschen. Ebenso verfügen wir über eine implizite Kenntnis der Regeln, die den inneren Aufbau von Wörtern bestimmen. Der unbewusste Charakter sprachlichen Wissens erschwert jedoch dessen Vermittlung in Schule und Universität. Der vorliegende Überblick über wesentliche morphologische Phänomene des Deutschen sowie einschlägige grammatische Begriffe und Analysemethoden berücksichtigt dieses Problem des Grammatikunterrichts und begegnet ihm mit einer Synthese von sprachwissenschaftlicher und sprachdidaktischer Perspektive.
In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum.
Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.
In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum.
Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.
Dativobjekt
(2018)
Seit Mitte der 1990er Jahre wird am Institut für deutsche Sprache (IDS) in Mannheim erforscht, wie der hochkomplexe Gegenstandsbereich „Grammatik“ unter Ausnutzung digitaler Sprachressourcen und hypertextueller Navigationsstrukturen gleichermaßen wissenschaftlich fundiert und anschaulich vermittelt werden kann. Die grammatischen Online-Informationssysteme des IDS wenden sich nicht allein an Forscher und die interessierte Öffentlichkeit in Deutschland, sondern in gleichem Maße an Germanisten und Deutsch-Lernende in der ganzen Welt. Der vorliegende Beitrag beschreibt die damit verbundenen Hoffnungen und Anspruche. Daran anschließend thematisiert er praktische Einsatzmöglichkeiten und skizziert die funktionale und inhaltliche Weiterentwicklung der digitalen Grammatik-Angebote.
Der Beitrag widmet sich den Geflüchteten als Teil der deutschlernenden Teilnehmer/innen in den staatlich verordneten Integrationskursen (IKs). Unsere Erhebung unter 305 Geflüchteten aus Syrien und anderen Ländern legt ihren Schwerpunkt auf die sprachlichen Hintergründe. Dabei werden soziodemografische Daten mit Angaben zum Spracherwerb in Beziehung gesetzt und als kollektive Sprachbiografien dargestellt. Des Weiteren beschreiben wir sieben Teilnehmergruppen von Geflüchteten in den IKs, die sich vor allem auf Grund der Faktoren Alter, Bildungsgrad und Arbeitserfahrung unterscheiden, für die aber auch Merkmale im Hinblick auf Herkunft und Mehrsprachigkeit eine Rolle spielen. Ferner werden Angaben zur Sozialsituation in Deutschland mit Einschätzungen zum Deutscherwerb in Beziehung gesetzt. Ein Vergleich mit anderen Studien verdeutlicht die Verschiebungen in der Zusammensetzung des IK. Unser Beitrag kann als Anregung verstanden werden, die Passgenauigkeit im Sinne der Deutschlernenden zu überdenken.
Our corpus study is concerned with subject-verb agreement in contemporary German, more precisely the variation in verb number. We focus on subjects consisting of noun phrases coordinated by the conjunction und (‘and’). In our samples, both nouns are in singular. Number resolution – i.e., plural verb despite of the singular nouns – can be regarded as the default choice in contemporary German. However, our data show that eliding the second determiner in the subject enhances the probability of using the singular verb. This ellipsis effect is highly significant in German and Austrian texts. It seems to be weaker in Swiss texts. Regression analyses reveal that the ellipsis effect is stronger than both the highly significant influence of subject individuation and the significant effect of subject agentivity.
We study German affixoids, a type of morpheme in between affixes and free stems. Several properties have been associated with them – increased productivity; a bleached semantics, which is often evaluative and/or intensifying and thus of relevance to sentiment analysis; and the existence of a free morpheme counterpart – but not been validated empirically. In experiments on a new data set that we make available, we put these key assumptions from the morphological literature to the test and show that despite the fact that affixoids generate many low-frequency formations, we can classify these as affixoid or non-affixoid instances with a best F1-score of 74%.
Einleitung
(2018)
Einleitung
(2018)
Deutschland sieht sich in den nächsten Jahren vor enorme Herausforderungen gestellt. Mit der Fluchtmigration von knapp 1,5 Millionen Menschen alleine zwischen den Jahren 2014 und 2017 stehen nahezu in jedem gesellschaftlichen Bereich, und hier insbesondere in den Sektoren Bildung und Arbeit, große Integrationsaufgaben an. Steven Vertovec (2015), der Leiter des Max-Planck-Instituts zur Erforschung multireligiöser und multiethnischer Gesellschaften, bezeichnet die Fluchtmigration von 2015 auch deshalb als die „zweite Wende“ für Deutschland, die das Land nachhaltig verändern wird. Nach seiner Einschätzung sind die erwartbaren gesellschaftlichen Transformationen von solch einer Größenordnung, dass die Formulierung „seit der Flüchtlingskrise“ eine ebenso geläufige Redewendung sein wird wie die Formulierung „seit der Wende“. Um diese gegenwärtigen Migrations- und Integrationsprozesse von Anfang an dokumentieren und analysieren zu können, wurde am Institut für Deutsche Sprache (IDS) zu Beginn des Jahres 2016 das Projekt „Deutsch im Beruf: Die sprachlich-kommunikative Integration von Flüchtlingen“ gestartet, dessen erste Ergebnisse das vorliegende Themenheft präsentiert.
Der vorliegende Beitrag thematisiert zwei unterschiedliche Forschungsergebnisse aus der Auswertung des Korpus »Deutsch heute«. Im ersten Teil wird in einem lautsystematischen Aufriss die phonetische Variation, wie sie sich in der Vorleseaussprache der österreichischen Schülerinnen in den Korpusdaten manifestiert, dargestellt. Ein zweiter Teil des Beitrags präsentiert metasprachliche Äußerungen aus sprachbiographischen Interviews, die Einblicke in sprachbezogene Kategorien und Konzepte der jungen Österreicherinnen geben und Rückschlüsse auf Spracheinstellungen zulassen. Die Schülerinnen bestätigen nicht nur verschiedene Facetten des für Österreich anzunehmenden diaglossischen Verhältnisses der Varietäten durch ihren Formengebrauch, sondern auch in metasprachlichen Aussagen, die einen hohen Grad der Bewusstheit des eigenen Sprachgebrauchs sowie der formalen wie auch soziosymbolischen Unterschiede der Varietäten erkennen lassen.
Two empirical studies were carried out in the project „Lexik des gesprochenen Deutsch” (LeGeDe) at the Institute for the German Language (IDS) in Mannheim. The main goal of these studies was to shed light on people’s expectations of the planned lexicographical online-resource. In the first study, selected experts were interviewed in the form of a guided interview. In the second study, a broader online survey was conducted, which should reach a wider range of potential users. This contribution introduces the basic concepts of the project LeGeDe, outlines the two studies and presents selected results on four subject blocks: (i) sociodemographic data, (ii) personal use of (online) dictionaries, (iii) individual experience with the lexis of spoken language and (iv) expectations concerning a lexicographical online-resource for spoken German.
Ausgehend von der engelschen Ergänzungstypologie soll in dem Beitrag die Leistung der Expansivergänzung für valenztheoretisch fundierte Verbanalysen in Verbindung mit bestimmten Verbsubklassen genauer untersucht werden. Eine ausführliche Darstellung der Begriffsgeschichte und der Abgrenzungsproblematik zeigt die Notwendigkeit auf, die semantischen, morpho-syntaktischen und funktionalen Kriterien zur Begriffsbestimmung für inter- und intralinguale Studien integrativ zu erfassen.
In this paper, we present our approach to automatically extracting German terminology in the domain of grammar using texts from the online information system grammis as our corpus. We analyze existing repositories of German grammatical terminology and develop Part-of-speech patterns for our extraction thereby showing the importance of unigrams in this domain. We contrast the results of the automatic extraction with a manually extracted standard. By comparing the performance of well-known statistical measures, we show how measures based on corpus comparison outperform alternative methods.
We present the conceptual foundations and basic features of fLexiCoGraph, a generic software package for creating and presenting curated human-oriented lexicographical resources that are roughly modeled according to Měchura’s (2016) idea of graph-augmented trees. The system is currently under development and will be made accessible as open source software. As a sample use case we discuss an existing online database of loanwords borrowed from German into other languages which is based on a growing number of language-specific loanword dictionaries (Lehnwortportal Deutsch). The paper outlines the conceptual foundations of fLexiCoGraph’s hybrid graph/XML data model. To establish a database, XML-based resources may be imported or even input manually. An additional graph database layer is then constructed from these XML source documents in a freely configurable, but automated way; subsequently, the resulting graph can be manipulated and enlarged through a visual user interface in such a way that keeps the relationship to the source document information explicit at all times. We sketch the tooling support for different kinds of graph-level editing processes, including mechanisms for dealing with updated XML source documents and coping with duplicate or inconsistent information, and briefly discuss the browser interface for end users.
Deutschland sieht sich in den nächsten Jahren vor enorme Herausforderungen gestellt. Mit der Fluchtmigration von knapp 1,5 Mio. Menschen allein zwischen den Jahren 2014 und 2017 stehen nahezu in jedem gesellschaftlichen Bereich und hier insbesondere in den Sektoren Bildung und Arbeit große Integrationsaufgaben an. Steven Vertovec, der Leiter des Max-Planck-Instituts zur Erforschung multireligiöser und multiethnischer Gesellschaften, bezeichnet die Fluchtmigration von 2015 auch deshalb als die „zweite Wende“ (Vertovec 2015) für Deutschland, die das Land nachhaltig verändern wird. Nach seiner Einschätzung sind die erwartbaren gesellschaftlichen Transformationen von so einer Größenordnung, dass die Formulierung „seit der Flüchtlingskrise“ eine ebenso geläufige Redewendung werden wird wie die Formulierung „seit der Wende“. Um diese gegenwärtigen Migrations- und Integrationsprozesse von Anfang an dokumentieren und analysieren zu können, wurde am Institut für Deutsche Sprache (IDS) zu Beginn des Jahres 2016 das Projekt „Deutsch im Beruf: Die sprachlich-kommunikative Integration von Flüchtlingen“ gestartet, dessen erste Ergebnisse hier zusammenfassend präsentiert werden. Eine ausführliche Darstellung unserer Ergebnisse findet sich in der Zeitschrift „Deutsche Sprache 3 / 2018“
Present-day German uses two formally different patterns of compounding in N+N compounds. The first combines bare stems (e.g. Tisch+decke ‘tablecloth’) while the second contains an intervening linking element (LE) as in Geburt-s-ort ‘birth-LE-place’. The linked compounding type developed in Early New High German (1350–1650) from phrasal constructions by reanalyzing genitive attributes as first constituents of compounds. The present paper uses corpus data to explore three key stages in this development: In the initial stage, it shows how prenominal non-specific genitive constructions lent themselves to reanalysis due to their functional overlap and formal similarity. Additionally, compounds seem to have replaced not only prenominal genitives, but also structurally different postnominal genitives. In the second stage, the new compounding pattern increases in productivity between 1500 and 1710, especially compared to the older pattern without linking elements. The last stage pertains to changes in spelling practice. It shows that linked compounds were written separately in the beginning. Their gradual graphematic integration into directly connected words was reversed by a century of hyphenation (1650–1750). This is strikingly different from present-day spelling practice and shows that the linked pattern was still perceived as marked.
Die vorliegende Studie zeigt datenbasiert, wie N+N-Komposita mit Fugenelementen im Frühneuhochdeutschen durch Reanalyse aus pränominalen Genitivkonstruktionen entstehen und in der Folge ein bestehendes Wortbildungsmuster verändern. Für den Hauptuntersuchungszeitraum (1500–1710) werden alle relevanten Konstruktionen in einem ausgewogenen Textkorpus identifiziert und analysiert. Dabei zeigt sich, dass durch den neuen, verfugenden Kompositionstyp morphologische Restriktionen des Erstglieds fallen: Das Muster öffnet sich nun z.B. auch für suffigierte Substantive. In der Folge nimmt die Produktivität von N+N-Komposita quantitativ wie qualitativ deutlich zu. Hier lässt sich der Ausgangspunkt der heutigen „Kompositionsfreudigkeit" des Deutschen ausmachen. Im Zentrum des Untersuchungsinteresses steht in diesem Zusammenhang die unparadigmische s-Fuge (Religion-s-wesen), die als Indikator für einen eigenständigen Wortbildungsprozess dient. Bestehende und neue Ansätze zu ihrer Genese werden datenbasiert evaluiert. Hieraus ergibt sich ein Vorschlag zur (temporären) Funktion der s-Fuge. Die Studie überprüft schließlich, ob sich der neue Kompositionstyp als Fall von Grammatikalisierung, Degrammatikalisierung oder Exaptation beschreiben lässt.
Complement phrases are essential for constructing well-formed sentences in German. Identifying verb complements and categorizing complement classes is challenging even for linguists who are specialized in the field of verb valency. Against this background, we introduce an ML-based algorithm which is able to identify and classify complement phrases of any German verb in any written sentence context. We use a large training set consisting of example sentences from a valency dictionary, enriched with POS tagging, and the ML-based technique of Conditional Random Fields (CRF) to generate the classification models.
Im Rahmen einer zur Zeit stattfindenden Umgestaltung der Inhalte und der Benutzeroberfläche des Online-Portals grammis hat sich eine Projektgruppe konstituiert, die es sich zur Aufgabe gemacht hat, das am IDS vorhandene Terminologiesystem zur Grammatik des Deutschen zu überarbeiten und zu erweitern: Dies betrifft zum einen die Überarbeitung und Erweiterung des Terminologieinventars, aber auch die zugrundeliegende methodische Grundlage und technische Infrastruktur. Zum Verständnis dieses Vorhabens sollen zunächst die vorhandenen Vorarbeiten und Grundlagen vorgestellt werden.
Der Beitrag untersucht Gemeinsamkeiten und Unterschiede in der grammatischen Gestaltung adversativer Satzverknüpfungen in der deutschen und der italienischen Schriftsprache. Die Analyse der verfügbaren Sprachmittel und ihrer Nutzung in Korpusdaten kann dazu beitragen, Auffälligkeiten in Texten italienischer Deutschschreiber zu erklären.
Mit dem "Handbuch der deutschen Sprachminderheiten in Übersee" liegt nun ein komplementärer Band zum "Handbuch der deutschen Sprachminderheiten in Mittel- und Osteuropa" vor. Es bietet einen konzentrierten Überblick über die Situation der deutschsprachigen Minderheiten außerhalb Europas. Acht Länderartikel (USA, Texas, Südamerika, die Mennoniten, Namibia, Südafrika, Australien, ehemalige Kolonialgebiete in der Südsee) liefern ausführliche Informationen über die historischen Entwicklungen der jeweiligen Sprachinseln, über die politische und rechtliche Lage der Minderheiten und ihre demographische Situation. Dabei wird für jedes Land eine Dokumentation der Kompetenz- und Sprachgebrauchssituation, eine Beschreibung und Analyse der soziolinguistischen Situation mit ihren je spezifischen Standard-Substandard-Verteilungen und eine Untersuchung der Spracheinstellungen der Sprecher geboten.
Response particles manage intersubjectivity. This conversation analytic study describes German eben (“exactly”). With eben, speaker A locally agrees with the immediately prior turn of B (the “confirmable”) and establishes a second indexical link: A relates B’s confirmable to a position A herself had already displayed (the “anchor”). Through claiming temporal priority, eben speakers treat a just-formulated position as self-evident and mark independence. Further evidence for the three-part structure “anchor-confirmable-eben” that eben sets in motion retrospectively comes from instances where eben speakers supply a missing/opaque anchor via a postpositioned display of independent access. Data are in German with English translation.
Instruction practices in German driving lessons: Differential uses of declaratives and imperatives
(2018)
Building on а corpus of 70 hours of German driving lessons, this paper studies the use of declaratives vs. imperatives for instruction. It shows how these linguistic resources are adapted to different praxeological, temporal and participant-related environments. Declaratives are used for first instructions, task-setting and post- trial discussions. They exhibit complex syntax and do not call for immediate compliance. Their high degree of explicitness conveys how the action is to be carried out. Imperative instructions overwhelmingly correct ongoing actions of students or respond to their failure to produce expected actions. They exhibit minimal argument structure. They are reminders which presuppose that the student monitors the scene and can perform the action unproblematically. They index that requests have to be complied with immediately or even urgently.