Refine
Year of publication
- 2017 (163) (remove)
Document Type
- Article (70)
- Part of a Book (35)
- Conference Proceeding (35)
- Book (10)
- Working Paper (5)
- Other (3)
- Part of Periodical (2)
- Report (2)
- Doctoral Thesis (1)
Keywords
- Deutsch (52)
- Korpus <Linguistik> (42)
- Gesprochene Sprache (16)
- Corpus linguistics (11)
- Computerunterstützte Lexikographie (7)
- Diskursmarker (7)
- Computerlinguistik (6)
- Corpus technology (6)
- Interaktionsanalyse (6)
- Texttechnologie (6)
Publicationstate
- Veröffentlichungsversion (163) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (43)
- de Gruyter (19)
- Verlag für Gesprächsforschung (10)
- Lexical Computing CZ s.r.o. (5)
- The Association for Computational Linguistics (5)
- Heidelberg University Publishing (4)
- Narr (4)
- Synchron (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- Narr Francke Attempto (3)
Der vorliegende Beitrag beschreibt auf der Basis authentischer Alltagsinteraktionen das Formen- und Funktionsspektrum der äußerungsmodalisierenden Kommen-tarphrase ohne Scheiß im gesprochenen Deutsch. Die Konstruktion wird von Inter-agierenden insbesondere als Ressource zur Steigerung des Geltungsanspruchs einer Bezugsäußerung genutzt, wodurch diese als wahr und/oder ernstgemeint modali-siert wird. Damit leistet ohne Scheiß einen wichtigen Beitrag zur Bearbeitung des Erwartungsmanagements durch den/die SprecherIn sowie zur Herstellung von In-tersubjektivität. Die Konstruktion ist syntaktisch variabel und kann somit Äußerun-gen sowohl prospektiv als auch retraktiv modalisieren. Zudem wird mit der Wahl des Lexem Scheiß ein nähesprachliches Register aktiviert, was in Verbindung mit weiteren (prosodischen und/oder lexikalischen) Elementen zu affektiver Aufladung führen kann. Eine abschließende Darstellung häufiger lexikalischer Kookkurrenz-partner und deren funktionaler Bedeutung sowie ein Abgleich zu intrakonstruktio-nalen Varianten wie ohne Witz/ohne Spaß zeigt die Produktivität der Konstruktion im alltäglichen Sprachgebrauch auf.
In recent years, formal semantic research on the meaning of tense and aspect has benefited from a number of studies investigating languages with graded tense systems. This paper contributes a first sketch of the temporal marking system of Awing (Grassfields Bantu), focusing on two varieties of remote past and remote future. We argue that the data support a "symmetric" analysis of past and future tense in Awing. In our specific proposal, Awing temporal remoteness markers are uniformly analyzed as quantificational tense operators, and both the past and the future paradigm include a form that prevents contextual restriction of this temporal quantifier.
In this paper, we will present a first attempt to classify commonly confused words in German by consulting their communicative functions in corpora. Although the use of so-called paronyms causes frequent uncertainties due to similarities in spelling, sound and semantics, up until now the phenomenon has attracted little attention either from the perspective of corpus linguistics or from cognitive linguistics. Existing investigations rely on structuralist models, which do not account for empirical evidence. Still, they have developed an elaborate model based on formal criteria, primarily on word formation (cf. Lăzărescu 1999). Looking from a corpus perspective, such classifications are incompatible with language in use and cognitive elements of misuse.
This article sketches first lexicological insights into a classification model as derived from semantic analyses of written communication. Firstly, a brief description of the project will be provided. Secondly, corpus-assisted paronym detection will be focused. Thirdly, in the main section the paper concerns the description of the datasets for paronym classification and the classification procedures. As a work in progress, new insights will continually be extended once spoken and CMC data are added to the investigations.
This paper presents a short insight into a new project at the "Institute for the German Language” (IDS) (Mannheim). It gives an insight into some basic ideas for a corpus-based dictionary of spoken German, which will be developed and compiled by the new project "The Lexicon of spoken German” (Lexik des gesprochenen Deutsch, LeGeDe). The work is based on the "Research and Teaching Corpus of Spoken German” (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK), which is implemented in the "Database for Spoken German” (Datenbank für Gesprochenes Deutsch, DGD). Both resources, the database and the corpus, have been developed at the IDS.
This paper presents a survey on hate speech detection. Given the steadily growing body of social media content, the amount of online hate speech is also increasing. Due to the massive scale of the web, methods that automatically detect hate speech are required. Our survey describes key areas that have been explored to automatically recognize these types of utterances using natural language processing. We also discuss limits of those approaches.
Im September 1522 erschien in Wittenberg „Das newe Testament Deutzsch“ mit einer Auflage von über 3.000 Stück und war binnen einer Woche ausverkauft. Martin Luther, der auf dem Titelblatt auf eigenen Wunsch nicht erwähnt wird, hatte die Übersetzung auf der Wartburg in nur elf Wochen angefertigt und wenig später fünf Wochen lang mit seinem Kollegen und Freund, dem Gräzisten Philipp Melanchthon, insbesondere im Hinblick auf die griechische Urfassung bearbeitet. Die Geschichte der Revisionen der Lutherbibel beginnt im gleichen Jahr – schon für den Nachdruck im Dezember hat Luther dieses so genannte „Septemberevangelium“ an vielen Stellen revidiert. In Teilen erschien danach seine Übersetzung des Alten Testaments, 1534 die vollständige Übersetzung der Bibel. Luther korrigierte den Bibeltext unablässig weiter bis zur Ausgabe von 1545, der Lutherbibel „letzter Hand“.
Qualifizierungsmaßnahmen wie „Perspektive für Flüchtlinge Plus“ (PerFPlus) können als wichtige Bestandteile der neuen Willkommenskultur in Deutschland betrachtet werden. Deutschland als Einwanderungsland kann mit Hilfe solcher Initiativen gezielt für Arbeitsbereiche und Berufsgruppen werben, in denen es an Nachwuchs mangelt. Den Neuzugewanderten bieten sie die eine Chance sich in der hiesigen Arbeitswelt zu orientieren und Berufsfelder zu erkunden, die ihnen bislang noch nicht oder nur in anderer Form bekannt waren. Auf der anderen Seite bergen solche Maßnahmen aber auch ihr Risiko: Wenn sie ihr Ziel verfehlen und Frustrationen auf beiden Seiten erzeugen, sind lange Warteschleifen, Arbeitslosigkeit und möglicherweise politische Polarisierung und Radikalisierung die Folge. Insofern ist eine schnelle Intervention hinsichtlich der Verbesserung solcher Maßnahmen essentiell. Der vorliegende Bericht soll die konzeptionell-arbeitenden Teams bei der Bundesagentur für Arbeit (BA) sowie bei Bildungsanbietern die mit der BA kooperieren bei ihren wichtigen Aufgaben unterstützen. Alle Partner bleiben im Bericht anonym.
Deutschland sieht sich in den nächsten Jahren vor enormen Herausforderungen gegen-übergestellt. Mit der Fluchtmigration von knapp 1,5 Mio. Menschen alleine zwischen 2014 und 2017 stehen nahezu in jedem gesellschaftlichen Bereich und hier insbesonde-re in den Sektoren Bildung und Arbeit große Integrationsaufgaben an. Steven Vertovec, der Leiter des Max-Planck-Instituts zur Erforschung multireligiöser und multiethnischer Gesellschaften bezeichnet die Fluchtmigration von 2015 auch deshalb als die „zweite Wende“ (Vertovec 2015) für Deutschland, die das Land nachhaltig verändern wird. Nach seiner Einschätzung werden die gesellschaftlichen Transformationen dermaßen tiefgrei-fend sein, dass die Formulierung „seit der Flüchtlingskrise“ eine ebenso geläufige Rede-wendung sein wird wie die Formulierung „seit der Wende“.
Berufliche Qualifizierungsmaßnahmen wie „GASTRO“ im Rhein-Neckar-Raum sind in diesem Kontext sehr wichtige Anstrengungen im Hinblick auf die strukturelle Integrati-on der Fluchtmigranten. Im gesamtgesellschaftlichen Kontext sind sie unverzichtbare Bestandteile der neuen Willkommenskultur, die seit den 2010ern versucht wird, in Deutschland zu etablieren. Als Einwanderungsland kann Deutschland mit Hilfe solcher Initiativen gezielt für Arbeitsbereiche und Berufsgruppen werben, in denen es an Nach-wuchs mangelt. Den Neuzugewanderten bieten sie die Chance sich in der hiesigen Ar-beitswelt zu orientieren und möglicherweise Berufsfelder zu erkunden, die ihnen bis-lang noch nicht oder nur in anderer Form bekannt waren.
The Manatee corpus management system on which the Sketch Engine is built is efficient, but unable to harness the power of today’s multiprocessor machines. We describe a new, compatible implementation of Manatee which we develop in the Go language and report on the performance gains that we obtained.
In German there are about twenty-five elements (like gemäß, nahe, voll) that seem to be used as a preposition along with their use as an adjective. In former approaches the preposition is interpreted as the product of grammaticalizing (and/or reanalyzing) the adjective. It is argued that the two criteria these approaches rely on, namely change of linear position and change of case government, are insufficient. In this paper, seven criteria for distinguishing adjectives form prepositions in German are put forward. What is most important is that these criteria have to be evaluated on the token level as well as on the level of type and word class/syntactic category. It can be shown that the individual ‘adjective-prepositions' as types possess a specific mixture of adjective-like and preposition-like features. On the token level, occurring as part of a postnominal restrictive attribute is indicative for preposition-like status in German. The comparison of German with English and Italian adjective-prepositions (like near, far, due and vicino, lontano) reveals a lot of differences, which counts as evidence for the language-specific nature of word classes. Nevertheless, Lehmanns functional-typological approach uncovers a fundamental functional similarity between complement governing adjectives and prepositions: the primary function of the phrases, i.e., adjective/preposition + complement, is to modify a nominal or a verbal concept, respectively. This insight explains why adjective-prepositions can be found cross-linguistically. The question whether we should propose one type or two types for gemäß and its cognates is of minor importance only.
In the first volume of Corpus Linguistics and Linguistic Theory, Gries (2005. Null-hypothesis significance testing of word frequencies: A follow-up on Kilgarriff. Corpus Linguistics and Linguistic Theory 1(2). doi:10.1515/ cllt.2005.1.2.277. http://www.degruyter.com/view/j/cllt.2005.1.issue-2/cllt.2005. 1.2.277/cllt.2005.1.2.277.xml: 285) asked whether corpus linguists should abandon null-hypothesis significance testing. In this paper, I want to revive this discussion by defending the argument that the assumptions that allow inferences about a given population – in this case about the studied languages – based on results observed in a sample – in this case a collection of naturally occurring language data – are not fulfilled. As a consequence, corpus linguists should indeed abandon null-hypothesis significance testing.
Alles verstehen heißt alles verzeihen ist ein Satz, der im Deutschen den Charakter eines Spruchs, eines geflügelten Wortes angenommen hat, und der wahrscheinlich auf einem Zitat aus „Corinne ou l‘Italie“ von Madame de Staël (1807) (tout) comprendre c‘est (tout) pardonner basiert. Dieser Satz wurde ins Deutsche übersetzt und als Alles verstehen heißt alles verzeihen tradiert. Die Form eines Spruchs, eines geflügelten Wortes ist im Allgemeinen sehr konstant. Die Tendenz zur grammatischen Variation ist auch dann gering, wenn sie nach gängigen grammatischen Regeln möglich wäre.
Am Anfang ist das Wort
(2017)
Analepses with topic-drop are frequent structures in German interaction. While hitherto the focus on analepses was a rather syntactic one, this paper deals with analeptic structures from a semantic perspective. It particularly concentrates on the semantic relations between the referents of the analepses and the prior interactional context. This analysis shows that even for rather simple analepses which just omit a constituent from the prior utterance, conceptual processes are more decisive for its interpretation than syntactic features of the antecedent constituents. This is even more the case for complex analepses that are only indirectly linked to the prior context, and for the interpretation of which hearers need to draw inferences. The paper argues that theoretical approaches like Conversation Analysis and Interactional Linguistics can profit from adopting a semantic and conceptual perspective for the interpretation of interactional structures.
As a consequence of a recent curation project, the Dortmund Chat Corpus is available in CLARIN-D research infrastructures for download and querying. In a legal expertise it had been recommended that standard measures of anonymisation be applied to the corpus before its republication. This paper reports about the anonymisation campaign that was conducted for the corpus. Anonymisation has been realised as categorisation, and the taxonomy of anonymisation categories applied is introduced and the method of applying it to the TEI files is demonstrated. The results of the anonymisation campaign as well as issues of quality assessment are discussed. Finally, pseudonymisation as an alternative to categorisation as a method of the anonymisation of CMC data is discussed, as well as possibilities of an automatisation of the process.
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
We use a convolutional neural network to perform authorship identification on a very homogeneous dataset of scientific publications. In order to investigate the effect of domain biases, we obscure words below a certain frequency threshold, retaining only their POS-tags. This procedure improves test performance due to better generalization on unseen data. Using our method, we are able to predict the authors of scientific publications in the same discipline at levels well above chance.
Der Auftaktworkshop "Lexik des gesprochenen Deutsch: Forschungsstand, Erwartungen und Anforderungen an die Entwicklung einer innovativen lexikografischen Ressource" fand am 16. und 17. Februar 2017 am Institut fur Deutsche Sprache (IDS) in Mannheim statt. Das von der Leibniz-Gemeinschaft geforderte Projekt "Lexik des gesprochenen Deutsch" (=LeGeDe, Leibniz-Wettbewerb 2016, Forderlinie "Innovative Vorhaben") nahm im September 2016 am IDS seine Arbeit auf. Das Hauptziel ist die Erstellung einer korpusbasierten elektronischen Ressource zur Lexik des gesprochenen Deutsch auf der Grundlage von lexikologischen und gesprachsanalytischen Untersuchungen authentischer gesprochensprachlicher Daten.
Harold Garfinkel, Begründer der Ethnomethodologie, wäre dieses Jahr 100 Jahre alt geworden, seine Studies in Ethnomethodology werden 50 Jahre. Grund genug diesen doppelten Geburtstag mit einer Tagung zur "deutschsprachigen Vorge-schichte, Wirkung und Rezeption des Werkes und der Person zu würdigen" (so der Ankündigungstext zur Tagung), die nicht ganz zufällig in Konstanz stattfand, lange Zeit und nach wie vor eine Hochburg rekonstruktiver Sozialforschung (auch) ethnomethodologischer Prägung. Die Tagung Harold Garfinkel's 'Studies in Ethnomethodolgy' – Fifty Years After vom 26.-28.10.2017 an der Universität Konstanz, ausgerichtet vom Lehrstuhl für Allgemeine Soziologie und Kultursoziologie und organisiert von Jörg Bergmann, Christian Meyer und Erhard Schüttpelz, tat dies in einer gebührlichen und beson-deren Weise: Die acht Kapitel der Studies in Ethnomethodology (im Folgenden kurz Studies), ein Konvolut aus Essays und Artikeln, die 1967 erschienen sind, dienten als Grundlage zur Strukturierung der Tagung und als Ausgangspunkt der einzelnen Vorträge.
We present an event-related potentials (ERP) study that addresses the question of how pieces of information pertaining to semantic roles and event structure interact with each other and with the verb’s meaning. Specifically, our study investigates German verb-final clauses with verbs of motion such as fliegen ‘fly’ and schweben ‘float, hover,’ which are indeterminate with respect to agentivity and event structure. Agentivity was tested by manipulating the animacy of the subject noun phrase and event structure by selecting a goal adverbial, which makes the event telic, or a locative adverbial, which leads to an atelic reading. On the clause-initial subject, inanimates evoked an N400 effect vis-à-vis animates. On the adverbial phrase in the atelic (locative) condition, inanimates showed an N400 in comparison to animates. The telic (goal) condition exhibited a similar amplitude like the inanimate-atelic condition. Finally, at the verbal lexeme, the inanimate condition elicited an N400 effect against the animate condition in the telic (goal) contexts. In the atelic (locative) condition, items with animates evoked an N400 effect compared to inanimates. The combined set of findings suggest that clause-initial animacy is not sufficient for agent identification in German, which seems to be completed only at the verbal lexeme in our experiment. Here non-agents (inanimates) changing their location in a goal-directed way and agents (animates) lacking this property are dispreferred and this challenges the assumption that change of (locational) state is generally a defining characteristic of the patient role. Besides this main finding that sheds new light on role prototypicality, our data seem to indicate effects that, in our view, are related to complexity, i.e., minimality. Inanimate subjects or goal arguments increase processing costs since they have role or event structure restrictions that animate subjects or locative modifiers lack.
Catching the common cause: extraction and annotation of causal relations and their participants
(2017)
In this paper, we present a simple, yet effective method for the automatic identification and extraction of causal relations from text, based on a large English-German parallel corpus. The goal of this effort is to create a lexical resource for German causal relations. The resource will consist of a lexicon that describes constructions that trigger causality as well as the participants of the causal event, and will be augmented by a corpus with annotated instances for each entry, that can be used as training data to develop a system for automatic classification of causal relations. Focusing on verbs, our method harvested a set of 100 different lexical triggers of causality, including support verb constructions. At the moment, our corpus includes over 1,000 annotated instances. The lexicon and the annotated data will be made available to the research community.
The paper presents best practices and results from projects dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC) from four different countries. Even though there are still many open issues related to building and annotating corpora of this type, there already exists a range of tested solutions which may serve as a starting point for a comprehensive discussion on how future standards for CMC corpora could (and should) be shaped like.
CMC Corpora in DeReKo
(2017)
We introduce three types of corpora of computer-mediated communication that have recently been compiled at the Institute for the German Language or curated from an external project and included in DeReKo, the German Reference Corpus, namely Wikipedia (discussion) corpora, the Usenet news corpus, and the Dortmund Chat Corpus. The data and corpora have been converted to I5, the TEI customization to represent texts in DeReKo, and are researchable via the web-based IDS corpus research interfaces and in the case of Wikipedia and chat also downloadable from the IDS repository and download server, respectively.
This paper discusses changes of lexicographic traditions with respect to approaches to meaning descriptions towards more cognitive perspectives. I will uncover how cognitive aspects can be incorporated into meaning descriptions based on corpus-driven analysis. The new German Online dictionary “Paronyme − Dynamisch im Kontrast” (Storjohann 2014; 2016) is concerned with easily confused words such as effektiv/effizient, sensibel/sensitiv. It is currently in the process of being developed and it aims at adopting a more conceptual and encyclopaedic approach to meaning by incorporating cognitive features. As a corpus-guided reference work it strives to adequately reflect ideas such as conceptual structure, categorisation and knowledge. Contrastive entries emphasise aspects of usage, comparing conceptual categories and indicate the (metonymic) mapping of knowledge. Adaptable access to lexicographic details and variable search options offer different foci and perspectives on linguistic information, and authentic examples reflect prototypical structures. Some of the cognitive features are demonstrated with the help of examples. Firstly, I will outline how patterns of usage imply conceptual categories as central ideas instead of sufficiently logical criteria of semantic distinction. In this way, linguistic findings correlate better with how users conceptualise language. Secondly, it is pointed out how collocates are treated as family members and fillers in contexts. Thirdly, I will demonstrate how contextual structure and functions are included summarising referential information. Details are drawn from corpus data, they are usage-based linguistic patterns illustrating conversational interaction and semantic negotiations in contemporary public discourse. Finally, I will outline consultation routines which activate different facets of structural knowledge, e.g. through changes of the ordering of information or through the visualisation of semantic networks.
This paper discusses how cognitive aspects can be incorporated into lexicographic meaning descriptions based on corpus-driven analysis. The new German Online dictionary “Paronyme − Dynamisch im Kontrast” is concerned with easily confused words such as effektiv/effizient, sensibel/sensitiv. It is currently in the process of being developed and it aims at adopting a more conceptual and encyclopedic approach to meaning. Contrastive entries emphasize usage, comparing conceptual categories and indicating the mapping of knowledge. Adaptable access to lexicographic details offers different perspectives on information, and authentic examples reflect prototypical structures.
Some of the cognitive features are demonstrated with the help of examples. Firstly, I will outline how patterns of usage imply conceptual categories as central ideas instead of sufficiently logical criteria of semantic distinction. In this way, linguistic findings correlate better with how users conceptualize language. Secondly, it is pointed out how collocates are family members and fillers in contexts. Thirdly, I will demonstrate how contextual structure and function are included by summarizing referential information. Details are drawn from corpus data; they are usage-based patterns illustrating conversational interaction and semantic negotiation in contemporary public discourse. Finally, I will show flexible consultation routines where the focus on structural knowledge changes.
The paper reports on the results of a scientific colloquium dedicated to the creation of standards and best practices which are needed to facilitate the integration of language resources for CMC stemming from different origins and the linguistic analysis of CMC phenomena in different languages and genres. The key issue to be solved is that of interoperability – with respect to the structural representation of CMC genres, linguistic annotations metadata, and anonymization/pseudonymization schemas. The objective of the paper is to convince more projects to partake in a discussion about standards for CMC corpora and for the creation of a CMC corpus infrastructure across languages and genres. In view of the broad range of corpus projects which are currently underway all over Europe, there is a great window of opportunity for the creation of standards in a bottom-up approach.
We present an approach to making existing CLARIN web services usable for spoken language transcriptions. Our approach is based on a new TEI-based ISO standard for such transcriptions. We show how existing tool formats can be transformed to this standard, how an encoder/decoder pair for the TCF format enables users to feed this type of data through a WebLicht tool chain, and why and how web services operating directly on the standard format would be useful.
In my talk, I present an empirical approach to detecting and describing proverbs as frozen sentences with specific functions in current language use. We have developed this approach in the EU project ‘SprichWort’ (based on the German Reference Corpus). The first chapter illustrates selected aspects of our complex, iterative procedure to validate proverb candidates. Based on our corpus-driven lexpan methodology of slot analysis I then discuss semantic restrictions of proverb patterns. Furthermore, I show different degrees of proverb quality ranging from genuine proverbs to non-proverb realizations of the same abstract pattern. On the one hand, the corpus validation reveals that proverbs are definitely perceived and used as relatively fixed entities and often as sentences. On the other hand, proverbs are not only interpreted as an interesting unique phenomenon but also as part of the whole lexicon, embedded in networks of different lexical items.
Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes - The National Corpus of Contemporary Welsh)
(2017)
CorCenCC is an interdisciplinary and multiinstitutional project that is creating a large-scale, open-source corpus of contemporary Welsh. CorCenCC will be the first ever large-scale corpus to represent spoken, written and electronicallymediated Welsh (compiling an initial data set of 10 million Welsh words), with a functional design informed, from the outset, by representatives of all anticipated academic and community user groups.
Ein Teildiskurs der Digital Humanities dreht sich um die Frage, wie tradierte Wissensressourcen der Geisteswissenschaften sinnvoll mit digitalen Technologien und Tools verbunden werden können. Auch bei der Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm (DWB) ist dieser Diskurs spürbar, denn mit der Ende 2016 abgeschlossenen Arbeit des traditionsreichen Unternehmens liegt ein konzeptuell einzigartiges Referenzwerk der historischen Lexikografie des Deutschen vor, das in ‘traditioneller’ Printform entstanden, dessen Umsetzung in ein digitales Format jedoch bereits beschlossen ist. Im Laufe der Arbeit am DWB sind überdies zwei Datensammlungen entstanden, die mittlerweile digitalisiert wurden und öffentlich zugänglich sind: das (digitale) Quellenverzeichnis und die Kartei Literatur zur Wortforschung (LW-Kartei). Ihre Einbindung in die Wörterbucharbeit und -benutzung trägt auf unterschiedliche Weise zum Verständnis des DWB bei; weiterhin verweisen sie als digitale Werkzeuge auf grundlegende Möglichkeiten zur Aufbereitung von lexikografischen Daten. Im Folgenden werden beide Projekte, die sich ursprünglich als innerbetriebliche lexikografische Werkzeuge aus der Wörterbuchpraxis ergaben, vorgestellt. Anschließend wird anhand mehrerer ausgewählter Beispielwörter demonstriert, inwiefern sich die LW-Kartei und das Quellenverzeichnis für ein breites Spektrum von Forschungsfragen nutzen lassen. Am Ende werden Überlegungen zur Erweiterung der Datenbanken, d. h. der jeweiligen Systeme zur elektronischen Datenverwaltung, und ihrer Vernetzung mit den jeweiligen DWB-Artikeln diskutiert – Themen, denen u. a. bei der anstehenden Retrodigitalisierung des DWB besondere Beachtung zukommen sollte.
Ein Teildiskurs der Digital Humanities dreht sich um die Frage, wie tradierte Wissensressourcen der Geisteswissenschaften sinnvoll mit digitalen Technologien und Tools verbunden werden können. Auch bei der Neubearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm (DWB) ist dieser Diskurs spürbar, denn mit der Ende 2016 abgeschlossenen Arbeit des traditionsreichen Unternehmens liegt ein konzeptuell einzigartiges Referenzwerk der historischen Lexikografie des Deutschen vor, das in ‘traditioneller’ Printform entstanden, dessen Umsetzung in ein digitales Format jedoch bereits beschlossen ist. Im Laufe der Arbeit am DWB sind überdies zwei Datensammlungen entstanden, die mittlerweile digitalisiert wurden und öffentlich zugänglich sind: das (digitale) Quellenverzeichnis und die Kartei Literatur zur Wortforschung (LW-Kartei). Ihre Einbindung in die Wörterbucharbeit und -benutzung trägt auf unterschiedliche Weise zum Verständnis des DWB bei; weiterhin verweisen sie als digitale Werkzeuge auf grundlegende Möglichkeiten zur Aufbereitung von lexikografischen Daten.
Im Folgenden werden beide Projekte, die sich ursprünglich als innerbetriebliche lexikografische Werkzeuge aus der Wörterbuchpraxis ergaben, vorgestellt. Anschließend wird anhand mehrerer ausgewählter Beispielwörter demonstriert, inwiefern sich die LW-Kartei und das Quellenverzeichnis für ein breites Spektrum von Forschungsfragen nutzen lassen. Am Ende werden Überlegungen zur Erweiterung der Datenbanken, d. h. der jeweiligen Systeme zur elektronischen Datenverwaltung, und ihrer Vernetzung mit den jeweiligen DWB-Artikeln diskutiert – Themen, denen u. a. bei der anstehenden Retrodigitalisierung des DWB besondere Beachtung zukommen sollte.
Skatesticker sind grafisch gestaltete Aufkleber, die von Skatelabels – den Herstellern von Skateboards und Zubehör – distribuiert werden. Ursprünglich zu reinen Werbezwecken produziert, haben sich Skatesticker als Symbole der Szene etabliert: Befragte Skater bekennen, dass Skatesticker ein „Ausdruck eines Lebensgefühls“, ein „visueller Eindruck unserer Gefühle“ und eine „[e]infache Möglichkeit[,] sich einer Gruppe zuzuordnen“ sind. Sie werden von Skatern gesammelt, gehandelt und wertgeschätzt. Die vorliegende Arbeit verfolgt einen bildwissenschaftlich orientierten Forschungsansatz, der es ermöglicht, die komplexen – oftmals bildende Kunst adaptierenden – Bildmotive dieser Grafikdesignobjekte und ihre zunehmend autonomisierten Funktionen als visuelle Medien einer Szene zu analysieren und anzuerkennen.
Die Diskurslinguistik als relativ neue Teildisziplin der germanistischen Linguistik beschäftigt sich mit der Frage, wie soziale Wirklichkeiten in transtextuell organisierten Einheiten konstruiert werden. Bisher finden dabei noch kaum Texte aus digitalen Medien (z. B. aus Facebook, Twitter oder Wikipedia) Berücksichtigung. Das Netzwerk vereint die unten genannten WissenschaftlerInnen, die in ihren Projekten an der Analyse digitaler Diskurse arbeiten und dabei digitale Methoden der Korpuslinguistik bzw. Digital Methods nutzen.
In the NLP literature, adapting a parser to new text with properties different from the training data is commonly referred to as domain adaptation. In practice, however, the differences between texts from different sources often reflect a mixture of domain and genre properties, and it is by no means clear what impact each of those has on statistical parsing. In this paper, we investigate how differences between articles in a newspaper corpus relate to the concepts of genre and domain and how they influence parsing performance of a transition-based dependency parser. We do this by applying various similarity measures for data point selection and testing their adequacy for creating genre-aware parsing models.
In the NLP literature, adapting a parser to new text with properties different from the training data is commonly referred to as domain adaptation. In practice, however, the differences between texts from different sources often reflect a mixture of domain and genre properties, and it is by no means clear what impact each of those has on statistical parsing. In this paper, we investigate how differences between articles in a newspaper corpus relate to the concepts of genre and domain and how they influence parsing performance of a transition-based dependency parser. We do this by applying various similarity measures for data point selection and testing their adequacy for creating genre-aware parsing models.
Data sets of publication meta data with manually disambiguated author names play an important role in current author name disambiguation (AND) research. We review the most important data sets used so far, and compare their respective advantages and shortcomings. From the results of this review, we derive a set of general requirements to future AND data sets. These include both trivial requirements, like absence of errors and preservation of author order, and more substantial ones, like full disambiguation and adequate representation of publications with a small number of authors and highly variable author names. On the basis of these requirements, we create and make publicly available a new AND data set, SCAD-zbMATH. Both the quantitative analysis of this data set and the results of our initial AND experiments with a naive baseline algorithm show the SCAD-zbMATH data set to be considerably different from existing ones. We consider it a useful new resource that will challenge the state of the art in AND and benefit the AND research community.
Das Konzept De-facto-Didaktik ist der theoretische Rahmen, in dem wir aus multimodal-interaktionsanalytischer Sicht Unterrichtskommunikation analysieren. Es integriert neue Entwicklungen im Bereich Interaktionstheorie, empirische Interaktionsanalyse und Raumlinguistik. Aus einer dezidiert interaktionistischen Perspektive fokussiert das Konzept zunächst bewusst allgemeine Anforderungen der Interaktionskonstitution, um spezifische Aspekte der Unterrichtskommunikation - im konkreten Fall primär das didaktische Handeln der Lehrer - neu perspektivieren zu können. Wie immer man das Geschehen im Unterricht auch konzeptualisieren mag, es ist und bleibt in seiner grundlegenden Struktur und - jenseits seiner institutionellen Prägung und Bedingtheit - ein Ereignis, das in der konkreten Interaktionsarchitektur des Klassenraums, sequenziell-simultan durch das multimodale Verhalten aller Anwesenden gemeinsam hervorgebracht wird. Dabei unterliegen alle Beteiligten ungeachtet ihrer besonderen Beteiligungsrolle den Bedingungen der Interaktionskonstitution.
Wir werden nachfolgend die interaktionstheoretischen Grundlagen skizzieren, auf der unsere Methode der de-facto-didaktisehen Analyse basiert, und führen dann an einem ausgewählten Beispiel vor, wodurch sich dieser analytische Zugang auszeichnet. Zum Abschluss weisen wir nach einem fallspezifischen Resümee auf die anwendungsbezogene Relevanz de-facto-didaktischer Analysen hin.
Die pfälzische Sprachinsel am Niederrhein, deren Gründung auf das Jahr 1641 zurückgeht, ist die letzte deutsche Binnensprachinsel. Sie steht unter einem akuten Assimilationsdruck, der sich im funktionellen Wandel des autochthonen dialektalen Systems bemerkbar macht; verstärkt wird dieser Prozess durch den deutschlandweit vielerorts beobachtbaren Rückgang der Dialektkompetenz auf basisdialektaler Ebene. In der vorliegenden Arbeit werden einerseits die Entwicklung in der Struktur des Sprachinseldialekts und andererseits die Rolle des Gebrauchs von sprachlichen Varianten als identitätsmarkierende Mittel untersucht. Dazu werden Sprachproben aus zwei Generationen variablenanalytisch ausgewertet und die Ergebnisse gegenübergestellt. Dabei zeigt sich, dass die dialektkompetenten Sprecher der jüngeren Generation einzelne (ehemals) dialektale Merkmale verstärkt realisieren, um ihre Identität als pfälzische Sprachinsulaner zu markieren.
We introduce a method for error detection in automatically annotated text, aimed at supporting the creation of high-quality language resources at affordable cost. Our method combines an unsupervised generative model with human supervision from active learning. We test our approach on in-domain and out-of-domain data in two languages, in AL simulations and in a real world setting. For all settings, the results show that our method is able to detect annotation errors with high precision and high recall.
Die Migration in die Türkei stellt für viele junge Menschen einen Wendepunkt in ihrem Leben dar. Sie kann verschiedene Gründe haben.
In der biografie- und interaktionsanalystischen Pilotstudie wird die Darstellung der narrativen Identitätsentwürfe von drei deutsch-türkischen Germanistikstudentinnen in Instanbul untersucht. Sie zeigt, wie die Informantinnen aus der Retrospektive ihre sprachlichen und sozialen Erfahrungen in Deutschland und nach der Migration in die Türkei konstituieren und welche Rolle ihre sprachlichen Ressourcen beim Ausdruck von sozialer Zugehörigkeit spielen.
Das Archiv für Gesprochenes Deutsch (AGD, Stift/Schmidt 2014) am Institut für Deutsche Sprache ist die zentrale Sammelstelle für Korpora des Gesprochenen Deutsch. Gegründet als Deutsches Spracharchiv (DSAv) im Jahre 1932 hat es über Eigenprojekte, Kooperationen und Übernahmen von Daten aus abgeschlossenen Forschungsprojekten einen Bestand von etwa 50 Variations- und Gesprächskorpora aufgebaut. Heute ist dieser Bestand fast vollständig digitalisiert und wird zu einem großen Teil der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) im Internet zur Nutzung in Forschung und Lehre angeboten.
Am 1. September 2016 hat das Forschungsprojekt „Lexik des gesprochenen Deutsch“ (= LeGeDe) am Institut für Deutsche Sprache in Mannheim als Kooperationsprojekt der Abteilungen Pragmatik und Lexik seine Arbeit aufgenommen. Dieses drittmittelgeförderte Projekt der Leibniz-Gemeinschaft (Leibniz-Wettbewerb 2016; Förderlinie 1: Innovative Vorhaben) hat eine Laufzeit von drei Jahren (1.9.2016-31.8.2019) und besteht aus einem Team von Mitarbeiterinnen und Mitarbeitern aus den Bereichen Lexikologie, Lexikografie, Gesprächsforschung, Korpus- und Computerlinguistik sowie Empirische Methoden. Im folgenden Beitrag werden neben Informationen zu den Eckdaten des Projekts, zu den unterschiedlichen Ausgangspunkten, dem Gegenstandsbereich, den Zielen sowie der LeGeDe-Datengrundlage vor allem einige grundlegende Forschungsfragen und methodologische Ansätze aufgezeigt sowie erste Vorschläge zur Gewinnung, Analyse und Strukturierung der Daten präsentiert. Zur lexikografischen Umsetzung werden verschiedene Möglichkeiten skizziert und im Ausblick einige Herausforderungen zusammengefasst.
Am Institut für Deutsche Sprache in Mannheim fand vom 17. bis 19.11.2016 die sechste Tagung des Netzwerks „Diskurs – interdisziplinär“ statt, diesmal zum Thema „Diskurs – kontrastiv“. An der Tagung nahmen Teilnehmerinnen und Teilnehmer aus Bosnien-Herzegowina, Deutschland, England, Polen, Serbien, Schweiz, Schweden, der Slowakei und Slowenien teil. Die 18 Vorträge waren fünf Sektionen zugeordnet: Prinzipien des Kontrastiven, Internationale Vergleiche, Metaphorik im internationalen Vergleich, kontrastive Semantik, Kulturen und Stereotype – transnational. Die Beiträge fokussierten dabei immer wieder folgende Fragestellungen: Wie werden gleiche Themen in unterschiedlichen Gesellschaften konstituiert und erörtert? Welche sprachlichen Auswirkungen haben die jeweiligen gesellschaftlichen und politischen Bedingungen, unter denen formal gleichwertige Diskursbeteiligte (z. B. außerparlamentarische Opposition, Bürgerinitiativen, Interessengruppen) in Bezug auf identische Diskursgegenstände sprachlich agieren? Inwiefern lassen sich ähnliche Diskurse als je spezifische Zeitphänomene darstellen? Inwiefern besteht strukturelle Identität/Similarität bzw. Differenz z. B. hinsichtlich der Verwendung vergleichbarer bzw. abweichender Leit- und Schlüsselwörter, Metaphern, Argumentationsmuster etc.? Neben Vorträgen, die sich derlei Fragestellungen widmeten, gab es zudem Beiträge, die sich auf empirischer Basis mit Methoden kontrastiver Diskursforschung auseinandersetzten.
Wie können Diskursmarker in einem Korpus gesprochener Sprache auffindbar gemacht werden? Was ist Part-of-Speech-Tagging und wie funktioniert es? In diesem Artikel soll anhand der POS-Kategorie Diskursmarker dargestellt werden, wie für das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) ein Part-of-Speech-Tagging entwickelt wurde, das auf die Annotation typisch gesprochen-sprachlicher Phänomene ausgerichtet ist. Diskursmarker sollen dafür aus der Sicht maschineller Sprachverarbeitung dargestellt werden, d. h. wie eine POS-Kategorie Diskursmarker so definiert werden kann, dass sie automatisch annotiert werden kann. Schließlich soll gezeigt werden, wie man auch weitere Diskursmarker in der Datenbank auffinden kann
Der vorliegende Band ist die erste Publikation in Buchform, die sich umfassend den Diskursmarkern im gesprochenen Deutsch widmet. Vor dem Hintergrund des Forschungsstands zu anderen Sprachen gibt er einen repräsentativen Überblick über Formen und Funktionen von Diskursmarkern in der deutschen Gegenwartssprache.
Die zwölf Beiträge befassen sich mit dem Diskursmarkerbegriff und seiner definitorischen Abgrenzung sowie mit den interaktionalen Funktionen von Diskursmarker-Subklassen und ausgewählten Einzelmarkern. Alle Beiträge stützen sich auf Originalaufnahmen mündlicher Interaktionen. Teilweise werden ergänzend schriftlich konstituierte Daten herangezogen.
Der Aufsatz beschreibt Grundlinien der Diskursmarkerforschung von ihren Anfängen bis in die Mitte der 2010er Jahre. Der Schwerpunkt liegt auf einer fachgeschichtlichen und systematischen Rekonstruktion des Diskursmarkerbegriffs. Im ersten Schritt werden Herausbildung und Entwicklung des Terminus nachgezeichnet und zu verwandten Termini wie Partikel, Gesprächswort und (pragmatischer) Operator in Beziehung gesetzt. Dabei werden unterschiedliche Forschungstraditionen in Germanistik, angelsächsischer Linguistik und Romanistik sowie ihre wechselseitigen Verflechtungen berücksichtigt. Im zweiten Schritt werden inhaltliche Bestimmungen des Diskursmarkerbegriffs in morphologischer, prosodischer, syntaktischer, semantischer, pragmatischer und sprachgeschichtlicher Hinsicht zusammengestellt und gewichtet. Zum Schluss werden unterschiedliche Richtungen der Diskursmarkerforschung in einen systematischen Zusammenhang gestellt, der die notorischen Unschärfen des Diskursmarkerbegriffs verständlich macht und ihre Überwindung absehbar erscheinen lässt.
In diesem Aufsatz werden Diskursmarker als Operatoren definiert, die Skopus über Sprechakte nehmen, d.h. Sprechakte modifizieren oder miteinander verknüpfen. Als Sprechakte in diesem Sinne kommen neben perlokutionären und illokutionären auch lokutionäre Akte in Betracht. Die Operation eines Diskursmarkers wird als Zuordnung thematischer Rollen konzeptualisiert. Dafür muss der Diskursmarker zu seinem Operanden im syntaktischen Verhältnis eines Kopfes zu seinem Komplement oder eines Adjunktes zu seinem Wirt stehen, oder er muss ein syntaktisch unabhängiger referentieller Ausdruck sein, der seinen Operanden als Verweisziel nimmt. Linear stehen Diskursmarker typischerweise peripher zu ihren Operanden. In satzförmigen Operanden können adverbiale Diskursmarker auch Binnenstellungen einnehmen.
This paper provides insights into the ongoing international research project Unserdeutsch (Rabaul Creole German): Documentation of a highly endangered creole language in Papua New Guinea, based at the University of Augsburg, Germany. It elaborates on the different stages of the project, ranging from fieldwork to corpus development, thereby outlining the methods and software background used for the intended purposes. In doing so, we also give some approaches to solving specific problems, which have arisen in the course of practical work until now.
Ziel einer größer angelegten Studie – die Grundlage dieses Beitrags ist – war es, anhand der „Gassigespräche“ auf gattungsspezifische Ordnungsprinzipien und Familienähnlichkeiten miteinander verwandter Alltagsgattungen einzugehen, die vor allem in westlichen Kulturen etabliert zu sein scheinen. Die ihnen zugrundeliegenden kommunikativen Muster beschreiben wir als mehr oder weniger stark verfestigte Elemente. Mit diesem Beitrag wollen wir einen Einblick in die gattungsanalytische Betrachtung von Alltagskommunikation am Beispiel der Gassigespräche bieten.
Mit diesem Bild beschreibt Hermann Unterstöger in einem „Sprachlabor“- Artikel der Süddeutschen Zeitung vom 23.3.2013 die Erfolgsgeschichte, die das Substantiv (das) Narrativ in den letzten 30 Jahren vorgelegt hat. Während Unterstöger feinsinnig den intertextuellen Bezug zum „Narrenschiff“ des Sebastian Brant oder dem gleichnamigen Roman von Katherine Ann Porter bemüht, wird Matthias Heine, der Autor von „Seit wann hat geil nichts mehr mit Sex zu tun? 100 deutsche Wörter und ihre erstaunlichen Karrieren“ in einem Artikel in der WELT vom 13.11.2016, wie nach diesem Buchtitel zu erwarten, eher grob: Dort heißt es: „Hinz und Kunz schwafeln heutzutage vom ,Narrativ‘“.
Einleitung
(2017)
Einleitung
(2017)
Das Handbuch Europäische Sprachkritik Online (HESO) liefert eine vergleichende Perspektive auf Sprachkritik in europäischen Sprachkulturen. Das Handbuch ist eine periodische und mehrsprachige Online-Publikation. Zu ausgewählten Konzepten der Sprachkritik werden sukzessiv enzyklopädische Artikel veröffentlicht, die ein sprachkritisches Schlüsselkonzept betreffen und die für die europäische Perspektive von kultureller Bedeutung sind. Das Ziel ist demnach, eine Konzeptgeschichte der europäischen Sprachkritik zu präsentieren. Zum einen liefert das Handbuch einen spezifischen Blick auf die jeweiligen Sprachkulturen. Zum anderen werden diese vergleichend in den Blick genommen.
To improve grammatical function labelling for German, we augment the labelling component of a neural dependency parser with a decision history. We present different ways to encode the history, using different LSTM architectures, and show that our models yield significant improvements, resulting in a LAS for German that is close to the best result from the SPMRL 2014 shared task (without the reranker).
Unknown words are a challenge for any NLP task, including sentiment analysis. Here, we evaluate the extent to which sentiment polarity of complex words can be predicted based on their morphological make-up. We do this on German as it has very productive processes of derivation and compounding and many German hapax words, which are likely to bear sentiment, are morphologically complex. We present results of supervised classification experiments on new datasets with morphological parses and polarity annotations.
This paper analyses the XVIII century German translations of 'Les aventures de Télémaque' (1699) by François de Salignac de la Mothe Fénelon. In that century, Fénelon's masterpiece was translated into German mainly by four authors (August Bohse, Benjamin Neukirch, Josef Anton Ehrenreich, Ludwig Ernst Faramond), who adapted the text according not only to the historical period, but also to their own purpose, creating completely different works. They transformed the original text in different text genres, from a utopian novel with political and pedagogical aims to a text in verse form for didactic purposes, or to an epic poem with pedagogical functions. To investigate the differences between the translations the paper will focus especially on the macrostructural and the paratextual elements in order to make preliminary hypothesis on 1) the text genre, 2) the functions of the text and 3) the expected audience. Examples and final conclusions will end the article.
Emoticons erfreuen sich auf der ganzen Welt großer Beliebtheit, vor allem in der alltäglichen elektronischen Kommunikation wie E-Mail, SMS, Forumsdiskussionen, Instant Messaging, Facebook oder Twitter. Zum ersten Mal in der Geschichte wurde 2015 von den Sprachbeobachtern der britischen Oxford Dictionaries ein Emoticon zum Wort des Jahres gewählt: das Grinsegesicht, dem die Freudentränen aus den Augen spritzen (vgl.<www.sueddeutsche.de/kultur/britisches-wortdes-jahres-was-haben wir-gelacht-1.2740952>, Stand: 8.11.2017). Die Jury begründete ihre Wahl wie folgt: „[E]moji have come to embody a core aspect of living in a digital world that is visually driven, emotionally expressive, and obsessively immediate.“
This paper outlines the broad research context and rationale for a new international comparable corpus (ICC). The ICC is to be largely modelled on the text categories and their quantities the International Corpus of English with only a few changes. The corpus will initially begin with nine European languages but others may join in due course. The paper reports on those and other agreements made at the inaugural planning meeting in Prague on 22-23 June 2017. It also sets out the project’s goals for its first two years.
The German Historical Institute Washington (GHI) is in the development phase of German History Digital (GH-D), a transatlantic digital initiative to meet the scholarly needs of historians and their students facing new historiographical and technological challenges. In the proposed paper we will discuss the research goals, methodology, prototyping, and development strategy of GH-D as infrastructure to facilitate transnational historical knowledge co-creation for the large community of researchers and students already relying on digital resources of the GHI and for the growing constituency of citizen scholars.
The possibilities of re-use and archiving of spoken and written corpora are affected by personality rights (depending on legal tradition also called: the right of publicity), copyright law and data protection / privacy laws. These recommendations include information about legal aspects which should be considered while creating corpora to ensure the greatest archivability and re-usability possible in compliance with current laws.
The information compiled here shall serve researchers who plan to create corpora or who are involved in evaluation of such measures as a guideline. This information is not exhaustive or to be considered as legal advice. Researchers should consult institutional legal departments and management before making legally relevant decisions. That said, further legal expertise should be sought if possible as early as project planning phases.
Die ältesten schriftlichen Rezepte in deutscher Sprache sind uns im Buoch von guoter Spise aus der Zeit um 1350 überliefert (<http://digital.slub-dresden.de/werkansicht/dlf/2518/1/>, 10.7.2017). Schon damals hatten Rezepte wie heute außer der Kochanleitung einen Namen. Denn um über etwas reden zu können, geben wir allem einen Namen. Im Buoch von guoter Spise heißen die Gerichte Ain mandel suppen oder Ein gebraten gefültes ferhelin.
Historical sociolinguistics in colonial New Guinea: The Rhenish mission society in the Astrolabe Bay
(2017)
The Rhenish Mission Society, a German Protestant mission, was active in a small part of northern New Guinea, the Astrolabe Bay, between 1887 and 1932. Up until 1914, this region was under German colonial rule. The German dominance was also reflected in rules on language use in official contexts such as schools and administration.
Missionaries were strongly affected by such rules as their most important tool in mission work was language. In addition, they were also responsible for school education as most schools in the German colonial areas in the Pacific were mission-run. Thus, mission societies had to make decisions about what languages to use, considering their own needs, their ideological convictions, and the colonial government’s requirements. These considerations were framed by the complex setting of New Guinea’s language wealth where several hundred languages were, and still are, spoken.
This paper investigates a small set of original documents from the Rhenish Mission Society to trace what steps were taken and what considerations played a major role in the process of agreeing on a suitable means of communication with the people the missionaries wanted to reach, thereby touching upon topics such as language attitudes, language policies and politics, practical considerations of language learning and language spread, and colonial actions impacting local language ecologies.
Der vorliegende Beitrag beschäftigt sich mit ICH WEIß NICHT und der Frage danach, ob einige der Verwendungen als Diskursmarker bezeichnet werden können oder nicht. Es wird zunächst ein Überblick über die Kriterien gegeben, die in der interaktionalen Linguistik für die Diskursmarkerdefinition diskutiert wurden. Dabei wird versucht, definitorische Kriterien von empirischen Befunden abzugrenzen. Es folgt eine Analyse verschiedener Verwendungen von ICH WEIß NICHT. Ein Schwerpunkt liegt dabei auf Verwendungen als epistemischer und pragmatischer Marker, die sowohl mit prospektiver Orientierung als auch mit retrospektiver Orientierung vorkommen. Abschließend wird der Unterschied zwischen definitorischen und empirischen Kriterien für die Diskursmarkerdefinition systematisiert. Auf dieser Basis argumentieren wir dafür, dass alle Verwendungen von ICH WEIß NICHT, die diskursfunktionale Eigenschaften haben und syntaktisch desintegriert sind, Diskursmarkerverwendungen sind. Einige davon sind prototypischer, während andere Fälle eher marginal sind, da sie einige Merkmale, die die meisten Diskursmarker kennzeichnen, nicht aufweisen.
Interaktion und Medien
(2017)
Many (modernist) works of literature can be understood by their associativeness, be it constructed or “free”. This network-like character of (modernist) literature has often been addressed by terms like “free association”, connotation”, “context” or “intertext”. This paper proposes an experimental and exemplary approach to intraconnect a literary corpus of the Austrian writer Ilse Aichinger with semantic web-technologies to enable interactive explorations of word-associations.
Introduction
(2017)
Corpus researchers, along with many other disciplines in science are being put under continual pressure to show accountability and reproducibility in their work. This is unsurprisingly difficult when the researcher is faced with a wide array of methods and tools through which to do their work; simply tracking the operations done can be problematic, especially when toolchains are often configured by the developers, but left largely as a black box to the user. Here we present a scheme for encoding this ‘meta data’ inside the corpus files themselves in a structured data format, along with a proof-of-concept tool to record the operations performed on a file.
Language of Responsibility. The Influence of Linguistic Abstraction on Collective Moral Emotions
(2017)
Two experiments investigated the effects of linguistic abstractness on the experience of collective moral emotions. In Experiment 1 participants were presented with two scenarios about ingroup misbehavior, phrased using descriptive action verbs, interpretative action verbs, adjectives or nouns. The results show that participants experienced slightly more negative moral emotions with higher levels of linguistic abstractness. In Experiment 2 we also tested for the influence of national identification on the relationship between linguistic abstractness and emotional reactions. Additionally, we expanded the number of scenarios. Experiment 2 replicated the earlier pattern, but found larger differences between conditions. The strength of national identification did not moderate the observed effects. The results of this research are discussed within the context of the linguistic category model and psychology of collective moral emotions.
CoMParS is a resource under construction in the context of the long-term project German Grammar in European Comparison (GDE) at the IDS Mannheim. The principal goal of GDE is to create a novel contrastive grammar of German against the background of other European languages. Alongside German, which is the central focus, the core languages for comparison are English, French, Hungarian and Polish, representing different typological classes. Unlike traditional contrastive grammars available for German, which usually cover language pairs and are based on formal grammatical categories, the new GDE grammar is developed in the spirit of functionalist typology. This implies that, instead of formal criteria, cognitively motivated functional domains in terms of Givón (1984) are used as tertia comparationis. The purpose of CoMParS is to document the empirical basis of the theoretical assumptions of GDE-V and to illustrate the otherwise rather abstract content of grammar books by as many as possible naturally occurring and adequately presented multilingual examples, including information on their use in specific contexts and registers. These examples come from existing parallel corpora, and our presentation will focus on the legal aspects and consequences of this choice of language data.
This paper gives an insight into the basic concepts for a corpus-based lexical resource of spoken German, which is being developed by the project "The Lexicon of Spoken German"(Lexik des gesprochenen Deutsch, LeGeDe) at the "Institute for the German Language" (Institut für Deutsche Sprache, IDS) in Mannheim. The focus of the paper is on initial ideas of semi-automatic and automatic resources that assist the quantitative analysis of the corpus data for the creation of dictionary content. The work is based on the "Research and Teaching Corpus of Spoken German" (Forschungs- und Lehrkorpus Gesprochenes Deutsch, FOLK).
Am 12. Mai 1965 nahmen der Staat Israel und die Bundesrepublik Deutschland offiziell diplomatische Beziehungen auf. Damit kam über 15 Jahre nach der Konstitution der beiden Länder und 20 Jahre nach dem Ende der Shoah ein komplexer Prozess der langsamen politischen Annäherung zu einem keineswegs selbstverständlichen Abschluss. Das fünfzigjährige Jubiläum dieses Ereignisses im Jahr 2015 war weltweit, vor allem aber in Israel und Deutschland, Anlass für zahlreiche Veranstaltungen, über die eine offizielle bilaterale Webseite <www.de50il.org/> (Stand: 6.11.2017) Auskunft gibt. Im Rahmen des Jubiläums wurde am 30. September 2015 in einer feierlichen Abendveranstaltung im Jüdischen Museum Berlin offiziell das „Wörterbuch deutscher Lehnwörter im Hebräischen“ von Uriel Adiv in einer ersten Fassung im „Lehnwortportal Deutsch“ des IDS freigeschaltet. Eine von Koautor Jakob Mendel erheblich überarbeitete und verbesserte zweite Version ging im Mai 2017 online. Der vorliegende Beitrag möchte einige Hintergründe zum deutschen Lehnwortschatz im modernen Hebräischen darstellen sowie die Entstehungsgeschichte des Werks und seinen Platz in der lehnwortlexikografischen Publikationsplattform „Lehnwortportal Deutsch“ <http://lwp.ids-mannheim.de/> (Stand: 6.11.2017) beleuchten.
Welche Sprachen sehen wir auf Schildern, Plakaten, Graffiti in der Öffentlichkeit? Wovon hängt es ab, an welchen Orten und in welchen Funktionen bestimmte sprachliche Varietäten zu finden sind? Wie spiegeln sich Mehrsprachigkeit in der Gesellschaft, Prestige von Sprachen und Machtverhältnisse von Sprechergruppen in den Texten im öffentlichen Raum?
Dieser Band widmet sich derartigen Fragen, die in der Sprachwissenschaft heute unter dem Schlagwort der Linguistic Landscapes untersucht werden, aus einer Perspektive der deutschen Sprache außerhalb des deutschsprachigen Kerngebietes. Welches – z. T. unerwartete – Auftreten des Deutschen lässt sich in Ländern wie Malta, Estland, Dänemark oder Tschechien beobachten? Was für Geschichten stehen dahinter und wie spiegeln sich in deutschen Texten und Symbolen historische Ereignisse und heutige Verbindungen zu den deutschsprachigen Ländern?
Gleichzeitig berichten die Beiträge des Bandes über Erfahrungen, die Präsenz der deutschen Sprache in der Öffentlichkeit zu Unterrichtszwecken und zum Sprachmarketing einzusetzen. Ob in Schule, Universität oder in der Werbung für Deutsch in der allgemeinen Öffentlichkeit – dieser in Anlehnung an ein Projekt auf Malta Spot German genannte Ansatz veranschaulicht nicht nur die Vielfalt der Rollen des Deutschen, er zeigt vor allem, dass Projekte zur deutschen Sprache Spaß machen und auf einfache Weise zur Nachahmung einladen können.
Körperliche wie seelische Gesundheit ist ein hohes individuelles und gesellschaftliches Gut und Grundrecht. Häufig wird die Gesundheit durch ihr Gegenteil, d. h. in der Verständigung über Krankheit, thematisiert. Der gesellschaftliche Austausch über Krankheiten, Gesundheitsrisiken und Behandlungsmethoden ist untrennbar mit Sprache verknüpft (Busch/Spranz-Fogasy 2015); die Sprache ist „[…] das zentrale Medium, um medizinisches Wissen herzustellen, zu systematisieren, zu tradieren und auszutauschen.“ (Busch/Spranz-Fogasy 2015: 336). Ausgehend von dieser Prämisse wurde das Netzwerk „Linguistik und Medizin“ gegründet, um die Forschungstätigkeiten der verschiedenen linguistischen Disziplinen, die an den Verbindungslinien von „Sprache – Wissen – Medizin“ arbeiten, zu bündeln: Forschungsdesiderate sollen kooperierend bearbeitet und die interdisziplinäre Anschlussfähigkeit zwischen linguistischen und medizinischen, psychiatrischen sowie salutogenetischen Forschungsbereichen auf- und ausgebaut werden.
Localism
(2017)
Localist hypothesis
(2017)
Making 1:n explorable: a search interface for the ZAS database of clause-embedding predicates
(2017)
We introduce a recently published corpus-based database of German clause-embedding predicates and present an innovative web application for exploring it. The application displays the predicates and the corpus examples for these predicates in two separate tables that can be browsed and searched in real time. While familiar web interface paradigms make it easy for users to get started, the data presentation and the interactive advanced search components for the two tables are designed to accommodate remarkably complex query needs without the need for resorting to a dedicated query language or a more specialized tool. The 1:n relationship between predicates and their examples is exploited in the two tables in that, e.g. the predicate table also shows, for each predicate and each example attribute, all values that occur in the examples for this predicate. An easy-to-use visual query builder for arbitrary Boolean combinations of search criteria can optionally be displayed to pre-filter the underlying data presented in both tables. Several options for altering quantifier scope can be activated with simple checkboxes and considerably widen the space of searchable constellations.
Forms of committed relationships, including formal marriage arrangements between men and women, exist in almost every culture (Bell, 1997). Yet, similarly to many other psychological constructs (Henrich et al., 2010), marital satisfaction and its correlates have been investigated almost exclusively in Western countries (e.g., Bradbury et al., 2000). Meanwhile, marital relationships are heavily guided by culturally determined norms, customs, and expectations (for review see Berscheid, 1995; Fiske et al., 1998). While we acknowledge the differences existing both between- and within-cultures, we measured marital satisfaction and several factors that might potentially correlate with it based on self-report data from individuals across 33 countries. The purpose of this paper is to introduce the raw data available for anybody interested in further examining any relations between them and other country-level scores obtained elsewhere. Below, we review the central variables that are likely to be related to marital satisfaction.
Die folgenden Ausführungen zur Maskierung basieren auf den Erfahrungen bei der Aufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD). Sie sollen anderen Forschern und Forschungsprojekten als praktische Hilfestellung für die Maskierung von Aufnahmen dienen, können aber selbstverständlich nicht die gesamte Bandbreite von Einzelfallentscheidungen und Pflichten der Forschenden abdecken.
Es werden sowohl allgemeine Hinweise zur Maskierung von Audio- und Videoaufnahmen gegeben als auch praktische Tipps zur Umsetzung der Maskierung mit dem Transkriptionseditor FOLKER.
Die in den Ausführungen geschilderten arbeitsteiligen Prozesse in größeren Projekten können in kleineren Projekten einzelner Forscher selbstverständlich auch von einer einzelnen Person ausgeführt werden.