Refine
Year of publication
- 2015 (141) (remove)
Document Type
- Article (49)
- Part of a Book (49)
- Conference Proceeding (29)
- Book (9)
- Other (2)
- Working Paper (2)
- Master's Thesis (1)
Keywords
- Deutsch (56)
- Korpus <Linguistik> (25)
- Annotation (12)
- Verb (12)
- Computerunterstützte Lexikographie (9)
- Corpus linguistics (7)
- Englisch (7)
- Wörterbuch (7)
- Corpus annotation (6)
- Corpus technology (6)
Publicationstate
- Veröffentlichungsversion (141) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (35)
- de Gruyter (16)
- De Gruyter (4)
- Lang (4)
- Springer (3)
- Association for Computational Linguistics (2)
- German Society for Computational Linguistics & Language Technology (GSCL) (2)
- Gesellschaft für Sprachtechnologie and Computerlinguistik (2)
- International Phonetic Association (2)
- International Speech Communication Association (2)
Moderne Grammatiktheorien sind statisch, d.h. skriptizistisch und synchronizistisch. Dies bedeutet, dass deren Beschreibungsapparat auf die Strukturen gegenwärtiger Schrift- und Standardsprachen zugeschnitten ist. Im Beitrag wird für einen dynamischen, d.h. nichtskriptizistischen und nichtsynchronizistischen, Perspektivenwechsel in der Grammatikforschung plädiert, der auf folgenden empirisch fundierten Überlegungen basiert:
1. Literalisierung ist eine kulturelle Universalie, die kognitiv verankert ist.
2. Es sind unterschiedliche Phasen der Literalisierung zu unterscheiden.
3. Literalisierung im Allgemeinen und die Phasen der Literalisierung im Besonderen haben Konsequenzen für die grammatische Struktur.
4. Die Interpretation von grammatischen Strukturen ist nur vor der Folie der jeweiligen Phase der Literalisierung möglich.
5. Ein dynamisches Grammatikmodell muss das historische Verhältnis auch begrifflich abbilden. Dies wird an zentralen grammatischen Konzepten wie Aggregation vs. Integration, Wortgruppe vs. Phase und an der Wortstellung (Verbklammer, Stellungsfeldermodell, Satzrandglieder) veranschaulicht.
6. Historisch ist von einem dynamischen Verhältnis von Online- und Offlinesyntax, von syntaktischer Zeitlichkeit und syntaktischer Räumlichkeit, auszugehen. Was zu einer bestimmten Zeit und in einer bestimmten Varietät als Onlinestruktur zu interpretieren ist, hängt von dem jeweiligen historischen Verhältnis von Online- und Offlinestrukturen ab.
This study examines the pitch profiles of French learners of German and German learners of French, both in their native language (L1), and in their respective foreign language (L2). Results of the analysis of 84 speakers suggest that for short read sentences, French and German speakers do not show pitch range differences in their native production. Furthermore, analyses of mean f0 and pitch range indicate that range is not necessarily reduced in L2 productions. These results are different from results reported in prior research. Possible reasons for these differences are discussed.
Voll Energie stecken und voller Geigen hängen - seltsame Phrasentypen und ungewöhnliche Valenzmuster
(2015)
Speakers’ linguistic experience is for the most part experience with language as used in conversational interaction. Though highly relevant for usage-based linguistics, the study of such data is as yet often left to other frameworks such as conversation analysis and interactional linguistics (Couper-Kuhlen and Selting 2001). On the basis of a case study of salient usage patterns of the two German motion verbs kommen and gehen in spontaneous conversation, the present paper argues for a methodological integration of quantitative corpus-linguistic methods with qualitative conversation analytic approaches to further the usage-based study of conversational interaction.
Die öffentliche Akzeptanz und Wirkung natur- und technikwissenschaftlicher Forschung hängt grundlegend davon ab, ob sich die Ziele und Forschungsergebnisse an die Öffentlichkeit vermitteln lassen. Doch die Inhalte aktueller Forschungsvorhaben sind für ein Laienpublikum oft nur schwer zugänglich und verständlich. Vor dem Hintergrund, die gesellschaftliche Diskussion natur- und technikwissenschaftlicher Forschung zu verbessern, untersuchen und bewerten wir im Projekt PopSci – Understanding Science einen wichtigen Sektor des populärwissenschaftlichen Diskurses in Deutschland empirisch. Hierfür identifizieren wir die linguistischen Merkmale deutscher populärwissenschaftlicher Texte durch korpusbasierte Methoden und untersuchen deren Effekt auf die kognitive Verarbeitung der Texte durch Laien. Dazu setzen wir Vor- und Nachwissenstests ein. Außerdem messen wir die Blickbewegungen der Leserinnen und Leser, während sie populärwissenschaftliche Texte lesen. Aus dieser Kombination von unterschiedlichen Methoden versuchen wir, erste Empfehlungen zur Verbesserung des linguistischen Stils und der Wissensrepräsentation populärwissenschaftlicher Texte abzuleiten.
In dem Beitrag werden Argumentstrukturmuster mit inneren Objekten genauer untersucht. Als innere Objekte werden Akkusativobjekte bezeichnet, die gelegentlich von normalerweise intransitiven Verben zu sich genommen werden und deren Objekts-Nomen mit dem Verb etymologisch, morphologisch und/oder semantisch verwandt ist. Das heißt, es handelt sich um Sätze wie Maria lachte ihr fröhliches Lachen, Alles geht seinen geordneten Gang oder Er kämpft einen aussichtslosen Kampf. Wie man an diesen wenigen Beispielsätzen bereits sehen kann, wird mit dem inneren Objekt etwas explizit zum Ausdruck gebracht, was bereits in der Verbbedeutung implizit enthalten bzw. angelegt ist, denn lachen bedeutet ja ‘Freude zum Ausdruck bringen, indem man ein Lachen von sich gibt’ und kämpfen heißt ‘einen Kampf führen, Kampfhandlungen vollziehen, sich mit jmdm. oder etw. auseinandersetzen’.
Opinion Holder and Target Extraction for Verb-based Opinion Predicates – The Problem is Not Solved
(2015)
We offer a critical review of the current state of opinion role extraction involving opinion verbs. We argue that neither the currently available lexical resources nor the manually annotated text corpora are sufficient to appropriately study this task. We introduce a new corpus focusing on opinion roles of opinion verbs from the Subjectivity Lexicon and show potential benefits of this corpus. We also demonstrate that state-of-the-art classifiers perform rather poorly on this new dataset compared to the standard dataset for the task showing that there still remains significant research to be done.
We present an approach for opinion role induction for verbal predicates. Our model rests on the assumption that opinion verbs can be divided into three different types where each type is associated with a characteristic mapping between semantic roles and opinion holders and targets. In several experiments, we demonstrate the relevance of those three categories for the task. We show that verbs can easily be categorized with semi-supervised graphbased clustering and some appropriate similarity metric. The seeds are obtained through linguistic diagnostics. We evaluate our approach against a new manually-compiled opinion role lexicon and perform in-context classification.
Formal learning in higher education creates its own challenges for didactics, teaching, technology, and organization. The growing need for well-educated employees requires new ideas and tools in education. Within the ROLE project, three personal learning environments based on ROLE technology were used to accompany “traditional” teaching and learning activities at universities. The test beds at the RWTH Aachen University in Germany, the School of Continuing Education of Shanghai Jiao Tong University in China, and the Uppsala University in Sweden differ in learning culture, the number of students and their individual background, synchronous versus distant learning, etc. The big range of test beds underlines the flexibility of ROLE technology. For each test bed, the learning scenario is presented and analyzed as well as the particular ROLE learning environment. The evaluation methods are described and the research results discussed in detail. The learned lessons provide an easy way to benefit from the ROLE research work which demonstrates the potential for new ideas based on flexible e-learning concepts and tools in “traditional” education.
This article reports on the on-going CoRoLa project, aiming at creating a reference corpus of contemporary Romanian (from 1945 onwards), opened for online free exploitation by researchers in linguistics and language processing, teachers of Romanian, students. We invest serious efforts in persuading large publishing houses and other owners of IPR on relevant language data to join us and contribute the project with selections of their text and speech repositories. The CoRoLa project is coordinated by two Computer Science institutes of the Romanian Academy, but enjoys cooperation of and consulting from professional linguists from other institutes of the Romanian Academy. We foresee a written component of the corpus of more than 500 million word forms, and a speech component of about 300 hours of recordings. The entire collection of texts (covering all functional styles of the language) will be pre-processed and annotated at several levels, and also documented with standardized metadata. The pre-processing includes cleaning the data and harmonising the diacritics, sentence splitting and tokenization. Annotation will include morpho-lexical tagging and lemmatization in the first stage, followed by syntactic, semantic and discourse annotation in a later stage.
To optimize the sharing and reuse of existing data, many funding organizations now require researchers to specify a management plan for research data. In such a plan, researchers are supposed to describe the entire life cycle of the research data they are going to produce, from data creation to formatting, interpretation, documentation, short-term storage, long-term archiving and data re-use. To support researchers with this task, we built DMPTY, a wizard that guides researchers through the essential aspects of managing data, elicits information from them, and finally, generates a document that can be further edited and linked to the original research proposal.
Wir können auch Hochdeutsch – Das Institut für Deutsche Sprache in Mannheim – ein Ort der Ideen
(2015)
In a project called "A Library of a Billion Words" we needed an implementation of the CTS protocol that is capable of handling a text collection containing at least 1 billion words. Because the existing solutions did not work for this scale or were still in development I started an implementation of the CTS protocol using methods that MySQL provides. Last year we published a paper that introduced a prototype with the core functionalities without being compliant with the specifications of CTS (Tiepmar et al., 2013). The purpose of this paper is to describe and evaluate the MySQL based implementation now that it is fulfilling the specifications version 5.0 rc.1 and mark it as finished and ready to use. Further information, online instances of CTS for all described datasets and binaries can be accessed via the projects website.
Introduction
(2015)
In a previous article (Faaß et al., 2012), a first attempt was made at documenting and encoding morphemic units of two South African Bantu languages, i.e. Northern Sotho and Zulu, with the aim of describing and storing the morphemic units of these two languages in a single relational database, structured as a hierarchical ontology. As a follow-up, the current article describes the implementation of our part-of-speech ontology. We give a detailed description of the morphemes and categories contained in the database, highlighting the need and reasons for a flexible ontology which will provide for both language specific and general linguistic information. By giving a detailed account of the methodology for the population of the database, we provide linguists from other Bantu languages with a road map for extending the database to also include their languages of specialization.
In this paper, general problems with easily confused words among a language community are addressed. Serving as an example, the difficulties of semantic differentiation between the use of German sensibel and sensitiv are discussed. One the one hand, the question is raised as to how a speech community faces challenges of semantic shifts and how monolingual dictionaries document lexical items with similar semantic aspects. On the other hand, I will demonstrate the discrepancies of information on meaning as retrieved and interpreted from large corpus data. It will be shown how the semantics of words change and hence cause confusion among speakers. As a result, empirical evidence opens up several questions concerning the prescriptive vs. descriptive treatment of paronymic items such as sensibel/sensitiv and it demands different approaches to the lexicographic description of such words in future reference works.
We present a quantitative approach to disambiguating flat morphological analyses and producing more deeply structured analyses. Based on existing morphological segmentations, possible combinations of resulting word trees for the next level are filtered first by criteria of linguistic plausibility and then by weighting procedures based on the geometric mean. The frequencies for weighting are derived from three different sources (counts of morphs in a lexicon, counts of largest constituents in a lexicon, counts of token frequencies in a corpus) and can be used either to find the best analysis on the level of morphs or on the next higher constituent level. The evaluation shows that for this task corpus-based frequency counts are slightly superior to counts of lexical data.
In this paper, I present the COW14 tool chain, which comprises a web corpus creation tool called texrex, wrappers for existing linguistic annotation tools as well as an online query software called Colibri2. By detailed descriptions of the implementation and systematic evaluations of the performance of the software on different types of systems, I show that the COW14 architecture is capable of handling the creation of corpora of up to at least 100 billion tokens. I also introduce our running demo system which currently serves corpora of up to roughly 20 billion tokens in Dutch, English, French, German, Spanish, and Swedish
Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a comprehensive German news corpus for integration in DeReKo, the German Reference Corpus hosted at the Institut für Deutsche Sprache in Mannheim.
Die Stichwortliste bildet eine tragende Säule von gedruckten als auch von Online-Wörterbüchern. Daher ist die Konzeption und Erarbeitung einer Stichwortliste auch eine zentrale Aufgabe in der Anfangsphase des am IDS in Angriff genommenen Paronymwörterbuchs. Welche Überlegungen dabei angestellt, welche Ideen entwickelt und welche Pläne bzw. Entscheidungen schließlich umgesetzt wurden, wird in dem Beitrag aufgezeigt.
In diesem Aufsatz werden Positionierungsverfahren analysiert, welche die Macher einer Talkshow einsetzen, um ihre Gäste den Fernsehzuschauern als relevante Gesprächspartner für das Thema „Steuerhinterziehung durch Prominente” zu präsentieren. Es wird untersucht, wie es den Machern der Talkshow gelingt, die Gäste bereits bei der Erstvorstellung durch das Zusammenspiel einer Stimme aus dem Off und der Kameraführung als „prototypische Vertreter” zu präsentieren und zueinander zu positionieren. Von den insgesamt fünf Teilnehmern der Talkshow werden zwei dieser Erstvorstellungen detailliert analysiert. Es handelt sich um die Präsentation zweier Gäste, die in einer deutlich antagonistischen Beziehung zueinander stehen. Diese Gäste werden unmittelbar hintereinander vorgestellt. Auf der Grundlage aller fünf Gastpräsentationen, die wir detailliert rekonstruiert haben, jedoch aus Platzgründen hier leider nicht ebenfalls präsentieren können, wird ein strukturiertes Positionierungsgeflecht deutlich. Dieses Geflecht weist im Zentrum die von uns rekonstruierte thematische und personelle „Gegnerschaft“ auf. In der Peripherie sind dann insgesamt vier Vertreter relevanter gesellschaftlicher Positionen zum Thema der Talkshow beigeordnet. Dabei handelt es sich um Vertreter der Rechtsprechung, der Politik, der Alltagsmoral und der Psychologie und Theologie. Die Analysen werden in theoretischer Hinsicht auf der Grundlage multimodaler Vorstellungen zur Positionierung und zum Recipient Design durchgeführt. In methodisch-methodologischer Perspektive orientiert sich die Analyse an der multimodalen Interaktionsanalyse.
Freiraum schaffen im Klassenzimmer: Fallbasierte methodologische Überlegungen zur Raumanalyse
(2015)
Ziel des vorliegenden Beitrags ist es, auszuloten, wie Sprechen und Handeln, das wir aus dem Alltag kennen, einzuschätzen ist, wenn es im Fernsehen und vor allem im so genannten Reality-TV erscheint. Einen guten Einstieg, diese Problemstellung zu illustrieren, bieten Pannen, wie man sie etwa aus Nachrichtensendungen wie der Tagesschau kennt.
In recent years, theoretical and computational linguistics has paid much attention to linguistic items that form scales. In NLP, much research has focused on ordering adjectives by intensity (tiny < small). Here, we address the task of automatically ordering English adverbs by their intensifying or diminishing effect on adjectives (e.g. extremely small < very small). We experiment with 4 different methods: 1) using the association strength between adverbs and adjectives; 2) exploiting scalar patterns (such as not only X but Y); 3) using the metadata of product reviews; 4) clustering. The method that performs best is based on the use of metadata and ranks adverbs by their scaling factor relative to unmodified adjectives.
In this contribution, we report on an effort to annotate German data with information relevant to opinion inference. Such information has previously been referred to as effect or couched in terms of eventevaluation functors. We extend the theory and present an extensive scheme that combines both approaches and thus extends the set of inference-relevant predicates. Using these guidelines to annotate 726 German synsets, we achieve good inter-annotator agreement.
Preface
(2015)
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of linguistic theories that take social interaction, involving language, into account. This paper introduces the corpora and datasets of a project scrutinizing this kind of feedback utterances in French. We present the genesis of the corpora (for a total of about 16 hours of transcribed and phone force-aligned speech) involved in the project. We introduce the resulting datasets and discuss how they are being used in on-going work with focus on the form-function relationship of conversational feedback. All the corpora created and the datasets produced in the framework of this project will be made available for research purposes.
Die Beiträge dieses Hefts knüpfen inhaltlich an die Artikel des OPAL-Sonderhefts 4/2009 mit dem Titel Konstruktionelle Varianz bei Verben (http://pub.ids-mannheim.de/laufend/opal/opal09-4.html) an. Thema beider Hefte sind die Argumentstrukturen von Verben. Im vorliegenden Heft werden zwei der bereits im OPAL-Sonderheft diskutierten Argumentstrukturmuster, Argumentstrukturmuster mit innerem Objekt und SUCH-Argumentstrukturmuster, wieder aufgegriffen und unter dem Gesichtspunkt ihres Status als Mitglieder größerer Gruppen von Argumentstrukturmustern diskutiert. Die erstgenannte Gruppe von Argumentstrukturmustern umfasst – wie der Name auch sagt – Strukturen, die ein Objekt enthalten, das in der Grammatikschreibung als inneres oder kognates Objekt bezeichnet wird, wie etwa einen aussichtslosen Kampf kämpfen, eines natürlichen Todes sterben, einen Walzer tanzen u.Ä. Bei Letzteren handelt es sich um eine Gruppe von Argumentstrukturmustern wie etwa nach etwas suchen, etwas auf etwas durchsuchen, nach etwas fahnden, nach etwas sinnen, nach etwas schreien und jemanden um etwas bitten. Wie diese Auflistung bereits zeigt, handelt es sich bei SUCH-Argumentstrukturmustern nicht nur um Muster mit reiner SUCH-Bedeutung. Insofern ist der Name arbiträr. Er wurde in Anlehnung an den von Levin (1993, S. 70-71) eingeführten Begriff der SEARCH-Alternation gewählt, mit dem die Alternation der Muster NP1 V NP2 in NP3 (Ida hunted deer in the woods), NP1 V NP3 for NP2 (Ida hunted the woods for deer) und NP1 V for NP2 in NP3 (Ida hunted for deer in the woods) im Englischen gemeint war. Sowohl die Beiträge des OPAL-Sonderhefts 4/2009 als auch die Beiträge des vorliegenden Hefts sind aus dem Projekt Verben und Argumentstrukturen (www.ids-mannheim.de/lexik/polysemievarianz.html; ehemals Polysemie und konstruktionelle Varianz) hervorgegangen, das zur Zeit in der Abteilung Lexik des IDS bearbeitet wird.
Familienähnlichkeiten deutscher Argumentstrukturmuster. Definitionen und grundlegende Annahmen
(2015)
Valenz und Kookkurrenz
(2015)
Der vorliegende Aufsatz befasst sich mit der Verbreitung des Lexems Nerd in der deutschen Sprache. Untersucht wurde die DeReKo-Datenbank hinsichtlich der Frequenz des Wortes und der ko-textuellen Umgebungen. Diese Daten wurden verglichen mit einem Korpus aus möglichen Übersetzungen des Lexems, das sich aus US-amerikanischen Serien zusammensetzt (,Scrubs‘, ,The Big Bang Theory‘, ,Family Guy‘ und ,American Dad‘). Aus der Synopse der gewonnenen Erkenntnisse und der sprachhistorischen Analyse des Lexems kann abgeleitet werden, dass Synchronfassungen den zeitgenössischen Sprachgebrauch widerspiegeln und daher auch steter Quell für Sprachwandel sind. Bezogen auf das Lexem Nerd ist der Schluss zu ziehen, dass dieses den Status eines assimilierten Fremdwortes erreicht hat und lediglich die Adjektivierung noch nicht vollständig integriert ist. Eine Übersetzung mit deutschen Lexemen erscheint in diesem Zusammenhang nicht sinnvoll.
Rassmatrivajutsja novye frazeologizmy nemeckogo jazyka i aspekty ich leksikografičeskogo opisanija v „Nemecko-russkom slovare neologizmov“. Obščaja dolja novych frazeologizmov ot obščego količestva neologizmov nemeckogo jazyka v period s 1991 po 2012 gody sostavljaet okolo šesti procentov. K kategorii frazeologizmov v slovare otnosjatsja ustojčivye sočetanija slov raznoj struktury i stepeni idiomatičnosti. Naibolee mnogočislenny frazeologizmy – imennye gruppy, za nimi sledujut glagol’nye gruppy i frazeologizmy-predloženija. Vyjavljajutsja i opisyvajutsja strukturnye i semantičeskie osobennosti frazeologizmov raznych frazovych kategorij. Osveščajutsja osobennosti podači frazeologizmov v slovnike i tipy leksikografičeskoj informacii v strukture slovarnoj stat’i, učityvajuščie specifiku frazeologičeskich neologizmov kak edinic leksikografičeskogo opisanija.
"Hey, was geht?". Beobachtungen zum Wandel und zur Differenzierung von Begrüßungsformen Jugendlicher
(2015)
We present studies using the 2013 log files from the German version of Wiktionary. We investigate several lexicographically relevant variables and their effect on look-up frequency: Corpus frequency of the headword seems to have a strong effect on the number of visits to a Wiktionary entry. We then consider the question of whether polysemic words are looked up more often than monosemic ones. Here, we also have to take into account that polysemic words are more frequent in most languages. Finally, we present a technique to investigate the time-course of look-up behaviour for specific entries. We exemplify the method by investigating influences of (temporary) social relevance of specific headwords.
In this contribution, we present a novel approach for the analysis of cross-reference structures in digital dictionaries on the basis of the complete dictionary database. Using paradigmatic items in the German Wiktionary as an example, we show how analyses based on graph theory can be fruitfully applied in this context, e. g. to gain an overview of paradigmatic references as a whole or to detect closely connected groups of headwords. Furthermore, we connect information about cross-reference structures with corpus frequencies and log file statistics. In this way, we can answer questions such as the following ones: Are frequent words paradigmatically linked more closely than others? Are closely linked headwords or headwords that stand more solitary in the dictionary visited significantly more often?
This article presents empirical findings about what criteria make for a good online dictionary, using data on expectations and demands collected in an online questionnaire (N~684), complemented by additional results from a second questionnaire (N-390) which looked more closely at whether respondents had differentiated views on individual aspects of the criteria rated in the first study. Our results show that the classical criteria of reference books (such as reliability and clarity) were rated highest by our participants, whereas the unique characteristics of online dictionaries (such as multimedia and adaptability) were rated and ranked as (partly) unimportant. To verify whether or not the poor ratings of these innovative features were a result of the fact that our subjects are unfamiliar with online dictionaries incorporating such features, we incorporated an experiment into the second study. Our results revealed a learning effect: participants in the learning-effect condition, i.e. respondents who were first presented with examples of possible innovative features of online dictionaries, judged adaptability and multimedia to be more useful than participants who were not given that information. Thus, our data point to the conclusion that developing innovative features is worthwhile but that it should be borne in mind that users can only be persuaded of their benefits gradually. In addition, we present data about questions relating to the design of online dictionaries.
Cet article se penche sur un épisode radiophonique durant lequel deux animateurs effectuent un coming out hétérosexuel à l’occasion de la journée internationale du coming out (11 octobre). Dans une perspective issue de l’analyse conversationnelle d’inspiration ethnométhodologique, il étudie une collection d’occurrences de coming out, permettant non seulement d’identifier un format séquentiel récurrent et la manière dont il contribue à l’efficacité de la pratique, mais aussi de réfléchir à la façon dont il peut être utilisé dans différents contextes sociaux, notamment médiatisés et médiatiques. En particulier, l’article montre comment la pratique est au service d’une émission radiophonique sur le coming out et prépare la transition vers le traitement de l’homosexualité à la radio. Grâce à un enregistrement vidéo du travail des animateurs dans le studio de radio, l’article décrit la façon dont le thème de la journée internationale du coming out est fabriqué et orchestré dans les coulisses de la radio et sur les ondes. Ce faisant, il montre la contribution d’une analyse conversationnelle à l’approche du coming out dans les études de genre – où la pratique est largement discutée mais sans être analysée sur la base d’occurrences documentées. L’article revient ainsi sur l’épistémologie du closet chère à Eve Sedgwick, en proposant une anatomie du coming out en contexte médiatisé, qui en éclaire les enjeux non seulement épistémiques mais aussi de normativisation, publicisation et spectacularisation.
This paper presents a dictionary writing system developed at the Institute for the German Language in Mannheim (IDS) for an ongoing international lexicographical project that traces the way of German loanwords in the East Slavic languages Russian, Belarusian and Ukrainian that were possibly borrowed via Polish. The results will be published in the Lehnwortportal Deutsch (LWP, lwp.ids-mannheim.de), a web portal for loanword dictionaries with German as the common donor language. The system described here is currently in use for excerpting data from a large range of historical and contemporary East Slavic monolingual dictionaries. The paper focuses on the tools that help in merging excerpts that are etymologically related to one and the same Polish etymon. The merging process involves eliminating redundancies and inconsistencies and, above all, mapping word senses of excerpted entries onto a common cross-language set of ‘metasenses’. This mapping may involve literally hundreds of excerpted East Slavic word senses, including quotations, for one ‘underlying’ Polish etymon.
Some 25 years ago, a large-scale repatriation of Russian Germans began. As a result, more than 2,5 million people that grew up in the USSR, Russia, or other post-Soviet states, became German citizens who had native or near-native command of the Russian language. The uncomfortable differences they exhibited in comparison to those who were supposed to accept them as equals, yet failed to do so, compelled them to search for self-designations that would accommodate their new identity and to bond together to form a new minority. The authors examine the attempts of Soviet/Russian Germans to redefine their ethnic identity in terms of not just blood but also language and culture, focusing on two particular cases: the use of the name Rusak in the internet forums of the repatriated immigrants; and the linguistic-cultural practices of the older generation of immigrants.
El análisis de las obras lexicográficas existentes en espanol y en alemán para L2 confirma la necesidad de desarrollar un diccionario pedagógico con una nueva concepción, desde la cual el usuario pueda obtener una mayor información adaptada a sus necesidades. De especial relevancia es el tratamiento de la información específica con el que se puedan mejorar los procesos de producción de textos en L2 mediante un procedimiento que, teniendo en cuenta la diversidad de uso, permita seleccionar un lexema particular de la variedad de posibles lexicalizaciones. En esta contribución se presentan los aspectos teóricos y metodológicos que sustentan el proyecto DICONALE-online. Los cuatro pilares del proyecto en torno al tipo de usuarios, al enfoque conceptual y onomasiológico, a la base empírica de los datos y al modelo de descripción enlazado con un punto de vista contrastivo configuran nuevos retos para el desarrollo de la lexicografía pedagógica que se expondrán en este trabajo a partir de algunos ejemplos.
Einleitung
(2015)
This paper presents some theoretical and methodological foundations of the research project DICONALE, which concerns the development of an online dictionary of verbal lexemes with a special conceptual-onomasiological access and a paradigmatic structure in response to studies which have shown that conventional dictionaries (both monolingual and bilingual), do not satisfy the specific needs of users involved in the production of texts in foreign language.
Der Beitrag beschäftigt sich mit der lexikografischen Information von fünf DaF-Lernerwörterbüchern und fokussiert in besonderem Maße das verbale Kombinationspotenzial. Die vorgelegte Analyse legt dabei besonderen Wert auf die grammatische Syntagmatik bei Verben, zu deren Beschreibung acht Analyseparameter dienen. Die Resultate werden ausführlich kommentiert und in einer Tabelle schematisch zusammengefasst. Im Ergebnis werden Informationslücken in verschiedenen Bereichen aufgedeckt und daraus neue Herausforderungen für die einsprachige DaF-Lernerlexikografie abgeleitet.
Zur Gestaltung künftiger Lernerwörterbücher im DaF-Bereich ist es notwendig, die Bedürfnisse und Recherchegewohnheiten der potenziellen Benutzerinnen und Benutzer zu kennen. Seit dem virtuellen Medienwechsel erfährt die Wörterbuchbenutzungsforschung wichtige neue Impulse. Speziell im DaF Bereich liegen aber bis jetzt nur vereinzelt aktuelle empirische Daten über die unterschiedlichen Benutzergewohnheiten der Lernerinnen und Lerner vor, die für zukünftige lexikographische Konsultationssysteme ausgewertet und berücksichtigt werden könnten. Aus diesem Grunde wurde im Rahmen des Forschungsprojekts DICONALE, welches die Erstellung eines konzeptuellonomasiologisch orientierten zweisprachig bilateralen online-Produktionslernerwörterbuches für Verben und deverbale Wortarten des Deutschen und Spanischen anvisiert, eine Umfrage konzipiert, die von Lernenden des Deutschen als Fremdsprache in Spanien, Portugal und Deutschland beantwortet wurde. Im Mittelpunkt dieser Umfrage steht sowohl das Ziel, die Benutzergewohnheiten der DaF-Lernenden unterschiedlicher Sprachstufen im universitären und außeruniversitären Bereich kennenzulernen, als auch die Gründe für mögliche fehlgeschlagene Recherchen zu erforschen und Hinweise auf die Wünsche und Bedürfnisse der Lernenden entsprechend zu interpretieren. Ziel des Beitrages ist es daher, einerseits die wichtigsten Ergebnisse der Umfrage vorzustellen und andererseits sowohl allgemeine Rückschlüsse auf die Konzipierung zukünftiger Lernerwörterbücher für den DaF-Bereich zu ziehen als auch konkrete Anforderungen an DICONALE herauszuarbeiten.
Cybermobbing ist der gezielte Versuch, online das Face einer anderen Person zu dekonstruieren. Etwa ein Drittel aller Jugendlichen ist schon mindestens einmal mit diesem Problem konfrontiert worden. Seinen temporären Höhepunkt erreichte es mit dem Erscheinen der Internetseite Isharegossip.com (ISG). Diese entwickelte sich sehr schnell zu einer regelrechten Mobbing-Plattform. Täter fanden hier ganz besonders drastische verbale Mittel, um ihre Opfer zu kompromittieren. Bislang wurde noch nicht qualitativ analysiert, inwieweit Opfer und sogenannte virtuelle Zaungäste auf diese Verbalattacken reagieren. Ziel des Aufsatzes ist es, anhand eines typischen Diskurses sechs Verteidigungsstrategien aufzuzeigen, die von Opfern aber auch von sogenannten virtuellen Zaungästen angewandt werden, um das Face des Opfers zu rekonstruieren und zu stabilisieren.
Preface
(2015)
Russia, its languages and its ethnic groups are for many readers of English surprisingly unknown territory. Even among academics and researchers familiar with many ethnolinguistic situations around the globe, there prevails rather unsystematic and fragmented knowledge about Russia. This relates to both the micro level such as the individual situations of specific ethnic or linguistic groups, and to the macro level with regard to the entire interplay of linguistic practices, ideologies, laws, and other policies in Russia. In total, this lack of information about Russia stands in sharp contrast to the abundance of literature on ethnolinguistic situations, minority languages, language revitalization, and ideologies toward languages and multilingualism which has been published throughout the past decades.
Zu den Gemeinplätzen wissenschaftlichen wie populären Nachdenkens über den Menschen gehört, dass es die Sprache ist, die ihn gegenüber allen anderen Lebewesen auszeichnet. Die naheliegende Folgerung, dass Sprachwissenschaft deshalb immer auch eine anthropologische Wissenschaft ist, wird dennoch eher selten gezogen. Dies obwohl es praktisch nicht möglich ist, sprachtheoretische Überlegungen zum ‚Wesen‘ der Sprache oder zu zentralen Fragestellungen der Linguistik anzustellen, ohne zumindest implizit auch ein Bild des Menschen selbst zu entwerfen. Der folgende Beitrag geht von Humboldt über Benveniste bis zur neueren conversation analysis denjenigen sprachtheoretischen Traditionslinien nach, welche den sprachlichen Menschen als einen basal auf ein Gegenüber bezogenen Menschen entwerfen – eine Konstellation, die zudem die Figur des ‚Dritten‘ erzeugt – und welche Sprachlichkeit als prägendes Formativ menschlicher Sozialität verstehen. Sprache wird entsprechend nicht nur als Medium referenzieller ‚Aboutness‘, sondern ebenso performativer ‚Withness‘ betrachtet. Im Horizont der Überlegungen steht dann allerdings auch die Frage, in welcher Weise die an gesprochener Sprache ausgerichtete, interaktionsorientierte Neukonturierung der Sprachwissenschaft in der zweiten Hälfte des 20. Jahrhunderts einen neuen Blick auf Schriftsprachlichkeit und ihre Leistungen in der Selbstformierung des Menschen ermöglicht.
In Deutschland leben 7,5 Millionen erwachsene Analphabeten. Daher ist der Bedarf an Materialien zum Erlernen der Schrift gestiegen. Der vorliegende Band ist begleitend für den Rechtschreibunterricht von (vor allem) Erwachsenen gedacht, die Deutsch auf einem (nahezu) muttersprachlichen Niveau beherrschen. Die systemische Beschreibung des Rechtschreibwortschatzes, insbesondere durch seine orthographische Annotation und die Kennzeichnung von Lernstellen, stützt sich größten teils auf die Darstellung der deutschen Orthographie im Rahmencurriculum Schreiben (kurz RCS) des Deutschen Volkshochschulverbandes. Außerdem lehnt sich der vorliegende Wortschatz an Themen an, die sich aus dem alltäglichen Leben ableiten. Lehrende finden in diesem Band gezielt reichlich Material zum Üben im Unterrichtskontext und können bei Bedarf auch neues Übungsmaterial erstellen; sie sollen aber auch zusätzlich vermitteln, dass sie selbst als Experten von Fall zu Fall in Wörterlisten nachschlagen müssen. Für den Lerner soll der Rechtschreibwortschatz dazu beitragen, die Eigeninitiative zu fördern und zu selbständigem praktischen Üben ermutigen.
The Czech National Corpus (CNC) is a longterm project striving for extensive and continuous mapping of the Czech language. This effort results mostly in compilation, maintenance and providing free public access to a range of various corpora with the aim to offer a diverse, representative, and high-quality data for empirical research mainly in linguistics. Since 2012, the CNC is officially recognized as a research infrastructure funded by the Czech Ministry of Education, Youth and Sports which has caused a recent shift towards user service-oriented operation of the project. All project-related resources are now integrated into the CNC research portal at http://www.korpus.cz/. Currently, the CNC has an established and growing user community of more than 4,500 active users in the Czech Republic and abroad who put almost 1,900 queries per day using one of the user interfaces. The paper discusses the main CNC objectives for each particular domain, aiming at an overview of the current situation supplemented by an outline of future plans.
Rückblick in Dankbarkeit
(2015)
Der Beitrag zum 50-jährigen Bestehen des IDS gibt einen Überblick über die Entstehung und Entwicklung der Satzsemantik, der am Wahrheitswert von Aussagen orientierten Lehre von zusammengesetzten sprachlichen Ausdrücken. Er tut dies am Beispiel der Negation, insbesondere an der syntaktischen Realisierung der Negation mit dem Negationsartikel ‚kein‘, an Negativen Polaritätselementen wie ‚jemals‘, an der doppelten Negation wie in ‚nicht unglücklich‘ und an der pleonastischen Negation nach ‚bevor‘. Auch die Negation in Fragen und Antwortpartikeln wie ‚nein‘ kommen zur Sprache.
Some structures in printed dictionaries also occur in online dictionaries, some do not occur, some need to be adapted whereas new structures may be introduced in online dictionaries. This paper looks at one type of structure, known in printed dictionaries as outer texts. It is argued that the notions of a frame structure and front and back matter texts do not apply to online dictionaries. The data distribution in online dictionaries does not only target the dictionary articles. There are components outside the word list section of the dictionary. These components are not always texts. They could e.g. also be video clips. Consequently the notion of outer texts in printed dictionaries is substituted by the notion of outer features in online dictionaries. This paper shows how outer features help to constitute a feature compound. The outer features in eight online dictionaries are discussed. Where the users guidelines text is a compulsory outer text in printed dictionaries it seems that an equivalent feature is often eschewed in online dictionaries. A distinction is made between dictionary-internal and dictionary-external outer features, illustrating that outer features can be situated in other sources than the specific dictionary. More research is needed to formulate models for online features that can play a comprehensive role in online dictionaries.
Den Wortschatz einer Sprache auf hohem Niveau zu dokumentieren und in all seinen Eigenschaften zu beschreiben, ist gleichermaßen wichtig wie schwierig. Verschiedene Gründe haben dazu geführt, dass die Tradition der großen Wörterbücher derzeit zusammenbricht. An ihre Stelle werden in der Zukunft flexibel handhabbare digitale lexikalische Systeme treten.
We investigated the effect of high-variability training (HVT) on the production and perception of French bilabial voiced and voiceless stops by German native speakers. Stop consonants in the two languages differ with respect to several articulatory and acoustic features. German learners of French (Experiment Group) trained the perception of word-initial bilabial stops spoken by six French native speakers using identification tests, whereas subjects of a Control Group did not perform a training. Additional perception and production tests of French words including bilabial, alveolar, and velar stops in all word positions were performed to capture the impact of HVT. Subjects were found to be quite good at distinguishing voiced and voiceless stops. However, voiceless stops received lower correctness scores than voiced ones and subjects of the Experiment group were able to further increase their scores after training. Results for production are mirror-inverted showing that subjects of the Experiment Group successfully produced longer negative VOT values but did not show an improvement for voiceless stops.
The effect of manipulation of a speaker’s voice as well as exposure to a native speaker’s utterance was investigated regarding the pronunciation of stops by German learners of French. Three subject groups, a Control (CG), a Manipulation (MG), and a Native Speaker (NG) Group, were recorded on two subsequent days. The MG was presented with a manipulation of their voice on the second day and the NG listened to a native French speaker, while the CG did not receive any feedback. Results show that speakers of the MG and NG were able to extract useful information from the respective feedback and successfully adapted to it. Participants were able to reduce their voice onset time values, although speakers of the NG reduced it to a greater extent.
Centering on German self-motion verbs, this paper demonstrates the advantages of free-sorting over creating and delineating word fields with more traditional methods. In particular, I draw a comparison to Snell-Hornby’s (1983) work on German descriptive verbs, which produces lexical fields with the help of dictionary entries, a thesaurus, a small corpus of written text and limited speaker feedback. While these methods have benefits, they are limited in their ability to represent the average organization of semantic fields in the mind of everyday speakers. Freesorting, by contrast, does not rely on academic resources, corpora or singular speaker judgments. In sorting, a group of informants creates visible sets of items according to perceived similarity. Psycholinguists have used the method to quantitatively explore the perception of color terms across cultures (c.f. Roberson et al. 2005). With a sufficiently large number of informants, one can generate lexical sorting data that is apt for cluster analysis, the results of which are represented by dendrograms. The experiment I conducted involved 33 school children from a middle class neighborhood in Braunschweig, Northern Germany. My experiment shows that Snell-Hornby’s (1983) representation of the self-motion field can be improved by integrating further dimensions of meaning, such as body-space relations and sound, that young speakers find salient in the grouping procedure.
In den letzten Jahrzehnten hat sich die Perspektive auf den Gegenstand der Sprachwissenschaft immer wieder verändert, vor allem gegen überkommene Reduktionismen erweitert. Hier soll auf Entwicklungen im Zusammenhang mit der Herausbildung einer „Medienlinguistik“ eingegangen werden, die (allgemeiner) die Medialität von Sprache behandelt, auch im Zusammenspiel mit anderen Zeichenarten, (spezieller) die Rolle von Sprache in (technischen) Medien. Von den sehr zahlreichen Varianten der Kombination von Modalitäten und Kodalitäten sollen hier zwei sehr unterschiedliche Schwerpunkte betrachtet werden: Visualität von Sprache, in und von Texten, und sekundäre Audiovisualität.
ln einer korpuspragmatischen Sicht auf Sprachgebrauch werden sogenannte Sprachgebrauchsmuster, die typisch für bestimmte Sprachausschnitte sind, datengeleitet berechnet. Solche Sprachgebrauchsmuster können z.B. diskursanalytisch gedeutet werden; noch relativ unerforscht ist aber ein konstruktionsgrammatischer Blick auf solche Muster. An zwei Beispielen wird gezeigt, wie mit der Berechnung von typischen n-Grammen (auf der Basis von Wortformen, sowie komplexer auf der Basis von Wortformen und Wortartkategorien) Sprachgebrauchsmuster berechnet werden können: Beim ersten Beispiel werden typische Formulierungsmuster in Leserbriefen, beim zweiten Beispiel aus einem politischen Diskurs (Wulff-Affäre), untersucht. Der Beitrag zielt in der Folge darauf ab, diese Muster dem usage-based-approach der KxG folgend als Konstruktionen zu deuten, die soziopragmatischen Verwendungsbedingungen gehorchen.
Wort und Wortschatz
(2015)
Das Verständnis darüber, was ein Wort ist, zeigt sich je nach linguistischer Teildisziplin, je nach Untersuchungsinstrument und je nach betrachtetem Medium (Schriftlichkeit, Mündlichkeit) als äußerst wandelbar und kontrovers. Zunächst wird eine Übersicht über die wichtigsten Wortbegriffe in Geschichte und Gegenwart gegeben, um zu zeigen, wie sehr sich ein formaler, am Schriftbild orientierter Wortbegriff von semantisch-kognitiven Wortbegriffen unterscheidet. Anschließend wird dargelegt, wie sich welche sprachwissenschaftlichen Methoden auf die Konstituierung des Phänomens "Wort" auswirken und dass die isolierende Sicht auf das Einzelwort durch die Betrachtung von Relationen zwischen Wörtern abgelöst wurde. Dabei kommt den neueren, computerlinguistisch fundierten Verfahren besondere Relevanz zu. Auf dieser Basis wird gezeigt, welche Aspekte und Ebenen der Wortforschung es aktuell gibt; dabei wird der Interaktion von theoretischen wie anwendungsbezogenen Forschungsperspektiven und dem gesellschaftlichen bzw. Laieninteresse an Wörtern besondere Beachtung geschenkt.
Interaktionslinguistik
(2015)
Interaktion wird im vorliegenden Beitrag als eine Realisierung von Kommunikation verstanden, deren Konstitutionskriterium nicht Sprachlichkeit, sondern Anwesenheit ist. Anwesenheit ist dabei keine äußerliche Bedingung von Interaktion, sondern wird – im Medium der Wahrnehmungswahrnehmung – erst durch diese hergestellt. Entscheidend für die Rolle der Sprache bei der Konstitution von Interaktion sind die Minima des Sprechens und Zuhörens, die unter den Stichworten Materialität, Sequenzialität und Medialität vorgestellt werden. Anhand dieser Minima lassen sich die Qualitäten der Sprache als Ressource für die Bearbeitung interaktionskonstitutiver Probleme (wie Turn-Taking, Themenorganisation oder Situierung) fassen. Dass es neben der Sprache für die Hervorbringung von Interaktion weiterer, bisher weniger gut untersuchter Ressourcen bedarf, wird am Ende des Beitrags am Beispiel des Beitrags von Architektur zur Lösung des Situierungsproblems erörtert.
The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word alignment across multiple languages. Additionally, linguistic annotation such as partof- speech tagging, lemmatisation, chunking, and dependency parsing facilitate precise querying of linguistic properties and can be used to extend word alignment to sub-sentential groups. Such highly interconnected data is stored in a relational database to allow for efficient retrieval and linguistic data mining, which may include the statistics-based selection of good example sentences. The varying information needs of contrastive linguists require a flexible linguistic query language for ad hoc searches. Such queries in the format of generalised treebank query languages will be automatically translated into SQL queries.