Refine
Year of publication
- 2015 (141) (remove)
Document Type
- Article (49)
- Part of a Book (49)
- Conference Proceeding (29)
- Book (9)
- Other (2)
- Working Paper (2)
- Master's Thesis (1)
Keywords
- Deutsch (56)
- Korpus <Linguistik> (25)
- Annotation (12)
- Verb (12)
- Computerunterstützte Lexikographie (9)
- Corpus linguistics (7)
- Englisch (7)
- Wörterbuch (7)
- Corpus annotation (6)
- Corpus technology (6)
Publicationstate
- Veröffentlichungsversion (141) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (35)
- de Gruyter (16)
- De Gruyter (4)
- Lang (4)
- Springer (3)
- Association for Computational Linguistics (2)
- German Society for Computational Linguistics & Language Technology (GSCL) (2)
- Gesellschaft für Sprachtechnologie and Computerlinguistik (2)
- International Phonetic Association (2)
- International Speech Communication Association (2)
Dieser Band fasst die Vorträge des 9. Hildesheimer Evaluierungs- und Retrieval-Workshops (HIER) zusammen, der am 9. und 10. Juli 2015 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüßen. HIER schafft auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge.
In a previous article (Faaß et al., 2012), a first attempt was made at documenting and encoding morphemic units of two South African Bantu languages, i.e. Northern Sotho and Zulu, with the aim of describing and storing the morphemic units of these two languages in a single relational database, structured as a hierarchical ontology. As a follow-up, the current article describes the implementation of our part-of-speech ontology. We give a detailed description of the morphemes and categories contained in the database, highlighting the need and reasons for a flexible ontology which will provide for both language specific and general linguistic information. By giving a detailed account of the methodology for the population of the database, we provide linguists from other Bantu languages with a road map for extending the database to also include their languages of specialization.
Preface
(2015)
Russia, its languages and its ethnic groups are for many readers of English surprisingly unknown territory. Even among academics and researchers familiar with many ethnolinguistic situations around the globe, there prevails rather unsystematic and fragmented knowledge about Russia. This relates to both the micro level such as the individual situations of specific ethnic or linguistic groups, and to the macro level with regard to the entire interplay of linguistic practices, ideologies, laws, and other policies in Russia. In total, this lack of information about Russia stands in sharp contrast to the abundance of literature on ethnolinguistic situations, minority languages, language revitalization, and ideologies toward languages and multilingualism which has been published throughout the past decades.
This is the first comprehensive volume to compare the sociolinguistic situations of minorities in Russia and in Western Europe. As such, it provides insight into language policies, the ethnolinguistic vitality and the struggle for reversal of language shift, language revitalization and empowerment of minorities in Russia and the European Union. The volume shows that, even though largely unknown to a broader English-reading audience, the linguistic composition of Russia is by no means less diverse than multilingualism in the EU. It is therefore a valuable introduction into the historical backgrounds and current linguistic, social and legal affairs with regard to Russia’s manifold ethnic and linguistic minorities, mirrored on the discussion of recent issues in a number of well-known Western European minority situations.
Cet article se penche sur un épisode radiophonique durant lequel deux animateurs effectuent un coming out hétérosexuel à l’occasion de la journée internationale du coming out (11 octobre). Dans une perspective issue de l’analyse conversationnelle d’inspiration ethnométhodologique, il étudie une collection d’occurrences de coming out, permettant non seulement d’identifier un format séquentiel récurrent et la manière dont il contribue à l’efficacité de la pratique, mais aussi de réfléchir à la façon dont il peut être utilisé dans différents contextes sociaux, notamment médiatisés et médiatiques. En particulier, l’article montre comment la pratique est au service d’une émission radiophonique sur le coming out et prépare la transition vers le traitement de l’homosexualité à la radio. Grâce à un enregistrement vidéo du travail des animateurs dans le studio de radio, l’article décrit la façon dont le thème de la journée internationale du coming out est fabriqué et orchestré dans les coulisses de la radio et sur les ondes. Ce faisant, il montre la contribution d’une analyse conversationnelle à l’approche du coming out dans les études de genre – où la pratique est largement discutée mais sans être analysée sur la base d’occurrences documentées. L’article revient ainsi sur l’épistémologie du closet chère à Eve Sedgwick, en proposant une anatomie du coming out en contexte médiatisé, qui en éclaire les enjeux non seulement épistémiques mais aussi de normativisation, publicisation et spectacularisation.
To optimize the sharing and reuse of existing data, many funding organizations now require researchers to specify a management plan for research data. In such a plan, researchers are supposed to describe the entire life cycle of the research data they are going to produce, from data creation to formatting, interpretation, documentation, short-term storage, long-term archiving and data re-use. To support researchers with this task, we built DMPTY, a wizard that guides researchers through the essential aspects of managing data, elicits information from them, and finally, generates a document that can be further edited and linked to the original research proposal.
Hierarchical predictive coding has been identified as a possible unifying principle of brain function, and recent work in cognitive neuroscience has examined how it may be affected by age–related changes. Using language comprehension as a test case, the present study aimed to dissociate age-related changes in prediction generation versus internal model adaptation following a prediction error. Event-related brain potentials (ERPs) were measured in a group of older adults (60–81 years; n = 40) as they read sentences of the form “The opposite of black is white/yellow/nice.” Replicating previous work in young adults, results showed a target-related P300 for the expected antonym (“white”; an effect assumed to reflect a prediction match), and a graded N400 effect for the two incongruous conditions (i.e. a larger N400 amplitude for the incongruous continuation not related to the expected antonym, “nice,” versus the incongruous associated condition, “yellow”). These effects were followed by a late positivity, again with a larger amplitude in the incongruous non-associated versus incongruous associated condition. Analyses using linear mixed-effects models showed that the target-related P300 effect and the N400 effect for the incongruous non-associated condition were both modulated by age, thus suggesting that age-related changes affect both prediction generation and model adaptation. However, effects of age were outweighed by the interindividual variability of ERP responses, as reflected in the high proportion of variance captured by the inclusion of by-condition random slopes for participants and items. We thus argue that – at both a neurophysiological and a functional level – the notion of general differences between language processing in young and older adults may only be of limited use, and that future research should seek to better understand the causes of interindividual variability in the ERP responses of older adults and its relation to cognitive performance.
Zu den Gemeinplätzen wissenschaftlichen wie populären Nachdenkens über den Menschen gehört, dass es die Sprache ist, die ihn gegenüber allen anderen Lebewesen auszeichnet. Die naheliegende Folgerung, dass Sprachwissenschaft deshalb immer auch eine anthropologische Wissenschaft ist, wird dennoch eher selten gezogen. Dies obwohl es praktisch nicht möglich ist, sprachtheoretische Überlegungen zum ‚Wesen‘ der Sprache oder zu zentralen Fragestellungen der Linguistik anzustellen, ohne zumindest implizit auch ein Bild des Menschen selbst zu entwerfen. Der folgende Beitrag geht von Humboldt über Benveniste bis zur neueren conversation analysis denjenigen sprachtheoretischen Traditionslinien nach, welche den sprachlichen Menschen als einen basal auf ein Gegenüber bezogenen Menschen entwerfen – eine Konstellation, die zudem die Figur des ‚Dritten‘ erzeugt – und welche Sprachlichkeit als prägendes Formativ menschlicher Sozialität verstehen. Sprache wird entsprechend nicht nur als Medium referenzieller ‚Aboutness‘, sondern ebenso performativer ‚Withness‘ betrachtet. Im Horizont der Überlegungen steht dann allerdings auch die Frage, in welcher Weise die an gesprochener Sprache ausgerichtete, interaktionsorientierte Neukonturierung der Sprachwissenschaft in der zweiten Hälfte des 20. Jahrhunderts einen neuen Blick auf Schriftsprachlichkeit und ihre Leistungen in der Selbstformierung des Menschen ermöglicht.
Den Wortschatz einer Sprache auf hohem Niveau zu dokumentieren und in all seinen Eigenschaften zu beschreiben, ist gleichermaßen wichtig wie schwierig. Verschiedene Gründe haben dazu geführt, dass die Tradition der großen Wörterbücher derzeit zusammenbricht. An ihre Stelle werden in der Zukunft flexibel handhabbare digitale lexikalische Systeme treten.
Der Beitrag zum 50-jährigen Bestehen des IDS gibt einen Überblick über die Entstehung und Entwicklung der Satzsemantik, der am Wahrheitswert von Aussagen orientierten Lehre von zusammengesetzten sprachlichen Ausdrücken. Er tut dies am Beispiel der Negation, insbesondere an der syntaktischen Realisierung der Negation mit dem Negationsartikel ‚kein‘, an Negativen Polaritätselementen wie ‚jemals‘, an der doppelten Negation wie in ‚nicht unglücklich‘ und an der pleonastischen Negation nach ‚bevor‘. Auch die Negation in Fragen und Antwortpartikeln wie ‚nein‘ kommen zur Sprache.
In den letzten Jahrzehnten hat sich die Perspektive auf den Gegenstand der Sprachwissenschaft immer wieder verändert, vor allem gegen überkommene Reduktionismen erweitert. Hier soll auf Entwicklungen im Zusammenhang mit der Herausbildung einer „Medienlinguistik“ eingegangen werden, die (allgemeiner) die Medialität von Sprache behandelt, auch im Zusammenspiel mit anderen Zeichenarten, (spezieller) die Rolle von Sprache in (technischen) Medien. Von den sehr zahlreichen Varianten der Kombination von Modalitäten und Kodalitäten sollen hier zwei sehr unterschiedliche Schwerpunkte betrachtet werden: Visualität von Sprache, in und von Texten, und sekundäre Audiovisualität.
Interaktionslinguistik
(2015)
Interaktion wird im vorliegenden Beitrag als eine Realisierung von Kommunikation verstanden, deren Konstitutionskriterium nicht Sprachlichkeit, sondern Anwesenheit ist. Anwesenheit ist dabei keine äußerliche Bedingung von Interaktion, sondern wird – im Medium der Wahrnehmungswahrnehmung – erst durch diese hergestellt. Entscheidend für die Rolle der Sprache bei der Konstitution von Interaktion sind die Minima des Sprechens und Zuhörens, die unter den Stichworten Materialität, Sequenzialität und Medialität vorgestellt werden. Anhand dieser Minima lassen sich die Qualitäten der Sprache als Ressource für die Bearbeitung interaktionskonstitutiver Probleme (wie Turn-Taking, Themenorganisation oder Situierung) fassen. Dass es neben der Sprache für die Hervorbringung von Interaktion weiterer, bisher weniger gut untersuchter Ressourcen bedarf, wird am Ende des Beitrags am Beispiel des Beitrags von Architektur zur Lösung des Situierungsproblems erörtert.
Sprache ist nie homogen, sie weist Varianz auf. Es gibt viele Gründe für diese Vielfalt, und die meisten sind schon sehr gut beschrieben worden (und sollen daher im vorliegenden Beitrag nicht im Vordergrund stehen). Gegenspieler der Varianz sind die mehr oder weniger expliziten Normen - sie sollen dafür sorgen, dass die Varianz ein gewisses Maß nicht überschreitet. Wobei sich natürlich sofort die Frage stellt, wie (und von wem) das „Maß“ definiert wird. Bei der Beurteilung dieser Fragen spielen nicht nur soziolinguistische, sondern auch strukturelle Aspekte eine Rolle, und Letzterem wird der vorliegende Beitrag nachgehen, und zwar anhand von Beispielen aus der Morphophonologie, der Morphosyntax und der Orthografie.
Thema dieses Beitrags sind die komplexen Nominalphrasen im Deutschen, die von außen gesehen unter Umständen monströs anmuten. Ein besonderes, wohl bekanntes Problem bieten dabei sogenannte erweiterte vorangestellte Attribute. Die Komplexitäten geben u.A. zu folgenden Fragen Anlass: Inwiefern lässt sich die ‚Ausuferung‘ der deutschen Nominalphrase funktional begründen? Falls es ein Rationales hinter den Komplexitäten gibt, wie lösen dann Sprachen, die entsprechende Ausbaumöglichkeiten nicht besitzen, die einschlägigen funktionalen Aufgaben? Hier soll primär die erste Frage diskutiert werden anhand von authentischen Text(ausschnitt)en, die das Zusammenspiel zwischen vorangestellten und nachgestellten ‚Erweiterungen‘ der Nominalphrase – Relativsätze eingeschlossen – wie auch die Funktion sogenannter nichtrestriktiver Attribute im Diskurs veranschaulichen können; die zweite Frage wird in relevanten Zusammenhängen mit berücksichtigt.
Der Beitrag beleuchtet unterschiedliche Raumkonzeptionen, welche die Dialektologie als „Raumlinguistik“ im letzten halben Jahrhundert geprägt haben. So spielt Raum als physisch-materieller Erdraum in der Dialektologie nach wie vor eine zentrale Rolle und wird als Bedingungsrahmen für die diatopische Sprachvarianz verstanden. Räume gänzlich anderer Natur sind Räume, die aus dialektgeografischen Abstraktionsprozessen resultieren und sich aus Verteilungen sprachlicher Größen im physisch-materiellen Raum ergeben. Zur außersprachlichen Erklärung diatopischer Variation werden solche sprachräumlichen Verteilungen mit erdräumlichen Gegebenheiten, mit politischen Territorien oder kulturräumlichen Verteilungen abgeglichen. Wegen der Beliebigkeit der für den Abgleich ausgewählten dialektalen Variablen ist dieses Vorgehen lange Zeit etwas in Verruf geraten, wird heute jedoch mit dialektometrischen Verfahren dem willkürlichen Zugriff entzogen und neu lanciert.
Raum als immaterielle Ordnungsstruktur wird – nicht nur in der Linguistik – als probates Instrument genutzt, um Gedachtes metaphorisch zu ordnen. Insbesondere die Sozio- oder kommunikative Dialektologie, die seit ein paar Jahrzehnten die monodimensionale Grundmundarten-Dialektologie aufbricht, hat mit Konzepten wie „Variantenraum“ oder „sozialer Raum“ ihren Gegenstandsbereich faß- und vermessbar gemacht.
Seit einiger Zeit erfährt der „erlebte Raum“ im Rahmen der sogenannten Wahrnehmungsdialektologie lebhaften Zuspruch. Diese dialektologische Ausrichtung erkundet die sprachraumbezogenen Alltagskonzepte und die Perzeption sprachlicher Größen und verspricht sich davon u.a. Aufschluss darüber, ob sprachräumliche Vorstellungen als Steuerungsgrößen für dialektale Stabilität oder dialektalen Wandel veranschlagt werden können. An Beispielen aus einem laufenden Forschungsprojekt, das sich mit einer Region in der Innerschweiz befasst, werden ethnodialektale Raumvorstellungen präsentiert und zu objektiven Sprachbefunden in Bezug gesetzt.
Der Beitrag versteht sich als erster Schritt zur historiographischen Rekonstruktion der Soziolinguistik in der Bundesrepublik Deutschland. Es wird gezeigt, wie in gewolltem Bruch mit der älteren germanistischen Forschung zum Thema Sprache und Gesellschaft in den späten 1960er Jahren die neue Disziplin der Soziolinguistik in Auseinandersetzung mit den Theorien Bernsteins entstand, sich die Soziolinguistik anschließend professionalisierte und das Spektrum ihrer Themen verbreiterte, schließlich auch den Anschluss an ältere Theorien insbesondere in der Dialektologie wiederfand.
Moderne Grammatiktheorien sind statisch, d.h. skriptizistisch und synchronizistisch. Dies bedeutet, dass deren Beschreibungsapparat auf die Strukturen gegenwärtiger Schrift- und Standardsprachen zugeschnitten ist. Im Beitrag wird für einen dynamischen, d.h. nichtskriptizistischen und nichtsynchronizistischen, Perspektivenwechsel in der Grammatikforschung plädiert, der auf folgenden empirisch fundierten Überlegungen basiert:
1. Literalisierung ist eine kulturelle Universalie, die kognitiv verankert ist.
2. Es sind unterschiedliche Phasen der Literalisierung zu unterscheiden.
3. Literalisierung im Allgemeinen und die Phasen der Literalisierung im Besonderen haben Konsequenzen für die grammatische Struktur.
4. Die Interpretation von grammatischen Strukturen ist nur vor der Folie der jeweiligen Phase der Literalisierung möglich.
5. Ein dynamisches Grammatikmodell muss das historische Verhältnis auch begrifflich abbilden. Dies wird an zentralen grammatischen Konzepten wie Aggregation vs. Integration, Wortgruppe vs. Phase und an der Wortstellung (Verbklammer, Stellungsfeldermodell, Satzrandglieder) veranschaulicht.
6. Historisch ist von einem dynamischen Verhältnis von Online- und Offlinesyntax, von syntaktischer Zeitlichkeit und syntaktischer Räumlichkeit, auszugehen. Was zu einer bestimmten Zeit und in einer bestimmten Varietät als Onlinestruktur zu interpretieren ist, hängt von dem jeweiligen historischen Verhältnis von Online- und Offlinestrukturen ab.
Preface
(2015)
In my article I argue the need for an existence of grammar in spoken language. It would have the same functions as the grammar of written language: describing and explaining the fundamental units of spoken language and their features, describing the composition of those units and their conjunction. The basic units in the grammar of spoken language can be named as: the sound, the word, the functional unit, the conversational turn and the conversation itself. Further the central characteristics of spoken language and their impact on grammar have to be taken into account. They are: the interactivity, the multimodality, the processabihty and the great variability. After displaying my concepts I discuss three alternative concepts of a grammar in spoken language: online-syntax, construction grammar and multimodal grammar. The article concludes by discussing the role of spoken language grammar in language and foreign language teaching.
In this contribution, we report on an effort to annotate German data with information relevant to opinion inference. Such information has previously been referred to as effect or couched in terms of eventevaluation functors. We extend the theory and present an extensive scheme that combines both approaches and thus extends the set of inference-relevant predicates. Using these guidelines to annotate 726 German synsets, we achieve good inter-annotator agreement.
Some 25 years ago, a large-scale repatriation of Russian Germans began. As a result, more than 2,5 million people that grew up in the USSR, Russia, or other post-Soviet states, became German citizens who had native or near-native command of the Russian language. The uncomfortable differences they exhibited in comparison to those who were supposed to accept them as equals, yet failed to do so, compelled them to search for self-designations that would accommodate their new identity and to bond together to form a new minority. The authors examine the attempts of Soviet/Russian Germans to redefine their ethnic identity in terms of not just blood but also language and culture, focusing on two particular cases: the use of the name Rusak in the internet forums of the repatriated immigrants; and the linguistic-cultural practices of the older generation of immigrants.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
We investigate whether non-configurational languages, which display more word order variation than configurational ones, require more training data for a phenomenon to be parsed successfully. We perform a tightly controlled study comparing the dative alternation for English (a configurational language), German, and Russian (both non-configurational). More specifically, we compare the performance of a dependency parser when only canonical word order is present with its performance on data sets when all word orders are present. Our results show that for all languages, canonical data not only is easier to parse, but there exists no direct correspondence between the size of training sets containing free(er) word order variation and performance.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of linguistic theories that take social interaction, involving language, into account. This paper introduces the corpora and datasets of a project scrutinizing this kind of feedback utterances in French. We present the genesis of the corpora (for a total of about 16 hours of transcribed and phone force-aligned speech) involved in the project. We introduce the resulting datasets and discuss how they are being used in on-going work with focus on the form-function relationship of conversational feedback. All the corpora created and the datasets produced in the framework of this project will be made available for research purposes.
Ph@ttSessionz and Deutsch heute are two large German speech databases. They were created for different purposes: Ph@ttSessionz to test Internet-based recordings and to adapt speech recognizers to the voices of adolescent speakers, Deutsch heute to document regional variation of German. The databases differ in their recording technique, the selection of recording locations and speakers, elicitation mode, and data processing.
In this paper, we outline how the recordings were performed, how the data was processed and annotated, and how the two databases were imported into a single relational database system. We present acoustical measurements on the digit items of both databases. Our results confirm that the elicitation technique affects the speech produced, that f0 is quite comparable despite different recording procedures, and that large speech technology databases with suitable metadata may well be used for the analysis of regional variation of speech.
The effect of manipulation of a speaker’s voice as well as exposure to a native speaker’s utterance was investigated regarding the pronunciation of stops by German learners of French. Three subject groups, a Control (CG), a Manipulation (MG), and a Native Speaker (NG) Group, were recorded on two subsequent days. The MG was presented with a manipulation of their voice on the second day and the NG listened to a native French speaker, while the CG did not receive any feedback. Results show that speakers of the MG and NG were able to extract useful information from the respective feedback and successfully adapted to it. Participants were able to reduce their voice onset time values, although speakers of the NG reduced it to a greater extent.
Based on specific linguistic landmarks in the speech signal, this study investigates pitch level and pitch span differences in English, German, Bulgarian and Polish. The analysis is based on 22 speakers per language (11 males and 11 females). Linear mixed models were computed that include various linguistic measures of pitch level and span, revealing characteristic differences across languages and between language groups. Pitch level appeared to have significantly higher values for the female speakers in the Slavic than the Germanic group. The male speakers showed slightly different results, with only the Polish speakers displaying significantly higher mean values for pitch level than the German males. Overall, the results show that the Slavic speakers tend to have a wider pitch span than the German speakers. But for the linguistic measure, namely for span between the initial peaks and the non-prominent valleys, we only find the difference between Polish and German speakers. We found a flatter intonation contour in German than in Polish, Bulgarian and English male and female speakers and differences in the frequency of the landmarks between languages. Concerning “speaker liveliness” we found that the speakers from the Slavic group are significantly livelier than the speakers from the Germanic group.
This study examines the pitch profiles of French learners of German and German learners of French, both in their native language (L1), and in their respective foreign language (L2). Results of the analysis of 84 speakers suggest that for short read sentences, French and German speakers do not show pitch range differences in their native production. Furthermore, analyses of mean f0 and pitch range indicate that range is not necessarily reduced in L2 productions. These results are different from results reported in prior research. Possible reasons for these differences are discussed.
We investigated the effect of high-variability training (HVT) on the production and perception of French bilabial voiced and voiceless stops by German native speakers. Stop consonants in the two languages differ with respect to several articulatory and acoustic features. German learners of French (Experiment Group) trained the perception of word-initial bilabial stops spoken by six French native speakers using identification tests, whereas subjects of a Control Group did not perform a training. Additional perception and production tests of French words including bilabial, alveolar, and velar stops in all word positions were performed to capture the impact of HVT. Subjects were found to be quite good at distinguishing voiced and voiceless stops. However, voiceless stops received lower correctness scores than voiced ones and subjects of the Experiment group were able to further increase their scores after training. Results for production are mirror-inverted showing that subjects of the Experiment Group successfully produced longer negative VOT values but did not show an improvement for voiceless stops.
We present an approach for opinion role induction for verbal predicates. Our model rests on the assumption that opinion verbs can be divided into three different types where each type is associated with a characteristic mapping between semantic roles and opinion holders and targets. In several experiments, we demonstrate the relevance of those three categories for the task. We show that verbs can easily be categorized with semi-supervised graphbased clustering and some appropriate similarity metric. The seeds are obtained through linguistic diagnostics. We evaluate our approach against a new manually-compiled opinion role lexicon and perform in-context classification.
Cybermobbing ist der gezielte Versuch, online das Face einer anderen Person zu dekonstruieren. Etwa ein Drittel aller Jugendlichen ist schon mindestens einmal mit diesem Problem konfrontiert worden. Seinen temporären Höhepunkt erreichte es mit dem Erscheinen der Internetseite Isharegossip.com (ISG). Diese entwickelte sich sehr schnell zu einer regelrechten Mobbing-Plattform. Täter fanden hier ganz besonders drastische verbale Mittel, um ihre Opfer zu kompromittieren. Bislang wurde noch nicht qualitativ analysiert, inwieweit Opfer und sogenannte virtuelle Zaungäste auf diese Verbalattacken reagieren. Ziel des Aufsatzes ist es, anhand eines typischen Diskurses sechs Verteidigungsstrategien aufzuzeigen, die von Opfern aber auch von sogenannten virtuellen Zaungästen angewandt werden, um das Face des Opfers zu rekonstruieren und zu stabilisieren.
Der Beitrag beschäftigt sich mit der lexikografischen Information von fünf DaF-Lernerwörterbüchern und fokussiert in besonderem Maße das verbale Kombinationspotenzial. Die vorgelegte Analyse legt dabei besonderen Wert auf die grammatische Syntagmatik bei Verben, zu deren Beschreibung acht Analyseparameter dienen. Die Resultate werden ausführlich kommentiert und in einer Tabelle schematisch zusammengefasst. Im Ergebnis werden Informationslücken in verschiedenen Bereichen aufgedeckt und daraus neue Herausforderungen für die einsprachige DaF-Lernerlexikografie abgeleitet.
This paper presents some theoretical and methodological foundations of the research project DICONALE, which concerns the development of an online dictionary of verbal lexemes with a special conceptual-onomasiological access and a paradigmatic structure in response to studies which have shown that conventional dictionaries (both monolingual and bilingual), do not satisfy the specific needs of users involved in the production of texts in foreign language.
Zur Gestaltung künftiger Lernerwörterbücher im DaF-Bereich ist es notwendig, die Bedürfnisse und Recherchegewohnheiten der potenziellen Benutzerinnen und Benutzer zu kennen. Seit dem virtuellen Medienwechsel erfährt die Wörterbuchbenutzungsforschung wichtige neue Impulse. Speziell im DaF Bereich liegen aber bis jetzt nur vereinzelt aktuelle empirische Daten über die unterschiedlichen Benutzergewohnheiten der Lernerinnen und Lerner vor, die für zukünftige lexikographische Konsultationssysteme ausgewertet und berücksichtigt werden könnten. Aus diesem Grunde wurde im Rahmen des Forschungsprojekts DICONALE, welches die Erstellung eines konzeptuellonomasiologisch orientierten zweisprachig bilateralen online-Produktionslernerwörterbuches für Verben und deverbale Wortarten des Deutschen und Spanischen anvisiert, eine Umfrage konzipiert, die von Lernenden des Deutschen als Fremdsprache in Spanien, Portugal und Deutschland beantwortet wurde. Im Mittelpunkt dieser Umfrage steht sowohl das Ziel, die Benutzergewohnheiten der DaF-Lernenden unterschiedlicher Sprachstufen im universitären und außeruniversitären Bereich kennenzulernen, als auch die Gründe für mögliche fehlgeschlagene Recherchen zu erforschen und Hinweise auf die Wünsche und Bedürfnisse der Lernenden entsprechend zu interpretieren. Ziel des Beitrages ist es daher, einerseits die wichtigsten Ergebnisse der Umfrage vorzustellen und andererseits sowohl allgemeine Rückschlüsse auf die Konzipierung zukünftiger Lernerwörterbücher für den DaF-Bereich zu ziehen als auch konkrete Anforderungen an DICONALE herauszuarbeiten.
In recent years, theoretical and computational linguistics has paid much attention to linguistic items that form scales. In NLP, much research has focused on ordering adjectives by intensity (tiny < small). Here, we address the task of automatically ordering English adverbs by their intensifying or diminishing effect on adjectives (e.g. extremely small < very small). We experiment with 4 different methods: 1) using the association strength between adverbs and adjectives; 2) exploiting scalar patterns (such as not only X but Y); 3) using the metadata of product reviews; 4) clustering. The method that performs best is based on the use of metadata and ranks adverbs by their scaling factor relative to unmodified adjectives.
In diesem Aufsatz werden Positionierungsverfahren analysiert, welche die Macher einer Talkshow einsetzen, um ihre Gäste den Fernsehzuschauern als relevante Gesprächspartner für das Thema „Steuerhinterziehung durch Prominente” zu präsentieren. Es wird untersucht, wie es den Machern der Talkshow gelingt, die Gäste bereits bei der Erstvorstellung durch das Zusammenspiel einer Stimme aus dem Off und der Kameraführung als „prototypische Vertreter” zu präsentieren und zueinander zu positionieren. Von den insgesamt fünf Teilnehmern der Talkshow werden zwei dieser Erstvorstellungen detailliert analysiert. Es handelt sich um die Präsentation zweier Gäste, die in einer deutlich antagonistischen Beziehung zueinander stehen. Diese Gäste werden unmittelbar hintereinander vorgestellt. Auf der Grundlage aller fünf Gastpräsentationen, die wir detailliert rekonstruiert haben, jedoch aus Platzgründen hier leider nicht ebenfalls präsentieren können, wird ein strukturiertes Positionierungsgeflecht deutlich. Dieses Geflecht weist im Zentrum die von uns rekonstruierte thematische und personelle „Gegnerschaft“ auf. In der Peripherie sind dann insgesamt vier Vertreter relevanter gesellschaftlicher Positionen zum Thema der Talkshow beigeordnet. Dabei handelt es sich um Vertreter der Rechtsprechung, der Politik, der Alltagsmoral und der Psychologie und Theologie. Die Analysen werden in theoretischer Hinsicht auf der Grundlage multimodaler Vorstellungen zur Positionierung und zum Recipient Design durchgeführt. In methodisch-methodologischer Perspektive orientiert sich die Analyse an der multimodalen Interaktionsanalyse.
This article is concerned with the choice of a corpus to be used as the empirical basis of a bilingual, bidirectional and conceptual learner dictionary of German and Spanish. Several standard corpora as well as web corpora for German and Spanish will be compared with respect to their size, the variety of genres they contain, the time span and geographical areas covered and what kind of search facilities they allow (e.g. word queries based on lemmata rather than on word forms). It will be argued that, when standard corpora fail to meet a particular requirement, web data may provide a useful alternative for lexicographical purposes provided they are both linguistically (i.e. morpho-syntactically) and meta-linguistically tagged.
Ein integriertes Datenbank-, Such- und Tagging-Tool (IDaSTo) wird vorgestellt, das sich besonders für Variablenanalysen, für Paralleltexte und für diachronische Untersuchungen eignet. Relevante Kategorien bzw. Variablen können individuell definiert, Tags frei im Text und auf verschiedenen Wegen gesetzt und ihre Häufigkeiten in den verlinkten Statistiken direkt abgerufen werden.
Der vorliegende Aufsatz befasst sich mit der Verbreitung des Lexems Nerd in der deutschen Sprache. Untersucht wurde die DeReKo-Datenbank hinsichtlich der Frequenz des Wortes und der ko-textuellen Umgebungen. Diese Daten wurden verglichen mit einem Korpus aus möglichen Übersetzungen des Lexems, das sich aus US-amerikanischen Serien zusammensetzt (,Scrubs‘, ,The Big Bang Theory‘, ,Family Guy‘ und ,American Dad‘). Aus der Synopse der gewonnenen Erkenntnisse und der sprachhistorischen Analyse des Lexems kann abgeleitet werden, dass Synchronfassungen den zeitgenössischen Sprachgebrauch widerspiegeln und daher auch steter Quell für Sprachwandel sind. Bezogen auf das Lexem Nerd ist der Schluss zu ziehen, dass dieses den Status eines assimilierten Fremdwortes erreicht hat und lediglich die Adjektivierung noch nicht vollständig integriert ist. Eine Übersetzung mit deutschen Lexemen erscheint in diesem Zusammenhang nicht sinnvoll.
El análisis de las obras lexicográficas existentes en espanol y en alemán para L2 confirma la necesidad de desarrollar un diccionario pedagógico con una nueva concepción, desde la cual el usuario pueda obtener una mayor información adaptada a sus necesidades. De especial relevancia es el tratamiento de la información específica con el que se puedan mejorar los procesos de producción de textos en L2 mediante un procedimiento que, teniendo en cuenta la diversidad de uso, permita seleccionar un lexema particular de la variedad de posibles lexicalizaciones. En esta contribución se presentan los aspectos teóricos y metodológicos que sustentan el proyecto DICONALE-online. Los cuatro pilares del proyecto en torno al tipo de usuarios, al enfoque conceptual y onomasiológico, a la base empírica de los datos y al modelo de descripción enlazado con un punto de vista contrastivo configuran nuevos retos para el desarrollo de la lexicografía pedagógica que se expondrán en este trabajo a partir de algunos ejemplos.
Einleitung
(2015)
We present a quantitative approach to disambiguating flat morphological analyses and producing more deeply structured analyses. Based on existing morphological segmentations, possible combinations of resulting word trees for the next level are filtered first by criteria of linguistic plausibility and then by weighting procedures based on the geometric mean. The frequencies for weighting are derived from three different sources (counts of morphs in a lexicon, counts of largest constituents in a lexicon, counts of token frequencies in a corpus) and can be used either to find the best analysis on the level of morphs or on the next higher constituent level. The evaluation shows that for this task corpus-based frequency counts are slightly superior to counts of lexical data.
Opinion Holder and Target Extraction for Verb-based Opinion Predicates – The Problem is Not Solved
(2015)
We offer a critical review of the current state of opinion role extraction involving opinion verbs. We argue that neither the currently available lexical resources nor the manually annotated text corpora are sufficient to appropriately study this task. We introduce a new corpus focusing on opinion roles of opinion verbs from the Subjectivity Lexicon and show potential benefits of this corpus. We also demonstrate that state-of-the-art classifiers perform rather poorly on this new dataset compared to the standard dataset for the task showing that there still remains significant research to be done.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Familienähnlichkeiten deutscher Argumentstrukturmuster. Definitionen und grundlegende Annahmen
(2015)
In the German language, there are two central ways of integrating spatial and temporal information by means of word-formation. Firstly, this type of information is typically located in the verbal phrase of sentences. As a consequence, it plays a major role in the area of word-formation of verbs too. The two major classes of such verbs found in German (“Partikelverben” and “Doppelpartikelverben”) are located in the transition zone between syntax and word-formation. The same adverbial relation is found in one type of nominal compounds (“Rektionskomposita”). On the other hand, space and time are prominent among the relations constituting the patterns of the prototypical type of noun compounds (“N+N-Komposita”). The integration of these relations into compounds involves some kind of functional interpretation.
Centering on German self-motion verbs, this paper demonstrates the advantages of free-sorting over creating and delineating word fields with more traditional methods. In particular, I draw a comparison to Snell-Hornby’s (1983) work on German descriptive verbs, which produces lexical fields with the help of dictionary entries, a thesaurus, a small corpus of written text and limited speaker feedback. While these methods have benefits, they are limited in their ability to represent the average organization of semantic fields in the mind of everyday speakers. Freesorting, by contrast, does not rely on academic resources, corpora or singular speaker judgments. In sorting, a group of informants creates visible sets of items according to perceived similarity. Psycholinguists have used the method to quantitatively explore the perception of color terms across cultures (c.f. Roberson et al. 2005). With a sufficiently large number of informants, one can generate lexical sorting data that is apt for cluster analysis, the results of which are represented by dendrograms. The experiment I conducted involved 33 school children from a middle class neighborhood in Braunschweig, Northern Germany. My experiment shows that Snell-Hornby’s (1983) representation of the self-motion field can be improved by integrating further dimensions of meaning, such as body-space relations and sound, that young speakers find salient in the grouping procedure.
Die Stichwortliste bildet eine tragende Säule von gedruckten als auch von Online-Wörterbüchern. Daher ist die Konzeption und Erarbeitung einer Stichwortliste auch eine zentrale Aufgabe in der Anfangsphase des am IDS in Angriff genommenen Paronymwörterbuchs. Welche Überlegungen dabei angestellt, welche Ideen entwickelt und welche Pläne bzw. Entscheidungen schließlich umgesetzt wurden, wird in dem Beitrag aufgezeigt.
Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau
(2015)
"Hey, was geht?". Beobachtungen zum Wandel und zur Differenzierung von Begrüßungsformen Jugendlicher
(2015)
Ziel des vorliegenden Beitrags ist es, auszuloten, wie Sprechen und Handeln, das wir aus dem Alltag kennen, einzuschätzen ist, wenn es im Fernsehen und vor allem im so genannten Reality-TV erscheint. Einen guten Einstieg, diese Problemstellung zu illustrieren, bieten Pannen, wie man sie etwa aus Nachrichtensendungen wie der Tagesschau kennt.
ln einer korpuspragmatischen Sicht auf Sprachgebrauch werden sogenannte Sprachgebrauchsmuster, die typisch für bestimmte Sprachausschnitte sind, datengeleitet berechnet. Solche Sprachgebrauchsmuster können z.B. diskursanalytisch gedeutet werden; noch relativ unerforscht ist aber ein konstruktionsgrammatischer Blick auf solche Muster. An zwei Beispielen wird gezeigt, wie mit der Berechnung von typischen n-Grammen (auf der Basis von Wortformen, sowie komplexer auf der Basis von Wortformen und Wortartkategorien) Sprachgebrauchsmuster berechnet werden können: Beim ersten Beispiel werden typische Formulierungsmuster in Leserbriefen, beim zweiten Beispiel aus einem politischen Diskurs (Wulff-Affäre), untersucht. Der Beitrag zielt in der Folge darauf ab, diese Muster dem usage-based-approach der KxG folgend als Konstruktionen zu deuten, die soziopragmatischen Verwendungsbedingungen gehorchen.
In Deutschland leben 7,5 Millionen erwachsene Analphabeten. Daher ist der Bedarf an Materialien zum Erlernen der Schrift gestiegen. Der vorliegende Band ist begleitend für den Rechtschreibunterricht von (vor allem) Erwachsenen gedacht, die Deutsch auf einem (nahezu) muttersprachlichen Niveau beherrschen. Die systemische Beschreibung des Rechtschreibwortschatzes, insbesondere durch seine orthographische Annotation und die Kennzeichnung von Lernstellen, stützt sich größten teils auf die Darstellung der deutschen Orthographie im Rahmencurriculum Schreiben (kurz RCS) des Deutschen Volkshochschulverbandes. Außerdem lehnt sich der vorliegende Wortschatz an Themen an, die sich aus dem alltäglichen Leben ableiten. Lehrende finden in diesem Band gezielt reichlich Material zum Üben im Unterrichtskontext und können bei Bedarf auch neues Übungsmaterial erstellen; sie sollen aber auch zusätzlich vermitteln, dass sie selbst als Experten von Fall zu Fall in Wörterlisten nachschlagen müssen. Für den Lerner soll der Rechtschreibwortschatz dazu beitragen, die Eigeninitiative zu fördern und zu selbständigem praktischen Üben ermutigen.
Speakers’ linguistic experience is for the most part experience with language as used in conversational interaction. Though highly relevant for usage-based linguistics, the study of such data is as yet often left to other frameworks such as conversation analysis and interactional linguistics (Couper-Kuhlen and Selting 2001). On the basis of a case study of salient usage patterns of the two German motion verbs kommen and gehen in spontaneous conversation, the present paper argues for a methodological integration of quantitative corpus-linguistic methods with qualitative conversation analytic approaches to further the usage-based study of conversational interaction.
This article reports about the on-going work on a new version of the metadata framework Component Metadata Infrastructure (CMDI), central to the CLARIN infrastructure. Version 1.2 introduces a number of important changes based on the experience gathered in the last five years of intensive use of CMDI by the digital humanities community, addressing problems encountered, but also introducing new functionality. Next to the consolidation of the structure of the model and schema sanity, new means for lifecycle management have been introduced aimed at combatting the observed proliferation of components, new mechanism for use of external vocabularies will contribute to more consistent use of controlled values and cues for tools will allow improved presentation of the metadata records to the human users. The feature set has been frozen and approved, and the infrastructure is now entering a transition phase, in which all the tools and data need to be migrated to the new version.
In dem Beitrag wird der Frage nachgegangen, inwiefern die Frequenz eines Wortes mit seiner orthographischen Richtigschreibung zusammenhangt. Werden häufige Wörter öfter und früher richtig geschrieben? Und welche Rolle spielt dabei die orthographische Regelhaftigkeit der Wortstrukturen? Unter Zuhilfenahme maschineller Analyseverfahren aus der Großstudie "Automatisierte Rechtschreibdiagnostik" (Fay/Berkling/Stüker 2012) werden diesbezuglich über 1000 Schülertexte von Klasse 2 bis 8 untersucht. Im Ergebnis werden zum einen einige Annahmen, die bislang vor allem auf Erfahrungswerten aus der sprachdidaktischen Arbeit fußten, empirisch bestätigt, zum anderen werden sie hinsichtlich spezifischer Rechtschreibphänomene differenziert und erweitert.
Some structures in printed dictionaries also occur in online dictionaries, some do not occur, some need to be adapted whereas new structures may be introduced in online dictionaries. This paper looks at one type of structure, known in printed dictionaries as outer texts. It is argued that the notions of a frame structure and front and back matter texts do not apply to online dictionaries. The data distribution in online dictionaries does not only target the dictionary articles. There are components outside the word list section of the dictionary. These components are not always texts. They could e.g. also be video clips. Consequently the notion of outer texts in printed dictionaries is substituted by the notion of outer features in online dictionaries. This paper shows how outer features help to constitute a feature compound. The outer features in eight online dictionaries are discussed. Where the users guidelines text is a compulsory outer text in printed dictionaries it seems that an equivalent feature is often eschewed in online dictionaries. A distinction is made between dictionary-internal and dictionary-external outer features, illustrating that outer features can be situated in other sources than the specific dictionary. More research is needed to formulate models for online features that can play a comprehensive role in online dictionaries.
In this contribution, we present a novel approach for the analysis of cross-reference structures in digital dictionaries on the basis of the complete dictionary database. Using paradigmatic items in the German Wiktionary as an example, we show how analyses based on graph theory can be fruitfully applied in this context, e. g. to gain an overview of paradigmatic references as a whole or to detect closely connected groups of headwords. Furthermore, we connect information about cross-reference structures with corpus frequencies and log file statistics. In this way, we can answer questions such as the following ones: Are frequent words paradigmatically linked more closely than others? Are closely linked headwords or headwords that stand more solitary in the dictionary visited significantly more often?
Rassmatrivajutsja novye frazeologizmy nemeckogo jazyka i aspekty ich leksikografičeskogo opisanija v „Nemecko-russkom slovare neologizmov“. Obščaja dolja novych frazeologizmov ot obščego količestva neologizmov nemeckogo jazyka v period s 1991 po 2012 gody sostavljaet okolo šesti procentov. K kategorii frazeologizmov v slovare otnosjatsja ustojčivye sočetanija slov raznoj struktury i stepeni idiomatičnosti. Naibolee mnogočislenny frazeologizmy – imennye gruppy, za nimi sledujut glagol’nye gruppy i frazeologizmy-predloženija. Vyjavljajutsja i opisyvajutsja strukturnye i semantičeskie osobennosti frazeologizmov raznych frazovych kategorij. Osveščajutsja osobennosti podači frazeologizmov v slovnike i tipy leksikografičeskoj informacii v strukture slovarnoj stat’i, učityvajuščie specifiku frazeologičeskich neologizmov kak edinic leksikografičeskogo opisanija.
Wir können auch Hochdeutsch – Das Institut für Deutsche Sprache in Mannheim – ein Ort der Ideen
(2015)
Der vorliegende Beitrag erkundet den Zusammenhang zwischen der Komplexität politischer Argumentationsprozesse und der Diversifikation der Semantik von Schlüsselwörtern, deren Bedeutung im Argumentationsprozess umkämpft und in zahlreichen Facetten entfaltet widAdegenstand der Untersuchung ist die Verwendung von „Ökologie" in den Schlichtungsgesprächen zum Bahnprojekt Stuttgart 21. Im Unterscheid zu bisher vorliegenden Analysen zu semantischen Kämpfen geht es weniger darum, wie ein Ausdruck von einer Partei im Gegensatz zu anderen semantisiert wird. Es wird vielmehr gezeigt, wie semantische Diversifizierung und Ambiguität von „Ökologie" im expertischen Argumentationsprozess entstehen und welche kommunikativen Effekte dies für die Möglichkeit der Bürgerbeteiligung mit sich bringt. Es werden drei Praktiken identifiziert, mit denen die Interaktionsteilnehmer selbst auf semantische Diversifizierung und Ambiguität reagieren und versuchen, den Ausdruck eindeutig interpretierbar und die Quaestio entscheidbar zu machen: Strategieunterstellungen, Popularisierungen und Populismus. Die Interaktionsanalysen zeigen dabei, dass diese Praktiken selbst die Problematik, die sie lösen sollen, reproduzieren.
Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a comprehensive German news corpus for integration in DeReKo, the German Reference Corpus hosted at the Institut für Deutsche Sprache in Mannheim.
The task-oriented and format-driven development of corpus query systems has led to the creation of numerous corpus query languages (QLs) that vary strongly in expressiveness and syntax. This is a severe impediment for the interoperability of corpus analysis systems, which lack a common protocol. In this paper, we present KoralQuery, a JSON-LD based general corpus query protocol, aiming to be independent of particular QLs, tasks and corpus formats. In addition to describing the system of types and operations that Koral- Query is built on, we exemplify the representation of corpus queries in the serialized format and illustrate use cases in the KorAP project.