Refine
Year of publication
- 2015 (82) (remove)
Document Type
- Part of a Book (32)
- Conference Proceeding (24)
- Article (23)
- Book (3)
Is part of the Bibliography
- no (82) (remove)
Keywords
- Deutsch (30)
- Korpus <Linguistik> (12)
- Annotation (8)
- Englisch (7)
- Verb (7)
- Corpus annotation (5)
- Corpus linguistics (5)
- Corpus technology (5)
- Datenbanksystem (5)
- Lernerwörterbuch (5)
Publicationstate
- Veröffentlichungsversion (82) (remove)
Reviewstate
- (Verlags)-Lektorat (46)
- Peer-Review (20)
- Peer-review (6)
- Verlags-Lektorat (4)
- Review-Status-unbekannt (1)
Publisher
- Institut für Deutsche Sprache (17)
- de Gruyter (14)
- Lang (3)
- Association for Computational Linguistics (2)
- Gesellschaft für Sprachtechnologie and Computerlinguistik (2)
- International Phonetic Association (2)
- International Speech Communication Association (2)
- Narr (2)
- Springer (2)
- The Association for Computational Linguistics (2)
"Hey, was geht?". Beobachtungen zum Wandel und zur Differenzierung von Begrüßungsformen Jugendlicher
(2015)
Cybermobbing ist der gezielte Versuch, online das Face einer anderen Person zu dekonstruieren. Etwa ein Drittel aller Jugendlichen ist schon mindestens einmal mit diesem Problem konfrontiert worden. Seinen temporären Höhepunkt erreichte es mit dem Erscheinen der Internetseite Isharegossip.com (ISG). Diese entwickelte sich sehr schnell zu einer regelrechten Mobbing-Plattform. Täter fanden hier ganz besonders drastische verbale Mittel, um ihre Opfer zu kompromittieren. Bislang wurde noch nicht qualitativ analysiert, inwieweit Opfer und sogenannte virtuelle Zaungäste auf diese Verbalattacken reagieren. Ziel des Aufsatzes ist es, anhand eines typischen Diskurses sechs Verteidigungsstrategien aufzuzeigen, die von Opfern aber auch von sogenannten virtuellen Zaungästen angewandt werden, um das Face des Opfers zu rekonstruieren und zu stabilisieren.
Ph@ttSessionz and Deutsch heute are two large German speech databases. They were created for different purposes: Ph@ttSessionz to test Internet-based recordings and to adapt speech recognizers to the voices of adolescent speakers, Deutsch heute to document regional variation of German. The databases differ in their recording technique, the selection of recording locations and speakers, elicitation mode, and data processing.
In this paper, we outline how the recordings were performed, how the data was processed and annotated, and how the two databases were imported into a single relational database system. We present acoustical measurements on the digit items of both databases. Our results confirm that the elicitation technique affects the speech produced, that f0 is quite comparable despite different recording procedures, and that large speech technology databases with suitable metadata may well be used for the analysis of regional variation of speech.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of linguistic theories that take social interaction, involving language, into account. This paper introduces the corpora and datasets of a project scrutinizing this kind of feedback utterances in French. We present the genesis of the corpora (for a total of about 16 hours of transcribed and phone force-aligned speech) involved in the project. We introduce the resulting datasets and discuss how they are being used in on-going work with focus on the form-function relationship of conversational feedback. All the corpora created and the datasets produced in the framework of this project will be made available for research purposes.
Hierarchical predictive coding has been identified as a possible unifying principle of brain function, and recent work in cognitive neuroscience has examined how it may be affected by age–related changes. Using language comprehension as a test case, the present study aimed to dissociate age-related changes in prediction generation versus internal model adaptation following a prediction error. Event-related brain potentials (ERPs) were measured in a group of older adults (60–81 years; n = 40) as they read sentences of the form “The opposite of black is white/yellow/nice.” Replicating previous work in young adults, results showed a target-related P300 for the expected antonym (“white”; an effect assumed to reflect a prediction match), and a graded N400 effect for the two incongruous conditions (i.e. a larger N400 amplitude for the incongruous continuation not related to the expected antonym, “nice,” versus the incongruous associated condition, “yellow”). These effects were followed by a late positivity, again with a larger amplitude in the incongruous non-associated versus incongruous associated condition. Analyses using linear mixed-effects models showed that the target-related P300 effect and the N400 effect for the incongruous non-associated condition were both modulated by age, thus suggesting that age-related changes affect both prediction generation and model adaptation. However, effects of age were outweighed by the interindividual variability of ERP responses, as reflected in the high proportion of variance captured by the inclusion of by-condition random slopes for participants and items. We thus argue that – at both a neurophysiological and a functional level – the notion of general differences between language processing in young and older adults may only be of limited use, and that future research should seek to better understand the causes of interindividual variability in the ERP responses of older adults and its relation to cognitive performance.
Feedback utterances are among the most frequent in dialogue. Feedback is also a crucial aspect of all linguistic theories that take social interaction involving language into account. However, determining communicative functions is a notoriously difficult task both for human interpreters and systems. It involves an interpretative process that integrates various sources of information. Existing work on communicative function classification comes from either dialogue act tagging where it is generally coarse grained concerning the feed- back phenomena or it is token-based and does not address the variety of forms that feed- back utterances can take. This paper introduces an annotation framework, the dataset and the related annotation campaign (involving 7 raters to annotate nearly 6000 utterances). We present its evaluation not merely in terms of inter-rater agreement but also in terms of usability of the resulting reference dataset both from a linguistic research perspective and from a more applicative viewpoint.
The effect of manipulation of a speaker’s voice as well as exposure to a native speaker’s utterance was investigated regarding the pronunciation of stops by German learners of French. Three subject groups, a Control (CG), a Manipulation (MG), and a Native Speaker (NG) Group, were recorded on two subsequent days. The MG was presented with a manipulation of their voice on the second day and the NG listened to a native French speaker, while the CG did not receive any feedback. Results show that speakers of the MG and NG were able to extract useful information from the respective feedback and successfully adapted to it. Participants were able to reduce their voice onset time values, although speakers of the NG reduced it to a greater extent.
The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word alignment across multiple languages. Additionally, linguistic annotation such as partof- speech tagging, lemmatisation, chunking, and dependency parsing facilitate precise querying of linguistic properties and can be used to extend word alignment to sub-sentential groups. Such highly interconnected data is stored in a relational database to allow for efficient retrieval and linguistic data mining, which may include the statistics-based selection of good example sentences. The varying information needs of contrastive linguists require a flexible linguistic query language for ad hoc searches. Such queries in the format of generalised treebank query languages will be automatically translated into SQL queries.
This study examines the pitch profiles of French learners of German and German learners of French, both in their native language (L1), and in their respective foreign language (L2). Results of the analysis of 84 speakers suggest that for short read sentences, French and German speakers do not show pitch range differences in their native production. Furthermore, analyses of mean f0 and pitch range indicate that range is not necessarily reduced in L2 productions. These results are different from results reported in prior research. Possible reasons for these differences are discussed.
This article reports on the on-going CoRoLa project, aiming at creating a reference corpus of contemporary Romanian (from 1945 onwards), opened for online free exploitation by researchers in linguistics and language processing, teachers of Romanian, students. We invest serious efforts in persuading large publishing houses and other owners of IPR on relevant language data to join us and contribute the project with selections of their text and speech repositories. The CoRoLa project is coordinated by two Computer Science institutes of the Romanian Academy, but enjoys cooperation of and consulting from professional linguists from other institutes of the Romanian Academy. We foresee a written component of the corpus of more than 500 million word forms, and a speech component of about 300 hours of recordings. The entire collection of texts (covering all functional styles of the language) will be pre-processed and annotated at several levels, and also documented with standardized metadata. The pre-processing includes cleaning the data and harmonising the diacritics, sentence splitting and tokenization. Annotation will include morpho-lexical tagging and lemmatization in the first stage, followed by syntactic, semantic and discourse annotation in a later stage.
This is the first comprehensive volume to compare the sociolinguistic situations of minorities in Russia and in Western Europe. As such, it provides insight into language policies, the ethnolinguistic vitality and the struggle for reversal of language shift, language revitalization and empowerment of minorities in Russia and the European Union. The volume shows that, even though largely unknown to a broader English-reading audience, the linguistic composition of Russia is by no means less diverse than multilingualism in the EU. It is therefore a valuable introduction into the historical backgrounds and current linguistic, social and legal affairs with regard to Russia’s manifold ethnic and linguistic minorities, mirrored on the discussion of recent issues in a number of well-known Western European minority situations.
Thema dieses Beitrags sind die komplexen Nominalphrasen im Deutschen, die von außen gesehen unter Umständen monströs anmuten. Ein besonderes, wohl bekanntes Problem bieten dabei sogenannte erweiterte vorangestellte Attribute. Die Komplexitäten geben u.A. zu folgenden Fragen Anlass: Inwiefern lässt sich die ‚Ausuferung‘ der deutschen Nominalphrase funktional begründen? Falls es ein Rationales hinter den Komplexitäten gibt, wie lösen dann Sprachen, die entsprechende Ausbaumöglichkeiten nicht besitzen, die einschlägigen funktionalen Aufgaben? Hier soll primär die erste Frage diskutiert werden anhand von authentischen Text(ausschnitt)en, die das Zusammenspiel zwischen vorangestellten und nachgestellten ‚Erweiterungen‘ der Nominalphrase – Relativsätze eingeschlossen – wie auch die Funktion sogenannter nichtrestriktiver Attribute im Diskurs veranschaulichen können; die zweite Frage wird in relevanten Zusammenhängen mit berücksichtigt.
Den Wortschatz einer Sprache auf hohem Niveau zu dokumentieren und in all seinen Eigenschaften zu beschreiben, ist gleichermaßen wichtig wie schwierig. Verschiedene Gründe haben dazu geführt, dass die Tradition der großen Wörterbücher derzeit zusammenbricht. An ihre Stelle werden in der Zukunft flexibel handhabbare digitale lexikalische Systeme treten.
Der vorliegende Aufsatz befasst sich mit der Verbreitung des Lexems Nerd in der deutschen Sprache. Untersucht wurde die DeReKo-Datenbank hinsichtlich der Frequenz des Wortes und der ko-textuellen Umgebungen. Diese Daten wurden verglichen mit einem Korpus aus möglichen Übersetzungen des Lexems, das sich aus US-amerikanischen Serien zusammensetzt (,Scrubs‘, ,The Big Bang Theory‘, ,Family Guy‘ und ,American Dad‘). Aus der Synopse der gewonnenen Erkenntnisse und der sprachhistorischen Analyse des Lexems kann abgeleitet werden, dass Synchronfassungen den zeitgenössischen Sprachgebrauch widerspiegeln und daher auch steter Quell für Sprachwandel sind. Bezogen auf das Lexem Nerd ist der Schluss zu ziehen, dass dieses den Status eines assimilierten Fremdwortes erreicht hat und lediglich die Adjektivierung noch nicht vollständig integriert ist. Eine Übersetzung mit deutschen Lexemen erscheint in diesem Zusammenhang nicht sinnvoll.
Der Tanz um das Verb
(2015)
Der Beitrag beleuchtet unterschiedliche Raumkonzeptionen, welche die Dialektologie als „Raumlinguistik“ im letzten halben Jahrhundert geprägt haben. So spielt Raum als physisch-materieller Erdraum in der Dialektologie nach wie vor eine zentrale Rolle und wird als Bedingungsrahmen für die diatopische Sprachvarianz verstanden. Räume gänzlich anderer Natur sind Räume, die aus dialektgeografischen Abstraktionsprozessen resultieren und sich aus Verteilungen sprachlicher Größen im physisch-materiellen Raum ergeben. Zur außersprachlichen Erklärung diatopischer Variation werden solche sprachräumlichen Verteilungen mit erdräumlichen Gegebenheiten, mit politischen Territorien oder kulturräumlichen Verteilungen abgeglichen. Wegen der Beliebigkeit der für den Abgleich ausgewählten dialektalen Variablen ist dieses Vorgehen lange Zeit etwas in Verruf geraten, wird heute jedoch mit dialektometrischen Verfahren dem willkürlichen Zugriff entzogen und neu lanciert.
Raum als immaterielle Ordnungsstruktur wird – nicht nur in der Linguistik – als probates Instrument genutzt, um Gedachtes metaphorisch zu ordnen. Insbesondere die Sozio- oder kommunikative Dialektologie, die seit ein paar Jahrzehnten die monodimensionale Grundmundarten-Dialektologie aufbricht, hat mit Konzepten wie „Variantenraum“ oder „sozialer Raum“ ihren Gegenstandsbereich faß- und vermessbar gemacht.
Seit einiger Zeit erfährt der „erlebte Raum“ im Rahmen der sogenannten Wahrnehmungsdialektologie lebhaften Zuspruch. Diese dialektologische Ausrichtung erkundet die sprachraumbezogenen Alltagskonzepte und die Perzeption sprachlicher Größen und verspricht sich davon u.a. Aufschluss darüber, ob sprachräumliche Vorstellungen als Steuerungsgrößen für dialektale Stabilität oder dialektalen Wandel veranschlagt werden können. An Beispielen aus einem laufenden Forschungsprojekt, das sich mit einer Region in der Innerschweiz befasst, werden ethnodialektale Raumvorstellungen präsentiert und zu objektiven Sprachbefunden in Bezug gesetzt.
Der Beitrag versteht sich als erster Schritt zur historiographischen Rekonstruktion der Soziolinguistik in der Bundesrepublik Deutschland. Es wird gezeigt, wie in gewolltem Bruch mit der älteren germanistischen Forschung zum Thema Sprache und Gesellschaft in den späten 1960er Jahren die neue Disziplin der Soziolinguistik in Auseinandersetzung mit den Theorien Bernsteins entstand, sich die Soziolinguistik anschließend professionalisierte und das Spektrum ihrer Themen verbreiterte, schließlich auch den Anschluss an ältere Theorien insbesondere in der Dialektologie wiederfand.
Moderne Grammatiktheorien sind statisch, d.h. skriptizistisch und synchronizistisch. Dies bedeutet, dass deren Beschreibungsapparat auf die Strukturen gegenwärtiger Schrift- und Standardsprachen zugeschnitten ist. Im Beitrag wird für einen dynamischen, d.h. nichtskriptizistischen und nichtsynchronizistischen, Perspektivenwechsel in der Grammatikforschung plädiert, der auf folgenden empirisch fundierten Überlegungen basiert:
1. Literalisierung ist eine kulturelle Universalie, die kognitiv verankert ist.
2. Es sind unterschiedliche Phasen der Literalisierung zu unterscheiden.
3. Literalisierung im Allgemeinen und die Phasen der Literalisierung im Besonderen haben Konsequenzen für die grammatische Struktur.
4. Die Interpretation von grammatischen Strukturen ist nur vor der Folie der jeweiligen Phase der Literalisierung möglich.
5. Ein dynamisches Grammatikmodell muss das historische Verhältnis auch begrifflich abbilden. Dies wird an zentralen grammatischen Konzepten wie Aggregation vs. Integration, Wortgruppe vs. Phase und an der Wortstellung (Verbklammer, Stellungsfeldermodell, Satzrandglieder) veranschaulicht.
6. Historisch ist von einem dynamischen Verhältnis von Online- und Offlinesyntax, von syntaktischer Zeitlichkeit und syntaktischer Räumlichkeit, auszugehen. Was zu einer bestimmten Zeit und in einer bestimmten Varietät als Onlinestruktur zu interpretieren ist, hängt von dem jeweiligen historischen Verhältnis von Online- und Offlinestrukturen ab.
With an increasing amount of text data available it is possible to automatically extract a variety of information about language. One way to obtain knowledge about subtle relations and analogies between words is to observe words which are used in the same context. Recently, Mikolov et al. proposed a method to efficiently compute Euclidean word representations which seem to capture subtle relations and analogies between words in the English language. We demonstrate that this method also captures analogies in the German language. Furthermore, we show that we can transfer information extracted from large non-annotated corpora into small annotated corpora, which are then, in turn, used for training NLP systems.
To optimize the sharing and reuse of existing data, many funding organizations now require researchers to specify a management plan for research data. In such a plan, researchers are supposed to describe the entire life cycle of the research data they are going to produce, from data creation to formatting, interpretation, documentation, short-term storage, long-term archiving and data re-use. To support researchers with this task, we built DMPTY, a wizard that guides researchers through the essential aspects of managing data, elicits information from them, and finally, generates a document that can be further edited and linked to the original research proposal.
We investigate whether non-configurational languages, which display more word order variation than configurational ones, require more training data for a phenomenon to be parsed successfully. We perform a tightly controlled study comparing the dative alternation for English (a configurational language), German, and Russian (both non-configurational). More specifically, we compare the performance of a dependency parser when only canonical word order is present with its performance on data sets when all word orders are present. Our results show that for all languages, canonical data not only is easier to parse, but there exists no direct correspondence between the size of training sets containing free(er) word order variation and performance.
Einleitung
(2015)
Centering on German self-motion verbs, this paper demonstrates the advantages of free-sorting over creating and delineating word fields with more traditional methods. In particular, I draw a comparison to Snell-Hornby’s (1983) work on German descriptive verbs, which produces lexical fields with the help of dictionary entries, a thesaurus, a small corpus of written text and limited speaker feedback. While these methods have benefits, they are limited in their ability to represent the average organization of semantic fields in the mind of everyday speakers. Freesorting, by contrast, does not rely on academic resources, corpora or singular speaker judgments. In sorting, a group of informants creates visible sets of items according to perceived similarity. Psycholinguists have used the method to quantitatively explore the perception of color terms across cultures (c.f. Roberson et al. 2005). With a sufficiently large number of informants, one can generate lexical sorting data that is apt for cluster analysis, the results of which are represented by dendrograms. The experiment I conducted involved 33 school children from a middle class neighborhood in Braunschweig, Northern Germany. My experiment shows that Snell-Hornby’s (1983) representation of the self-motion field can be improved by integrating further dimensions of meaning, such as body-space relations and sound, that young speakers find salient in the grouping procedure.
In this contribution, we report on an effort to annotate German data with information relevant to opinion inference. Such information has previously been referred to as effect or couched in terms of eventevaluation functors. We extend the theory and present an extensive scheme that combines both approaches and thus extends the set of inference-relevant predicates. Using these guidelines to annotate 726 German synsets, we achieve good inter-annotator agreement.
Familienähnlichkeiten deutscher Argumentstrukturmuster. Definitionen und grundlegende Annahmen
(2015)
Der Beitrag zum 50-jährigen Bestehen des IDS gibt einen Überblick über die Entstehung und Entwicklung der Satzsemantik, der am Wahrheitswert von Aussagen orientierten Lehre von zusammengesetzten sprachlichen Ausdrücken. Er tut dies am Beispiel der Negation, insbesondere an der syntaktischen Realisierung der Negation mit dem Negationsartikel ‚kein‘, an Negativen Polaritätselementen wie ‚jemals‘, an der doppelten Negation wie in ‚nicht unglücklich‘ und an der pleonastischen Negation nach ‚bevor‘. Auch die Negation in Fragen und Antwortpartikeln wie ‚nein‘ kommen zur Sprache.
In my article I argue the need for an existence of grammar in spoken language. It would have the same functions as the grammar of written language: describing and explaining the fundamental units of spoken language and their features, describing the composition of those units and their conjunction. The basic units in the grammar of spoken language can be named as: the sound, the word, the functional unit, the conversational turn and the conversation itself. Further the central characteristics of spoken language and their impact on grammar have to be taken into account. They are: the interactivity, the multimodality, the processabihty and the great variability. After displaying my concepts I discuss three alternative concepts of a grammar in spoken language: online-syntax, construction grammar and multimodal grammar. The article concludes by discussing the role of spoken language grammar in language and foreign language teaching.
We present a quantitative approach to disambiguating flat morphological analyses and producing more deeply structured analyses. Based on existing morphological segmentations, possible combinations of resulting word trees for the next level are filtered first by criteria of linguistic plausibility and then by weighting procedures based on the geometric mean. The frequencies for weighting are derived from three different sources (counts of morphs in a lexicon, counts of largest constituents in a lexicon, counts of token frequencies in a corpus) and can be used either to find the best analysis on the level of morphs or on the next higher constituent level. The evaluation shows that for this task corpus-based frequency counts are slightly superior to counts of lexical data.
Dieser Band fasst die Vorträge des 9. Hildesheimer Evaluierungs- und Retrieval-Workshops (HIER) zusammen, der am 9. und 10. Juli 2015 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüßen. HIER schafft auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge.
Ein integriertes Datenbank-, Such- und Tagging-Tool (IDaSTo) wird vorgestellt, das sich besonders für Variablenanalysen, für Paralleltexte und für diachronische Untersuchungen eignet. Relevante Kategorien bzw. Variablen können individuell definiert, Tags frei im Text und auf verschiedenen Wegen gesetzt und ihre Häufigkeiten in den verlinkten Statistiken direkt abgerufen werden.
In a previous article (Faaß et al., 2012), a first attempt was made at documenting and encoding morphemic units of two South African Bantu languages, i.e. Northern Sotho and Zulu, with the aim of describing and storing the morphemic units of these two languages in a single relational database, structured as a hierarchical ontology. As a follow-up, the current article describes the implementation of our part-of-speech ontology. We give a detailed description of the morphemes and categories contained in the database, highlighting the need and reasons for a flexible ontology which will provide for both language specific and general linguistic information. By giving a detailed account of the methodology for the population of the database, we provide linguists from other Bantu languages with a road map for extending the database to also include their languages of specialization.
Interaktionslinguistik
(2015)
Interaktion wird im vorliegenden Beitrag als eine Realisierung von Kommunikation verstanden, deren Konstitutionskriterium nicht Sprachlichkeit, sondern Anwesenheit ist. Anwesenheit ist dabei keine äußerliche Bedingung von Interaktion, sondern wird – im Medium der Wahrnehmungswahrnehmung – erst durch diese hergestellt. Entscheidend für die Rolle der Sprache bei der Konstitution von Interaktion sind die Minima des Sprechens und Zuhörens, die unter den Stichworten Materialität, Sequenzialität und Medialität vorgestellt werden. Anhand dieser Minima lassen sich die Qualitäten der Sprache als Ressource für die Bearbeitung interaktionskonstitutiver Probleme (wie Turn-Taking, Themenorganisation oder Situierung) fassen. Dass es neben der Sprache für die Hervorbringung von Interaktion weiterer, bisher weniger gut untersuchter Ressourcen bedarf, wird am Ende des Beitrags am Beispiel des Beitrags von Architektur zur Lösung des Situierungsproblems erörtert.
Based on specific linguistic landmarks in the speech signal, this study investigates pitch level and pitch span differences in English, German, Bulgarian and Polish. The analysis is based on 22 speakers per language (11 males and 11 females). Linear mixed models were computed that include various linguistic measures of pitch level and span, revealing characteristic differences across languages and between language groups. Pitch level appeared to have significantly higher values for the female speakers in the Slavic than the Germanic group. The male speakers showed slightly different results, with only the Polish speakers displaying significantly higher mean values for pitch level than the German males. Overall, the results show that the Slavic speakers tend to have a wider pitch span than the German speakers. But for the linguistic measure, namely for span between the initial peaks and the non-prominent valleys, we only find the difference between Polish and German speakers. We found a flatter intonation contour in German than in Polish, Bulgarian and English male and female speakers and differences in the frequency of the landmarks between languages. Concerning “speaker liveliness” we found that the speakers from the Slavic group are significantly livelier than the speakers from the Germanic group.
Sprache ist nie homogen, sie weist Varianz auf. Es gibt viele Gründe für diese Vielfalt, und die meisten sind schon sehr gut beschrieben worden (und sollen daher im vorliegenden Beitrag nicht im Vordergrund stehen). Gegenspieler der Varianz sind die mehr oder weniger expliziten Normen - sie sollen dafür sorgen, dass die Varianz ein gewisses Maß nicht überschreitet. Wobei sich natürlich sofort die Frage stellt, wie (und von wem) das „Maß“ definiert wird. Bei der Beurteilung dieser Fragen spielen nicht nur soziolinguistische, sondern auch strukturelle Aspekte eine Rolle, und Letzterem wird der vorliegende Beitrag nachgehen, und zwar anhand von Beispielen aus der Morphophonologie, der Morphosyntax und der Orthografie.
El análisis de las obras lexicográficas existentes en espanol y en alemán para L2 confirma la necesidad de desarrollar un diccionario pedagógico con una nueva concepción, desde la cual el usuario pueda obtener una mayor información adaptada a sus necesidades. De especial relevancia es el tratamiento de la información específica con el que se puedan mejorar los procesos de producción de textos en L2 mediante un procedimiento que, teniendo en cuenta la diversidad de uso, permita seleccionar un lexema particular de la variedad de posibles lexicalizaciones. En esta contribución se presentan los aspectos teóricos y metodológicos que sustentan el proyecto DICONALE-online. Los cuatro pilares del proyecto en torno al tipo de usuarios, al enfoque conceptual y onomasiológico, a la base empírica de los datos y al modelo de descripción enlazado con un punto de vista contrastivo configuran nuevos retos para el desarrollo de la lexicografía pedagógica que se expondrán en este trabajo a partir de algunos ejemplos.
We present an approach for opinion role induction for verbal predicates. Our model rests on the assumption that opinion verbs can be divided into three different types where each type is associated with a characteristic mapping between semantic roles and opinion holders and targets. In several experiments, we demonstrate the relevance of those three categories for the task. We show that verbs can easily be categorized with semi-supervised graphbased clustering and some appropriate similarity metric. The seeds are obtained through linguistic diagnostics. We evaluate our approach against a new manually-compiled opinion role lexicon and perform in-context classification.