Refine
Year of publication
- 2014 (173) (remove)
Document Type
- Part of a Book (99)
- Article (43)
- Conference Proceeding (24)
- Other (4)
- Book (2)
- Working Paper (1)
Keywords
- Deutsch (60)
- Korpus <Linguistik> (20)
- Linguistik (19)
- Institut für Deutsche Sprache (18)
- Germanistik (17)
- Institut für Deutsche Sprache <Mannheim> (14)
- Computerunterstützte Lexikographie (13)
- Gastwissenschaftler (13)
- Gesprochene Sprache (10)
- Wissenschaftsgeschichte (10)
Publicationstate
- Veröffentlichungsversion (173) (remove)
Reviewstate
- (Verlags)-Lektorat (117)
- Peer-Review (34)
- Verlags-Lektorat (6)
- Peer-review (3)
- Review-Status-unbekannt (2)
- (Verlags)Lektorat (1)
- Peer-Revied (1)
Publisher
- Institut für Deutsche Sprache (47)
- De Gruyter (22)
- de Gruyter (22)
- Stauffenburg (7)
- Universitätsverlag Hildesheim (4)
- Erich Schmidt Verlag (3)
- International Speech Communication Association (3)
- Lang (3)
- European Language Resources Association (2)
- Schmidt (2)
We compare several different corpus- based and lexicon-based methods for the scalar ordering of adjectives. Among them, we examine for the first time a low- resource approach based on distinctive- collexeme analysis that just requires a small predefined set of adverbial modifiers. While previous work on adjective intensity mostly assumes one single scale for all adjectives, we group adjectives into different scales which is more faithful to human perception. We also apply the methods to both polar and non-polar adjectives, showing that not all methods are equally suitable for both types of adjectives.
Accurate opinion mining requires the exact identification of the source and target of an opinion. To evaluate diverse tools, the research community relies on the existence of a gold standard corpus covering this need. Since such a corpus is currently not available for German, the Interest Group on German Sentiment Analysis decided to create such a resource and make it available to the research community in the context of a shared task. In this paper, we describe the selection of textual sources, development of annotation guidelines, and first evaluation results in the creation of a gold standard corpus for the German language.
We study the influence of information structure on the salience of subjective expressions for human readers. Using an online survey tool, we conducted an experiment in which we asked users to rate main and relative clauses that contained either a single positive or negative or a neutral adjective. The statistical analysis of the data shows that subjective expressions are more prominent in main clauses where they are asserted than in relative clauses where they are presupposed. A corpus study suggests that speakers are sensitive to this differential salience in their production of subjective expressions.
This paper presents the first release of the KiezDeutsch Korpus (KiDKo), a new language resource with multiparty spoken dialogues of Kiezdeutsch, a newly emerging language variety spoken by adolescents from multi-ethnic urban areas in Germany. The first release of the corpus includes the transcriptions of the data as well as a normalisation layer and part-of-speech annotations. In the paper, we describe the main features of the new resource and then focus on automatic POS tagging of informal spoken language. Our tagger achieves an accuracy of nearly 97% on KiDKo. While we did not succeed in further improving the tagger using ensemble tagging, we present our approach to using the tagger ensembles for identifying error patterns in the automatically tagged data.
Annotating Spoken Language
(2014)
The annotation of parts of speech (POS) in linguistically annotated corpora is a fundamental annotation layer which provides the basis for further syntactic analyses, and many NLP tools rely on POS information as input. However, most POS annotation schemes have been developed with written (newspaper) text in mind and thus do not carry over well to text from other domains and genres. Recent discussions have concentrated on the shortcomings of present POS annotation schemes with regard to their applicability to data from domains other than newspaper text.
Recent work on error detection has shown that the quality of manually annotated corpora can be substantially improved by applying consistency checks to the data and automatically identifying incorrectly labelled instances. These methods, however, can not be used for automatically annotated corpora where errors are systematic and cannot easily be identified by looking at the variance in the data. This paper targets the detection of POS errors in automatically annotated corpora, so-called silver standards, showing that by combining different measures sensitive to annotation quality we can identify a large part of the errors and obtain a substantial increase in accuracy.
h ach KOMM; hör AUF mit dem klEInkram. Die Partikel komm zwischen Interjektion und Diskursmarker
(2014)
Der vorliegende Beitrag beschreibt das Formen-, Funktions- und Bedeutungsspek-trum der Partikel komm im gesprochenen Deutsch. Die Untersuchung zeigt, dass sich alle Verwendungen auf eine gemeinsame Grundfunktion zurückführen lassen, die als 'Aufforderung zum Aktivitätswechsel mit Appell an den common ground' bezeichnet wird. Es wird gezeigt, dass sich weitere, in der Literatur häufig der Partikel selbst zugeschriebene Bedeutungsbestandteile aus dem syntaktischen und sequenziellen Kontext ergeben. Verschiedene Kontexte lassen verschiedene Aspekte des Aktivitätswechsels salient erscheinen, so dass die Aufforderung ent-weder den Beginn einer neuen Handlung oder das Beenden einer vorausgehenden Aktivität fokussiert. Außerdem wird diskutiert, welcher Subklasse der Diskurspartikeln sich komm zuordnen lässt. Es zeigt sich, dass sowohl Merkmale von Dis-kursmarkern als auch von Interjektionen vorliegen, dass die Partikel aber auch von den prototypischen Vertretern beider Kategorien abweichende Merkmale zeigt, so dass vorgeschlagen wird, auf eine Klassifikation unterhalb der Ebene der Diskurspartikel zu verzichten, solange nicht weitere von Imperativen abgeleitete Partikeln (z.B. warte, sag mal) empirisch untersucht sind, mit denen komm möglicherweise eine eigene Subklasse bildet.
Sprachverfall? Einleitung
(2014)
Die Leibniz-Gemeinschaft
(2014)
Cette contribution s’intéresse aux co-constructions d’un tour de parole en interaction, plus spécifiquement, à la manière dont la complétion d’un énoncé de la part d’un co-participant est ensuite réceptionnée par le locuteur dont le tour a été complété. Malgré l’intérêt certain porté par l’analyse conversationnelle et la linguistique interactionnelle à la co-énonciation, l’évaluation de cette pratique par le premier locuteur n’a pas fait l’objet d’analyses approfondies. Dans ce qui suit, nous nous focalisons plus particulièrement sur les pratiques interactionnelles qui permettent aux participants de valider une co-construction. Ce travail est issu du projet ANR SPIM (« L’imitation dans la parole »), dans le cadre duquel nous nous sommes interrogée sur la fonction de l’hétéro-répétition (le fait de répéter un énoncé d’un autre locuteur ou une partie de celui-ci, opposée à l’auto- répétition) dans des séquences de co-construction d’un tour de parole.
Alors que de nombreuses études en analyse conversationnelle se sont intéressées à la manière dont des locuteurs co-construisent un tour de parole (notamment sur le plan syntaxique et prosodique), la façon dont la co-construction est ensuite évaluée n'a pas encore été étudiée en profondeur au sein de la littérature interactionniste. Ici, nous étudions deux pratiques permettant à un locuteur de valider une co-construction, à savoir l'acquiescement simple et l'hétéro-répétition de la complétion. En menant une analyse séquentielle et multimodale de plusieurs séquences de co-construction en français, nous montrons qu’à travers ces deux procédés – qui semblent au premier abord similaires dans leur fonctionnement – les locuteurs effectuent une évaluation très différente : tandis que l'acquiescement simple valide la complétion proposée uniquement comme une version possible, l'hétéro-répétition la valide comme étant une complétion complètement adéquate. Cette contribution met en évidence que les interactants exploitent des ressources audibles aussi bien que visibles afin de manifester si et dans quel sens ils acceptent la complétion de leur tour de parole de la part d’un coparticipant. Nous soulignons l’importance d’étudier en détail les différents formatages possibles des tours évaluant une complétion afin de pouvoir distinguer différentes formes « d’acceptation » et de révéler la manière dont les locuteurs peuvent finement négocier leur position en tant que (co-)auteur ou destinataire d’un tour de parole.
In der emotional geführten Sprachverfallsdebatte wird besonders die Apostrophsetzung vor dem Genitiv- und dem Plural-t, vulgo Deppen-Apostroph, kritisiert und als vermeintliche Entlehnung aus dem Englischen stigmatisiert. Erst seit kurzem liegen mit Scherer (2010, 2013) korpusbasierte Untersuchungen vor, die eine angemessene Interpretation dieses graphematischen Wandels erlauben, der weitaus älter ist als gemeinhin vermutet. Generell erweist sich, dass viele als neu und bedrohlich empfundene Sprachveränderungen bereits vor über hundert Jahren meist ebenso emotional gegeißelt wurden. Der Beitrag befasst sich hauptsächlich mit der diachronen Entwicklung des phonographischen Apostrophs zu einem morphographischen, dessen Funktion nun nicht mehr darin besteht, nicht-artikulierte Laute zu markieren, sondern morphologische Grenzen (Uschis, Joseph K.’s, CD’s). Deutlich wird, dass der Apostroph der Gestaltschonung komplexer Basen dient, deren Gros aus Eigennamen besteht. Anschließend wird in einem kürzeren Teil nach der Entstehung und Beschaffenheit dieser s-Flexive selbst gefragt. Diese sind ihrerseits Ergebnis flexionsmorphologischer Umstrukturierungen und garantieren maximale Konstanthaltung des Wortkörpers. Abschließend wird noch die neueste Entwicklung gestreift, die in der Deflexion ebendieser s-Flexive besteht und die sich wieder am deutlichsten bei den Eigennamen manifestiert. Diese haben als Quelle all dieser Entwicklungen zu gelten (vgl. des Irak, des Helmut Kohl, auch des Perfekt, des LKW, des Gegenüber). Insgesamt ist festzustellen: Nicht nur die Apostrophsetzung vor s-Flexiven, sondern auch die s-Flexive selbst sowie ihr derzeitiger Abbau dienen ein und derselben Funktion: Der Schonung durch Konstanthaltung markierter Wortkörper, worunter mehrheitlich Eigennamen fallen, daneben auch Fremdwörter, Kurzwörter und Konversionen. Damit sind es die Eigennamen, die Ausgangspunkt und Ursache tiefgreifenden flexionsmorphologischen und graphematischen Wandels bilden.
The main aim of the study presented in this chapter was to try out eyetracking as form to collect data about dictionary use as it is – for research into dictionary use – a new and not widely used technology. As the topic of research, we decided to evaluate the new web design of the IDS dictionary portal OWID. In the mid of 2011 where the study was conducted, the relaunch of the web design was internally finished but externally not released yet. In this regard, it was a good time to see whether users get along well with the new design decisions. 38 persons participated in our study, all of them students aged 20-30 years. Besides the results the chapter also includes critical comments on methodological aspects of our study.
This chapter presents empirical findings on the question which criteria are making a good online dictionary using data on expectations and demands collected in the first study (N=684), completed with additional results from the second study (N=390) which examined more closely whether the respondents had differentiated views on individual aspects of the criteria rated in the first study. Our results show that the classical criteria of reference books (e.g. reliability, clarity) were rated highest by our participants, whereas the unique characteristics of online dictionaries (e.g. multimedia, adaptability) were rated and ranked as (partly) unimportant. To verify whether or not the poor rating of these innovative features was a result of the fact that the subjects are not used to online dictionaries incorporating those features, we integrated an experiment into the second study. Our results revealed a learning effect: Participants in the learning-effect condition, i. e. respondents who were first presented with examples of possible innovative features of online dictionaries,judged adaptability and multimedia to be more useful than participants who did not have this information. Thus, our data point to the conclusion that developing innovative features is worthwhile but that it is necessary to be aware of the fact that users can only be convinced of its benefits gradually.
To design effective electronic dictionaries, reliable empirical information on how dictionaries are actually being used is of great value for lexicographers. To my knowledge, no existing empirical research addresses the context of dictionary use, or, in other words, the extra-lexicographic situations in which a dictionary consultation is embedded. This is mainly due to the fact that data about these contexts are difficult to obtain. To take a first step in closing this research gap, we incorporated an open-ended question (“In which contexts or situations would you use a dictionary?”) into our first online survey (N = 684). Instead of presenting well-known facts about standardized types of usage situation, this chapter will focus on the more offbeat circumstances of dictionary use and aims of users, as they are reflected in the responses. Overall, my results indicate that there is a community whose work is closely linked with dictionaries. Dictionaries are also seen as a linguistic treasure trove for games or crossword puzzles, and as a standard which can be referred to as an authority. While it is important to emphasize that my results are only preliminary, they do indicate the potential of empirical research in this area.
The methods utilized in the area of research into dictionary use are established research methods in the social sciences. After explicating the different steps of a typical empirical investigation, this article provides examples of how these different methods are used in various user studies conducted in the field of using online dictionaries. Thereby, different kinds of data collection (surveys as online questionnaires, log files and eye tracking) as well as different research design structures (for instance, ex-post-facto design or experimental design) are discussed.
Dieser Beitrag geht der Frage nach, wie elexiko als eine Grundlage für Wortschatzübungen im Deutsch als Fremdsprache (bzw. Zweitsprache) Unterricht genutzt werden kann. Ausgegangen wird dabei davon, dass die explizite Wortschatzarbeit im Rahmen von Sprachunterricht, besonders gepaart mit einer gelungen vermittelten sprachbezogenen Landeskunde, das Verstehen der Sprache und die Fähigkeit zur erfolgreichen Kommunikation fördert. Dies setzt voraus, dass Deutschlehrende mit relevantem Sprachmaterial arbeiten, das sich möglichst eng am authentischen Sprachgebrauch orientiert und kulturelles Wissen mit transportiert. Hier bieten korpusgestützt erarbeitete Wörterbücher eine nützliche Quelle. Am Beispiel der im Wörterbuch aufgeführten Kollokationen wird skizziert, wie die Angaben aus diesem Bereich von Deutschlehrenden gewinnbringend für die Erarbeitung von Wortschatzübungen genutzt werden könnten.
Self-Regulated Learning (SRL) is a term that can be used to describe an individual’s ability to develop a skill set allowing him or her to learn in a number of different ways. SRL can also relate to new pedagogical theories that encourage teachers in formal education to motivate and support their students into achieving a high level of self-regulation. This paper reports on the findings of a number of surveys conducted with a wide variety of teachers in different countries, regarding their perceptions of SRL. The results and analysis of these surveys help inform not only the perceptions of SRL amongst teachers but also examine the challenges and opportunities that arise from taking this approach.
Der Beitrag beschäftigt sich mit den verschiedenen Such-, Auffindungs- und Auswahlsprozessen, die für die fremdsprachige Produktion notwendig sind und von DICONALE-online, einem onomasiologisch-konzeptuell ausgerichteten, zweisprachig-bilateral konzipierten Verbwörterbuch der spanischen und deutschen Gegenwartsspache, besonders berücksichtigt werden. Der Ausgangspunkt von DICONALE ist ein unbefriedigendes Informationsangebot in den bestehenden ein- und zweisprachigen Lernerwörterbüchern für den L2-output und bestätigt das Projektteam in der Notwendigkeit, ein neuartiges benutzer- und situationsdefiniertes online-Nachschlagewerk zu erstellen. Zwei Bezugsrahmen bilden die Grundlage für einen komplexen, konzeptuell und framegeleiteten Zugriffspfad, der dem Benutzer bei der Suche und Auswahl von Ausdrucksmöglichkeiten und der adäquaten Anwendung behilflich sein soll. Das Novum dieses Wörterbuchprojekts besteht hauptsachlich darin, eine onomasiologisch-konzeptuelle Perspektive für den fremdsprachigen Produktionsprozess nutzbar zu machen und mit einem semasiologischen Zugriff zu verbinden, durch den es möglich ist, die inter- und intralingualen Unterschiede zwischen den Lexemen eines lexikalisch-semantischen (Sub)Paradigmas hervorzuheben. Ziel des Beitrages ist es daher, den Ausgangspunkt, sowie die theoretischen und methodologischen Grundlagen von DICONALE-online unter der speziellen Perspektive der Benutzer- und Situationsorientiertheit zur Diskussion zu stellen, die einzelnen Zugriffspfade für den Such- und Auffindungsprozess vorzustellen und das Angebot zur Auswahl und zum adäquaten Gebrauch aus inter- und intralingualer Perspektive zu präsentieren.
We investigate how the granularity of POS tags influences POS tagging, and furthermore, how POS tagging performance relates to parsing results. For this, we use the standard “pipeline” approach, in which a parser builds its output on previously tagged input. The experiments are performed on two German treebanks, using three POS tagsets of different granularity, and six different POS taggers, together with the Berkeley parser. Our findings show that less granularity of the POS tagset leads to better tagging results. However, both too coarse-grained and too fine-grained distinctions on POS level decrease parsing performance.
Von Mannheim bis in die USA: Eine persönliche Verbindung mit dem Institut für Deutsche Sprache
(2014)
“My Curiosity was Satisfied, but not in a Good Way”: Predicting User Ratings for Online Recipes
(2014)
In this paper, we develop an approach to automatically predict user ratings for recipes at Epicurious.com, based on the recipes’ reviews. We investigate two distributional methods for feature selection, Information Gain and Bi-Normal Separation; we also compare distributionally selected features to linguistically motivated features and two types of frameworks: a one-layer system where we aggregate all reviews and predict the rating vs. a two-layer system where ratings of individual reviews are predicted and then aggregated. We obtain our best results by using the two-layer architecture, in combination with 5 000 features selected by Information Gain. This setup reaches an overall accuracy of 65.60%, given an upper bound of 82.57%.
Der Fokus des Beitrags liegt auf Spracheinstellungen von Deutschlehrerinnen und Deutschlehrern an weiterführenden Schulen in Österreich, Deutschland und der Schweiz. Auf Basis einer aktuellen und großangelegten empirischen Studie wird der Frage nachgegangen, welche Einstellungen Lehrpersonen in den drei Ländern zu Variation und Wandel des Deutschen und seinen Varietäten haben. Neben der quantitativen und qualitativen Analyse von ausgewählten Einzelergebnissen setzt sich der Beitrag zum Ziel, mittels des Klassifizierungsverfahrens einer Clusteranalyse interindividuelle Einstellungsmuster herauszuarbeiten und diese — in einem zweiten Schritt — auf ihre soziodemographische Zusammensetzung hin zu analysieren.
Einleitung
(2014)
Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert.
Badania nad postrzeganiem społecznym wskazują, że osoby uśmiechające się są na licznych wymiarach postrzegane korzystniej aniżeli osoby nieuśmiechające się. Jednakże w niniejszych badaniach twierdzimy, że ta zależność nie zawsze jest pozytywna ponieważ postrzeganie uśmiechu może być zależne od kultury i takich jej wymiarów jak indywidualizm-kolektywizm czy asertywność. Eksperyment przeprowadzony w sześciu krajach (w Polsce, Niemczech, Norwegii, Iranie, USA oraz RPA) pokazał, że osoby uśmiechające się mogą być w kulturach kolektywistycznych i mało asertywnych postrzegane mniej korzystnie od osób nieuśmiechających się. W Niemczech osoby uśmiechnięte zostały ocenione jako bardziej inteligentne, a w Iranie jako mniej inteligentne niż osoby nieuśmiechnięte. Ponadto we wszystkich krajach poza Iranem osoby uśmiechnięte były postrzegane jako bardziej szczere niż osoby nieuśmiechnięte. Dyskutujemy stwierdzone efekty w kontekście zróżnicowania kultur opisanego przez Housea i zespół (2004) oraz przez Hofstedego (2001).
Questions of design
(2014)
All lexicographers working on online dictionary projects that do not wish to use an established form of design for their online dictionary, or simply have new kinds of lexicographic data to present, face the problem of what kind of arrangement is best suited for the intended users of the dictionary. In this chapter, we present data about questions relating to the design of online dictionaries. This will provide projects that use these or similar ways of presenting their lexicographic data with valuable information about how potential dictionary users assess and evaluate them. In addition, the answers to corresponding open-ended questions show, detached from concrete design models, which criteria potential users value in a good online representation. Clarity and an uncluttered look seem to dominate in many answers, as well as the possibility of customization, if the latter is not connected with a too complex usability model.
The first international study (N=684) we conducted within our research project on online dictionary use included very general questions on that topic. In this chapter, we present the corresponding results on questions like the use of both printed and online dictionaries as well as on the types of dictionaries used, devices used to access online dictionaries and some information regarding the willingness to pay for premium content. The data collected by us, show that our respondents both use printed and online dictionaries and, according to their self-report, many different kinds of dictionaries. In this context, our results revealed some clear cultural differences: in German-speaking areas spelling dictionaries are more common than in other linguistic areas, where thesauruses are widespread. Only a minority of our respondents is willing to pay for premium content, but most of the respondents are prepared to accept advertising. Our results also demonstrate that our respondents mainly tend to use dictionaries on big-screen devices, e.g. desktop computers or laptops.
In this paper, the authors use the 2012 log files of two German online dictionaries (Digital Dictionary of the German Language and the German Version of Wiktionary) and the 100,000 most frequent words in the Mannheim German Reference Corpus from 2009 to answer the question of whether dictionary users really do look up frequent words, first asked by de Schryver et al. (2006). By using an approach to the comparison of log files and corpus data which is completely different from that of the aforementioned authors, we provide empirical evidence that indicates - contrary to the results of de Schryver et al. and Verlinde/Binon (2010) - that the corpus frequency of a word can indeed be an important factor in determining what online dictionary users look up. Finally, we incorporate word class Information readily available in Wiktionary into our analysis to improve our results considerably.
This chapter summarizes the typical steps of an empirical investigation. Every step is illustrated using examples from our research project into online dictionary use or other relevant studies. This chapter does not claim to contain anything new, but presents a brief guideline for lexicographical researchers who are interested in conducting their own empirical research.
Endungsvariation
(2014)
Körper(-Darstellungen) im Reality-TV. Herstellung von Wirklichkeit im und über das Fernsehen hinaus
(2014)
In this paper, we present the concept and the results of two studies addressing (potential) users of monolingual German online dictionaries, such as www.elexiko.de. Drawing on the example of elexiko, the aim of those studies was to collect empirical data on possible extensions of the content of monolingual online dictionaries, e.g. the search function, to evaluate how users comprehend the terminology of the user interface, to find out which types of information are expected to be included in each specific lexicographic module and to investigate general questions regarding the function and reception of examples illustrating the use of a word. The design and distribution of the surveys is comparable to the studies described in the chapters 5-8 of this volume. We also explain, how the data obtained in our studies were used for further improvement of the elexiko-dictionary.
Vorwort
(2014)