Refine
Year of publication
- 2014 (118) (remove)
Document Type
- Part of a Book (57)
- Article (31)
- Conference Proceeding (23)
- Other (4)
- Book (2)
- Working Paper (1)
Is part of the Bibliography
- no (118) (remove)
Keywords
- Deutsch (34)
- Institut für Deutsche Sprache (18)
- Linguistik (17)
- Germanistik (16)
- Korpus <Linguistik> (15)
- Gastwissenschaftler (13)
- Computerlinguistik (7)
- Gesprochene Sprache (7)
- Institut für Deutsche Sprache <Mannheim> (6)
- Sprachwandel (6)
Publicationstate
- Veröffentlichungsversion (118) (remove)
Reviewstate
- (Verlags)-Lektorat (84)
- Peer-Review (22)
- Review-Status-unbekannt (2)
- Verlags-Lektorat (2)
Publisher
This article presents preliminary results indicating that speakers have a different pitch range when they speak a foreign language compared to the pitch variation that occurs when they speak their native language. To this end, a learner corpus with French and German speakers was analyzed. Results suggest that speakers indeed produce a smaller pitch range in the respective L2. This is true for both groups of native speakers. A possible explanation for this finding is that speakers are less confident in their productions, therefore, they concentrate more on segments and words and subsequently refrain from realizing pitch range more native-like. For language teaching, the results suggest that learners should be trained extensively on the more pronounced use of pitch in the foreign language.
Automatic Food Categorization from Large Unlabeled Corpora and Its Impact on Relation Extraction
(2014)
We present a weakly-supervised induction method to assign semantic information to food items. We consider two tasks of categorizations being food-type classification and the distinction of whether a food item is composite or not. The categorizations are induced by a graph-based algorithm applied on a large unlabeled domain-specific corpus. We show that the usage of a domain-specific corpus is vital. We do not only outperform a manually designed open-domain ontology but also prove the usefulness of these categorizations in relation extraction, outperforming state-of-the-art features that include syntactic information and Brown clustering.
We examine the task of separating types from brands in the food domain. Framing the problem as a ranking task, we convert simple textual features extracted from a domain-specific corpus into a ranker without the need of labeled training data. Such method should rank brands (e.g. sprite) higher than types (e.g. lemonade). Apart from that, we also exploit knowledge induced by semi-supervised graph-based clustering for two different purposes. On the one hand, we produce an auxiliary categorization of food items according to the Food Guide Pyramid, and assume that a food item is a type when it belongs to a category unlikely to contain brands. On the other hand, we directly model the task of brand detection using seeds provided by the output of the textual ranking features. We also harness Wikipedia articles as an additional knowledge source.
We report on the two systems we built for Task 1 of the German Sentiment Analysis Shared Task, the task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS). The first system is a rule-based system relying on a predicate lexicon specifying extraction rules for verbs, nouns and adjectives, while the second is a translation-based system that has been obtained with the help of the (English) MPQA corpus.
Communication across all language barriers has long been a goal of humankind. In recent years, new technologies have enabled this at least partially. New approaches and different methods in the field of Machine Translation (MT) are continuously being improved, modified, and combined, as well. Significant progress has already been achieved in this area; many automatic translation tools, such as Google Translate and Babelfish, can translate not only short texts, but also complete web pages in real time. In recent years, new advances are being made in the mobile area; Googles Translate app for Android and iOS, for example, can recognize and translate words within photographs taken by the mobile device (to translate a restaurant menu, for instance). Despite this progress, a “perfect” machine translation system seems to be an impossibility because a machine translation system, however advanced, will always have some limitations. Human languages contain many irregularities and exceptions, and consequently go through a constant process of change, which is difficult to measure or to be processed automatically. This paper gives a short introduction of the state of the art of MT. It examines the following aspects: types of MT, the most conventional and widely developed approaches, and also the advantages and disadvantages of these different paradigms.
Faktivität
(2014)
Einleitende Bemerkungen
(2014)
Seit Jahrzehnten fordern zahlreiche Metalexikografen und Lexikografen immer wieder eine umfangreichere Beschäftigung mit Wörterbüchern im muttersprachlichen Deutschunterricht, auch in der gymnasialen Oberstufe. Trotzdem spielen die Wortschatzarbeit und der Umgang mit Wörterbüchern in Lehrplänen, Didaktiken und Lehrwerken in den meisten Fällen allenfalls eine marginale Rolle. Im Anschluss an eine überblicksartige Bestandsaufnahme dazu untersucht der vorliegende Beitrag, inwieweit elexiko, ein Onlinewörterbuch zur deutschen Gegenwartssprache, sinnvoll in den muttersprachlichen Deutschunterricht der Sekundarstufe II integriert werden könnte. Am Beispiel des Angabebereichs der Bedeutungserläuterung wird überprüft, ob Schüler der gymnasialen Oberstufe als Zielgruppe für elexiko infrage kommen und für welche linguistischen Themen sich die Wortschatzarbeit mit den semantischen Paraphrasen für elexiko anbietet.
Measuring the quality of metadata is only possible by assessing the quality of the underlying schema and the metadata instance. We propose some factors that are measurable automatically for metadata according to the CMD framework, taking into account the variability of schemas that can be defined in this framework. The factors include among others the number of elements, the (re-)use of reusable components, the number of filled in elements. The resulting score can serve as an indicator of the overall quality of the CMD instance, used for feedback to metadata providers or to provide an overview of the overall quality of metadata within a repository. The score is independent of specific schemas and generalizable. An overall assessment of harvested metadata is provided in form of statistical summaries and the distribution, based on a corpus of harvested metadata. The score is implemented in XQuery and can be used in tools, editors and repositories.
Aus der Perspektive der Sprachbenutzerinnen ist der Genitiv vom Sprachverfall bedroht. Jedoch lässt sich in der Geschichte des Deutschen kein geradliniger Abbau nachweisen. Die kurze Genitivendung -s (aus -es) setzte sich zwar schon im Frühneuhochdeutschen als die häufigere Variante durch, im weiteren Sprachwandel entwickelte sich dann aber eine komplex gesteuerte Variation beider Endungen. Mit dem Abbau des verbalen und attributiven Genitivs gehen zwar wichtige Funktionsbereiche verloren, doch zeichnet sich in der neuesten Sprachgeschichte ein unerwarteter Aufbau des Genitivs als Präpositionalkasus ab. In diesem Beitrag wird dafür plädiert, dass die formale und funktionale Entwicklung des Genitivs stark durch sprachliche Unsicherheit beeinflusst wurde und wird, die eine Reaktion auf bestehende Varianz darstellt. Es wird dafür argumentiert, dass die stilistische Aufwertung der langen Genitivform und des Genitivs gegenüber dem Dativ den Sprach-wandel aufhält bzw. sogar in eine andere Richtung lenkt.
Der Beitrag verortet die internetbasierten Kommunikationsformen in einem größeren sprach- und varietätengeschichtlichen Rahmen und macht deutlich, dass sich die neuen interaktionsorientierten Schreibformen — chatten, posten, twittern, skypen etc. — in einem Bereich etablieren, in dem bislang überwiegend mündlich kommuniziert wurde. Auf dieser Basis wird gezeigt, dass es bislang keine empirische Evidenz dafür gibt, dass der interaktionsorientierte Schreibstil auf das textorientierte Schreiben „abfärbt“, dass vielmehr kompetente Schreiber und selbst Jugendliche durchaus dazu in der Lage sind, situationsangemessen zwischen verschiedenen Schreibhaltungen und -stilen zu wechseln. Abschließend werden Desiderate für die korpusgestützte Begleitforschung zu diesen Entwicklungen formuliert und die Herausforderungen erläutert, die sich durch das Nebeneinander von interaktions- und textorientiertem Schreiben für die schulische Sprach- und Schreibförderung ergeben.
Following a welcome in Lithuanian and English to the guests and members on the occa- sion of the 10"’ anniversary of EFNIL, the history of this European language Organization is sketched. A brief survey of the sociolinguistic themes treated at previous Conferences and the state of the inajor projects is given, followed by an introduction (in German) to the general topic of the present Conference. The importance that translation and interpretation have for European language diversity and the individual national languages beside foreign language education of all Europeans is being stressed.
Vorwort
(2014)
This contribution presents the newest version of our ’Wortverbindungsfelder’ (fields of multi-word expressions), an experimental lexicographic resource that focusses on aspects of MWEs that are rarely addressed in traditional descriptions: Contexts, patterns and interrelations. The MWE fields use data from a very large corpus of written German (over 6 billion word forms) and are created in a strictly corpus-based way. In addition to traditional lexicographic descriptions, they include quantitative corpus data which is structured in new ways in order to show the usage specifics. This way of looking at MWEs gives insight in the structure of language and is especially interesting for foreign language learners.
Forschungsstelle Freiburg
(2014)
Johann Leo Weisgerbers bekannter Titel bezieht sich auf Humboldts Energeia-Begriff, also auf die Sprache als wirkende Kraft. Auch in diesem Beitrag soll den wirkenden Kräften nachgegangen werden, freilich nicht als Unterstellung eines wesenhaften Sprachvermögens, sondern als Versuch, die wirksamen Motive der sprachkritischen Einstellungen, Publikationen und publizistischen Erscheinungen an einem Raster sozialwissenschaftlicher Begriffe darzulegen. An einigen ausgewählten Presseberichten und grammatischen Beispielen (Veränderungen im Bereich der deutschen Zeitenfolge) wird zunächst gezeigt, dass sich Sprachkritik oft schon von ihrem Gegenstand, der deutschen Sprache, weitgehend gelöst hat. Auch angesichts neuer Formen von substandardsprachlichen Erscheinungen (z.B. Jugendsprache, Jargon, Kiezsprache usw.) kann oft nachgewiesen werden, dass es sich in vielen Fällen um kommunikativ funktionale Sprachformen handelt. Um es schlagwortartig zusammenzufassen: Es gibt Sprachkritik ohne Sprache. Die „wirkenden Kräfte“ der Sprachkritik sichern vielmehr die Wahrnehmung gesellschaftlicher Differenzen und machen damit das Gefüge unterschiedlicher Lebensformen deutlich. Sie werden hier mit systemtheoretischen Begrifflichkeiten nach Niklas Luhmanns Theorie sozialer Systeme beschrieben und damit auch erklärt. Während das für die 80er-Jahre des vorigen Jahrhunderts charakteristische Programm der „Kritik der Sprachkritik“ auf eine sprachwissenschaftliche Aufklärung zielt, scheint heute vielmehr eine soziologische Aufklärung diese metakritische Funktion erfüllen zu können. Es könnte sich aber auch zeigen, dass Sprachkritik ihren Beitrag zur Stabilisierung des gesellschaftlichen Zusammenwirkens leistet — wenn man sie nicht als Sprachkritik im engeren Sinn versteht.
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
Vielbeachtete neue Studien zeigen, dass zwischen aktuellem ökonomisch relevantem Handeln und den traditionellen Dialekträumen ein signifikanter Zusammenhang besteht. In dem Beitrag wird dieser Zusammenhang aus der Dynamik der modernen Regionalsprachen erklärt. Unter dem Druck der omnipräsenten Standardsprache wird einerseits das alte landschaftliche Hochdeutsch zum Regiolekt um- und abgewertet, andererseits hat sich im Regiolekt die alte sprachraumkonstituierende und identitätsstiftende Funktion der großräumigen Dialektlandschaften bewahrt. In Abhängigkeit von der diffusionsabweisenden oder diffusionslizensierenden Qualität sprachkognitiver Gegensätze fallen alte Dialektgrenzen mit den Grenzen regiolektaler Neuerungsräume zusammen. Da für die Sprecher die sprachkognitiven Gegensätze, die sich hinter den vermeintlich geringen, die Verstellbarkeit nicht behindernden Unterschieden zwischen benachbarten Regiolekten verbergen, nicht erkennbar sind, bewerten sie diese nicht linguistisch-regional, sondern emotional, auf der Beziehungsebene und ästhetisch. Die „mentalen Gegensätze“, die die Raumwahrnehmung konstituieren, beruhen auf empirisch zugänglichen sprachkognitiven Differenzen. Die kulturelle Identität hat — jedenfalls soweit es die modernen deutschen Regionalsprachen betrifft — eine direkte linguistische Basis.
Dieser Artikel gibt einen Einblick in das GeoBib-Projekt und die Problematik der Verwendung von historischen Karten und der daraus abgeleiteten Geodaten in einem WebGIS. Das GeoBib-Projekt hat zum Ziel, eine annotierte und georeferenzierte Online-Bibliographie der frühen deutsch- bzw. polnischsprachigen Holocaust- und Lagerliteratur von 1933 bis 1949 bereitzustellen. Zu diesem Zeitraum werden historische Karten und Geodaten gesammelt, aufbereitet und im zugehörigen WebGIS des GeoBib-Portals visualisiert. Eine Besonderheit ist die aufwendige Recherche von Geodaten und Kartenmaterial für den Zeitraum zwischen 1933 und 1949. Die Problematiken bezüglich der Recherche und späteren Visualisierung historischer Geodaten und des Kartenmaterials sind ein Hauptaugenmerk in diesem Artikel. Weiterhin werden Konzepte für die Visualisierung von historischem, unvollständigem Kartenmaterial präsentiert und ein möglicher Lösungsweg für die bestehenden Herausforderungen aufgezeigt.
We compare several different corpus- based and lexicon-based methods for the scalar ordering of adjectives. Among them, we examine for the first time a low- resource approach based on distinctive- collexeme analysis that just requires a small predefined set of adverbial modifiers. While previous work on adjective intensity mostly assumes one single scale for all adjectives, we group adjectives into different scales which is more faithful to human perception. We also apply the methods to both polar and non-polar adjectives, showing that not all methods are equally suitable for both types of adjectives.
Accurate opinion mining requires the exact identification of the source and target of an opinion. To evaluate diverse tools, the research community relies on the existence of a gold standard corpus covering this need. Since such a corpus is currently not available for German, the Interest Group on German Sentiment Analysis decided to create such a resource and make it available to the research community in the context of a shared task. In this paper, we describe the selection of textual sources, development of annotation guidelines, and first evaluation results in the creation of a gold standard corpus for the German language.
We study the influence of information structure on the salience of subjective expressions for human readers. Using an online survey tool, we conducted an experiment in which we asked users to rate main and relative clauses that contained either a single positive or negative or a neutral adjective. The statistical analysis of the data shows that subjective expressions are more prominent in main clauses where they are asserted than in relative clauses where they are presupposed. A corpus study suggests that speakers are sensitive to this differential salience in their production of subjective expressions.
This paper presents the first release of the KiezDeutsch Korpus (KiDKo), a new language resource with multiparty spoken dialogues of Kiezdeutsch, a newly emerging language variety spoken by adolescents from multi-ethnic urban areas in Germany. The first release of the corpus includes the transcriptions of the data as well as a normalisation layer and part-of-speech annotations. In the paper, we describe the main features of the new resource and then focus on automatic POS tagging of informal spoken language. Our tagger achieves an accuracy of nearly 97% on KiDKo. While we did not succeed in further improving the tagger using ensemble tagging, we present our approach to using the tagger ensembles for identifying error patterns in the automatically tagged data.
Annotating Spoken Language
(2014)
The annotation of parts of speech (POS) in linguistically annotated corpora is a fundamental annotation layer which provides the basis for further syntactic analyses, and many NLP tools rely on POS information as input. However, most POS annotation schemes have been developed with written (newspaper) text in mind and thus do not carry over well to text from other domains and genres. Recent discussions have concentrated on the shortcomings of present POS annotation schemes with regard to their applicability to data from domains other than newspaper text.
Recent work on error detection has shown that the quality of manually annotated corpora can be substantially improved by applying consistency checks to the data and automatically identifying incorrectly labelled instances. These methods, however, can not be used for automatically annotated corpora where errors are systematic and cannot easily be identified by looking at the variance in the data. This paper targets the detection of POS errors in automatically annotated corpora, so-called silver standards, showing that by combining different measures sensitive to annotation quality we can identify a large part of the errors and obtain a substantial increase in accuracy.
h ach KOMM; hör AUF mit dem klEInkram. Die Partikel komm zwischen Interjektion und Diskursmarker
(2014)
Der vorliegende Beitrag beschreibt das Formen-, Funktions- und Bedeutungsspek-trum der Partikel komm im gesprochenen Deutsch. Die Untersuchung zeigt, dass sich alle Verwendungen auf eine gemeinsame Grundfunktion zurückführen lassen, die als 'Aufforderung zum Aktivitätswechsel mit Appell an den common ground' bezeichnet wird. Es wird gezeigt, dass sich weitere, in der Literatur häufig der Partikel selbst zugeschriebene Bedeutungsbestandteile aus dem syntaktischen und sequenziellen Kontext ergeben. Verschiedene Kontexte lassen verschiedene Aspekte des Aktivitätswechsels salient erscheinen, so dass die Aufforderung ent-weder den Beginn einer neuen Handlung oder das Beenden einer vorausgehenden Aktivität fokussiert. Außerdem wird diskutiert, welcher Subklasse der Diskurspartikeln sich komm zuordnen lässt. Es zeigt sich, dass sowohl Merkmale von Dis-kursmarkern als auch von Interjektionen vorliegen, dass die Partikel aber auch von den prototypischen Vertretern beider Kategorien abweichende Merkmale zeigt, so dass vorgeschlagen wird, auf eine Klassifikation unterhalb der Ebene der Diskurspartikel zu verzichten, solange nicht weitere von Imperativen abgeleitete Partikeln (z.B. warte, sag mal) empirisch untersucht sind, mit denen komm möglicherweise eine eigene Subklasse bildet.
Cette contribution s’intéresse aux co-constructions d’un tour de parole en interaction, plus spécifiquement, à la manière dont la complétion d’un énoncé de la part d’un co-participant est ensuite réceptionnée par le locuteur dont le tour a été complété. Malgré l’intérêt certain porté par l’analyse conversationnelle et la linguistique interactionnelle à la co-énonciation, l’évaluation de cette pratique par le premier locuteur n’a pas fait l’objet d’analyses approfondies. Dans ce qui suit, nous nous focalisons plus particulièrement sur les pratiques interactionnelles qui permettent aux participants de valider une co-construction. Ce travail est issu du projet ANR SPIM (« L’imitation dans la parole »), dans le cadre duquel nous nous sommes interrogée sur la fonction de l’hétéro-répétition (le fait de répéter un énoncé d’un autre locuteur ou une partie de celui-ci, opposée à l’auto- répétition) dans des séquences de co-construction d’un tour de parole.
Alors que de nombreuses études en analyse conversationnelle se sont intéressées à la manière dont des locuteurs co-construisent un tour de parole (notamment sur le plan syntaxique et prosodique), la façon dont la co-construction est ensuite évaluée n'a pas encore été étudiée en profondeur au sein de la littérature interactionniste. Ici, nous étudions deux pratiques permettant à un locuteur de valider une co-construction, à savoir l'acquiescement simple et l'hétéro-répétition de la complétion. En menant une analyse séquentielle et multimodale de plusieurs séquences de co-construction en français, nous montrons qu’à travers ces deux procédés – qui semblent au premier abord similaires dans leur fonctionnement – les locuteurs effectuent une évaluation très différente : tandis que l'acquiescement simple valide la complétion proposée uniquement comme une version possible, l'hétéro-répétition la valide comme étant une complétion complètement adéquate. Cette contribution met en évidence que les interactants exploitent des ressources audibles aussi bien que visibles afin de manifester si et dans quel sens ils acceptent la complétion de leur tour de parole de la part d’un coparticipant. Nous soulignons l’importance d’étudier en détail les différents formatages possibles des tours évaluant une complétion afin de pouvoir distinguer différentes formes « d’acceptation » et de révéler la manière dont les locuteurs peuvent finement négocier leur position en tant que (co-)auteur ou destinataire d’un tour de parole.
In der emotional geführten Sprachverfallsdebatte wird besonders die Apostrophsetzung vor dem Genitiv- und dem Plural-t, vulgo Deppen-Apostroph, kritisiert und als vermeintliche Entlehnung aus dem Englischen stigmatisiert. Erst seit kurzem liegen mit Scherer (2010, 2013) korpusbasierte Untersuchungen vor, die eine angemessene Interpretation dieses graphematischen Wandels erlauben, der weitaus älter ist als gemeinhin vermutet. Generell erweist sich, dass viele als neu und bedrohlich empfundene Sprachveränderungen bereits vor über hundert Jahren meist ebenso emotional gegeißelt wurden. Der Beitrag befasst sich hauptsächlich mit der diachronen Entwicklung des phonographischen Apostrophs zu einem morphographischen, dessen Funktion nun nicht mehr darin besteht, nicht-artikulierte Laute zu markieren, sondern morphologische Grenzen (Uschis, Joseph K.’s, CD’s). Deutlich wird, dass der Apostroph der Gestaltschonung komplexer Basen dient, deren Gros aus Eigennamen besteht. Anschließend wird in einem kürzeren Teil nach der Entstehung und Beschaffenheit dieser s-Flexive selbst gefragt. Diese sind ihrerseits Ergebnis flexionsmorphologischer Umstrukturierungen und garantieren maximale Konstanthaltung des Wortkörpers. Abschließend wird noch die neueste Entwicklung gestreift, die in der Deflexion ebendieser s-Flexive besteht und die sich wieder am deutlichsten bei den Eigennamen manifestiert. Diese haben als Quelle all dieser Entwicklungen zu gelten (vgl. des Irak, des Helmut Kohl, auch des Perfekt, des LKW, des Gegenüber). Insgesamt ist festzustellen: Nicht nur die Apostrophsetzung vor s-Flexiven, sondern auch die s-Flexive selbst sowie ihr derzeitiger Abbau dienen ein und derselben Funktion: Der Schonung durch Konstanthaltung markierter Wortkörper, worunter mehrheitlich Eigennamen fallen, daneben auch Fremdwörter, Kurzwörter und Konversionen. Damit sind es die Eigennamen, die Ausgangspunkt und Ursache tiefgreifenden flexionsmorphologischen und graphematischen Wandels bilden.
Dieser Beitrag geht der Frage nach, wie elexiko als eine Grundlage für Wortschatzübungen im Deutsch als Fremdsprache (bzw. Zweitsprache) Unterricht genutzt werden kann. Ausgegangen wird dabei davon, dass die explizite Wortschatzarbeit im Rahmen von Sprachunterricht, besonders gepaart mit einer gelungen vermittelten sprachbezogenen Landeskunde, das Verstehen der Sprache und die Fähigkeit zur erfolgreichen Kommunikation fördert. Dies setzt voraus, dass Deutschlehrende mit relevantem Sprachmaterial arbeiten, das sich möglichst eng am authentischen Sprachgebrauch orientiert und kulturelles Wissen mit transportiert. Hier bieten korpusgestützt erarbeitete Wörterbücher eine nützliche Quelle. Am Beispiel der im Wörterbuch aufgeführten Kollokationen wird skizziert, wie die Angaben aus diesem Bereich von Deutschlehrenden gewinnbringend für die Erarbeitung von Wortschatzübungen genutzt werden könnten.