Refine
Year of publication
- 2009 (28) (remove)
Document Type
- Article (17)
- Conference Proceeding (11)
Has Fulltext
- yes (28)
Is part of the Bibliography
- no (28) (remove)
Keywords
- Deutsch (13)
- Deutschland <DDR> (3)
- Mehrsprachigkeit (3)
- Rezension (3)
- Sprachgebrauch (3)
- Sprachpolitik (3)
- Algorithmus (2)
- Automatische Sprachanalyse (2)
- Bildung (2)
- Computerlinguistik (2)
Publicationstate
- Veröffentlichungsversion (16)
- Zweitveröffentlichung (10)
- Postprint (4)
Reviewstate
- Peer-Review (28) (remove)
Publisher
- Schmidt (2)
- AAAI Press (1)
- AKS-Verlag (1)
- Acta Universitatis Upsaliensis (1)
- Association for Computing Machinery (1)
- EDUCatt (1)
- Edinburgh University Press (1)
- Erich Schmidt Verlag (1)
- Franz Steiner Verlag (1)
- Friedrich Verlag (1)
2008. godā tyka veikts pietejums, kura golvonais mierkis beja raksturuot niulenejū latgalīšu volūdys lūmu izgleiteibys sistemā. Itys roksts prezeņtej byutiskuokūs pietejuma rezultatus. Pietejuma īrūsme sajimta nu „Mercator Education Centre“ (Merkatora izgleiteibys centra), kas dorbojās Nīderlaņdē Ļuvortā (frīzu volūdā — Ljouwert), Frīzejis proviņcis golvyspiļsātā. Piļneigs pietejuma izvārsums ar Merkatora izgleiteibys centra atbolstu publicāts izdavumu serejā „Regional Dossier Series“ (Regionalūs dosje sereja) angļu volūdā. Itys roksts golvonom kuortom dūmuots taidam adresatam, kas mozuok ir saisteits ar Eiropys volūdu izpietis institucejom i kam roksti angļu volūdā var saguoduot izpratnis voi atrasšonys gryuteibys. Partū pietejuma suokumā teik dūts seikuoks metožu i mierķu raksturuojums, paskaidrojūt pietejuma strukturu i rezultatu apkūpuojuma veidu, kai ari dūts puorskots par latgalīšu volūdys lūmu myusdīnu izgleiteibys sistemā. Sacynuojumūs ir īzeimātys nuokūtnis perspektivis i prīšklykumi dabuotūs rezultatu izmontuojumam.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations
(2009)
In this paper we show that the extraction of opinions from free-text reviews can improve the accuracy of movie recommendations. We present three approaches to extract movie aspects as opinion targets and use them as features for the collaborative filtering. Each of these approaches requires different amounts of manual interaction. We collected a data set of reviews with corresponding ordinal (star) ratings of several thousand movies to evaluate the different features for the collaborative filtering. We employ a state-of-the-art collaborative filtering engine for the recommendations during our evaluation and compare the performance with and without using the features representing user preferences mined from the free-text reviews provided by the users. The opinion mining based features perform significantly better than the baseline, which is based on star ratings and genre information only.
This paper introduces LRTwiki, an improved variant of the Likelihood Ratio Test (LRT). The central idea of LRTwiki is to employ a comprehensive domain specific knowledge source as additional “on-topic” data sets, and to modify the calculation of the LRT algorithm to take advantage of this new information. The knowledge source is created on the basis of Wikipedia articles. We evaluate on the two related tasks product feature extraction and keyphrase extraction, and find LRTwiki to yield a significant improvement over the original LRT in both tasks.
Cette contribution discute différents enjeux dégagés lors d’une étude des pratiques professionnelles plurilingues : ces enjeux ont émergé d’une analyse menée collaborativement par deux équipes de chercheurs, à Lyon et à Paris, participant au projet européen DYLAN (6e programme cadre) et élaborant ensemble l’analyse empirique d’un extrait d’une réunion de travail, enregistrée dans le cadre d’une collaboration sur un même terrain. Cette analyse est l’occasion de thématiser de manière exemplaire un certain nombre de questions surgissant de l’étude des contacts des langues dans les contextes professionnels, concernant aussi bien les enjeux épistémologiques que l'engagement du chercheur sur le terrain.
Using concurrent electroencephalogram and eye movement measures to track natural reading, this study shows that N400 effects reflecting predictability are dissociable from those owing to spreading activation. In comparing predicted sentence endings with related and unrelated unpredicted endings in antonym constructions (‘the opposite of black is white/yellow/nice’), fixation-related potentials at the critical word revealed a predictability-based N400 effect (unpredicted vs. predicted words). By contrast, event-related potentials time locked to the last fixation before the critical word showed an N400 only for the nonrelated unpredicted condition (nice). This effect is attributed to a parafoveal mismatch between the critical word and preactivated lexical features (i.e. features of the predicted word and its associates). In addition to providing the first demonstration of a parafoveally induced N400 effect, our results support the view that the N400 is best viewed as a component family.
The paper discusses particular logical consistency conditions satisfied by German proposition-embedding predicates which determine the question type (external and internal whether-form as well as exhaustive and non-exhaustive wh-form), the correlate type (es- or da-correlate) as well as the impact of the correlate on the respective consistency condition. It will turn out that some consistency conditions also determine the embedding of verb second and subject-control.
Dass politische Strömungen und staatliche Forschungsförderung auch die wissenschaftliche Beschäftigung mit dem Thema „Sprache und Kommunikation in Deutschland Ost und West“ beeinflusst haben – und zwar in beiden deutschen Staaten –, ist schon festgestellt worden. In diesem Beitrag sollen, einer zeitlichen Gliederung in vier Phasen folgend, diese Beziehungen in Umrissen nachgezeichnet werden. Im Mittelpunkt steht dabei die Zeit der Reformjahre 1969 bis 1974 und ihr umfassender Paradigmenwechsel in der bundesdeutschen DDR-Forschung und Forschungsförderung. Hinzu treten Betrachtungen zum Verhältnis von Staat, Nation und Sprache sowie die Frage nach der Kommunikation zwischen Ost- und Westdeutschen seit der friedlichen Revolution.
We present MaJo, a toolkit for supervised Word Sense Disambiguation (WSD), with an interface for Active Learning. Our toolkit combines a flexible plugin architecture which can easily be extended, with a graphical user interface which guides the user through the learning process. MaJo integrates off-the-shelf NLP tools like POS taggers, treebank-trained statistical parsers, as well as linguistic resources like WordNet and GermaNet. It enables the user to systematically explore the benefit gained from different feature types for WSD. In addition, MaJo provides an Active Learning environment, where the
system presents carefully selected instances to a human oracle. The toolkit supports manual annotation of the selected instances and re-trains the system on the extended data set. MaJo also provides the means to evaluate the performance of the system against a gold standard. We illustrate the usefulness of our system by learning the frames (word senses) for three verbs from the SALSA corpus, a version of the TiGer treebank with an additional layer of frame-semantic annotation. We show how MaJo can be used to tune the feature set for specific target words and so improve performance for these targets. We also show that syntactic features, when carefully tuned to the target word, can lead to a substantial increase in performance.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Anhand eines Fallbeispiels wird gezeigt, dass in der praktischen Arbeit des EuGH Rechtsarbeit und Spracharbeit eng miteinander verflochten sind. Wenn es in einem strittigen Fall um die konkrete Ausarbeitung einer haltbaren Sachverhaltsbeschreibung geht, zeigt sich, dass die Rechtsarbeit und die Spracharbeit des Gerichts eigentlich identisch sind. In einem solchen Fall ist es für das Gericht nützlich und günstig, wenn es auf so viele sprachliche Formulierungen (auch in verschiedenen Sprachen) zurückgreifen kann wie möglich. Das Ziel ist, möglichst viele Interpretationen in Betracht zu ziehen, um das Urteil bestandssicher zu machen. In dieser Situation sind Vorschläge, das Sprachenspektrum, in dem der EuGH arbeitet, im Vorhinein und generell einzuschränken, kontraproduktiv.
Über den gemeinsamen Sprachgebrauch in Ost und West, seine Probleme und kreativen Möglichkeiten
(2009)
In dieser Arbeit über den neueren deutschen Sprachgebrauch in Ost und West soll nicht das Trennende betont werden, sondern das gemeinsame Spracherbe und seine Wirkung in der Gegenwart. Aber eine Beobachtung gegenüber vielen kritischen Stimmen aus West und Ost sei, in völlig unpolemischer Absicht, nicht verschwiegen: Zu viele sprachkritische Artikel aus der Bundesrepublik haben in der Vergangenheit von der aus Texten bekannten offiziellen Sprache der DDR-Machthaber zu direkt auf die wirklich gesprochene Sprache der Bevölkerungsmehrheit geschlossen, und zu viele DDR-Sprachwissenschaftler und Polemiker haben auf die westliche Kritik vor allem als Verteidiger des politischen Kurses der SED reagiert, aus welchen persönlichen Gründen auch immer. Gedruckt worden wären andere Meinungen in der DDR allerdings nicht, und der Karriere waren sie auch nicht förderlich. Trotzdem gilt: Die deutsche Sprache hat sich in Ost und West auf jeweils spezifische Weise weiterentwickelt, sie wurde aber nicht gespalten und funktionierte in Ost und West und - trotz spürbarer Unterschiede - zwischen Ost und West als gemeinsames Verständigungsmittel, wo immer sie dafür benutzt wurde. Zwischen den Begriffen „Sprachwandel“ und „Bezeichnungswandel“ muss sorgfältig unterschieden werden. Im kreativen Umgang mit dem gemeinsamen Deutsch haben sich Ost und West längst wieder zusammengefunden. Genauere Untersuchungen über das Alltags-deutsch in der DDR sind sehr zu wünschen, die Schaffung eines brauchbaren Korpus dafür ist im Nachhinein nicht einfach, sollte aber in Angriff genommen werden.
We compare the use of überhaupt and sowieso in Dutch and German. We use the world-wide web as the main resource and pursue a zigzag strategy, trying to find usages going back and forth between dictionaries, intuitions and real data obtained through web search. To our surprise, the results more or less confirm the decision of Dutch dictionaries to consider überhaupt and sowieso synonymous. In German, we find no synonymy, but only a great overlap of usage conditions in declarative sentences.
Der Schein trügt nämlich
(2009)
The German particle nämlich is puzzling because it seems to have two independent semantic functions which strictly correlate with specific syntactic environments: if nämlich precedes an ,,orphan constituent" (Haegeman 1991) it specifies an underspecified discourse referent in the previous clause, and if nämlich appears in a whole clause its function is marking that the hostclause delivers an explanation to the previous clause. A polysemy- or even homonymy-analysis seems problematic precisely because of this strict correlation between syntactic environment and semantic function. In this paper we propose a unified analysis of nämlich. We argue that nämlich marks the property of the context that there is an implicit question to which the host of nämlich delivers a direct (short) answer (Jacobson 2008). Crucially, constituents are good short answers to constituent-questions (Who?), while whole clauses are only good short-answers to ,,sentence"-questions like Why p? Building on these intuitions we show how both readings of nämlich can systematically be derived and implement our analysis formally.
Complex common names such as Indian elephant or green tea denote a certain type of entity, viz. kinds. Moreover, those kinds are always subkinds of the kind denoted by their head noun. Establishing such subkinds is essentially the task of classifying modifiers that are a defining trait of endocentrically structured complex common names. Examining complex common names of different lexico-syntactic types(NN compounds, N+N syntagmas, NP/PP syntagmas, A+N syntagmas) and from different languages (particularly English, German and French) it can be shown that complex common names are subject to language- independent formal and semantic constraints. In particular, complex common names qualify as name-like expressions in that they tend to be deficient in terms of formal complexity and semantic compositionality.
Die sprachlichen Veränderungen der letzten 20 Jahre sind von zwei Zeitabschnitten gekennzeichnet, die in Bezug auf die Wortschatzentwicklung unterschiedlicher nicht hätten sein können: Der erste, kurze, ist von der Wendezeit – mit auffälligem, meist nur vorübergehendem Lexemwandel – und dem Beitritt der DDR zur Bundesrepublik – mit dem Verschwinden bzw. Austausch des größten Teils des DDR-typischen Wortschatzes – geprägt. Der zweite, wesentlich längere Abschnitt ist von der Entwicklung im vereinigten Deutschland mit einem im Vergleich unauffälligen, weil kontinuierlichen Wortschatzwandel bestimmt.
Die Artefaktbezeichnungen im Deutschen weisen, wie viele andere sprachliche Ausdrücke auch, eine vom Kontext abhängige Bedeutungsvariation auf, die sich nach systematisch wiederkehrenden Mustern gestaltet. Ein Ziel dieser Untersuchung ist es, herauszufinden, wie diese Bedeutungsvariation zustande kommt und welche semantischen Relationen oder Merkmale das Bindeglied zwischen den einzelnen Varianten der Wortbedeutung bilden. So lässt sich auch der Grad an Systematizität oder Regelhaftigkeit der Polysemie genauer bestimmen. Die Bedeutungsvariationen bei Artefaktbezeichnungen werden hier im wesentlichen als Fälle von metonymischer Bedeutungsverschiebung behandelt. Den Ausgangspunkt der Analyse bildet dabei eine unterspezifizierte semantische Form der sprachlichen Ausdrücke, die mit Hilfe verschiedener inferenzieller Verfahren und unter Einbeziehung von Kontext und Weltwissen schrittweise angereichert und modelliert wird.
Sprache in Ost und West
(2009)
Es gibt zwar schon seit dem Mauerfall einen populären Diskurs über die Verständigungsschwierigkeiten zwischen Ost- und Westdeutschen und über die sprachlichen Unterschiede auf beiden Seiten. Über die Meinungen und Einstellungen zu sprachlichen Fragen ist aber so gut wie nichts bekannt. In diesem Beitrag wird untersucht, wie (bzw. wie verschieden) die Deutschen in Ost und West über das Deutsche, über andere Sprachen, über Sprachgebrauch und Sprachpolitik denken. Dabei zeigt sich, dass statistisch gesehen die Gemeinsamkeiten deutlich größer sind als die Unterschiede. Materielle Grundlage für die Untersuchung ist eine repräsentative Meinungsumfrage, die die Forschungsgruppe Wahlen im Herbst 2008 für das Institut für Deutsche Sprache und die Universität Mannheim durchgeführt hat.
Bedeutung und Standardinterpretation von Äußerungen mit negierten negativ-bewertenden Adjektiven
(2009)
Thema dieses Beitrags ist der Unterschied zwischen der Bedeutung und der Standard- oder „Default“-Interpretation von Äußerungen mit negierten lexikalischen bzw. un-präfigierten Antonymen graduierbarer Adjektive wie intelligent (z.B. X ist nicht dumm vs. X ist nicht unintelligent). Ausgehend von der Darstellung der Bedeutung und der Standardinterpretation der entsprechenden nicht-negierten Formen dieser Äußerungen (z.B. X ist dumm vs. X ist unintelligent) wird zunächst gezeigt, dass Äußerungen wie X ist nicht dumm und X ist nicht unintelligent sich im Hinblick auf das, was mit ihnen kodiert ist, unterscheiden: Äußerungen mit negierten lexikalischen Antonymen (X ist nicht dumm) umfassen sowohl den positiven als auch den neutralen Mittelbereich der jeweils relevanten Skala, solche mit negierten un-präfigierten Antonymen (X ist nicht unintelligent) hingegen nur den positiven Bereich. Die beiden Typen von Äußerungen unterscheiden sich aber auch im Hinblick auf ihre Standardinterpretation: Obwohl sie beide überlicherweise als ‚eher X‘ oder ‚ziemlich X‘ (z.B. ‚eher intelligent‘ oder ‚ziemlich intelligent‘) interpretiert werden, wird die mit den negierten, un-präfigierten Formen ausgedrückte Bewertung von Muttersprachlern (des Deutschen) häufig als positiver eingeschätzt als die Bewertung, die mit den negierten nicht-abgeleiteten Formen ausgedrückt wird.
This article examines the contrasts and commonalities between languages for specific purposes (LSP) and their popularizations on the one hand and the frequency patterns of LSP register features in English and German on the other. For this purpose corpora of expertexpert and expert-lay communication are annotated for part-of-speech and phrase structure information. On this basis, the frequencies of pre- and post-modifications in complex noun phrases are statistically investigated and compared for English and German. Moreover, using parallel and comparable corpora it is tested whether English-German translations obey the register norms of the target language or whether the LSP frequency patterns of the source language Ñshine throughì. The results provide an empirical insight into language contact phenomena involving specialized communication.