Refine
Year of publication
- 2009 (29) (remove)
Document Type
- Article (18)
- Conference Proceeding (11)
Has Fulltext
- yes (29)
Keywords
- Deutsch (13)
- Deutschland <DDR> (3)
- Mehrsprachigkeit (3)
- Rezension (3)
- Sprachgebrauch (3)
- Sprachpolitik (3)
- Algorithmus (2)
- Automatische Sprachanalyse (2)
- Bildung (2)
- Computerlinguistik (2)
Publicationstate
- Veröffentlichungsversion (16)
- Zweitveröffentlichung (10)
- Postprint (4)
Reviewstate
- Peer-Review (29) (remove)
Publisher
- Schmidt (2)
- AAAI Press (1)
- AKS-Verlag (1)
- Acta Universitatis Upsaliensis (1)
- Association for Computing Machinery (1)
- EDUCatt (1)
- Edinburgh University Press (1)
- Elsevier (1)
- Erich Schmidt Verlag (1)
- Franz Steiner Verlag (1)
Die Artefaktbezeichnungen im Deutschen weisen, wie viele andere sprachliche Ausdrücke auch, eine vom Kontext abhängige Bedeutungsvariation auf, die sich nach systematisch wiederkehrenden Mustern gestaltet. Ein Ziel dieser Untersuchung ist es, herauszufinden, wie diese Bedeutungsvariation zustande kommt und welche semantischen Relationen oder Merkmale das Bindeglied zwischen den einzelnen Varianten der Wortbedeutung bilden. So lässt sich auch der Grad an Systematizität oder Regelhaftigkeit der Polysemie genauer bestimmen. Die Bedeutungsvariationen bei Artefaktbezeichnungen werden hier im wesentlichen als Fälle von metonymischer Bedeutungsverschiebung behandelt. Den Ausgangspunkt der Analyse bildet dabei eine unterspezifizierte semantische Form der sprachlichen Ausdrücke, die mit Hilfe verschiedener inferenzieller Verfahren und unter Einbeziehung von Kontext und Weltwissen schrittweise angereichert und modelliert wird.
Anhand eines Fallbeispiels wird gezeigt, dass in der praktischen Arbeit des EuGH Rechtsarbeit und Spracharbeit eng miteinander verflochten sind. Wenn es in einem strittigen Fall um die konkrete Ausarbeitung einer haltbaren Sachverhaltsbeschreibung geht, zeigt sich, dass die Rechtsarbeit und die Spracharbeit des Gerichts eigentlich identisch sind. In einem solchen Fall ist es für das Gericht nützlich und günstig, wenn es auf so viele sprachliche Formulierungen (auch in verschiedenen Sprachen) zurückgreifen kann wie möglich. Das Ziel ist, möglichst viele Interpretationen in Betracht zu ziehen, um das Urteil bestandssicher zu machen. In dieser Situation sind Vorschläge, das Sprachenspektrum, in dem der EuGH arbeitet, im Vorhinein und generell einzuschränken, kontraproduktiv.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
Die sprachlichen Veränderungen der letzten 20 Jahre sind von zwei Zeitabschnitten gekennzeichnet, die in Bezug auf die Wortschatzentwicklung unterschiedlicher nicht hätten sein können: Der erste, kurze, ist von der Wendezeit – mit auffälligem, meist nur vorübergehendem Lexemwandel – und dem Beitritt der DDR zur Bundesrepublik – mit dem Verschwinden bzw. Austausch des größten Teils des DDR-typischen Wortschatzes – geprägt. Der zweite, wesentlich längere Abschnitt ist von der Entwicklung im vereinigten Deutschland mit einem im Vergleich unauffälligen, weil kontinuierlichen Wortschatzwandel bestimmt.
The paper discusses particular logical consistency conditions satisfied by German proposition-embedding predicates which determine the question type (external and internal whether-form as well as exhaustive and non-exhaustive wh-form), the correlate type (es- or da-correlate) as well as the impact of the correlate on the respective consistency condition. It will turn out that some consistency conditions also determine the embedding of verb second and subject-control.
Über den gemeinsamen Sprachgebrauch in Ost und West, seine Probleme und kreativen Möglichkeiten
(2009)
In dieser Arbeit über den neueren deutschen Sprachgebrauch in Ost und West soll nicht das Trennende betont werden, sondern das gemeinsame Spracherbe und seine Wirkung in der Gegenwart. Aber eine Beobachtung gegenüber vielen kritischen Stimmen aus West und Ost sei, in völlig unpolemischer Absicht, nicht verschwiegen: Zu viele sprachkritische Artikel aus der Bundesrepublik haben in der Vergangenheit von der aus Texten bekannten offiziellen Sprache der DDR-Machthaber zu direkt auf die wirklich gesprochene Sprache der Bevölkerungsmehrheit geschlossen, und zu viele DDR-Sprachwissenschaftler und Polemiker haben auf die westliche Kritik vor allem als Verteidiger des politischen Kurses der SED reagiert, aus welchen persönlichen Gründen auch immer. Gedruckt worden wären andere Meinungen in der DDR allerdings nicht, und der Karriere waren sie auch nicht förderlich. Trotzdem gilt: Die deutsche Sprache hat sich in Ost und West auf jeweils spezifische Weise weiterentwickelt, sie wurde aber nicht gespalten und funktionierte in Ost und West und - trotz spürbarer Unterschiede - zwischen Ost und West als gemeinsames Verständigungsmittel, wo immer sie dafür benutzt wurde. Zwischen den Begriffen „Sprachwandel“ und „Bezeichnungswandel“ muss sorgfältig unterschieden werden. Im kreativen Umgang mit dem gemeinsamen Deutsch haben sich Ost und West längst wieder zusammengefunden. Genauere Untersuchungen über das Alltags-deutsch in der DDR sind sehr zu wünschen, die Schaffung eines brauchbaren Korpus dafür ist im Nachhinein nicht einfach, sollte aber in Angriff genommen werden.
We present MaJo, a toolkit for supervised Word Sense Disambiguation (WSD), with an interface for Active Learning. Our toolkit combines a flexible plugin architecture which can easily be extended, with a graphical user interface which guides the user through the learning process. MaJo integrates off-the-shelf NLP tools like POS taggers, treebank-trained statistical parsers, as well as linguistic resources like WordNet and GermaNet. It enables the user to systematically explore the benefit gained from different feature types for WSD. In addition, MaJo provides an Active Learning environment, where the
system presents carefully selected instances to a human oracle. The toolkit supports manual annotation of the selected instances and re-trains the system on the extended data set. MaJo also provides the means to evaluate the performance of the system against a gold standard. We illustrate the usefulness of our system by learning the frames (word senses) for three verbs from the SALSA corpus, a version of the TiGer treebank with an additional layer of frame-semantic annotation. We show how MaJo can be used to tune the feature set for specific target words and so improve performance for these targets. We also show that syntactic features, when carefully tuned to the target word, can lead to a substantial increase in performance.