Refine
Year of publication
- 2009 (88) (remove)
Document Type
- Part of a Book (53)
- Article (16)
- Conference Proceeding (11)
- Book (2)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
- Working Paper (1)
Language
- German (62)
- English (21)
- Portuguese (2)
- French (1)
- Latvian (1)
- Multiple languages (1)
Has Fulltext
- yes (88)
Keywords
- Deutsch (46)
- Sprachnorm (12)
- Korpus <Linguistik> (10)
- Grammatik (6)
- Computerlinguistik (4)
- Französisch (4)
- Interaktion (4)
- Konversationsanalyse (4)
- Syntax (4)
- Textlinguistik (4)
Publicationstate
- Veröffentlichungsversion (88) (remove)
Reviewstate
- (Verlags)-Lektorat (64)
- Peer-Review (16)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (2)
- Peer-Revied (1)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (22)
- Lang (9)
- Narr (7)
- Acta Universitatis Upsaliensis (2)
- Institut für Deutsche Sprache (2)
- Nova Fronteira (2)
- Schmidt (2)
- AAAI Press (1)
- Association for Computational Linguistics (1)
- Benjamins (1)
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Sprechaktbezogene Kausalität
(2009)
Sprache in Ost und West
(2009)
We present a morphological analyzer for Spanish called SMM. SMM is implemented in the grammar development framework Malaga, which is based on the formalism of Left-Associative Grammar. We briefly present the Malaga framework, describe the implementation decisions for some interesting morphological phenomena of Spanish, and report on the evaluation results from the analysis of corpora. SMM was originally only designed for analyzing word forms; in this article we outline two approaches for using SMM and the facilities provided by Malaga to also generate verbal paradigms. SMM can also be embedded into applications by making use of the Malagaprogramming interface; we briefly discuss some application scenarios.
Generative lexicalized parsing models, which are the mainstay for probabilistic parsing of English, do not perform as well when applied to languages with different language-specific properties such as free(r) word order or rich morphology. For German and other non-English languages, linguistically motivated complex treebank transformations have been shown to improve performance within the framework of PCFG parsing, while generative lexicalized models do not seem to be as easily adaptable to these languages. In this paper, we show a practical way to use grammatical functions as first-class citizens in a discriminative model that allows to extend annotated treebank grammars with rich feature sets without having to suffer from sparse data problems. We demonstrate the flexibility of the approach by integrating unsupervised PP attachment and POS-based word clusters into the parser.
Richtiges Deutsch?
(2009)
Nach einem Rückblick auf die Geschichte der Sprachnormierung in Frankreich und einem kurzen Bericht zur jetzigen „Lage der Nation“ befasst sich der folgende Beitrag zunächst mit Aspekten des Sprach(norm)bewusstseins, seinen Faktoren und seinen konkreten Formen, um dann auf drei „Mythen“ einzugehen, die seit langer Zeit sowohl die französische als auch die deutsche Grammatik belasten.
Das öffentliche Interesse an der Frage, was als gutes und was als schlechtes Deutsch anzusehen sei, artikuliert sich auch als Anforderung an die Sprachwissenschaft: Sie möge zur Klärung dieser Frage beitragen. Es wird dargelegt, warum die Sprachwissenschaft eine Explikation der Begriffe gutes Deutsch und schlechtes Deutsch nicht zu ihren Aufgaben im engeren Sinn zählt. Möglich ist aber eine Auseinandersetzung mit dem Anliegen, das die Forderung nach gutem Deutsch begründet. Die Sprachwissenschaft kann dieses Anliegen unterstützen, indem sie dabei hilft, den Weg über das richtige zum guten Deutsch auszubauen. Was dabei unter richtigem Deutsch zu verstehen ist, kann wissenschaftlich geklärt und sollte öffentlich vertreten werden. Der Beitrag versteht sich als Plädoyer für eine Verbesserung des Verhältnisses von Sprachwissenschaft und publizistischer Sprachkritik.
Gegenstand der Untersuchung sind semantisch irrelevante Rektionsschwankungen bei entlehnten, sekundären und primären Präpositionen, wobei auch Bildungen berücksichtigt werden, die nur gelegentlich eine präpositionale Funktion ausüben. Ein Überblick über die Normvorgaben zeigt, dass Rektionsschwankungen bei entlehnten Präpositionen weitgehend und bei sekundären Präpositionen selten erlaubt sind, bei primären Präpositionen gänzlich unbeachtet bleiben.
Die Normvorgaben, soweit vorhanden, werden dem realen Sprachgebrauch gegenübergestellt. Als Korpus dienen Belege aus Cosmas II (pressesprachliche Texte) und aus dem Internet. Besonderes Augenmerk wird auf Normverletzungen gerichtet: sekundäre Genitiv-Präpositionen mit regelwidriger Dativrektion (z. B. hinsichtlich), sekundäre Dativ-Präpositionen mit regelwidriger Genitivrektion (z. B. gegenüber), sekundäre Akkusativ-Präpositionen mit regelwidriger Genitiv- und Dativrektion (z. B. betreffend), primäre Präpositionen mit regelwidriger Genitivrektion (z. B. seit). Es zeigt sich insgesamt, dass fast alle etablierten Präpositionen mit regelwidrigem Kasus auftreten. Auch nicht-etablierte Präpositionen kommen sehr häufig mit einem Kasus vor, der nicht den etymologischen Strukturverhältnissen entspricht. Derartige Rektionsschwankungen, die sich vor allem aus dem Zusammenwirken von Grammatikalisierungs- und Analogieprozessen erklären lassen, erscheinen somit als Regel- und nicht als Ausnahmefall.
Eine statistische Untersuchung pressesprachlicher Texte zeigt exemplarisch anhand von 19 Präpositionen, dass die Prozentsätze normwidriger Kasusbelege jedoch zumeist gering sind. Insgesamt wird ersichtlich, dass im präpositionalen System des Deutschen - überraschenderweise - der Genitiv auf Kosten des Dativs an Boden gewinnt.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Das Ungarische verfügt neben einem definiten (a(z)) auch über einen indefiniten Artikel (egy). Dieser kann als schwächer grammatikalisiert angesehen werden als sein Gegenstück im Deutschen (ein), da er in einer Reihe von Kontexten, in denen ein obligatorisch erscheint, nur optional auftritt und teilweise sogar ausgeschlossen ist. Die folgenden Überlegungen zielen darauf ab, solche Kontexte mit Hilfe syntaktischer und/oder semantisch-pragmatischer Beschreibungskategorien zu identifizieren. Dabei beschränken wir uns aus Raumgründen auf die Vorkommensmöglichkeiten des indefiniten Artikels in Subjekt- und Objektfunktion, wobei wir generische Verwendungen generell unberücksichtigt lassen.
Die Datengrundlage bilden zum einen das Ungarische Nationalkorpus (Sigle MNSZ), zum anderen zwei literarische Texte, der Roman Szindbäd haza- megy/Sinbad geht heim von Sändor Märai (Sigle SM) sowie die Anthologie Modern magyar novelläk/Moderne ungarische Erzählungen (Sigle UE). Weiterhin wird auf in der Literatur angeführte Beispiele zurückgegriffen.
Sprachnormen treten im Normalfall erst dann in Erscheinung, wenn sie verletzt werden. Normverletzungen und die damit einhergehenden Sanktionen tragen somit zur Normenkonstitution wesentlich bei. Dabei stellt sich zunächst die Frage, was man unter sprachlichen Normen verstehen soll. Daraus ergeben sich Konsequenzen für die Kriterien, die Normen überhaupt konstituieren können. Für beide Fragestellungen ist der im Sprachwandel immer wieder thematisierte Übergangsbereich zwischen dem Entstehen neuer Normen und der Außerkraftsetzung bislang bestehender Normen ein interessantes Untersuchungsgebiet.
Auch wenn man in Rechnung stellt, dass die Definition von Sprachnormen nach wie vor umstritten ist, kann doch eine Reihe von Definitionskriterien als gesichert gelten. Zu ihnen werden neben der Obligation, der Sanktion, der Wertebezogenheit, der Formuliertheit, dem Situationsbezug der Norm auch die am Normierungsprozess beteiligten Gruppen gerechnet (Normautoritäten, Modellsprecher, Sprachexperten, Sprachkodifizierer). In manchen Definitionsversuchen wird der Sprachbenutzer m. E. zu stark in den Hintergrund gedrängt. Er stellt sozusagen als „Sprachsouverän“ die treibende Kraft für den Normenwandel dar und sollte daher auch in der theoretischen Modellierung von Sprachnormen deutlicher hervorgehoben werden. Außerdem lassen sich Sprachnormen klassifizieren sowohl nach dem Phänomenbereich, der normiert werden soll (Aussprache, Morphologie, Syntax, Lexik, Pragmatik etc.), als auch nach der Art der Genese (präskriptive/statuierte/gesetzte Normen vs. deskriptive/subsistente/konventionelle Normen). Sprachnormen zeigen sich letztlich als prototypisch gefasste Konzepte, deren konkrete Realisierungen eher mit dem Begriff der Familienähnlichkeit denn mit einem starren System an Definitionskriterien erfasst werden kann.
Im folgenden Beitrag soll es um drei Fragen gehen.
1. Inwieweit sollte der „Sprachsouverän“ in die Modellierung von Normen einbezogen werden?
2. Welche Funktionen haben Normverletzungen im Gefüge von Grammatikalität, Akzeptabilität und Sprachnormierung?
3. Unter welchen Bedingungen können sich neue Sprachnormen etablieren?
Der Fokus wird dabei auf der letzten Frage liegen. Nach einer kurzen Vorstellung der Modifikation des Sprachnormenmodells von U. Ammon (Frage 1) und Überlegungen zum Nutzen von Sprachnormverletzungen und zu den Vorteilen eines sich stetig wandelnden Sprachnormeninventars (Frage 2), möchte ich anhand von verschiedenen Beispielen zeigen, wie bestehende Normen außer Kraft gesetzt werden können und wie sich neue Nonnen etablieren. Dabei ist m. E. besonders bei der Etablierung neuer Normen die Frage interessant, ob letztlich alles zur Norm werden kann. An Beispielen aus der Morphologie und der Syntax soll gezeigt werden, welche Restriktionen auch bei neu zu etablierenden Normen gelten. Neue Normen „verwässern“ somit nicht nur den Bereich bisher bestehender Normen, sondern strukturieren ihn über die nach wie vor geltenden Ausschlusskriterien in positiver Weise neu, so dass neuen Normen stets auch der Bereich des Nichtnormgemäßen mit eingeschrieben ist.