Refine
Year of publication
- 2009 (88) (remove)
Document Type
- Part of a Book (53)
- Article (16)
- Conference Proceeding (11)
- Book (2)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
- Working Paper (1)
Language
- German (62)
- English (21)
- Portuguese (2)
- French (1)
- Latvian (1)
- Multiple languages (1)
Has Fulltext
- yes (88)
Keywords
- Deutsch (46)
- Sprachnorm (12)
- Korpus <Linguistik> (10)
- Grammatik (6)
- Computerlinguistik (4)
- Französisch (4)
- Interaktion (4)
- Konversationsanalyse (4)
- Syntax (4)
- Textlinguistik (4)
Publicationstate
- Veröffentlichungsversion (88) (remove)
Reviewstate
- (Verlags)-Lektorat (64)
- Peer-Review (16)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (2)
- Peer-Revied (1)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (22)
- Lang (9)
- Narr (7)
- Acta Universitatis Upsaliensis (2)
- Institut für Deutsche Sprache (2)
- Nova Fronteira (2)
- Schmidt (2)
- AAAI Press (1)
- Association for Computational Linguistics (1)
- Benjamins (1)
Die Artefaktbezeichnungen im Deutschen weisen, wie viele andere sprachliche Ausdrücke auch, eine vom Kontext abhängige Bedeutungsvariation auf, die sich nach systematisch wiederkehrenden Mustern gestaltet. Ein Ziel dieser Untersuchung ist es, herauszufinden, wie diese Bedeutungsvariation zustande kommt und welche semantischen Relationen oder Merkmale das Bindeglied zwischen den einzelnen Varianten der Wortbedeutung bilden. So lässt sich auch der Grad an Systematizität oder Regelhaftigkeit der Polysemie genauer bestimmen. Die Bedeutungsvariationen bei Artefaktbezeichnungen werden hier im wesentlichen als Fälle von metonymischer Bedeutungsverschiebung behandelt. Den Ausgangspunkt der Analyse bildet dabei eine unterspezifizierte semantische Form der sprachlichen Ausdrücke, die mit Hilfe verschiedener inferenzieller Verfahren und unter Einbeziehung von Kontext und Weltwissen schrittweise angereichert und modelliert wird.
This paper shows how a corpus-driven approach leads to a new perspective on central issues of phraseology and on lexicographical applications. It argues that a data-driven pattem search (applying Statistical methods), an a posteriori interpretation of the data and a user oriented documentation of the usage of multi-word units (e. g. in lexicographical articles) constitute a step-by-step process where each step has its own informational value and useflilness. The description of multi-word units (Usuelle Wortverbindungen) presented in this paper focuses on the second Step, the high quality analysis and interpretation of collocation data, exemplified by the fields of multi-word units centered around the word formslIdee/Ideenl(idea/ideas).
Nach Eve Sweetser (1990) kann eine Äußerung auf drei kognitiven Ebenen - Sachverhaltsebene, epistemische Ebene und Sprechaktebene - gedeutet werden. In diesem Beitrag werden auf der Basis eines Korpus gesprochensprachlicher Daten' sowohl syntaktische als auch prosodische Besonderheiten kausaler und konditionaler konnektorhaltiger Relationen untersucht, die auf unterschiedlichen Ebenen gedeutet werden können. Ein besonderes Interesse gilt dabei der Frage, ob die Sweetser’sehen Ebenen im Deutschen sprachlich markiert sind. Es wird gezeigt, dass syntaktische und prosodische Signale mit den Ebenen sehr stark korrelieren, die Ebenen im kausalen Bereich aber anders markiert sind als im konditionalen Bereich. Aufgrund dieses Befundes wird gegen die Annahme Sweetsers argumentiert, dass Kausalität als Basisbedeutung für Konditionalität angesehen werden könne.
Der vorliegende Beitrag beschäftigt sich mit zwei zentralen Fragen, denen sich die wissenschaftliche Grammatikographie zu stellen hat: der Frage nach ihrem Verständnis von .Sprache' und der Frage nach dem Verhältnis von Standard bzw. grammatischem System und grammatischer Norm. Im ersten Teil werden jeweils zwei verschiedene Ausprägungen von zwei Grundpositionen vorgestellt: „Es gibt eine Sprache hinter dem Sprechen“ mit dem generativen Konzept der Kompetenz und dem strukturalistischen der langue und „Es gibt keine Sprache hinter dem Sprechen“ mit der konstruktivistischen Idee der .Emergenz' von Sprache aus dem Sprechen und dem Rückzug auf die Auswertung von Korpora. Es wird nicht nur aus pragmatischen Gründen dafür plädiert, dass die Grammatikschreibung sich an die Konzeption von Einzelsprachen als gesellschaftlich gültige Regelsysteme hält. Im zweiten Teil wird untersucht, auf welche Weise sich Grammatiken dem „Systemgerechten“ nähern können. Am Beispiel des „Markiertheitsabbaus“ in der schwachen Flexion maskuliner Substantive wird eine moderat strukturalistische Hypothesenbildung, bei der das deutsche Flexionssystem als labile Ordnung erscheint, vorgeführt. Der Umgang von Grammatiken mit dem Verhältnis von Standardsprache, System und Norm wird an weiteren morphologischen und syntaktischen Phänomenen nachgezeichnet. Die stärkere Sensibilisierung der Grammatikschreibung für Normabstufungen, die Offenheit und Flexibilität des Systems wird herausgestellt.
Die Grammatik behauptet sich seit Langem als Gegenstand des Deutschunterrichts, aber sie wird immer wieder „fragwürdig“: Behalten die Schüler, was sie gelernt haben? Liefert die Schulgrammatik geeignete Instrumente für die Sprachreflexion? Bringt sie den behaupteten Nutzen fürs Sprechen, Schreiben und Lesen? Den offiziellen Begründungen für und den behaupteten guten Wirkungen von Grammatik in der Schule, wie sie in den Bildungsplänen und von der Didaktik vertreten werden, begegnet der Verfasser mit einer gewissen Skepsis. Die stützt sich auch auf eine eigens für diesen Beitrag durchgeführte Befragung von Deutsch Lehrenden und die Durchsicht von Abiturarbeiten im Fach Deutsch. Er plädiert für einen Grammatikunterricht mit weniger (vom Lehrer) aufgesetzter Systematik und Begrifflichkeit und mehr sprachlichen Entdeckungsreisen (der Schüler), ausgelöst durch Lernarrangements, die zum Nachdenken anregen.
Eigennamen sind besondere Sprachzeichen; sie heben sich semantisch, pragmatisch, zum Teil auch grammatisch von appellativischen Nomina (Gattungsnamen“) ab. Der Sonderwortschatz an Eigennamen (Personennamen wie Rainer oder Gisela, Ortsnamen wie Rom oder Deutschland) deckt den Benennungsbedarf keineswegs ab. Für weniger prototypische Namensträger werden häufig konventionelle Sprachmittel zum Eigennamen umfunktioniert. Der Beitrag beschäftigt sich mit nominalen Konstruktionen, mit denen künstlerische Werke (Beispiele: „Der englische Patient“, „Hundejahre“) und Gasthäuser (Beispiele: „Goldener Stern“, „Zum Ritter“) benannt werden. Die semantische Transposition, so die These des Beitrags, kann zu grammatischen Konflikten führen. Einerseits soll der Name möglichst an seiner unverwechselbaren Gestalt wiedererkennbar sein und sich daher z.B. gegenüber flexivischen Veränderungen resistent zeigen, andererseits soll er wie jeder andere Ausdruck syntaktisch in seine Umgebung eingepasst werden. Unterschiedliche Strategien der Konfliktlösung werden anhand von Belegen demonstriert und interpretiert. Der konkrete Beispielfall illustriert gleichzeitig, wie man sprachlichen Regeln auf unsicherem Terrain folgen kann, mitunter auch haarscharf an der Norm vorbei.
Vorwort
(2009)
Vorwort
(2009)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
Der Begriff Wortprosodie bezeichnet hier die Organisation von Segmenten in die hierarchisch geordneten Konstituenten Silbe, Fuß und phonologisches Wort. Evidenz für solch eine Organisation und die ihr zugrundeliegenden Regeln findet sich in gewissen distributioneilen sowie phonetischen Besonderheiten von Segmenten. In diesem Beitrag versuche ich eine Darstellung der wesentlichen Züge der deutschen Wortprosodie als Interaktion miteinander in Konflikt stehender Beschränkungen im Sinne der Optimalitätstheorie. Im Mittelpunkt steht die Herausarbeitung unmarkierter prosodischer Strukturen auf der phonologisch-lexikalischen Ebene, da unmarkierte Strukturen einen wichtigen Bezugspunkt für die Beurteilung von Varianten bilden. Zugleich ergibt sich eine neue Perspektive auf das Verhältnis von Norm und Regel.
Variation in der Flexionsmorphologie: Starke und schwache Adjektivflexion nach Pronominaladjektiven
(2009)
Adjektive zeigen in der Stellung nach Indefinitpronomina und demonstrativen oder quantitativen Adjektiven (sogenannten Pronominaladjektiven) Variationen zwischen starker und schwacher Flexion, die durch die allgemeine Grundregel der Adjektivflexion (,schwach nach stark‘) nicht abgedeckt sind: (i) bei gleicher Genus-, Numerus- und Kasusspezifikation nach verschiedenen Pronominallexemen wie in einige kleine Kinder vs. alle kleinen Kinder, (ii) bei unterschiedlicher kategorieller Spezifikation nach ein und demselben Pronominallexem (wie in einige kleine Kinder vs. bei einigem guten Willen) oder (iii) bei verschiedenen Vorkommen mit identischer kategorieller Spezifikation nach ein und demselben Pronominallexem wie in beider deutscher Staaten vs. beider deutschen Staaten. Im vorliegenden Beitrag wird eine Klärung der systematischen Grundlagen derartiger ‚Schwankungen‘ angestrebt, die in den Grammatiken Fall für Fall beschrieben werden. Lexikalische und flexivische Parameter, die die Verteilung starker und schwacher Formen steuern, werden identifiziert. Als wesentlich erweisen sich einerseits bei den Pronominaladjektiven zu beobachtende Abstufungen im Grad syntaktisch-semantischer Ähnlichkeit zum prototypischen Determinativ, dem definiten Artikel; andererseits bei den Flexionsendungen zu beobachtende Abstufungen im Grad kategorieller und formaler Markiertheit. Im Ergebnis wird ein zweidimensionales Kontinuum von Übergangsstufen zwischen starker und schwacher Adjektivflexion nach Pronominaladjektiven sichtbar, das durch das Zusammenspiel lexikalischer und flexivischer Faktoren erzeugt wird.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Sprechaktbezogene Kausalität
(2009)
Sprache in Ost und West
(2009)
We present a morphological analyzer for Spanish called SMM. SMM is implemented in the grammar development framework Malaga, which is based on the formalism of Left-Associative Grammar. We briefly present the Malaga framework, describe the implementation decisions for some interesting morphological phenomena of Spanish, and report on the evaluation results from the analysis of corpora. SMM was originally only designed for analyzing word forms; in this article we outline two approaches for using SMM and the facilities provided by Malaga to also generate verbal paradigms. SMM can also be embedded into applications by making use of the Malagaprogramming interface; we briefly discuss some application scenarios.
Generative lexicalized parsing models, which are the mainstay for probabilistic parsing of English, do not perform as well when applied to languages with different language-specific properties such as free(r) word order or rich morphology. For German and other non-English languages, linguistically motivated complex treebank transformations have been shown to improve performance within the framework of PCFG parsing, while generative lexicalized models do not seem to be as easily adaptable to these languages. In this paper, we show a practical way to use grammatical functions as first-class citizens in a discriminative model that allows to extend annotated treebank grammars with rich feature sets without having to suffer from sparse data problems. We demonstrate the flexibility of the approach by integrating unsupervised PP attachment and POS-based word clusters into the parser.
Richtiges Deutsch?
(2009)
Nach einem Rückblick auf die Geschichte der Sprachnormierung in Frankreich und einem kurzen Bericht zur jetzigen „Lage der Nation“ befasst sich der folgende Beitrag zunächst mit Aspekten des Sprach(norm)bewusstseins, seinen Faktoren und seinen konkreten Formen, um dann auf drei „Mythen“ einzugehen, die seit langer Zeit sowohl die französische als auch die deutsche Grammatik belasten.
Das öffentliche Interesse an der Frage, was als gutes und was als schlechtes Deutsch anzusehen sei, artikuliert sich auch als Anforderung an die Sprachwissenschaft: Sie möge zur Klärung dieser Frage beitragen. Es wird dargelegt, warum die Sprachwissenschaft eine Explikation der Begriffe gutes Deutsch und schlechtes Deutsch nicht zu ihren Aufgaben im engeren Sinn zählt. Möglich ist aber eine Auseinandersetzung mit dem Anliegen, das die Forderung nach gutem Deutsch begründet. Die Sprachwissenschaft kann dieses Anliegen unterstützen, indem sie dabei hilft, den Weg über das richtige zum guten Deutsch auszubauen. Was dabei unter richtigem Deutsch zu verstehen ist, kann wissenschaftlich geklärt und sollte öffentlich vertreten werden. Der Beitrag versteht sich als Plädoyer für eine Verbesserung des Verhältnisses von Sprachwissenschaft und publizistischer Sprachkritik.
Gegenstand der Untersuchung sind semantisch irrelevante Rektionsschwankungen bei entlehnten, sekundären und primären Präpositionen, wobei auch Bildungen berücksichtigt werden, die nur gelegentlich eine präpositionale Funktion ausüben. Ein Überblick über die Normvorgaben zeigt, dass Rektionsschwankungen bei entlehnten Präpositionen weitgehend und bei sekundären Präpositionen selten erlaubt sind, bei primären Präpositionen gänzlich unbeachtet bleiben.
Die Normvorgaben, soweit vorhanden, werden dem realen Sprachgebrauch gegenübergestellt. Als Korpus dienen Belege aus Cosmas II (pressesprachliche Texte) und aus dem Internet. Besonderes Augenmerk wird auf Normverletzungen gerichtet: sekundäre Genitiv-Präpositionen mit regelwidriger Dativrektion (z. B. hinsichtlich), sekundäre Dativ-Präpositionen mit regelwidriger Genitivrektion (z. B. gegenüber), sekundäre Akkusativ-Präpositionen mit regelwidriger Genitiv- und Dativrektion (z. B. betreffend), primäre Präpositionen mit regelwidriger Genitivrektion (z. B. seit). Es zeigt sich insgesamt, dass fast alle etablierten Präpositionen mit regelwidrigem Kasus auftreten. Auch nicht-etablierte Präpositionen kommen sehr häufig mit einem Kasus vor, der nicht den etymologischen Strukturverhältnissen entspricht. Derartige Rektionsschwankungen, die sich vor allem aus dem Zusammenwirken von Grammatikalisierungs- und Analogieprozessen erklären lassen, erscheinen somit als Regel- und nicht als Ausnahmefall.
Eine statistische Untersuchung pressesprachlicher Texte zeigt exemplarisch anhand von 19 Präpositionen, dass die Prozentsätze normwidriger Kasusbelege jedoch zumeist gering sind. Insgesamt wird ersichtlich, dass im präpositionalen System des Deutschen - überraschenderweise - der Genitiv auf Kosten des Dativs an Boden gewinnt.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Das Ungarische verfügt neben einem definiten (a(z)) auch über einen indefiniten Artikel (egy). Dieser kann als schwächer grammatikalisiert angesehen werden als sein Gegenstück im Deutschen (ein), da er in einer Reihe von Kontexten, in denen ein obligatorisch erscheint, nur optional auftritt und teilweise sogar ausgeschlossen ist. Die folgenden Überlegungen zielen darauf ab, solche Kontexte mit Hilfe syntaktischer und/oder semantisch-pragmatischer Beschreibungskategorien zu identifizieren. Dabei beschränken wir uns aus Raumgründen auf die Vorkommensmöglichkeiten des indefiniten Artikels in Subjekt- und Objektfunktion, wobei wir generische Verwendungen generell unberücksichtigt lassen.
Die Datengrundlage bilden zum einen das Ungarische Nationalkorpus (Sigle MNSZ), zum anderen zwei literarische Texte, der Roman Szindbäd haza- megy/Sinbad geht heim von Sändor Märai (Sigle SM) sowie die Anthologie Modern magyar novelläk/Moderne ungarische Erzählungen (Sigle UE). Weiterhin wird auf in der Literatur angeführte Beispiele zurückgegriffen.
Sprachnormen treten im Normalfall erst dann in Erscheinung, wenn sie verletzt werden. Normverletzungen und die damit einhergehenden Sanktionen tragen somit zur Normenkonstitution wesentlich bei. Dabei stellt sich zunächst die Frage, was man unter sprachlichen Normen verstehen soll. Daraus ergeben sich Konsequenzen für die Kriterien, die Normen überhaupt konstituieren können. Für beide Fragestellungen ist der im Sprachwandel immer wieder thematisierte Übergangsbereich zwischen dem Entstehen neuer Normen und der Außerkraftsetzung bislang bestehender Normen ein interessantes Untersuchungsgebiet.
Auch wenn man in Rechnung stellt, dass die Definition von Sprachnormen nach wie vor umstritten ist, kann doch eine Reihe von Definitionskriterien als gesichert gelten. Zu ihnen werden neben der Obligation, der Sanktion, der Wertebezogenheit, der Formuliertheit, dem Situationsbezug der Norm auch die am Normierungsprozess beteiligten Gruppen gerechnet (Normautoritäten, Modellsprecher, Sprachexperten, Sprachkodifizierer). In manchen Definitionsversuchen wird der Sprachbenutzer m. E. zu stark in den Hintergrund gedrängt. Er stellt sozusagen als „Sprachsouverän“ die treibende Kraft für den Normenwandel dar und sollte daher auch in der theoretischen Modellierung von Sprachnormen deutlicher hervorgehoben werden. Außerdem lassen sich Sprachnormen klassifizieren sowohl nach dem Phänomenbereich, der normiert werden soll (Aussprache, Morphologie, Syntax, Lexik, Pragmatik etc.), als auch nach der Art der Genese (präskriptive/statuierte/gesetzte Normen vs. deskriptive/subsistente/konventionelle Normen). Sprachnormen zeigen sich letztlich als prototypisch gefasste Konzepte, deren konkrete Realisierungen eher mit dem Begriff der Familienähnlichkeit denn mit einem starren System an Definitionskriterien erfasst werden kann.
Im folgenden Beitrag soll es um drei Fragen gehen.
1. Inwieweit sollte der „Sprachsouverän“ in die Modellierung von Normen einbezogen werden?
2. Welche Funktionen haben Normverletzungen im Gefüge von Grammatikalität, Akzeptabilität und Sprachnormierung?
3. Unter welchen Bedingungen können sich neue Sprachnormen etablieren?
Der Fokus wird dabei auf der letzten Frage liegen. Nach einer kurzen Vorstellung der Modifikation des Sprachnormenmodells von U. Ammon (Frage 1) und Überlegungen zum Nutzen von Sprachnormverletzungen und zu den Vorteilen eines sich stetig wandelnden Sprachnormeninventars (Frage 2), möchte ich anhand von verschiedenen Beispielen zeigen, wie bestehende Normen außer Kraft gesetzt werden können und wie sich neue Nonnen etablieren. Dabei ist m. E. besonders bei der Etablierung neuer Normen die Frage interessant, ob letztlich alles zur Norm werden kann. An Beispielen aus der Morphologie und der Syntax soll gezeigt werden, welche Restriktionen auch bei neu zu etablierenden Normen gelten. Neue Normen „verwässern“ somit nicht nur den Bereich bisher bestehender Normen, sondern strukturieren ihn über die nach wie vor geltenden Ausschlusskriterien in positiver Weise neu, so dass neuen Normen stets auch der Bereich des Nichtnormgemäßen mit eingeschrieben ist.
Deutsch hat außer Indikativ und Imperativ zwei weitere Modi: Konjunktiv I und Konjunktiv II. Dies ist gegenüber Ansätzen zu betonen, die von einem einzigen Konjunktiv ausgehen und Formen wie „er käme“, „er stünde“ als Konjunktiv Präteritum bezeichnen. Diese Terminologie verschleiert die Leistung des Konjunktivs II - ja man kann geradezu sagen, dass die morphologischen Probleme, die der Konjunktiv II in der Gegenwartssprache hat, damit zusammenhängen, dass er gerade nicht das morphosyntaktische Merkmal Präteritum aufweist, sondern unter Verlust dieses Merkmals - also nur der äußeren Form nach - vom Indikativ Präteritum abgeleitet ist. Mit anderen Worten: Der deutsche Konjunktiv II hat ein Ikonizitätsproblem. In den einzelnen Regionen des deutschen Sprachraums haben die Sprecherinnen und Sprecher dieses Problem mit unterschiedlichen Strategien bewältigt. Allerdings hat kaum eine dieser Strategien Eingang in die Standardsprache gefunden - gerade die traditionelle normative Grammatik hat nicht nur Einwände gegen Funktionswörter wie etwa „von“ oder „tun“, sondern auch gegen kreative Morphologie. Am Anfang des 21. Jahrhunderts lässt sich nun konstatieren, dass die Bemühungen um die Erhaltung der alten Konjunktivformen und der Kampf gegen morphologische und syntaktische Neuerungen ausgesprochen kontraproduktiv waren: Das tatsächlich verwendete Konjunktiv-II-System der Gegenwartssprache ist ärmlicher, als es - von der Ausgangslage aus gesehen - hätte werden können.
Der so genannte A.c.I. birgt ungelöste Probleme, die am Beispiel der Wahmehmungsverben geklärt werden sollen. Als besonders strittiges Element erweist sich eben das akkusativische Element, weil seine Zuordnung (zum Obersatzverb oder zum eingebetteten Infinitiv) diskutabel ist. Dafür wird hier eine neuartige Erklärung vorgeschlagen. Quasi nebenbei bringt die Untersuchung die Erkenntnis, dass man von „A.c.I.-Verben“ eigentlich nicht sprechen sollte, da die so bezeichneten Verben höchst heterogene Eigenschaften aufweisen.
Mündliche Kommunikation
(2009)
Musikfernsehsender
(2009)
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
We present MaJo, a toolkit for supervised Word Sense Disambiguation (WSD), with an interface for Active Learning. Our toolkit combines a flexible plugin architecture which can easily be extended, with a graphical user interface which guides the user through the learning process. MaJo integrates off-the-shelf NLP tools like POS taggers, treebank-trained statistical parsers, as well as linguistic resources like WordNet and GermaNet. It enables the user to systematically explore the benefit gained from different feature types for WSD. In addition, MaJo provides an Active Learning environment, where the
system presents carefully selected instances to a human oracle. The toolkit supports manual annotation of the selected instances and re-trains the system on the extended data set. MaJo also provides the means to evaluate the performance of the system against a gold standard. We illustrate the usefulness of our system by learning the frames (word senses) for three verbs from the SALSA corpus, a version of the TiGer treebank with an additional layer of frame-semantic annotation. We show how MaJo can be used to tune the feature set for specific target words and so improve performance for these targets. We also show that syntactic features, when carefully tuned to the target word, can lead to a substantial increase in performance.
This paper introduces LRTwiki, an improved variant of the Likelihood Ratio Test (LRT). The central idea of LRTwiki is to employ a comprehensive domain specific knowledge source as additional “on-topic” data sets, and to modify the calculation of the LRT algorithm to take advantage of this new information. The knowledge source is created on the basis of Wikipedia articles. We evaluate on the two related tasks product feature extraction and keyphrase extraction, and find LRTwiki to yield a significant improvement over the original LRT in both tasks.
2008. godā tyka veikts pietejums, kura golvonais mierkis beja raksturuot niulenejū latgalīšu volūdys lūmu izgleiteibys sistemā. Itys roksts prezeņtej byutiskuokūs pietejuma rezultatus. Pietejuma īrūsme sajimta nu „Mercator Education Centre“ (Merkatora izgleiteibys centra), kas dorbojās Nīderlaņdē Ļuvortā (frīzu volūdā — Ljouwert), Frīzejis proviņcis golvyspiļsātā. Piļneigs pietejuma izvārsums ar Merkatora izgleiteibys centra atbolstu publicāts izdavumu serejā „Regional Dossier Series“ (Regionalūs dosje sereja) angļu volūdā. Itys roksts golvonom kuortom dūmuots taidam adresatam, kas mozuok ir saisteits ar Eiropys volūdu izpietis institucejom i kam roksti angļu volūdā var saguoduot izpratnis voi atrasšonys gryuteibys. Partū pietejuma suokumā teik dūts seikuoks metožu i mierķu raksturuojums, paskaidrojūt pietejuma strukturu i rezultatu apkūpuojuma veidu, kai ari dūts puorskots par latgalīšu volūdys lūmu myusdīnu izgleiteibys sistemā. Sacynuojumūs ir īzeimātys nuokūtnis perspektivis i prīšklykumi dabuotūs rezultatu izmontuojumam.
This dossier consists of an introduction to the region under study, followed by six sections each dealing with a specific level of the education system. These brief descriptions contain factual information presented in a readily accessible way. Sections eight to ten cover research, prospects, and summary statistics. For detailed information and political discussions about language use at the various levels of education, the reader is referred to other sources with a list of publications.
In this paper we present an approach to faceted search in large language resource repositories. This kind of search which enables users to browse through the repository by choosing their personal sequence of facets heavily relies on the availability of descriptive metadata for the objects in the repository. This approach therefore informs the collection of a minimal set of metatdata for language resources. The work described in this paper has been funded by the EC within the ESFRI infrastructure project CLARIN.
Seit Anbeginn linguistischer Forschung ist der ontologische Status natürlicher Sprachen in Diskussion: Was ist das Wesen einer Sprache? Die meisten Sprachbegriffe krankten und kranken daran, dass sie verdinglichend und/oder vitalistisch sind, oder die Dynamik der Sprache oder den sozialen Charakter der Sprache ausklammem. Es gilt, einen Sprachbegriff zu entwickeln, der weder verdinglichend kollektivistisch noch auf solipsistische Weise individualpsychologisch ist, und der der Tatsache Rechnung trägt, dass eine sogenannte natürliche Sprache einem Prozess soziokultureller Evolution unterliegt. Einen solchen Sprachbegriff versuche ich in diesem Vortrag zu skizzieren auf der Basis der Prinzipien des methodologischen Individualismus.
Dass politische Strömungen und staatliche Forschungsförderung auch die wissenschaftliche Beschäftigung mit dem Thema „Sprache und Kommunikation in Deutschland Ost und West“ beeinflusst haben – und zwar in beiden deutschen Staaten –, ist schon festgestellt worden. In diesem Beitrag sollen, einer zeitlichen Gliederung in vier Phasen folgend, diese Beziehungen in Umrissen nachgezeichnet werden. Im Mittelpunkt steht dabei die Zeit der Reformjahre 1969 bis 1974 und ihr umfassender Paradigmenwechsel in der bundesdeutschen DDR-Forschung und Forschungsförderung. Hinzu treten Betrachtungen zum Verhältnis von Staat, Nation und Sprache sowie die Frage nach der Kommunikation zwischen Ost- und Westdeutschen seit der friedlichen Revolution.
In diesem Beitrag soll es darum gehen, ob wir mit grammatischen Regeln und Beschreibungen die Vielfalt und Komplexität sprachlicher Kommunikation erfassen können, oder bescheidener, wie weit wir das können. Das Exempel, das ich statuieren möchte, befasst sich mit der Frage: Wie lautet der Genitiv komplexer Eigennamen. Oder genauer: komplexer Personennamen. Oder noch genauer: komplexer Personennamen einer gewissen Struktur. Oder noch genauer? Da sind wir schon mitten im Thema.
Ein Beispiel für das Exempel ist: Gedichte Walthers von der Vogelweides
Und das ist so ziemlich die einzige Variante, die im Beitrag nicht mehr Vorkommen wird. Letztlich wird es dann darum gehen, wie wir mit der Vielfalt umgehen wollen. Sie darstellen oder ignorieren und verschweigen? Doch zum Ignorieren muss man sie erst mal sehen.
Lange Zeit galt es als Kennzeichen der Literatur, ihre Modernität dadurch zu beweisen, dass sie Grammatik und Stil frei variierte und sich über Normen hinwegsetzte. Der Vortrag untersucht, mit anschaulichen Beispielen, inwieweit deutschsprachige Gegenwartsautoren dies weiter als ihre Aufgabe sehen und wie sie versuchen, eigene „Normen“ zu entwickeln - sei es bewusst oder unbewusst. Und nicht zuletzt geht es darum, zu überprüfen, wie es um die Sprach- und Grammatikmächtigkeit der deutschen Autoren heute bestellt ist.
Das Phänomen Sprache ist in Form des beobachtbaren Sprachgebrauchs fast allgegenwärtig, gleichzeitig bleibt das offenkundig Regel- und Systemhafte dieses Phänomens überraschend ungreifbar. Wegen der überwältigenden Komplexität natürlicher Sprachen entsteht bei jedem Versuch, dieses Systemhafte in einer Theorie mit explanatorischem Anspruch zu fassen, eine breite Kluft zwischen der angestrebten theoretischen Beschreibungsebene einerseits und der phänomenologisch zugänglichen Ebene des Sprachgebrauchs andererseits.
Ausgehend von allgemeinen wissenschaftstheoretischen Überlegungen, wie man angesichts dieser Kluft überhaupt zu hinreichend abgesicherten Erkenntnissen für eine explanatorische Theoriebildung kommen kann, betonen die Autoren die Notwendigkeit, sich dem Untersuchungsgegenstand Sprache mit möglichst wenigen Vorannahmen über diesen Gegenstand selbst zu nähern und sich dabei konsequent von der Empirie leiten zu lassen. Sie werben nachdrücklich für eine emergentistische Perspektive auf Sprache, der zufolge alles Regelhafte und Konventionelle in der Sprache ein Epiphänomen des Sprachgebrauchs ist und von den Sprachteilnehmern fortlaufend ausgehandelt wird. Eine treibende Kraft hierbei ist, so wird argumentiert, der Begriff der Ähnlichkeit. Auf dieser Grundlage wird schließlich ein Forschungsprogramm entworfen, das die Wirkung des Faktors Ähnlichkeit auf die Sprache nachzuzeichnen und dadurch schrittweise zu ähnlichen Generalisierungen zu gelangen versucht wie die Sprachgemeinschaft.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld") wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung" kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor „sowohl... als auch“.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld“) wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung“ kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor "sowohl ...als auch".
This article examines the contrasts and commonalities between languages for specific purposes (LSP) and their popularizations on the one hand and the frequency patterns of LSP register features in English and German on the other. For this purpose corpora of expertexpert and expert-lay communication are annotated for part-of-speech and phrase structure information. On this basis, the frequencies of pre- and post-modifications in complex noun phrases are statistically investigated and compared for English and German. Moreover, using parallel and comparable corpora it is tested whether English-German translations obey the register norms of the target language or whether the LSP frequency patterns of the source language Ñshine throughì. The results provide an empirical insight into language contact phenomena involving specialized communication.
The paper contributes to the raising vs. control debate with respect to modals through (A) novel data; (B) the investigation of a domain in which it has proven particularly problematic: volitional modality. We analyze oblique arguments of experiencer verbs embedded under German wollen ‘want’ and propose that they support both generalized raising and the abandonment of the classical version of the Theta Criterion. Byproducts of the analysis include a syntactic account involved in a class of datives in the language together with the initial characterization of a related modal in German which is expressed through the same item as volition and which we term weak.
Es gibt zwar schon seit dem Mauerfall einen populären Diskurs über die Verständigungsschwierigkeiten zwischen Ost- und Westdeutschen und über die sprachlichen Unterschiede auf beiden Seiten. Über die Meinungen und Einstellungen zu sprachlichen Fragen ist aber so gut wie nichts bekannt. In diesem Beitrag wird untersucht, wie (bzw. wie verschieden) die Deutschen in Ost und West über das Deutsche, über andere Sprachen, über Sprachgebrauch und Sprachpolitik denken. Dabei zeigt sich, dass statistisch gesehen die Gemeinsamkeiten deutlich größer sind als die Unterschiede. Materielle Grundlage für die Untersuchung ist eine repräsentative Meinungsumfrage, die die Forschungsgruppe Wahlen im Herbst 2008 für das Institut für Deutsche Sprache und die Universität Mannheim durchgeführt hat.
Das Online-Wortschatz-Informationssystem Deutsch (OWID) ist ein digitales Wörterbuchportal des Instituts für Deutsche Sprache. Alle darin zusammengeführten lexikografischen Daten sind auf XML-Basis feingranular strukturiert. Speicherung, Verwaltung und Retrieval dieser Daten übernimmt das Orade-basierte Electronic Dictionary Administration System (EDAS). Der vorliegende Beitrag erläutert die XML-basierte Modellierung der Daten, XML-spezifische Fragen der Speicherung, sowie das Retrieval mit XPath und SQL/XML.
Die Flexionsmorphologie des Deutschen ist ein zentraler Forschungsgegenstand des europäischen Forschungsnetzwerks EuroGr@mm, dessen Erschließung für Forschung und Lehre seit Anfang 2007 vorangetrieben wird. Das europäische Projekt hatte sich zur Aufgabe gemacht, diesen grammatischen Themenbereich aus französischer, italienischer, norwegischer, polnischer und ungarischer Perspektive kontrastiv zu beleuchten. Die ersten Ergebnisse wurden nun in Form von didaktisch aufbereiteten Wissenseinheiten auf der Lemplattform ProGr@mm kontrastiv veröffentlicht.
Der Beitrag setzt sich mit dem Problem der Ermahnung und ihrer Realisierungsmittel auseinander. Die Analyse verortet sich im Bereich der Pragmalinguistik. Es wird der Versuch unternommen, das spektrum an Ausdrucksmitteln festzustellen, das Sprecher in der Regel zum Ausdruck von Ermahnungen verwenden. Es handelt sich dabei um spezifische Mittel, durch die der sprecher seine Einstellung zum Adressaten zeigt, seine Position und Ermächtigung unterstreicht.
Die Sorge um die deutsche Sprache füllt Säle. Wer Sprachdummheiten anmahnt, kann sich des Beifalls jener sicher sein, die sich sprachlich überlegen sehen. Selten wird die Frage gestellt, welchen Status grammatische Regeln haben. Tatsächlich ist keineswegs klar, was als korrektes Deutsch gelten kann. Wie ist das Deutsche zu fassen? Wer bestimmt, was als korrekt gelten soll? Die 44. Jahrestagung des Instituts für Deutsche Sprache suchte zur Klärung solcher Fragen beizutragen. Der vorliegende Band dokumentiert, wie die deutsche Grammatik im Spannungsfeld von Regel, Norm und Sprachgebrauch auf der Tagung aufgearbeitet wurde: Zunächst stehen die theoretischen Aspekte der Problematik auf dem Prüfstand. Danach werden grammatische Normen und der Umgang mit diesen in der Öffentlichkeit fokussiert. Im nächsten Themenblock stehen grammatische Variation in ihrem Verhältnis zur Norm und konkrete Phänomene der Morphologie, Syntax und Prosodie zur Diskussion. Die Betrachtung des Grammatikunterrichts und der Grammatikschreibung vervollständigt das Bild, das durch einen Blick auf die Normativität in Frankreich zusätzlich in einen größeren Kontext gestellt wird. Der Band schließt mit einer Zusammenfassung der Podiumsdiskussion, welche den Schlusspunkt der Tagung bildete.
Der Schein trügt nämlich
(2009)
The German particle nämlich is puzzling because it seems to have two independent semantic functions which strictly correlate with specific syntactic environments: if nämlich precedes an ,,orphan constituent" (Haegeman 1991) it specifies an underspecified discourse referent in the previous clause, and if nämlich appears in a whole clause its function is marking that the hostclause delivers an explanation to the previous clause. A polysemy- or even homonymy-analysis seems problematic precisely because of this strict correlation between syntactic environment and semantic function. In this paper we propose a unified analysis of nämlich. We argue that nämlich marks the property of the context that there is an implicit question to which the host of nämlich delivers a direct (short) answer (Jacobson 2008). Crucially, constituents are good short answers to constituent-questions (Who?), while whole clauses are only good short-answers to ,,sentence"-questions like Why p? Building on these intuitions we show how both readings of nämlich can systematically be derived and implement our analysis formally.
Das Lexikon der Sprachkritik
(2009)
Viele Überlegungen wurden zu einem Projekt Lexikon der Sprachkritik angestellt und vorläufige Konzepte dafür erdacht. Zu einer Konkretisierung dieser Bemühungen ist es aber bisher leider nicht gekommen. Dieser Beitrag stellt nun einen Versuch dar, ein vorläufiges Konzept für ein Lexikon der Sprachkritik vorzulegen. Es handelt sich hierbei um die Begründung für dieses Unternehmen, die Darstellung der Vorarbeiten zu einem Lexikon der Sprachkritik, die Explizierung der Konzeption und der Lemmaauswahl und die exemplarische Ausarbeitung von vier Artikeln.
Le chevauchement, c’est-à-dire la prise de parole simultanée d'au moins deux locuteurs, est un phénomène omniprésent dans la conversation. Inscrit dans le cadre théorique de l'Analyse Conversationnelle et de la linguistique interactionnelle, notre travail se penche sur la parole simultanée considérée comme un phénomène systématique et ordonné qui appartient aux pratiques routinières de l'alternance des tours de parole. Nos analyses se fondent sur des transcriptions d'enregistrements vidéo de données interactionnelles naturelles, des conversations ordinaires en français et en allemand. Nous ne portons pas uniquement un regard sur le chevauchement en tant que phénomène audible, mais le concevons comme une pratique incarnée en interaction, qui est également implémentée par des ressources visibles. À l'analyse séquentielle s'ajoute donc une analyse multimodale, qui nous permet de tenir compte des constellations participatives dynamiques lors du chevauchement. Le travail analytique se focalise sur trois phénomènes spécifiques dans lesquels la parole simultanée intervient de manière significative : d'abord l'auto-répétition faisant suite au chevauchement, ensuite l'abandon de tour de parole d'un locuteur lors de la parole simultanée et enfin la complétion différée, la continuation retardée d'une prise de parole en chevauchement avec l'intervention d'un interlocuteur. Cette thèse contribue à une compréhension approfondie de ces trois phénomènes et démontre que l'organisation de la parole simultanée est étroitement liée à la gestion de trajectoires d'action complexes et de cadres participatifs dynamiques.
Concurrent standardization as a necessity: The genesis of the new official orthographic guidelines
(2009)
The new official orthographic guidelines were brought into force by the official state authorities on August 1st, 1998 and its principle goals were a standardized representation of the guidelines and a «gentle simplification in respect of content». This regulation was not supported by the public and in fact it was the starting point for a struggle for conceptual solutions and a quest for the achievement of' a consensus between different possible norms. Since orthography is an officially codified standard taking up a prominent position among linguistic standards, it is of particular socio-political importance. It was the foremost task of the Council for German Orthography (Rat für deutsche Rechtschreibung), instituted in December 2004, to elaborate a compromise in order to bring the «Orthographical war» (Die Zeit) to an end, which was led enthusiastically for more than a decade. - The concern of this article is to classify historically the agreement reached in 2006. Against this background, it can be stated that official guidelines will only be accepted, if they are based upon the usage in writing and if they take into account the interests of the reader. Both principles are characterizing the proposal made by the Council for German Orthography. An outlook on the Council's activities concerning orthographic standardization expected in the future will conclude this article.
Bedeutung und Standardinterpretation von Äußerungen mit negierten negativ-bewertenden Adjektiven
(2009)
Thema dieses Beitrags ist der Unterschied zwischen der Bedeutung und der Standard- oder „Default“-Interpretation von Äußerungen mit negierten lexikalischen bzw. un-präfigierten Antonymen graduierbarer Adjektive wie intelligent (z.B. X ist nicht dumm vs. X ist nicht unintelligent). Ausgehend von der Darstellung der Bedeutung und der Standardinterpretation der entsprechenden nicht-negierten Formen dieser Äußerungen (z.B. X ist dumm vs. X ist unintelligent) wird zunächst gezeigt, dass Äußerungen wie X ist nicht dumm und X ist nicht unintelligent sich im Hinblick auf das, was mit ihnen kodiert ist, unterscheiden: Äußerungen mit negierten lexikalischen Antonymen (X ist nicht dumm) umfassen sowohl den positiven als auch den neutralen Mittelbereich der jeweils relevanten Skala, solche mit negierten un-präfigierten Antonymen (X ist nicht unintelligent) hingegen nur den positiven Bereich. Die beiden Typen von Äußerungen unterscheiden sich aber auch im Hinblick auf ihre Standardinterpretation: Obwohl sie beide überlicherweise als ‚eher X‘ oder ‚ziemlich X‘ (z.B. ‚eher intelligent‘ oder ‚ziemlich intelligent‘) interpretiert werden, wird die mit den negierten, un-präfigierten Formen ausgedrückte Bewertung von Muttersprachlern (des Deutschen) häufig als positiver eingeschätzt als die Bewertung, die mit den negierten nicht-abgeleiteten Formen ausgedrückt wird.
We present data-driven methods for the acquisition of LFG resources from two German treebanks. We discuss problems specific to semi-free word order languages as well as problems arising from the data structures determined by the design of the different treebanks. We compare two ways of encoding semi-free word order, as done in the two German treebanks, and argue that the design of the TiGer treebank is more adequate for the acquisition of LFG resources. Furthermore, we describe an architecture for LFG grammar acquisition for German, based on the two German treebanks, and compare our results with a hand-crafted German LFG grammar.
Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung
(2009)
Auf der Basis einer spezifischen Definition des Begriffs „sprachlicher Zweifelsfall“ und einiger einführenden Bemerkungen zu potentiellen Entstehungsursachen wird im Text zunächst erläutert, in welchen Hinsichten sich die Sprachwissenschaft bisher mit diesen sprachlichen Einheiten beschäftigt hat. Dabei wird die These vertreten, dass die Zweifelsfälle aus verschiedenen Gründen traditionell eher marginalisiert wurden. Nachdem mit konditionierten und unkonditionierten Zweifelsfällen zwei Haupttypen unterschieden worden sind, widmet sich der Text der Sprachnormierung von Zweifelsfällen. Der Ausgangspunkt liegt darin, die geforderte Sprachberatung als argumentativ orientierten, rationalen Umgang mit sprachlichen Zweifelsfällen zu begreifen. Dazu wird eine systematische Entscheidungsprozedur entworfen, die als Grundlage für die Klärung von Zweifelsfällen fungiert. Mit dieser kleinen Theorie der Sprachnormierung von Zweifelsfällen wird auch das Ziel verfolgt, auf deskriptiver Basis empirisch legitimierte Sprachnormen zu formulieren und damit nicht zuletzt einen sprachwissenschaftlichen Beitrag zur Formung des öffentlichen Sprachbewusstseins zu leisten.
In this paper we address the question of what is needed, in terms of morphosyntactic encoding, to relate a so-called verb-specific modifier to a nominal head. For the purposes of this paper we shall assume that the notion of a verb-specific modifier includes adverbs and their phrasal or clausal projections, adpositional phrases, and noun phrases featuring a particular semantic case such as locative or instrumental. Noun-specific modifiers, in turn, are considered to be first and foremost adjectives and adjective phrases, next participles and their phrasal projections and, finally, relative clauses.1 The basic motivation underlying this distinction relates to markedness.
Apresentação
(2009)
This introductory tutorial describes a strictly corpus-driven approach for uncovering indications for aspects of use of lexical items. These aspects include ‘(lexical) meaning’ in a very broad sense and involve different dimensions, they are established in and emerge from respective discourses. Using data-driven mathematical-statistical methods with minimal (linguistic) premises, a word’s usage spectrum is summarized as a collocation profile. Self-organizing methods are applied to visualize the complex similarity structure spanned by these profiles. These visualizations point to the typical aspects of a word’s use, and to the common and distinctive aspects of any two words.
Die sprachlichen Veränderungen der letzten 20 Jahre sind von zwei Zeitabschnitten gekennzeichnet, die in Bezug auf die Wortschatzentwicklung unterschiedlicher nicht hätten sein können: Der erste, kurze, ist von der Wendezeit – mit auffälligem, meist nur vorübergehendem Lexemwandel – und dem Beitritt der DDR zur Bundesrepublik – mit dem Verschwinden bzw. Austausch des größten Teils des DDR-typischen Wortschatzes – geprägt. Der zweite, wesentlich längere Abschnitt ist von der Entwicklung im vereinigten Deutschland mit einem im Vergleich unauffälligen, weil kontinuierlichen Wortschatzwandel bestimmt.