Refine
Year of publication
- 2009 (229) (remove)
Document Type
- Part of a Book (97)
- Article (71)
- Conference Proceeding (23)
- Book (17)
- Part of Periodical (6)
- Review (5)
- Contribution to a Periodical (4)
- Doctoral Thesis (2)
- Other (2)
- Report (1)
Language
- German (171)
- English (49)
- French (2)
- Italian (2)
- Portuguese (2)
- Latvian (1)
- Multiple languages (1)
- Russian (1)
Keywords
- Deutsch (110)
- Korpus <Linguistik> (19)
- Sprachnorm (15)
- Konversationsanalyse (11)
- Sprachgebrauch (11)
- Grammatik (10)
- Verb (10)
- Wörterbuch (10)
- Computerlinguistik (9)
- Interaktion (9)
Publicationstate
- Veröffentlichungsversion (88)
- Zweitveröffentlichung (24)
- Postprint (12)
Reviewstate
Publisher
- Institut für Deutsche Sprache (42)
- de Gruyter (29)
- Lang (14)
- Narr (13)
- Niemeyer (6)
- Elsevier (3)
- Springer (3)
- Acta Universitatis Upsaliensis (2)
- Benjamins (2)
- Cornelsen Scriptor (2)
Der Beitrag setzt sich mit dem Problem der Ermahnung und ihrer Realisierungsmittel auseinander. Die Analyse verortet sich im Bereich der Pragmalinguistik. Es wird der Versuch unternommen, das spektrum an Ausdrucksmitteln festzustellen, das Sprecher in der Regel zum Ausdruck von Ermahnungen verwenden. Es handelt sich dabei um spezifische Mittel, durch die der sprecher seine Einstellung zum Adressaten zeigt, seine Position und Ermächtigung unterstreicht.
Die Untersuchung präsentiert die multimodale Struktur und Komplexität eines besonderen Kooperationstyps, dem »Pitching«. Das Pitching ist eine Mischform aus Arbeits- und Lehr-Lern-Diskurs, bei der vier Studierende gemeinsam mit zwei Dozenten Filmideen entwickeln. Als empirische Grundlage dient ein Datenkorpus von 72 Stunden Videoaufnahmen, das methodisch mit einer Kombination aus ethnographischer Gesprächsanalyse, ethnomethodologischer Konversationsanalyse und deren Erweiterung um eine multimodale Analyseperspektive untersucht wird. Dabei wird detailliert der komplexe Gesamtzusammenhang von Verbalität, Mimik, Gestik, Körperpositur und anderen körperlichen Ausdruckformen in seiner Bedeutung für die gemeinsame Arbeit ersichtlich. Basierend auf den beiden zentralen Konzepten »Kooperation« und »Handlungsschema« werden die spezifischen Situationsmerkmale des Pitchings und die typischen Aufgaben und Probleme rekonstruiert, die von den Interaktionsbeteiligten durch unterschiedliche Verfahren bearbeitet werden. Aufgrund einer longitudinalen Perspektive gibt die Untersuchung zudem Einblicke in die Professionalisierung der Studierenden im Studienverlauf.
Die Beiträge in der Festschrift für Rainer Wimmer anlässlich seines 65. Geburtstags dokumentieren die Vielschichtigkeit seines sprachwissenschaftlichen Wirkens. Eine große Anzahl der Artikel widmet sich einer seiner zentralen Forschungstätigkeiten, der Sprachkritik. Seine interdisziplinären und anwendungsorientierten Arbeitsfelder sowie seine frühen Arbeiten zu Eigennamen werden durch spezifische Beiträge ebenso gewürdigt, wie in einem Themenblock hervorgehoben wird, dass es »die« Sprache nicht gibt, sondern dass Sprachen nur neben Sprachen, d. h. in einem Miteinander, existieren können.
Auf diese Weise entsteht ein Einblick in die wichtigsten Strömungen und Ansätze der zeitgenössischen interpretativen Semantik, zu deren Entwicklung Rainer Wimmer durch sein Schaffen wesentlich beigetragen hat.
2008. godā tyka veikts pietejums, kura golvonais mierkis beja raksturuot niulenejū latgalīšu volūdys lūmu izgleiteibys sistemā. Itys roksts prezeņtej byutiskuokūs pietejuma rezultatus. Pietejuma īrūsme sajimta nu „Mercator Education Centre“ (Merkatora izgleiteibys centra), kas dorbojās Nīderlaņdē Ļuvortā (frīzu volūdā — Ljouwert), Frīzejis proviņcis golvyspiļsātā. Piļneigs pietejuma izvārsums ar Merkatora izgleiteibys centra atbolstu publicāts izdavumu serejā „Regional Dossier Series“ (Regionalūs dosje sereja) angļu volūdā. Itys roksts golvonom kuortom dūmuots taidam adresatam, kas mozuok ir saisteits ar Eiropys volūdu izpietis institucejom i kam roksti angļu volūdā var saguoduot izpratnis voi atrasšonys gryuteibys. Partū pietejuma suokumā teik dūts seikuoks metožu i mierķu raksturuojums, paskaidrojūt pietejuma strukturu i rezultatu apkūpuojuma veidu, kai ari dūts puorskots par latgalīšu volūdys lūmu myusdīnu izgleiteibys sistemā. Sacynuojumūs ir īzeimātys nuokūtnis perspektivis i prīšklykumi dabuotūs rezultatu izmontuojumam.
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
This dossier consists of an introduction to the region under study, followed by six sections each dealing with a specific level of the education system. These brief descriptions contain factual information presented in a readily accessible way. Sections eight to ten cover research, prospects, and summary statistics. For detailed information and political discussions about language use at the various levels of education, the reader is referred to other sources with a list of publications.
Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations
(2009)
In this paper we show that the extraction of opinions from free-text reviews can improve the accuracy of movie recommendations. We present three approaches to extract movie aspects as opinion targets and use them as features for the collaborative filtering. Each of these approaches requires different amounts of manual interaction. We collected a data set of reviews with corresponding ordinal (star) ratings of several thousand movies to evaluate the different features for the collaborative filtering. We employ a state-of-the-art collaborative filtering engine for the recommendations during our evaluation and compare the performance with and without using the features representing user preferences mined from the free-text reviews provided by the users. The opinion mining based features perform significantly better than the baseline, which is based on star ratings and genre information only.
This paper introduces LRTwiki, an improved variant of the Likelihood Ratio Test (LRT). The central idea of LRTwiki is to employ a comprehensive domain specific knowledge source as additional “on-topic” data sets, and to modify the calculation of the LRT algorithm to take advantage of this new information. The knowledge source is created on the basis of Wikipedia articles. We evaluate on the two related tasks product feature extraction and keyphrase extraction, and find LRTwiki to yield a significant improvement over the original LRT in both tasks.
Le chevauchement, c’est-à-dire la prise de parole simultanée d'au moins deux locuteurs, est un phénomène omniprésent dans la conversation. Inscrit dans le cadre théorique de l'Analyse Conversationnelle et de la linguistique interactionnelle, notre travail se penche sur la parole simultanée considérée comme un phénomène systématique et ordonné qui appartient aux pratiques routinières de l'alternance des tours de parole. Nos analyses se fondent sur des transcriptions d'enregistrements vidéo de données interactionnelles naturelles, des conversations ordinaires en français et en allemand. Nous ne portons pas uniquement un regard sur le chevauchement en tant que phénomène audible, mais le concevons comme une pratique incarnée en interaction, qui est également implémentée par des ressources visibles. À l'analyse séquentielle s'ajoute donc une analyse multimodale, qui nous permet de tenir compte des constellations participatives dynamiques lors du chevauchement. Le travail analytique se focalise sur trois phénomènes spécifiques dans lesquels la parole simultanée intervient de manière significative : d'abord l'auto-répétition faisant suite au chevauchement, ensuite l'abandon de tour de parole d'un locuteur lors de la parole simultanée et enfin la complétion différée, la continuation retardée d'une prise de parole en chevauchement avec l'intervention d'un interlocuteur. Cette thèse contribue à une compréhension approfondie de ces trois phénomènes et démontre que l'organisation de la parole simultanée est étroitement liée à la gestion de trajectoires d'action complexes et de cadres participatifs dynamiques.
Cette contribution discute différents enjeux dégagés lors d’une étude des pratiques professionnelles plurilingues : ces enjeux ont émergé d’une analyse menée collaborativement par deux équipes de chercheurs, à Lyon et à Paris, participant au projet européen DYLAN (6e programme cadre) et élaborant ensemble l’analyse empirique d’un extrait d’une réunion de travail, enregistrée dans le cadre d’une collaboration sur un même terrain. Cette analyse est l’occasion de thématiser de manière exemplaire un certain nombre de questions surgissant de l’étude des contacts des langues dans les contextes professionnels, concernant aussi bien les enjeux épistémologiques que l'engagement du chercheur sur le terrain.
Migration wird oft sowohl mit einem Staats- als auch mit einem Sprachwechsel assoziiert. Es existieren aber auch mehrsprachige Länder, in denen eine interne Migration (Binnenwanderung), „nur“ einen Sprachwechsel erfordert. Ein Beispiel dafür ist die offiziell viersprachige Schweiz: Was passiert, wenn ein Tessiner in die Deutschschweiz oder ein deutschsprachiger Schweizer ins Tessin übersiedelt? Anhand des Begriffs vom „kommunikativen Raum“ wird im Beitrag die sprachliche Situation der schweizerischen Binnenwanderer näher beleuchtet; parallel dazu wird auf mögliche Probleme eingegangen, mit denen die Binnenwanderer zurechtkommen müssen.
The purpose of this paper is to describe the functions of ‘where’-based relative elements' in six Balkan languages, paying particular attention to non-standard varieties.2 Relative elements based on an originally interrogative pronoun meaning ‘where’ are attested in all Balkan languages and, more generally, in all European languages. In accordance with the locative meaning of the original pronoun, ‘where’-based relative elements are primarily used to relativize locatives. However, it will be shown that in some Balkan languages, and especially in non-standard varieties, these elements have extended their functional domain. This process does not appear to be random, but rather to pattern with the following hierarchy: locative > unspecific connector > other syntactic positions (indirect/direct object, subject).3 Additionally, ‘where’-based relative elements will be compared with ‘what’-based ones in order to highlight common patterns of development.
Concurrent standardization as a necessity: The genesis of the new official orthographic guidelines
(2009)
The new official orthographic guidelines were brought into force by the official state authorities on August 1st, 1998 and its principle goals were a standardized representation of the guidelines and a «gentle simplification in respect of content». This regulation was not supported by the public and in fact it was the starting point for a struggle for conceptual solutions and a quest for the achievement of' a consensus between different possible norms. Since orthography is an officially codified standard taking up a prominent position among linguistic standards, it is of particular socio-political importance. It was the foremost task of the Council for German Orthography (Rat für deutsche Rechtschreibung), instituted in December 2004, to elaborate a compromise in order to bring the «Orthographical war» (Die Zeit) to an end, which was led enthusiastically for more than a decade. - The concern of this article is to classify historically the agreement reached in 2006. Against this background, it can be stated that official guidelines will only be accepted, if they are based upon the usage in writing and if they take into account the interests of the reader. Both principles are characterizing the proposal made by the Council for German Orthography. An outlook on the Council's activities concerning orthographic standardization expected in the future will conclude this article.
Using concurrent electroencephalogram and eye movement measures to track natural reading, this study shows that N400 effects reflecting predictability are dissociable from those owing to spreading activation. In comparing predicted sentence endings with related and unrelated unpredicted endings in antonym constructions (‘the opposite of black is white/yellow/nice’), fixation-related potentials at the critical word revealed a predictability-based N400 effect (unpredicted vs. predicted words). By contrast, event-related potentials time locked to the last fixation before the critical word showed an N400 only for the nonrelated unpredicted condition (nice). This effect is attributed to a parafoveal mismatch between the critical word and preactivated lexical features (i.e. features of the predicted word and its associates). In addition to providing the first demonstration of a parafoveally induced N400 effect, our results support the view that the N400 is best viewed as a component family.
This paper describes a new approach to improve the analysis and categorization of web documents using statistical methods for template based clustering as well as semantical analysis based on terminological ontologies. A domain-specific environment serves for prove of concept. In order to demonstrate the widespread practical benefit of our approach, we outline a combined mathematical and semantical framework for information retrieval on internet resources.
This paper shows that the phenomenon of plesionymy deserves greater attention and needs to be approached outside its traditional framework, which considered it to be a subtype of synonymy (Cruse, 1986, 2002; Croft and Cruse, 2004). This view suggested that pairs of terms such as foggy–misty, fearless–brave exhibit significant shared semantic traits that are more salient than their differences. Differing properties were considered to be subordinate. These are sometimes contextually foregrounded resulting in occasional oppositeness. Corpus studies show that this view is a broad generalization. This study sheds new light on German plesionyms by employing a corpus-linguistic approach. In particular, terms designating gradable properties (e.g. kritisch–ernst ‘critical–serious’, sauber–rein ‘clean–unsoiled/immaculate’) at neighboring positions of gradable scales show variable behavior and do not show a stronger affinity for synonymy. The position taken is that a relation of synonymy and contrast are equally a matter of construal. Both types of semantic relations are part of the conceptual and lexical knowledge and subject to a cognitive principle. This work also examines how plesionym relations are realized in discourse. This article demonstrates that plesionyms are co-occurrences within typical lexico-syntactic sequences. Following Jones’ (2002) and Murphy’s (2006) observations, these patterns (e.g. nicht X, eher Y; mehr X als Y; etc.) have specific discourse functions and are evidence to account for a construction-based view.
The paper discusses particular logical consistency conditions satisfied by German proposition-embedding predicates which determine the question type (external and internal whether-form as well as exhaustive and non-exhaustive wh-form), the correlate type (es- or da-correlate) as well as the impact of the correlate on the respective consistency condition. It will turn out that some consistency conditions also determine the embedding of verb second and subject-control.
Dass politische Strömungen und staatliche Forschungsförderung auch die wissenschaftliche Beschäftigung mit dem Thema „Sprache und Kommunikation in Deutschland Ost und West“ beeinflusst haben – und zwar in beiden deutschen Staaten –, ist schon festgestellt worden. In diesem Beitrag sollen, einer zeitlichen Gliederung in vier Phasen folgend, diese Beziehungen in Umrissen nachgezeichnet werden. Im Mittelpunkt steht dabei die Zeit der Reformjahre 1969 bis 1974 und ihr umfassender Paradigmenwechsel in der bundesdeutschen DDR-Forschung und Forschungsförderung. Hinzu treten Betrachtungen zum Verhältnis von Staat, Nation und Sprache sowie die Frage nach der Kommunikation zwischen Ost- und Westdeutschen seit der friedlichen Revolution.
Luther als Sprachreformator
(2009)
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld") wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung" kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor „sowohl... als auch“.
Digitale Medien haben in einer rasenden Geschwindigkeit inzwischen alle Lebensbereiche verändert. Sie greifen immer weiter in gewachsene Strukturen ein und prägen immer mehr unsere Wirtschafts-, Arbeits- und Sozialwelt, aber auch unsere private Kommunikation und unser alltägliches Leben. Ständig neue Entwicklungen stellen dabei alle Beteiligten immer wieder vor neue Herausforderungen. Damit einher geht die Notwendigkeit, sich kontinuierlich neues Wissen anzueignen. Als Schlüsselqualifikation zur Beherrschung dieser neuen Anforderungen in unserer sich ständig ändernden Gesellschaft gilt Medienkompetenz. Neben Lesen, Schreiben und Rechnen ist sie zur vierten Kulturtechnik geworden, die alle Bürgerinnen und Bürger in unserer Gesellschaft unabhängig von Alter, Geschlecht und Herkunft beherrschen sollten. Um an den aktuellen gesellschaftlichen und politischen Entwicklungen überhaupt noch teilnehmen und erwerbsfähig bleiben zu können, muss diese Kompetenz sogar beherrscht werden können. Damit wird ihre Vermittlung zum staatlichen Bildungsauftrag.
Die Suche nach auffälligen Wörtern bei der Rezeption von touristischen Textsorten im DaF-Unterricht
(2009)
Nachruf auf Hans Glinz
(2009)
TePaCoC - A Testsuite for Testing Parser Performance on Complex German Grammatical Constructions
(2009)
Der Beitrag stellt eine aktualisierte Version des Gesprächsanalytischen Transkriptionssystems(GAT) dar. Nachdem GAT seit seiner Erstvorstellung im Jahr 1998 in der Gesprächsforschung eine breite Verwendung gefunden hat, war es nun an der Zeit, es aufgrund der bisherigen Erfahrungen und im Hinblick auf neue Anforderungen an Transkriptionen vorsichtig zu überarbeiten. Dieser Text stellt
das aktualisierte GAT 2-Transkriptionssystem mit allen seinen alten und neuen Konventionen dar, versucht bekannte Zweifelsfälle zu klären und bekannte Schwächen der ersten Version zu beheben. GAT 2 gibt detaillierte Anweisungen zum Erstellen gesprächsanalytischer Transkriptionen auf drei Detailliertheitsstufen, dem Minimal-, Basis- und Feintranskript, sowie neue Vorschläge zur Darstellung komplexerer Phänomene in Sonderzeilen. Zudem wurden für GAT 2 einige zusätzliche Hilfsmittel entwickelt, die im Anhang kurz vorgestellt werden: das Online-Tutorial GAT-TO sowie der Transkriptionseditor FOLKER.
We present MaJo, a toolkit for supervised Word Sense Disambiguation (WSD), with an interface for Active Learning. Our toolkit combines a flexible plugin architecture which can easily be extended, with a graphical user interface which guides the user through the learning process. MaJo integrates off-the-shelf NLP tools like POS taggers, treebank-trained statistical parsers, as well as linguistic resources like WordNet and GermaNet. It enables the user to systematically explore the benefit gained from different feature types for WSD. In addition, MaJo provides an Active Learning environment, where the
system presents carefully selected instances to a human oracle. The toolkit supports manual annotation of the selected instances and re-trains the system on the extended data set. MaJo also provides the means to evaluate the performance of the system against a gold standard. We illustrate the usefulness of our system by learning the frames (word senses) for three verbs from the SALSA corpus, a version of the TiGer treebank with an additional layer of frame-semantic annotation. We show how MaJo can be used to tune the feature set for specific target words and so improve performance for these targets. We also show that syntactic features, when carefully tuned to the target word, can lead to a substantial increase in performance.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Anhand eines Fallbeispiels wird gezeigt, dass in der praktischen Arbeit des EuGH Rechtsarbeit und Spracharbeit eng miteinander verflochten sind. Wenn es in einem strittigen Fall um die konkrete Ausarbeitung einer haltbaren Sachverhaltsbeschreibung geht, zeigt sich, dass die Rechtsarbeit und die Spracharbeit des Gerichts eigentlich identisch sind. In einem solchen Fall ist es für das Gericht nützlich und günstig, wenn es auf so viele sprachliche Formulierungen (auch in verschiedenen Sprachen) zurückgreifen kann wie möglich. Das Ziel ist, möglichst viele Interpretationen in Betracht zu ziehen, um das Urteil bestandssicher zu machen. In dieser Situation sind Vorschläge, das Sprachenspektrum, in dem der EuGH arbeitet, im Vorhinein und generell einzuschränken, kontraproduktiv.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld“) wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung“ kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor "sowohl ...als auch".
Im Artikel „Stigma - Semiotik der Diskriminierung“ geht es um einen systematischen Überblick über die sprachlichen Formen der Stigmatisierung von Menschen in einer Gesellschaft. Ausgehend von der semiotischen Prämisse, dass das symbolische Zeichensystem Sprache alle anderen Zeichensysteme mitkonstituiert, werden der Prozess der Semiose und die Stigmatisierungspraxis seit frühneuhochdeutscher Zeit bis zu den Nationalsozialisten auf der visuellen, der auditiven und der olfaktorischen Ebene am Beispiel des antijüdischen bzw. antisemitischen Diskurses dargestellt. Im Vordergrund stehen dabei die sprachlichen Mittel der Stigmatisierungspraxis, vor allem die Stigmatisierung durch Wortbildungen, durch ideologische Polysemierung und durch Stigmatisierungsmetaphorik. Stigmatisierung ist eine kommunikative Praxis, die von Menschen ausgeübt wird, um andere Menschen oder Gruppen zu exkludieren. Zu ihren Opfern zählen aber nicht nur die direkt Betroffenen, sondern auch diejenigen, die sich mit ihnen solidarisieren oder solche Menschen, bei denen ein irgendwie geartetes tertium comparationis vorliegt, so dass man sie durch Übertragung der Stigmatisierungspraxis ebenfalls angreifen kann. Diese Art der Sekundärstigmatisierung und ihre Folgen für die Primärstigmatisierten ist ein bislang unterschätzter Untersuchungsgegenstand.
Über den gemeinsamen Sprachgebrauch in Ost und West, seine Probleme und kreativen Möglichkeiten
(2009)
In dieser Arbeit über den neueren deutschen Sprachgebrauch in Ost und West soll nicht das Trennende betont werden, sondern das gemeinsame Spracherbe und seine Wirkung in der Gegenwart. Aber eine Beobachtung gegenüber vielen kritischen Stimmen aus West und Ost sei, in völlig unpolemischer Absicht, nicht verschwiegen: Zu viele sprachkritische Artikel aus der Bundesrepublik haben in der Vergangenheit von der aus Texten bekannten offiziellen Sprache der DDR-Machthaber zu direkt auf die wirklich gesprochene Sprache der Bevölkerungsmehrheit geschlossen, und zu viele DDR-Sprachwissenschaftler und Polemiker haben auf die westliche Kritik vor allem als Verteidiger des politischen Kurses der SED reagiert, aus welchen persönlichen Gründen auch immer. Gedruckt worden wären andere Meinungen in der DDR allerdings nicht, und der Karriere waren sie auch nicht förderlich. Trotzdem gilt: Die deutsche Sprache hat sich in Ost und West auf jeweils spezifische Weise weiterentwickelt, sie wurde aber nicht gespalten und funktionierte in Ost und West und - trotz spürbarer Unterschiede - zwischen Ost und West als gemeinsames Verständigungsmittel, wo immer sie dafür benutzt wurde. Zwischen den Begriffen „Sprachwandel“ und „Bezeichnungswandel“ muss sorgfältig unterschieden werden. Im kreativen Umgang mit dem gemeinsamen Deutsch haben sich Ost und West längst wieder zusammengefunden. Genauere Untersuchungen über das Alltags-deutsch in der DDR sind sehr zu wünschen, die Schaffung eines brauchbaren Korpus dafür ist im Nachhinein nicht einfach, sollte aber in Angriff genommen werden.
From Proof Texts to Logic. Discourse Representation Structures for Proof Texts in Mathematics
(2009)
We present an extension to Discourse Representation Theory that can be used to analyze mathematical texts written in the commonly used semi-formal language of mathematics (or at least a subset of it). Moreover, we describe an algorithm that can be used to check the resulting Proof Representation Structures for their logical validity and adequacy as a proof.
Lange Zeit galt es als Kennzeichen der Literatur, ihre Modernität dadurch zu beweisen, dass sie Grammatik und Stil frei variierte und sich über Normen hinwegsetzte. Der Vortrag untersucht, mit anschaulichen Beispielen, inwieweit deutschsprachige Gegenwartsautoren dies weiter als ihre Aufgabe sehen und wie sie versuchen, eigene „Normen“ zu entwickeln - sei es bewusst oder unbewusst. Und nicht zuletzt geht es darum, zu überprüfen, wie es um die Sprach- und Grammatikmächtigkeit der deutschen Autoren heute bestellt ist.
Deutsch hat außer Indikativ und Imperativ zwei weitere Modi: Konjunktiv I und Konjunktiv II. Dies ist gegenüber Ansätzen zu betonen, die von einem einzigen Konjunktiv ausgehen und Formen wie „er käme“, „er stünde“ als Konjunktiv Präteritum bezeichnen. Diese Terminologie verschleiert die Leistung des Konjunktivs II - ja man kann geradezu sagen, dass die morphologischen Probleme, die der Konjunktiv II in der Gegenwartssprache hat, damit zusammenhängen, dass er gerade nicht das morphosyntaktische Merkmal Präteritum aufweist, sondern unter Verlust dieses Merkmals - also nur der äußeren Form nach - vom Indikativ Präteritum abgeleitet ist. Mit anderen Worten: Der deutsche Konjunktiv II hat ein Ikonizitätsproblem. In den einzelnen Regionen des deutschen Sprachraums haben die Sprecherinnen und Sprecher dieses Problem mit unterschiedlichen Strategien bewältigt. Allerdings hat kaum eine dieser Strategien Eingang in die Standardsprache gefunden - gerade die traditionelle normative Grammatik hat nicht nur Einwände gegen Funktionswörter wie etwa „von“ oder „tun“, sondern auch gegen kreative Morphologie. Am Anfang des 21. Jahrhunderts lässt sich nun konstatieren, dass die Bemühungen um die Erhaltung der alten Konjunktivformen und der Kampf gegen morphologische und syntaktische Neuerungen ausgesprochen kontraproduktiv waren: Das tatsächlich verwendete Konjunktiv-II-System der Gegenwartssprache ist ärmlicher, als es - von der Ausgangslage aus gesehen - hätte werden können.
Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung
(2009)
Auf der Basis einer spezifischen Definition des Begriffs „sprachlicher Zweifelsfall“ und einiger einführenden Bemerkungen zu potentiellen Entstehungsursachen wird im Text zunächst erläutert, in welchen Hinsichten sich die Sprachwissenschaft bisher mit diesen sprachlichen Einheiten beschäftigt hat. Dabei wird die These vertreten, dass die Zweifelsfälle aus verschiedenen Gründen traditionell eher marginalisiert wurden. Nachdem mit konditionierten und unkonditionierten Zweifelsfällen zwei Haupttypen unterschieden worden sind, widmet sich der Text der Sprachnormierung von Zweifelsfällen. Der Ausgangspunkt liegt darin, die geforderte Sprachberatung als argumentativ orientierten, rationalen Umgang mit sprachlichen Zweifelsfällen zu begreifen. Dazu wird eine systematische Entscheidungsprozedur entworfen, die als Grundlage für die Klärung von Zweifelsfällen fungiert. Mit dieser kleinen Theorie der Sprachnormierung von Zweifelsfällen wird auch das Ziel verfolgt, auf deskriptiver Basis empirisch legitimierte Sprachnormen zu formulieren und damit nicht zuletzt einen sprachwissenschaftlichen Beitrag zur Formung des öffentlichen Sprachbewusstseins zu leisten.
Sprachnormen treten im Normalfall erst dann in Erscheinung, wenn sie verletzt werden. Normverletzungen und die damit einhergehenden Sanktionen tragen somit zur Normenkonstitution wesentlich bei. Dabei stellt sich zunächst die Frage, was man unter sprachlichen Normen verstehen soll. Daraus ergeben sich Konsequenzen für die Kriterien, die Normen überhaupt konstituieren können. Für beide Fragestellungen ist der im Sprachwandel immer wieder thematisierte Übergangsbereich zwischen dem Entstehen neuer Normen und der Außerkraftsetzung bislang bestehender Normen ein interessantes Untersuchungsgebiet.
Auch wenn man in Rechnung stellt, dass die Definition von Sprachnormen nach wie vor umstritten ist, kann doch eine Reihe von Definitionskriterien als gesichert gelten. Zu ihnen werden neben der Obligation, der Sanktion, der Wertebezogenheit, der Formuliertheit, dem Situationsbezug der Norm auch die am Normierungsprozess beteiligten Gruppen gerechnet (Normautoritäten, Modellsprecher, Sprachexperten, Sprachkodifizierer). In manchen Definitionsversuchen wird der Sprachbenutzer m. E. zu stark in den Hintergrund gedrängt. Er stellt sozusagen als „Sprachsouverän“ die treibende Kraft für den Normenwandel dar und sollte daher auch in der theoretischen Modellierung von Sprachnormen deutlicher hervorgehoben werden. Außerdem lassen sich Sprachnormen klassifizieren sowohl nach dem Phänomenbereich, der normiert werden soll (Aussprache, Morphologie, Syntax, Lexik, Pragmatik etc.), als auch nach der Art der Genese (präskriptive/statuierte/gesetzte Normen vs. deskriptive/subsistente/konventionelle Normen). Sprachnormen zeigen sich letztlich als prototypisch gefasste Konzepte, deren konkrete Realisierungen eher mit dem Begriff der Familienähnlichkeit denn mit einem starren System an Definitionskriterien erfasst werden kann.
Im folgenden Beitrag soll es um drei Fragen gehen.
1. Inwieweit sollte der „Sprachsouverän“ in die Modellierung von Normen einbezogen werden?
2. Welche Funktionen haben Normverletzungen im Gefüge von Grammatikalität, Akzeptabilität und Sprachnormierung?
3. Unter welchen Bedingungen können sich neue Sprachnormen etablieren?
Der Fokus wird dabei auf der letzten Frage liegen. Nach einer kurzen Vorstellung der Modifikation des Sprachnormenmodells von U. Ammon (Frage 1) und Überlegungen zum Nutzen von Sprachnormverletzungen und zu den Vorteilen eines sich stetig wandelnden Sprachnormeninventars (Frage 2), möchte ich anhand von verschiedenen Beispielen zeigen, wie bestehende Normen außer Kraft gesetzt werden können und wie sich neue Nonnen etablieren. Dabei ist m. E. besonders bei der Etablierung neuer Normen die Frage interessant, ob letztlich alles zur Norm werden kann. An Beispielen aus der Morphologie und der Syntax soll gezeigt werden, welche Restriktionen auch bei neu zu etablierenden Normen gelten. Neue Normen „verwässern“ somit nicht nur den Bereich bisher bestehender Normen, sondern strukturieren ihn über die nach wie vor geltenden Ausschlusskriterien in positiver Weise neu, so dass neuen Normen stets auch der Bereich des Nichtnormgemäßen mit eingeschrieben ist.
Die Grammatik behauptet sich seit Langem als Gegenstand des Deutschunterrichts, aber sie wird immer wieder „fragwürdig“: Behalten die Schüler, was sie gelernt haben? Liefert die Schulgrammatik geeignete Instrumente für die Sprachreflexion? Bringt sie den behaupteten Nutzen fürs Sprechen, Schreiben und Lesen? Den offiziellen Begründungen für und den behaupteten guten Wirkungen von Grammatik in der Schule, wie sie in den Bildungsplänen und von der Didaktik vertreten werden, begegnet der Verfasser mit einer gewissen Skepsis. Die stützt sich auch auf eine eigens für diesen Beitrag durchgeführte Befragung von Deutsch Lehrenden und die Durchsicht von Abiturarbeiten im Fach Deutsch. Er plädiert für einen Grammatikunterricht mit weniger (vom Lehrer) aufgesetzter Systematik und Begrifflichkeit und mehr sprachlichen Entdeckungsreisen (der Schüler), ausgelöst durch Lernarrangements, die zum Nachdenken anregen.
Gegenstand der Untersuchung sind semantisch irrelevante Rektionsschwankungen bei entlehnten, sekundären und primären Präpositionen, wobei auch Bildungen berücksichtigt werden, die nur gelegentlich eine präpositionale Funktion ausüben. Ein Überblick über die Normvorgaben zeigt, dass Rektionsschwankungen bei entlehnten Präpositionen weitgehend und bei sekundären Präpositionen selten erlaubt sind, bei primären Präpositionen gänzlich unbeachtet bleiben.
Die Normvorgaben, soweit vorhanden, werden dem realen Sprachgebrauch gegenübergestellt. Als Korpus dienen Belege aus Cosmas II (pressesprachliche Texte) und aus dem Internet. Besonderes Augenmerk wird auf Normverletzungen gerichtet: sekundäre Genitiv-Präpositionen mit regelwidriger Dativrektion (z. B. hinsichtlich), sekundäre Dativ-Präpositionen mit regelwidriger Genitivrektion (z. B. gegenüber), sekundäre Akkusativ-Präpositionen mit regelwidriger Genitiv- und Dativrektion (z. B. betreffend), primäre Präpositionen mit regelwidriger Genitivrektion (z. B. seit). Es zeigt sich insgesamt, dass fast alle etablierten Präpositionen mit regelwidrigem Kasus auftreten. Auch nicht-etablierte Präpositionen kommen sehr häufig mit einem Kasus vor, der nicht den etymologischen Strukturverhältnissen entspricht. Derartige Rektionsschwankungen, die sich vor allem aus dem Zusammenwirken von Grammatikalisierungs- und Analogieprozessen erklären lassen, erscheinen somit als Regel- und nicht als Ausnahmefall.
Eine statistische Untersuchung pressesprachlicher Texte zeigt exemplarisch anhand von 19 Präpositionen, dass die Prozentsätze normwidriger Kasusbelege jedoch zumeist gering sind. Insgesamt wird ersichtlich, dass im präpositionalen System des Deutschen - überraschenderweise - der Genitiv auf Kosten des Dativs an Boden gewinnt.
Nach einem Rückblick auf die Geschichte der Sprachnormierung in Frankreich und einem kurzen Bericht zur jetzigen „Lage der Nation“ befasst sich der folgende Beitrag zunächst mit Aspekten des Sprach(norm)bewusstseins, seinen Faktoren und seinen konkreten Formen, um dann auf drei „Mythen“ einzugehen, die seit langer Zeit sowohl die französische als auch die deutsche Grammatik belasten.
Das öffentliche Interesse an der Frage, was als gutes und was als schlechtes Deutsch anzusehen sei, artikuliert sich auch als Anforderung an die Sprachwissenschaft: Sie möge zur Klärung dieser Frage beitragen. Es wird dargelegt, warum die Sprachwissenschaft eine Explikation der Begriffe gutes Deutsch und schlechtes Deutsch nicht zu ihren Aufgaben im engeren Sinn zählt. Möglich ist aber eine Auseinandersetzung mit dem Anliegen, das die Forderung nach gutem Deutsch begründet. Die Sprachwissenschaft kann dieses Anliegen unterstützen, indem sie dabei hilft, den Weg über das richtige zum guten Deutsch auszubauen. Was dabei unter richtigem Deutsch zu verstehen ist, kann wissenschaftlich geklärt und sollte öffentlich vertreten werden. Der Beitrag versteht sich als Plädoyer für eine Verbesserung des Verhältnisses von Sprachwissenschaft und publizistischer Sprachkritik.
We compare the use of überhaupt and sowieso in Dutch and German. We use the world-wide web as the main resource and pursue a zigzag strategy, trying to find usages going back and forth between dictionaries, intuitions and real data obtained through web search. To our surprise, the results more or less confirm the decision of Dutch dictionaries to consider überhaupt and sowieso synonymous. In German, we find no synonymy, but only a great overlap of usage conditions in declarative sentences.
In diesem Beitrag soll es darum gehen, ob wir mit grammatischen Regeln und Beschreibungen die Vielfalt und Komplexität sprachlicher Kommunikation erfassen können, oder bescheidener, wie weit wir das können. Das Exempel, das ich statuieren möchte, befasst sich mit der Frage: Wie lautet der Genitiv komplexer Eigennamen. Oder genauer: komplexer Personennamen. Oder noch genauer: komplexer Personennamen einer gewissen Struktur. Oder noch genauer? Da sind wir schon mitten im Thema.
Ein Beispiel für das Exempel ist: Gedichte Walthers von der Vogelweides
Und das ist so ziemlich die einzige Variante, die im Beitrag nicht mehr Vorkommen wird. Letztlich wird es dann darum gehen, wie wir mit der Vielfalt umgehen wollen. Sie darstellen oder ignorieren und verschweigen? Doch zum Ignorieren muss man sie erst mal sehen.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
Seit Anbeginn linguistischer Forschung ist der ontologische Status natürlicher Sprachen in Diskussion: Was ist das Wesen einer Sprache? Die meisten Sprachbegriffe krankten und kranken daran, dass sie verdinglichend und/oder vitalistisch sind, oder die Dynamik der Sprache oder den sozialen Charakter der Sprache ausklammem. Es gilt, einen Sprachbegriff zu entwickeln, der weder verdinglichend kollektivistisch noch auf solipsistische Weise individualpsychologisch ist, und der der Tatsache Rechnung trägt, dass eine sogenannte natürliche Sprache einem Prozess soziokultureller Evolution unterliegt. Einen solchen Sprachbegriff versuche ich in diesem Vortrag zu skizzieren auf der Basis der Prinzipien des methodologischen Individualismus.
Das Phänomen Sprache ist in Form des beobachtbaren Sprachgebrauchs fast allgegenwärtig, gleichzeitig bleibt das offenkundig Regel- und Systemhafte dieses Phänomens überraschend ungreifbar. Wegen der überwältigenden Komplexität natürlicher Sprachen entsteht bei jedem Versuch, dieses Systemhafte in einer Theorie mit explanatorischem Anspruch zu fassen, eine breite Kluft zwischen der angestrebten theoretischen Beschreibungsebene einerseits und der phänomenologisch zugänglichen Ebene des Sprachgebrauchs andererseits.
Ausgehend von allgemeinen wissenschaftstheoretischen Überlegungen, wie man angesichts dieser Kluft überhaupt zu hinreichend abgesicherten Erkenntnissen für eine explanatorische Theoriebildung kommen kann, betonen die Autoren die Notwendigkeit, sich dem Untersuchungsgegenstand Sprache mit möglichst wenigen Vorannahmen über diesen Gegenstand selbst zu nähern und sich dabei konsequent von der Empirie leiten zu lassen. Sie werben nachdrücklich für eine emergentistische Perspektive auf Sprache, der zufolge alles Regelhafte und Konventionelle in der Sprache ein Epiphänomen des Sprachgebrauchs ist und von den Sprachteilnehmern fortlaufend ausgehandelt wird. Eine treibende Kraft hierbei ist, so wird argumentiert, der Begriff der Ähnlichkeit. Auf dieser Grundlage wird schließlich ein Forschungsprogramm entworfen, das die Wirkung des Faktors Ähnlichkeit auf die Sprache nachzuzeichnen und dadurch schrittweise zu ähnlichen Generalisierungen zu gelangen versucht wie die Sprachgemeinschaft.
Der so genannte A.c.I. birgt ungelöste Probleme, die am Beispiel der Wahmehmungsverben geklärt werden sollen. Als besonders strittiges Element erweist sich eben das akkusativische Element, weil seine Zuordnung (zum Obersatzverb oder zum eingebetteten Infinitiv) diskutabel ist. Dafür wird hier eine neuartige Erklärung vorgeschlagen. Quasi nebenbei bringt die Untersuchung die Erkenntnis, dass man von „A.c.I.-Verben“ eigentlich nicht sprechen sollte, da die so bezeichneten Verben höchst heterogene Eigenschaften aufweisen.
Die Sorge um die deutsche Sprache füllt Säle. Wer Sprachdummheiten anmahnt, kann sich des Beifalls jener sicher sein, die sich sprachlich überlegen sehen. Selten wird die Frage gestellt, welchen Status grammatische Regeln haben. Tatsächlich ist keineswegs klar, was als korrektes Deutsch gelten kann. Wie ist das Deutsche zu fassen? Wer bestimmt, was als korrekt gelten soll? Die 44. Jahrestagung des Instituts für Deutsche Sprache suchte zur Klärung solcher Fragen beizutragen. Der vorliegende Band dokumentiert, wie die deutsche Grammatik im Spannungsfeld von Regel, Norm und Sprachgebrauch auf der Tagung aufgearbeitet wurde: Zunächst stehen die theoretischen Aspekte der Problematik auf dem Prüfstand. Danach werden grammatische Normen und der Umgang mit diesen in der Öffentlichkeit fokussiert. Im nächsten Themenblock stehen grammatische Variation in ihrem Verhältnis zur Norm und konkrete Phänomene der Morphologie, Syntax und Prosodie zur Diskussion. Die Betrachtung des Grammatikunterrichts und der Grammatikschreibung vervollständigt das Bild, das durch einen Blick auf die Normativität in Frankreich zusätzlich in einen größeren Kontext gestellt wird. Der Band schließt mit einer Zusammenfassung der Podiumsdiskussion, welche den Schlusspunkt der Tagung bildete.
Präsentationen sind seit einigen Jahren auch in der Wissenschaft zu einer selbstverständlichen Kommunikationsform geworden: In der Verbindung von spontaner mündlicher Rede und visueller Projektion vor allem mittels PowerPoint wollen sie dem Bedürfnis nach schneller Informationsvermittlung entsprechen. Henning Lobin analysiert die linguistischen und rhetorischen Eigenschaften dieser neuen Kommunikationsform und berücksichtigt insbesondere die spezielle Art der Medienkombination.
In this paper we present an approach to faceted search in large language resource repositories. This kind of search which enables users to browse through the repository by choosing their personal sequence of facets heavily relies on the availability of descriptive metadata for the objects in the repository. This approach therefore informs the collection of a minimal set of metatdata for language resources. The work described in this paper has been funded by the EC within the ESFRI infrastructure project CLARIN.
Richtiges Deutsch?
(2009)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
In spite of the obvious importance that is accorded to the notion grammatical construction in any approach that sees itself as a construction grammar (CxG), there is as yet no generally accepted definition of the term across different variants of the framework. In particular, there are different assumptions about which additional requirements a given structure has to meet in order to be recognized as a construction besides being a ‘form-meaning pair’. Since the choice of a particular definition will determine the range of both relevant phenomena and concrete observations to be considered in empirical research within the framework, the issue is not just a mere terminological quibble but has important methodological repercussions especially for quantitative research in areas such as corpus linguistics. The present study illustrates some problems in identifying and delimiting such patterns in naturally occurring text and presents arguments for a usage-based interpretation of the term grammatical construction.
Apresentação
(2009)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Das Online-Wortschatz-Informationssystem Deutsch (OWID) ist ein digitales Wörterbuchportal des Instituts für Deutsche Sprache. Alle darin zusammengeführten lexikografischen Daten sind auf XML-Basis feingranular strukturiert. Speicherung, Verwaltung und Retrieval dieser Daten übernimmt das Orade-basierte Electronic Dictionary Administration System (EDAS). Der vorliegende Beitrag erläutert die XML-basierte Modellierung der Daten, XML-spezifische Fragen der Speicherung, sowie das Retrieval mit XPath und SQL/XML.
The paper presents the results of a joint effort of a group of multimodality researchers and tool developers to improve the interoperability between several tools used for the annotation and analysis of multimodality. Each of the tools has specific strengths so that a variety of different tools, working on the same data, can be desirable for project work. However this usually requires tedious conversion between formats. We propose a common exchange format for multimodal annotation, based on the annotation graph (AG) formalism, which is supported by import and export routines in the respective tools. In the current version of this format the common denominator information can be reliably exchanged between the tools, and additional information can be stored in a standardized way.
We present data-driven methods for the acquisition of LFG resources from two German treebanks. We discuss problems specific to semi-free word order languages as well as problems arising from the data structures determined by the design of the different treebanks. We compare two ways of encoding semi-free word order, as done in the two German treebanks, and argue that the design of the TiGer treebank is more adequate for the acquisition of LFG resources. Furthermore, we describe an architecture for LFG grammar acquisition for German, based on the two German treebanks, and compare our results with a hand-crafted German LFG grammar.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
The paper contributes to the raising vs. control debate with respect to modals through (A) novel data; (B) the investigation of a domain in which it has proven particularly problematic: volitional modality. We analyze oblique arguments of experiencer verbs embedded under German wollen ‘want’ and propose that they support both generalized raising and the abandonment of the classical version of the Theta Criterion. Byproducts of the analysis include a syntactic account involved in a class of datives in the language together with the initial characterization of a related modal in German which is expressed through the same item as volition and which we term weak.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Gesprächstyp und Stil
(2009)
In (socio)linguistic as well as in anthropological and conversation analytic studies, linguistic heterogeneity and stylistic variation related to situational conditions are main research issues. In these studies, heterogeneity is investigated using concepts like “text type”, “register”, “genre” and “social” or “cultural style”. From a theoretical and methodological perspective, approaches to situation-specific heterogeneity can be differentiated into (a) approaches following the standard research methodology in sociolinguistics, where verbal behavior (the use of specific varieties, specific types of text or verbal activities) is considered as being determined by the situational variables; and (b) approaches using reflexive and dynamic concepts in order to grasp the creation of social meaning through language in the process of interaction.
This article starts from traditional approaches of the relation between situation and stylistic variation using rather static concepts such as “text type” or “register”, and then focuses on approaches using more complex concepts such as “contextualization”, “genre”, and concepts of “social” or “cultural style”.
Vorwort
(2009)
Vorwort
(2009)
Die Flexionsmorphologie des Deutschen ist ein zentraler Forschungsgegenstand des europäischen Forschungsnetzwerks EuroGr@mm, dessen Erschließung für Forschung und Lehre seit Anfang 2007 vorangetrieben wird. Das europäische Projekt hatte sich zur Aufgabe gemacht, diesen grammatischen Themenbereich aus französischer, italienischer, norwegischer, polnischer und ungarischer Perspektive kontrastiv zu beleuchten. Die ersten Ergebnisse wurden nun in Form von didaktisch aufbereiteten Wissenseinheiten auf der Lemplattform ProGr@mm kontrastiv veröffentlicht.
Generative lexicalized parsing models, which are the mainstay for probabilistic parsing of English, do not perform as well when applied to languages with different language-specific properties such as free(r) word order or rich morphology. For German and other non-English languages, linguistically motivated complex treebank transformations have been shown to improve performance within the framework of PCFG parsing, while generative lexicalized models do not seem to be as easily adaptable to these languages. In this paper, we show a practical way to use grammatical functions as first-class citizens in a discriminative model that allows to extend annotated treebank grammars with rich feature sets without having to suffer from sparse data problems. We demonstrate the flexibility of the approach by integrating unsupervised PP attachment and POS-based word clusters into the parser.
Das Lexikon der Sprachkritik
(2009)
Viele Überlegungen wurden zu einem Projekt Lexikon der Sprachkritik angestellt und vorläufige Konzepte dafür erdacht. Zu einer Konkretisierung dieser Bemühungen ist es aber bisher leider nicht gekommen. Dieser Beitrag stellt nun einen Versuch dar, ein vorläufiges Konzept für ein Lexikon der Sprachkritik vorzulegen. Es handelt sich hierbei um die Begründung für dieses Unternehmen, die Darstellung der Vorarbeiten zu einem Lexikon der Sprachkritik, die Explizierung der Konzeption und der Lemmaauswahl und die exemplarische Ausarbeitung von vier Artikeln.
Der Schein trügt nämlich
(2009)
The German particle nämlich is puzzling because it seems to have two independent semantic functions which strictly correlate with specific syntactic environments: if nämlich precedes an ,,orphan constituent" (Haegeman 1991) it specifies an underspecified discourse referent in the previous clause, and if nämlich appears in a whole clause its function is marking that the hostclause delivers an explanation to the previous clause. A polysemy- or even homonymy-analysis seems problematic precisely because of this strict correlation between syntactic environment and semantic function. In this paper we propose a unified analysis of nämlich. We argue that nämlich marks the property of the context that there is an implicit question to which the host of nämlich delivers a direct (short) answer (Jacobson 2008). Crucially, constituents are good short answers to constituent-questions (Who?), while whole clauses are only good short-answers to ,,sentence"-questions like Why p? Building on these intuitions we show how both readings of nämlich can systematically be derived and implement our analysis formally.