Refine
Year of publication
- 2009 (229) (remove)
Document Type
- Part of a Book (97)
- Article (71)
- Conference Proceeding (23)
- Book (17)
- Part of Periodical (6)
- Review (5)
- Contribution to a Periodical (4)
- Doctoral Thesis (2)
- Other (2)
- Report (1)
Language
- German (171)
- English (49)
- French (2)
- Italian (2)
- Portuguese (2)
- Latvian (1)
- Multiple languages (1)
- Russian (1)
Keywords
- Deutsch (110)
- Korpus <Linguistik> (19)
- Sprachnorm (15)
- Konversationsanalyse (11)
- Sprachgebrauch (11)
- Grammatik (10)
- Verb (10)
- Wörterbuch (10)
- Computerlinguistik (9)
- Interaktion (9)
Publicationstate
- Veröffentlichungsversion (88)
- Zweitveröffentlichung (24)
- Postprint (12)
Reviewstate
Publisher
- Institut für Deutsche Sprache (42)
- de Gruyter (29)
- Lang (14)
- Narr (13)
- Niemeyer (6)
- Elsevier (3)
- Springer (3)
- Acta Universitatis Upsaliensis (2)
- Benjamins (2)
- Cornelsen Scriptor (2)
Die Artefaktbezeichnungen im Deutschen weisen, wie viele andere sprachliche Ausdrücke auch, eine vom Kontext abhängige Bedeutungsvariation auf, die sich nach systematisch wiederkehrenden Mustern gestaltet. Ein Ziel dieser Untersuchung ist es, herauszufinden, wie diese Bedeutungsvariation zustande kommt und welche semantischen Relationen oder Merkmale das Bindeglied zwischen den einzelnen Varianten der Wortbedeutung bilden. So lässt sich auch der Grad an Systematizität oder Regelhaftigkeit der Polysemie genauer bestimmen. Die Bedeutungsvariationen bei Artefaktbezeichnungen werden hier im wesentlichen als Fälle von metonymischer Bedeutungsverschiebung behandelt. Den Ausgangspunkt der Analyse bildet dabei eine unterspezifizierte semantische Form der sprachlichen Ausdrücke, die mit Hilfe verschiedener inferenzieller Verfahren und unter Einbeziehung von Kontext und Weltwissen schrittweise angereichert und modelliert wird.
We compare the use of überhaupt and sowieso in Dutch and German. We use the world-wide web as the main resource and pursue a zigzag strategy, trying to find usages going back and forth between dictionaries, intuitions and real data obtained through web search. To our surprise, the results more or less confirm the decision of Dutch dictionaries to consider überhaupt and sowieso synonymous. In German, we find no synonymy, but only a great overlap of usage conditions in declarative sentences.
Über den gemeinsamen Sprachgebrauch in Ost und West, seine Probleme und kreativen Möglichkeiten
(2009)
In dieser Arbeit über den neueren deutschen Sprachgebrauch in Ost und West soll nicht das Trennende betont werden, sondern das gemeinsame Spracherbe und seine Wirkung in der Gegenwart. Aber eine Beobachtung gegenüber vielen kritischen Stimmen aus West und Ost sei, in völlig unpolemischer Absicht, nicht verschwiegen: Zu viele sprachkritische Artikel aus der Bundesrepublik haben in der Vergangenheit von der aus Texten bekannten offiziellen Sprache der DDR-Machthaber zu direkt auf die wirklich gesprochene Sprache der Bevölkerungsmehrheit geschlossen, und zu viele DDR-Sprachwissenschaftler und Polemiker haben auf die westliche Kritik vor allem als Verteidiger des politischen Kurses der SED reagiert, aus welchen persönlichen Gründen auch immer. Gedruckt worden wären andere Meinungen in der DDR allerdings nicht, und der Karriere waren sie auch nicht förderlich. Trotzdem gilt: Die deutsche Sprache hat sich in Ost und West auf jeweils spezifische Weise weiterentwickelt, sie wurde aber nicht gespalten und funktionierte in Ost und West und - trotz spürbarer Unterschiede - zwischen Ost und West als gemeinsames Verständigungsmittel, wo immer sie dafür benutzt wurde. Zwischen den Begriffen „Sprachwandel“ und „Bezeichnungswandel“ muss sorgfältig unterschieden werden. Im kreativen Umgang mit dem gemeinsamen Deutsch haben sich Ost und West längst wieder zusammengefunden. Genauere Untersuchungen über das Alltags-deutsch in der DDR sind sehr zu wünschen, die Schaffung eines brauchbaren Korpus dafür ist im Nachhinein nicht einfach, sollte aber in Angriff genommen werden.
This paper shows how a corpus-driven approach leads to a new perspective on central issues of phraseology and on lexicographical applications. It argues that a data-driven pattem search (applying Statistical methods), an a posteriori interpretation of the data and a user oriented documentation of the usage of multi-word units (e. g. in lexicographical articles) constitute a step-by-step process where each step has its own informational value and useflilness. The description of multi-word units (Usuelle Wortverbindungen) presented in this paper focuses on the second Step, the high quality analysis and interpretation of collocation data, exemplified by the fields of multi-word units centered around the word formslIdee/Ideenl(idea/ideas).
Anhand eines Fallbeispiels wird gezeigt, dass in der praktischen Arbeit des EuGH Rechtsarbeit und Spracharbeit eng miteinander verflochten sind. Wenn es in einem strittigen Fall um die konkrete Ausarbeitung einer haltbaren Sachverhaltsbeschreibung geht, zeigt sich, dass die Rechtsarbeit und die Spracharbeit des Gerichts eigentlich identisch sind. In einem solchen Fall ist es für das Gericht nützlich und günstig, wenn es auf so viele sprachliche Formulierungen (auch in verschiedenen Sprachen) zurückgreifen kann wie möglich. Das Ziel ist, möglichst viele Interpretationen in Betracht zu ziehen, um das Urteil bestandssicher zu machen. In dieser Situation sind Vorschläge, das Sprachenspektrum, in dem der EuGH arbeitet, im Vorhinein und generell einzuschränken, kontraproduktiv.
Nach Eve Sweetser (1990) kann eine Äußerung auf drei kognitiven Ebenen - Sachverhaltsebene, epistemische Ebene und Sprechaktebene - gedeutet werden. In diesem Beitrag werden auf der Basis eines Korpus gesprochensprachlicher Daten' sowohl syntaktische als auch prosodische Besonderheiten kausaler und konditionaler konnektorhaltiger Relationen untersucht, die auf unterschiedlichen Ebenen gedeutet werden können. Ein besonderes Interesse gilt dabei der Frage, ob die Sweetser’sehen Ebenen im Deutschen sprachlich markiert sind. Es wird gezeigt, dass syntaktische und prosodische Signale mit den Ebenen sehr stark korrelieren, die Ebenen im kausalen Bereich aber anders markiert sind als im konditionalen Bereich. Aufgrund dieses Befundes wird gegen die Annahme Sweetsers argumentiert, dass Kausalität als Basisbedeutung für Konditionalität angesehen werden könne.
Der vorliegende Beitrag beschäftigt sich mit zwei zentralen Fragen, denen sich die wissenschaftliche Grammatikographie zu stellen hat: der Frage nach ihrem Verständnis von .Sprache' und der Frage nach dem Verhältnis von Standard bzw. grammatischem System und grammatischer Norm. Im ersten Teil werden jeweils zwei verschiedene Ausprägungen von zwei Grundpositionen vorgestellt: „Es gibt eine Sprache hinter dem Sprechen“ mit dem generativen Konzept der Kompetenz und dem strukturalistischen der langue und „Es gibt keine Sprache hinter dem Sprechen“ mit der konstruktivistischen Idee der .Emergenz' von Sprache aus dem Sprechen und dem Rückzug auf die Auswertung von Korpora. Es wird nicht nur aus pragmatischen Gründen dafür plädiert, dass die Grammatikschreibung sich an die Konzeption von Einzelsprachen als gesellschaftlich gültige Regelsysteme hält. Im zweiten Teil wird untersucht, auf welche Weise sich Grammatiken dem „Systemgerechten“ nähern können. Am Beispiel des „Markiertheitsabbaus“ in der schwachen Flexion maskuliner Substantive wird eine moderat strukturalistische Hypothesenbildung, bei der das deutsche Flexionssystem als labile Ordnung erscheint, vorgeführt. Der Umgang von Grammatiken mit dem Verhältnis von Standardsprache, System und Norm wird an weiteren morphologischen und syntaktischen Phänomenen nachgezeichnet. Die stärkere Sensibilisierung der Grammatikschreibung für Normabstufungen, die Offenheit und Flexibilität des Systems wird herausgestellt.
Wie wir zu-FALL kommen
(2009)
Die Grammatik behauptet sich seit Langem als Gegenstand des Deutschunterrichts, aber sie wird immer wieder „fragwürdig“: Behalten die Schüler, was sie gelernt haben? Liefert die Schulgrammatik geeignete Instrumente für die Sprachreflexion? Bringt sie den behaupteten Nutzen fürs Sprechen, Schreiben und Lesen? Den offiziellen Begründungen für und den behaupteten guten Wirkungen von Grammatik in der Schule, wie sie in den Bildungsplänen und von der Didaktik vertreten werden, begegnet der Verfasser mit einer gewissen Skepsis. Die stützt sich auch auf eine eigens für diesen Beitrag durchgeführte Befragung von Deutsch Lehrenden und die Durchsicht von Abiturarbeiten im Fach Deutsch. Er plädiert für einen Grammatikunterricht mit weniger (vom Lehrer) aufgesetzter Systematik und Begrifflichkeit und mehr sprachlichen Entdeckungsreisen (der Schüler), ausgelöst durch Lernarrangements, die zum Nachdenken anregen.
In spite of the obvious importance that is accorded to the notion grammatical construction in any approach that sees itself as a construction grammar (CxG), there is as yet no generally accepted definition of the term across different variants of the framework. In particular, there are different assumptions about which additional requirements a given structure has to meet in order to be recognized as a construction besides being a ‘form-meaning pair’. Since the choice of a particular definition will determine the range of both relevant phenomena and concrete observations to be considered in empirical research within the framework, the issue is not just a mere terminological quibble but has important methodological repercussions especially for quantitative research in areas such as corpus linguistics. The present study illustrates some problems in identifying and delimiting such patterns in naturally occurring text and presents arguments for a usage-based interpretation of the term grammatical construction.
Eigennamen sind besondere Sprachzeichen; sie heben sich semantisch, pragmatisch, zum Teil auch grammatisch von appellativischen Nomina (Gattungsnamen“) ab. Der Sonderwortschatz an Eigennamen (Personennamen wie Rainer oder Gisela, Ortsnamen wie Rom oder Deutschland) deckt den Benennungsbedarf keineswegs ab. Für weniger prototypische Namensträger werden häufig konventionelle Sprachmittel zum Eigennamen umfunktioniert. Der Beitrag beschäftigt sich mit nominalen Konstruktionen, mit denen künstlerische Werke (Beispiele: „Der englische Patient“, „Hundejahre“) und Gasthäuser (Beispiele: „Goldener Stern“, „Zum Ritter“) benannt werden. Die semantische Transposition, so die These des Beitrags, kann zu grammatischen Konflikten führen. Einerseits soll der Name möglichst an seiner unverwechselbaren Gestalt wiedererkennbar sein und sich daher z.B. gegenüber flexivischen Veränderungen resistent zeigen, andererseits soll er wie jeder andere Ausdruck syntaktisch in seine Umgebung eingepasst werden. Unterschiedliche Strategien der Konfliktlösung werden anhand von Belegen demonstriert und interpretiert. Der konkrete Beispielfall illustriert gleichzeitig, wie man sprachlichen Regeln auf unsicherem Terrain folgen kann, mitunter auch haarscharf an der Norm vorbei.
Vorwort
(2009)
Vorwort
(2009)
Vorbemerkung
(2009)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
Der Begriff Wortprosodie bezeichnet hier die Organisation von Segmenten in die hierarchisch geordneten Konstituenten Silbe, Fuß und phonologisches Wort. Evidenz für solch eine Organisation und die ihr zugrundeliegenden Regeln findet sich in gewissen distributioneilen sowie phonetischen Besonderheiten von Segmenten. In diesem Beitrag versuche ich eine Darstellung der wesentlichen Züge der deutschen Wortprosodie als Interaktion miteinander in Konflikt stehender Beschränkungen im Sinne der Optimalitätstheorie. Im Mittelpunkt steht die Herausarbeitung unmarkierter prosodischer Strukturen auf der phonologisch-lexikalischen Ebene, da unmarkierte Strukturen einen wichtigen Bezugspunkt für die Beurteilung von Varianten bilden. Zugleich ergibt sich eine neue Perspektive auf das Verhältnis von Norm und Regel.
Variation in der Flexionsmorphologie: Starke und schwache Adjektivflexion nach Pronominaladjektiven
(2009)
Adjektive zeigen in der Stellung nach Indefinitpronomina und demonstrativen oder quantitativen Adjektiven (sogenannten Pronominaladjektiven) Variationen zwischen starker und schwacher Flexion, die durch die allgemeine Grundregel der Adjektivflexion (,schwach nach stark‘) nicht abgedeckt sind: (i) bei gleicher Genus-, Numerus- und Kasusspezifikation nach verschiedenen Pronominallexemen wie in einige kleine Kinder vs. alle kleinen Kinder, (ii) bei unterschiedlicher kategorieller Spezifikation nach ein und demselben Pronominallexem (wie in einige kleine Kinder vs. bei einigem guten Willen) oder (iii) bei verschiedenen Vorkommen mit identischer kategorieller Spezifikation nach ein und demselben Pronominallexem wie in beider deutscher Staaten vs. beider deutschen Staaten. Im vorliegenden Beitrag wird eine Klärung der systematischen Grundlagen derartiger ‚Schwankungen‘ angestrebt, die in den Grammatiken Fall für Fall beschrieben werden. Lexikalische und flexivische Parameter, die die Verteilung starker und schwacher Formen steuern, werden identifiziert. Als wesentlich erweisen sich einerseits bei den Pronominaladjektiven zu beobachtende Abstufungen im Grad syntaktisch-semantischer Ähnlichkeit zum prototypischen Determinativ, dem definiten Artikel; andererseits bei den Flexionsendungen zu beobachtende Abstufungen im Grad kategorieller und formaler Markiertheit. Im Ergebnis wird ein zweidimensionales Kontinuum von Übergangsstufen zwischen starker und schwacher Adjektivflexion nach Pronominaladjektiven sichtbar, das durch das Zusammenspiel lexikalischer und flexivischer Faktoren erzeugt wird.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
Transformationen des paracelsischen Prima-Materia-Begriffs in der "Philosophia ad Athenienses"
(2009)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Während die Relevanz von Patientenerzählungen und therapeutischen Deutungen für den Therapieprozess viel diskutiert wird, wird den therapeutischen Fragen weniger Beachtung geschenkt. In diesem Artikel wird dafür argumentiert, therapeutische Fragen als potenziell veränderungsrelevante Verfahren der gemeinsamen Konstruktion von Erzählungen zu betrachten. Therapeutische Fragen sind maieutisch ausgerichtet, das heißt sie regen den Patienten an, von sich aus die Erzählung zu expandieren und dabei zu psychologisch relevanten Deutungen des Erzählten zu gelangen. Therapeuten scheinen in ihren Reaktionen auf Patientenerzählungen der Präferenzreihenfolge Produktion von Continuern (Fortsetzungssignalen) Schweigen Fragen Deuten zu folgen. Sie greifen also erst zur selbstproduzierten Deutung, wenn der Patient von sich aus keine produziert. Diese Präferenzreihenfolge der Therapeutenreaktionen reflektiert eine Präferenz für die Selbstdeutung des Patienten, die maieutisch, das heißt durch sokratisches Fragen, unterstützt wird.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.
TePaCoC - A Testsuite for Testing Parser Performance on Complex German Grammatical Constructions
(2009)
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
The paper discusses particular logical consistency conditions satisfied by German proposition-embedding predicates which determine the question type (external and internal whether-form as well as exhaustive and non-exhaustive wh-form), the correlate type (es- or da-correlate) as well as the impact of the correlate on the respective consistency condition. It will turn out that some consistency conditions also determine the embedding of verb second and subject-control.
This article shows that the TEI tag set for feature structures can be adopted to represent a heterogeneous set of linguistic corpora. The majority of corpora is annotated using markup languages that are based on the Annotation Graph framework, the upcoming Linguistic Annotation Format ISO standard, or according to tag sets defined by or based upon the TEI guidelines. A unified representation comprises the separation of conceptually different annotation layers contained in the original corpus data (e.g. syntax, phonology, and semantics) into multiple XML files. These annotation layers are linked to each other implicitly by the identical textual content of all files. A suitable data structure for the representation of these annotations is a multi-rooted tree that again can be represented by the TEI and ISO tag set for feature structures. The mapping process and representational issues are discussed as well as the advantages and drawbacks associated with the use of the TEI tag set for feature structures as a storage and exchange format for linguistically annotated data.
We report on finished work in a project that is concerned with providing methods, tools, best practice guidelines, and solutions for sustainable linguistic resources. The article discusses several general aspects of sustainability and introduces an approach to normalizing corpus data and metadata records. Moreover, the architecture of the sustainability platform implemented by the authors is described.
Blut und Schweiß sind, wie Tränen, Entitäten kreatürlicher Existenz. Blut und Schweiß, auch Tränen, und ihre lateinischen oder modernen Entsprechungen lassen sich mühelos und zahlreich in ihrer (so genannten) eigentlichen Bedeutung und dabei in wechselnden Verbindungen für die jeweiligen Alltags-, Bildungs- und Fachsprachen nachweisen. Gegenstand einer Untersuchung zu „Traditionen des Formulierens“ (Hartmut Schmidt) sind nun nicht solche beliebigen und beliebig verbundenen Wörter in Texten. Gegenstand sind vielmehr ihre selbst formelhaft gewordenen, in ihrer (so genannten) übertragenen Bedeutung verwendeten Verbindungen, nämlich "sudor et sanguis", "Blut und Schweiß", dazu dann auch Tränen, wie sie als tradierte Varianten und letztlich in der Verbindung mit Tränen auch in spielerischen Abwandlungen auftreten.
Im Artikel „Stigma - Semiotik der Diskriminierung“ geht es um einen systematischen Überblick über die sprachlichen Formen der Stigmatisierung von Menschen in einer Gesellschaft. Ausgehend von der semiotischen Prämisse, dass das symbolische Zeichensystem Sprache alle anderen Zeichensysteme mitkonstituiert, werden der Prozess der Semiose und die Stigmatisierungspraxis seit frühneuhochdeutscher Zeit bis zu den Nationalsozialisten auf der visuellen, der auditiven und der olfaktorischen Ebene am Beispiel des antijüdischen bzw. antisemitischen Diskurses dargestellt. Im Vordergrund stehen dabei die sprachlichen Mittel der Stigmatisierungspraxis, vor allem die Stigmatisierung durch Wortbildungen, durch ideologische Polysemierung und durch Stigmatisierungsmetaphorik. Stigmatisierung ist eine kommunikative Praxis, die von Menschen ausgeübt wird, um andere Menschen oder Gruppen zu exkludieren. Zu ihren Opfern zählen aber nicht nur die direkt Betroffenen, sondern auch diejenigen, die sich mit ihnen solidarisieren oder solche Menschen, bei denen ein irgendwie geartetes tertium comparationis vorliegt, so dass man sie durch Übertragung der Stigmatisierungspraxis ebenfalls angreifen kann. Diese Art der Sekundärstigmatisierung und ihre Folgen für die Primärstigmatisierten ist ein bislang unterschätzter Untersuchungsgegenstand.
Sprechaktbezogene Kausalität
(2009)
Die 45. Jahrestagung des Instituts für Deutsche Sprache fand wie schon im letzten Jahr im Congress Center Rosengarten Mannheim statt. Das Rahmenthema „Sprache intermedial“ wurde in vier Themenblöcken behandelt: Ging es am ersten Tagungstag (10.3.09) um die Medialität der Stimme und der Sprache, standen am zweiten Tag Text-Bilder und intermediale Bezüge im Mittelpunkt, während am Abschlusstag die leiblich vermittelte multimodale Interaktion thematisiert wurde.
Sprache in Ost und West
(2009)
Speech Act Verbs
(2009)
We present a morphological analyzer for Spanish called SMM. SMM is implemented in the grammar development framework Malaga, which is based on the formalism of Left-Associative Grammar. We briefly present the Malaga framework, describe the implementation decisions for some interesting morphological phenomena of Spanish, and report on the evaluation results from the analysis of corpora. SMM was originally only designed for analyzing word forms; in this article we outline two approaches for using SMM and the facilities provided by Malaga to also generate verbal paradigms. SMM can also be embedded into applications by making use of the Malagaprogramming interface; we briefly discuss some application scenarios.
Generative lexicalized parsing models, which are the mainstay for probabilistic parsing of English, do not perform as well when applied to languages with different language-specific properties such as free(r) word order or rich morphology. For German and other non-English languages, linguistically motivated complex treebank transformations have been shown to improve performance within the framework of PCFG parsing, while generative lexicalized models do not seem to be as easily adaptable to these languages. In this paper, we show a practical way to use grammatical functions as first-class citizens in a discriminative model that allows to extend annotated treebank grammars with rich feature sets without having to suffer from sparse data problems. We demonstrate the flexibility of the approach by integrating unsupervised PP attachment and POS-based word clusters into the parser.
Das Thema dieser linguistischen Studie ist die Sprache der Russlanddeutschen, die nach dem Krieg in ihren Deportationsorten im Ural geblieben bzw. zu ihren Verwandten gezogen sind. In der Untersuchung werden einzelne morphosyntaktische Besonderheiten der russlanddeutschen Sprachvarietäten des Mittleren Ural in der Gegenüberstellung zum Hochdeutschen dokumentiert und analysiert. Bei der Beschreibung jedes einzelnen Phänomens wird sein "Entstehungscharakter" geklärt. Einer Reihe der betrachteten morphosyntaktischen Besonderheiten liegen dialektale, sprachgeschichtliche oder gesprochensprachliche Entwicklungstendenzen des Deutschen zu Grunde. Eine geringere Zahl der Phänomene ist ausschließlich durch den Einfluss des Russischen zu erklären. Die Mehrheit der untersuchten morphosyntaktischen Erscheinungen ist aber dialektal bedingt und wird zudem noch durch analoge Strukturen des Russischen in ihrem Gebrauch gefestigt. Anhand zahlreicher Korpusbelege wird gezeigt, wie zwei Sprachsysteme übereinstimmend auf die untersuchten Sprachvarietäten einwirken können.
Richtiges Deutsch?
(2009)
Nach einem Rückblick auf die Geschichte der Sprachnormierung in Frankreich und einem kurzen Bericht zur jetzigen „Lage der Nation“ befasst sich der folgende Beitrag zunächst mit Aspekten des Sprach(norm)bewusstseins, seinen Faktoren und seinen konkreten Formen, um dann auf drei „Mythen“ einzugehen, die seit langer Zeit sowohl die französische als auch die deutsche Grammatik belasten.
Das öffentliche Interesse an der Frage, was als gutes und was als schlechtes Deutsch anzusehen sei, artikuliert sich auch als Anforderung an die Sprachwissenschaft: Sie möge zur Klärung dieser Frage beitragen. Es wird dargelegt, warum die Sprachwissenschaft eine Explikation der Begriffe gutes Deutsch und schlechtes Deutsch nicht zu ihren Aufgaben im engeren Sinn zählt. Möglich ist aber eine Auseinandersetzung mit dem Anliegen, das die Forderung nach gutem Deutsch begründet. Die Sprachwissenschaft kann dieses Anliegen unterstützen, indem sie dabei hilft, den Weg über das richtige zum guten Deutsch auszubauen. Was dabei unter richtigem Deutsch zu verstehen ist, kann wissenschaftlich geklärt und sollte öffentlich vertreten werden. Der Beitrag versteht sich als Plädoyer für eine Verbesserung des Verhältnisses von Sprachwissenschaft und publizistischer Sprachkritik.
Gegenstand der Untersuchung sind semantisch irrelevante Rektionsschwankungen bei entlehnten, sekundären und primären Präpositionen, wobei auch Bildungen berücksichtigt werden, die nur gelegentlich eine präpositionale Funktion ausüben. Ein Überblick über die Normvorgaben zeigt, dass Rektionsschwankungen bei entlehnten Präpositionen weitgehend und bei sekundären Präpositionen selten erlaubt sind, bei primären Präpositionen gänzlich unbeachtet bleiben.
Die Normvorgaben, soweit vorhanden, werden dem realen Sprachgebrauch gegenübergestellt. Als Korpus dienen Belege aus Cosmas II (pressesprachliche Texte) und aus dem Internet. Besonderes Augenmerk wird auf Normverletzungen gerichtet: sekundäre Genitiv-Präpositionen mit regelwidriger Dativrektion (z. B. hinsichtlich), sekundäre Dativ-Präpositionen mit regelwidriger Genitivrektion (z. B. gegenüber), sekundäre Akkusativ-Präpositionen mit regelwidriger Genitiv- und Dativrektion (z. B. betreffend), primäre Präpositionen mit regelwidriger Genitivrektion (z. B. seit). Es zeigt sich insgesamt, dass fast alle etablierten Präpositionen mit regelwidrigem Kasus auftreten. Auch nicht-etablierte Präpositionen kommen sehr häufig mit einem Kasus vor, der nicht den etymologischen Strukturverhältnissen entspricht. Derartige Rektionsschwankungen, die sich vor allem aus dem Zusammenwirken von Grammatikalisierungs- und Analogieprozessen erklären lassen, erscheinen somit als Regel- und nicht als Ausnahmefall.
Eine statistische Untersuchung pressesprachlicher Texte zeigt exemplarisch anhand von 19 Präpositionen, dass die Prozentsätze normwidriger Kasusbelege jedoch zumeist gering sind. Insgesamt wird ersichtlich, dass im präpositionalen System des Deutschen - überraschenderweise - der Genitiv auf Kosten des Dativs an Boden gewinnt.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
This paper shows that the phenomenon of plesionymy deserves greater attention and needs to be approached outside its traditional framework, which considered it to be a subtype of synonymy (Cruse, 1986, 2002; Croft and Cruse, 2004). This view suggested that pairs of terms such as foggy–misty, fearless–brave exhibit significant shared semantic traits that are more salient than their differences. Differing properties were considered to be subordinate. These are sometimes contextually foregrounded resulting in occasional oppositeness. Corpus studies show that this view is a broad generalization. This study sheds new light on German plesionyms by employing a corpus-linguistic approach. In particular, terms designating gradable properties (e.g. kritisch–ernst ‘critical–serious’, sauber–rein ‘clean–unsoiled/immaculate’) at neighboring positions of gradable scales show variable behavior and do not show a stronger affinity for synonymy. The position taken is that a relation of synonymy and contrast are equally a matter of construal. Both types of semantic relations are part of the conceptual and lexical knowledge and subject to a cognitive principle. This work also examines how plesionym relations are realized in discourse. This article demonstrates that plesionyms are co-occurrences within typical lexico-syntactic sequences. Following Jones’ (2002) and Murphy’s (2006) observations, these patterns (e.g. nicht X, eher Y; mehr X als Y; etc.) have specific discourse functions and are evidence to account for a construction-based view.
Using concurrent electroencephalogram and eye movement measures to track natural reading, this study shows that N400 effects reflecting predictability are dissociable from those owing to spreading activation. In comparing predicted sentence endings with related and unrelated unpredicted endings in antonym constructions (‘the opposite of black is white/yellow/nice’), fixation-related potentials at the critical word revealed a predictability-based N400 effect (unpredicted vs. predicted words). By contrast, event-related potentials time locked to the last fixation before the critical word showed an N400 only for the nonrelated unpredicted condition (nice). This effect is attributed to a parafoveal mismatch between the critical word and preactivated lexical features (i.e. features of the predicted word and its associates). In addition to providing the first demonstration of a parafoveally induced N400 effect, our results support the view that the N400 is best viewed as a component family.
The paper (1) starts from the general understanding of children’s development gained by interdisciplinary endeavours during the last decades, (2) characterises the functional-pragmatic conception of language and language acquisition as opposed to conceptions of language as an isolated system and of language acquisition as an independent module of development, (3) describes forms of language acquisition and language mediation.
Das Ungarische verfügt neben einem definiten (a(z)) auch über einen indefiniten Artikel (egy). Dieser kann als schwächer grammatikalisiert angesehen werden als sein Gegenstück im Deutschen (ein), da er in einer Reihe von Kontexten, in denen ein obligatorisch erscheint, nur optional auftritt und teilweise sogar ausgeschlossen ist. Die folgenden Überlegungen zielen darauf ab, solche Kontexte mit Hilfe syntaktischer und/oder semantisch-pragmatischer Beschreibungskategorien zu identifizieren. Dabei beschränken wir uns aus Raumgründen auf die Vorkommensmöglichkeiten des indefiniten Artikels in Subjekt- und Objektfunktion, wobei wir generische Verwendungen generell unberücksichtigt lassen.
Die Datengrundlage bilden zum einen das Ungarische Nationalkorpus (Sigle MNSZ), zum anderen zwei literarische Texte, der Roman Szindbäd haza- megy/Sinbad geht heim von Sändor Märai (Sigle SM) sowie die Anthologie Modern magyar novelläk/Moderne ungarische Erzählungen (Sigle UE). Weiterhin wird auf in der Literatur angeführte Beispiele zurückgegriffen.
Sprachnormen treten im Normalfall erst dann in Erscheinung, wenn sie verletzt werden. Normverletzungen und die damit einhergehenden Sanktionen tragen somit zur Normenkonstitution wesentlich bei. Dabei stellt sich zunächst die Frage, was man unter sprachlichen Normen verstehen soll. Daraus ergeben sich Konsequenzen für die Kriterien, die Normen überhaupt konstituieren können. Für beide Fragestellungen ist der im Sprachwandel immer wieder thematisierte Übergangsbereich zwischen dem Entstehen neuer Normen und der Außerkraftsetzung bislang bestehender Normen ein interessantes Untersuchungsgebiet.
Auch wenn man in Rechnung stellt, dass die Definition von Sprachnormen nach wie vor umstritten ist, kann doch eine Reihe von Definitionskriterien als gesichert gelten. Zu ihnen werden neben der Obligation, der Sanktion, der Wertebezogenheit, der Formuliertheit, dem Situationsbezug der Norm auch die am Normierungsprozess beteiligten Gruppen gerechnet (Normautoritäten, Modellsprecher, Sprachexperten, Sprachkodifizierer). In manchen Definitionsversuchen wird der Sprachbenutzer m. E. zu stark in den Hintergrund gedrängt. Er stellt sozusagen als „Sprachsouverän“ die treibende Kraft für den Normenwandel dar und sollte daher auch in der theoretischen Modellierung von Sprachnormen deutlicher hervorgehoben werden. Außerdem lassen sich Sprachnormen klassifizieren sowohl nach dem Phänomenbereich, der normiert werden soll (Aussprache, Morphologie, Syntax, Lexik, Pragmatik etc.), als auch nach der Art der Genese (präskriptive/statuierte/gesetzte Normen vs. deskriptive/subsistente/konventionelle Normen). Sprachnormen zeigen sich letztlich als prototypisch gefasste Konzepte, deren konkrete Realisierungen eher mit dem Begriff der Familienähnlichkeit denn mit einem starren System an Definitionskriterien erfasst werden kann.
Im folgenden Beitrag soll es um drei Fragen gehen.
1. Inwieweit sollte der „Sprachsouverän“ in die Modellierung von Normen einbezogen werden?
2. Welche Funktionen haben Normverletzungen im Gefüge von Grammatikalität, Akzeptabilität und Sprachnormierung?
3. Unter welchen Bedingungen können sich neue Sprachnormen etablieren?
Der Fokus wird dabei auf der letzten Frage liegen. Nach einer kurzen Vorstellung der Modifikation des Sprachnormenmodells von U. Ammon (Frage 1) und Überlegungen zum Nutzen von Sprachnormverletzungen und zu den Vorteilen eines sich stetig wandelnden Sprachnormeninventars (Frage 2), möchte ich anhand von verschiedenen Beispielen zeigen, wie bestehende Normen außer Kraft gesetzt werden können und wie sich neue Nonnen etablieren. Dabei ist m. E. besonders bei der Etablierung neuer Normen die Frage interessant, ob letztlich alles zur Norm werden kann. An Beispielen aus der Morphologie und der Syntax soll gezeigt werden, welche Restriktionen auch bei neu zu etablierenden Normen gelten. Neue Normen „verwässern“ somit nicht nur den Bereich bisher bestehender Normen, sondern strukturieren ihn über die nach wie vor geltenden Ausschlusskriterien in positiver Weise neu, so dass neuen Normen stets auch der Bereich des Nichtnormgemäßen mit eingeschrieben ist.
Deutsch hat außer Indikativ und Imperativ zwei weitere Modi: Konjunktiv I und Konjunktiv II. Dies ist gegenüber Ansätzen zu betonen, die von einem einzigen Konjunktiv ausgehen und Formen wie „er käme“, „er stünde“ als Konjunktiv Präteritum bezeichnen. Diese Terminologie verschleiert die Leistung des Konjunktivs II - ja man kann geradezu sagen, dass die morphologischen Probleme, die der Konjunktiv II in der Gegenwartssprache hat, damit zusammenhängen, dass er gerade nicht das morphosyntaktische Merkmal Präteritum aufweist, sondern unter Verlust dieses Merkmals - also nur der äußeren Form nach - vom Indikativ Präteritum abgeleitet ist. Mit anderen Worten: Der deutsche Konjunktiv II hat ein Ikonizitätsproblem. In den einzelnen Regionen des deutschen Sprachraums haben die Sprecherinnen und Sprecher dieses Problem mit unterschiedlichen Strategien bewältigt. Allerdings hat kaum eine dieser Strategien Eingang in die Standardsprache gefunden - gerade die traditionelle normative Grammatik hat nicht nur Einwände gegen Funktionswörter wie etwa „von“ oder „tun“, sondern auch gegen kreative Morphologie. Am Anfang des 21. Jahrhunderts lässt sich nun konstatieren, dass die Bemühungen um die Erhaltung der alten Konjunktivformen und der Kampf gegen morphologische und syntaktische Neuerungen ausgesprochen kontraproduktiv waren: Das tatsächlich verwendete Konjunktiv-II-System der Gegenwartssprache ist ärmlicher, als es - von der Ausgangslage aus gesehen - hätte werden können.
Digitale Medien haben in einer rasenden Geschwindigkeit inzwischen alle Lebensbereiche verändert. Sie greifen immer weiter in gewachsene Strukturen ein und prägen immer mehr unsere Wirtschafts-, Arbeits- und Sozialwelt, aber auch unsere private Kommunikation und unser alltägliches Leben. Ständig neue Entwicklungen stellen dabei alle Beteiligten immer wieder vor neue Herausforderungen. Damit einher geht die Notwendigkeit, sich kontinuierlich neues Wissen anzueignen. Als Schlüsselqualifikation zur Beherrschung dieser neuen Anforderungen in unserer sich ständig ändernden Gesellschaft gilt Medienkompetenz. Neben Lesen, Schreiben und Rechnen ist sie zur vierten Kulturtechnik geworden, die alle Bürgerinnen und Bürger in unserer Gesellschaft unabhängig von Alter, Geschlecht und Herkunft beherrschen sollten. Um an den aktuellen gesellschaftlichen und politischen Entwicklungen überhaupt noch teilnehmen und erwerbsfähig bleiben zu können, muss diese Kompetenz sogar beherrscht werden können. Damit wird ihre Vermittlung zum staatlichen Bildungsauftrag.
Nachruf auf Hans Glinz
(2009)
Der so genannte A.c.I. birgt ungelöste Probleme, die am Beispiel der Wahmehmungsverben geklärt werden sollen. Als besonders strittiges Element erweist sich eben das akkusativische Element, weil seine Zuordnung (zum Obersatzverb oder zum eingebetteten Infinitiv) diskutabel ist. Dafür wird hier eine neuartige Erklärung vorgeschlagen. Quasi nebenbei bringt die Untersuchung die Erkenntnis, dass man von „A.c.I.-Verben“ eigentlich nicht sprechen sollte, da die so bezeichneten Verben höchst heterogene Eigenschaften aufweisen.
Mündliche Kommunikation
(2009)
Musikfernsehsender
(2009)
Die Untersuchung präsentiert die multimodale Struktur und Komplexität eines besonderen Kooperationstyps, dem »Pitching«. Das Pitching ist eine Mischform aus Arbeits- und Lehr-Lern-Diskurs, bei der vier Studierende gemeinsam mit zwei Dozenten Filmideen entwickeln. Als empirische Grundlage dient ein Datenkorpus von 72 Stunden Videoaufnahmen, das methodisch mit einer Kombination aus ethnographischer Gesprächsanalyse, ethnomethodologischer Konversationsanalyse und deren Erweiterung um eine multimodale Analyseperspektive untersucht wird. Dabei wird detailliert der komplexe Gesamtzusammenhang von Verbalität, Mimik, Gestik, Körperpositur und anderen körperlichen Ausdruckformen in seiner Bedeutung für die gemeinsame Arbeit ersichtlich. Basierend auf den beiden zentralen Konzepten »Kooperation« und »Handlungsschema« werden die spezifischen Situationsmerkmale des Pitchings und die typischen Aufgaben und Probleme rekonstruiert, die von den Interaktionsbeteiligten durch unterschiedliche Verfahren bearbeitet werden. Aufgrund einer longitudinalen Perspektive gibt die Untersuchung zudem Einblicke in die Professionalisierung der Studierenden im Studienverlauf.
This article introduces the topic of ‘‘Multilingual language resources and interoperability’’. We start with a taxonomy and parameters for classifying language resources. Later we provide examples and issues of interoperatability, and resource architectures to solve such issues. Finally we discuss aspects of linguistic formalisms and interoperability.
Die Beiträge in der Festschrift für Rainer Wimmer anlässlich seines 65. Geburtstags dokumentieren die Vielschichtigkeit seines sprachwissenschaftlichen Wirkens. Eine große Anzahl der Artikel widmet sich einer seiner zentralen Forschungstätigkeiten, der Sprachkritik. Seine interdisziplinären und anwendungsorientierten Arbeitsfelder sowie seine frühen Arbeiten zu Eigennamen werden durch spezifische Beiträge ebenso gewürdigt, wie in einem Themenblock hervorgehoben wird, dass es »die« Sprache nicht gibt, sondern dass Sprachen nur neben Sprachen, d. h. in einem Miteinander, existieren können.
Auf diese Weise entsteht ein Einblick in die wichtigsten Strömungen und Ansätze der zeitgenössischen interpretativen Semantik, zu deren Entwicklung Rainer Wimmer durch sein Schaffen wesentlich beigetragen hat.
Metaphor and discourse
(2009)