Refine
Year of publication
- 2009 (224) (remove)
Document Type
- Part of a Book (96)
- Article (69)
- Conference Proceeding (23)
- Book (16)
- Part of Periodical (5)
- Review (5)
- Contribution to a Periodical (4)
- Doctoral Thesis (2)
- Other (2)
- Report (1)
Language
- German (169)
- English (46)
- French (2)
- Italian (2)
- Portuguese (2)
- Latvian (1)
- Multiple languages (1)
- Russian (1)
Is part of the Bibliography
- no (224) (remove)
Keywords
- Deutsch (108)
- Korpus <Linguistik> (19)
- Sprachnorm (15)
- Konversationsanalyse (11)
- Grammatik (10)
- Sprachgebrauch (10)
- Verb (10)
- Wörterbuch (10)
- Computerlinguistik (9)
- Interaktion (9)
Publicationstate
- Veröffentlichungsversion (87)
- Zweitveröffentlichung (24)
- Postprint (12)
Reviewstate
Publisher
- Institut für Deutsche Sprache (42)
- de Gruyter (29)
- Lang (14)
- Narr (13)
- Niemeyer (6)
- Springer (3)
- Acta Universitatis Upsaliensis (2)
- Benjamins (2)
- Cornelsen Scriptor (2)
- De Gruyter (2)
Eigennamen sind besondere Sprachzeichen; sie heben sich semantisch, pragmatisch, zum Teil auch grammatisch von appellativischen Nomina (Gattungsnamen“) ab. Der Sonderwortschatz an Eigennamen (Personennamen wie Rainer oder Gisela, Ortsnamen wie Rom oder Deutschland) deckt den Benennungsbedarf keineswegs ab. Für weniger prototypische Namensträger werden häufig konventionelle Sprachmittel zum Eigennamen umfunktioniert. Der Beitrag beschäftigt sich mit nominalen Konstruktionen, mit denen künstlerische Werke (Beispiele: „Der englische Patient“, „Hundejahre“) und Gasthäuser (Beispiele: „Goldener Stern“, „Zum Ritter“) benannt werden. Die semantische Transposition, so die These des Beitrags, kann zu grammatischen Konflikten führen. Einerseits soll der Name möglichst an seiner unverwechselbaren Gestalt wiedererkennbar sein und sich daher z.B. gegenüber flexivischen Veränderungen resistent zeigen, andererseits soll er wie jeder andere Ausdruck syntaktisch in seine Umgebung eingepasst werden. Unterschiedliche Strategien der Konfliktlösung werden anhand von Belegen demonstriert und interpretiert. Der konkrete Beispielfall illustriert gleichzeitig, wie man sprachlichen Regeln auf unsicherem Terrain folgen kann, mitunter auch haarscharf an der Norm vorbei.
Der vorliegende Beitrag beschäftigt sich mit zwei zentralen Fragen, denen sich die wissenschaftliche Grammatikographie zu stellen hat: der Frage nach ihrem Verständnis von .Sprache' und der Frage nach dem Verhältnis von Standard bzw. grammatischem System und grammatischer Norm. Im ersten Teil werden jeweils zwei verschiedene Ausprägungen von zwei Grundpositionen vorgestellt: „Es gibt eine Sprache hinter dem Sprechen“ mit dem generativen Konzept der Kompetenz und dem strukturalistischen der langue und „Es gibt keine Sprache hinter dem Sprechen“ mit der konstruktivistischen Idee der .Emergenz' von Sprache aus dem Sprechen und dem Rückzug auf die Auswertung von Korpora. Es wird nicht nur aus pragmatischen Gründen dafür plädiert, dass die Grammatikschreibung sich an die Konzeption von Einzelsprachen als gesellschaftlich gültige Regelsysteme hält. Im zweiten Teil wird untersucht, auf welche Weise sich Grammatiken dem „Systemgerechten“ nähern können. Am Beispiel des „Markiertheitsabbaus“ in der schwachen Flexion maskuliner Substantive wird eine moderat strukturalistische Hypothesenbildung, bei der das deutsche Flexionssystem als labile Ordnung erscheint, vorgeführt. Der Umgang von Grammatiken mit dem Verhältnis von Standardsprache, System und Norm wird an weiteren morphologischen und syntaktischen Phänomenen nachgezeichnet. Die stärkere Sensibilisierung der Grammatikschreibung für Normabstufungen, die Offenheit und Flexibilität des Systems wird herausgestellt.
Wie wir zu-FALL kommen
(2009)
In spite of the obvious importance that is accorded to the notion grammatical construction in any approach that sees itself as a construction grammar (CxG), there is as yet no generally accepted definition of the term across different variants of the framework. In particular, there are different assumptions about which additional requirements a given structure has to meet in order to be recognized as a construction besides being a ‘form-meaning pair’. Since the choice of a particular definition will determine the range of both relevant phenomena and concrete observations to be considered in empirical research within the framework, the issue is not just a mere terminological quibble but has important methodological repercussions especially for quantitative research in areas such as corpus linguistics. The present study illustrates some problems in identifying and delimiting such patterns in naturally occurring text and presents arguments for a usage-based interpretation of the term grammatical construction.
This paper presents EXMARaLDA, a system for the computer-assisted creation and analysis of spoken
language corpora. The first part contains some general observations about technological and methodological requirements for doing corpus-based pragmatics. The second part explains the systems architecture and gives an overview of its most important software components a transcription editor, a corpus management tool and a corpus query tool. The last part presents some corpora which have been or are currently being compiled with the help of EXMARaLDA.
This article shows that the TEI tag set for feature structures can be adopted to represent a heterogeneous set of linguistic corpora. The majority of corpora is annotated using markup languages that are based on the Annotation Graph framework, the upcoming Linguistic Annotation Format ISO standard, or according to tag sets defined by or based upon the TEI guidelines. A unified representation comprises the separation of conceptually different annotation layers contained in the original corpus data (e.g. syntax, phonology, and semantics) into multiple XML files. These annotation layers are linked to each other implicitly by the identical textual content of all files. A suitable data structure for the representation of these annotations is a multi-rooted tree that again can be represented by the TEI and ISO tag set for feature structures. The mapping process and representational issues are discussed as well as the advantages and drawbacks associated with the use of the TEI tag set for feature structures as a storage and exchange format for linguistically annotated data.
This article introduces the topic of ‘‘Multilingual language resources and interoperability’’. We start with a taxonomy and parameters for classifying language resources. Later we provide examples and issues of interoperatability, and resource architectures to solve such issues. Finally we discuss aspects of linguistic formalisms and interoperability.
Die Artefaktbezeichnungen im Deutschen weisen, wie viele andere sprachliche Ausdrücke auch, eine vom Kontext abhängige Bedeutungsvariation auf, die sich nach systematisch wiederkehrenden Mustern gestaltet. Ein Ziel dieser Untersuchung ist es, herauszufinden, wie diese Bedeutungsvariation zustande kommt und welche semantischen Relationen oder Merkmale das Bindeglied zwischen den einzelnen Varianten der Wortbedeutung bilden. So lässt sich auch der Grad an Systematizität oder Regelhaftigkeit der Polysemie genauer bestimmen. Die Bedeutungsvariationen bei Artefaktbezeichnungen werden hier im wesentlichen als Fälle von metonymischer Bedeutungsverschiebung behandelt. Den Ausgangspunkt der Analyse bildet dabei eine unterspezifizierte semantische Form der sprachlichen Ausdrücke, die mit Hilfe verschiedener inferenzieller Verfahren und unter Einbeziehung von Kontext und Weltwissen schrittweise angereichert und modelliert wird.
Anhand eines Fallbeispiels wird gezeigt, dass in der praktischen Arbeit des EuGH Rechtsarbeit und Spracharbeit eng miteinander verflochten sind. Wenn es in einem strittigen Fall um die konkrete Ausarbeitung einer haltbaren Sachverhaltsbeschreibung geht, zeigt sich, dass die Rechtsarbeit und die Spracharbeit des Gerichts eigentlich identisch sind. In einem solchen Fall ist es für das Gericht nützlich und günstig, wenn es auf so viele sprachliche Formulierungen (auch in verschiedenen Sprachen) zurückgreifen kann wie möglich. Das Ziel ist, möglichst viele Interpretationen in Betracht zu ziehen, um das Urteil bestandssicher zu machen. In dieser Situation sind Vorschläge, das Sprachenspektrum, in dem der EuGH arbeitet, im Vorhinein und generell einzuschränken, kontraproduktiv.
Variation in der Flexionsmorphologie: Starke und schwache Adjektivflexion nach Pronominaladjektiven
(2009)
Adjektive zeigen in der Stellung nach Indefinitpronomina und demonstrativen oder quantitativen Adjektiven (sogenannten Pronominaladjektiven) Variationen zwischen starker und schwacher Flexion, die durch die allgemeine Grundregel der Adjektivflexion (,schwach nach stark‘) nicht abgedeckt sind: (i) bei gleicher Genus-, Numerus- und Kasusspezifikation nach verschiedenen Pronominallexemen wie in einige kleine Kinder vs. alle kleinen Kinder, (ii) bei unterschiedlicher kategorieller Spezifikation nach ein und demselben Pronominallexem (wie in einige kleine Kinder vs. bei einigem guten Willen) oder (iii) bei verschiedenen Vorkommen mit identischer kategorieller Spezifikation nach ein und demselben Pronominallexem wie in beider deutscher Staaten vs. beider deutschen Staaten. Im vorliegenden Beitrag wird eine Klärung der systematischen Grundlagen derartiger ‚Schwankungen‘ angestrebt, die in den Grammatiken Fall für Fall beschrieben werden. Lexikalische und flexivische Parameter, die die Verteilung starker und schwacher Formen steuern, werden identifiziert. Als wesentlich erweisen sich einerseits bei den Pronominaladjektiven zu beobachtende Abstufungen im Grad syntaktisch-semantischer Ähnlichkeit zum prototypischen Determinativ, dem definiten Artikel; andererseits bei den Flexionsendungen zu beobachtende Abstufungen im Grad kategorieller und formaler Markiertheit. Im Ergebnis wird ein zweidimensionales Kontinuum von Übergangsstufen zwischen starker und schwacher Adjektivflexion nach Pronominaladjektiven sichtbar, das durch das Zusammenspiel lexikalischer und flexivischer Faktoren erzeugt wird.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
Sprechaktbezogene Kausalität
(2009)
Nach Eve Sweetser (1990) kann eine Äußerung auf drei kognitiven Ebenen - Sachverhaltsebene, epistemische Ebene und Sprechaktebene - gedeutet werden. In diesem Beitrag werden auf der Basis eines Korpus gesprochensprachlicher Daten' sowohl syntaktische als auch prosodische Besonderheiten kausaler und konditionaler konnektorhaltiger Relationen untersucht, die auf unterschiedlichen Ebenen gedeutet werden können. Ein besonderes Interesse gilt dabei der Frage, ob die Sweetser’sehen Ebenen im Deutschen sprachlich markiert sind. Es wird gezeigt, dass syntaktische und prosodische Signale mit den Ebenen sehr stark korrelieren, die Ebenen im kausalen Bereich aber anders markiert sind als im konditionalen Bereich. Aufgrund dieses Befundes wird gegen die Annahme Sweetsers argumentiert, dass Kausalität als Basisbedeutung für Konditionalität angesehen werden könne.
Generative lexicalized parsing models, which are the mainstay for probabilistic parsing of English, do not perform as well when applied to languages with different language-specific properties such as free(r) word order or rich morphology. For German and other non-English languages, linguistically motivated complex treebank transformations have been shown to improve performance within the framework of PCFG parsing, while generative lexicalized models do not seem to be as easily adaptable to these languages. In this paper, we show a practical way to use grammatical functions as first-class citizens in a discriminative model that allows to extend annotated treebank grammars with rich feature sets without having to suffer from sparse data problems. We demonstrate the flexibility of the approach by integrating unsupervised PP attachment and POS-based word clusters into the parser.
From Proof Texts to Logic. Discourse Representation Structures for Proof Texts in Mathematics
(2009)
We present an extension to Discourse Representation Theory that can be used to analyze mathematical texts written in the commonly used semi-formal language of mathematics (or at least a subset of it). Moreover, we describe an algorithm that can be used to check the resulting Proof Representation Structures for their logical validity and adequacy as a proof.
Richtiges Deutsch?
(2009)
This paper shows that the phenomenon of plesionymy deserves greater attention and needs to be approached outside its traditional framework, which considered it to be a subtype of synonymy (Cruse, 1986, 2002; Croft and Cruse, 2004). This view suggested that pairs of terms such as foggy–misty, fearless–brave exhibit significant shared semantic traits that are more salient than their differences. Differing properties were considered to be subordinate. These are sometimes contextually foregrounded resulting in occasional oppositeness. Corpus studies show that this view is a broad generalization. This study sheds new light on German plesionyms by employing a corpus-linguistic approach. In particular, terms designating gradable properties (e.g. kritisch–ernst ‘critical–serious’, sauber–rein ‘clean–unsoiled/immaculate’) at neighboring positions of gradable scales show variable behavior and do not show a stronger affinity for synonymy. The position taken is that a relation of synonymy and contrast are equally a matter of construal. Both types of semantic relations are part of the conceptual and lexical knowledge and subject to a cognitive principle. This work also examines how plesionym relations are realized in discourse. This article demonstrates that plesionyms are co-occurrences within typical lexico-syntactic sequences. Following Jones’ (2002) and Murphy’s (2006) observations, these patterns (e.g. nicht X, eher Y; mehr X als Y; etc.) have specific discourse functions and are evidence to account for a construction-based view.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Die im Folgenden dargestellte korpusgesteuerte Methode "UWV-Analysemodell" wurde auf der Basis der Forschungen zu usuellen Wortverbindungen (UWV) (vgl. Steyer 2000, 2003, 2004, Steyer/Lauer 2007, Brunner/Steyer 2007, Steyer 2008, Steyer demn.) und zahlreicher, exhaustiver Analysen in den letzten Jahren entwickelt. Ziel war ein empirisches Vorgehensmodell, das es ermöglicht, die Differenziertheit und Vernetztheit von Wortverbindungen auf verschiedenen Abstraktionsebenen ausgehend von Kookkurrenzdaten angemessen darzustellen. Daher ging es in dieser Arbeitsphase nicht darum, usuelle Wortverbindungen des Deutschen möglichst umfassend und in großer Menge zu inventarisieren, sondern die "innere Natur" von Wortverbindungen zwischen Varianz und Invarianz mit unterschiedlichen Graden an lexikalischer Spezifiziertheit sowie ihre wechselseitigen Verbindungen im Detail zu erfassen und zu beschreiben.
This paper shows how a corpus-driven approach leads to a new perspective on central issues of phraseology and on lexicographical applications. It argues that a data-driven pattem search (applying Statistical methods), an a posteriori interpretation of the data and a user oriented documentation of the usage of multi-word units (e. g. in lexicographical articles) constitute a step-by-step process where each step has its own informational value and useflilness. The description of multi-word units (Usuelle Wortverbindungen) presented in this paper focuses on the second Step, the high quality analysis and interpretation of collocation data, exemplified by the fields of multi-word units centered around the word formslIdee/Ideenl(idea/ideas).
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Die sprachlichen Veränderungen der letzten 20 Jahre sind von zwei Zeitabschnitten gekennzeichnet, die in Bezug auf die Wortschatzentwicklung unterschiedlicher nicht hätten sein können: Der erste, kurze, ist von der Wendezeit – mit auffälligem, meist nur vorübergehendem Lexemwandel – und dem Beitritt der DDR zur Bundesrepublik – mit dem Verschwinden bzw. Austausch des größten Teils des DDR-typischen Wortschatzes – geprägt. Der zweite, wesentlich längere Abschnitt ist von der Entwicklung im vereinigten Deutschland mit einem im Vergleich unauffälligen, weil kontinuierlichen Wortschatzwandel bestimmt.
Am Beispiel der "türkischen Powergirls", einer Mannheimer Gruppe von Mädchen und jungen Frauen, die noch in der Migrantengemeinschaft verwurzelt ist, sich aber auf dem Weg aus der Migrantenpopulation befindet, wird in diesem Band die Sprachkompetenz jugendlicher MigrantInnengruppen in Türkisch im grammatikalischen und lexikalischen Bereich untersucht. Die Arbeit gliedert sich in einen theoretischen und einen empirischen Teil. Zunächst folgt ein kurzer Einblick in die Einstellung türkischer Migranten zu Sprache, zum Spracherwerb und Spracherhalt der Herkunftssprache. Relevante Termini werden erläutert und die wichtigsten Studien zur Erstsprache türkischer Migrantenkinder in einem Literaturüberblick aufgeführt. Der empirische Teil stellt die Informantinnen und das Datenmaterial vor. Dem schließen sich die Analysen zum Türkisch in den Bereichen der Definitheit, des Numerus, der Fragepartikel und Pronomen, des Kasus, des Adjektiv- und Adverbiengebrauchs, der Partizipien sowie der Lexik an.
Der Beitrag stellt eine aktualisierte Version des Gesprächsanalytischen Transkriptionssystems(GAT) dar. Nachdem GAT seit seiner Erstvorstellung im Jahr 1998 in der Gesprächsforschung eine breite Verwendung gefunden hat, war es nun an der Zeit, es aufgrund der bisherigen Erfahrungen und im Hinblick auf neue Anforderungen an Transkriptionen vorsichtig zu überarbeiten. Dieser Text stellt
das aktualisierte GAT 2-Transkriptionssystem mit allen seinen alten und neuen Konventionen dar, versucht bekannte Zweifelsfälle zu klären und bekannte Schwächen der ersten Version zu beheben. GAT 2 gibt detaillierte Anweisungen zum Erstellen gesprächsanalytischer Transkriptionen auf drei Detailliertheitsstufen, dem Minimal-, Basis- und Feintranskript, sowie neue Vorschläge zur Darstellung komplexerer Phänomene in Sonderzeilen. Zudem wurden für GAT 2 einige zusätzliche Hilfsmittel entwickelt, die im Anhang kurz vorgestellt werden: das Online-Tutorial GAT-TO sowie der Transkriptionseditor FOLKER.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
Das Lexikon der Sprachkritik
(2009)
Viele Überlegungen wurden zu einem Projekt Lexikon der Sprachkritik angestellt und vorläufige Konzepte dafür erdacht. Zu einer Konkretisierung dieser Bemühungen ist es aber bisher leider nicht gekommen. Dieser Beitrag stellt nun einen Versuch dar, ein vorläufiges Konzept für ein Lexikon der Sprachkritik vorzulegen. Es handelt sich hierbei um die Begründung für dieses Unternehmen, die Darstellung der Vorarbeiten zu einem Lexikon der Sprachkritik, die Explizierung der Konzeption und der Lemmaauswahl und die exemplarische Ausarbeitung von vier Artikeln.
The paper discusses particular logical consistency conditions satisfied by German proposition-embedding predicates which determine the question type (external and internal whether-form as well as exhaustive and non-exhaustive wh-form), the correlate type (es- or da-correlate) as well as the impact of the correlate on the respective consistency condition. It will turn out that some consistency conditions also determine the embedding of verb second and subject-control.
This paper describes a new approach to improve the analysis and categorization of web documents using statistical methods for template based clustering as well as semantical analysis based on terminological ontologies. A domain-specific environment serves for prove of concept. In order to demonstrate the widespread practical benefit of our approach, we outline a combined mathematical and semantical framework for information retrieval on internet resources.
"damit sie mich verstehen" : Genese, Verfahren und recipient design einer narrativen Performance
(2009)
The paper presents the results of a joint effort of a group of multimodality researchers and tool developers to improve the interoperability between several tools used for the annotation and analysis of multimodality. Each of the tools has specific strengths so that a variety of different tools, working on the same data, can be desirable for project work. However this usually requires tedious conversion between formats. We propose a common exchange format for multimodal annotation, based on the annotation graph (AG) formalism, which is supported by import and export routines in the respective tools. In the current version of this format the common denominator information can be reliably exchanged between the tools, and additional information can be stored in a standardized way.
Spoken language corpora— as used in conversation analytic research, language acquisition studies and dialectology— pose a number of challenges that are rarely addressed by corpus linguistic methodology and technology. This paper starts by giving an overview of the most important methodological issues distinguishing spoken language corpus workfrom the work with written data. It then shows what technological challenges these methodological issues entail and demonstrates how they are dealt with in the architecture and tools of the EXMARaLDA system.
Kicktionary
(2009)