Refine
Year of publication
- 2009 (229) (remove)
Document Type
- Part of a Book (97)
- Article (71)
- Conference Proceeding (23)
- Book (17)
- Part of Periodical (6)
- Review (5)
- Contribution to a Periodical (4)
- Doctoral Thesis (2)
- Other (2)
- Report (1)
Language
- German (171)
- English (49)
- French (2)
- Italian (2)
- Portuguese (2)
- Latvian (1)
- Multiple languages (1)
- Russian (1)
Keywords
- Deutsch (110)
- Korpus <Linguistik> (19)
- Sprachnorm (15)
- Konversationsanalyse (11)
- Sprachgebrauch (11)
- Grammatik (10)
- Verb (10)
- Wörterbuch (10)
- Computerlinguistik (9)
- Interaktion (9)
Publicationstate
- Veröffentlichungsversion (88)
- Zweitveröffentlichung (24)
- Postprint (12)
Reviewstate
Publisher
- Institut für Deutsche Sprache (42)
- de Gruyter (29)
- Lang (14)
- Narr (13)
- Niemeyer (6)
- Elsevier (3)
- Springer (3)
- Acta Universitatis Upsaliensis (2)
- Benjamins (2)
- Cornelsen Scriptor (2)
Vorwort
(2009)
Vorwort
(2009)
Vorbemerkung
(2009)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
Der Begriff Wortprosodie bezeichnet hier die Organisation von Segmenten in die hierarchisch geordneten Konstituenten Silbe, Fuß und phonologisches Wort. Evidenz für solch eine Organisation und die ihr zugrundeliegenden Regeln findet sich in gewissen distributioneilen sowie phonetischen Besonderheiten von Segmenten. In diesem Beitrag versuche ich eine Darstellung der wesentlichen Züge der deutschen Wortprosodie als Interaktion miteinander in Konflikt stehender Beschränkungen im Sinne der Optimalitätstheorie. Im Mittelpunkt steht die Herausarbeitung unmarkierter prosodischer Strukturen auf der phonologisch-lexikalischen Ebene, da unmarkierte Strukturen einen wichtigen Bezugspunkt für die Beurteilung von Varianten bilden. Zugleich ergibt sich eine neue Perspektive auf das Verhältnis von Norm und Regel.
Variation in der Flexionsmorphologie: Starke und schwache Adjektivflexion nach Pronominaladjektiven
(2009)
Adjektive zeigen in der Stellung nach Indefinitpronomina und demonstrativen oder quantitativen Adjektiven (sogenannten Pronominaladjektiven) Variationen zwischen starker und schwacher Flexion, die durch die allgemeine Grundregel der Adjektivflexion (,schwach nach stark‘) nicht abgedeckt sind: (i) bei gleicher Genus-, Numerus- und Kasusspezifikation nach verschiedenen Pronominallexemen wie in einige kleine Kinder vs. alle kleinen Kinder, (ii) bei unterschiedlicher kategorieller Spezifikation nach ein und demselben Pronominallexem (wie in einige kleine Kinder vs. bei einigem guten Willen) oder (iii) bei verschiedenen Vorkommen mit identischer kategorieller Spezifikation nach ein und demselben Pronominallexem wie in beider deutscher Staaten vs. beider deutschen Staaten. Im vorliegenden Beitrag wird eine Klärung der systematischen Grundlagen derartiger ‚Schwankungen‘ angestrebt, die in den Grammatiken Fall für Fall beschrieben werden. Lexikalische und flexivische Parameter, die die Verteilung starker und schwacher Formen steuern, werden identifiziert. Als wesentlich erweisen sich einerseits bei den Pronominaladjektiven zu beobachtende Abstufungen im Grad syntaktisch-semantischer Ähnlichkeit zum prototypischen Determinativ, dem definiten Artikel; andererseits bei den Flexionsendungen zu beobachtende Abstufungen im Grad kategorieller und formaler Markiertheit. Im Ergebnis wird ein zweidimensionales Kontinuum von Übergangsstufen zwischen starker und schwacher Adjektivflexion nach Pronominaladjektiven sichtbar, das durch das Zusammenspiel lexikalischer und flexivischer Faktoren erzeugt wird.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
Transformationen des paracelsischen Prima-Materia-Begriffs in der "Philosophia ad Athenienses"
(2009)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Während die Relevanz von Patientenerzählungen und therapeutischen Deutungen für den Therapieprozess viel diskutiert wird, wird den therapeutischen Fragen weniger Beachtung geschenkt. In diesem Artikel wird dafür argumentiert, therapeutische Fragen als potenziell veränderungsrelevante Verfahren der gemeinsamen Konstruktion von Erzählungen zu betrachten. Therapeutische Fragen sind maieutisch ausgerichtet, das heißt sie regen den Patienten an, von sich aus die Erzählung zu expandieren und dabei zu psychologisch relevanten Deutungen des Erzählten zu gelangen. Therapeuten scheinen in ihren Reaktionen auf Patientenerzählungen der Präferenzreihenfolge Produktion von Continuern (Fortsetzungssignalen) Schweigen Fragen Deuten zu folgen. Sie greifen also erst zur selbstproduzierten Deutung, wenn der Patient von sich aus keine produziert. Diese Präferenzreihenfolge der Therapeutenreaktionen reflektiert eine Präferenz für die Selbstdeutung des Patienten, die maieutisch, das heißt durch sokratisches Fragen, unterstützt wird.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.