Refine
Year of publication
- 2009 (87) (remove)
Document Type
- Part of a Book (53)
- Article (15)
- Conference Proceeding (11)
- Book (2)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
- Working Paper (1)
Language
- German (61)
- English (21)
- Portuguese (2)
- French (1)
- Latvian (1)
- Multiple languages (1)
Has Fulltext
- yes (87)
Is part of the Bibliography
- no (87) (remove)
Keywords
- Deutsch (45)
- Sprachnorm (12)
- Korpus <Linguistik> (10)
- Grammatik (6)
- Computerlinguistik (4)
- Französisch (4)
- Interaktion (4)
- Konversationsanalyse (4)
- Syntax (4)
- Textlinguistik (4)
Publicationstate
- Veröffentlichungsversion (87) (remove)
Reviewstate
- (Verlags)-Lektorat (64)
- Peer-Review (16)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (2)
- Peer-Revied (1)
- Peer-review (1)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (22)
- Lang (9)
- Narr (7)
- Acta Universitatis Upsaliensis (2)
- Institut für Deutsche Sprache (2)
- Nova Fronteira (2)
- Schmidt (2)
- AAAI Press (1)
- Association for Computational Linguistics (1)
- Benjamins (1)
2008. godā tyka veikts pietejums, kura golvonais mierkis beja raksturuot niulenejū latgalīšu volūdys lūmu izgleiteibys sistemā. Itys roksts prezeņtej byutiskuokūs pietejuma rezultatus. Pietejuma īrūsme sajimta nu „Mercator Education Centre“ (Merkatora izgleiteibys centra), kas dorbojās Nīderlaņdē Ļuvortā (frīzu volūdā — Ljouwert), Frīzejis proviņcis golvyspiļsātā. Piļneigs pietejuma izvārsums ar Merkatora izgleiteibys centra atbolstu publicāts izdavumu serejā „Regional Dossier Series“ (Regionalūs dosje sereja) angļu volūdā. Itys roksts golvonom kuortom dūmuots taidam adresatam, kas mozuok ir saisteits ar Eiropys volūdu izpietis institucejom i kam roksti angļu volūdā var saguoduot izpratnis voi atrasšonys gryuteibys. Partū pietejuma suokumā teik dūts seikuoks metožu i mierķu raksturuojums, paskaidrojūt pietejuma strukturu i rezultatu apkūpuojuma veidu, kai ari dūts puorskots par latgalīšu volūdys lūmu myusdīnu izgleiteibys sistemā. Sacynuojumūs ir īzeimātys nuokūtnis perspektivis i prīšklykumi dabuotūs rezultatu izmontuojumam.
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale Maße verwendet, mit denen die Gebrauchshäufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen Gebrauchshäufigkeiten verglichen werden kann. Im Folgenden soll für eine Auswahl dieser Maße (absolute Häufigkeit, relative Häufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, Häufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind – dabei kann eine Rolle spielen, ob das Häufigkeitsmaß auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. Zusätzlich zu den bei den einzelnen Häufigkeitsmaßen genannten Einschränkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stärker hängt die beobachtete Gebrauchshäufigkeit des Wortes von zufälligen Faktoren ab, d.h., desto geringer ist die statistische Zuverlässigkeit der Beobachtung.
“Linguistic Landscapes” (LL) is a research method which has become increasingly popular in recent years. In this paper, we will first explain the method itself and discuss some of its fundamental assumptions. We will then recall the basic traits of multilingualism in the Baltic States, before presenting results from our project carried out together with a group of Master students of Philology in several medium-sized towns in the Baltic States, focussing on our home town of Rēzekne in the highly multilingual region of Latgale in Eastern Latvia. In the discussion of some of the results, we will introduce the concept of “Legal Hypercorrection” as a term for the stricter compliance of language laws than necessary. The last part will report on advantages of LL for educational purposes of multilingualism, and for developing discussions on multilingualism among the general public.
This dossier consists of an introduction to the region under study, followed by six sections each dealing with a specific level of the education system. These brief descriptions contain factual information presented in a readily accessible way. Sections eight to ten cover research, prospects, and summary statistics. For detailed information and political discussions about language use at the various levels of education, the reader is referred to other sources with a list of publications.
This paper introduces LRTwiki, an improved variant of the Likelihood Ratio Test (LRT). The central idea of LRTwiki is to employ a comprehensive domain specific knowledge source as additional “on-topic” data sets, and to modify the calculation of the LRT algorithm to take advantage of this new information. The knowledge source is created on the basis of Wikipedia articles. We evaluate on the two related tasks product feature extraction and keyphrase extraction, and find LRTwiki to yield a significant improvement over the original LRT in both tasks.
Le chevauchement, c’est-à-dire la prise de parole simultanée d'au moins deux locuteurs, est un phénomène omniprésent dans la conversation. Inscrit dans le cadre théorique de l'Analyse Conversationnelle et de la linguistique interactionnelle, notre travail se penche sur la parole simultanée considérée comme un phénomène systématique et ordonné qui appartient aux pratiques routinières de l'alternance des tours de parole. Nos analyses se fondent sur des transcriptions d'enregistrements vidéo de données interactionnelles naturelles, des conversations ordinaires en français et en allemand. Nous ne portons pas uniquement un regard sur le chevauchement en tant que phénomène audible, mais le concevons comme une pratique incarnée en interaction, qui est également implémentée par des ressources visibles. À l'analyse séquentielle s'ajoute donc une analyse multimodale, qui nous permet de tenir compte des constellations participatives dynamiques lors du chevauchement. Le travail analytique se focalise sur trois phénomènes spécifiques dans lesquels la parole simultanée intervient de manière significative : d'abord l'auto-répétition faisant suite au chevauchement, ensuite l'abandon de tour de parole d'un locuteur lors de la parole simultanée et enfin la complétion différée, la continuation retardée d'une prise de parole en chevauchement avec l'intervention d'un interlocuteur. Cette thèse contribue à une compréhension approfondie de ces trois phénomènes et démontre que l'organisation de la parole simultanée est étroitement liée à la gestion de trajectoires d'action complexes et de cadres participatifs dynamiques.
Concurrent standardization as a necessity: The genesis of the new official orthographic guidelines
(2009)
The new official orthographic guidelines were brought into force by the official state authorities on August 1st, 1998 and its principle goals were a standardized representation of the guidelines and a «gentle simplification in respect of content». This regulation was not supported by the public and in fact it was the starting point for a struggle for conceptual solutions and a quest for the achievement of' a consensus between different possible norms. Since orthography is an officially codified standard taking up a prominent position among linguistic standards, it is of particular socio-political importance. It was the foremost task of the Council for German Orthography (Rat für deutsche Rechtschreibung), instituted in December 2004, to elaborate a compromise in order to bring the «Orthographical war» (Die Zeit) to an end, which was led enthusiastically for more than a decade. - The concern of this article is to classify historically the agreement reached in 2006. Against this background, it can be stated that official guidelines will only be accepted, if they are based upon the usage in writing and if they take into account the interests of the reader. Both principles are characterizing the proposal made by the Council for German Orthography. An outlook on the Council's activities concerning orthographic standardization expected in the future will conclude this article.
Dass politische Strömungen und staatliche Forschungsförderung auch die wissenschaftliche Beschäftigung mit dem Thema „Sprache und Kommunikation in Deutschland Ost und West“ beeinflusst haben – und zwar in beiden deutschen Staaten –, ist schon festgestellt worden. In diesem Beitrag sollen, einer zeitlichen Gliederung in vier Phasen folgend, diese Beziehungen in Umrissen nachgezeichnet werden. Im Mittelpunkt steht dabei die Zeit der Reformjahre 1969 bis 1974 und ihr umfassender Paradigmenwechsel in der bundesdeutschen DDR-Forschung und Forschungsförderung. Hinzu treten Betrachtungen zum Verhältnis von Staat, Nation und Sprache sowie die Frage nach der Kommunikation zwischen Ost- und Westdeutschen seit der friedlichen Revolution.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld") wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung" kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor „sowohl... als auch“.
We present MaJo, a toolkit for supervised Word Sense Disambiguation (WSD), with an interface for Active Learning. Our toolkit combines a flexible plugin architecture which can easily be extended, with a graphical user interface which guides the user through the learning process. MaJo integrates off-the-shelf NLP tools like POS taggers, treebank-trained statistical parsers, as well as linguistic resources like WordNet and GermaNet. It enables the user to systematically explore the benefit gained from different feature types for WSD. In addition, MaJo provides an Active Learning environment, where the
system presents carefully selected instances to a human oracle. The toolkit supports manual annotation of the selected instances and re-trains the system on the extended data set. MaJo also provides the means to evaluate the performance of the system against a gold standard. We illustrate the usefulness of our system by learning the frames (word senses) for three verbs from the SALSA corpus, a version of the TiGer treebank with an additional layer of frame-semantic annotation. We show how MaJo can be used to tune the feature set for specific target words and so improve performance for these targets. We also show that syntactic features, when carefully tuned to the target word, can lead to a substantial increase in performance.
Though polarity classification has been extensively explored at document level, there has been little work investigating feature design at sentence level. Due to the small number of words within a sentence, polarity classification at sentence level differs substantially from document-level classification in that resulting bag-of-words feature vectors tend to be very sparse resulting in a lower classification accuracy.
In this paper, we show that performance can be improved by adding features specifically designed for sentence-level polarity classification. We consider both explicit polarity information and various linguistic features. A great proportion of the improvement that can be obtained by using polarity information can also be achieved by using a set of simple domain-independent linguistic features.
In opinion mining, there has been only very little work investigating semi-supervised machine learning on document-level polarity classification. We show that semi-supervised learning performs significantly better than supervised learning when only few labelled data are available. Semi-supervised polarity classifiers rely on a predictive feature set. (Semi-)Manually built polarity lexicons are one option but they are expensive to obtain and do not necessarily work in an unknown domain. We show that extracting frequently occurring adjectives & adverbs of an unlabeled set of in-domain documents is an inexpensive alternative which works equally well throughout different domains.
Adverbkonnektoren und die von konjunktionalen Konnektoren eingeleiteten Sätze (sententiale Adverbiale) sind in der Regel äußerst stellungsflexibel. Die topologischen Varianten sind jedoch großteils nicht äquivalent, sondern mit bestimmten diskusfunktionalen und informationsstrukturellen Eigenschaften verbunden. Am Beispiel von Konnektoren in der linksperipheren Position der „Nullstelle“ („Vorvorfeld“, „linkes Außenfeld“) wird gezeigt, dass diese Position unabhängig von der syntaktischen Subklasse des Konnektors syntaktisch und funktional einheitlich erklärt werden kann und dass die dort auftretenden Restriktionen für Konnektoren identisch sind mit denen von V2-Komplementsatz-Einbettung unter Matrixsatzprädikate. Ein Phänomen wie „weil mit Verbzweitstellung“ kann dadurch in einen übergeordneten Zusammenhang eingebettet werden.
Neben dieser systematischen Variation gibt es vereinzelt aber auch eine - historisch bedingte - unsystematische und nicht funktional genutzte topologische Variation, die dadurch entsteht, dass Sprecher bei einer uneindeutigen und „schwierigen“ Ausgangslage im Sprachsystem unterschiedliche Reparaturstrategien wählen. Ein Beispiel dafür ist der korrelative Konnektor "sowohl ...als auch".
Lange Zeit galt es als Kennzeichen der Literatur, ihre Modernität dadurch zu beweisen, dass sie Grammatik und Stil frei variierte und sich über Normen hinwegsetzte. Der Vortrag untersucht, mit anschaulichen Beispielen, inwieweit deutschsprachige Gegenwartsautoren dies weiter als ihre Aufgabe sehen und wie sie versuchen, eigene „Normen“ zu entwickeln - sei es bewusst oder unbewusst. Und nicht zuletzt geht es darum, zu überprüfen, wie es um die Sprach- und Grammatikmächtigkeit der deutschen Autoren heute bestellt ist.
Deutsch hat außer Indikativ und Imperativ zwei weitere Modi: Konjunktiv I und Konjunktiv II. Dies ist gegenüber Ansätzen zu betonen, die von einem einzigen Konjunktiv ausgehen und Formen wie „er käme“, „er stünde“ als Konjunktiv Präteritum bezeichnen. Diese Terminologie verschleiert die Leistung des Konjunktivs II - ja man kann geradezu sagen, dass die morphologischen Probleme, die der Konjunktiv II in der Gegenwartssprache hat, damit zusammenhängen, dass er gerade nicht das morphosyntaktische Merkmal Präteritum aufweist, sondern unter Verlust dieses Merkmals - also nur der äußeren Form nach - vom Indikativ Präteritum abgeleitet ist. Mit anderen Worten: Der deutsche Konjunktiv II hat ein Ikonizitätsproblem. In den einzelnen Regionen des deutschen Sprachraums haben die Sprecherinnen und Sprecher dieses Problem mit unterschiedlichen Strategien bewältigt. Allerdings hat kaum eine dieser Strategien Eingang in die Standardsprache gefunden - gerade die traditionelle normative Grammatik hat nicht nur Einwände gegen Funktionswörter wie etwa „von“ oder „tun“, sondern auch gegen kreative Morphologie. Am Anfang des 21. Jahrhunderts lässt sich nun konstatieren, dass die Bemühungen um die Erhaltung der alten Konjunktivformen und der Kampf gegen morphologische und syntaktische Neuerungen ausgesprochen kontraproduktiv waren: Das tatsächlich verwendete Konjunktiv-II-System der Gegenwartssprache ist ärmlicher, als es - von der Ausgangslage aus gesehen - hätte werden können.
Auf der Kippe? Zweifelsfälle als Herausforderung(en) für Sprachwissenschaft und Sprachnormierung
(2009)
Auf der Basis einer spezifischen Definition des Begriffs „sprachlicher Zweifelsfall“ und einiger einführenden Bemerkungen zu potentiellen Entstehungsursachen wird im Text zunächst erläutert, in welchen Hinsichten sich die Sprachwissenschaft bisher mit diesen sprachlichen Einheiten beschäftigt hat. Dabei wird die These vertreten, dass die Zweifelsfälle aus verschiedenen Gründen traditionell eher marginalisiert wurden. Nachdem mit konditionierten und unkonditionierten Zweifelsfällen zwei Haupttypen unterschieden worden sind, widmet sich der Text der Sprachnormierung von Zweifelsfällen. Der Ausgangspunkt liegt darin, die geforderte Sprachberatung als argumentativ orientierten, rationalen Umgang mit sprachlichen Zweifelsfällen zu begreifen. Dazu wird eine systematische Entscheidungsprozedur entworfen, die als Grundlage für die Klärung von Zweifelsfällen fungiert. Mit dieser kleinen Theorie der Sprachnormierung von Zweifelsfällen wird auch das Ziel verfolgt, auf deskriptiver Basis empirisch legitimierte Sprachnormen zu formulieren und damit nicht zuletzt einen sprachwissenschaftlichen Beitrag zur Formung des öffentlichen Sprachbewusstseins zu leisten.
Sprachnormen treten im Normalfall erst dann in Erscheinung, wenn sie verletzt werden. Normverletzungen und die damit einhergehenden Sanktionen tragen somit zur Normenkonstitution wesentlich bei. Dabei stellt sich zunächst die Frage, was man unter sprachlichen Normen verstehen soll. Daraus ergeben sich Konsequenzen für die Kriterien, die Normen überhaupt konstituieren können. Für beide Fragestellungen ist der im Sprachwandel immer wieder thematisierte Übergangsbereich zwischen dem Entstehen neuer Normen und der Außerkraftsetzung bislang bestehender Normen ein interessantes Untersuchungsgebiet.
Auch wenn man in Rechnung stellt, dass die Definition von Sprachnormen nach wie vor umstritten ist, kann doch eine Reihe von Definitionskriterien als gesichert gelten. Zu ihnen werden neben der Obligation, der Sanktion, der Wertebezogenheit, der Formuliertheit, dem Situationsbezug der Norm auch die am Normierungsprozess beteiligten Gruppen gerechnet (Normautoritäten, Modellsprecher, Sprachexperten, Sprachkodifizierer). In manchen Definitionsversuchen wird der Sprachbenutzer m. E. zu stark in den Hintergrund gedrängt. Er stellt sozusagen als „Sprachsouverän“ die treibende Kraft für den Normenwandel dar und sollte daher auch in der theoretischen Modellierung von Sprachnormen deutlicher hervorgehoben werden. Außerdem lassen sich Sprachnormen klassifizieren sowohl nach dem Phänomenbereich, der normiert werden soll (Aussprache, Morphologie, Syntax, Lexik, Pragmatik etc.), als auch nach der Art der Genese (präskriptive/statuierte/gesetzte Normen vs. deskriptive/subsistente/konventionelle Normen). Sprachnormen zeigen sich letztlich als prototypisch gefasste Konzepte, deren konkrete Realisierungen eher mit dem Begriff der Familienähnlichkeit denn mit einem starren System an Definitionskriterien erfasst werden kann.
Im folgenden Beitrag soll es um drei Fragen gehen.
1. Inwieweit sollte der „Sprachsouverän“ in die Modellierung von Normen einbezogen werden?
2. Welche Funktionen haben Normverletzungen im Gefüge von Grammatikalität, Akzeptabilität und Sprachnormierung?
3. Unter welchen Bedingungen können sich neue Sprachnormen etablieren?
Der Fokus wird dabei auf der letzten Frage liegen. Nach einer kurzen Vorstellung der Modifikation des Sprachnormenmodells von U. Ammon (Frage 1) und Überlegungen zum Nutzen von Sprachnormverletzungen und zu den Vorteilen eines sich stetig wandelnden Sprachnormeninventars (Frage 2), möchte ich anhand von verschiedenen Beispielen zeigen, wie bestehende Normen außer Kraft gesetzt werden können und wie sich neue Nonnen etablieren. Dabei ist m. E. besonders bei der Etablierung neuer Normen die Frage interessant, ob letztlich alles zur Norm werden kann. An Beispielen aus der Morphologie und der Syntax soll gezeigt werden, welche Restriktionen auch bei neu zu etablierenden Normen gelten. Neue Normen „verwässern“ somit nicht nur den Bereich bisher bestehender Normen, sondern strukturieren ihn über die nach wie vor geltenden Ausschlusskriterien in positiver Weise neu, so dass neuen Normen stets auch der Bereich des Nichtnormgemäßen mit eingeschrieben ist.
Die Grammatik behauptet sich seit Langem als Gegenstand des Deutschunterrichts, aber sie wird immer wieder „fragwürdig“: Behalten die Schüler, was sie gelernt haben? Liefert die Schulgrammatik geeignete Instrumente für die Sprachreflexion? Bringt sie den behaupteten Nutzen fürs Sprechen, Schreiben und Lesen? Den offiziellen Begründungen für und den behaupteten guten Wirkungen von Grammatik in der Schule, wie sie in den Bildungsplänen und von der Didaktik vertreten werden, begegnet der Verfasser mit einer gewissen Skepsis. Die stützt sich auch auf eine eigens für diesen Beitrag durchgeführte Befragung von Deutsch Lehrenden und die Durchsicht von Abiturarbeiten im Fach Deutsch. Er plädiert für einen Grammatikunterricht mit weniger (vom Lehrer) aufgesetzter Systematik und Begrifflichkeit und mehr sprachlichen Entdeckungsreisen (der Schüler), ausgelöst durch Lernarrangements, die zum Nachdenken anregen.
Gegenstand der Untersuchung sind semantisch irrelevante Rektionsschwankungen bei entlehnten, sekundären und primären Präpositionen, wobei auch Bildungen berücksichtigt werden, die nur gelegentlich eine präpositionale Funktion ausüben. Ein Überblick über die Normvorgaben zeigt, dass Rektionsschwankungen bei entlehnten Präpositionen weitgehend und bei sekundären Präpositionen selten erlaubt sind, bei primären Präpositionen gänzlich unbeachtet bleiben.
Die Normvorgaben, soweit vorhanden, werden dem realen Sprachgebrauch gegenübergestellt. Als Korpus dienen Belege aus Cosmas II (pressesprachliche Texte) und aus dem Internet. Besonderes Augenmerk wird auf Normverletzungen gerichtet: sekundäre Genitiv-Präpositionen mit regelwidriger Dativrektion (z. B. hinsichtlich), sekundäre Dativ-Präpositionen mit regelwidriger Genitivrektion (z. B. gegenüber), sekundäre Akkusativ-Präpositionen mit regelwidriger Genitiv- und Dativrektion (z. B. betreffend), primäre Präpositionen mit regelwidriger Genitivrektion (z. B. seit). Es zeigt sich insgesamt, dass fast alle etablierten Präpositionen mit regelwidrigem Kasus auftreten. Auch nicht-etablierte Präpositionen kommen sehr häufig mit einem Kasus vor, der nicht den etymologischen Strukturverhältnissen entspricht. Derartige Rektionsschwankungen, die sich vor allem aus dem Zusammenwirken von Grammatikalisierungs- und Analogieprozessen erklären lassen, erscheinen somit als Regel- und nicht als Ausnahmefall.
Eine statistische Untersuchung pressesprachlicher Texte zeigt exemplarisch anhand von 19 Präpositionen, dass die Prozentsätze normwidriger Kasusbelege jedoch zumeist gering sind. Insgesamt wird ersichtlich, dass im präpositionalen System des Deutschen - überraschenderweise - der Genitiv auf Kosten des Dativs an Boden gewinnt.
Nach einem Rückblick auf die Geschichte der Sprachnormierung in Frankreich und einem kurzen Bericht zur jetzigen „Lage der Nation“ befasst sich der folgende Beitrag zunächst mit Aspekten des Sprach(norm)bewusstseins, seinen Faktoren und seinen konkreten Formen, um dann auf drei „Mythen“ einzugehen, die seit langer Zeit sowohl die französische als auch die deutsche Grammatik belasten.
Das öffentliche Interesse an der Frage, was als gutes und was als schlechtes Deutsch anzusehen sei, artikuliert sich auch als Anforderung an die Sprachwissenschaft: Sie möge zur Klärung dieser Frage beitragen. Es wird dargelegt, warum die Sprachwissenschaft eine Explikation der Begriffe gutes Deutsch und schlechtes Deutsch nicht zu ihren Aufgaben im engeren Sinn zählt. Möglich ist aber eine Auseinandersetzung mit dem Anliegen, das die Forderung nach gutem Deutsch begründet. Die Sprachwissenschaft kann dieses Anliegen unterstützen, indem sie dabei hilft, den Weg über das richtige zum guten Deutsch auszubauen. Was dabei unter richtigem Deutsch zu verstehen ist, kann wissenschaftlich geklärt und sollte öffentlich vertreten werden. Der Beitrag versteht sich als Plädoyer für eine Verbesserung des Verhältnisses von Sprachwissenschaft und publizistischer Sprachkritik.
In diesem Beitrag soll es darum gehen, ob wir mit grammatischen Regeln und Beschreibungen die Vielfalt und Komplexität sprachlicher Kommunikation erfassen können, oder bescheidener, wie weit wir das können. Das Exempel, das ich statuieren möchte, befasst sich mit der Frage: Wie lautet der Genitiv komplexer Eigennamen. Oder genauer: komplexer Personennamen. Oder noch genauer: komplexer Personennamen einer gewissen Struktur. Oder noch genauer? Da sind wir schon mitten im Thema.
Ein Beispiel für das Exempel ist: Gedichte Walthers von der Vogelweides
Und das ist so ziemlich die einzige Variante, die im Beitrag nicht mehr Vorkommen wird. Letztlich wird es dann darum gehen, wie wir mit der Vielfalt umgehen wollen. Sie darstellen oder ignorieren und verschweigen? Doch zum Ignorieren muss man sie erst mal sehen.
Rechtsnormen beruhen auf grammatischen und textverknüpfenden Sprachnormen, die Sachverhalte entscheidbar machen. Diese Normsprachkompetenz ist Teil der juristischen Ausbildung, des impliziten Praxiswissens in der Justiz und der expliziten Begründungsrügen gegen Urteile. Der Beitrag beginnt mit einem Seitenblick auf den vorbildlich gegen Sprachnormen verstoßenden Richter Azdak aus dem Kaukasischen Kreidekreis, geht über zu einem Kasusmusterexemplar von Andre Jolles und veranschaulicht die Normsprachbestandteile an Beispielen aus höchstrichterlichen Entscheidungstexten.
Seit Anbeginn linguistischer Forschung ist der ontologische Status natürlicher Sprachen in Diskussion: Was ist das Wesen einer Sprache? Die meisten Sprachbegriffe krankten und kranken daran, dass sie verdinglichend und/oder vitalistisch sind, oder die Dynamik der Sprache oder den sozialen Charakter der Sprache ausklammem. Es gilt, einen Sprachbegriff zu entwickeln, der weder verdinglichend kollektivistisch noch auf solipsistische Weise individualpsychologisch ist, und der der Tatsache Rechnung trägt, dass eine sogenannte natürliche Sprache einem Prozess soziokultureller Evolution unterliegt. Einen solchen Sprachbegriff versuche ich in diesem Vortrag zu skizzieren auf der Basis der Prinzipien des methodologischen Individualismus.
Das Phänomen Sprache ist in Form des beobachtbaren Sprachgebrauchs fast allgegenwärtig, gleichzeitig bleibt das offenkundig Regel- und Systemhafte dieses Phänomens überraschend ungreifbar. Wegen der überwältigenden Komplexität natürlicher Sprachen entsteht bei jedem Versuch, dieses Systemhafte in einer Theorie mit explanatorischem Anspruch zu fassen, eine breite Kluft zwischen der angestrebten theoretischen Beschreibungsebene einerseits und der phänomenologisch zugänglichen Ebene des Sprachgebrauchs andererseits.
Ausgehend von allgemeinen wissenschaftstheoretischen Überlegungen, wie man angesichts dieser Kluft überhaupt zu hinreichend abgesicherten Erkenntnissen für eine explanatorische Theoriebildung kommen kann, betonen die Autoren die Notwendigkeit, sich dem Untersuchungsgegenstand Sprache mit möglichst wenigen Vorannahmen über diesen Gegenstand selbst zu nähern und sich dabei konsequent von der Empirie leiten zu lassen. Sie werben nachdrücklich für eine emergentistische Perspektive auf Sprache, der zufolge alles Regelhafte und Konventionelle in der Sprache ein Epiphänomen des Sprachgebrauchs ist und von den Sprachteilnehmern fortlaufend ausgehandelt wird. Eine treibende Kraft hierbei ist, so wird argumentiert, der Begriff der Ähnlichkeit. Auf dieser Grundlage wird schließlich ein Forschungsprogramm entworfen, das die Wirkung des Faktors Ähnlichkeit auf die Sprache nachzuzeichnen und dadurch schrittweise zu ähnlichen Generalisierungen zu gelangen versucht wie die Sprachgemeinschaft.
Der so genannte A.c.I. birgt ungelöste Probleme, die am Beispiel der Wahmehmungsverben geklärt werden sollen. Als besonders strittiges Element erweist sich eben das akkusativische Element, weil seine Zuordnung (zum Obersatzverb oder zum eingebetteten Infinitiv) diskutabel ist. Dafür wird hier eine neuartige Erklärung vorgeschlagen. Quasi nebenbei bringt die Untersuchung die Erkenntnis, dass man von „A.c.I.-Verben“ eigentlich nicht sprechen sollte, da die so bezeichneten Verben höchst heterogene Eigenschaften aufweisen.
Die Sorge um die deutsche Sprache füllt Säle. Wer Sprachdummheiten anmahnt, kann sich des Beifalls jener sicher sein, die sich sprachlich überlegen sehen. Selten wird die Frage gestellt, welchen Status grammatische Regeln haben. Tatsächlich ist keineswegs klar, was als korrektes Deutsch gelten kann. Wie ist das Deutsche zu fassen? Wer bestimmt, was als korrekt gelten soll? Die 44. Jahrestagung des Instituts für Deutsche Sprache suchte zur Klärung solcher Fragen beizutragen. Der vorliegende Band dokumentiert, wie die deutsche Grammatik im Spannungsfeld von Regel, Norm und Sprachgebrauch auf der Tagung aufgearbeitet wurde: Zunächst stehen die theoretischen Aspekte der Problematik auf dem Prüfstand. Danach werden grammatische Normen und der Umgang mit diesen in der Öffentlichkeit fokussiert. Im nächsten Themenblock stehen grammatische Variation in ihrem Verhältnis zur Norm und konkrete Phänomene der Morphologie, Syntax und Prosodie zur Diskussion. Die Betrachtung des Grammatikunterrichts und der Grammatikschreibung vervollständigt das Bild, das durch einen Blick auf die Normativität in Frankreich zusätzlich in einen größeren Kontext gestellt wird. Der Band schließt mit einer Zusammenfassung der Podiumsdiskussion, welche den Schlusspunkt der Tagung bildete.
In this paper we present an approach to faceted search in large language resource repositories. This kind of search which enables users to browse through the repository by choosing their personal sequence of facets heavily relies on the availability of descriptive metadata for the objects in the repository. This approach therefore informs the collection of a minimal set of metatdata for language resources. The work described in this paper has been funded by the EC within the ESFRI infrastructure project CLARIN.
Richtiges Deutsch?
(2009)
While written corpora can be exploited without any linguistic annotations, speech corpora need at least a basic transcription to be of any use for linguistic research. The basic annotation of speech data usually consists of time-aligned orthographic transcriptions. To answer phonetic or phonological research questions, phonetic transcriptions are needed as well. However, manual annotation is very time-consuming and requires considerable skill and near-native competence. Therefore it can take years of speech corpus compilation and annotation before any analyses can be carried out. In this paper, approaches that address the transcription bottleneck of speech corpus exploitation are presented and discussed, including crowdsourcing the orthographic transcription, automatic phonetic alignment, and query-driven annotation. Currently, query-driven annotation and automatic phonetic alignment are being combined and applied in two speech research projects at the Institut für Deutsche Sprache (IDS), whereas crowdsourcing the orthographic transcription still awaits implementation.
Apresentação
(2009)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Das Online-Wortschatz-Informationssystem Deutsch (OWID) ist ein digitales Wörterbuchportal des Instituts für Deutsche Sprache. Alle darin zusammengeführten lexikografischen Daten sind auf XML-Basis feingranular strukturiert. Speicherung, Verwaltung und Retrieval dieser Daten übernimmt das Orade-basierte Electronic Dictionary Administration System (EDAS). Der vorliegende Beitrag erläutert die XML-basierte Modellierung der Daten, XML-spezifische Fragen der Speicherung, sowie das Retrieval mit XPath und SQL/XML.
We present data-driven methods for the acquisition of LFG resources from two German treebanks. We discuss problems specific to semi-free word order languages as well as problems arising from the data structures determined by the design of the different treebanks. We compare two ways of encoding semi-free word order, as done in the two German treebanks, and argue that the design of the TiGer treebank is more adequate for the acquisition of LFG resources. Furthermore, we describe an architecture for LFG grammar acquisition for German, based on the two German treebanks, and compare our results with a hand-crafted German LFG grammar.
Manual development of deep linguistic resources is time-consuming and costly and therefore often described as a bottleneck for traditional rule-based NLP. In my PhD thesis I present a treebank-based method for the automatic acquisition of LFG resources for German. The method automatically creates deep and rich linguistic presentations from labelled data (treebanks) and can be applied to large data sets. My research is based on and substantially extends previous work on automatically acquiring wide-coverage, deep, constraint-based grammatical resources from the English Penn-II treebank (Cahill et al.,2002; Burke et al., 2004; Cahill, 2004). Best results for English show a dependency f-score of 82.73% (Cahill et al., 2008) against the PARC 700 dependency bank, outperforming the best hand-crafted grammar of Kaplan et al. (2004). Preliminary work has been carried out to test the approach on languages other than English, providing proof of concept for the applicability of the method (Cahill et al., 2003; Cahill, 2004; Cahill et al., 2005). While first results have been promising, a number of important research questions have been raised. The original approach presented first in Cahill et al. (2002) is strongly tailored to English and the datastructures provided by the Penn-II treebank (Marcus et al., 1993). English is configurational and rather poor in inflectional forms. German, by contrast, features semi-free word order and a much richer morphology. Furthermore, treebanks for German differ considerably from the Penn-II treebank as regards data structures and encoding schemes underlying the grammar acquisition task. In my thesis I examine the impact of language-specific properties of German as well as linguistically motivated treebank design decisions on PCFG parsing and LFG grammar acquisition. I present experiments investigating the influence of treebank design on PCFG parsing and show which type of representations are useful for the PCFG and LFG grammar acquisition tasks. Furthermore, I present a novel approach to cross-treebank comparison, measuring the effect of controlled error insertion on treebank trees and parser output from different treebanks. I complement the cross-treebank comparison by providing a human evaluation using TePaCoC, a new testsuite for testing parser performance on complex grammatical constructions. Manual evaluation on TePaCoC data provides new insights on the impact of flat vs. hierarchical annotation schemes on data-driven parsing. I present treebank-based LFG acquisition methodologies for two German treebanks. An extensive evaluation along different dimensions complements the investigation and provides valuable insights for the future development of treebanks.
The paper contributes to the raising vs. control debate with respect to modals through (A) novel data; (B) the investigation of a domain in which it has proven particularly problematic: volitional modality. We analyze oblique arguments of experiencer verbs embedded under German wollen ‘want’ and propose that they support both generalized raising and the abandonment of the classical version of the Theta Criterion. Byproducts of the analysis include a syntactic account involved in a class of datives in the language together with the initial characterization of a related modal in German which is expressed through the same item as volition and which we term weak.
Anders als linguistische Laien scheuen Sprachwissenschaftler aus prinzipiellen theoretischen Gründen davor zurück, eine Sprache zu bewerten, und erst recht, über ihre künftige Entwicklung zu spekulieren. Trotz theoretischer und methodischer Skrupel werden in diesem Essay wertende Bemerkungen zur heutigen deutschen Sprache gemacht und Spekulationen über deren weitere Entwicklung angestellt. Dazu werden drei Szenarien zum möglichen Zustand des Deutschen nach drei bis vier Generationen skizziert und vergleichend erörtert. Es werden auch künftig in erster Linie die Sprecher des Deutschen sein, die ihre Sprache bewahren und/oder verändern. Angesichts des sich derzeit abzeichnenden partiellen Domänenverlustes des Deutschen wird diskutiert, wie seine weitere Entwicklung im Kontext des vielsprachigen Europas positiv beeinflusst werden kann. Auch diese Diskussion stützt sich durchweg auf Plausibilitätserwägungen.
Vorwort
(2009)