Refine
Year of publication
- 2007 (82) (remove)
Document Type
- Part of a Book (46)
- Article (19)
- Conference Proceeding (15)
- Book (2)
Has Fulltext
- yes (82)
Keywords
- Deutsch (39)
- Korpus <Linguistik> (25)
- Gesprochene Sprache (7)
- Grammatik (5)
- Konversationsanalyse (5)
- Rechtschreibung (5)
- Verb (5)
- Annotation (4)
- Kollokation (4)
- Kommunikation (4)
Publicationstate
- Veröffentlichungsversion (82) (remove)
Reviewstate
Publisher
- de Gruyter (22)
- Narr (16)
- University of Birmingham (3)
- University of Illinois (3)
- Association for Computational Linguistics (2)
- Institut für Deutsche Sprache (2)
- Lang (2)
- Olms (2)
- Schmidt (2)
- Verlag für Gesprächsforschung (2)
Der Beitrag zeigt, auf welch grundlegende Weise das Paradigma der Corpus-Driven-Linguistics (CDL) die linguistische Beschreibung sprachlichen Usus auf der Basis mathematisch-statistischer Clusteringverfahren bestimmt. Es soll deutlich werden, wie sich diese Prämissen im Forschungsschwerpunkt zur linguistischen Systematisierung und Interpretation von Kookkurrenzdaten manifestieren.
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Christian Cay Lorenz Hirschfeld (1742-1792) beschrieb in seiner "Theorie der Gartenkunst" die Stellung des Menschen in der Natur und spiegelte die gesellschaftlichen Zustände. Dabei stellte er eine Verbindung zwischen der Kunstform des Landschaftsgartens und der Verbesserung der Menschheit her. In diesem Band wird exemplarisch vorgeführt, mit welchem lexematischen Material er die Kombination aus differenzierter Beschreibung und beabsichtigter ästhetischer Erziehung in moralischer Absicht innerhalb des vom Sprachsystem lexikalisch vorgegebenen Rahmens umsetzte und welche sprachlichen Strategien aus diesen Intentionen resultierten.
The main objective of this article is to describe the current activities at the Mannheim Institute for German Language regarding the implementation of a domain-specific ontology for German grammar. We differentiate ontology bases from ontology management Systems, point out the benefits of database-driven Solutions, and go Step by Step through all phases of the ontology lifecycle. In Order to demonstrate the practical use of our approach, we outline the interface between our ontology and the grammis web Information System, and compare the ontology-based retrieval mechanism with traditional full text search.
This paper aims to address these problems by dealing with theoretical and methodological questions concerning the national effects of the Bologna Process and the role national factors play in determining the impact of these effects. Altogether the purpose of the paper is to serve as a starting point for future research – both as a guide for systematic and comparative empirical work on higher education, but also for further theoretical and methodological reasoning concerning research on (higher) education policy. As higher education research so far particularly lacks an approach allowing for a competitive and systematic falsification of theoretical arguments by clearly indicating testable and specific hypothesis as well as variables behind the research design (Goedegebuure/Vught 1996) we propose to fall back on neighbouring disciplines, namely social science to improve and enhance the analysis (Slaughter 2001: 398; Altbach 2002: 154; Teichler 1996a: 433, 2005: 448). Several strands of research have to be considered – namely literature on Europeanization as well as insights and approaches of studies dealing with cross-national policy convergence. Taking into account the non-obligatory and mainly intergovernmental character of the Bologna Process the main focus of the paper is on factors related to the effects of transnational communication. The inherent goal is to extend the research agenda on higher education (McLendon 2003: 184ff) and to leave behind the restriction of to analyse only a few cases by striving for a research design that allows for systematic testing and sufficient explanations of cross-national policy convergence at the interface between the Bologna Process and domestic factors.
Zunehmend werden Videos und ihre Präsentation für die gesprächsanalytische Arbeitspraxis wichtig. Dieser Beitrag gibt praxisorientierte Hilfestellungen für die Einbettung von Audio- und Videodateien in Microsoft Powerpoint 2003 unter Windows XP, geht auf unterschiedliche Dateitypen ein und stellt Software zum Konvertieren und Editieren von Videodateien vor. Als besonders elaborierte Präsentationstechnik wird Screenrecording-Software beschrieben, mit der Bildschirmfilme von Abläufen z.B. in Transkriptionssoftware erstellt werden können, um so Video, Transkript und Analyse simultan in Powerpoint darzustellen.
We present a corpus-driven approach to the study of multi-word expressions, which constitute a significant part of. As a data basis, we use collocation profiles computed from DeReKo (Deutsches Referenzkorpus), the largest available collection of written German which has approximately two billion word tokens and is located at the Institute for the German Language (IDS). We employ a strongly usage-based approach to multi-word expressions, which we think of as conventionalised patterns in language use that manifest themselves in recurrent syntagmatic patterns of words. They are defined by their distinct function in language. To find multi-word expressions, we allow ourselves to be guided by corpus data and statistical evidence as much as possible, making interpretative steps carefully and in a monitored fashion. We develop a procedure of interpretation that leads us from the evidence of collocation profiles to a collection of recurrent word patterns and finally to multi-word expressions. When building up a collection of multi-word expressions in this fashion, it becomes clear that the expressions can be defined on different levels of generalisation and are interrelated in various ways. This will be reflected in the documentation and presentation of the findings. We are planning to add annotation in a way that allows grouping the multi-word expressions according to different features and to add links between them to reflect their relationships, thus constructing a network of multi-word expressions.
Das elexiko-Portal: Ein neuer Zugang zu lexikografischen Arbeiten am Institut für Deutsche Sprache
(2007)
Das elexiko-Portal soll verschiedene lexikografische Projekte des IDS in einem Verbund zusammenführen und - soweit das die Inhalte zulassen - gemeinsame Recherchemöglichkeiten über verschiedene lexikografische Produkte hinweg bieten. In diesem Aufsatz geht es v. a. darum zu zeigen, wie die XML-basierte Modellierung für das Portal aufgebaut ist, um zum einen die Basis für diese flexiblen Zugriffsstrukturen zu legen und zum anderen der Verschiedenheit der beteiligten Projekte Rechnung zu tragen. Gleichzeitig werden Perspektiven für eine flexiblere Darstellung der Daten und für die zukünftige Weiterentwicklung von Recherchemöglichkeiten aufgezeigt.
Wer sich mit grammatischen Phänomenen historischer Sprachstufen beschäftigt, kann seine empirischen Daten bekanntermaßen nicht auf der Grundlage von Sprecherurteilen gewinnen, sondern muss zunächst Korpusrecherchen betreiben. Die Größe des auszuwählenden Korpus ist sehr stark phänomenabhängig: So reicht es im Bereich der Syntax in der Regel nicht aus, kleinere Textausschnitte aus verschiedenen Textquellen zu einem Korpus zusammenzufügen, vielmehr müssen vollständige Texte nicht nur nach raum-zeitlichen Koordinaten, sondern auch textsortenabhängig ausgewählt werden, um ein repräsentatives Korpus für eine spezifische Sprachstufe zu erstellen. Da eine manuelle Sichtung dieser doch recht großen Korpora sich sehr zeitaufwändig gestaltet, bietet sich gerade im Bereich der historischen Syntax der Einsatz von syntaktisch annotierten, digitalen Korpora an. Im folgenden Beitrag wird der Aufbau einer solchen Baumbank für das Frühneuhochdeutsche einschließlich der verfügbaren Recherchemöglichkeiten vorgestellt.
Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z. B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ,,flach“ annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen. Ich argumentiere anhand der Fehlerannotation in einem Lernerkorpus dafür, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann, davon profitieren, in Mehrebenen-Modellen kodiert zu werden.
Der Begriff und die Rolle von Daten in einer Wissenschaft hängen eng mit ihrem Selbstverständnis zusammen. Als erstes ist zu überlegen, inwiefern Linguistik eine empirische Wissenschaft ist und also von Daten abhängt.
Während in den Philologien ein Korpus die Grundlage einer Disziplin abgibt, die ohne es nicht bestünde, ist in der Linguistik ein Korpus nur ein Weg, an Daten zu kommen. Hier ist zu diskutieren, welche relativen Meriten die alternativen Wege im Hinblick auf die angestrebten Ziele haben.
Während manches auf uns gekommene Korpus seine Sprache sicher nicht angemessen repräsentiert, könnte eine heute von Linguisten erstellte Dokumentation diesen Anspruch im Prinzip einlösen. Hier stellt sich die Frage, ob das - angesichts des infiniten Charakters der Sprache - überhaupt möglich ist und in wieweit die Repräsentativität wieder von den angestrebten Zielen abhängt.
Dies sind alles Fragen linguistischer Methodologie. Eine Zeitlang hat man in der Linguistik geglaubt, ohne Methodologie zu Theorien gelangen zu können. Seit sich das als irrig herausgestellt hat, ist die Entwicklung von Methoden ein fühlbares Desiderat geworden. Wie man repräsentative Daten erhebt, wie man ein Korpus zusammenstellt und nutzt, wie man eine Sprache dokumentiert, sind alles Fragen, die eigentlich in die Alltagsroutine einer Wissenschaft fallen müssten. Dass sie noch weitgehend ungeklärt sind, ist ein Symptom dafür, dass die Linguistik noch keine erwachsene Wissenschaft ist.
Der Wortschatzausschnitt der deutschen Kommunikationsverben – eine empirische Bestandsaufnahme
(2007)
In Deutschland gibt es Anzeichen für ein zunehmendes Interesse an der eigenen Sprache. Dennoch ergeben sich hier wie in anderen europäischen Ländern mit der kommunikativen Internationalisierung Probleme für die weitere Entwicklung der Hochsprachen, die für die kulturelle Vielfalt des Kontinents konstitutiv sind. Die steigende Tendenz, Englisch als einzige internationale Verkehrssprache und auch national als Fachsprache in mehreren Domänen zu verwenden, wird verstärkt durch einen Fremdsprachenunterricht, der in Deutschland wie in anderen Ländern Englisch zu Lasten anderer Sprachen bevorzugt. Dieser Entwicklung sucht die Europäische Union zu begegnen, indem sie das Ziel M + 2 Sprachen (Muttersprache plus zwei andere Sprachen) für alle Europäer propagiert. Dieses Programm wird auch von der Europäischen Föderation nationaler Sprachinstitutionen (EFNIL) unterstützt, das Netzwerke der zentralen Spracheinrichtungen der EU- Staaten, das sich für die Erhaltung und Weiterentwicklung der europäischen Sprachenvielfalt und die Mehrsprachigkeit der Europäer einsetzt. Für dieses Ziel sind aber Einsicht und Interesse bei vielen Deutschen noch zu wecken oder zu verstärken.
Deutscher Wortschatz im Internet: Das Informationssystem elexiko und sein Modulprojekt Neologismen
(2007)
Deutsches Fremdwörterbuch R-Z: Rückblick und Ausblick. Zum Gedenken an Gerhard Strauß (1941-2006)
(2007)
Dieser Beitrag gliedert sich in zwei Teile. Der erste ist ein Rückblick auf das Deutsche Fremdwörterbuch in seinem (wörterbuch-)geschichtlichen Kontext, auf seine Entstehung und seine Fertigstellung im Institut für Deutsche Sprache (IDS). Der zweite ist ein eher persönlich gefärbter Ausblick auf die Lexikologie und Lexikographie des Fremdworts im Deutschen, der auf meinen während der Fertigstellung des Fremdwörterbuchs gemachten Erfahrungen beruht. Er geht exemplarisch auf zwei Fragenkomplexe näher ein, die nach meiner Überzeugung bei fundierten und sachgemäßen historischen Untersuchungen zum deutschen Fremdwort mitberücksichtigt werden müssen.
Die Gründerjahre des IDS
(2007)
This paper presents a thorough examination of the validity of three evaluation measures on parser output. We assess parser performance of an unlexicalised probabilistic parser trained on two German treebanks with different annotation schemes and evaluate parsing results using the PARSEVAL metric, the Leaf-Ancestor metric and a dependency-based evaluation. We reject the claim that the TüBa-D/Z annotation scheme is more adequate then the TIGER scheme for PCFG parsing and show that PARSEVAL should not be used to compare parser performance for parsers trained on treebanks with different annotation schemes. An analysis of specific error types indicates that the dependency-based evaluation is most appropriate to reflect parse quality.
Evaluating phonological status: significance of paradigm uniformity vs. prosodic grouping effects
(2007)
A central concern of linguistic phonetics is to define criteria for determining the phonological status of sounds or sound properties observed in phonetic surface form. Based on acoustic measurements we show that the occurrence of syllabic sonorants vs. schwa-sonorant sequences in German is determined exclusively by segmental and prosodic structure, with no paradigm uniformity effects. We argue that these findings are consistent with a uniform representation of syllabic sonorants as schwa sonorant sequences in the lexicon. The stability of schwa in CVC-suffixes (e.g. the German diminutive suffix -chen), as opposed to its phonetic absence in a segmentally comparable underived context, is argued to be conditioned by the prosodic organisation of such suffixes external to the phonological word of the stem.
In diesem Beitrag versuchen wir darzulegen, unter welchen Umständen introspektive Urteile objektive, quantifizierbare, und empirisch adäquate linguistische Daten sein können. Dazu skizzieren wir, wie die Resultate unserer experimentell erhobenen, relativen Urteilsstudien aussehen, und argumentieren, dass sie eine unverzichtbare Evidenzquelle für die Syntax bilden, weil sie Einsichten in die Architektur der Grammatik erlauben, die mit anderen Mitteln nicht möglich sind.
Formen und Funktionen von Ethnolekten in multilingualen Lebenswelten - am Beispiel von Mannheim
(2007)
Sprechaktverben stehen, wie auch andere Einheiten des Lexikons, in unterschiedlichen Arten von Gegensatzbeziehungen zueinander. Das Spektrum der Gegensatzrelationen umfasst eine Vielfalt unterschiedlicher Phänomene wie Komplementarität, Kontrarität, direktionale Opposition, Sub- kontrarität, Konversivität, Reversivität und Dualität (vgl. Cruse 1986, Lang 1995, Cruse et al. 2002), die alle negationsinvolvierend, aber ftir den Wortschatzausschnitt der Sprechaktverben nicht alle gleichermaßen relevant sind. Gegensatzrelationen von Wörtern sind meist bei Adjektiven, seltener auch bei Adverbien, Nomen und Verben untersucht worden. Im Unterschied zu den klassischen Beispielen antonymischer Verben wie z. B. lieben-hassen, kommen-gehen und kaufen-verkaufen lassen sich Sprechaktverben nur schwer in das Spektrum der Gegensatzrelationen ein- ordnen. Im Folgenden werden die Kriterien, die zur Bestimmung unterschiedlicher Typen von Gegensatzrelationen angeführt worden sind, diskutiert und auf den Wortschatzbereich der Sprechaktverben angewendet.
Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen
(2007)
Dieser Beitrag beschreibt computerlinguistische Arbeiten zur automatischen Zusammenfassung gesprochener Dialoge. Der Beitrag geht sowohl auf die notwendige Vorverarbeitung als auch auf die eigentliche Zusammenfassung durch automatische Erkennung von Themengrenzen und Extraktion relevanter Äußerungen ein. Ein weiterer Schwerpunkt liegt in der Beschreibung von Arbeiten zur automatischen Anaphernresolution in gesprochener Sprache. Der Beitrag betont vor allem die Rolle und Bedeutung von annotierten Korpora für die computerlinguistische Forschung und Entwicklung.
Gesprächstraining
(2007)
Gegenstand des Vortrags ist das Projekt "Grammatik des Deutschen im europäischen Vergleich" der Abteilung Grammatik des IDS. Mit dem Projekt wird eine innovative Form der vergleichenden Grammatikschreibung realisiert, die a) sprachtypologisch fundiert ist, b) statt eines bilateralen Vergleichs das Deutsche mit einem breiten Spektrum europäischer Sprachen (mit den Kernkontrastsprachen Englisch, Französisch, Polnisch und Ungarisch) kontrastiert und c) die grammatischen Strukturen des Deutschen auf diesem Hintergrund expliziter herausarbeitet. In dem Vortrag werde ich das Projekt mit seinen beiden gegenwärtigen Teilprojekten "Grammatik des Nominals" und "Wortphonologie" vorstellen.
Incompatibility (or co-hyponymy) is the most general type of semantic relation between lexical items, the meaning of which entails exclusion. Such items fall under a superordinate term or concept and denote sets which have no members in common (e.g. animal: dog-cat-mouse-lion-sheep; example from Cruse 2004). Traditionally, these have been of interest to lexical semanticists for the description of the structure of the lexicon. However, incompatibility is not just a relation that signifies a difference of meaning. This paper is a critical corpus-assisted re-evaluation of the phenomenon of incompatibility which argues that the relation in question sometimes also functions as a discourse marker. Incompatibles indicate recurrent intertextual patterns. This holds particularly true for socially or politically controversial lexical items such as Flexibilität (flexibility), Mobilität (mobility) or Globalisierung (globalisation). Corpus investigations of such words have revealed that among other semantically related terms, incompatibles have a crucial discourse focussing function. For the German lexical item Globalisierung, I will show how its lexical usage can be studied through a corpus-driven analysis of corresponding incompatibles. Incompatible terms are not contingent co-words but often occur in close contextual proximity and participate in regular syntagmatic structures (e.g. Globalisierung und Rationalisierung; Globalisierung und Modernisierung; Neoliberalismus, Globalisierung und Kapitalismus). Hence, these are easily extracted by conducting a computational collocation analysis. Such significant collocates provide a good insight into the discursive and thematic contexts of the search word. Following Teubert (2004), I will demonstrate how the meaning of such lexical items is constituted in discourse and how the examination of these particular collocates reveals their sense-constructing function and their pragmatic-discursive force. I will provide a brief discussion of the methodology used for such analyses, and I will explain why the complex semantic-pragmatic and thematic-communicative patterns implied in sets of incompatibles should be given a stronger emphasis in lexicography.
Intensitätspartikeln
(2007)
Jaw and Order
(2007)
It is well-accepted that the jaw plays an active role in influencing vowel height. The general aim of the current study is to further investigate the extent to which the jaw is active in producing consonantal distinctions, with specific focus on coronal consonants. Therefore, tongue tip and jaw positions are compared for the German coronal consonants Is, J, t, d, n, 1/, that is, consonants having the same active articulators (apical/laminal) but differing in manner of articulation. In order to test the stability of articulatory positions for each of these coronal consonants, a natural perturbation paradigm was introduced by recording two levels of vocal effort: comfortable, and loud without shouting. Tongue and jaw movements of five speakers of German were recorded by means of EMMA during /aCa/ sequences. By analyzing the tongue tip and jaw positions and their spatial variability we found that (1) the jaw's contribution to these consonants varies with manner of articulation, and (2) for all coronal consonants the positions are stable across loudness conditions except for those of the nasal. Results are discussed with respect to the tasks of the jaw, and the possible articulatory adjustments that may accompany louder speech.
Auf der Grandlage eines Drei-Generationen-Modells (Jugend, mittlere Generation, Alter) wird dargestellt, welche Anlässe es für alte Menschen zur Kommunikation mit Angehörigen der eigenen wie auch der anderen Generationen gibt. Dabei wird nach familiären, institutionellen und freien Kommunikationssituationen differenziert. Jede Konstellation wird in Hinblick auf Quantität und Qualität der Kommunikation sowie auf mögliche Erschwernisse und Probleme, insbesondere auch als Folge von körperlichen Gebrechen, charakterisiert. Auf diese Weise entsteht ein Bild des „kommunikativen Haushalts“ (Luckmann) der älteren Generation, das auf Schwachstellen hin überprüft wird. In einem letzten Schritt wird skizziert, welche Möglichkeiten zur Intensivierung der intra- wie der intergenerationellen Kommunikation bestehen.
In diesem Beitrag geht es einerseits um eine Definition dessen, was korpusgestützte Lexikographie ist, und andererseits um eine Bestandsaufnahme der gegenwärtigen Praxis korpusgestützter Lexikographie. Dabei wird ein Schwerpunkt gelegt auf allgemeinsprachige Wörterbücher der Gegenwartssprache, deren Inhalt die Beschreibung von Bedeutung und Verwendung von Lexemen ist. Außerdem liegt die Einschätzung zugrunde, dass die Auswertung elektronischer Korpora die Wörterbucharbeit weitgehend positiv beeinflusst und verändert, vorausgesetzt, dass zugrunde gelegte Korpus wurde für das geplante Wörterbuch so gut wie möglich in Umfang und Zusammensetzung eingerichtet.
In diesem Beitrag wird untersucht, wie mithilfe korpuslinguistischer Verfahren Erkenntnisse über den Aufbau von Bedeutungsparaphrasen in Wörterbüchern gewonnen werden können. Diese Erkenntnisse sollen dazu genutzt werden, den Aufbau von Bedeutungsparaphrasen in Wörterbüchern umfassend und systematisch zu beschreiben, z.B. im Hinblick auf eine Optimierung der Bedeutungsparaphrasen für so genannte elektronische Wörterbücher oder für die Extraktion lexikalisch-semantischer Information für NLP-Zwecke.
We present an XML-based metadata standard for the documentation of speech and multimedia corpora that was developed at the Institute for German Language (IDS) in Mannheim, Germany. The IDS is one of the major institutions providing German speech and language corpora to researchers. These corpora stem from many different sources and were previously documented in a rather heterogeneous fashion using a variety of data models and formats. In order to unify the documentation for existing and future corpora, the IDS- internal Archive for Spoken German collaborated with several projects and developed a set of standardised XML metadata schemas. These XML schemas build on existing internal and external documentation schemas (such as IMDI) and take into account the workflow of speech corpus production. In order to minimise redundancy, separate schemas were designed for projects, speakers, recording sessions, and entire corpora. The resulting schemas are tested in ongoing speech and multi-media projects at the IDS and are regularly revised. They are accompanied by element definitions, guidelines, and examples. In addition, a mapping to IMDI will be provided.
Modalpartikel
(2007)
Trubetzkoy's recognition of a delimitative function of phonology, serving to signal boundaries between morphological units, is expressed in terms of alignment constraints in Optimality Theory, where the relevant constraints require specific morphological boundaries to coincide with phonological structure (Trubetzkoy 1936, 1939, McCarthy & Prince 1993). The approach pursued in the present article is to investigate the distribution of phonological boundary signals to gain insight into the criteria underlying morphological analysis. The evidence from English and Swedish suggests that necessary and sufficient conditions for word-internal morphological analysis concern the recognizability of head constituents, which include the rightmost members of compounds and head affixes. The claim is that the stability of word-internal boundary effects in historical perspective cannot in general be sufficiently explained in terms of memorization and imitation of phonological word form. Rather, these effects indicate a morphological parsing mechanism based on the recognition of word-internal head constituents. Head affixes can be shown to contrast systematically with modifying affixes with respect to syntactic function, semantic content, and prosodic properties. That is, head affixes, which cannot be omitted, often lack inherent meaning and have relatively unmarked boundaries, which can be obscured entirely under specific phonological conditions. By contrast, modifying affixes, which can be omitted, consistently have inherent meaning and have stronger boundaries, which resist prosodic fusion in all phonological contexts. While these correlations are hardly specific to English and Swedish it remains to be investigated to which extent they hold cross-linguistically. The observation that some of the constituents identified on the basis of prosodic evidence lack inherent meaning raises the issue of compositionality. I will argue that certain systematic aspects of word meaning cannot be captured with reference to the syntagmatic level, but require reference to the paradigmatic level instead. The assumption is then that there are two dimensions of morphological analysis: syntagmatic analysis, which centers on the criteria for decomposing words in terms of labelled constituents, and paradigmatic analysis, which centers on the criteria for establishing relations among (whole) words in the mental lexicon. While meaning is intrinsically connected with paradigmatic analysis (e.g. base relations, oppositeness) it is not essential to syntagmatic analysis.
ln diesem Beitrag sollen anhand von Materialien aus Gesprächskorpora des IDS Schwierigkeiten und Möglichkeiten der maschinellen Recherche vorgeführt werden. Grundlage dafür sind Gesprächstranskripte, die in digitaler Form vorliegen und in einem System mit Rechercheprozeduren zugreifbar sind. Mit diesem Ziel wird auf Rechercheverfahren zurückgegriffen, die in den 1990er Jahren in einem Projekt SHRGF.S im IDS als Anwendung der COSMAS-Technologie auf Gesprächskorpora entwickelt wurden. Die hier gegebenen Recherchemöglichkeiten werden an einem Auswahlkorpus von Gesprächstranskripten mit einem Gesamtumfang von 87.629 laufenden Wörtern versuchsweise angewendet und in ihren Beschränkungen und ihrer Fruchtbarkeit für explorative Untersuchungen betrachtet. Damit soll ein Beitrag zur Klärung der Frage geleistet werden, welche Recherchemöglichkeiten aus einer gesprächsanalytischen Perspektive vorstellbar und erwünscht sind und insofern bei der weiteren korpustechnologischen Entwicklung berücksichtigt werden sollten.
On the Lossless Transformation of Single-File, Multi-Layer Annotations into Multi-Rooted Trees
(2007)
The Generalised Architecture for Sustainability (GENAU) provides a framework for the transformation of single-file, multi-layer annotations into multi-rooted trees. By employing constraints expressed in XCONCUR-CL, this procedure can be performed lossless, i.e., without losing information, especially with regard to the nesting of elements that belong to multiple annotation layers. This article describes how different types of linguistic corpora can be transformed using specialised tools, and how constraint rules can be applied to the resulting multi-rooted trees to add an additional level of validation.
Possessivum
(2007)
Der Projektbericht stellt Ergebnisse des Teilprojekts "Erstellung eines Netzwerkes zur wissenschaftlichen Kooperation mit Russland" im Rahmen des Gesamtprojektes "Deutsch in Russland" vor. Das Teilprojekt beschäftigte sich mit der Erstellung eines weitflächigen Netzwerkes zur wissenschaftlichen Kooperation mit Russland. Zu diesem Zweck wurden im Oktober und Dezember 2006 Erkundungsreisen nach Russland unternommen und mit Wissenschaftlern vor Ort Kontakte geknüpft. Besucht wurden vor allem die Regionen, in denen heute noch die russlanddeutsche Bevölkerung stark vertreten ist und ihre Dialekte und Sprache an den Universitäten untersucht werden
In diesem Aufsatz diskutiere ich drei syntaktische Phänomene, die für die Grammatikforschung von zentraler Bedeutung sind. Ich zeige, dass Introspektion als Stütze von Theorien nicht ausreicht und entwickle Korpusanfragen für die diskutierten Fälle. Der Aufsatz schließt mit Anmerkungen zu den Grenzen der Korpuslinguistik.
Grundlage dieses Artikels* 1 ist das Verbundprojekt „Nachhaltigkeit linguistischer Daten“ der drei Sonderforschungsbereiche 441, 538 und 632, dessen Ziel es ist, Lösungen für die nachhaltige Verfügbarkeit der an den SFBs vorhandenen Korpora zu entwickeln. Ein zentraler Aspekt betrifft die Klärung der Rechtslage für die Nutzung und Weitergabe linguistischer Ressourcen, die durch das Urheber- sowie das Datenschutzrecht geschützt sind. Eine als indifferent wahrgenommene rechtliche Situation wird in der Praxis oft als das entscheidende Hindernis für die Weitergabe linguistischer Daten angeführt. Tatsächlich jedoch sind Nutzung und Weitergabe von Daten zu wissenschaftlichen Zwecken normativ geregelt. Problematisch ist oftmals die Einordnung der speziellen linguistischen Daten als Schutzgegenstand sowie die Tatsache, dass an linguistische Daten und Datensammlungen aufgrund ihrer komplexen und vielschichtigen Beschaffenheit durchaus mehrere Urheber Rechte besitzen können, die sich auf verschiedene Inhalte beziehen. Der Beitrag gibt einen Überblick über das geltende Recht sowie die juristischen und natürlichen Personen, die potentiell Rechte an linguistisch aufbereiteten Datenkollektionen besitzen. Es ist nicht Gegenstand dieses Artikels, rechtsverbindliche Aussagen zu treffen, die auf eine Nutzung und Weitergabe jedweder Daten angewandt werden. Der Artikel orientiert sich in seiner Struktur und thematischen Tiefe bewusst nicht an einem juristischen Publikum, sondern beschreibt die Problematik aus geisteswissenschaftlicher Perspektive. Zusammen mit einem Überblick über das vom Umgang mit linguistischen Datensammlungen betroffene Recht, das Urheberrechtsgesetz (Abschnitt 1) und das Bundesdatenschutzgesetz (Abschnitt 2), wird in den jeweiligen Abschnitten auch eine Klassifikation der Daten aus juristischer Sicht vorgenommen. Anschließend werden Lösungsansätze vorgestellt, die im Rahmen des o. g. Verbundprojektes erarbeitet werden (Abschnitt 3).
Der Beitrag verfolgt zwei Zielsetzungen: eine deskriptive und eine methodologische. Auf der Ebene grammatischer Beschreibung erfolgt eine Analyse der deutschen Relativsatzkonstruktion aus der Gegenüberstellung mit entsprechenden Konstruktionen anderer europäischer Sprachen heraus, insbesondere mit Konstruktionen des Englischen, Französischen, Polnischen und Ungarischen, den Kernkontrastsprachen des Projekts „Grammatik des Deutschen im europäischen Vergleich“. Dabei wird auf die zentralen Projektkonzepte ‘funktionale Domäne’ und ‘Varianzparameter’ rekurriert. Die funktionale Domäne des Relativsatzes wird als Beitrag zu der übergreifenden Funktion nominaler Konstruktionen, nämlich der Referenz, bestimmt und zwar als referentielle Modifikation des begrifflichen Kerns durch einen verankernden Sachverhalt. Von den die Sprachen differenzierenden Parametrisierungen werden drei herausgegriffen und in ihrer Korrelation diskutiert. In methodologischer Hinsicht soll am Beispiel des Relativsatzes gezeigt werden, in welcher Weise typologische Generalisierungen, Kontraste zwischen – in diesem Fall überwiegend nah verwandten bzw. über Sprachkontakte miteinander verbundenen – Sprachen und einzelsprachenspezifische Eigenschaften aufeinander zu beziehen sind, immer im Dienst einer besseren Einsicht in das Funktionieren des Deutschen.
We present an implemented system for the resolution of it, this, and that in transcribed multi-party dialog. The system handles NP-anaphoric as well as discourse-deictic anaphors, i.e. pronouns with VP antecedents. Selectional preferences for NP or VP antecedents are determined on the basis of corpus counts. Our results show that the system performs significantly better than a recency-based baseline.
Für diese Sammlung wurden relevante Publikationen zum Thema "Deutsche Sprach- und Dialektforschung in Russland nach 1990" ausgewählt und ins Deutsche übersetzt. In der Sammlung von Übersetzungstexten sind verschiedene Forschungsrichtungen vorhanden. Die Einleitung informiert näher über Aufbau und Themen der Sammlung. Jeder Übersetzung geht ein Kurzkommentar zum Inhalt voran.
Sprachkritik, dahinsickernd
(2007)
Three popular collections of essays concerning correct language use in German are reviewed from a linguist’s point of view. It is claimed that the overall picture of language that Sick conveys to the layperson is inadequate; in addition, the author fails to reflect explicitly on the purpose and consequences of his prescriptive approach to language use.
Sprachliche Varianz und sprachliche Virtuosität türkisch-stämmiger Ghetto-Jugendlicher in Mannheim
(2007)
Der Beitrag gibt auf der Basis eines exemplarischen Falles Einblick in die Lebenswelt und in die kommunikativen Praktiken von türkischstämmigen, schulisch wenig erfolgreichen Migrantenjugendlichen, die aus der Sicht der deutschen Gesellschaft als „soziale Problemfalle“ charakterisiert werden. Er beschreibt auf der Basis natürlichen Gesprächsmaterials das sprachlich-kommunikative Repertoire eines ausgewählten Jugendlichen und filtert vor dem Hintergrund des regionalen Gebrauchsstandard die Merkmale heraus, die seine Sprechweise ‘fremd’ erscheinen lassen. Anhand ausgewählter Gesprächssequenzen werden charakteristische Variationsmuster dargestellt und die diskursiven, interaktiven und sozialen Funktionen sprachlicher Variation rekonstruiert. Die ethnografische und gesprächsanalytisch-linguistische Analyse führt zu dem Schluss, dass der geringe schulisch-berufliche Status des Jugendlichen in keiner sozial angemessenen Relation zu seinen hohen sprachlich-kommunikativen Fähigkeiten steht.
Der vorliegende Band untersucht, wie Sprachwandel, Sprachvariation und Sprachkontakt einige wichtige germanische Sprachen transformieren und wie als Folge davon das Verhältnis von Standard und Varietäten (neu) konzeptualisiert wird. In welcher Weise beeinflussen und verändern Sprachkontaktprozesse die germanischen Sprachen heute, wie werden die Standardsprachen jeweils betroffen? Welche neuen Varietäten entstehen als Teil dieser Prozesse? Wie werden sprachliche Pluralität und Differenz im öffentlichen und sprachpolitischen Diskurs thematisiert, welche Rolle spielen sie in alltäglichen Erzählungen und Konversationen verschiedener sozialer Gruppen? Welche Sprachideologien entstehen in diesem Zusammenhang, und wie werden sie von den Medien geprägt? Wie beeinflussen solche Prozesse die politische Entscheidungsfindung, sprachliche Kodifizierung und Normierung?
Der Band untersucht diese und verwandte Fragestellungen mit Blick auf neuere Entwicklungen im gegenwärtigen Deutsch, Niederländisch, Friesisch, Niederdeutsch, Jiddisch, Norwegisch und Schwedisch. Gleichzeitig wird so auch ein guter Einblick in neuere Ansätze und Methoden der soziolinguistischen Forschung im Bereich der germanischen Sprachen gegeben.
Mit Beiträgen von: Christian Fandrych & Reinier Salverda, Wim Vandenbussche, Martin Durrell, Andrew Linn & Leigh Oakes, Jenny Carl & Patrick Stevenson, Jannis Androutsopoulos, Inken Keim & Ralf Knöbl, Stephan Elspaß, Nils Langer, Gertrud Reershemius, Roland Willemyns, Frans Hinskens.
Statistische Methoden finden derzeit in der Sprachtechnologie vielfache Verwendung. Ein Grundgedanke dabei ist das Trainieren von Programmen auf große Mengen von Daten. Für das Trainieren von statistischen Sprachmodellen gilt zur Zeit das Motto „Je mehr Daten desto besser“. In unserem System zur maschinellen Übersetzung sehen wir eine fast konstante qualitative Verbesserung (gemessen als BLEU-Score) mit jeder Verdoppelung der monolingualen Trainingsdatenmenge. Selbst bei Mengen von ca. 20 Milliarden Wörtern aus Nachrichtentexten und ca. 200 Milliarden Wörtern aus Webseiten ist kein Abflachen der Lernkurve in Sicht.
Dieser Artikel gibt kurze Einführungen in statistische maschinelle Übersetzung, die Evaluation von Übersetzungen mit dem BLEU-Score, und in statistische Sprachmodelle. Wir zeigen, welch starken Einfluß die Größe der Trainingsdaten des Sprachmodells auf die Übersetzungsqualität hat. Danach wird die Speicherung großer Datenmengen, das Trainieren in einer parallelen Architektur und die effiziente Verwendung der bis zu 1 Terabyte großen Modelle in der maschinellen Übersetzung beschrieben.
The central issue in corpus-driven linguistics is the detection and description of patterns in language usage. The features that constitute the notion of a pattern can be computed to a certain extent by statistical (collocation) methods, but a crucial part of the notion may vary depending on applications and users. Thus, typically, any computed collocation cluster will have to be interpreted hermeneutically. Often it might be captured by a generalized, more abstract pattern. We present a generic process model that supports the recognition, interpretation, and expression of the patterns inside and of the relations between clusters. By this, clusters can be merged virtually according to any notion of a 'pattern', and their relations can be exploited for different applications
Recent studies focussed on the question whether less-configurational languages like German are harder to parse than English, or whether the lower parsing scores are an artefact of treebank encoding schemes and data structures, as claimed by Kübler et al. (2006). This claim is based on the assumption that PARSEVAL metrics fully reflect parse quality across treebank encoding schemes. In this paper we present new experiments to test this claim. We use the PARSEVAL metric, the Leaf-Ancestor metric as well as a dependency-based evaluation, and present novel approaches measuring the effect of controlled error insertion on treebank trees and parser output. We also provide extensive past-parsing crosstreebank conversion. The results of the experiments show that, contrary to Kübler et al. (2006), the question whether or not German is harder to parse than English remains undecided.
Vorwort
(2007)
This paper is a contribution to the ongoing discussion on treebank annotation schemes and their impact on PCFG parsing results. We provide a thorough comparison of two German treebanks: the TIGER treebank and the TüBa-D/Z. We use simple statistics on sentence length and vocabulary size, and more refined methods such as perplexity and its correlation with PCFG parsing results, as well as a Principal Components Analysis. Finally we present a qualitative evaluation of a set of 100 sentences from the TüBa- D/Z, manually annotated in the TIGER as well as in the TüBa-D/Z annotation scheme, and show that even the existence of a parallel subcorpus does not support a straightforward and easy comparison of both annotation schemes.
Im Beitrag werden korpuslinguistische Aspekte und Fragestellungen aus variationslinguistischer Perspektive diskutiert, wobei der Fokus auf der Analyse regionalsprachlicher Daten und Korpora des Deutschen liegt. Unter Regionalsprache wird hier der areal gebundene, sprechsprachliche Gesamtbereich „unterhalb“ der normierten Standardsprache verstanden, der sich von den lokalen Basisdialekten über Varietäten bzw. Sprechlagen des mittleren Bereichs bis hin zum standardnächsten Pol der Regionalsprache (Regionalakzent oder Regionalstandard) erstreckt.
Am Beginn des Beitrags steht ein Überblick über Datenklassen, die als empirische Grundlage für regionalsprachliche Fragestellungen herangezogen werden können. Eine Präsentation regionalsprachlicher Korpora, die auf den vorgestellten Datenklassen aufbauen, schließt sich an, wobei hier lediglich einige ausgewählte, online zugängliche Korpora Berücksichtigung finden (können). In einem nächsten Schritt werden die vorgestellten Korpora zur konkreten variationslinguistischen Analyse von zwei regionalsprachlichen Phänomenen aus dem lautlichen („g-Spirantisierung“) bzw. grammatischen Bereich („Rezipientenpassiv“) herangezogen und auf ihre Ergiebigkeit geprüft.