Refine
Year of publication
- 2007 (22) (remove)
Document Type
- Part of a Book (22)
Language
- German (22)
Has Fulltext
- yes (22)
Is part of the Bibliography
- no (22)
Keywords
- Korpus <Linguistik> (11)
- Deutsch (7)
- Verb (5)
- Gesprochene Sprache (3)
- Kommunikation (3)
- Methodologie (2)
- Semantik (2)
- Sprachstatistik (2)
- Syntax (2)
- Wortart (2)
Publicationstate
- Veröffentlichungsversion (22) (remove)
Reviewstate
- (Verlags)-Lektorat (21)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (22) (remove)
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
Wer sich mit grammatischen Phänomenen historischer Sprachstufen beschäftigt, kann seine empirischen Daten bekanntermaßen nicht auf der Grundlage von Sprecherurteilen gewinnen, sondern muss zunächst Korpusrecherchen betreiben. Die Größe des auszuwählenden Korpus ist sehr stark phänomenabhängig: So reicht es im Bereich der Syntax in der Regel nicht aus, kleinere Textausschnitte aus verschiedenen Textquellen zu einem Korpus zusammenzufügen, vielmehr müssen vollständige Texte nicht nur nach raum-zeitlichen Koordinaten, sondern auch textsortenabhängig ausgewählt werden, um ein repräsentatives Korpus für eine spezifische Sprachstufe zu erstellen. Da eine manuelle Sichtung dieser doch recht großen Korpora sich sehr zeitaufwändig gestaltet, bietet sich gerade im Bereich der historischen Syntax der Einsatz von syntaktisch annotierten, digitalen Korpora an. Im folgenden Beitrag wird der Aufbau einer solchen Baumbank für das Frühneuhochdeutsche einschließlich der verfügbaren Recherchemöglichkeiten vorgestellt.
Es gibt viele linguistische Forschungsfragen, für deren Beantwortung man Korpusdaten qualitativ und quantitativ auswerten möchte. Beide Auswertungsmethoden können sich auf den Korpustext, aber auch auf Annotationsebenen beziehen. Jede Art von Annotation, also Kategorisierung, stellt einen kontrollierten und notwendigen Informationsverlust dar. Das bedeutet, dass jede Art von Kategorisierung auch eine Interpretation der Daten ist. In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z. B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten. In den letzten Jahren haben sich neben den großen, ,,flach“ annotierten Korpora Korpusmodelle herausgebildet, mit denen man konfligierende Informationen kodieren kann, die so genannten Mehrebenen-Modelle (multilevel standoff corpora), in denen alle Annotationsebenen unabhängig vom Text gespeichert werden und nur auf bestimmte Textanker verweisen. Ich argumentiere anhand der Fehlerannotation in einem Lernerkorpus dafür, dass zumindest Korpora, in denen es stark variierende Annotationsbedürfnisse und umstrittene Analysen geben kann, davon profitieren, in Mehrebenen-Modellen kodiert zu werden.
Der Begriff und die Rolle von Daten in einer Wissenschaft hängen eng mit ihrem Selbstverständnis zusammen. Als erstes ist zu überlegen, inwiefern Linguistik eine empirische Wissenschaft ist und also von Daten abhängt.
Während in den Philologien ein Korpus die Grundlage einer Disziplin abgibt, die ohne es nicht bestünde, ist in der Linguistik ein Korpus nur ein Weg, an Daten zu kommen. Hier ist zu diskutieren, welche relativen Meriten die alternativen Wege im Hinblick auf die angestrebten Ziele haben.
Während manches auf uns gekommene Korpus seine Sprache sicher nicht angemessen repräsentiert, könnte eine heute von Linguisten erstellte Dokumentation diesen Anspruch im Prinzip einlösen. Hier stellt sich die Frage, ob das - angesichts des infiniten Charakters der Sprache - überhaupt möglich ist und in wieweit die Repräsentativität wieder von den angestrebten Zielen abhängt.
Dies sind alles Fragen linguistischer Methodologie. Eine Zeitlang hat man in der Linguistik geglaubt, ohne Methodologie zu Theorien gelangen zu können. Seit sich das als irrig herausgestellt hat, ist die Entwicklung von Methoden ein fühlbares Desiderat geworden. Wie man repräsentative Daten erhebt, wie man ein Korpus zusammenstellt und nutzt, wie man eine Sprache dokumentiert, sind alles Fragen, die eigentlich in die Alltagsroutine einer Wissenschaft fallen müssten. Dass sie noch weitgehend ungeklärt sind, ist ein Symptom dafür, dass die Linguistik noch keine erwachsene Wissenschaft ist.
Der Wortschatzausschnitt der deutschen Kommunikationsverben – eine empirische Bestandsaufnahme
(2007)
In diesem Beitrag versuchen wir darzulegen, unter welchen Umständen introspektive Urteile objektive, quantifizierbare, und empirisch adäquate linguistische Daten sein können. Dazu skizzieren wir, wie die Resultate unserer experimentell erhobenen, relativen Urteilsstudien aussehen, und argumentieren, dass sie eine unverzichtbare Evidenzquelle für die Syntax bilden, weil sie Einsichten in die Architektur der Grammatik erlauben, die mit anderen Mitteln nicht möglich sind.
Sprechaktverben stehen, wie auch andere Einheiten des Lexikons, in unterschiedlichen Arten von Gegensatzbeziehungen zueinander. Das Spektrum der Gegensatzrelationen umfasst eine Vielfalt unterschiedlicher Phänomene wie Komplementarität, Kontrarität, direktionale Opposition, Sub- kontrarität, Konversivität, Reversivität und Dualität (vgl. Cruse 1986, Lang 1995, Cruse et al. 2002), die alle negationsinvolvierend, aber ftir den Wortschatzausschnitt der Sprechaktverben nicht alle gleichermaßen relevant sind. Gegensatzrelationen von Wörtern sind meist bei Adjektiven, seltener auch bei Adverbien, Nomen und Verben untersucht worden. Im Unterschied zu den klassischen Beispielen antonymischer Verben wie z. B. lieben-hassen, kommen-gehen und kaufen-verkaufen lassen sich Sprechaktverben nur schwer in das Spektrum der Gegensatzrelationen ein- ordnen. Im Folgenden werden die Kriterien, die zur Bestimmung unterschiedlicher Typen von Gegensatzrelationen angeführt worden sind, diskutiert und auf den Wortschatzbereich der Sprechaktverben angewendet.
Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen
(2007)
Dieser Beitrag beschreibt computerlinguistische Arbeiten zur automatischen Zusammenfassung gesprochener Dialoge. Der Beitrag geht sowohl auf die notwendige Vorverarbeitung als auch auf die eigentliche Zusammenfassung durch automatische Erkennung von Themengrenzen und Extraktion relevanter Äußerungen ein. Ein weiterer Schwerpunkt liegt in der Beschreibung von Arbeiten zur automatischen Anaphernresolution in gesprochener Sprache. Der Beitrag betont vor allem die Rolle und Bedeutung von annotierten Korpora für die computerlinguistische Forschung und Entwicklung.
Intensitätspartikeln
(2007)