430 Deutsch
Refine
Year of publication
- 2014 (28) (remove)
Document Type
- Part of a Book (11)
- Conference Proceeding (10)
- Article (4)
- Book (1)
- Other (1)
- Working Paper (1)
Keywords
- Korpus <Linguistik> (28) (remove)
Publicationstate
- Veröffentlichungsversion (10)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (7)
- Peer-Review (3)
Publisher
The annotation of parts of speech (POS) in linguistically annotated corpora is a fundamental annotation layer which provides the basis for further syntactic analyses, and many NLP tools rely on POS information as input. However, most POS annotation schemes have been developed with written (newspaper) text in mind and thus do not carry over well to text from other domains and genres. Recent discussions have concentrated on the shortcomings of present POS annotation schemes with regard to their applicability to data from domains other than newspaper text.
Lexikonstatistik 2.0
(2014)
In der Mitte des 20. Jahrhunderts gab es diverse Versuche, die Klassifikation von Sprachen mit Hilfe von Wortlisten, die dem Grundvokabular der betreffenden Sprachen entnommen sind, zu automatisieren. Diese Methoden wurden und werden in der historischen Sprachwissenschaft gemeinhin kritisch diskutiert, da sich die erzielten Ergebnisse häufig als fehlerhaft erwiesen.
In den letzten Jahren erleben wir einen neuen Aufschwung lexikostatistischer und glottochronologischer Ansätze. Deren Erfolgsaussichten sind heute wesentlich besser als vor einem halben Jahrhundert, da uns jetzt große Mengen an sprachvergleichenden Daten in elektronischer Form zur Verfügung stehen und die Computerlinguistik und Bioinformatik mächtige Werkzeuge bereitstellt, diese Daten statistisch auszuwerten.
Im vorliegenden Artikel wird eine Fallstudie vorgestellt, die das Potenzial lexikostatistischer Methoden im 21. Jahrhundert illustriert.
This contribution presents the newest version of our ’Wortverbindungsfelder’ (fields of multi-word expressions), an experimental lexicographic resource that focusses on aspects of MWEs that are rarely addressed in traditional descriptions: Contexts, patterns and interrelations. The MWE fields use data from a very large corpus of written German (over 6 billion word forms) and are created in a strictly corpus-based way. In addition to traditional lexicographic descriptions, they include quantitative corpus data which is structured in new ways in order to show the usage specifics. This way of looking at MWEs gives insight in the structure of language and is especially interesting for foreign language learners.
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
In diesem Beitrag werden zentrale methodische Fragen der Erstellung mündlicher Sprachkorpora anhand des Mannheimer FOLK-Korpus diskutiert, teils im Hinblick auf gesprochensprachliche Korpora insgesamt, teil im Vergleich zum Leipziger GeWiss-Korpus. Bei FOLK steht keine bestimmte thematisch-institutionelle Domäne im Mittelpunkt des Korpusaufbaus, sondern das Ziel, ein ausgewogenes Korpus authentischer Gespräche unterschiedlicher Sprecher/innen in Alltag, Institutionen und Medien für eine Vielzahl von Forschungsfragen und Verwendungskontexten bereitzustellen. Der Artikel stellt das Vorgehen bei der Korpus-Akquise, die Anlage der Metadaten, den Workflow des Projekts sowie die Transkriptionskonventionen und die orthografische Normalisierung der Transkriptionen ausführlich vor und beschreibt Korpusaufbau und -stratifikation sowie die Einbindung von FOLK in die Datenbank für Gesprochenes Deutsch 2.0 des IDS.
Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings.