Korpuslinguistik
Refine
Year of publication
- 2014 (7) (remove)
Document Type
- Part of a Book (3)
- Conference Proceeding (2)
- Article (1)
- Book (1)
Has Fulltext
- yes (7)
Keywords
- Korpus <Linguistik> (6)
- Deutsch (2)
- Institut für Deutsche Sprache <Mannheim> (2)
- Computerlinguistik (1)
- Deutsches Referenzkorpus (DeReKo) (1)
- Gesprochene Sprache (1)
- Grammatik (1)
- Jugendsprache (1)
- Kiezdeutsch (1)
- Methode (1)
Publicationstate
Reviewstate
- (Verlags)-Lektorat (7) (remove)
Publisher
We discovered several recurring errors in the current version of the Europarl Corpus originating both from the web site of the European Parliament and the corpus compilation based thereon. The most frequent error was incompletely extracted metadata leaving non-textual fragments within the textual parts of the corpus files. This is, on average, the case for every second speaker change. We not only cleaned the Europarl Corpus by correcting several kinds of errors, but also aligned the speakers’ contributions of all available languages and compiled every- thing into a new XML-structured corpus. This facilitates a more sophisticated selection of data, e.g. querying the corpus for speeches by speakers of a particular political group or in particular language combinations.
This paper presents the first release of the KiezDeutsch Korpus (KiDKo), a new language resource with multiparty spoken dialogues of Kiezdeutsch, a newly emerging language variety spoken by adolescents from multi-ethnic urban areas in Germany. The first release of the corpus includes the transcriptions of the data as well as a normalisation layer and part-of-speech annotations. In the paper, we describe the main features of the new resource and then focus on automatic POS tagging of informal spoken language. Our tagger achieves an accuracy of nearly 97% on KiDKo. While we did not succeed in further improving the tagger using ensemble tagging, we present our approach to using the tagger ensembles for identifying error patterns in the automatically tagged data.
Der korpuslinguistische Ansatz des Projekts »Korpusgrammatik« eröffnet neue Perspektiven auf unsere Sprachwirklichkeit allgemein und grammatische Regularitäten im Besonderen. Der vorliegende Band klärt auf, wie man korpuslinguistisch nach dem Standard fragen kann, wie die Projektkorpora aufgebaut und in einer Korpusdatenbank erschlossen sind, wie man in einem automatischen Abfragesystem der Variabilität der Sprache zu Leibe rückt und sie sogar messbar macht, schließlich aber auch, wo die Grenzen quantitativer Korpusanalysen liegen. Pilotstudien deuten an, wie der Ansatz unsere grammatischen Horizonte erweitert und die Grammatikografie voranbringt.
Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert.