Induktive Topikmodellierung und extrinsische Topikdomänen
- Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.
Author: | Felix BildhauerORCiDGND, Roland Schäfer |
---|---|
URN: | urn:nbn:de:bsz:mh39-60463 |
DOI: | https://doi.org/10.1515/9783110518214-020 |
ISBN: | 978-3-11-050115-5 |
Parent Title (German): | Grammatische Variation. Empirische Zugänge und theoretische Modellierung |
Series (Serial Number): | Jahrbuch / Institut für Deutsche Sprache (2016) |
Publisher: | de Gruyter |
Place of publication: | Berlin [u.a.] |
Editor: | Marek Konopka, Angelika Wöllstein |
Document Type: | Part of a Book |
Language: | German |
Year of first Publication: | 2017 |
Date of Publication (online): | 2017/04/06 |
GND Keyword: | Automatische Klassifikation; Korpus <Linguistik>; Metadaten |
First Page: | 331 |
Last Page: | 343 |
DDC classes: | 400 Sprache / 430 Deutsch |
Open Access?: | ja |
Program areas: | Grammatik |
Licence (German): | Urheberrechtlich geschützt |