Volltext-Downloads (blau) und Frontdoor-Views (grau)

Induktive Topikmodellierung und extrinsische Topikdomänen

  • Eine reichhaltige Auszeichnung mit Metadaten ist für alle Arten von Korpora für die linguistische Forschung wünschenswert. Für große Korpora (insbesondere Webkorpora) müssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdomäne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu überführen wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines überwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegenüber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zusätzliche Kontrollvariablen für grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, für die jeweils getrennte Goldstandard-Datensätze manuell annotiert wurden.

Download full text files

  • Bildhauer_Schaefer_Induktive_Topikmodellierung_2017.pdf
    deu

    (IDS-intern)

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Felix Bildhauer, Roland Schäfer
URN:urn:nbn:de:bsz:mh39-60463
DOI:https://doi.org/10.1515/9783110518214-020
ISBN:978-3-11-050115-5
Parent Title (German):Grammatische Variation. Empirische Zugänge und theoretische Modellierung
Series (Serial Number):Jahrbuch / Institut für Deutsche Sprache (2016)
Publisher:de Gruyter
Place of publication:Berlin [u.a.]
Editor:Marek Konopka, Angelika Wöllstein
Document Type:Part of a Book
Language:German
Year of first Publication:2017
Date of Publication (online):2017/04/06
GND Keyword:Automatische Klassifikation; Korpus <Linguistik>; Metadaten
First Page:331
Last Page:343
Note:
Dieser Beitrag ist aus urheberrechtlichen Gründen nicht frei zugänglich. / Due to copyright reasons the full-text of the article is not freely accessible.
Dewey Decimal Classification:400 Sprache / 430 Deutsch
Open Access?:Nein
Licence (German):Es gilt das UrhG