@incollection{BildhauerSchaefer2017, author = {Felix Bildhauer and Roland Sch{\"a}fer}, title = {Induktive Topikmodellierung und extrinsische Topikdom{\"a}nen}, series = {Grammatische Variation. Empirische Zug{\"a}nge und theoretische Modellierung}, editor = {Marek Konopka and Angelika W{\"o}llstein}, publisher = {de Gruyter}, address = {Berlin [u.a.]}, isbn = {978-3-11-050115-5}, doi = {10.1515/9783110518214-020}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-60463}, pages = {331 -- 343}, year = {2017}, abstract = {Eine reichhaltige Auszeichnung mit Metadaten ist f{\"u}r alle Arten von Korpora f{\"u}r die linguistische Forschung w{\"u}nschenswert. F{\"u}r gro{\"s}e Korpora (insbesondere Webkorpora) m{\"u}ssen Metadaten automatisch erzeugt werden, wobei die Genauigkeit der Auszeichnung besonders kritisch ist. Wir stellen einen Ansatz zur automatischen Klassifikation nach Themengebiet (Topikdom{\"a}ne) vor, die auf dem lexikalischen Material in Texten basiert. Dazu {\"u}berf{\"u}hren wir weniger gut interpretierbare Ergebnisse aus einer so genannten Topikmodellierung mittels eines {\"u}berwachten Lernverfahrens in eine besser interpretierbare Kategorisierung nach 13 Themengebieten. Gegen{\"u}ber (automatisch erzeugten) Klassifikationen nach Genre, Textsorte oder Register, die zumeist auf Verteilungen grammatischer Merkmale basieren, erscheint eine solche thematische Klassifikation geeigneter, um zus{\"a}tzliche Kontrollvariablen f{\"u}r grammatische Variationsstudien bereitzustellen. Wir evaluieren das Verfahren auf Webtexten aus DECOW14 und Zeitungstexten aus DeReKo, f{\"u}r die jeweils getrennte Goldstandard-Datens{\"a}tze manuell annotiert wurden.}, language = {de} }