Effiziente halbautomatische Detektion von Neologismuskandidaten. Technical Report IDS-KL-2010-01
- Bei der hier vorgestellten Studie wird eine halbautomatische Strategie verfolgt: Zunächst wird durch automatische Verfahren eine Kandidatenliste generiert, bei der im Kompromiss zwischen Recall und Precision der Recall stärker gewichtet wird. Recall wird hierbei aber nicht einseitig maximiert, denn sonst wäre die Liste extrem lang und nahezu wertlos. Die automatisch gewonnene Kandidatenliste wird anschließend zügig (und ohne eigentliche Analyse) manuell gesichtet und eindeutige Nichtneologismen werden dabei herausgefiltert. Dadurch wird die Precision erheblich erhöht, während der Recall weitgehend unverändert hoch bleibt. Erst diese gefilterte Liste dient als Input für nähere Expertenanalysen. Dieser halbautomatische Ansatz besteht insgesamt aus drei Phasen, die im Folgenden näher beschrieben werden. Der Fokus liegt dabei auf Neulexemen – Neubedeutungen werden zwar nicht ausgeschlossen, für die meisten von ihnen ist es jedoch unwahrscheinlich, dass sie mit der hier vorgestellten Methode aufgespürt werden können.
| Author: | Holger KeibelGND, Sophie Hennig, Rainer PerkuhnGND |
|---|---|
| URN: | urn:nbn:de:bsz:mh39-126371 |
| Publisher: | Institut für Deutsche Sprache |
| Place of publication: | Mannheim |
| Document Type: | Report |
| Language: | German |
| Year of first Publication: | 2010 |
| Date of Publication (online): | 2024/04/17 |
| Publicationstate: | Veröffentlichungsversion |
| Tag: | Halbautomatische Detektion; Neologismuskandidaten; Precision; Recall |
| GND Keyword: | Bericht; Computerlinguistik; Korpus <Linguistik>; Neologismus; Worthäufigkeit; Wortschatz |
| Page Number: | 16 |
| DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
| Open Access?: | ja |
| Leibniz-Classification: | Sprache, Linguistik |
| Linguistics-Classification: | Computerlinguistik |
| Linguistics-Classification: | Korpuslinguistik |
| Linguistics-Classification: | Lexikologie / Etymologie |
| Licence (German): | Urheberrechtlich geschützt |


