Approximating the disambiguation of some German nominalizations by use of weak structural, lexical and corpus information
Hacía la desambiguación de nominalizaciones en alemán a partir de información estructural, léxica y de corpus
- Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called lightweight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors).
- Entre el método clásico y simbólico de desambiguación de sentidos (WSD) que utiliza representaciones semánticas profundas de oraciones y textos, y el método estadístico que utiliza información relativa a la co-ocurrencia de palabras, existe una tendencia reciente a usar métodos híbridos. De manera similar a la llamada semántica light-weight (Marek, 2009), en este artículo se propone hacer uso de escasa información semántica. Describimos un modelo de aproximación sobre la base de Flat Underspecified Discourse Representation Structures (FUDRSs, cf. Eberle 2004) que valora conocimiento sobre estructura contextual, restricciones de semántica léxica e interpretaciones preferenciales. Presentamos una guía de anotación para la anotación por humanos de textos con los correspondientes indicadores. Mediante su uso, la fiabilidad de la herramienta que implementa el modelo puede ser testada con respecto a la precisión de anotación y a la predicción de desambiguación, y cómo ambas pueden ser mejoradas mediante el bootstrapping del conocimiento del sistema usando información de corpus. Para el corpus set de test considerado, la tasa de reconocimiento de la lectura preferida es del 80-90% (dependiendo de la compensación de errores de análisis sintáctico).
Author: | Kurt EberleGND, Ulrich HeidORCiDGND, Gertrud FaaßORCiD |
---|---|
URN: | urn:nbn:de:bsz:mh39-116200 |
URL: | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/845 |
ISSN: | 1989-7553 |
Parent Title (Spanish): | Procesamiento del Lenguaje Natural |
Publisher: | University of Jaén |
Place of publication: | Jaén |
Document Type: | Article |
Language: | English |
Year of first Publication: | 2011 |
Date of Publication (online): | 2023/04/20 |
Publishing Institution: | Leibniz-Institut für Deutsche Sprache (IDS) |
Publicationstate: | Veröffentlichungsversion |
Reviewstate: | Peer-Review |
Tag: | corpus annotation; corpus information; disambiguation; reliability; shallow semantic representation anotación de corpus; desambiguación; fiabilidad; información de corpus; representación semántica superficial |
GND Keyword: | Ambiguität; Annotation; Deutsch; Interpretative Semantik; Kontext; Nominalisierung |
Volume: | 46 |
First Page: | 67 |
Last Page: | 74 |
DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
Open Access?: | ja |
Linguistics-Classification: | Semantik |
Licence (German): | Urheberrechtlich geschützt |