Volltext-Downloads (blau) und Frontdoor-Views (grau)

Approximating the disambiguation of some German nominalizations by use of weak structural, lexical and corpus information

Hacía la desambiguación de nominalizaciones en alemán a partir de información estructural, léxica y de corpus

  • Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called lightweight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors).
  • Entre el método clásico y simbólico de desambiguación de sentidos (WSD) que utiliza representaciones semánticas profundas de oraciones y textos, y el método estadístico que utiliza información relativa a la co-ocurrencia de palabras, existe una tendencia reciente a usar métodos híbridos. De manera similar a la llamada semántica light-weight (Marek, 2009), en este artículo se propone hacer uso de escasa información semántica. Describimos un modelo de aproximación sobre la base de Flat Underspecified Discourse Representation Structures (FUDRSs, cf. Eberle 2004) que valora conocimiento sobre estructura contextual, restricciones de semántica léxica e interpretaciones preferenciales. Presentamos una guía de anotación para la anotación por humanos de textos con los correspondientes indicadores. Mediante su uso, la fiabilidad de la herramienta que implementa el modelo puede ser testada con respecto a la precisión de anotación y a la predicción de desambiguación, y cómo ambas pueden ser mejoradas mediante el bootstrapping del conocimiento del sistema usando información de corpus. Para el corpus set de test considerado, la tasa de reconocimiento de la lectura preferida es del 80-90% (dependiendo de la compensación de errores de análisis sintáctico).

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Kurt EberleGND, Ulrich HeidORCiDGND, Gertrud FaaßORCiD
URN:urn:nbn:de:bsz:mh39-116200
URL:http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/845
ISSN:1989-7553
Parent Title (Spanish):Procesamiento del Lenguaje Natural
Publisher:University of Jaén
Place of publication:Jaén
Document Type:Article
Language:English
Year of first Publication:2011
Date of Publication (online):2023/04/20
Publishing Institution:Leibniz-Institut für Deutsche Sprache (IDS)
Publicationstate:Veröffentlichungsversion
Reviewstate:Peer-Review
Tag:corpus annotation; corpus information; disambiguation; reliability; shallow semantic representation
anotación de corpus; desambiguación; fiabilidad; información de corpus; representación semántica superficial
GND Keyword:Ambiguität; Annotation; Deutsch; Interpretative Semantik; Kontext; Nominalisierung
Volume:46
First Page:67
Last Page:74
DDC classes:400 Sprache / 400 Sprache, Linguistik
Open Access?:ja
Linguistics-Classification:Semantik
Licence (German):License LogoUrheberrechtlich geschützt