400 Sprache, Linguistik
Refine
Document Type
- Conference Proceeding (3)
- Part of a Book (2)
- Article (1)
Has Fulltext
- yes (6)
Keywords
- Parser (6) (remove)
Publicationstate
Reviewstate
- Peer-Review (5)
- (Verlags)-Lektorat (1)
We evaluate a graph-based dependency parser on DeReKo, a large corpus of contemporary German. The dependency parser is trained on the German dataset from the SPMRL 2014 Shared Task which contains text from the news domain, whereas DeReKo also covers other domains including fiction, science, and technology. To avoid the need for costly manual annotation of the corpus, we use the parser’s probability estimates for unlabeled and labeled attachment as main evaluation criterion. We show that these probability estimates are highly correlated with the actual attachment scores on a manually annotated test set. On this basis, we compare estimated parsing scores for the individual domains in DeReKo, and show that the scores decrease with increasing distance of a domain to the training corpus.
Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a parser on UD-style annotations and whether the effect is similarly strong for all languages. We conduct a series of experiments where we systematically modify individual annotation decisions taken in the UD scheme and show that this results in an increased accuracy for most, but not for all languages. We show that the encoding in the UD scheme, in particular the decision to encode content words as heads, causes an increase in dependency length for nearly all treebanks and an increase in arc direction entropy for many languages, and evaluate the effect this has on parsing accuracy.
To improve grammatical function labelling for German, we augment the labelling component of a neural dependency parser with a decision history. We present different ways to encode the history, using different LSTM architectures, and show that our models yield significant improvements, resulting in a LAS for German that is close to the best result from the SPMRL 2014 shared task (without the reranker).
We present a method for detecting annotation errors in manually and automatically annotated dependency parse trees, based on ensemble parsing in combination with Bayesian inference, guided by active learning. We evaluate our method in different scenarios: (i) for error detection in dependency treebanks and (ii) for improving parsing accuracy on in- and out-of-domain data.
Bislang hat die mit dem Aufbau von Lexika für Sprachverarbeitungssysteme befaßte Computerlexikographie metalexikographische Forschungsergebnisse nur wenig zur Kenntnis genommen. Die theoriegeleitete Erforschung der Bauteile und Strukturen von Wörterbuchtexten ist jedoch eine wichtige Voraussetzung dafür, daß Wörterbücher in Wörterbuchdatenbanken überführt werden können, die als Datengrundlage sowohl beim Aufbau von Lexika für die maschinelle Sprachverarbeitung als auch beim Aufbau von Hypertext-Wörterbüchem für menschliche Benutzer herangezogen werden. Der vorliegende Artikel versteht sich als Plädoyer für die Relevanz metalexikographischer Forschungsergebnisse für die computerlexikographische Praxis. Zunächst werden die Forschungsbereiche Computerlexikographie und computerunterstützte Lexikographie gegeneinander abgegrenzt; dann wird deren Verhältnis zur lexikographischen Praxis einerseits und zur Metalexikographie andererseits skizziert. Der Hauptteil der Arbeit zeigt am Beispiel des sog. Wörterbuchparsings, wie metalexikographische Methoden und Forschungsergebnisse in der computerlinguistischen Praxis umgesetzt werden können.