Refine
Year of publication
- 2020 (2) (remove)
Document Type
- Article (1)
- Conference Proceeding (1)
Has Fulltext
- yes (2)
Keywords
- Annotation (1)
- Automatische Spracherkennung (1)
- Deutsch (1)
- German (1)
- Gesprochene Sprache (1)
- Italienisch (1)
- Kontrastive Morphologie (1)
- Kontrastive Textlinguistik (1)
- Korpus <Linguistik> (1)
- Name (1)
Publicationstate
Reviewstate
- Peer-Review (2)
Publisher
Dieser Beitrag analysiert auf der Grundlage der Wikipedia-Korpora des Leibniz-Instituts für Deutsche Spra-che morphosyntaktische Phänomene im deutsch-italienischen Vergleich. Konkret fokussiert die Fallstudie Konfixe, die ursprünglich lateinischen bzw. griechischen Ursprungs waren und zunächst überwiegend für den Bereich der Medizinfachsprache entlehnt wurden. Mittlerweile werden diese mit veränderter Semantik jedoch auch für gemeinsprachliche Wortbildungsprodukte eingesetzt: So finden sich -phob- (D) und -fob- (IT) sowie -man- (D) und -man- (IT) in gemeinsprachlichen Wortbildungsprodukten, die formale und funk-tionale Äquivalenzen im Deutschen und Italienischen aufweisen. Wikipedia-Autor/-innen nutzen die als Krankheitsmetaphern zu deutenden Termini wie Lösch(o)manie oder cancellomania auf den Diskussionsseiten der Online-Enzyklopädie dazu, das Verhalten anderer Autor/-innen in der kollaborativen Textproduktion der Wikipedia metadiskursiv zu normieren.
We present a fine-grained NER annotations scheme with 30 labels and apply it to German data. Building on the OntoNotes 5.0 NER inventory, our scheme is adapted for a corpus of transcripts of biographic interviews by adding categories for AGE and LAN(guage) and also adding label classes for various numeric and temporal expressions. Applying the scheme to the spoken data as well as a collection of teaser tweets from newspaper sites, we can confirm its generality for both domains, also achieving good inter-annotator agreement. We also show empirically how our inventory relates to the well-established 4-category NER inventory by re-annotating a subset of the GermEval 2014 NER coarse-grained dataset with our fine label inventory. Finally, we use a BERT-based system to establish some baselines for NER tagging on our two new datasets. Global results in in-domain testing are quite high on the two datasets, near what was achieved for the coarse inventory on the CoNLLL2003 data. Cross-domain testing produces much lower results due to the severe domain differences.