Refine
Year of publication
Document Type
- Part of a Book (363)
- Conference Proceeding (237)
- Article (189)
- Book (63)
- Other (31)
- Working Paper (22)
- Contribution to a Periodical (7)
- Review (7)
- Doctoral Thesis (6)
- Preprint (5)
Language
- German (516)
- English (416)
- French (5)
- Multiple languages (3)
Keywords
- Korpus <Linguistik> (940) (remove)
Publicationstate
- Veröffentlichungsversion (544)
- Zweitveröffentlichung (203)
- Postprint (51)
- Erstveröffentlichung (2)
- Ahead of Print (1)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (404)
- Peer-Review (304)
- Peer-review (12)
- Verlags-Lektorat (11)
- Qualifikationsarbeit (Dissertation, Habilitationsschrift) (8)
- Review-Status-unbekannt (5)
- Peer-Revied (4)
- Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.) (3)
- Zweitveröffentlichung (2)
- (Verlags-)Lektorat (1)
Publisher
- de Gruyter (138)
- Institut für Deutsche Sprache (57)
- Narr (47)
- European Language Resources Association (ELRA) (29)
- Leibniz-Institut für Deutsche Sprache (IDS) (29)
- IDS-Verlag (25)
- European Language Resources Association (23)
- Narr Francke Attempto (23)
- Association for Computational Linguistics (18)
- Leibniz-Institut für Deutsche Sprache (17)
This paper presents Release 2.0 of the SALSA corpus, a German resource for lexical semantics. The new corpus release provides new annotations for German nouns, complementing the existing annotations of German verbs in Release 1.0. The corpus now includes around 24,000 sentences with more than 36,000 annotated instances. It was designed with an eye towards NLP applications such as semantic role labeling but will also be a useful resource for linguistic studies in lexical semantics.
Arbeitet man als muttersprachlicher Sprecher des Deutschen mit Corpora gesprochener oder geschriebener deutscher Sprache, dann reflektiert man in aller Regel nur selten über die Vielzahl von kulturspezifischen Informationen, die in solchen Texten kodifiziert sind - vor allem, wenn es sich bei diesen Daten um Texte aus der Gegenwart handelt. In den meisten Fällen hat man nämlich keinerlei Probleme mit dem in den Daten präsupponierten und als allgemein bekannt erachteten Hintergrundswissen. Betrachtet man dagegen Daten in Corpora, die andere - vor allem nicht-indoeuropäische - Sprachen dokumentieren, dann wird einem schnell bewusst, wieviel an kulturspezifischem Wissen nötig ist, um diese Daten adäquat zu verstehen. In meinem Beitrag illustriere ich diese Beobachtung an einem Beispiel aus meinem Corpus des Kilivila, der austronesischen Sprache der Trobriand-Insulaner von Papua-Neuguinea. Anhand eines kurzen Ausschnitts einer insgesamt etwa 26 Minuten dauernden Dokumentation, worüber und wie sechs Trobriander miteinander tratschen und klatschen, zeige ich, was ein Hörer oder Leser eines solchen kurzen Daten-Ausschnitts wissen muss, um nicht nur dem Gespräch überhaupt folgen zu können, sondern auch um zu verstehen, was dabei abläuft und wieso ein auf den ersten Blick absolut alltägliches Gespräch plötzlich für einen Trobriander ungeheuer an Brisanz und Bedeutung gewinnt. Vor dem Hintergrund dieses Beispiels weise ich dann zum Schluss meines Beitrags darauf hin, wie unbedingt nötig und erforderlich es ist, in allen Corpora bei der Erschließung und Kommentierung von Datenmaterialien durch sogenannte Metadaten solche kulturspezifischen Informationen explizit zu machen.
We present a testsuite for POS tagging German web data. Our testsuite provides the original raw text as well as the gold tokenisations and is annotated for parts-of-speech. The testsuite includes a new dataset for German tweets, with a current size of 3,940 tokens. To increase the size of the data, we harmonised the annotations in already existing web corpora, based on the Stuttgart-Tübingen Tag Set. The current version of the corpus has an overall size of 48,344 tokens of web data, around half of it from Twitter. We also present experiments, showing how different experimental setups (training set size, additional out-of-domain training data, self-training) influence the accuracy of the taggers. All resources and models will be made publicly available to the research community.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
Der Korpuslinguistik begegneten überwiegend introspektiv arbeitende Grammatiktheoretiker lange mit Misstrauen. Dabei kann sie, auch wenn sie selbst kein bestimmtes theoretisches Paradigma vorgibt, in sehr vielfältiger Weise zur Theoriebildung beitragen. Zum einen können mithilfe von Korpora theoretische Aussagen exemplifiziert und validiert werden. Zum anderen liefert die Korpuslinguistik große Mengen differenzierter Sprachdaten sowie Methoden, mit denen sie überschaut und analysiert werden können. Neue Daten müssen theoretisch in neuen Generalisierungen aufgearbeitet werden und auch die Datenvielfalt selbst rückt in den theoretischen Fokus. Die Grammatikforschung erfährt so eine empirische Wende, in der die Variation grammatischer Strukturen zu einem der zentralen Themen wird. Die theoretische Erfassung dieser Variation geht dabei weit über die Grenzen einer klassischen Theorie der Sprachkompetenz hinaus. Immer dringlicher wird damit eine neue wissenschaftliche Grammatik des Deutschen, die diese Entwicklung aufnimmt, sich den neuen Forschungsfragen stellt, sie mit modernen korpuslinguistischen Methoden untersucht und damit die Grundlagen für eine umfassende Theorie schafft, in der Kompetenz und Performanz (wie auch Synchronie und Diachronie) näher aneinanderrücken.
This paper studies the morphological productivity of German N+N compounding patterns from a diachronic perspective. It argues that the productivity of compounds increases due to syntactic influence from genitive constructions (“improper compounds”) in Early New High German. Both quantitative and qualitative productivity measures are adapted from derivational morphology and tested on compound data from the Mainz Corpus of (Early) New High German (1500–1710).