Refine
Year of publication
Document Type
- Part of a Book (11)
- Conference Proceeding (9)
- Article (1)
- Master's Thesis (1)
- Working Paper (1)
Has Fulltext
- yes (23)
Keywords
- Digital Humanities (8)
- Korpus <Linguistik> (8)
- Computerlinguistik (5)
- Forschungsdaten (5)
- Annotation (3)
- Datenschutz (3)
- Sprachdaten (3)
- Urheberrecht (3)
- CLARIN (2)
- DSSSL (2)
Publicationstate
- Zweitveröffentlichung (23) (remove)
Reviewstate
Publisher
Sprachverarbeitung mit getypten Attribut-Wert-Matrizen. Dependenzgrammatik und Konzeptuelle Semantik
(1996)
In dieser Arbeit wurden die Dependenzgrammatik und die Konzeptuelle Semantik formalisiert. Als Ausgangspunkt dafür diente eine detaillierte Darstellung der formalen Grundlage. Diese wurden im Kapitel 1 erarbeitet. Nicht alle in diesem Kapitel entwickelten Konzepte wurden in den späteren Kapiteln aufgegriffen. Ich halte es aber für sinnvoll die mathematischen Eigenschaften eines Formalismus ausführlich darzustellen, bevor dieser zur Anwendung gebracht wird. Die beschriebenen Eigenschaften sind dem Formalismus immanent. Auf die Einführung von Erweiterungen, z.B. die Definition von Mengen, wurde verzichtet, da sie im weiteren Verlauf keine Verwendung finden.
Im Kapitel 2 wird gezeigt, dass die Dependenzgrammatik mit dem dargestellten Formalismus beschrieben werden kann. Damit wurde eine Formalisierung erreicht, die zeigt, dass der seltene Einsatz dieser traditionsreichen Grammatiktheorie in der Computerlinguistik, zumindest aus formalen Gründen, nicht gerechtfertigt ist.
Das Kapitel 3 stellt die Konzeptuelle Semantik vor. Die ursprüngliche Formalisierung dieser Theorie wurde kritisiert. Es wurde gezeigt, dass die Beschreibung der Konzepte durch getypte Attribut-Wert-Matrizen eine bessere Alternative der formalen Darstellung ist. Desweiteren wurden einerseits Vereinfachungen (z.B. der Verzicht auf die Dekomposition der Konzepte) und andererseits Erweiterungen (d.h. insbesondere eine Erweiterung des Inventars der ontologischen Kategorien) vorgeschlagen.
Nachdem diese beiden linguistischen Theorien mit demselben formalen Apparat dargestellt wurden, wurde im Kapitel 4 dargestellt, dass sie sich ergänzen. In dem skizzierten Sprachverarbeitungssystem werden die syntaktische und die semantische Struktur parallel aufgebaut. Es ist erkennbar, dass sich beide Theorien ergänzen. Es wurde darüber hinaus gezeigt, dass ein solches System eine sehr gut geeignete Basis zur maschinellen Verarbeitung defizitärer sprachlicher Äußerungen bildet.
Das vom BMBF geförderte Verbundprojekt CLARIAH-DE, an dem über 25 Partnerinstitutionen mitwirken, unter ihnen auch das IDS, hat zum Ziel, mit der Entwicklung einer Forschungsinfrastruktur zahlreiche Angebote zur Verfügung zu stellen, die die Bedingungen der Forschungsarbeit mit digitalen Werkzeugen, Diensten sowie umfangreichen Datenbeständen im Bereich der geisteswissenschaftlichen Forschung und benachbarter Disziplinen verbessern. Die in CLARIAH-DE entwickelte Infrastruktur bietet den Forschenden Unterstützung bei der Analyse und Aufbereitung von Sprachdaten für linguistische Untersuchungen in unterschiedlichsten Anwendungskontexten und leistet somit einen Beitrag zur Entwicklung der NFDI.
The motivation for this article is to describe a methodology for interrelating and analyzing language and theory-specific corpus data from various languages. As an example phenomeon we use information structure (IS, see [3]) in treebanks from three languages: Spanish, Korean and Japanese. Korean and Japanese are typologically close, while both are typologically different from Spanish. Therefore, the problem of annotating IS is that there are diverging language-specific formal linguistic means for the realization of IS-functions (like “topicalization / contrast”) on various levels like prosody, morphology and word-order. Hence, it is necessary to describe the relations between language-specific formal means and functional views on IS, and how to operationalize these relations for corpus analysis.
Beyond Citations: Corpus-based Methods for Detecting the Impact of Research Outcomes on Society
(2020)
This paper proposes, implements and evaluates a novel, corpus-based approach for identifying categories indicative of the impact of research via a deductive (top-down, from theory to data) and an inductive (bottom-up, from data to theory) approach. The resulting categorization schemes differ in substance. Research outcomes are typically assessed by using bibliometric methods, such as citation counts and patterns, or alternative metrics, such as references to research in the media. Shortcomings with these methods are their inability to identify impact of research beyond academia (bibliometrics) and considering text-based impact indicators beyond those that capture attention (altmetrics). We address these limitations by leveraging a mixed-methods approach for eliciting impact categories from experts, project personnel (deductive) and texts (inductive). Using these categories, we label a corpus of project reports per category schema, and apply supervised machine learning to infer these categories from project reports. The classification results show that we can predict deductively and inductively derived impact categories with 76.39% and 78.81% accuracy (F1-score), respectively. Our approach can complement solutions from bibliometrics and scientometrics for assessing the impact of research and studying the scope and types of advancements transferred from academia to society.
Im Folgenden wird eine texttechnologische Komponente zur Expansion eines XML- annotierten Stammformenlexikons, das auf Einträgen eines Standardwörterbuchs basiert, vorgestellt. Diese Expansion wurde in der Document Style Semantics and Specification Language implementiert. Ihr Ergebnis ist ein Vollformenlexikon, das ebenfalls in XML repräsentiert ist.