Refine
Year of publication
Document Type
- Conference Proceeding (53)
- Part of a Book (26)
- Article (8)
- Working Paper (5)
- Doctoral Thesis (1)
- Master's Thesis (1)
Is part of the Bibliography
- no (94) (remove)
Keywords
- Korpus <Linguistik> (33)
- Annotation (22)
- Computerlinguistik (20)
- XML (15)
- Auszeichnungssprache (12)
- Langzeitarchivierung (9)
- Digital Humanities (8)
- Automatische Sprachanalyse (6)
- Institut für Deutsche Sprache <Mannheim> (6)
- Concurrent Markup/Overlap (5)
Publicationstate
- Veröffentlichungsversion (68)
- Postprint (8)
- Zweitveröffentlichung (6)
Reviewstate
Publisher
XML has been designed for creating structured documents, but the information that is encoded in these structures are, by definition, out of scope for XML. Additional sources, normally not easily interpretable by computers, such as documentation are needed to determine the intention of specific tags in a tag-set. The Component Metadata Infrastructure (CMDI) takes a rather pragmatic approach to foster interoperability between XML instances in the domain of metadata descriptions for language resources. This paper gives an overview of this approach.
Sprachverarbeitung mit getypten Attribut-Wert-Matrizen. Dependenzgrammatik und Konzeptuelle Semantik
(1996)
In dieser Arbeit wurden die Dependenzgrammatik und die Konzeptuelle Semantik formalisiert. Als Ausgangspunkt dafür diente eine detaillierte Darstellung der formalen Grundlage. Diese wurden im Kapitel 1 erarbeitet. Nicht alle in diesem Kapitel entwickelten Konzepte wurden in den späteren Kapiteln aufgegriffen. Ich halte es aber für sinnvoll die mathematischen Eigenschaften eines Formalismus ausführlich darzustellen, bevor dieser zur Anwendung gebracht wird. Die beschriebenen Eigenschaften sind dem Formalismus immanent. Auf die Einführung von Erweiterungen, z.B. die Definition von Mengen, wurde verzichtet, da sie im weiteren Verlauf keine Verwendung finden.
Im Kapitel 2 wird gezeigt, dass die Dependenzgrammatik mit dem dargestellten Formalismus beschrieben werden kann. Damit wurde eine Formalisierung erreicht, die zeigt, dass der seltene Einsatz dieser traditionsreichen Grammatiktheorie in der Computerlinguistik, zumindest aus formalen Gründen, nicht gerechtfertigt ist.
Das Kapitel 3 stellt die Konzeptuelle Semantik vor. Die ursprüngliche Formalisierung dieser Theorie wurde kritisiert. Es wurde gezeigt, dass die Beschreibung der Konzepte durch getypte Attribut-Wert-Matrizen eine bessere Alternative der formalen Darstellung ist. Desweiteren wurden einerseits Vereinfachungen (z.B. der Verzicht auf die Dekomposition der Konzepte) und andererseits Erweiterungen (d.h. insbesondere eine Erweiterung des Inventars der ontologischen Kategorien) vorgeschlagen.
Nachdem diese beiden linguistischen Theorien mit demselben formalen Apparat dargestellt wurden, wurde im Kapitel 4 dargestellt, dass sie sich ergänzen. In dem skizzierten Sprachverarbeitungssystem werden die syntaktische und die semantische Struktur parallel aufgebaut. Es ist erkennbar, dass sich beide Theorien ergänzen. Es wurde darüber hinaus gezeigt, dass ein solches System eine sehr gut geeignete Basis zur maschinellen Verarbeitung defizitärer sprachlicher Äußerungen bildet.
In this paper we present an approach to faceted search in large language resource repositories. This kind of search which enables users to browse through the repository by choosing their personal sequence of facets heavily relies on the availability of descriptive metadata for the objects in the repository. This approach therefore informs the collection of a minimal set of metatdata for language resources. The work described in this paper has been funded by the EC within the ESFRI infrastructure project CLARIN.
Formalisierung von Kontext und sprachlichem Wissen mit Prioritisierter Circumscription (VM-Memo 55)
(1994)
This paper presents the application of the <tiger2/> format to various linguistic scenarios with the aim of making it the standard serialisation for the ISO 24615 [1] (SynAF) standard. After outlining the main characteristics of both the SynAF metamodel and the <tiger2/> format, as extended from the initial Tiger XML format [2], we show through a range of different language families how <tiger2/> covers a variety of constituency and dependency based analyses.
Das vorliegende Papier fasst den bisherigen Diskussionsstand zur Konzeption eines Organisationsmodells für die institutionelle Verstetigung des Verbundforschungsprojektes TextGrid zusammen und bündelt die bisherigen Arbeitsergebnisse im Arbeitspaket 3 – Strukturelle und organisatorische Nachhaltigkeit. Das hier skizzierte Organisationsmodell basiert auf den in D-Grid und WissGrid erarbeiteten Nachhaltigkeitskonzepten und adaptiert das Konzept der Virtuellen Organisation (VO) für TextGrid. Insgesamt strebt TextGrid eine institutionelle Verstetigung seiner Aktivitäten nach Ende der Projektlaufzeit an und beabsichtigt gemeinsam mit Virtuellen Forschungsumgebungen aus anderen Wissenschaftsdisziplinen Wege und Prozesse etablieren zu können. Am 24./25. Februar 2011 hat TextGrid einen Strategie-Workshop in Berlin ausgerichtet, zu dem sich eine Expertenrunde zur „Nachhaltigkeit von Virtuellen Forschungsumgebungen“ eingefunden hat. Diskutiert werden wird, wie Virtuelle Forschungsumgebungen basierend auf heutigen finanziellen und organisatorischen Strukturen nachhaltig sein können und welche Empfehlungen sich daraus für TextGrid ableiten. Die Diskussionsergebnisse der Expertenrunde werden zusammen mit den Überlegungen in diesem Papier in die Konzeption eines umfassenderen Organisationsmodells einfließen, das die Grundlage für eine Verstetigung von TextGrid bilden wird.
In TextGrid gibt es verschiedene Content-Provider, deren Ressourcen nicht ohne weiteres in der TextGrid-Infrastruktur zur Verfügung gestellt werden können. Die Ursache hierfür ist, dass die erforderlichen Zugriffsbeschränkungen bislang nicht von der existierenden Autorisierungsinfrastruktur abgebildet werden können. Beispielsweise ist es für den Zugriff auf einige Ressourcen am Institut für Deutsche Sprache notwendig, dass Benutzer einen Lizenzvertrag akzeptieren. Um diesen Content-Providern die Bereitstellung ihrer Ressourcen in TextGrid zu ermöglichen, muss die bestehende Autorisierungsinfrastruktur erweitert werden, um feinere Zugriffsbeschränkungen zu ermöglichen.
Für die Lizenzierung der in TextGrid bereitgestellten Software und Daten wird künftig eine Lizenzierung benötigt, welche der offenen Struktur der angestrebten Forschungsplattform gerecht wird. Hierfür entwickelt AP 3.2 Musterlizenzvereinbarungen mit unterschiedlichen Content-Providern. Im Folgenden soll ein Überblick über unterschiedliche Möglichkeiten der Lizenzierung gegeben werden, um sowohl potenziell für TextGrid heranzuziehende Fremd-Software zu evaluieren als auch eine Orientierung für die Lizenzierung eigener Produkte und Daten zu geben. Letztendlich soll eine Empfehlung für ein möglicherweise in TextGrid angewandtes Modell gegeben werden.
Im zweiten Teil dieses Textes wird ein Konzept für die neue TextGrid-Middleware-Komponente TG-license vorgestellt, durch die auch lizensierter Content im Rahmen von TextGridRep zur Verfügung gestellt werden kann.
The goal of the present chapter is to explore the possibility of providing the research (but also the industrial) community that commonly uses spoken corpora with a stable portfolio of well-documented standardized formats that allow a high reuse rate of annotated spoken resources and, as a consequence, better interoperability across tools used to produce or exploit such resources.
Der grammatiktheoretische Anteil des Linguistikstudiums und die damit verbundenen Forschungsfelder in verschiedenen Anwendungsgebieten sind heute an vielen Universitäten "ökumenisch" ausgerichtet. Das soll heißen, dass man sich - als Studierender wie als Wissenschaftler - nicht auf eine theoretische Schule einschwören muss, sondern mit verschiedenen Ansätzen experimentieren kann.
The motivation for this article is to describe a methodology for interrelating and analyzing language and theory-specific corpus data from various languages. As an example phenomeon we use information structure (IS, see [3]) in treebanks from three languages: Spanish, Korean and Japanese. Korean and Japanese are typologically close, while both are typologically different from Spanish. Therefore, the problem of annotating IS is that there are diverging language-specific formal linguistic means for the realization of IS-functions (like “topicalization / contrast”) on various levels like prosody, morphology and word-order. Hence, it is necessary to describe the relations between language-specific formal means and functional views on IS, and how to operationalize these relations for corpus analysis.
Im Folgenden wird eine texttechnologische Komponente zur Expansion eines XML- annotierten Stammformenlexikons, das auf Einträgen eines Standardwörterbuchs basiert, vorgestellt. Diese Expansion wurde in der Document Style Semantics and Specification Language implementiert. Ihr Ergebnis ist ein Vollformenlexikon, das ebenfalls in XML repräsentiert ist.
Im Zentrum der Dissertation steht der Begriff Informationsmodellierung oder genauer der Begriff der "textuellen Informationsmodellierung", wobei auf einer bereits vorgeschlagenen Unterscheidung einer primären und einer sekundären Ebene der Informationsstrukturierung aufgebaut wird. Der Gegenstand der primären Ebene sind die textuellen Daten selbst sowie ihre Strukturierung, wohingegen die sekundäre Ebene beschreibt, wie die für die primären Ebenen verwendeten Regelwerke mit alternativen Regelwerken in Beziehung gesetzt werden können. Der Einteilung in eine primäre und eine sekundäre Informationsstrukturierung wird in der Dissertation das Konzept der multiplen Informationsstrukturierung nebengeordnet. Dieses Konzept ist so zu verstehen, dass die primäre Ebene bei Bedarf vervielfacht wird - jedoch bezieht sich jede dieser Ebenen auf dieselbe Datengrundlage. Hierbei ergeben sich auch Auswirkungen auf die sekundäre Informationsstrukturierung. Die Informationsmodellierung erfolgt mit Auszeichnungssprachen. Die Standard Generalized Markup Language (SGML) stellt hierfür einen Rahmen dar, jedoch wurde dieser Formalismus seit seiner 1986 erfolgten Standardisierung nicht nur weiterentwickelt, sondern es wurde mit der Extensible Markup Language (XML) im Jahr 1998 eine wesentlich einfachere Untermenge dieser Sprache definiert, die zudem das derzeitige Zentrum weiterer Entwicklungen auf dem Gebiet der Auszeichnungssprachen darstellt. Der entwickelte Ansatz zur Modellierung linguistischer Information basiert auf der Extensible Markup Language (XML), wobei die weitergehenden Möglichkeiten von SGML selbstverständlich ebenfalls dargestellt und diskutiert werden. Mittels XML können Informationen, die sich nicht in bestimmten Hierarchien (mittels mathematischer Bäume) strukturieren lassen, nicht in einer natürlichen Weise repräsentiert werden. Eine Lösung dieses Problems liegt in der Aufteilung der Strukturierung auf verschiedene Ebenen. Diese neue Lösung wird dargestellt, diskutiert und modelliert.
We present SPLICR, the Web-based Sustainability Platform for Linguistic Corpora and Resources. The system is aimed at people who work in Linguistics or Computational Linguistics: a comprehensive database of metadata records can be explored in order to find language resources that could be appropriate for one’s specific research needs. SPLICR also provides an interface that enables users to query and to visualise corpora. The project in which the system is being developed aims at sustainably archiving the ca. 60 language resources that have been constructed in three collaborative research centres. Our project has two primary goals: (a) To process and to archive sustainably the resources so that they are still available to the research community in five, ten, or even 20 years time. (b) To enable researchers to query the resources both on the level of their metadata as well as on the level of linguistic annota-tions. In more general terms, our goal is to enable solutions that leverage the interoperability, reusability, and sustainability of heterogeneous collections of language resources.