Refine
Document Type
- Conference Proceeding (2)
- Part of a Book (1)
- Working Paper (1)
Has Fulltext
- yes (4) (remove)
Keywords
- Nutzungsrecht (2)
- metadata (2)
- Computerlinguistik (1)
- Dateiformat (1)
- Datenmanagement (1)
- Digital Humanities (1)
- Korpus <Linguistik> (1)
- Langzeitarchivierung (1)
- Metadaten (1)
- Repository <Informatik> (1)
Publicationstate
Reviewstate
- Peer-Review (4) (remove)
XML has been designed for creating structured documents, but the information that is encoded in these structures are, by definition, out of scope for XML. Additional sources, normally not easily interpretable by computers, such as documentation are needed to determine the intention of specific tags in a tag-set. The Component Metadata Infrastructure (CMDI) takes a rather pragmatic approach to foster interoperability between XML instances in the domain of metadata descriptions for language resources. This paper gives an overview of this approach.
This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources, especially where objects can be part of multiple releases but also part of different collections, and (3) the conversion of data to new formats for digital preservation. It is motivated why language resources may have to be changed, and why formats may need to be converted. As a solution, the use of an intermediate proxy object called a signpost is suggested. The approach will be exemplified with respect to the corpora of the Leibniz Institute for the German Language in Mannheim, namely the German Reference Corpus (DeReKo) and the Archive for Spoken German (AGD).
In TextGrid gibt es verschiedene Content-Provider, deren Ressourcen nicht ohne weiteres in der TextGrid-Infrastruktur zur Verfügung gestellt werden können. Die Ursache hierfür ist, dass die erforderlichen Zugriffsbeschränkungen bislang nicht von der existierenden Autorisierungsinfrastruktur abgebildet werden können. Beispielsweise ist es für den Zugriff auf einige Ressourcen am Institut für Deutsche Sprache notwendig, dass Benutzer einen Lizenzvertrag akzeptieren. Um diesen Content-Providern die Bereitstellung ihrer Ressourcen in TextGrid zu ermöglichen, muss die bestehende Autorisierungsinfrastruktur erweitert werden, um feinere Zugriffsbeschränkungen zu ermöglichen.
Für die Lizenzierung der in TextGrid bereitgestellten Software und Daten wird künftig eine Lizenzierung benötigt, welche der offenen Struktur der angestrebten Forschungsplattform gerecht wird. Hierfür entwickelt AP 3.2 Musterlizenzvereinbarungen mit unterschiedlichen Content-Providern. Im Folgenden soll ein Überblick über unterschiedliche Möglichkeiten der Lizenzierung gegeben werden, um sowohl potenziell für TextGrid heranzuziehende Fremd-Software zu evaluieren als auch eine Orientierung für die Lizenzierung eigener Produkte und Daten zu geben. Letztendlich soll eine Empfehlung für ein möglicherweise in TextGrid angewandtes Modell gegeben werden.
Im zweiten Teil dieses Textes wird ein Konzept für die neue TextGrid-Middleware-Komponente TG-license vorgestellt, durch die auch lizensierter Content im Rahmen von TextGridRep zur Verfügung gestellt werden kann.
This article reports about the on-going work on a new version of the metadata framework Component Metadata Infrastructure (CMDI), central to the CLARIN infrastructure. Version 1.2 introduces a number of important changes based on the experience gathered in the last five years of intensive use of CMDI by the digital humanities community, addressing problems encountered, but also introducing new functionality. Next to the consolidation of the structure of the model and schema sanity, new means for lifecycle management have been introduced aimed at combatting the observed proliferation of components, new mechanism for use of external vocabularies will contribute to more consistent use of controlled values and cues for tools will allow improved presentation of the metadata records to the human users. The feature set has been frozen and approved, and the infrastructure is now entering a transition phase, in which all the tools and data need to be migrated to the new version.