020 Bibliotheks- und Informationswissenschaften
Refine
Document Type
- Article (2)
- Conference Proceeding (2)
Has Fulltext
- yes (4)
Keywords
- Datensatz (2)
- Forschung (2)
- Metadaten (2)
- Algorithmus (1)
- Automatische Sprachanalyse (1)
- Autor (1)
- Bibliothek (1)
- Community-Hub (1)
- DKPro repository (1)
- Einwanderer (1)
Publicationstate
Reviewstate
- Peer-Review (3)
Publisher
- Klostermann (1)
- Springer Nature (1)
In dem auf die Forschungsdaten sprach- und textbasierter Disziplinen ausgerichteten NFDI-Konsortium Text+ spielen Normdaten eine zentrale Rolle für die interoperable Beschreibung und semantische Verknüpfung von verteilten Datenquellen. Insbesondere die Gemeinsame Normdatei (GND) ist ein bedeutender Hub im Zentrum eines im Entstehen begriffenen, domänenübergreifenden Wissensgraphen. Diese Funktion soll im Rahmen von Text+ durch den Aufbau einer GND-Agentur für sprach- und textbasierte Forschungsdaten weiterentwickelt und ausgebaut werden. Ziel ist es, niedrigschwellige, qualitätsgesicherte Beteiligungsmöglichkeiten für Forschende zu schaffen und zugleich den Vernetzungsgrad der GND auch durch Terminologie-Mappings zu erweitern. Spezifische Anforderungen und Nutzungspraktiken werden hierbei anhand der Datendomänen von Text+ exemplifziert.
In this paper, we present a suite of flexible UIMA-based components for information retrieval research which have been successfully used (and re-used) in several projects in different application domains. Implementing the whole system as UIMA components is beneficial for configuration management, component reuse, implementation costs, analysis and visualization.
Data sets of publication meta data with manually disambiguated author names play an important role in current author name disambiguation (AND) research. We review the most important data sets used so far, and compare their respective advantages and shortcomings. From the results of this review, we derive a set of general requirements to future AND data sets. These include both trivial requirements, like absence of errors and preservation of author order, and more substantial ones, like full disambiguation and adequate representation of publications with a small number of authors and highly variable author names. On the basis of these requirements, we create and make publicly available a new AND data set, SCAD-zbMATH. Both the quantitative analysis of this data set and the results of our initial AND experiments with a naive baseline algorithm show the SCAD-zbMATH data set to be considerably different from existing ones. We consider it a useful new resource that will challenge the state of the art in AND and benefit the AND research community.
Digitale Medien haben in einer rasenden Geschwindigkeit inzwischen alle Lebensbereiche verändert. Sie greifen immer weiter in gewachsene Strukturen ein und prägen immer mehr unsere Wirtschafts-, Arbeits- und Sozialwelt, aber auch unsere private Kommunikation und unser alltägliches Leben. Ständig neue Entwicklungen stellen dabei alle Beteiligten immer wieder vor neue Herausforderungen. Damit einher geht die Notwendigkeit, sich kontinuierlich neues Wissen anzueignen. Als Schlüsselqualifikation zur Beherrschung dieser neuen Anforderungen in unserer sich ständig ändernden Gesellschaft gilt Medienkompetenz. Neben Lesen, Schreiben und Rechnen ist sie zur vierten Kulturtechnik geworden, die alle Bürgerinnen und Bürger in unserer Gesellschaft unabhängig von Alter, Geschlecht und Herkunft beherrschen sollten. Um an den aktuellen gesellschaftlichen und politischen Entwicklungen überhaupt noch teilnehmen und erwerbsfähig bleiben zu können, muss diese Kompetenz sogar beherrscht werden können. Damit wird ihre Vermittlung zum staatlichen Bildungsauftrag.