Volltext-Downloads (blau) und Frontdoor-Views (grau)

Verwendung von Wissensgraphen zur inhaltlichen Ergänzung kleinerer Textkorpora

  • Die Korpuserstellung ist einer der essenziellsten Schritte um ein Forschungsvorhaben im Bereich der Digital Humanities durchzuführen. Vor allem für speziellere Domänen (etwa bei der Analyse von Subgenres oder Dialekten) ist allerdings häufig nicht genügend Material verfügbar, um Methoden aus dem NLP Bereich nachnutzen zu können, da diese Gigabytes an Text verlangen. Dieser Aufsatz zeigt wie Wissensgraphen, welche zum Beispiel aus Wörterbüchern erstellt werden können, helfen, kleinere Textkorpora aufzuwerten. In dem hier durchgeführten Experiment wird ein auf 20 Megabytes trainiertes FastText Modell mit den Informationen aus GermaNet angereichert. Das resultierende Modell weist die selbe Performanz auf wie ein einfaches FastText Modell, welches auf etwa dreimal soviel Daten trainiert wurde. Ein Beitrag zur 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2022 Kulturen des digitalen Gedächtnisses.

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Thora HagenORCiD
URN:urn:nbn:de:bsz:mh39-130816
DOI:https://doi.org/10.5281/zenodo.6328009
Parent Title (German):Konferenzabstracts. DHd2022 Potsdam. Kulturen des digitalen Gedächtnisses 07.-11.03.2022
Publisher:Zenodo
Place of publication:Genf
Editor:Michaela Geierhos
Document Type:Conference Proceeding
Language:German
Year of first Publication:2022
Date of Publication (online):2025/03/28
Publishing Institution:Leibniz-Institut für Deutsche Sprache (IDS)
Publicationstate:Veröffentlichungsversion
Reviewstate:Peer-Review
Tag:FastTextModell
GND Keyword:Digital Humanities; GermaNet; Korpus <Linguistik>; Neurolinguistisches Programmieren; Wissensgraph
First Page:1
Last Page:4
DDC classes:400 Sprache / 400 Sprache, Linguistik
Open Access?:ja
Linguistics-Classification:Korpuslinguistik
Licence (English):License LogoCreative Commons - Attribution 4.0 International