Verwendung von Wissensgraphen zur inhaltlichen Ergänzung kleinerer Textkorpora
- Die Korpuserstellung ist einer der essenziellsten Schritte um ein Forschungsvorhaben im Bereich der Digital Humanities durchzuführen. Vor allem für speziellere Domänen (etwa bei der Analyse von Subgenres oder Dialekten) ist allerdings häufig nicht genügend Material verfügbar, um Methoden aus dem NLP Bereich nachnutzen zu können, da diese Gigabytes an Text verlangen. Dieser Aufsatz zeigt wie Wissensgraphen, welche zum Beispiel aus Wörterbüchern erstellt werden können, helfen, kleinere Textkorpora aufzuwerten. In dem hier durchgeführten Experiment wird ein auf 20 Megabytes trainiertes FastText Modell mit den Informationen aus GermaNet angereichert. Das resultierende Modell weist die selbe Performanz auf wie ein einfaches FastText Modell, welches auf etwa dreimal soviel Daten trainiert wurde. Ein Beitrag zur 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2022 Kulturen des digitalen Gedächtnisses.
Author: | Thora HagenORCiD |
---|---|
URN: | urn:nbn:de:bsz:mh39-130816 |
DOI: | https://doi.org/10.5281/zenodo.6328009 |
Parent Title (German): | Konferenzabstracts. DHd2022 Potsdam. Kulturen des digitalen Gedächtnisses 07.-11.03.2022 |
Publisher: | Zenodo |
Place of publication: | Genf |
Editor: | Michaela Geierhos |
Document Type: | Conference Proceeding |
Language: | German |
Year of first Publication: | 2022 |
Date of Publication (online): | 2025/03/28 |
Publishing Institution: | Leibniz-Institut für Deutsche Sprache (IDS) |
Publicationstate: | Veröffentlichungsversion |
Reviewstate: | Peer-Review |
Tag: | FastTextModell |
GND Keyword: | Digital Humanities; GermaNet; Korpus <Linguistik>; Neurolinguistisches Programmieren; Wissensgraph |
First Page: | 1 |
Last Page: | 4 |
DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
Open Access?: | ja |
Linguistics-Classification: | Korpuslinguistik |
Licence (English): | ![]() |