Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. Herausforderungen und Entwicklungen
- Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.
Author: | Sascha WolferORCiDGND, Jan Oliver RüdigerORCiDGND |
---|---|
URN: | urn:nbn:de:bsz:mh39-119927 |
DOI: | https://doi.org/10.1007/978-3-658-39625-1_1 |
ISBN: | 978-3-658-39625-1 |
Parent Title (German): | Angewandte Data Science. Projekte | Methoden | Prozesse |
Publisher: | Springer Vieweg |
Place of publication: | Wiesbaden |
Editor: | Lothar B. Blum |
Document Type: | Part of a Book |
Language: | German |
Year of first Publication: | 2023 |
Date of Publication (online): | 2023/06/30 |
Publishing Institution: | Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung] |
Publicationstate: | Zweitveröffentlichung |
Publicationstate: | Postprint |
Reviewstate: | (Verlags)-Lektorat |
GND Keyword: | Data Science; Datenanalyse; Datenaufbereitung; Deutsch; Korpus <Linguistik>; RSS <Informatik>; Skalierbarkeit; Sprachdaten |
First Page: | 3 |
Last Page: | 27 |
Note: | Dies ist die akzeptierte Manuskriptversion des folgenden Beitrages: Sascha Wolfer & Jan Oliver Rüdiger, „Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. Herausforderungen und Entwicklungen“, veröffentlicht in „Angewandte Data Science. Projekte | Methoden | Prozesse“, herausgegeben von Lothar B. Blum, 2023, Springer Vieweg, vervielfältigt mit Genehmigung von Springer Fachmedien Wiesbaden. Die finale authentifizierte Version ist online verfügbar unter: https://doi.org/10.1007/978-3-658-39625-1_1. Die NutzerInnen dürfen die Inhalte nur zum Zwecke der wissenschaftlichen Forschung ansehen, drucken, kopieren, herunterladen sowie für Text- und Datamining verwerten. Die Inhalte dürfen weder ganz noch teilweise wörtlich (wieder)veröffentlicht oder für kommerzielle Zwecke verwendet werden. Die NutzerInnen müssen sicherstellen, dass die Urheberpersönlichkeitsrechte des/der AutorIn sowie gegebenenfalls bestehende Rechte Dritter an den Inhalten oder Teilen der Inhalte nicht verletzt werden. |
DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
Open Access?: | ja |
Leibniz-Classification: | Sprache, Linguistik |
Linguistics-Classification: | Computerlinguistik |
Linguistics-Classification: | Korpuslinguistik |
Program areas: | L3: Lexik empirisch und digital |
Licence (German): | Urheberrechtlich geschützt |