Volltext-Downloads (blau) und Frontdoor-Views (grau)

Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. Herausforderungen und Entwicklungen

  • Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.

This document is embargoed until:

2025/07/01

Export metadata

Statistics

frontdoor_oas
Metadaten
Author:Sascha WolferORCiDGND, Jan Oliver RüdigerORCiDGND
URN:urn:nbn:de:bsz:mh39-119927
DOI:https://doi.org/10.1007/978-3-658-39625-1_1
ISBN:978-3-658-39625-1
Parent Title (German):Angewandte Data Science. Projekte | Methoden | Prozesse
Publisher:Springer Vieweg
Place of publication:Wiesbaden
Editor:Lothar B. Blum
Document Type:Part of a Book
Language:German
Year of first Publication:2023
Date of Publication (online):2023/06/30
Publishing Institution:Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]
Publicationstate:Zweitveröffentlichung
Publicationstate:Postprint
Reviewstate:(Verlags)-Lektorat
GND Keyword:Data Science; Datenanalyse; Datenaufbereitung; Deutsch; Korpus <Linguistik>; RSS <Informatik>; Skalierbarkeit; Sprachdaten
First Page:3
Last Page:27
Note:
Dies ist die akzeptierte Manuskriptversion des folgenden Beitrages: Sascha Wolfer & Jan Oliver Rüdiger, „Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. Herausforderungen und Entwicklungen“, veröffentlicht in „Angewandte Data Science. Projekte | Methoden | Prozesse“, herausgegeben von Lothar B. Blum, 2023, Springer Vieweg, vervielfältigt mit Genehmigung von Springer Fachmedien Wiesbaden. Die finale authentifizierte Version ist online verfügbar unter: https://doi.org/10.1007/978-3-658-39625-1_1.

Die NutzerInnen dürfen die Inhalte nur zum Zwecke der wissenschaftlichen Forschung ansehen, drucken, kopieren, herunterladen sowie für Text- und Datamining verwerten. Die Inhalte dürfen weder ganz noch teilweise wörtlich (wieder)veröffentlicht oder für kommerzielle Zwecke verwendet werden. Die NutzerInnen müssen sicherstellen, dass die Urheberpersönlichkeitsrechte des/der AutorIn sowie gegebenenfalls bestehende Rechte Dritter an den Inhalten oder Teilen der Inhalte nicht verletzt werden.
DDC classes:400 Sprache / 400 Sprache, Linguistik
Open Access?:ja
Leibniz-Classification:Sprache, Linguistik
Linguistics-Classification:Computerlinguistik
Linguistics-Classification:Korpuslinguistik
Program areas:L3: Lexik empirisch und digital
Licence (German):License LogoUrheberrechtlich geschützt