Refine
Year of publication
Document Type
- Other (31) (remove)
Language
- German (26)
- English (3)
- Multiple languages (2)
Keywords
- Korpus <Linguistik> (31) (remove)
Publicationstate
- Veröffentlichungsversion (18)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (7)
- Peer-Review (1)
- Review-Status-unbekannt (1)
Lexical explorer
(2018)
Das Tool Lexical Explorer ermöglicht, die Korpus-Frequenzangaben vom FOLK (Forschung und Lehrkorpus Gesprochenes Deutsch; Schmidt 2014) und GeWiss (Gesprochene Wissenschaftssprache; Fandrych, Meißner & Wallner 2017) zu durchsuchen und abzufragen. Das Tool besteht aus Tabellen, die für die Zwecke des Projekts LeGeDe entwickelt wurden (Möhrs et al. 2017). Die Zahlen beruhen auf dem DGD-Release 2.10 (23.05.2018). Für den Vergleich zwischen Korpora der gesprochenen Sprache und DeReKo wird die DeReKo Version 2016-II (30.09.2016) ohne Subkorpora Wikipedia-Daten (Artikel, Diskussionen) und ohne Sprachliche Umbrüche (45/68) verwendet (vgl. Kupietz & Keibel 2009). Die Tabellen werden mit Hilfe von DataTables (plug-in for jQuery) präsentiert, wobei die Ajax Protokolle benutzt werden, um die Tabellen asynchron aus der Datenbank zu ziehen. Die Benutzung des Tools setzt die Vertrautheit mit der Annotation der Korpora in der DGD voraus.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Der Datensatz enthält 10.113 Korpusbelege für Konstruktionen, in denen ein Substantiv mit einem dass-Satz oder einem zu-Infinitiv auftritt (das Versprechen, dass man sich irgendwann wiedersieht vs. das Versprechen, sich irgendwann wiederzusehen).
Die Daten wurden erhoben aus:
1. dem Korpusgrammatik-Untersuchungskorpus (Bubenhofer et al. 2014), basierend auf dem Deutschen Referenzkorpus DeReKo (Kupietz et al. 2010, 2018), Release 2017-II.
2. dem Subkorpus “Forum” des DECOW16B-Webkorpus (Schäfer & Bildhauer 2012).
Aus Platzgründen musste in der Druckfassung des Artikels „Beobachtungen zu Frequenz und Funktionen von ja in deutscher Spontansprache“ (in: Deutsche Sprache 50, S. 336–363; https://doi.org/10.37307/j.1868-775X.2022.04.04) auf den Abdruck der illustrierenden Abbildungen 2–18 im Abschnitt 5.2 verzichtet werden. Das entsprechende Kapitel inklusive aller Abbildungen ist hier abrufbar.
The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represents an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses.