Refine
Document Type
- Working Paper (34) (remove)
Is part of the Bibliography
- yes (34) (remove)
Keywords
- Gesprochene Sprache (11)
- Korpus <Linguistik> (11)
- Forschungsdaten (7)
- Deutsch (6)
- Infrastruktur (6)
- Transkription (5)
- CLARIN (4)
- Annotation (3)
- Interaktionsanalyse (3)
- Sprache (3)
Publicationstate
- Veröffentlichungsversion (23)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (13)
- Peer-Review (1)
Publisher
- Institut für Deutsche Sprache (10)
- Zenodo (5)
- Leibniz-Institut für Deutsche Sprache (3)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- CLARIN Legal and Ethical Issues Committee (CLIC) (2)
- GOEDOC, Dokumenten- und Publikationsserver der Georg-August-Universität (1)
- IDS-Verlag (1)
- UFSP Sprache und Raum (SpuR), Universität Zürich (1)
- Universität (1)
- Universität Zürich (1)
In this paper, a method for measuring synchronic corpus (dis-)similarity put forward by Kilgarriff (2001) is adapted and extended to identify trends and correlated changes in diachronic text data, using the Corpus of Historical American English (Davies 2010a) and the Google Ngram Corpora (Michel et al. 2010a). This paper shows that this fully data-driven method, which extracts word types that have undergone the most pronounced change in frequency in a given period of time, is computationally very cheap and that it allows interpretations of diachronic trends that are both intuitively plausible and motivated from the perspective of information theory. Furthermore, it demonstrates that the method is able to identify correlated linguistic changes and diachronic shifts that can be linked to historical events. Finally, it can help to improve diachronic POS tagging and complement existing NLP approaches. This indicates that the approach can facilitate an improved understanding of diachronic processes in language change.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
CLARIAH-DE cross-service search - prospects and benefits of merging subject-specific services
(2021)
CLARIAH-DE combines services and offerings of CLARIN-D and DARIAH-DE. This includes various search applications which are made directly available to researchers. These search applications are presented in this working paper based on their main characteristics and compared with a focus on possible harmonizations. Opportunities and risks of different forms of technical integration are highlighted. Identified challenges can be explained in particular considering the background of different organizational and technical frameworks as well as highly specific and discipline-dependent requirements. The integration work that has already been carried out and the experiences gained with regard to future work and possible integration of further applications are also discussed. The experiences made in CLARIAH-DE can especially be of interest for other projects in the field of digital research infrastructures.
Collaborative work in NFDI
(2023)
The non-profit association National Research Data Infrastructure (NFDI) promotes science and research through a National Research Data Infrastructure. Its aim is to develop and establish an overarching research data management (RDM) for Germany and to increase the efficiency of the entire German science system. After a two-and-a-half year build up phase, the process of adding new consortia, each representing a different data domain, has ended in March 2023. NFDI now has 26 disciplinary consortia (and one additional basic service collaboration). Now the full extent of cross-consortial interaction is beginning to show.
2017 gibt es im deutschen Mikrozensus zum ersten Mal seit etwa achtzig Jahren eine Frage zur Sprache der Bevölkerung in Deutschland. Diese Frage wird dann offenbar im entsprechenden Rhythmus des Mikrozensus jährlich wiederholt werden. Der Mikrozensus ist eine seit 1957 durchgeführte, repräsentative Befragung, bei der ungefähr 830.000 Menschen (das sind ca. 1 % der Bevölkerung) in rund 370.000 Haushalten befragt werden.1 Darin werden etwa Angaben zu den soziodemographischen Daten erfragt, zur familiären Situation, zur Wohnsituation, zur Aus- und Fortbildung und zur Arbeitssituation. Für die befragten Personen besteht Auskunftspflicht. Das Stellen einer Sprachfrage sieht, aus sprachwissenschaftlicher Sicht, zunächst nach einem sinnvollen und wünschenswerten Schritt aus. Nach näherer Betrachtung der gestellten Frage zeigen sich jedoch viele Unzulänglichkeiten und das, obwohl die Antworten und statistischen Auswertungen zu dieser Frage überhaupt noch ausstehen. Die Ergebnisse werden üblicherweise in der zweiten Hälfte des Folgejahres durch das statistische Bundesamt veröffentlicht.
Im Beitrag werden die Ergebnisse einer im Jahr 2015 durchgeführten Online-Umfrage vorgestellt, in der die Angemessenheit von Aussprachevarianten des Deutschen in formellen Sprechsituationen bewertet werden sollte. Zu diesem Zweck wurden den 1.964 Teilnehmer/-innen Aussprachevarianten von insgesamt 207 Lexemen vorgelegt, vor allem aus den Bereichen Wortakzent, Vokalquantität und Fremdwortrealisierung. Die Umfrageergebnisse werden tabellarisch aufgeführt und damit weiterer Forschung zur Verfügung gestellt.
The landscape of digital lexical resources is often characterized by dedicated local portals and proprietary interfaces as primary access points for scholars and the interested public. In addition, legal and technical restrictions are potential issues that can make it difficult to efficiently query and use these valuable resources. As part of the research data consortium Text+, solutions for the storage and provision of digital language resources are being developed and provided in the context of the unified cross-domain German research data infrastructure NFDI. The specific topic of accessing lexical resources in a diverse and heterogenous landscape with a variety of participating institutions and established technical solutions is met with the development of the federated search and query framework LexFCS. The LexFCS extends the established CLARIN Federated Content Search that already allows accessing spatially distributed text corpora using a common specification of technical interfaces, data formats, and query languages. This paper describes the current state of development of the LexFCS, gives an insight into its technical details, and provides an outlook on its future development.