Refine
Year of publication
Document Type
- Working Paper (83) (remove)
Keywords
- Korpus <Linguistik> (22)
- Deutsch (20)
- Gesprochene Sprache (17)
- Konversationsanalyse (10)
- Transkription (8)
- Forschungsdaten (7)
- Infrastruktur (6)
- Interaktionsanalyse (6)
- Interaktion (5)
- Sprachgebrauch (5)
Publicationstate
- Veröffentlichungsversion (48)
- Zweitveröffentlichung (2)
- Erstveröffentlichung (1)
- Preprint (1)
Reviewstate
- (Verlags)-Lektorat (24)
- Peer-Review (5)
- Review-Status-unbekannt (3)
- Preprint (1)
- Review-Status unbekannt (1)
- Verlagslektorat (1)
Publisher
- Institut für Deutsche Sprache (16)
- Zenodo (5)
- Leibniz-Institut für Deutsche Sprache (IDS) (4)
- Leibniz-Institut für Deutsche Sprache (3)
- Universität Bielefeld (3)
- Universität Zürich (3)
- CLARIN Legal and Ethical Issues Committee (CLIC) (2)
- DYLAN Project (2)
- Institut für Kommunikationsforschung und Phonetik (2)
- Institut für Phonetik und Sprachliche Kommunikation, Ludwig Maximilians Universität München (2)
This introductory tutorial describes a strictly corpus-driven approach for uncovering indications for aspects of use of lexical items. These aspects include ‘(lexical) meaning’ in a very broad sense and involve different dimensions, they are established in and emerge from respective discourses. Using data-driven mathematical-statistical methods with minimal (linguistic) premises, a word’s usage spectrum is summarized as a collocation profile. Self-organizing methods are applied to visualize the complex similarity structure spanned by these profiles. These visualizations point to the typical aspects of a word’s use, and to the common and distinctive aspects of any two words.
In this paper, a method for measuring synchronic corpus (dis-)similarity put forward by Kilgarriff (2001) is adapted and extended to identify trends and correlated changes in diachronic text data, using the Corpus of Historical American English (Davies 2010a) and the Google Ngram Corpora (Michel et al. 2010a). This paper shows that this fully data-driven method, which extracts word types that have undergone the most pronounced change in frequency in a given period of time, is computationally very cheap and that it allows interpretations of diachronic trends that are both intuitively plausible and motivated from the perspective of information theory. Furthermore, it demonstrates that the method is able to identify correlated linguistic changes and diachronic shifts that can be linked to historical events. Finally, it can help to improve diachronic POS tagging and complement existing NLP approaches. This indicates that the approach can facilitate an improved understanding of diachronic processes in language change.
Dieser Beitrag versucht, statistische Regelmäßigkeiten in der Abfolge von Sprecheinheiten Innerhalb von Gesprächen zu ermitteln. Das Augenmerk richtet sich auf die Unterscheidung und Erfassung von argumentativen Kategorien in Konfliktgesprächen zwischen Müttern und ihren jugendlichen Töchtern. Als konfliktäres Argument wird die Begründung einer Person in einer Konfliktsituation bezeichnet, mit der ein Ziel oder ein anderes Argument gestützt oder geschwächt werden soll. Wir betrachten Fakten, Bewertungen, Konnexe, Normen und Präferenzen als Elemente einer Kognition "konfliktäres Argument". Ein Argument kann bezogen auf ein Ziel oder ein anderes Argument stärkenden (stützenden, zusätzlich stützenden), modifizierenden (relativierenden) oder schwächenden (einwendenden, gegenbehauptenden) Charakter tragen. Neben argumentativen Elementen im engeren Sinne werden auch gesprächssteuernde Kategorien betrachtet: Initiativen (Aufforderungen, Fragen) sowie Reaktiven (positive, negative Reaktionen auf Argumente oder Initiativen). Die Art und Qualität der aktivierten und vorgebrachten Argumente wird als abhängig betrachtet von den Motiven der beteiligten Partner. Bei Müttern werden Kontrollmotive, bei Töchtern vor allem Individuierungsmotive an-genommen. Es wird erwartet, daß sich diese Tendenzen in den Mikrosequenzen niederschlagen. Datenbasis sind 60 Gespräche zwischen 30 Müttern und Töchtern im Alter von 12 bis 24 Jahren. Jede Dyade diskutierte zwei aktuelle Konflikte nach freier Wahl. Die transkribierten Gespräche wurden nach dem Mannheimer Argumentations-Kategorien-System, das sich an den o.a. theoretischen Konstrukten orientiert, in Einheiten zerlegt und klassifiziert. Die Kategorien erwiesen sich als ausreichend objektiv und rellabel. Die Auswertungen erfolgten über log-lineare und lag-sequentielle Analysen. Bei den Ergebnissen konnten wir die Phänomene der Zustimmungs-Relativierungs-Sequenz und der Argument-Reihung als In-turn-Sequenzen Identifizieren. Als turn- übergreifende Muster fielen besonders deutlich auf der negative Reaktionszyklus: eine über drei bis vier lags andauernde Folge von negativen Reaktionen auf Argumente. Weiter bezeichneten wir mit Argumentkonfrontation die Tendenz, daß Gegenargumente überzufällig häufig mit Gegenargumenten gekontert wurden. Besonders bei Müttern waren weiter repetitive Phänomene erkennbar. Sie bestanden darin, daß Initiativen, Insbesondere Aufforderungen und Klärungsfragen nach einer Reaktion wiederholt wurden. Wir nennen das "Insistieren" bzw. "Nachhaken". Mit Bezug auf die Dimension der Argumentelemente konnten deutliche Sequenzen von Abfolgen nicht ermittelt werden. Die Partnerinnen neigten dazu, ihre Argumente jeweils auf der gleichen Ebene (Fakten, Bewertungen, Konnexen und Präferenzen) anzusiedeln, was als Hinweis auf kohärent elementbezogenes Argumentieren aufzufassen Ist. Die Ergebnisse bestätigen in großen Teilen die Erwartungen. Die verschiedenen Mikro-Gesetzmäßigkeiten werden unter Bezug auf die von Jones und Gérard (1967) nach der Kontingenz unterschiedenen Typen von Interaktionen interpretiert.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.
CLARIAH-DE cross-service search - prospects and benefits of merging subject-specific services
(2021)
CLARIAH-DE combines services and offerings of CLARIN-D and DARIAH-DE. This includes various search applications which are made directly available to researchers. These search applications are presented in this working paper based on their main characteristics and compared with a focus on possible harmonizations. Opportunities and risks of different forms of technical integration are highlighted. Identified challenges can be explained in particular considering the background of different organizational and technical frameworks as well as highly specific and discipline-dependent requirements. The integration work that has already been carried out and the experiences gained with regard to future work and possible integration of further applications are also discussed. The experiences made in CLARIAH-DE can especially be of interest for other projects in the field of digital research infrastructures.
Collaborative work in NFDI
(2023)
The non-profit association National Research Data Infrastructure (NFDI) promotes science and research through a National Research Data Infrastructure. Its aim is to develop and establish an overarching research data management (RDM) for Germany and to increase the efficiency of the entire German science system. After a two-and-a-half year build up phase, the process of adding new consortia, each representing a different data domain, has ended in March 2023. NFDI now has 26 disciplinary consortia (and one additional basic service collaboration). Now the full extent of cross-consortial interaction is beginning to show.
The paper deals with the process of computer-aided transcription regarding Arabic-German data material for interaction-based studies. First of all, it sheds light upon some major methodological challenges posed by the conversation-analytic approaches: due to current corpus technology, the reciprocity, linearity, and simultaneity of linguistic activities cannot be reconstructed in an analytically proper way when using the Arabic characters in multilingual and bidirectional transcripts. The difficulty of transcribing Arabic encounters is also compounded by the fact that Spoken Arabic as well as its varieties and phenomena have not been standardised enough (for conversation-analytic purposes). Therefore, the second part of this paper is dedicated to preliminary, self-developed solutions, namely a systematic method for transcribing Spoken Arabic.