Refine
Year of publication
- 2016 (47) (remove)
Document Type
- Conference Proceeding (21)
- Part of a Book (10)
- Article (8)
- Book (3)
- Working Paper (3)
- Doctoral Thesis (1)
- Part of Periodical (1)
Keywords
- Korpus <Linguistik> (47) (remove)
Publicationstate
- Veröffentlichungsversion (31)
- Zweitveröffentlichung (5)
- Postprint (2)
Reviewstate
Publisher
- European Language Resources Association (ELRA) (5)
- Nisaba (4)
- Winter (4)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (3)
- Institut für Deutsche Sprache (3)
- European Language Resources Association (2)
- de Gruyter (2)
- Academic Publishing Division of the Faculty of Arts of the University of Ljubljana (1)
- Amsterdam [u.a.] (1)
- Association for Computational Linguistics (1)
Dieses Buch schließt eine Lücke in der Konnektorenforschung, indem es den Gebrauch von Konnektoren im gesprochenen Deutsch untersucht. Die Fragestellung bringt Elemente aus dem traditionellen grammatischen Ansatz und aus der pragmatisch basierten Forschung zur gesprochenen Sprache zusammen. In Anlehnung an die Methode der Interaktionalen Linguistik analysiert der Autor den Gebrauch der Konjunktoren «und», «aber» und der Adverbkonnektoren «also», «dann» in zwei Korpora von autobiographischen Interviews. Die Untersuchung zeigt, wie Konnektoren zur Bewältigung von verschiedenartigen kommunikativen Aufgaben zur Stiftung von Intersubjektivität und zur Gesprächsorganisation eingesetzt werden können.
Die Rolle der antizipatorischen Verstehensdokumentation erweist sich in den Interviews aus dem Israelkorpus m. E. als besonders wichtig. Es wird von der Tatsache ausgegangen, dass es sich bei den Informanten um Personen mit besonders delikaten biographischen Hintergründen handele. Die Interviewerinnen müssen demzufolge mit der starken emotionalen Belastung rechnen, der die Interviewten während der Rekonstruktion ihrer Lebensgeschichte ausgesetzt sind. Ein sehr direkter Frage-Antwort-Stil könnte wegen dieser emotionalen Belastung als unangenehm empfunden werden. Der Einsatz von Verfahren antizipatorischer Verstehensdokumentation weist stattdessen m. E. eindeutig darauf hin, wie sich die Interviewerinnen offensichtlich um Empathie bemühen und im Sinne einer intersubjektiven Inreraktionskonstitution mit den Interviewten kooperieren. Ziel dieses Beitrages ist es zu zeigen, wie solche Verfahren der antizipatorischen Verstehensdokumentation durch den systematischen Einsatz der Konnektoren und, also, dann realisiert werden können.
Dieses Kapitel befasst sich mit dem Zusammenspiel von Raum und Interaktion und konzentriert sich auf die dynamischen Organisationsformen sozialer Handlungen unter Berücksichtigung verbaler und sichtbarer Ressourcen. Durch die Untersuchung eines spezifischen Settings – professionelle Interaktionen in einem Radiostudio – werden wir empirisch beschreiben und konzeptualisieren, wie ein gebauter bzw. stark architekturierter Raum im Rahmen institutioneller Praktiken genutzt und relevant gesetzt wird. So soll zu aktuellen Überlegungen zu Interaktionsraum und -architektur, zu Raum als Ressource sowie als materiellem Umfeld beigetragen werden. Unsere ethnomethodologische und konversationsanalytische Perspektive wird von aktuellen Debatten über den sogenannten spatial turn in der interaktionalen Forschung beeinflusst (Kap. 1.1). Auf Grundlage eines in einem Radiostudio erstellten Videokorpus (Kap. 1.2) wird zunächst die Verbindung zwischen einem architektonisch und technologisch komplexen Umfeld und dem interaktionalen Handeln der Teilnehmer skizziert (Kap. 2.1, Kap. 2.2). Es folgt die detaillierte Analyse eines Einzelfalls (Kap. 3), in dem die Radiomoderatoren einen Text für den nächsten Sendeabschnitt vorbereiten. Hier werden die räumlichen Charakteristika sichtbar, die bei der Arbeit nach und nach relevant gesetzt werden (Kap. 4).
Der Beitrag diskutiert das Konzept sprachlicher Praktiken am Beispiel des Planens in kollaborativem beruflichem Schreiben. Gestützt auf eine Fallstudie aus großen Korpora natürlicher empirischer Daten, werden Praktiken herausgearbeitet, die flexibles Planen im dynamischen System der Textproduktion ermöglichen. Deutlich wird, dass die Praktiken wie auch die durch sie geprägten Schreibphasen skalieren, also ähnliche Muster bilden im Kleineren wie im Größeren. Ein solches Verständnis von Planen geht weit über den Planungsbegriff in bisherigen Modellen von Schreibprozessen hinaus. So erweist sich empirische Forschung am Arbeitsplatz als gewinnbringend auch für die theoretische Schärfung des Praktiken-Konzepts. Schreiben als Prozess der Herstellung schriftsprachlicher Äußerungen wurde früh aus sprachpsychologischem Blickwinkel erforscht und modelliert. Bedeutende Phasen und Praktiken des natürlichen Schreibens, außerhalb psychologischer Laborexperimente, sind durch die Dominanz dieser Forschungstradition lange außer Acht geblieben. Der vorliegende Beitrag entwickelt ein dynamisches und komplexes Konzept von Schreibphasen und den sie bestimmenden Praktiken beruflicher Textproduktion (Teil 1). Linguistisch basierte ethnografische Forschung (2) erschließt Schreiben jenseits des Labors als vielschichtiges Zusammenspiel situierter Praktiken im dynamischen System arbeitsteiliger Textproduktion (3). Ein Beispiel einer Analyse erklärt, wie Praktiken flexiblen Planens im Nachrichtenschreiben skalieren (4). Deutlich wird dabei der Sinn empirischer Analyse von Schreibphasen und -praktiken für Theorie und Praxis (5).
Der Beitrag plädiert dafür, die Interaktionale Linguistik stärker für modellorientierte Forschung und datengeleitete Methoden zu öffnen. Er stellt eine Methode vor, wie auf der Basis von Korpora datengeleitet Praktiken rekonstruiert und modelliert werden können. Ausgehend von einer Diskussion der tiefgreifenden Veränderungen, die die Digitalisierung für die Linguistik mit sich bringt, und einer Auseinandersetzung mit dem Modellbegriff, wird der Begriff der (Kommunikativen) Praktik in Abgrenzung zum Begriff der Kommunikativen Gattung bestimmt. Im Anschluss wird am Beispiel von Trostdialogen in OnlineForen eine korpusgeleitete Methode zur Dialogmodellierung vorgestellt. Schließlich werden die Folgen der menschlichen Interaktion mit maschinellen Dialogsystemen reflektiert.
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g. title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g., title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
Editorial
(2016)
Journal for language technology and computational linguistics. Corpus linguistic software tools
(2016)
With the growing availability and importance of (large) corpora in all fields of linguistics, the role of software tools is gradually moving from useful, possibly intelligent informationtechnological “helpers” towards scientific instruments that are as integral parts of the research process as data, methodology and interpretations. Both aspects are present in this special issue of JLCL on corpus linguistic software tools.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
Dieser Beitrag stellt nach einer kurzen allgemeinen Einführung die Datenbank für Gesprochenes Deutsch (DGD) und das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente speziell für gesprächsanalytisches Arbeiten vor. Anhand des Beispiels sprich als Diskursmarker für Reformulierungen werden Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen illustriert: Nutzungsmöglichkeiten der Token-, Kontext-, Metadaten- und Positionssuche werden gezeigt, jeweils in Bezug auf und im wechselseitigen Verhältnis mit qualitativen Fallanalysen, auch mit Belegannotationen nach analyserelevanten (strukturellen und funktionalen) Kategorien. Schließlich wird das heißt als weiterer Reformulierungsindikator für eine vergleichende Analyse herangezogen. Dieser Beitrag stellt eine detailliertere Ausarbeitung einer kürzeren, eher technisch-didaktischen Online-Handreichung (Kaiser/ Schmidt 2016) zu diesem Thema dar, und hat einen stärker inhaltlich-analytischen Fokus.
The current paper presents a corpus containing 35 dialogues of spontaneously spoken southern German, including half an hour of articulography for 13 of the speakers. Speakers were seated in separate recording chambers, mimicking a telephone call, and recorded on individual audio channels. The corpus provides manually corrected word boundaries and automatically aligned segment boundaries. Annotations are provided in the Praat format. In addition to audio recordings, speakers filled out a detailed questionnaire, assessing among others their audio-visual consumption habits.
In this paper, we present first results of training a classifier for discriminating Russian texts into different levels of difficulty. For the classification we considered both surface-oriented features adopted from readability assessments and more linguistically informed, positional features to classify texts into two levels of difficulty. This text classification is the main focus of our Levelled Study Corpus of Russian (LeStCoR), in which we aim to build a corpus adapted for language learning purposes – selecting simpler texts for beginner second language learners and more complex texts for advanced learners. The most discriminative feature in our pilot study was a lexical feature that approximates accessibility of the vocabulary by the second language learner in terms of the proportion of familiar words in the texts. The best feature setting achieved an accuracy of 0.91 on a pilot corpus of 209 texts.
The IFCASL corpus is a French-German bilingual phonetic learner corpus designed, recorded and annotated in a project on individualized feedback in computer-assisted spoken language learning. The motivation for setting up this corpus was that there is no phonetically annotated and segmented corpus for this language pair of comparable of size and coverage. In contrast to most learner corpora, the IFCASL corpus incorporate data for a language pair in both directions, i.e. in our case French learners of German, and German learners of French. In addition, the corpus is complemented by two sub-corpora of native speech by the same speakers. The corpus provides spoken data by about 100 speakers with comparable productions, annotated and segmented on the word and the phone level, with more than 50% manually corrected data. The paper reports on inter-annotator agreement and the optimization of the acoustic models for forced speech-text alignment in exercises for computer-assisted pronunciation training. Example studies based on the corpus data with a phonetic focus include topics such as the realization of /h/ and glottal stop, final devoicing of obstruents, vowel quantity and quality, pitch range, and tempo.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
When becoming integrated into the German vocabulary, foreign words reflect paradigmatic changes regarding orthography, grammar as well as semantics. In this context,German orthography is also highly determined by orthographic codification, which continues to influence the development of spelling to the present day. This study compares digital linguistically annotated corpora containing texts written by professional as well as non-professional writers; these corpora contain several billion foreign words (of Greek, Latin and French origin, and in the second part of the study of English/American and Italian origin), studied over a period of 20 years following the German orthographic reform of 1996. The results may potentially help the official regulations to adapt to the spelling practices observed – either by describing the rules more precisely or by proposing possible spelling variants or eliminating those which are not in common use. The study may also help to support correct lexicographic codification in dictionaries.