Refine
Year of publication
- 2016 (169) (remove)
Document Type
- Article (59)
- Conference Proceeding (44)
- Part of a Book (43)
- Book (15)
- Working Paper (5)
- Doctoral Thesis (3)
Keywords
- Deutsch (64)
- Korpus <Linguistik> (31)
- Gesprochene Sprache (20)
- Konversationsanalyse (11)
- Wörterbuch (11)
- Computerunterstützte Lexikographie (10)
- Französisch (8)
- German (7)
- Computerlinguistik (6)
- Linguistik (6)
Publicationstate
- Veröffentlichungsversion (169) (remove)
Reviewstate
Publisher
Die Preußische Akademie der Wissenschaften zu Berlin hat im Jahr 1906 auf Bitte der deutschen Regierung die Verantwortung für die Arbeiten zur Vollendung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm übernommen. Im Jahr 1929/30 hat sie die Berliner Arbeitsstelle gegründet. Nach dem Zweiten Weltkrieg wurde dieses lexikographische Grundlagenwerk in den Jahrzehnten der Spaltung Deutschlands, aber in enger Gemeinschaft einer Berliner und einer Göttinger Arbeitsstelle zum Abschluss gebracht. Schon in den fünfziger Jahren entschlossen sich die Akademien in Berlin und Göttingen, „zunächst“ die völlige Neubearbeitung der ältesten Teile des Werks, die die Brüder Grimm zwischen 1852 und 1863 noch selbst erarbeitet hatten, vorzunehmen. Diese Neubearbeitung ist inzwischen nahezu abgeschlossen. Umso deutlicher zeigt sich aber nun, dass auch die übrigen Teile dringend der Neubearbeitung bedürfen. Das Jahrhundertwerk der Brüder Grimm, ihre wichtigste gemeinsame sprachwissenschaftliche Leistung, heute in der ganzen Welt täglich von Tausenden im Internet benutzt, Fundament der gesamten neueren deutschen Wortforschung, kann seine Aufgabe nur erfüllen, wenn es nicht als Museumsstück bewundert, sondern in gründlich erneuerter Form als aktuelles Auskunftsmittel fortgeführt wird. In dieser Situation war die Schließung der Berliner Arbeitsstelle im Dezember 2012 das falsche Signal.
Having found their way onto the computer screens, comics soon branched into webcomics. These kept a lot of the characteristics of print comic books, but gradually adapted new unexplored modes of representation. Three relatively new ‘enhancements’ to the medium of comics are presented in this article: webcomics enhanced through the use of the infinite canvas, as proposed by Scott McCloud, those enhanced with videos and/or sound, and lastly those enhanced with interactive and ludic elements. All of the mentioned push the medium of comics into new waters, and by doing so they add new layers of meaning and modify their structure based on the make-up of the implemented features. Infinite canvas manages to lift some limitations of print comics without changing the overall feel too drastically, while animated and voiced webcomics, as well as interactive or game comics, have a much higher inclination to transgress into domains of other media and transform themselves in order to accommodate and integrate these novel foreign features.
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g. title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
Medialität und Sozialität sind grundlegende Kategorien einer medienlinguistischen Perspektive auf Sprache und Kommunikation und sollen im Folgenden die Ausgangspunkte einer Auseinandersetzung mit der Operativität digitaler Schriftzeichen bilden. Nach einer kurzen Einleitung wird dazu der Operativitätsbegriff erläutert und dieser dann anhand eines Postings im Microblog Twitter exemplifiziert.
Many applications in Natural Language Processing require a semantic analysis of sentences in terms of truth-conditional representations, often with specific desiderata in terms of which information needs to be included in the semantic analysis. However, there are only very few tools that allow such an analysis. We investigate the representations of an automatic analysis pipeline of the C&C parser and Boxer to determine whether Boxer’s analyses in form of Discourse Representation Structure can be successfully converted into a more surface oriented event semantic representation, which will serve as input for a fusion algorithm for fusing hard and soft information. We use a data set of synthetic counter intelligence messages for our investigation. We provide a basic pipeline for conversion and subsequently discuss areas in which ambiguities and differences between the semantic representations present challenges in the conversion process.
Brown clustering has been used to help increase parsing performance for morphologically rich languages. However, much of the work has focused on using clustering techniques to replace terminal nodes or as a feature for parsing. Instead, we choose to examine how effectively Brown clustering is for unlexicalized parsing by creating data-driven POS tagsets which are then used with the Berkeley parser. We investigate cluster sizes as well as on what information (e.g. words vs. lemmas) clustering will yield the best parser performance. Our results approach the current state of the art results for the German T¨uBa-D/Z treebank when using parser internal tagging.
We present the IUCL system, based on supervised learning, for the shared task on stance detection. Our official submission, the random forest model, reaches a score of 63.60, and is ranked 6th out of 19 teams. We also use gradient boosting decision trees and SVM and merge all classifiers into an ensemble method. Our analysis shows that random forest is good at retrieving minority classes and gradient boosting majority classes. The strengths of different classifiers wrt. precision and recall complement each other in the ensemble.
Dieser Beitrag stellt nach einer kurzen allgemeinen Einführung die Datenbank für Gesprochenes Deutsch (DGD) und das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente speziell für gesprächsanalytisches Arbeiten vor. Anhand des Beispiels sprich als Diskursmarker für Reformulierungen werden Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen illustriert: Nutzungsmöglichkeiten der Token-, Kontext-, Metadaten- und Positionssuche werden gezeigt, jeweils in Bezug auf und im wechselseitigen Verhältnis mit qualitativen Fallanalysen, auch mit Belegannotationen nach analyserelevanten (strukturellen und funktionalen) Kategorien. Schließlich wird das heißt als weiterer Reformulierungsindikator für eine vergleichende Analyse herangezogen. Dieser Beitrag stellt eine detailliertere Ausarbeitung einer kürzeren, eher technisch-didaktischen Online-Handreichung (Kaiser/ Schmidt 2016) zu diesem Thema dar, und hat einen stärker inhaltlich-analytischen Fokus.
Weihnachten erzählen
(2016)
Editorial
(2016)
Co-development of action, conceptualization and social interaction mutually scaffold and support each other within a virtuous feedback cycle in the development of human language in children. Within this framework, the purpose of this article is to bring together diverse but complementary accounts of research methods that jointly contribute to our understanding of cognitive development and in particular, language acquisition in robots. Thus, we include research pertaining to developmental robotics, cognitive science, psychology, linguistics and neuroscience, as well as practical computer science and engineering. The different studies are not at this stage all connected into a cohesive whole; rather, they are presented to illuminate the need for multiple different approaches that complement each other in the pursuit of understanding cognitive development in robots. Extensive experiments involving the humanoid robot iCub are reported, while human learning relevant to developmental robotics has also contributed useful results.
Disparate approaches are brought together via common underlying design principles. Without claiming to model human language acquisition directly, we are nonetheless inspired by analogous development in humans and consequently, our investigations include the parallel co-development of action, conceptualization and social interaction. Though these different approaches need to ultimately be integrated into a coherent, unified body of knowledge, progress is currently also being made by pursuing individual methods.
Konnexion in argumentativen Texten. Gebrauchsunterschiede in Deutsch als L2 vs. Deutsch als L1
(2016)
Für die Kodierung interpropositionaler semantischer Relationen wie Additivität, Adversativität, Kausalität etc. steht im Deutschen wie in vielen anderen Sprachen ein reichhaltiges Inventar von Konnektoren unterschiedlicher syntaktischer Kategorien zur Verfügung. Einige semantische Relationen müssen jedoch nicht explizit kodiert werden, da sie auf der Basis übereinzelsprachlicher Erwartungen an „normale“ Sachverhaltszusammenhänge aus dem Kontext erschließbar sind. Ob diese Relationen dann auch von Schreibern ausbuchstabiert werden, ist einzelsprach-spezifisch unterschiedlich. Der Beitrag untersucht vor diesem Hintergrund die Kodierung interpropositionaler Relationen bei Lernern des Deutschen als Fremdsprache. Die Analyse eines Lernerkorpus mit Essays fortgeschrittener Deutschlerner aus Schweden, China und Weißrussland (KobaltDaF-Korpus) und eines muttersprachlichen Kontrollkorpus zeigt, dass Lerner von den Mustern der Muttersprachler quantitativ und qualitativ abweichen. Der Beitrag beschreibt diese Abweichungen und diskutiert mögliche Erklärungen.
This paper is about the workflow for construction and dissemination of FOLK (Forschungs - und Lehrkorpus Gesprochenes Deutsch – Research and Teaching Corpus of Spoken German), a large corpus of authentic spoken interaction data, recorded on audio and video. Section 2 describes in detail the tools used in the individual steps of transcription, anonymization, orthographic normalization, lemmatization and POS tagging of the data, as well as some utilities used for corpus management. Section 3 deals with the DGD (Datenbank für Gesprochenes Deutsch - Database of Spoken German) as a tool for distributing completed data sets and making them available for qualitative and quantitative analysis. In section 4, some plans for further development are sketched.
Der Beitrag stellt ein interdisziplinär durchgeführtes Lehr-Lern-Projekt als Best-Practice-Beispiel vor. Ziel des vom Lehrinnovationspool der Universität Passau geförderten Projekts war es, Studierende der Sprachwissenschaft und Geographie sowie Schülerinnen und Schüler der FOS/BOS an digitales, selbstständiges und forschendes Lernen im thematischen Kontext der „Sprachdynamik im deutsch-österreichischen Grenzraum“ heranzuführen. Der Aufsatz zeigt, wie Studierenden verschiedene Rollen als Lernende, Forschende und auch als Lehrende einnehmen, indem sie die Schülerinnen und Schüler als Lernpaten bei der Planung, Durchführung und Auswertung von gemeinsamen Forschungsvorhaben unterstützen. Exemplarisch wird ein Projekt für Schülerinnen und Schüler näher vorgestellt. Weiterhin reflektiert der Beitrag das Lehrhandeln der Dozierenden.
Bericht über die 19. Arbeitstagung zur Gesprächsforschung vom 16. bis 18. März 2016 in Mannheim
(2016)
The article investigates the ways in which organic-medical metaphors were used to set the boundary of discourse between the economy and politics. The successful establishment of organic-medical metaphors for the economy is mainly explained by their connectivity to different political views. Concepts such as ‘Wirtschaftsleben’ or perceptions of the economy as an ‘organism’ laid the foundation for diagnosing sick or healthy conditions. From the end of the 19th to beyond the mid-20th century typical statements illustrate that the use of such metaphors supported the naturalization and stabilization of the boundary-setting discourse, insofar as it seemed natural that the relation between the two spheres should be formulated in terms of health and disease. Within liberal economic discourse in particular, politics was on the one hand targeted as a potential cause for economic disease, while on the other, it was claimed that politics had the task of keeping economic forces healthy.
Der vorliegende Aufsatz untersucht die Syntax und Semantik sogenannter Postponierer, d.h. konjunktionaler Konnektoren, die den von ihnen eingeleiteten Nebensatz dem Hauptsatz stets nachstellen. Anhand von sodass und zumal werden die Kerneigenschaften solcher Konnektoren im Deutschen vorgestellt. Am Beispiel der italienischen Konjunktionen cosicché, tanto più che und perché wird diskutiert, ob der Begriff des Postponierers für den Sprachvergleich genutzt werden kann. In einem nächsten Schritt werden die Postponierer des Deutschen unter Beiziehung sprachgeschichtlicher Argumente präziser beschrieben und im Übergangsfeld zwischen Adverbkonnektoren und Subjunktoren verortet. Es zeigt sich, dass die untersuchten Konnektoren sich letztlich sehr unterschiedlich verhalten, sodass es fraglich erscheint, ob ihre Zusammenfassung zu einer gemeinsamen Klasse gerechtfertigt ist.
Der Aufsatz knüpft an die Diskussion zur Verwendung von formalen grammatischen Kategorien im Sprachvergleich an (vgl. insbesondere Haspelmath 2007, 2010a, b und Newmeyer 2007, 2010). Es wird dabei nicht danach gefragt, ob sprachübergreifende grammatische Kategorien (oder genauer gesagt Kategorienausprägungen) existieren oder nicht bzw. ob einzelsprachliche grammatische Kategorien im Sprachvergleich sinnvoll einsetzbar sind, sondern wie ähnlich bzw. unterschiedlich einzelsprachliche Kategorien bzw. Kategorisierungen sind. Das Ziel ist damit, eine Methode zur Messung des Äquivalenzgrades von grammatischen Kategorien in verschiedenen Sprachen zu präsentieren; dies wird am Beispiel des IMPERATIVS im Deutschen, Englischen, Polnischen und Tschechischen illustriert.
The IFCASL corpus is a French-German bilingual phonetic learner corpus designed, recorded and annotated in a project on individualized feedback in computer-assisted spoken language learning. The motivation for setting up this corpus was that there is no phonetically annotated and segmented corpus for this language pair of comparable of size and coverage. In contrast to most learner corpora, the IFCASL corpus incorporate data for a language pair in both directions, i.e. in our case French learners of German, and German learners of French. In addition, the corpus is complemented by two sub-corpora of native speech by the same speakers. The corpus provides spoken data by about 100 speakers with comparable productions, annotated and segmented on the word and the phone level, with more than 50% manually corrected data. The paper reports on inter-annotator agreement and the optimization of the acoustic models for forced speech-text alignment in exercises for computer-assisted pronunciation training. Example studies based on the corpus data with a phonetic focus include topics such as the realization of /h/ and glottal stop, final devoicing of obstruents, vowel quantity and quality, pitch range, and tempo.
The aim of this study is to select and formulate criteria for the assessment of tools and exercises that are using computer-assisted pronunciation training (CAPT). We examined ten different CAPT tools selected on the basis of an informal questionnaire among 10 colleagues working in a German-French CAPT project. Although the applied assessment must still be regarded as informal, and although the selected CAPT tools might not be an optimal sample for representing the state of the art, the results clearly show that there is a lot to improve regarding the clarity of instruction, the quality of exercises, the robustness of the diagnosis, the clarity and appropriateness of scoring, the diversity of feedback methods, the assumed benefit for various types of users as well as the usage of ASR. Despite various good approaches regarding graphics and game-like exercises there are obviously missing links between the pedagogical expertise in phonetic training on the one hand, and software development including usability engineering on the other.
This study investigates high vowel laxing in the Louisiana French of the Lafourche Basin. Unlike Canadian French, in which the high vowels /i, y, u/ are traditionally described as undergoing laxing (to [I, Y, U]) in word-final syllables closed by any consonant other than a voiced fricative (see Poliquin 2006), Oukada (1977) states that in the Louisiana French of Lafourche Parish, any coda consonant will trigger high vowel laxing of /i/; he excludes both /y/ and /u/ from his discussion of high vowel laxing. The current study analyzes tokens of /i, y, u/ from pre-recorded interviews with three older male speakers from Terrebonne Parish. We measured the first and second formants and duration for high vowel tokens produced in four phonetic environments, crossing syllable type (open vs. closed) by consonant type (voiced fricative vs. any consonant other than a voiced fricative). Results of the acoustic analysis show optional laxing for /i/ and /y/ and corroborate the finding that high vowels undergo laxing in word-final closed syllables, regardless of consonant type. Data for /u/ show that the results vary widely by speaker, with the dominant pattern (shown by two out of three speakers) that of lowering and backing in the vowel space of closed syllable tokens. Duration data prove inconclusive, likely due to the effects of stress. The formant data published here constitute the first acoustic description of high vowels for any variety of Louisiana French and lay the groundwork for future study on these endangered varieties.
Ob es um die Rechtschreibreform geht, um Anglizismen im Deutschen oder um den Umgang mit Migranten- oder Minderheitensprachen - Debatten und Meinungen zu Sprache(n) und Sprachformen sind Teil unseres Alltages. Dass Sprache auch Gegenstand der Politik ist, also Sprache und das Verhältnis von Sprachen in der Gesellschaft bewusst oder unbewusst gesteuert werden, wird dagegen in deutschsprachigen Kontexten eher selten thematisiert. Diese Einführung gibt einen Überblick über Ansätze, Praktiken, Theorien und Perspektiven auf wichtige Bereiche der Sprach(en)politik. Der erste Teil erläutert den theoretischen Hintergrund, der zweite Teil stellt eine Reihe von Ländern vor, die beispielhaft für wichtige Ansätze der sprachpolitischen Praxis stehen, aber auch nach ihrer Bedeutung für die größten philologischen Fächer (Germanistik, Anglistik, Romanistik) ausgewählt wurden. Damit liegt die erste systematische deutschsprachige Einführung in ein Thema vor, das international seit langem ein großes Maß an Aufmerksamkeit erhält. Sie richtet sich an Studierende und Lehrende sprachwissenschaftlicher Fächer und Nachbardisziplinen ebenso wie an Akteure der sprachpolitischen Praxis.
Vorgestellt werden kontrastive Analysen zur Besetzung und Häufigkeitsverteilung von Vorfeldern im Deutschen und ihren französischen, italienischen, norwegischen, polnischen und ungarischen Äquivalenten in morphosyntaktisch annotierten Wikipedia-Korpora. Im Rahmen der Untersuchung wurden mit korpusanalytischen Methoden quantitative Zusammenhänge bei den sprachspezifischen Ausprägungen von Vorfeldern nachgewiesen, die im Einklang mit typischen Struktureigenschaften der untersuchten Kontrastsprachen stehen. Die Ergebnisse legen aber nahe, dass die untersuchten Vorfeldstrukturen ‒ trotz der beträchtlichen Größe und thematischen Vielfalt der Wikipedia-Korpora ‒ nicht hinreichend repräsentativ sind, um uneingeschränkt Rückschlüsse auf allgemeine Struktureigenschaften der sechs Kontrastsprachen zu ziehen. Hierfür verantwortlich ist insbesondere die ausgeprägte Textsortenspezifizität der Mediengattung (Online-)Enzyklopädie, was mithilfe weiterer Vergleichskorpora aufgezeigt werden konnte.
This thesis investigates temporal and aspectual reference in the typologically unrelated African languages Hausa (Chadic, Afro–Asiatic) and Medumba (Grassfields Bantu). It argues that Hausa is a genuinely tenseless language and compares the interpretation of temporally unmarked sentences in Hausa to that of morphologically tenseless sentences in Medumba, where tense marking is optional and graded. The empirical behavior of the optional temporal morphemes in Medumba motivates an analysis as existential quantifiers over times and thus provides new evidence suggesting that languages vary in whether their (past) tense is pronominal or quantificational (see also Sharvit 2014). The thesis proposes for both Hausa and Medumba that the alleged future tense marker is a modal element that obligatorily combines with a prospective future shifter (which is covert in Medumba). Cross-linguistic variation in whether or not a future marker is compatible with non-future interpretation is proposed to be predictable from the aspectual architecture of the given language.
Languages vary in whether or not their future markers are compatible with non-future modal readings (Tonhauser, 2011b). The present paper proposes that this Variation is determined by the aspectual architecture of a given language, more precisely if and how aspects can be stacked. Building on recent accounts of the temporal interpretation of modals (Matthewson, 2012, 2013; Kratzer, 2012; Chen et al., ta), the paper first sketches an analysis of the temporal readings of the English future marker will and then provides cross-linguistic comparison with a selected, typologically diverse set of languages (Medumba, Hausa, Gitksan, and Greek).
The compilation of terminological vocabularies plays a central role in the organization and retrieval of scientific texts. Both simple keyword lists as well as sophisticated modellings of relationships between terminological concepts can make a most valuable contribution to the analysis, classification, and finding of appropriate digital documents, either on the Web or within local repositories. This seems especially true for long-established scientific fields with various theoretical and historical branches, such as linguistics, where the use of terminology within documents from different origins is sometimes far from being consistent. In this short paper, we report on the early stages of a project that aims at the re-design of an existing domain-specific KOS for grammatical content grammis. In particular, we deal with the terminological part of grammis and present the state-of-the-art of this online resource as well as the key re-design principles. Further, we propose questions regarding ramifications of the Linked Open Data and Semantic Web approaches for our re-design decisions.
The Perceptual Effect of L1 Prosody Transplantation on L2 Speech: The Case of French Accented German
(2016)
Research has shown that language learners are not only challenged by segmental differences between their native language (L1) and the second language (L2). They also have problems with the correct production of suprasegmental structures, like phone/syllable duration and the realization of pitch. These difficulties often lead to a perceptible foreign accent. This study investigates the influence of prosody transplantation on foreign accent ratings. Syllable duration and pitch contour were transferred from utterances of a male and female German native speaker to utterances of ten French native speakers speaking German. Acoustic measurements show that French learners spoke with a significantly lower speaking rate. As expected, results of a perception experiment judging the accentedness of 1) German native utterances, 2) unmanipulated and 3) manipulated utterances of French learners of German suggest that the transplantation of the prosodic features syllable duration and pitch leads to a decrease in accentedness rating. These findings confirm results found in similar studies investigating prosody transplantation with different L1 and L2 and provide a beneficial technique for (computer-assisted) pronunciation training.
Evaluation of Phonatory Behavior of German and French Speakers in Native and Non-native Speech
(2016)
Phonatory behavior of German speakers (GS) and French speakers (FS) in native (L1) and non-native (L2) speech was instrumentally examined. Vowel productions of the two groups were analyzed using a parametrization of phonatory behaviour and phonatory quality properties in the acoustic signal. The behavior of GS is characterized by more strained adduction of the vocal folds whereas FS show more incomplete glottal closure. Furthermore, GS change their phonatory behavior in the foreign language (=French) by adapting phonatory strategies of FS, whereas FS do not show this tendency. In addition, German beginners (BEG) and partly German advanced learners (ADV) are already orientated on production characteristics of the L2. French BEG however retain their phonatory behavior in L2 (=German) by showing less vocal fold adduction in comparison to their L1. French ADV show the opposite behavior. Finally, ADV of the two speaker groups generally show more strained behavior in L2 productions than BEG. The results provide evidence that GS and FS apply different laryngeal phonatory settings and that they altered their settings in L2 differently. Perceptual evaluation of voice quality of the speech material and a correlation analysis between acoustic and perceptual results are suggested for future research.
The following paper is aimed to demonstrate that a grammar from above („Grammatik von oben“), i.e. a top-down grammar is better suited for the purposes of contrastive linguistic descriptions than the contrary approach, i.e. a bottom-up grammar. Furthermore, it will be argued that sentences should be understood and explained from a textual point of view.
In diesem Beitrag liegt der Fokus auf der Vorfeldbesetzung des deutschen Satzes, insofern das Vorfeld einerseits aus einem Satzglied oder mehreren Satzgliedern und einem infiniten Teil des Verbalkomplexes oder andererseits nur aus dem infiniten Teil des Verbalkomplexes besteht. Bei diesen Formen der Vorfeldbesetzung werden Varianten und deren informationsstrukturelle Besonderheiten betrachtet. Des Weiteren soll der Frage nachgegangen werden, ob – entgegen einer haufig vorgebrachten Regel, dass das Vorfeld des deutschen Satzes nur einfach besetzt werden kann – eindeutige und auch akzeptable Belege in den Wikipedia-Korpora auffindbar sind, die darauf hinweisen, dass im Deutschen durchaus eine Vorfeldbesetzung mit mehr als einem Satzglied auftreten kann.
When translating narrative texts from French into German, translators mostly choose the German simple tense “Präteritum” as an equivalent for French simple tenses and the German perfect tense “Plusquamperfekt” as an equivalent for French perfect tenses. There are common cases
however when the translator expresses anteriority where French is underspecified. On the other hand, sometimes the translator (or the editor) decides not to express anteriority by a verb tense
even if there is a perfect tense in the French source text. This is the surprising result of this study based on a small corpus of contemporary novel translations.
Zum Geleit
(2016)
Dieser Band ist in mehrerlei Hinsicht außergewöhnlich. Einerseits ist er die diesjährige und damit 21. Ausgabe des seit 1994 erscheinenden Jahrbuches Triangulum und steht damit in der Tradition, der Germanistik im Baltikum ein Sprachrohr zu geben. Im Gegensatz zu früheren Jahren ist dieser Band jedoch noch viel mehr: Als Dokumentation des 10. Nordisch-Baltischen Germanistentreffens (NBGT), das vom 10. bis zum 13. Juni 2015 von der Germanistik der Universität Tallinn ausgerichtet wurde, bündelt er eine Vielzahl der Vorträge, die im Rahmen der Tagung gehalten wurden.
Dieses Buch schließt eine Lücke in der Konnektorenforschung, indem es den Gebrauch von Konnektoren im gesprochenen Deutsch untersucht. Die Fragestellung bringt Elemente aus dem traditionellen grammatischen Ansatz und aus der pragmatisch basierten Forschung zur gesprochenen Sprache zusammen. In Anlehnung an die Methode der Interaktionalen Linguistik analysiert der Autor den Gebrauch der Konjunktoren «und», «aber» und der Adverbkonnektoren «also», «dann» in zwei Korpora von autobiographischen Interviews. Die Untersuchung zeigt, wie Konnektoren zur Bewältigung von verschiedenartigen kommunikativen Aufgaben zur Stiftung von Intersubjektivität und zur Gesprächsorganisation eingesetzt werden können.
Dieser Beitrag fasst die wesentlichen Aussagen und Ergebnisse eines Workshops zusammen, der sieben Perspektiven auf die Untersuchung der Rolle des Deutschen im öffentlichen Raum zusammengebracht hat. Einige der vorgestellten Studien folgten dem seit Beginn der 2000er Jahre rasant an Popularität gewonnenen Ansatz der ‚Linguistic Landscapes‘. In anderen Beiträgen standen praktische Überlegungen zum Suchen von Beispielen der deutschen Sprache im Mittelpunkt, um diese im Kontext von DaF und Auslandsgermanistik sowie der Werbung für die deutsche Sprache einzusetzen. Ziel des Workshops war es, Gemeinsamkeiten und Perspektiven von diesen unter dem Schlagwort ‚Spot German‘ verorteten Studien mit der Linguistic Landscape-Tradition zu eruieren. Länder, aus denen Studien vorgestellt wurden, waren Estland, Lettland, Dänemark, Tschechien, Deutschland, Zypern und Malta.
Deutsch-russisches Neologismenwörterbuch. Neuer Wortschatz im Deutschen, 1991-2010. Bd. 1 - 2 (A-Z)
(2016)
Dieses Wörterbuch, das auf dem ersten größeren Neologismenwörterbuch für das Deutsche fußt, schließt eine Lücke in der deutsch-russischen Wörterbuchlandschaft: Es präsentiert dem Benutzer den neuen deutschen Wortschatz, den er in anderen Wörterbüchern meist vergeblich sucht. Enthalten sind fast 2000 neue Wörter (z.B. Kletterwald, scrollen), neue feste Wortverbindungen (z.B. etw. in die Tonne treten, der Drops ist gelutscht) und neue Bedeutungen etablierter Wörter (z.B. halbrund, Stolperstein), von denen rund 1350 umfassend lexikografisch beschrieben sind. Die vielen Verknüpfungen zwischen den Stichwörtern ermöglichen Einblicke in die Vernetztheit des neuen Wortschatzes und leisten so einen wichtigen Beitrag für den Wortschatzerwerb.
Der Sammelband zur typologisch und kontrastiv vergleichenden grammatischen Erforschung und Beschreibung des Satzanfangs des Deutschen und vier seiner Kontrastsprachen ist ein Ergebnis eines Forschungsnetzwerks, bestehend aus dem Institut für Deutsche Sprache (Mannheim) und Forschergruppen verschiedener europäischer Universitäten. Unter Berücksichtigung insbesondere morphosyntaktischer und informationsstruktureller Aspekte werden die satztopologischen Unterschiede der typologisch recht heterogenen Sprachen bzw. Sprachfamilien unter verschiedenen Gesichtspunkten beleuchtet. Die Untersuchungen werden korpusbasiert durchgeführt, wobei sich die Hälfte der Beiträge auf aufbereitete POS-getaggte Wikipedia-Korpora stützt. Die quantitativ ausgerichteten Korpusanalysen ermöglichen einen genauen Einblick in die unterschiedlichen Strukturmerkmale der betreffenden Sprachen sowie in sprachübergreifende Textmerkmale, und die qualitativen Untersuchungen zeigen Ähnlichkeiten und Abweichungen bei bestimmten Verfahren, die sich morphosyntaktisch iederschlagen und besonders am Satzanfang relevant sind. Insgesamt erlauben die Beiträge Hypothesen zu topologisch und informationsstrukturell markierten Satzanfängen und zu Präferenzen in den jeweiligen Sprachen, aber auch zu möglichen Konstanten und Gemeinsamkeiten, was – auf differenziertere Korpora erweitert – für die Bereiche Sprache und Kognition sowie computergestützte Übersetzung ein großer Gewinn sein dürfte.
In order to demonstrate why it is important to correctly account for the (serial dependent) structure of temporal data, we document an apparently spectacular relationship between population size and lexical diversity: for five out of seven investigated languages, there is a strong relationship between population size and lexical diversity of the primary language in this country. We show that this relationship is the result of a misspecified model that does not consider the temporal aspect of the data by presenting a similar but nonsensical relationship between the global annual mean sea level and lexical diversity. Given the fact that in the recent past, several studies were published that present surprising links between different economic, cultural, political and (socio-)demographical variables on the one hand and cultural or linguistic characteristics on the other hand, but seem to suffer from exactly this problem, we explain the cause of the misspecification and show that it has profound consequences. We demonstrate how simple transformation of the time series can often solve problems of this type and argue that the evaluation of the plausibility of a relationship is important in this context. We hope that our paper will help both researchers and reviewers to understand why it is important to use special models for the analysis of data with a natural temporal ordering.
Die Beiträge des vorliegenden Bandes sind das Ergebnis eines interdisziplinären Workshops, der zum Abschluss des Projekts unter dem Titel „Varianz und Vielfalt interdisziplinär: Wörter und Strukturen“ im Dezember 2012 in Darmstadt stattfand. Dabei wurden Erkenntnisse und Erfahrungen aus der Untersuchung von „Wechselwirkungen zwischen linguistischen und bioinformatischen Verfahren, Methoden und Algorithmen für die Modellierung und Abbildung von Varianz in Sprache und Genomen“ zusammengefasst. Ein Schwerpunkt lag hierbei auf elektronischen Wörterbüchern, ihrer Heterogenität, der in ihnen dokumentierten Varianz sowie auf den Werkzeugen und Methoden, die zu ihrer Erschließung und Analyse dienen. Weitere sprachwissenschaftlich motivierte Themenbereiche umfassten z.B. die synchrone und diachrone Varianz, die quantitative Linguistik, Morphologie und Sprachwandelprozesse, Varianz in Wortfamilien wie auch die Erschließung von Varianz. Anschließend konnte das Phänomen der Varianz aus verschiedensten Perspektiven beleuchtet werden und ein Beitrag zur Konstituierung einer disziplinübergreifenden Abstraktionsebene geleistet werden. Der vorliegende Band enthält einige der Vorträge und führt heterogene Forschungsgegenstände zusammen, die zwischen Lexikografie, Computerlinguistik, (historischer) Sprachwissenschaft und den digitalen Geisteswissenschaften transzendieren.
This thesis consists of the following three papers that all have been published in international peer-reviewed journals:
Chapter 3: Koplenig, Alexander (2015c). The Impact of Lacking Metadata for the Measurement of Cultural and Linguistic Change Using the Google Ngram Data Sets—Reconstructing the Composition of the German Corpus in Times of WWII. Published in: Digital Scholarship in the Humanities. Oxford: Oxford University Press. [doi:10.1093/llc/fqv037]
Chapter 4: Koplenig, Alexander (2015b). Why the quantitative analysis of dia-chronic corpora that does not consider the temporal aspect of time-series can lead to wrong conclusions. Published in: Digital Scholarship in the Humanities. Oxford: Oxford University Press. [doi:10.1093/llc/fqv030]
Chapter 5: Koplenig, Alexander (2015a). Using the parameters of the Zipf–Mandelbrot law to measure diachronic lexical, syntactical and stylistic changes – a large-scale corpus analysis. Published in: Corpus Linguistics and Linguistic Theory. Berlin/Boston: de Gruyter. [doi:10.1515/cllt-2014-0049]
Chapter 1 introduces the topic by describing and discussing several basic concepts relevant to the statistical analysis of corpus linguistic data. Chapter 2 presents a method to analyze diachronic corpus data and a summary of the three publications. Chapters 3 to 5 each represent one of the three publications. All papers are printed in this thesis with the permission of the publishers.
Während lexikographische Prozesse, die zur Publikation gedruckter Wörterbücher führen, bereits seit einigen Jahrzehnten im Fokus der Wörterbuchforschung stehen und die dafür unterschiedenen Phasen der Vorbereitung, der Datenbeschaffung, der Datenaufbereitung, der Datenauswertung und der Satz- und Druckvorbereitung mittlerweile als etabliert betrachtet werden dürfen, steht die Diskussion und Beschreibung lexikographischer Prozesse von Internetwörterbüchern noch in den Anfängen. Zwar besteht kein Zweifel daran, dass sich lexikographische Prozesse bei der Publikation von Internetwörterbüchern anders gestalten als bei Printwörterbüchern, doch die Fragen, inwiefern sie dies tun, welchen Einfluss die neuen Möglichkeiten der Datengewinnung aus elektronischen Textkorpora auf die Prozesse haben, wie Bearbeitungsteilwortschätze auszuwählen sind, wie verschiedene Fassungen zu versionieren und zu archivieren sind und wie sich schließlich die Änderungen der lexikographischen Prozesse auf die Nutzer auswirken, ob und wie die Nutzer in diese Prozesse einbezogen werden können, sind noch nicht ausführlich beantwortet.
Diese und andere Fragen waren daher Gegenstand des vierten Arbeitstreffens des wissenschaftlichen Netzwerks “Internetlexikografie”, das am 22. und 23. November 2012 an der Universität Trier stattfand und vom Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften/Trier Center for Digital Humanities organisiert wurde. Die Auseinandersetzung mit dem lexikographischen Prozess wurde fortgesetzt in drei Arbeitsgruppen, die sich mit Auswahlkriterien, Umsetzung und Problemen von Bearbeitungsteilwortschätzen, mit Archivierung und Versionierung und mit dem korpusbasierten Vorgehen bei der Erweiterung bestehender lexikographischer Ressourcen beschäftigten. Der vorliegende Band beschäftigt sich mit den in den Diskussionsrunden und Arbeitsgruppen gefundenen Ergebnissen und den dort identifizierten weiterführenden Fragen.
Profit cumulat summierter Gewinn: wirtschaftssprachliche Kollokationen im Rumänischen und Deutschen
(2016)
Dieser Band ist ein sprachvergleichender Beitrag zur Kollokationsforschung. Exemplarisch wurden 3022 Kombinationen von 116 rumänischen Termini der Wirtschaftssprache exzerpiert, mit deutschen Kombinationen parallelisiert und statistisch ausgewertet. Eine Auswahl der auf dieser Basis gewonnenen rumänischen Kollokationen und deren deutsche Äquivalente wurden en detail linguistisch analysiert. Im Mittelpunkt standen dabei gemeinsprachliche Verben in fachsprachlichen Kollokationen.
Im Verlauf der Geschehnisse in der arabischen Welt seit 2011 gewann der Begriff Arabischer Frühling an Bedeutung und avancierte zum Leitausdruck des Diskurses. Der Beitrag geht den Fragen nach, wie der Begriff Arabischer Frühling in der deutschsprachigen Öffentlichkeit sprachlich realisiert, mit welchen sprachlichen Mitteln er konstruiert und mit welchen Ereignissen – zuweilen auch Katastrophen – er identifiziert wurde bzw. wird. Dabei wird auf die symbolische Funktion des Frühlings sowohl aus historischer Perspektive der Vormärzzeit als auch aus heutiger Sicht eingegangen. Im Blickfeld der Untersuchung stehen darüber hinaus die Jahreszeitenbezeichnungen Winter, Herbst und Sommer und ihr symbolisches Verhältnis zu den arabischen Revolutionen.
Nachruf auf Siegfried Grosse
(2016)
Smiling individuals are usually perceived more favorably than non-smiling ones—they are judged as happier, more attractive, competent, and friendly. These seemingly clear and obvious consequences of smiling are assumed to be culturally universal, however most of the psychological research is carried out in WEIRD societies (Western, Educated, Industrialized, Rich, and Democratic) and the influence of culture on social perception of nonverbal behavior is still understudied. Here we show that a smiling individual may be judged as less intelligent than the same non-smiling individual in cultures low on the GLOBE’s uncertainty avoidance dimension. Furthermore, we show that corruption at the societal level may undermine the prosocial perception of smiling—in societies with high corruption indicators, trust toward smiling individuals is reduced. This research fosters understanding of the cultural framework surrounding nonverbal communication processes and reveals that in some cultures smiling may lead to negative attributions.
Status und Gebrauch des Niederdeutschen 2016. Erste Ergebnisse einer repräsentativen Erhebung
(2016)
Wer versteht heute Plattdeutsch, und wer spricht es? Wer nutzt die plattdeutschen Medien- und Kulturangebote? Welche Vorstellungen verbinden die Menschen in Norddeutschland mit dem Niederdeutschen, und wie stehen sie zu ihrer Regionalsprache?
Diesen und weiteren Fragen widmet sich die vorliegende Broschüre mithilfe von repräsentativen Daten, die durch eine telefonische Befragung von insgesamt 1.632 Personen aus acht Bundesländern (Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Schleswig-Holstein sowie Brandenburg, Nordrhein-Westfalen und Sachsen-Anhalt) gewonnen wurden.
Stress that spills over into one's intimate relationship (Repetti, 1989) can increase negative behavior between partners (Repetti, 1989; Schulz et al., 2004), which in turn can negatively affect relationship outcomes, such as satisfaction (Karney and Bradbury, 1995; Randall and Bodenmann, 2016). This negative stress spillover process may, however, be mitigated if couples help each other cope with the experienced stress (i.e., dyadic coping). Although theoretical assumptions, such as the systematic-transactional model of stress and dyadic coping (Bodenmann, 2005), suggest that the association between coping behavior and relationship satisfaction is determined by cultural influences (e.g., gender roles), findings from a recent meta-analysis shows that this association is stable across nations and gender (Falconier et al., 2015). Despite the significant findings, the samples used in the meta-analysis nearly exclusively relied on couples living in Western culture (Falconier et al., 2015), which leaves an unanswered question about how culture may affect the association between dyadic coping and relationship satisfaction. The goal of the current paper was to examine the cultural influence in dyadic coping processes based on 7973 married individuals across 35 nations.
In this paper, we describe preliminary results from an ongoing experiment wherein we classify two large unstructured text corpora—a web corpus and a newspaper corpus—by topic domain (or subject area). Our primary goal is to develop a method that allows for the reliable annotation of large crawled web corpora with meta data required by many corpus linguists. We are especially interested in designing an annotation scheme whose categories are both intuitively interpretable by linguists and firmly rooted in the distribution of lexical material in the documents. Since we use data from a web corpus and a more traditional corpus, we also contribute to the important field of corpus comparison and corpus evaluation. Technically, we use (unsupervised) topic modeling to automatically induce topic distributions over gold standard corpora that were manually annotated for 13 coarse-grained topic domains. In a second step, we apply supervised machine learning to learn the manually annotated topic domains using the previously induced topics as features. We achieve around 70% accuracy in 10-fold cross validations. An analysis of the errors clearly indicates, however, that a revised classification scheme and larger gold standard corpora will likely lead to a substantial increase in accuracy.
Bild-Makros, auch unter dem Begriff Memes bekannt, sind populäre Internetphänomene, die im Zuge der umfassenden Multimodalisierung der Medienkommunikation als Unterhaltungsangebote auf Facebook verbreitet und kommentiert werden. Dieser Beitrag betrachtet diese aus einer Kombination von Bild und Text bestehenden multimodalen Kommunikate aus einer gattungs- und gesprächsanalytischen Perspektive, da Bild- Makros sowohl in ihrer formalen und semantischen Gestaltung als auch in der interaktiven Rezeption in Form von Kommentaren und Antworten verfestigte Muster aufzuweisen scheinen. In dieser medial vermittelten Interaktion haben sich sowohl auf der strukturellen Ebene der Interaktionssequenzen als auch innerhalb einzelner, auf sequenzexterner und sequenzinterner Ebene analysierten Interaktionseinheiten verschiedene kommunikative Muster herausgebildet. Darin nehmen soziale Prozesse wie face-work und Identitätskonstruktion Einfluss auf die interaktive Aushandlung des Kommunikats.
It is widely assumed that there is a natural, prelinguistic conceptual domain of time whose linguistic organization is universally structured via metaphoric mapping from the lexicon and grammar of space and motion. We challenge this assumption on the basis of our research on the Amondawa (Tupi Kawahib) language and culture of Amazonia. Using both observational data and structured field linguistic tasks, we show that linguistic space-time mapping at the constructional level is not a feature of the Amondawa language, and is not employed by Amondawa speakers (when speaking Amondawa). Amondawa does not recruit its extensive inventory of terms and constructions for spatial motion and location to express temporal relations. Amondawa also lacks a numerically based calendric system. To account for these data, and in opposition to a Universal Space-Time Mapping Hypothesis, we propose a Mediated Mapping Hypothesis, which accords causal importance to the numerical and artefact-based construction of time-based (as opposed to event-based) time interval systems.
Beim Kontakt der substandardsprachlichen deutschen Varietäten, die von Aussiedlern der Einwanderungsgeneration aus deutschen Sprachinseln der ehemaligen Sowjetunion mitgebracht wurden, mit der Standardsprache und den binnendeutschen Regionalvarietäten ergeben sich Veränderungen spezifischer Art, wie sie im deutschsprachigen Raum bei einheimischen Dialektsprechern bei der Konvergenz infolge von Standard/Dialekt-Variation nicht vorliegen. Wenn Sprecher aus einer Sprachinsel kommen, dann aktivieren sie im Laufe des Aufenthaltes in Deutschland ihre Variationsmuster auf Grund der dialektalen Vorkenntnisse des Deutschen und weiten ihr Repertoire in den standardsprachlichen und zum Teil auch regionalsprachlichen Bereich des Deutschen aus. Diesem Prozess und seinen Folgen ist die vorliegende Publikation gewidmet.
Sentiment analysis has so far focused on the detection of explicit opinions. However, of late implicit opinions have received broader attention, the key idea being that the evaluation of an event type by a speaker depends on how the participants in the event are valued and how the event itself affects the participants. We present an annotation scheme for adding relevant information, couched in terms of so-called effect functors, to German lexical items. Our scheme synthesizes and extends previous proposals. We report on an inter-annotator agreement study. We also present results of a crowdsourcing experiment to test the utility of some known and some new functors for opinion inference where, unlike in previous work, subjects are asked to reason from event evaluation to participant evaluation.
Converting and Representing Social Media Corpora into TEI: Schema and best practices from CLARIN-D
(2016)
The paper presents results from a curation project within CLARIN-D, in which an existing lMWord corpus of German chat communication has been integrated into the DEREKO and DWDS corpus infrastructures of the CLARIN-D centres at the Institute for the German Language (IDS, Mannheim) and at the Berlin-Brandenburg Academy of Sciences (BBAW, Berlin). The focus is on the solutions developed for converting and representing the corpus in a TEI format.
TripleA is a workshop series founded by linguists from the University of Tübingen and the University of Potsdam. Its aim is to provide a forum for semanticists doing fieldwork on understudied languages, and its focus is on languages from Africa, Asia, Australia and Oceania. The second TripleA workshop was held at the University of Potsdam, June 3-5, 2015.
The Shared Task on Source and Target Extraction from Political Speeches (STEPS) first ran in 2014 and is organized by the Interest Group on German Sentiment Analysis (IGGSA). This volume presents the proceedings of the workshop of the second iteration of the shared task. The workshop was held at KONVENS 2016 at Ruhr-University Bochum on September 22, 2016.
We present an approach to the new task of opinion holder and target extraction on opinion compounds. Opinion compounds (e.g. user rating or victim support) are noun compounds whose head is an opinion noun. We do not only examine features known to be effective for noun compound analysis, such as paraphrases and semantic classes of heads and modifiers, but also propose novel features tailored to this new task. Among them, we examine paraphrases that jointly consider holders and targets, a verb detour in which noun heads are replaced by related verbs, a global head constraint allowing inferencing between different compounds, and the categorization of the sentiment view that the head conveys.
We examine different features and classifiers for the categorization of opinion words into actor and speaker view. To our knowledge, this is the first comprehensive work to address sentiment views on the word level taking into consideration opinion verbs, nouns and adjectives. We consider many high-level features requiring only few labeled training data. A detailed feature analysis produces linguistic insights into the nature of sentiment views. We also examine how far global constraints between different opinion words help to increase classification performance. Finally, we show that our (prior) word-level annotation correlates with contextual sentiment views.
Overview of the IGGSA 2016 Shared Task on Source and Target Extraction from Political Speeches
(2016)
We present the second iteration of IGGSA’s Shared Task on Sentiment Analysis for German. It resumes the STEPS task of IGGSA’s 2014 evaluation campaign: Source, Subjective Expression and Target Extraction from Political Speeches. As before, the task is focused on fine-grained sentiment analysis, extracting sources and targets with their associated subjective expressions from a corpus of speeches given in the Swiss parliament. The second iteration exhibits some differences, however; mainly the use of an adjudicated gold standard and the availability of training data. The shared task had 2 participants submitting 7 runs for the full task and 3 runs for each of the subtasks. We evaluate the results and compare them to the baselines provided by the previous iteration. The shared task homepage can be found at http://iggsasharedtask2016.github.io/.
There is increasing interest in recognizing opinion inferences in addition to expressions of explicit sentiment. While different formalisms for representing inferential mechanisms are being developed and lexical resources are being built alongside, we here address the need for deeper investigation of the robustness of various aspects of opinion inference, performing crowdsourcing experiments with constructed stimuli as well as a corpus study of attested data.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels "sprich" als Diskursmarker bzw. Reformulierungsindikator Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand des Beispiels metapragmatischer Modalisierungen mit den Adverbien "sozusagen" und "gewissermaßen" und mit der Formel "in Anführungszeichen/-strichen" Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand vier verschiedener Beispiele Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.
We introduce our pipeline to integrate CMC and SM corpora into the CLARIN-D corpus infrastructure. The pipeline was developed by transforming an existing CMC corpus, the Dortmund Chat Corpus, into a resource conforming to current technical and legal standards. We describe how the resource has been prepared and restructured in terms of TEI encoding, linguistic annotations, and anonymisation. The output is a CLARIN-conformant resource integrated in the CLARIN-D research infrastructure.
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
Wiktionary is increasingly gaining influence in a wide variety of linguistic fields such as NLP and lexicography, and has great potential to become a serious competitor for publisher-based and academic dictionaries. However, little is known about the "crowd" that is responsible for the content of Wiktionary. In this article, we want to shed some light on selected questions concerning large-scale cooperative work in online dictionaries. To this end, we use quantitative analyses of the complete edit history files of the English and German Wiktionary language editions. Concerning the distribution of revisions over users, we show that — compared to the overall user base — only very few authors are responsible for the vast majority of revisions in the two Wiktionary editions. In the next step, we compare this distribution to the distribution of revisions over all the articles. The articles are subsequently analysed in terms of rigour and diversity, typical revision patterns through time, and novelty (the time since the last revision). We close with an examination of the relationship between corpus frequencies of headwords in articles, the number of article visits, and the number of revisions made to articles.
KorAP is a corpus search and analysis platform, developed at the Institute for the German Language (IDS). It supports very large corpora with multiple annotation layers, multiple query languages, and complex licensing scenarios. KorAP’s design aims to be scalable, flexible, and sustainable to serve the German Reference Corpus DEREKO for at least the next decade. To meet these requirements, we have adopted a highly modular microservice-based architecture. This paper outlines our approach: An architecture consisting of small components that are easy to extend, replace, and maintain. The components include a search backend, a user and corpus license management system, and a web-based user frontend. We also describe a general corpus query protocol used by all microservices for internal communications. KorAP is open source, licensed under BSD-2, and available on GitHub.
There have been several attempts to annotate communicative functions to utterances of verbal feedback in English previously. Here, we suggest an annotation scheme for verbal and non-verbal feedback utterances in French including the categories base, attitude, previous and visual. The data comprises conversations, maptasks and negotiations from which we extracted ca. 13,000 candidate feedback utterances and gestures. 12 students were recruited for the annotation campaign of ca. 9,500 instances. Each instance was annotated by between 2 and 7 raters. The evaluation of the annotation agreement resulted in an average best-pair kappa of 0.6. While the base category with the values acknowledgement, evaluation, answer, elicit and other achieves good agreement, this is not the case for the other main categories. The data sets, which also include automatic extractions of lexical, positional and acoustic features, are freely available and will further be used for machine learning classification experiments to analyse the form-function relationship of feedback.
The present paper describes Corpus Query Lingua Franca (ISO CQLF), a specification designed at ISO Technical Committee 37 Subcommittee 4 “Language resource management” for the purpose of facilitating the comparison of properties of corpus query languages. We overview the motivation for this endeavour and present its aims and its general architecture. CQLF is intended as a multi-part specification; here, we concentrate on the basic metamodel that provides a frame that the other parts fit in.