Refine
Year of publication
- 2016 (347) (remove)
Document Type
- Part of a Book (136)
- Article (104)
- Conference Proceeding (51)
- Book (33)
- Part of Periodical (12)
- Working Paper (5)
- Doctoral Thesis (3)
- Other (2)
- Preprint (1)
Keywords
- Deutsch (113)
- Korpus <Linguistik> (47)
- Gesprochene Sprache (31)
- Konversationsanalyse (24)
- Wörterbuch (22)
- Interaktion (20)
- Computerunterstützte Lexikographie (19)
- Linguistik (17)
- Diskursanalyse (16)
- Kommunikation (15)
Publicationstate
- Veröffentlichungsversion (169)
- Zweitveröffentlichung (35)
- Postprint (17)
- Erstveröffentlichung (1)
Reviewstate
Publisher
- Institut für Deutsche Sprache (45)
- de Gruyter (34)
- De Gruyter (23)
- Winter (19)
- European Language Resources Association (ELRA) (13)
- Narr Francke Attempto (12)
- Retorika (8)
- Peter Lang (7)
- Linssen Druckcenter (6)
- Association for Computational Linguistics (5)
The Component MetaData Infrastructure (CMDI) is a framework for the creation and usage of metadata formats to describe all kinds of resources in the CLARIN world. To better connect to the library world, and to allow librarians to enter metadata for linguistic resources into their catalogues, a crosswalk from CMDI-based formats to bibliographic standards is required. The general and rather fluid nature of CMDI, however, makes it hard to map arbitrary CMDI schemas to metadata standards such as Dublin Core (DC) or MARC 21, which have a mature, well-defined and fixed set of field descriptors. In this paper, we address the issue and propose crosswalks between CMDI-based profiles originating from the NaLiDa project and DC and MARC 21, respectively.
In their analysis of methods that participants use to manage the realization of practical courses of action, Kendrick and Drew (2016/this issue) focus on cases of assistance, where the need to be addressed is Self’s, and Other lends a helping hand. In our commentary, we point to other forms of cooperative engagement that are ubiquitously recruited in interaction. Imperative requests characteristically expect compliance on the grounds of Other’s already established commitment to a wider and shared course of actions. Established commitments can also provide the engine behind recruitment sequences that proceed nonverbally. And forms of cooperative engagement that are well glossed as assistance can nevertheless be demonstrably oriented to established commitments. In sum, we find commitment to shared courses of action to be an important element in the design and progression of certain recruitment sequences, where the involvement of Other is best defined as contribution. The commentary highlights the importance of interdependent orientations in the organization of cooperation. Data are in German, Italian, and Polish.
This book analyses requests for action on the basis of natural video-recorded data of everyday interaction in British English and Polish families. Jorg Zinken describes in his analyses the features of interactional context that people across cultures might be sensitive to in designing a request, as well as aspects of cultural diversity.
Co-development of action, conceptualization and social interaction mutually scaffold and support each other within a virtuous feedback cycle in the development of human language in children. Within this framework, the purpose of this article is to bring together diverse but complementary accounts of research methods that jointly contribute to our understanding of cognitive development and in particular, language acquisition in robots. Thus, we include research pertaining to developmental robotics, cognitive science, psychology, linguistics and neuroscience, as well as practical computer science and engineering. The different studies are not at this stage all connected into a cohesive whole; rather, they are presented to illuminate the need for multiple different approaches that complement each other in the pursuit of understanding cognitive development in robots. Extensive experiments involving the humanoid robot iCub are reported, while human learning relevant to developmental robotics has also contributed useful results.
Disparate approaches are brought together via common underlying design principles. Without claiming to model human language acquisition directly, we are nonetheless inspired by analogous development in humans and consequently, our investigations include the parallel co-development of action, conceptualization and social interaction. Though these different approaches need to ultimately be integrated into a coherent, unified body of knowledge, progress is currently also being made by pursuing individual methods.
Wiktionary is increasingly gaining influence in a wide variety of linguistic fields such as NLP and lexicography, and has great potential to become a serious competitor for publisher-based and academic dictionaries. However, little is known about the "crowd" that is responsible for the content of Wiktionary. In this article, we want to shed some light on selected questions concerning large-scale cooperative work in online dictionaries. To this end, we use quantitative analyses of the complete edit history files of the English and German Wiktionary language editions. Concerning the distribution of revisions over users, we show that — compared to the overall user base — only very few authors are responsible for the vast majority of revisions in the two Wiktionary editions. In the next step, we compare this distribution to the distribution of revisions over all the articles. The articles are subsequently analysed in terms of rigour and diversity, typical revision patterns through time, and novelty (the time since the last revision). We close with an examination of the relationship between corpus frequencies of headwords in articles, the number of article visits, and the number of revisions made to articles.
We present an empirical study addressing the question whether, and to which extent, lexicographic writing aids improve text revision results. German university students were asked to optimise two German texts using (1) no aids at all, (2) highlighted problems, or (3) highlighted problems accompanied by lexicographic resources that could be used to solve the specific problems. We found that participants from the third group corrected the largest number of problems and introduced the fewest semantic distortions during revision. Also, they reached the highest overall score and were most efficient (as measured in points per time). The second group with highlighted problems lies between the two other groups in almost every measure we analysed. We discuss these findings in the scope of intelligent writing environments, the effectiveness of writing aids in practical usage situations and teaching dictionary skills.
The author presents a study using eye-tracking-while-reading data from participants reading German jurisdictional texts. I am particularly interested in nominalisations. It can be shown that nominalisations are read significantly longer than other nouns and that this effect is quite strong. Furthermore, the results suggest that nouns are read faster in reformulated texts. In the reformulations, nominalisations were transformed into verbal structures. Reformulations did not lead to increased processing times of verbal constructions but reformulated texts were read faster overall. Where appropriate, results are compared to a previous study of Hansen et al. (2006) using the same texts but other methodology and statistical analysis.
Sprachkritik
(2016)
The present study uses electromagnetic articulography, by which the position of tongue and lips during speech is measured, for the study of dialect variation. By using generalized additive modeling to analyze the articulatory trajectories, we are able to reliably detect aggregate group differences, while simultaneously taking into account the individual variation of dozens of speakers. Our results show that two Dutch dialects show clear differences in their articulatory settings, with generally a more anterior tongue position in the dialect from Ubbergen in the southern half of the Netherlands than in the dialect of Ter Apel in the northern half of the Netherlands. A comparison with formant-based acoustic measurements further reveals that articulography is able to reveal interesting structural articulatory differences between dialects which are not visible when only focusing on the acoustic signal.
We examine different features and classifiers for the categorization of opinion words into actor and speaker view. To our knowledge, this is the first comprehensive work to address sentiment views on the word level taking into consideration opinion verbs, nouns and adjectives. We consider many high-level features requiring only few labeled training data. A detailed feature analysis produces linguistic insights into the nature of sentiment views. We also examine how far global constraints between different opinion words help to increase classification performance. Finally, we show that our (prior) word-level annotation correlates with contextual sentiment views.
We present an approach to the new task of opinion holder and target extraction on opinion compounds. Opinion compounds (e.g. user rating or victim support) are noun compounds whose head is an opinion noun. We do not only examine features known to be effective for noun compound analysis, such as paraphrases and semantic classes of heads and modifiers, but also propose novel features tailored to this new task. Among them, we examine paraphrases that jointly consider holders and targets, a verb detour in which noun heads are replaced by related verbs, a global head constraint allowing inferencing between different compounds, and the categorization of the sentiment view that the head conveys.
In this paper, we present a GOLD standard of part-of-speech tagged transcripts of spoken German. The GOLD standard data consists of four annotation layers – transcription (modified orthography), normalization (standard orthography), lemmatization and POS tags – all of which have undergone careful manual quality control. It comes with guidelines for the manual POS annotation of transcripts of German spoken data and an extended version of the STTS (Stuttgart Tübingen Tagset) which accounts for phenomena typically found in spontaneous spoken German. The GOLD standard was developed on the basis of the Research and Teaching Corpus of Spoken German, FOLK, and is, to our knowledge, the first such dataset based on a wide variety of spontaneous and authentic interaction types. It can be used as a basis for further development of language technology and corpus linguistic applications for German spoken language.
Lexikalisch-semantische Graduonymie. Eine empirisch basierte Arbeit zur lexikalischen Semantik
(2016)
Diese Arbeit befasst sich mit der Problematik gradueller Bedeutungsbeziehungen in der Sprache. Sie verfolgt das Ziel, die aufgrund der graduellen Opposition in Paradigmen formierten Wörter als eigenständigen Relationstyp der lexikalischen Semantik zu unterscheiden, ihn theoretisch herauszuarbeiten und empirisch zu fundieren. Diese Relation wird analog der terminologischen Tradition der "-nymie"-Relationen als Graduonymie bezeichnet. Mit verschiedenen empirischen Methoden wie der webbasierten Sprecherbefragung, Korpusanalysen, systematischen Tests und Kontrastierung mit dem Usbekischen werden die Validität und Stabilität der Daten überprüft und somit Erkenntnisse zum Phänomen der Graduonymie gewonnen. Dies bildet den Kernpunkt der Untersuchung. Dabei werden unterschiedliche Aspekte der Graduonymie betrachtet und analysiert. Der Vergleich der Methoden eröffnet neue Perspektiven auf die semantischen Relationen, die Vorgehensweise hat sich methodisch als erfolgreich erwiesen. Die Ergebnisse der Arbeit erbringen interessante Einsichten nicht nur in den Phänomenbereich der Graduonymie, sondern ergänzen den aktuellen Stand der lexikalischen Semantik sowohl in theoretischer Hinsicht als auch durch die methodenpluralistische Behandlung semantischer Relationen.
The aim of this study is to select and formulate criteria for the assessment of tools and exercises that are using computer-assisted pronunciation training (CAPT). We examined ten different CAPT tools selected on the basis of an informal questionnaire among 10 colleagues working in a German-French CAPT project. Although the applied assessment must still be regarded as informal, and although the selected CAPT tools might not be an optimal sample for representing the state of the art, the results clearly show that there is a lot to improve regarding the clarity of instruction, the quality of exercises, the robustness of the diagnosis, the clarity and appropriateness of scoring, the diversity of feedback methods, the assumed benefit for various types of users as well as the usage of ASR. Despite various good approaches regarding graphics and game-like exercises there are obviously missing links between the pedagogical expertise in phonetic training on the one hand, and software development including usability engineering on the other.
The IFCASL corpus is a French-German bilingual phonetic learner corpus designed, recorded and annotated in a project on individualized feedback in computer-assisted spoken language learning. The motivation for setting up this corpus was that there is no phonetically annotated and segmented corpus for this language pair of comparable of size and coverage. In contrast to most learner corpora, the IFCASL corpus incorporate data for a language pair in both directions, i.e. in our case French learners of German, and German learners of French. In addition, the corpus is complemented by two sub-corpora of native speech by the same speakers. The corpus provides spoken data by about 100 speakers with comparable productions, annotated and segmented on the word and the phone level, with more than 50% manually corrected data. The paper reports on inter-annotator agreement and the optimization of the acoustic models for forced speech-text alignment in exercises for computer-assisted pronunciation training. Example studies based on the corpus data with a phonetic focus include topics such as the realization of /h/ and glottal stop, final devoicing of obstruents, vowel quantity and quality, pitch range, and tempo.
The Component MetaData Infrastructure (CMDI) is the dominant framework for describing language resources according to ISO 24622 (ISO/TC 37/SC 4, 2015). Within the CLARIN world, CMDI has become a huge success. The Virtual Language Observatory (VLO) now holds over 800.000 resources, all described with CMDI-based metadata. With the metadata being harvested from about thirty centres, there is a considerable amount of heterogeneity in the data. In part, there is some use of controlled vocabularies to keep data heterogeneity in check, say when describing the type of a resource, or the country the resource is originating from. However, when CMDI data refers to the names of persons or organisations, strings are used in a rather uncontrolled manner. Here, the CMDI community can learn from libraries and archives who maintain standardised lists for all kinds of names. In this paper, we advocate the use of freely available authority files that support the unique identification of persons, organisations, and more. The systematic use of authority records enhances the quality of the metadata, hence improves the faceted browsing experience in the VLO, and also prepares the sharing of CMDI-based metadata with the data in library catalogues.
The Component MetaData Infrastructure (CMDI) provides a lego-brick framework for the creation, use and re-use of self-defined metadata formats. The design of CMDI can be a force forgood, but history shows that it has often been misunderstood or badly executed. Consequently,it has led the community towards the dark ages of metadata clutter rather than the bright side of semantic interoperability. In this abstract, we report on the condition of CMDI but also outlinean agenda to make the CMDI world a better place to use, share and profit from metadata.
Der Aufsatz knüpft an die Diskussion zur Verwendung von formalen grammatischen Kategorien im Sprachvergleich an (vgl. insbesondere Haspelmath 2007, 2010a, b und Newmeyer 2007, 2010). Es wird dabei nicht danach gefragt, ob sprachübergreifende grammatische Kategorien (oder genauer gesagt Kategorienausprägungen) existieren oder nicht bzw. ob einzelsprachliche grammatische Kategorien im Sprachvergleich sinnvoll einsetzbar sind, sondern wie ähnlich bzw. unterschiedlich einzelsprachliche Kategorien bzw. Kategorisierungen sind. Das Ziel ist damit, eine Methode zur Messung des Äquivalenzgrades von grammatischen Kategorien in verschiedenen Sprachen zu präsentieren; dies wird am Beispiel des IMPERATIVS im Deutschen, Englischen, Polnischen und Tschechischen illustriert.
Der Begriff der „Gattung“ wird in der Soziologie und der Sprachwissenschaft als Sammelbegriff für verfestigte, (sprachlich) ähnliche Muster mit repetitiver Frequenz zur Lösung verwandter kommunikativer Probleme gefasst (z.B. unterschiedliche moralische Gattungen, vgl. Bergmann/Luckmann (Hg.) 1999). Wenig Aufmerksamkeit wurde bislang den Gemeinsamkeiten und Unterschieden – also den Abgrenzungsmöglichkeiten – von prototypischen zu weniger prototypischen Vertretern einzelner Gattungsfamilien zuteil. Im vorliegenden Beitrag beschreiben wir anhand von authentischen Daten die sogenannten „Gassigespräche“ als spontane Kommunikation des Alltags von Hundebesitzer/innen. Außerhalb der Sprachwissenschaft werden diese primär als Hyponym des Hyperonyms „Small Talk“ subsumiert. Wir versuchen zunächst unter gattungsanalytischen Gesichtspunkten die obligatorischen und fakultativen Einheiten um ein – sofern es denn überhaupt existiert – prototypisches Zentrum von Small-Talk zu gruppieren. Anhand eines paradigmatischen Falls beschreiben wir Gemeinsamkeiten und Unterschiede in Bezug auf andere Gattungen, die sich im Spektrum der Alltagsgespräche – oder auch darüber hinaus – ansiedeln. Wir plädieren in der Diskussion dafür, Gattungsfamilien als mehr oder weniger verfestigte Muster mit teils wiederkehrenden Merkmalen zu sehen, die ihre Eigenschaften in Form und Funktion teilen können.
Die Mensch-Tier-Interaktion wird aus linguistischer Perspektive bislang hauptsächlich im Bereich des phatic talk angesiedelt. Meist werden ihr Funktionen zur Kontroll- oder Aufmerksamkeitssicherung des Hundes (Mitchell 2001) zugeschrieben. Als soziale Praxis innerhalb alltäglicher spontaner Kurzgespräche zwischen HundehalterInnen bietet die Mensch-Hund-Interaktion jedoch ein Repertoire innerhalb des kommunikativen Haushalts, mit dem spezifische, rekurrent auftretende kommunikative Aufgaben gelöst werden können. Dieser Beitrag betrachtet unter gesprächsanalytischen Gesichtspunkten dieses funktionale Spektrum mit besonderem Fokus auf das Adressierungsverhalten. Zunächst wird der bisherige Forschungsstand zu Adressierungsverhalten in natürlichen Gesprächen sowie zur Mensch-Tier- Interaktion beleuchtet. Anschließend werden konkrete Interaktionssequenzen innerhalb von Gassigesprächen analysiert, um herauszuarbeiten, welche interaktiven Funktionen das Sprechen mit dem Tier haben kann.
Der vorliegende Beitrag untersucht das Herstellen von Graffitis sowie diese selbst in einer praxistheoretischen Perspektive. Er stützt sich dabei exemplarisch auf Mannheimer Graffitis aus den Jahren 1998 bis 2014. Die Kultur des Szene-Graffiti markiert in ihren spezifischen Formen - den Artefakten und den (sprachlichen) Praktiken - einen eigenen kulturellen Bereich. Gezeigt wird, dass das Herstellen von Graffitis eine schriftsprachliche, auf Namen konzentrierte Praktik ist, dass aber die (Schrift-)Bildlichkeit im Vordergrund steht. Es wird einerseits die Ausführung der Praktik in ihren sozialen und körperlich-handwerklichen Aspekten dargestellt, andererseits werden Graffitis in ihren (schrift-) sprachlichen, graphostilistischen sowie bildlichen Eigenschaften beschrieben und dabei als Artefakte der Praktik perspektiviert. Diskutiert wird auch die Frage der Intentionalität der Praktik. Argumentiert wird, dass das Herstellen von Graf- fitis eine Praktik darstellt, deren Intentionalität wesentlich in der Reaktion auf einen „Aufforderungscharakter“ (Waldenfels 2000, S. 374) liegt, den die Praktik selbst miterzeugt.
The compilation of terminological vocabularies plays a central role in the organization and retrieval of scientific texts. Both simple keyword lists as well as sophisticated modellings of relationships between terminological concepts can make a most valuable contribution to the analysis, classification, and finding of appropriate digital documents, either on the Web or within local repositories. This seems especially true for long-established scientific fields with various theoretical and historical branches, such as linguistics, where the use of terminology within documents from different origins is sometimes far from being consistent. In this short paper, we report on the early stages of a project that aims at the re-design of an existing domain-specific KOS for grammatical content grammis. In particular, we deal with the terminological part of grammis and present the state-of-the-art of this online resource as well as the key re-design principles. Further, we propose questions regarding ramifications of the Linked Open Data and Semantic Web approaches for our re-design decisions.
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g. title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
Ausgehend von fundamentalen Einsichten konversationsanalytischer
Interaktionsforschung zum zentralen Stellenwert, den leibliche Kopräsenz und wechselseitige Wahrnehmung für die Ausgestaltung unserer interaktiven Praktiken besitzen, untersucht der Beitrag deiktische Praktiken in der Kommunikation von Angesicht zu Angesicht. Deixis – verbales und gestisches Zeigen für einen Anderen – kann phylo- und ontogenetisch (Tomasello 2003, 2006, 2008) als privilegierte Schnittstelle zwischen Interaktion und Grammatik, zwischen Sprache, menschlichen Körpern, Objekten, Wahrnehmung und Raum betrachtet werden. Auf der Grundlage eines breit angelegten Videokorpus unterschiedlicher Genres werden deiktische Zeigehandlungen als situierte, körpergebundene Praktiken analysiert und systematisch auf transsituative Gemeinsamkeiten und Unterschiede befragt. Die Ergebnisse der empirischen Analysen zur demonstratio ad oculos (dem Zeigen auf Sichtbares, Bühler 1965) und zur Deixis am Phantasma (dem Zeigen auf Unsichtbares, ebd.) werden in einen übergreifenden theoretischen Modell integriert. In dem multimodalen Modell wird Deixis als situierte, die interaktiven, kognitiven und perzeptorischen Ressourcen aller Beteiligten mobilisierende Praxis gemeinsamer Aufmerksamkeitsfokussierung begriffen (Stukenbrock 2015b).
Dieser Beitrag ist ein Argument für die Subsumption grammatischer Analyse sprachlicher Formen unter die Analyse kommunikativer Praktiken. Er beschreibt zunächst ein Phänomen, das regelmäßig beschreibende Handgesten begleitet (der Sprecher blickt auf die eigene, gestikulierende Hand) und diskutiert dann sprachliche Einheiten (Wörter und Konstruktionen) in vier Sprachen (Deutsch, Japanisch, Ilokano und US-Englisch), die ebenfalls regelmäßig mit beschreibenden Handgesten verbunden sind und diese gleichsam in die Struktur der sprachlichen Äußerung integrieren bzw. das Bindeglied einer bimodalen Beschreibung bilden. Man kann diese bimodalen Gebilde als sprachspezifische Konstruktionen fassen, aber ebenso als Sedimente zunächst sprachunabhängiger Praktiken, die sich spezifischer einzelsprachiger Ressourcen bedienen. Demgegenüber lassen sich gestische Beschreibungen selbst in der Regel nur als improvisierende Realisierungen von Praktiken (gestischen Beschreibungsmethoden) auffassen, nicht aber als Formen in einem je schon existierenden Formsystem. Wie neue sprachliche Formen durch die Rekonfiguration kommunikativer Praktiken sedimentiert werden und wie Form und Praktik einander bedingen, wird am Beispiel des neuen US-Englischen verbum dicendi ‚be like‘ illustriert.
Der Beitrag fasst die Schritte einer Projektvorstellung und aktuelle Reflexionen über ein am Institut für Deutsche Sprache in Mannheim neues, korpusgestütztes Paronymwörterbuch zusammen. Zunächst wird der Begriff der Paronymie in einer Arbeitsdefinition eingegrenzt und es wird gezeigt, welche Lücke mit dem neuen Werk in der Wörterbuchlandschaft geschlossen wird. Im Anschluss werden ausgewählte methodische Aspekte sowie Fragen der Wortartikelinhalte und -präsentation skizziert.
Sense relations
(2016)
Kookkurrenzen (zum Beispiel ‘Beziehungen pflegen’ oder ‘wirtschaftlich bankrott’) gehören zum zentralen Gegenstand jeder korpusanalytischen Studie. Als Wortverbindungen sind sie Einheiten, die unter bestimmten kontextuellen Voraussetzungen zustande kommen und die wichtige Funktionen im Syntagma, Satz oder Text aufweisen. Kookkurrenzen stellen den systematischen Zugang zur Erfassung von Bedeutung, Funktionen sowie von konventionalisierten Mustern dar. Ihre Relevanz wird auch zunehmend in kultur- und politikwissenschaftlich und in kognitiv orientierten Wissenschaftsbereichen anerkannt.
Mit diesem Band wird Fachliteratur zu zentralen Bereichen und Themen zusammengefasst, bei denen korpusanalytische Verfahren zur Untersuchung typischer Wortkombinationen im Mittelpunkt stehen. Dazu zählen neben Überblicksliteratur und allgemeinen Einführungen auch interessante Einzelstudien, die mit diversen Korpusansätzen arbeiten, sowie weiterführende Links und Materialsammlungen. Dieser Band bildet insbesondere die Themenschwerpunkte ab, die gegenwärtig viel Aufmerksamkeit erhalten.