Refine
Year of publication
- 2012 (272) (remove)
Document Type
- Part of a Book (120)
- Article (82)
- Conference Proceeding (35)
- Book (19)
- Part of Periodical (11)
- Doctoral Thesis (2)
- Other (2)
- Review (1)
Keywords
- Deutsch (118)
- Korpus <Linguistik> (28)
- Konversationsanalyse (19)
- Computerlinguistik (16)
- Englisch (11)
- Sprachgebrauch (11)
- Interaktion (10)
- Kontrastive Grammatik (10)
- Deutschland (9)
- Diskursanalyse (9)
Publicationstate
- Veröffentlichungsversion (102)
- Zweitveröffentlichung (23)
- Postprint (15)
Reviewstate
Publisher
- de Gruyter (37)
- Institut für Deutsche Sprache (31)
- Narr (17)
- European Language Resources Association (8)
- Lang (8)
- De Gruyter (7)
- European Language Resources Association (ELRA) (5)
- Verl. für Gesprächsforschung (5)
- Akademie Verlag (4)
- Springer (4)
"Dem Manne kann geholfen werden" Wann kommt das Dativ-e zum Einsatz? (Einem Freunde zur Erquickung)
(2012)
In meiner 2010 erschienenen Dissertation „Migration, Sprache und Rassismus“ habe ich mit ethnografischen, gesprächsanalytischen und -rhetorischen Methoden den Kommunikationsstil von zwei akademischen Migrantenmilieus(„emanzipatorische Migranten“ und „akademische Europatürken“) in Deutschland untersucht. Die Studie war Teil des Projekts „Deutschtürkische Sprachvariation und die Herausbildung kommunikativer Stile in dominant türkischen Migrantengruppen“, das am Institut für Deutsche Sprache durchgeführt wurde.
"wer ich bin? dein schlimmster alptraum, baby!" Cybermobbing - ein Thema für den Deutschunterricht
(2012)
This paper presents the application of the <tiger2/> format to various linguistic scenarios with the aim of making it the standard serialisation for the ISO 24615 [1] (SynAF) standard. After outlining the main characteristics of both the SynAF metamodel and the <tiger2/> format, as extended from the initial Tiger XML format [2], we show through a range of different language families how <tiger2/> covers a variety of constituency and dependency based analyses.
A key difference between traditional humanities research and the emerging field of digital humanities is that the latter aims to complement qualitative methods with quantitative data. In linguistics, this means the use of large corpora of text, which are usually annotated automatically using natural language processing tools. However, these tools do not exist for historical texts, so scholars have to work with unannotated data. We have developed a system for systematic iterative exploration and annotation of historical text corpora, which relies on an XML database (BaseX) and in particular on the Full Text and Update facilities of XQuery.
We present a gold standard for semantic relation extraction in the food domain for German. The relation types that we address are motivated by scenarios for which IT applications present a commercial potential, such as virtual customer advice in which a virtual agent assists a customer in a supermarket in finding those products that satisfy their needs best. Moreover, we focus on those relation types that can be extracted from natural language text corpora, ideally content from the internet, such as web forums, that are easy to retrieve. A typical relation type that meets these requirements are pairs of food items that are usually consumed together. Such a relation type could be used by a virtual agent to suggest additional products available in a shop that would potentially complement the items a customer has already in their shopping cart. Our gold standard comprises structural data, i.e. relation tables, which encode relation instances. These tables are vital in order to evaluate natural language processing systems that extract those relations.
Creating and maintaining metadata for various kinds of resources requires appropriate tools to assist the user. The paper presents the metadata editor ProFormA for the creation and editing of CMDI (Component Metadata Infrastructure) metadata in web forms. This editor supports a number of CMDI profiles currently being provided for different types of resources. Since the editor is based on XForms and server-side processing, users can create and modify CMDI files in their standard browser without the need for further processing. Large parts of ProFormA are implemented as web services in order to reuse them in other contexts and programs.
This paper presents the system architecture as well as the underlying workflow of the Extensible Repository System of Digital Objects (ERDO) which has been developed for the sustainable archiving of language resources within the Tübingen CLARIN-D project. In contrast to other approaches focusing on archiving experts, the described workflow can be used by researchers without required knowledge in the field of long-term storage for transferring data from their local file systems into a persistent repository.
This paper describes work in progress on I5, a TEI-based document grammar for the corpus holdings of the Institut für Deutsche Sprache (IDS) in Mannheim and the text model used by IDS in its work. The paper begins with background information on the nature and purposes of the corpora collected at IDS and the motivation for the I5 project (section 1). It continues with a description of the origin and history of the IDS text model (section 2), and a description (section 3) of the techniques used to automate, as far as possible, the preparation of the ODD file documenting the IDS text model. It ends with some concluding remarks (section 4). A survey of the additional features of the IDS-XCES realization of the IDS text model is given in an appendix.
The paper presents an XML schema for the representation of genres of computer-mediated communication (CMC) that is compliant with the encoding framework defined by the TEI. It was designed for the annotation of CMC documents in the project Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK), which aims at building a corpus on language use in the most popular CMC genres on the German-speaking Internet. The focus of the schema is on those CMC genres which are written and dialogic―such as forums, bulletin boards, chats, instant messaging, wiki and weblog discussions, microblogging on Twitter, and conversation on “social network” sites.
The schema provides a representation format for the main structural features of CMC discourse as well as elements for the annotation of those units regarded as “typical” for language use on the Internet. The schema introduces an element <posting>, which describes stretches of text that are sent to the server by a user at a certain point in time. Postings are the main constituting elements of threads and logfiles, which, in our schema, are the two main types of CMC macrostructures. For the microlevel of CMC documents (that is, the structure of the <posting> content), the schema introduces elements for selected features of Internet jargon such as emoticons, interaction words and addressing terms. It allows for easy anonymization of CMC data for purposes in which the annotated data are made publicly available and includes metadata which are necessary for referencing random excerpts from the data as references in dictionary entries or as results of corpus queries.
Documentation of the schema as well as encoding examples can be retrieved from the web at http://www.empirikom.net/bin/view/Themen/CmcTEI. The schema is meant to be a core model for representing CMC that can be modified and extended by others according to their own specific perspectives on CMC data. It could be a first step towards an integration of features for the representation of CMC genres into a future new version of the TEI Guidelines.
This paper presents Release 2.0 of the SALSA corpus, a German resource for lexical semantics. The new corpus release provides new annotations for German nouns, complementing the existing annotations of German verbs in Release 1.0. The corpus now includes around 24,000 sentences with more than 36,000 annotated instances. It was designed with an eye towards NLP applications such as semantic role labeling but will also be a useful resource for linguistic studies in lexical semantics.
Die adnominalen (attributiven) Verwendungsmöglichkeiten von temporalen und lokalen Adverbien im Deutschen werden untersucht und mit denen aus vier anderen europäischen Nachbarsprachen – Englisch, Französisch, Polnisch, Ungarisch – verglichen. Gezeigt wird, wie diese Sprachen unterschiedliche Anbindungsstrategien nutzen, um Adverbien in attributiver Funktion einsetzen zu können. Drei solcher Strategien werden unterschieden: Juxtaposition, Adjektivierung und formale Verknüpfung. Die Anbindungsstrategien sind in den Vergleichssprachen unterschiedlich verteilt und in unterschiedlichem Maße dominant. Verfügt eine Sprache über zwei oder mehr Anbindungsstrategien, so können diese in Abhängigkeit von der semantischen Teilklasse des Attributs mit verschiedenen semantischen Beschränkungen und Effekten korreliert sein. Diese bezeichnen wir als temporale bzw. lokale Kompatibilität, Persistenz und Oppositivität. Es lassen sich z.T. übereinzelsprachlich bestimmte Form-Funktions-Korrelationen zwischen Anbindungsstrategien und semantischen Beschränkungen bzw. Effekten feststellen. So können adjektivische und formal verknüpfte Attribute Persistenz und Oppositivität kodieren, juxtaponierte dagegen grundsätzlich nicht.
Am Anfang war die Lücke
(2012)
Dieser Beitrag versucht, eine Einschätzung der Einsatzmöglichkeiten für automatische Analysemethoden aus der aktuellen computerlinguistischen Forschung für die sprachvergleichende Grammatikforschung vorzunehmen. Zur Illustration werden die Ergebnisse einer computerlinguistischen Studie für die vergleichende Untersuchung von Spaltsatzkonstruktionen in verschiedenen Sprachen wiedergegeben und ausführlich diskutiert. Der Korpuszugang erfolgt in diesem Rahmen auf Basis einer vollautomatischen syntaktischen Analyse, die dann noch zusätzlich durch eine statistische Wortalignierung kontrastiv auf Parallelkorpora beleuchtet werden kann. Neben der Vorstellung der bereits bestehenden automatischen Annotationsmöglichkeiten, die in meinen Augen vielversprechende Wege für den sprachwissenschaftlichen Korpuszugang eröffnen, ist die Hoffnung, dass dieser Beitrag durch die abschließende Diskussion zu dem Bewusstsein beiträgt, dass eine tiefere, organischere Verbindung der beiden sprachwissenschaftlichen Disziplinen möglich ist: dann nämlich, wenn der Korpuszugang nicht mit statischen, vordefinierten Werkzeugen erfolgt, deren Verhalten durch die Grammatikforscherin oder den Grammatikforscher nicht beeinflusst werden kann, sondern wenn ein interaktiver Werkzeuggebrauch erfolgt, der von den vielfältigen Anpassungsmöglichkeiten mit den zugrunde liegenden maschinellen Lernverfahren Gebrauch macht.
Für Muttersprachler des Polnischen und anderer artikelloser Sprachen gehört der Gebrauch des Artikels zu den schwierigsten Kapiteln der deutschen Grammatik. Sie haben große Mühe zu verstehen, wann im Deutschen der Definitartikel, wann der Indefinitartikel und wann kein Artikel verwendet wird.
Die vorliegende Arbeit setzt bei diesen Schwierigkeiten an. Sie versucht eine systematische Darstellung von Funktion und Gebrauch der Artikel, die den Vergleich mit dem Polnischen besonders berücksichtigt. Im Unterschied zum größten Teil der vorhandenen Literatur wird nicht nur der Artikelgebrauch in referentiellen Nominalphrasen, sondern auch der in prädikativen und anderen nicht-referentiellen Nominalphrasen ausführlich gewürdigt. Im Hinblick auf die Didaktisierung wird die Frage in den Mittelpunkt gestellt, welche Sprachmittel des Polnischen Funktionen erfüllen, die denen der deutschen Artikelwörter nahekommen.
Language attitudes may be differentiated into attitudes towards speakers and attitudes towards languages. However, to date, no systematic and differentiated instrument exists that measures attitudes towards language. Accordingly, we developed, validated, and applied the Attitudes Towards Languages (AToL) scale in four studies. In Study 1, we selected 15 items for the AToL scale, which represented the three dimensions of value, sound, and structure. The following studies replicated and validated the three-factor structure and differential mean profiles along the three dimensions for different languages (a) in a more diverse German sample (Study 2), (b) in different countries (Study 3), and (c) when participants based their evaluations on speech samples (Study 4). Moreover, we investigated the relation between the AToL dimensions and stereotypic speaker evaluations. Results confirm the reliability, validity, and generalizability of the AToL scale and its incremental value to mere speaker evaluations.
This chapter explores the Linguistic Landscape of six medium-size towns in the Baltic States with regard to languages of tourism and to the role of English and Russian as linguae francae. A quantitative analysis of signs and of tourism web sites shows that, next to the state languages, English is the most dominant language. Yet, interviews reveal that underneath the surface, Russian still stands strong. Therefore, possible claims that English might take over the role of the main lingua franca in the Baltic States cannot be maintained. English has a strong position for attracting international tourists, but only alongside Russian which remains important both as a language of international communication and for local needs.
The present contribution addresses an infrastructural issue of universal relevance, addressed in the specific context of the TEI. We describe a combination of open-source tools and an open-access approach to creating knowledge repositories that have been employed in building a bibliographic reference library for the “TEI for Linguists” special interest group (LingSIG). The authors argue that, for an initiative such as the TEI, it is important to choose open, freely available solutions. If these solutions have the advantage of attracting new users and promoting the initiative itself, so much the better, especially if it is done in a non-committal way: no one using the LingSIG bibliographic repository has to be a member of the LingSIG or a “TEI-er” in general.
Ce chapitre s’intéresse à la façon dont les changements de langue dans des réunions sont gérés par les parties co-présentes qui les traitent comme posant des problèmes de participation, en s’orientant vers le fait que le choix d’une langue particulière peut avoir comme effet d’augmenter ou bien de diminuer la participation de certains ou de tous les membres co-présents. Le choix d’une langue plutôt que d’une autre est étudié comme répondant à un problème des membres et comme une décision prise par eux, exhibant la manière dont ils s’orientent vers ses conséquences et dont ils élaborent sa justification et légitimité. Dans ce sens, le choix de l’anglais ou de plusieurs langues co-existantes voire alternantes n’a pas en soi une valeur positive ou négative en termes de participation, d’adéquation ou d’efficacité, mais a une valeur qui est située et occasionnée, dépendant des formats spécifiques de participation, des compétences reconnues localement et de la manière dont l’interaction est organisée. Afin d’explorer de manière systématique cette articulation entre choix de langue et participation, nous allons nous pencher sur un phénomène particulier et récurrent. Il s’agit de l’annonce qui projette un changement de langue et qui peut prendre une forme telle que “now we will switch into English so that you can participate”. Nous l’analyserons en tenant compte de la position séquentielle où elle est produite, de son format, de la façon dont elle est adressée à une partie ou à la totalité des co-présents, et de l’action spécifique qui y est accomplie. Nous étudierons aussi la manière dont elle est reçue, ses effets sur le cadre de participation, ainsi que les catégorisations qui en découlent. On montrera ainsi la relation de configuration mutuelle qui s’établit entre choix de langue et cadre de participation. Nos analyses seront développées sur la base de plusieurs corpus de rencontres professionnelles internationales enregistrées en audio et en vidéo sur plusieurs terrains. Les données vidéo nous invitent à considérer non seulement la dimension linguistique des cadres participatifs et des changements de langue, mais aussi leur organisation multimodale : l’organisation incarnée (embodied) du code-switching n’a pratiquement pas encore été explorée et la participation incarnée reste sous-étudiée, ainsi que son lien avec des espaces interactionnels spécifiques. Ce chapitre montre que les détails multimodaux sont cruciaux pour la compréhension des liens entre plurilinguisme et participation en tant que dynamiques occasionnées, contingentes et émergentes.
The paper’s purpose is to give an overview of the work on the Component Metadata Infrastructure (CMDI) that was implemented in the CLARIN research infrastructure. It explains, the underlying schema, the accompanying tools and services. It also describes the status and impact of the CMDI developments done within the CLARIN project and past and future collaborations with other projects.
In developing an interdisciplinary approach integrating Conversation Analysis (“CA”), audiology and User Centered Design, the applied goal of this international collaboration is to analyze real-world social interaction from the perspective of the participants in order to build an empirical basis for innovation in the field of communication with hearing impairment and hearing aid use. In reviewing theory, methodology and analysis of eight cases analyzed in this volume, the editors assess the potential of application for the various stakeholders in communication with hearing loss and hearing aids, including the estimated impact factor. The chapter closes with a consideration of desiderata for future research.
Our paper outlines a proposal for the consistent modeling of heterogeneous lexical structures in semasiological dictionaries, based on the element structures described in detail in chapter 9 (Dictionaries) of the TEI Guidelines. The core of our proposal describes a system of relatively autonomous lexical “crystals” that can, within the constraints of the relevant element’s definition, be combined to form complex structures for the description of morphological form, grammatical information, etymology, word-formation, and meaning for a lexical structure.
The encoding structures we suggest guarantee sustainability and support re-usability and interoperability of data. This paper presents case studies of encoding dictionary entries in order to illustrate our concepts and test their usability.
We comment on encoding issues involving <entry>, <form>, <etym>, and on refinements to the internal content of <sense>.
Although most of the relevant dictionary productions of the recent past have relied on digital data and methods, there is little consensus on formats and standards. The Institute for Corpus Linguistics and Text Technology (ICLTT) of the Austrian Academy of Sciences has been conducting a number of varied lexicographic projects, both digitising print dictionaries and working on the creation of genuinely digital lexicographic data. This data was designed to serve varying purposes: machine-readability was only one. A second goal was interoperability with digital NLP tools. To achieve this end, a uniform encoding system applicable across all the projects was developed. The paper describes the constraints imposed on the content models of the various elements of the TEI dictionary module and provides arguments in favour of TEI P5 as an encoding system not only being used to represent digitised print dictionaries but also for NLP purposes.
Das Deutsch der Migranten
(2012)
In this paper, we examine methods to automatically extract domain-specific knowledge from the food domain from unlabeled natural language text. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. We also examine a combination of extraction methods and also consider relationships between different relation types. The extraction methods are applied both on a domain-specific corpus and the domain-independent factual knowledge base Wikipedia. Moreover, we examine an open-domain lexical ontology for suitability.
Deklinationsklassen bilden einen Grundpfeiler des traditionellen Paradigmenmodells, das nach dem Vorbild der Grammatiken der klassischen Sprachen auch für die Beschreibung der deutschen Substantivflexion Verwendung gefunden hat. Im vorliegenden Beitrag soll die Rolle, die Deklinationsklassen in der deutschen Substantivdeklination spielen, überprüft werden. Beobachtungen zur Substantivflexion in verschiedenen europäischen Sprachen, darunter das Ungarische, das Polnische und das Italienische, die unterschiedliche Positionen innerhalb eines Spektrums besetzen, das vom hochflexivischen Lateinischen bis zu Sprachen ohne Deklinationsklassen (wie dem Englischen oder dem Türkischen) reicht, liefern Bausteine für eine Neuanalyse der deutschen Substantivflexion. Sichtbar wird, dass die deutsche Substantivflexion, bildlich gesprochen, auf dem Weg vom „Typus Latein“ zum „Typus Englisch“ schon sehr viel weiter fortgeschritten ist, als dies traditionelle Darstellungen nahe legen. An die Stelle der für kanonische Deklinationsklassen charakteristischen Sätze von klassentypischen Flexiven ist eine kleine Menge von Mustern der Stammformenbildung getreten.
Dieser Beitrag beleuchtet die Vor- und Nachteile korpusgestützter lexikografischer Methoden zur Ermittlung und Dokumentation sinnrelationaler Ausdrücke eines Stichwortes. Konkrete Beispiele aus der Praxis des elexiko-Wörterbuchs dienen der Veranschaulichung von Chancen als auch von konkreten Problemen, die die eingesetzten Methoden mit sich bringen. Für die Gewinnung potentieller Synonyme und Antonyme nutzt elexiko zwei unterschiedliche Verfahren, die mit verschiedenen Prämissen an ein Korpus als Datengrundlage herantreten (cf. Tognini-Bonelli 2001). Das korpusgesteuerte / korpusgeleitete Verfahren der Kollokationsanalyse und die zugrunde liegende Ermittlung von Ausdrücken mit verwandten Kollokationsprofi len (related profiles) (cf. Belica 2011) dienen der empirischen und statistischen Absicherung von sprachlichen Phänomenen. Sie erweisen sich aber als lückenhaft in Bezug auf einige Kontexte, in denen semantisch-konzeptuelle Beziehungen der Ähnlichkeit oder des Gegensatzes realisiert, aber nicht mit Korpustools erfasst werden. Mit der Anwendung der in elexiko komplementär genutzten korpusbasierten Vorgehensweise können diese Lücken teilweise gefüllt werden. Das Zusammenspiel beider Korpusansätze hat sich in der lexikografischen Praxis prinzipiell als vorteilhaft erwiesen, bringt jedoch auch Erkenntnisse zum Vorschein, die bisher weder linguistisch erfasst noch lexikografisch dokumentiert wurden und löst nicht, wie teilweise angenommen, das Problem inhaltlicher Inkonsistenzen (cf. Paradis/Willners 2007). Diese Aspekte werden anhand von konkreten Korpusbeispielen und Wörterbucheinträgen illustriert. Als Online-Wörterbuch profitiert elexiko von seinen schnellen Navigationsmöglichkeiten über Verlinkungen. Diese werden auch für sinnrelationale Partnerwörter wie Synonyme und Antonyme angelegt, um diverse Vernetzungsstrukturen nachvollziehbar zu machen. Die Arbeit mit einem Korpus kann bis zu einem gewissen Grad die Konsistenz der bidirektionalen Vernetzungen gewährleisten, sie aber nicht vollständig absichern. In diesem Beitrag wird auch die Frage beantwortet, inwieweit die erwähnten Korpusmethoden dazu beitragen, das gegenseitige Dokumentieren zwischen Synonym- oder Antonympaaren sicherzustellen. Anhand des für diese Zwecke entwickelten Tools vernetziko, einem Vernetzungsmanager, wird gezeigt, warum die Unterstützung zusätzlicher Software für eine konsistente Verlinkung zwischen paradigmatisch miteinander verbundenen Stichwörtern unerlässlich ist(Storjohann/Meyer 2012).
The changes caused by the growing automatisation of processes in the lexicographer´s workstation and in lexicographic work, together with the ensuing needs of lexicographers and their demands for adequately targeted software, have not been discussed sufficiently in meta-lexicographic research. The aim of this paper is therefore to fill this gap, with a focus on academic non-commercial lexicography. After an introduction into the general functionalities of specific dictionary writing software, with the help of a real-life example we will discuss the lexicographic working environment, the new specific demands to lexicographic software as well as different tools. The final aim is to propose some recommendations for how to structure the lexicographic working environment to meet specific project requirements.
Das sprachlich-kommunikative Verhalten einer nordbayerischen kommunalpolitischen Frauengruppe ist Untersuchungsgegenstand dieser gesprächsanalytischen Studie. Ethnographien der Kommunikation zeichnen ein „Portrait“ des kommunikativen sozialen Stils einer Interaktionsgemeinschaft und bringen Erkenntnisse über Strategien der Beziehungsarbeit sowie der Selbst- und Fremddarstellung hervor. Übergreifende Konzepte wie das Face, die Modalität und die Frage nach präferierten Themen und Aktivitätstypen werden für die Analyse herangezogen. Elemente „professioneller“ Interaktion (Sitzungsleitung, Tagesordnung, Regeln der Rederechtsvergabe) mischen sich bei der untersuchten Gruppe mit einem freundschaftlich-privaten und scherzhaften „Umgangston“ sowie mit Eigenheiten weiblichen Kommunikationsverhaltens. Dabei referieren die Beteiligten auf ihre geteilte Lebenswelt, ihre gemeinsamen Werte und Ziele und entwickeln einen sozialen Stil des Sprechens, der sowohl Integrationsfaktor, als auch Strategie zur Bewältigung der spezifischen Lebensanforderungen ist.
Der Beitrag untersucht im Rahmen von korpusgestütztem Belegmaterial die Bedingungen, unter denen Geräuschverben des Deutschen eine Direktivvariante aufweisen können. Dabei wird beabsichtigt, die wissenschaftliche Diskussion um Valenz- vs. Konstruktionsgrammatik mittels einer Analyse, die sich auf das Zusammenwirken von internen und externen lexikalischen Form- und Inhaltsrelationen stützt, zu bereichern.
Im Sprachvergleich zeigt sich, wo das Deutsche eigene Wege geht und wo seine Strukturen mit denen anderer Sprachen konvergieren. Die Beiträge des Jahrbuchs 2011 widmen sich dem Vergleich des Deutschen auf allen grammatischen Ebenen, von der Phonetik und Phonologie, Graphematik, Morphologie und Syntax bis zur Semantik, Pragmatik und Textgrammatik. Ergänzend werden neuere korpuslinguistische Methoden des Sprachvergleichs vorgestellt.
This document presents ongoing work related to spoken language data within a project that aims to establish a common and unified infrastructure for the sustainable provision of linguistic primary research data at the Institut für Deutsche Sprache (IDS). In furtherance of its mission to “document the German language as it is currently used”, the project expects to enable the research community to access a broad empirical base of working material via a single platform. While the goal is to eventually cover all linguistically relevant digital resources of the IDS, including lexicographic information systems such as the IDS German Vocabulary Portal, OWID, written language corpora such as the IDS German Reference Corpus, DeReKo, and spoken language corpora such as the IDS German Speech Corpus for Research and Teaching, FOLK, the work presented here predominantly focuses on the latter type of data, i.e. speech corpora. Within this context, the present document pictures the project’s contributions to the development of standards and best practice guidelines concerning data storage, process documentation and legal issues for the sustainable preservation and long-term accessibility of primary linguistic research data.
Electronic dictionaries should support dictionary users by giving them guidance in text production and text reception, alongside a user-definable offer of lexicographic data for cognitive purposes. In this article, we sketch the principles of an interactive and dynamic electronic dictionary aimed at text production and text reception guiding users in innovative ways, especially with respect to difficult, complicated or confusing issues. The lexicographer has to do a very careful analysis of the nature of the possible problems to suggest an optimal solution for a specific problem. We are of the opinion that there are numerous complex situations where users need more detailed support than currently available in e-dictionaries, enabling them to make valid and correct choices. For highly complex situations, we suggest guidance through a decision tree-like device. We assume that the solutions proposed here are not specific to one language only but can, after careful analysis, be applied to e-dictionaries in different languages across the world.
Die Studie untersucht die Formen, Funktionalität und Relevanz von binnensprachlichen Variationsphänomenen im schwäbischen Dialektraum anhand der Sprachgebrauchspraktiken in einer neunten Klasse eines Gymnasiums in Ulm. Im Mittelpunkt stehen der Gebrauch koexistenter sprachlicher Formen mit unterschiedlicher Nähe oder Distanz zu den Polen Standard und Dialekt des sprachlichen Kontinuums und daraus ableitbare Hinweise auf die Varietätentektonik im untersuchten Sprachraum. Durch die Kombination von quantitativ und qualitativ orientierten Analyseverfahren werden die Zusammenhänge von formalen Mustern und funktionalen Möglichkeiten von Sprachvariation greifbar gemacht. Dabei wird deutlich, dass der variative Gebrauch der sprachlichen Formen bei den untersuchten Sprechern strukturiert ist und als interaktionskonstitutive linguistische Ressource in Bezug zu unterschiedlichen situativen Kommunikationsanforderungen an die Lehrer und Schüler steht.
We had found ourselves in the “Gutenberg-Galaxy” before the digitalization made its rise. The development of the book printing by Johannes Gutenberg and developments based on it as well as the following industrialization of printing are decisive for the expansion of the cultural revolution. It has meanwhile been transformed, upgraded and replaced by something which has been called “Turing Galaxy”. One of the most important changes is the automatic processing of data, the program-controlled production or manipulation of texts, images, sounds, formulas, tables and videos. The internet has led us to new distribution channels. The paper shows which trends of development concerning the cultural skills of writing and reading have been realized up to now as a result of the digitalization. Three aspects of development will be discussed: how the way of writing has changed to the present moment by the means of automation, multimodality and networking.
Die wortinitialen Segmente in Deutsch ja, jung sowie die Zweitkomponenten in den so genannten schließenden Diphthongen wie in Hai, Heu, Hau weisen im Vergleich zu hohen Vokalen in Kuh, Knie eine stark variierende Artikulation auf – zudem treten diese Laute in unterschiedlichen Kontexten auf. Die hier beobachtbaren Zusammenhänge zwischen Distribution und Aussprache lassen auf durch unterschiedliche silbische Positionen bedingte Allophonie schließen (Morciniec 1958; Shannon 1984; Hall 1992; für Englisch: Jakobson/Fant/Halle 1952, S. 20). Eine solche Analyse, die zudem eine erhebliche Reduktion des Phoneminventars beinhaltet, konnte sich bislang für das Deutsche nicht durchsetzen: Gewöhnlich sind sowohl die schließenden Diphthonge als auch [j] im deutschen Phoneminventar aufgeführt; letzteres Segment wird sogar meist als Frikativ klassifiziert. Der Sprachvergleich ergibt neue phonologische Generalisierungen, die eine durch Silbenstruktur bedingte allophonische Analyse stützen. Insbesondere lassen sich Abstufungen erkennen, die auf durch Sonorität bestimmte Silbifizierungsbedingungen schließen lassen.
Der Aufsatz greift das Thema der Syntax und Semantik deutscher und italienischer Subjunktoren am Beispiel von während und mentre auf. Er entstand im Rahmen eines Kooperationsprojekts zwischen dem Institut für Deutsche Sprache Mannheim und dem Dipartimento di Studi Umanistici der Università del Piemonte Orientale in Vercelli. Ziel des Projekts ist die vergleichende Beschreibung syntaktischer, semantischer und text- bzw. informationsstruktureller Eigenschaften von Satzkonnektoren.
Schlafende Zuhörer, unlesbare Folien, monotones Genuschel? Wer im Studium nicht präsentieren kann, langweilt andere und schadet sich selbst.
Henning Lobin erklärt Schritt für Schritt, wie eine gute Präsentation entsteht und das Publikum überzeugt. Erläutert wird, wie man die Aufmerksamkeit anderer gewinnt, wie Visualisierungstechniken richtig eingesetzt werden, welche rhetorischen Techniken wirken und wie man sich in der anschließenden Diskussion bewährt. Studienanfänger wie Doktoranden lernen hier, wie die nächste Präsentation zum Erfolg wird.
Mit rund 200 Millionen Nutzerinnen und Nutzern und stetig wachsenden Zahlen gewinnt das Web 2.0 Angebot Twitter mehr und mehr an Bedeutung. Doch was ist das Besondere an dieser neuen Form der Online-Medien? Jessica Einspänner, Mark Dang-Anh und Tobias Bürger sind Mitarbeitende an der Universität Bonn im Forschungsprojekt „Deliberation im Netz: Formen und Funktionen des digitalen Diskurses am Beispiel des Microbloggingsystems Twitter". Das Projekt ist Teil des DFG- Schwerpunktprogramms „Mediatisierte Welten", in dem insgesamt zwölf Projekte interdisziplinär miteinander zusammenarbeiten. Mit merz sprechen sie über Twitter als neue Form von Öffentlichkeit, die Userinnen und User, aber auch über die Möglichkeiten der Teilhabe und das Potenzial, das dieses Medium - gerade in der politischen Kommunikation - bietet.
Current working practice of established German dictionaries incorporates large corpora as the basis of most analyses, descriptions and presentations. It is, however, individual lexicological and/or different corpus-methodological approaches that play a crucial role in the process of extracting and documenting lexicographic information in individual reference works. This paper addresses the question of how reliable information is in some electronic German dictionaries. Objects of our investigation are different types of corpus dictionaries, e.g. a digitized dictionary, a reference work that compiles its data fully automatically, a lexicographic system combining different electronic resources, and a corpus-assisted dictionary that examines and interprets its corpus data lexicographically. Critical examinations of such reference works inevitably come up with questions of authenticity and reliability of the given dictionary information. The advantages and disadvantages of various lexicographic or corpus-linguistic methods which are individually implemented will be outlined and critically analyzed with the help of examples. According to an extensive study (cf. Müller-Spitzer 2011) reliability of given information is one of the key criteria assigned to any reference work by users. We will elicit how different corpus methods expose different descriptions of natural discourse and how they answer questions of authenticity, typicality and reliability with regard to phenomena such as meaning spectrum, collocations, antonymy and hyperonymy. Overall, this paper is a critical account of the current German lexicographic developments. It will include discussions on meta-lexicographic demands and focus on whether there are suitable complementary corpus approaches providing authentic dictionary information to a satisfactory extent.
Am Beispiel des an der Universität Oslo entwickelten Oslo Multilingual Corpus (OMC) wird illustriert, wie ein Parallelkorpus aus Originaltexten und deren Übersetzungen zur sprachvergleichenden Erforschung von Phänomenen der Satzverbindung und der Informationsverteilung auf Satz- und Textebene eingesetzt werden kann. Nach einer Skizze der OMC-Architektur wird eine Untersuchung von Satzverknüpfungen mit dem komitativen Konnektor „wobei“ und deren Entsprechungen in norwegischen Übersetzungen und Originaltexten vorgestellt, die dazu beiträgt, Bedeutungsfacetten dieses Konnektors aufzuzeigen, die in rein intralingualen Studien nicht so einfach zu erkennen sind, und dadurch einen besseren und systematischeren Einblick in die angewandten Übersetzungsstrategien gibt. Als zweites Einsatzbeispiel wird eine explorative Untersuchung zur Elaborierung von Ereignisbeschreibungen vorgestellt, die deutsche, norwegische, englische und französische Entsprechungen von „mit“-Konstruktionen (sog. „Sätzchen“) als Ausgangspunkt nimmt. Beide Studien illustrieren, dass ein Parallelkorpus auch ohne komplexe Annotierungen nicht nur für wort-basierte quantitative Untersuchungen verwertet werden, sondern auch im Zuge weniger zielgerichteter, eher qualitativ angelegter Studien als „Augenöffner“ für komplexe linguistische Phänomene dienen kann.
Einleitung
(2012)
Einleitung
(2012)
Einleitung
(2012)
Wer eine korpusgestützte Untersuchung anstellt, ist zu Recht stolz auf hohe Belegzahlen und statistische Aussagekraft. Aber auch das Seltene und das Einzigartige hat einen Reiz, und darauf konzentrieren sich die folgenden Recherchen und Vorschläge. Selbst das Nichtvorhandene kann morgen schon belegbar sein - zum Beispiel Pluralformen zu Lemmata, die in Wörterbüchern Grammatikangaben wie „ohne Plural“ erhalten. Am Beispiel von Pluralformen besonders zu Feminina mit Derivationssuffix -heit/-(ig)keit werden unterschiedliche Möglichkeiten diskutiert, wie man mit dem Seltenen, mit dem Einzigartigen und mit dem Nichtvorhandenen oder Noch-nicht-Nachweisbaren in der Lexikografie und in sprachtechnologischen Anwendungen umgehen kann. Für Anregungen und Korrekturen danke ich herzlich Vilmos Ágel, Peter Eisenberg, Peter Gallmann, Klaus Mackowiak, Damaris Nübling, Werner Scholze-Stubenrecht, Anatol Stefanowitsch und Lutz Wind. Die Idee zu diesem Versuch gab mir die Mitarbeit an der 7. Auflage des Duden-Universalwörterbuchs, DDUW (2011), unter der Leitung von Werner Scholze-Stubenrecht, und am Vollformenprojekt meiner Kollegen aus der Duden-Sprachtechnologie.
This paper deals with the constructional variation of emotion predicates in Estonian. It gives an overview on the constructional types, including information of their quantitative distribution. It is shown that one characteristic of Estonian is the formation of pairs of converses, i.e. pairs of emotion verbs, which have the same emotion semantics but different argument realisation patterns. These converses are based on derivational morphology such as the causative morphem –ta ‘CAUS’. Causative derivation has been adduced in the theoretical literature as support for the assumption that the cross-linguistically wide-spread constructional variation in emotion predicates has its origin in a difference of the causal structure in the verbal semantics. This paper shows that the data of Estonian contradicts this assumption.
Der nachfolgende Beitrag untersucht Form-Funktionsbeziehungen in einem spezifischen Bereich adverbialer Modifikation im Deutschen und Türkischen, nämlich bei den ereignisinternen Adjunkten. Abschnitt 1 entwickelt — mit übereinzelsprachlichem Gültigkeitsanspruch — die Begrifflichkeiten, anhand derer die Untersuchung vorgenommen wird. Abschnitt 2 wendet diese auf das Deutsche und das Türkische an. Abschnitt 3 formuliert ein kontrastives Zwischenergebnis, das in Abschnitt 4 mittels des Versuchs der Identifikation typologischer Korrelate der festgestellten Unterschiede zu einer typologischen Hypothese erweitert wird.
Der Beitrag ist dem holistischen sprachtypologischen Programm verpflichtet, das die Systematiken aufzeigen will, die den identifizierten sprachlichen Strukturen unterliegen und das diese Systematiken als Instanzen allgemeinerer Prinzipien der Variation und Übereinstimmung von sprachlichen Systemen darstellen will. Es wird beschreibend vorgegangen; aus der Beschreibung soll ein Verständnis des Gegenstands erzielt werden. Als deskriptives Werkzeug dienen die Begrifflichkeiten der funktionalen Typologie und der Semantik.
Die Auseinandersetzung mit dem Untersuchungsgegenstand „ereignisinterne Adjunkte“ geschieht in dem für typologische Untersuchungen höchst engen Rahmen der Untersuchung von nur zwei Sprachen. Dies hat Vorteile, die sich insbesondere auf die angelegte Breite und den primär semantischen Ausgangspunkt der Untersuchung beziehen. Es hat gleichzeitig Nachteile, die sich vor allem auf die Verallgemeinerbarkeit oder implikative Kraft der identifizierten Zusammenhänge beziehen. Die Vorteile gilt es zu nutzen, die Nachteile zu beachten.
In multimodal scholarly presentations supported by presentation software, spoken and written language, various visualizations on the projected slides as well as the contributors’ gestures and facial expressions build a meaningful oneness. On the one hand, communication scientists as well as linguists have for a relatively long time neglected the presentation as a complex form of communication. On the other hand, since Tafte (2003 ), columnists of major German newspapers have been dealing with the question of the value, the quality and the place of PowerPoint in science, they have even tried to find the answer to the question whether PowerPoint is evil or not.
The presentation practice is perceived as fundamentally deficient of systematic empirical research on presentations. Also Grabowski called attention to this desideratum with two critical articles (Grabowski 2003, 2008). Various questions - still unanswered - have motivated the implementation of a number of experiments (in the summer of 2010) for analyzing the knowledge and learning effects and the communicational impact of scientific presentations. The general aim of these experiments was to conduct empirical research on selected presentations in order to find out what kind of presentation is successful. The main interest is to find out which model of scholarly presentation produces the best results regarding learning effect and communicative impact.
I nationale og curopa’iskc sprogpolitiske undersogelser savner man orte et tilt'redsstiIlende cmpirisk grundlag. De tilgsngelige data om den aktuelle Situation for sprogene i de forskelligc lande er heterogene. ufuldstEndige og delvist foraddede og derfor vanskelige at sammenligne over tid. EKNIL’s curoptciskc sprogbarometer. KLM, er et forsog pä al afhjxlpe denne Situation. KLM er baseret pä et omfattende spor- geskema om en bred vifte al’sproglige forhold som er egnet til at danne et billede at'sprogenes Status og sprogpolitiske praksisser i hvert enkelt land. fx sprogencs juridiske Status, sprogenes Status i undervis- ning og forskning, Situationen for minoritetssprog, sprogene i kulturen og i erhvervslivet. KLM gennem- tores med fä ärs mellemrum. Naervjerende artikel beskriver baggrunden og resultateme af KLM 2 (2007- 2011) som omfatler 23 europa’iske lande
Die Aufbauprinzipien europäischer Possessionssysteme basieren viel öfter als gemeinhin angenommen auf gespaltener Possession. Dieses im Deutschen nicht prominente Phänomen wird anhand von Daten aus ausgewählten Beispielsprachen als in Europa durchaus etablierte Erscheinung vorgestellt. Die mit ihm verbundenen semantischen und morphosyntaktischen Aspekte werden anhand von qualitativen Korpusdaten diskutiert. Die Restriktionen, denen sie unterliegen, sind ebenfalls Gegenstand der Diskussion. In den Schlussfolgerungen wird dafür plädiert, künftig der Possession bei vergleichenden Studien zu europäischen Sprachen mehr Beachtung zu schenken.
Linguistic query systems are special purpose IR applications. As text sizes, annotation layers, and metadata schemes of language corpora grow rapidly, performing complex searches becomes a highly computational expensive task. We evaluate several storage models and indexing variants in two multi-processor/multi-core environments, focusing on prototypical linguistic querying scenarios. Our aim is to reveal modeling and querying tendencies – rather than absolute benchmark results – when using a relational database management system (RDBMS) and MapReduce for natural language corpus retrieval. Based on these findings, we are going to improve our approach for the efficient exploitation of very large corpora, combining advantages of state-of-the-art database systems with decomposition/parallelization strategies. Our reference implementation uses the German DeReKo reference corpus with currently more than 4 billion word forms, various multi-layer linguistic annotations, and several types of text-specific metadata. The proposed strategy is language-independent and adaptable to large-scale multilingual corpora.
We report an ethnographic and field-experiment-based study of time intervals in Amondawa, a Tupi language and culture of Amazonia. We analyse two Amondawa time interval systems based on natural environmental events (seasons and days), as well as the Amondawa system for categorising lifespan time (“age”). Amondawa time intervals are exclusively event-based, as opposed to time-based (i.e. they are based on event-duration, rather than measured abstract time units). Amondawa has no lexicalised abstract concept of time and no practices of time reckoning, as conventionally understood in the anthropological literature. Our findings indicate that not only are time interval systems and categories linguistically and culturally specific, but that they do not depend upon a universal “concept of time”. We conclude that the abstract conceptual domain of time is not a human cognitive universal, but a cultural historical construction, semiotically mediated by symbolic and cultural-cognitive artefacts for time reckoning.
This paper presents two toolsets for transcribing and annotating spoken language: the EXMARaLDA system, developed at the University of Hamburg, and the FOLK tools, developed at the Institute for the German Language in Mannheim. Both systems are targeted at users interested in the analysis of spontaneous, multi-party discourse. Their main user community is situated in conversation analysis, pragmatics, sociolinguistics and related fields. The paper gives an overview of the individual tools of the two systems – the Partitur-Editor, a tool for multi-level annotation of audio or video recordings, the Corpus Manager, a tool for creating and administering corpus metadata, EXAKT, a query and analysis tool for spoken language corpora, FOLKER, a transcription editor optimized for speed and efficiency of transcription, and OrthoNormal, a tool for orthographical normalization of transcription data. It concludes with some thoughts about the integration of these tools into the larger tool landscape.