Refine
Year of publication
- 2015 (59) (remove)
Document Type
- Article (26)
- Part of a Book (17)
- Book (6)
- Conference Proceeding (5)
- Other (2)
- Working Paper (2)
- Master's Thesis (1)
Has Fulltext
- yes (59)
Is part of the Bibliography
- yes (59) (remove)
Keywords
- Deutsch (26)
- Korpus <Linguistik> (13)
- Computerunterstützte Lexikographie (6)
- Verb (5)
- Wörterbuch (5)
- Annotation (4)
- Computerlinguistik (3)
- Elektronisches Wörterbuch (3)
- Internet (3)
- Kongressbericht (3)
Publicationstate
- Veröffentlichungsversion (59) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (18)
- De Gruyter (4)
- German Society for Computational Linguistics & Language Technology (GSCL) (2)
- Linköping University Electronic Press, Linköpings universitet (2)
- de Gruyter (2)
- Institut für Phonetik, Universität des Saarlandes (1)
- Izdatel’sko-poligrafičeskoe ob‘‘edinenie C-print (1)
- Lang (1)
- Société Néophilologique (1)
- Springer (1)
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Die Stichwortliste bildet eine tragende Säule von gedruckten als auch von Online-Wörterbüchern. Daher ist die Konzeption und Erarbeitung einer Stichwortliste auch eine zentrale Aufgabe in der Anfangsphase des am IDS in Angriff genommenen Paronymwörterbuchs. Welche Überlegungen dabei angestellt, welche Ideen entwickelt und welche Pläne bzw. Entscheidungen schließlich umgesetzt wurden, wird in dem Beitrag aufgezeigt.
Gehören nun die Männer an den Herd? Anmerkungen zum Wandel der Rollenbilder von Mann und Frau
(2015)
Ziel des vorliegenden Beitrags ist es, auszuloten, wie Sprechen und Handeln, das wir aus dem Alltag kennen, einzuschätzen ist, wenn es im Fernsehen und vor allem im so genannten Reality-TV erscheint. Einen guten Einstieg, diese Problemstellung zu illustrieren, bieten Pannen, wie man sie etwa aus Nachrichtensendungen wie der Tagesschau kennt.
ln einer korpuspragmatischen Sicht auf Sprachgebrauch werden sogenannte Sprachgebrauchsmuster, die typisch für bestimmte Sprachausschnitte sind, datengeleitet berechnet. Solche Sprachgebrauchsmuster können z.B. diskursanalytisch gedeutet werden; noch relativ unerforscht ist aber ein konstruktionsgrammatischer Blick auf solche Muster. An zwei Beispielen wird gezeigt, wie mit der Berechnung von typischen n-Grammen (auf der Basis von Wortformen, sowie komplexer auf der Basis von Wortformen und Wortartkategorien) Sprachgebrauchsmuster berechnet werden können: Beim ersten Beispiel werden typische Formulierungsmuster in Leserbriefen, beim zweiten Beispiel aus einem politischen Diskurs (Wulff-Affäre), untersucht. Der Beitrag zielt in der Folge darauf ab, diese Muster dem usage-based-approach der KxG folgend als Konstruktionen zu deuten, die soziopragmatischen Verwendungsbedingungen gehorchen.
In Deutschland leben 7,5 Millionen erwachsene Analphabeten. Daher ist der Bedarf an Materialien zum Erlernen der Schrift gestiegen. Der vorliegende Band ist begleitend für den Rechtschreibunterricht von (vor allem) Erwachsenen gedacht, die Deutsch auf einem (nahezu) muttersprachlichen Niveau beherrschen. Die systemische Beschreibung des Rechtschreibwortschatzes, insbesondere durch seine orthographische Annotation und die Kennzeichnung von Lernstellen, stützt sich größten teils auf die Darstellung der deutschen Orthographie im Rahmencurriculum Schreiben (kurz RCS) des Deutschen Volkshochschulverbandes. Außerdem lehnt sich der vorliegende Wortschatz an Themen an, die sich aus dem alltäglichen Leben ableiten. Lehrende finden in diesem Band gezielt reichlich Material zum Üben im Unterrichtskontext und können bei Bedarf auch neues Übungsmaterial erstellen; sie sollen aber auch zusätzlich vermitteln, dass sie selbst als Experten von Fall zu Fall in Wörterlisten nachschlagen müssen. Für den Lerner soll der Rechtschreibwortschatz dazu beitragen, die Eigeninitiative zu fördern und zu selbständigem praktischen Üben ermutigen.
Speakers’ linguistic experience is for the most part experience with language as used in conversational interaction. Though highly relevant for usage-based linguistics, the study of such data is as yet often left to other frameworks such as conversation analysis and interactional linguistics (Couper-Kuhlen and Selting 2001). On the basis of a case study of salient usage patterns of the two German motion verbs kommen and gehen in spontaneous conversation, the present paper argues for a methodological integration of quantitative corpus-linguistic methods with qualitative conversation analytic approaches to further the usage-based study of conversational interaction.
This article reports about the on-going work on a new version of the metadata framework Component Metadata Infrastructure (CMDI), central to the CLARIN infrastructure. Version 1.2 introduces a number of important changes based on the experience gathered in the last five years of intensive use of CMDI by the digital humanities community, addressing problems encountered, but also introducing new functionality. Next to the consolidation of the structure of the model and schema sanity, new means for lifecycle management have been introduced aimed at combatting the observed proliferation of components, new mechanism for use of external vocabularies will contribute to more consistent use of controlled values and cues for tools will allow improved presentation of the metadata records to the human users. The feature set has been frozen and approved, and the infrastructure is now entering a transition phase, in which all the tools and data need to be migrated to the new version.
In dem Beitrag wird der Frage nachgegangen, inwiefern die Frequenz eines Wortes mit seiner orthographischen Richtigschreibung zusammenhangt. Werden häufige Wörter öfter und früher richtig geschrieben? Und welche Rolle spielt dabei die orthographische Regelhaftigkeit der Wortstrukturen? Unter Zuhilfenahme maschineller Analyseverfahren aus der Großstudie "Automatisierte Rechtschreibdiagnostik" (Fay/Berkling/Stüker 2012) werden diesbezuglich über 1000 Schülertexte von Klasse 2 bis 8 untersucht. Im Ergebnis werden zum einen einige Annahmen, die bislang vor allem auf Erfahrungswerten aus der sprachdidaktischen Arbeit fußten, empirisch bestätigt, zum anderen werden sie hinsichtlich spezifischer Rechtschreibphänomene differenziert und erweitert.
Some structures in printed dictionaries also occur in online dictionaries, some do not occur, some need to be adapted whereas new structures may be introduced in online dictionaries. This paper looks at one type of structure, known in printed dictionaries as outer texts. It is argued that the notions of a frame structure and front and back matter texts do not apply to online dictionaries. The data distribution in online dictionaries does not only target the dictionary articles. There are components outside the word list section of the dictionary. These components are not always texts. They could e.g. also be video clips. Consequently the notion of outer texts in printed dictionaries is substituted by the notion of outer features in online dictionaries. This paper shows how outer features help to constitute a feature compound. The outer features in eight online dictionaries are discussed. Where the users guidelines text is a compulsory outer text in printed dictionaries it seems that an equivalent feature is often eschewed in online dictionaries. A distinction is made between dictionary-internal and dictionary-external outer features, illustrating that outer features can be situated in other sources than the specific dictionary. More research is needed to formulate models for online features that can play a comprehensive role in online dictionaries.
In this contribution, we present a novel approach for the analysis of cross-reference structures in digital dictionaries on the basis of the complete dictionary database. Using paradigmatic items in the German Wiktionary as an example, we show how analyses based on graph theory can be fruitfully applied in this context, e. g. to gain an overview of paradigmatic references as a whole or to detect closely connected groups of headwords. Furthermore, we connect information about cross-reference structures with corpus frequencies and log file statistics. In this way, we can answer questions such as the following ones: Are frequent words paradigmatically linked more closely than others? Are closely linked headwords or headwords that stand more solitary in the dictionary visited significantly more often?
Rassmatrivajutsja novye frazeologizmy nemeckogo jazyka i aspekty ich leksikografičeskogo opisanija v „Nemecko-russkom slovare neologizmov“. Obščaja dolja novych frazeologizmov ot obščego količestva neologizmov nemeckogo jazyka v period s 1991 po 2012 gody sostavljaet okolo šesti procentov. K kategorii frazeologizmov v slovare otnosjatsja ustojčivye sočetanija slov raznoj struktury i stepeni idiomatičnosti. Naibolee mnogočislenny frazeologizmy – imennye gruppy, za nimi sledujut glagol’nye gruppy i frazeologizmy-predloženija. Vyjavljajutsja i opisyvajutsja strukturnye i semantičeskie osobennosti frazeologizmov raznych frazovych kategorij. Osveščajutsja osobennosti podači frazeologizmov v slovnike i tipy leksikografičeskoj informacii v strukture slovarnoj stat’i, učityvajuščie specifiku frazeologičeskich neologizmov kak edinic leksikografičeskogo opisanija.
Wir können auch Hochdeutsch – Das Institut für Deutsche Sprache in Mannheim – ein Ort der Ideen
(2015)
Der vorliegende Beitrag erkundet den Zusammenhang zwischen der Komplexität politischer Argumentationsprozesse und der Diversifikation der Semantik von Schlüsselwörtern, deren Bedeutung im Argumentationsprozess umkämpft und in zahlreichen Facetten entfaltet widAdegenstand der Untersuchung ist die Verwendung von „Ökologie" in den Schlichtungsgesprächen zum Bahnprojekt Stuttgart 21. Im Unterscheid zu bisher vorliegenden Analysen zu semantischen Kämpfen geht es weniger darum, wie ein Ausdruck von einer Partei im Gegensatz zu anderen semantisiert wird. Es wird vielmehr gezeigt, wie semantische Diversifizierung und Ambiguität von „Ökologie" im expertischen Argumentationsprozess entstehen und welche kommunikativen Effekte dies für die Möglichkeit der Bürgerbeteiligung mit sich bringt. Es werden drei Praktiken identifiziert, mit denen die Interaktionsteilnehmer selbst auf semantische Diversifizierung und Ambiguität reagieren und versuchen, den Ausdruck eindeutig interpretierbar und die Quaestio entscheidbar zu machen: Strategieunterstellungen, Popularisierungen und Populismus. Die Interaktionsanalysen zeigen dabei, dass diese Praktiken selbst die Problematik, die sie lösen sollen, reproduzieren.
Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a comprehensive German news corpus for integration in DeReKo, the German Reference Corpus hosted at the Institut für Deutsche Sprache in Mannheim.
The task-oriented and format-driven development of corpus query systems has led to the creation of numerous corpus query languages (QLs) that vary strongly in expressiveness and syntax. This is a severe impediment for the interoperability of corpus analysis systems, which lack a common protocol. In this paper, we present KoralQuery, a JSON-LD based general corpus query protocol, aiming to be independent of particular QLs, tasks and corpus formats. In addition to describing the system of types and operations that Koral- Query is built on, we exemplify the representation of corpus queries in the serialized format and illustrate use cases in the KorAP project.
This paper presents a dictionary writing system developed at the Institute for the German Language in Mannheim (IDS) for an ongoing international lexicographical project that traces the way of German loanwords in the East Slavic languages Russian, Belarusian and Ukrainian that were possibly borrowed via Polish. The results will be published in the Lehnwortportal Deutsch (LWP, lwp.ids-mannheim.de), a web portal for loanword dictionaries with German as the common donor language. The system described here is currently in use for excerpting data from a large range of historical and contemporary East Slavic monolingual dictionaries. The paper focuses on the tools that help in merging excerpts that are etymologically related to one and the same Polish etymon. The merging process involves eliminating redundancies and inconsistencies and, above all, mapping word senses of excerpted entries onto a common cross-language set of ‘metasenses’. This mapping may involve literally hundreds of excerpted East Slavic word senses, including quotations, for one ‘underlying’ Polish etymon.
The present thesis introduces KoralQuery, a protocol for the generic representation of queries to linguistic corpora. KoralQuery defines a set of types and operations which serve as abstract representations of linguistic entities and configurations. By combining these types and operations in a nested structure, the protocol may express linguistic structures of arbitrary complexity. It achieves a high degree of neutrality with regard to linguistic theory, as it provides flexible structures that allow for the setting of certain parameters to access several complementing and concurrent sources and layers of annotation on the same textual data. JSON-LD is used as a serialisation format for KoralQuery, which allows for the well-defined and normalised exchange of linguistic queries between query engines to promote their interoperability. The automatic translation of queries issued in any of three supported query languages to such KoralQuery serialisations is the second main contribution of this thesis. By employing the introduced translation module, query engines may also work independently of particular query languages, as their backend technology may rely entirely on the abstract KoralQuery representations of the queries. Thus, query engines may provide support for several query languages at once without any additional overhead. The original idea of a general format for the representation of linguistic queries comes from an initiative called Corpus Query Lingua Franca (CQLF), whose theoretic backbone and practical considerations are outlined in the first part of this thesis. This part also includes a brief survey of three typologically different corpus query languages, thus demonstrating their wide variety of features and defining the minimal target space of linguistic types and operations to be covered by KoralQuery.
Recipient design is a key constituent of intersubjectivity in interaction. Recipient design of turns is informed by prior knowledge about and shared experience with recipients. Designing turns in order to be maximally effective for the particular recipient(s) is crucial for accomplishing intersubjectively coordinated action. This paper reports on a specific pragmatic structure of recipient design, i.e. counter-factual recipient design, and how it impinges on intersubjectivity in interaction. Based on an analysis of video-recordings data from driving school lessons in German, two kinds of counterfactual recipient design of instructors' requests are distinguished: pedagogic and egocentric turn-design. Counterfactual, pedagogic turn-design is used strategically to diagnose student skills and to create opportunities for corrective instructions. Egocentric turn-design rests on private, non-shared knowledge of the instructor. Egocentrically designed turns imply expectations of how to comply with requests which cannot be recovered by the student and which lead to a breakdown of intersubjective cooperation. This paper identifies practices, sources and interactional consequences of these two kinds of counterfactual recipient design. In addition, the study enhances our understanding of recipient design in at least three ways. It shows that recipient design does not only concern referential and descriptive practices, but also the indexing intelligible projections of next actions; it highlights the productive, other-positioning effects of recipient design; it argues that recipient design should be analyzed in terms of temporally extended interactional trajectories, linking turn-constructional practices to interactional histories and consecutive trajectories of joint action.
Freiraum schaffen im Klassenzimmer: Fallbasierte methodologische Überlegungen zur Raumanalyse
(2015)
Contents:
1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1
2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference Corpus of Contemporary Romanian Language, S. 5
3. Sebastian Buschjäger, Lukas Pfahler, Katharina Morik: Discovering Subtle Word Relations in Large German Corpora, S. 11
4. Johannes Graën, Simon Clematide: Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora, S. 15
5. Stefan Evert, Andrew Hardie: Ziggurat: A new data model and indexing format for large annotated text corpora, S. 21
6. Roland Schäfer: Processing and querying large web corpora with the COW14 architecture, S. 28
7. Jochen Tiepmar: Release of the MySQL-based implementation of the CTS protocol, S. 35
Die öffentliche Akzeptanz und Wirkung natur- und technikwissenschaftlicher Forschung hängt grundlegend davon ab, ob sich die Ziele und Forschungsergebnisse an die Öffentlichkeit vermitteln lassen. Doch die Inhalte aktueller Forschungsvorhaben sind für ein Laienpublikum oft nur schwer zugänglich und verständlich. Vor dem Hintergrund, die gesellschaftliche Diskussion natur- und technikwissenschaftlicher Forschung zu verbessern, untersuchen und bewerten wir im Projekt PopSci – Understanding Science einen wichtigen Sektor des populärwissenschaftlichen Diskurses in Deutschland empirisch. Hierfür identifizieren wir die linguistischen Merkmale deutscher populärwissenschaftlicher Texte durch korpusbasierte Methoden und untersuchen deren Effekt auf die kognitive Verarbeitung der Texte durch Laien. Dazu setzen wir Vor- und Nachwissenstests ein. Außerdem messen wir die Blickbewegungen der Leserinnen und Leser, während sie populärwissenschaftliche Texte lesen. Aus dieser Kombination von unterschiedlichen Methoden versuchen wir, erste Empfehlungen zur Verbesserung des linguistischen Stils und der Wissensrepräsentation populärwissenschaftlicher Texte abzuleiten.
Introduction
(2015)
In dem Beitrag werden Argumentstrukturmuster mit inneren Objekten genauer untersucht. Als innere Objekte werden Akkusativobjekte bezeichnet, die gelegentlich von normalerweise intransitiven Verben zu sich genommen werden und deren Objekts-Nomen mit dem Verb etymologisch, morphologisch und/oder semantisch verwandt ist. Das heißt, es handelt sich um Sätze wie Maria lachte ihr fröhliches Lachen, Alles geht seinen geordneten Gang oder Er kämpft einen aussichtslosen Kampf. Wie man an diesen wenigen Beispielsätzen bereits sehen kann, wird mit dem inneren Objekt etwas explizit zum Ausdruck gebracht, was bereits in der Verbbedeutung implizit enthalten bzw. angelegt ist, denn lachen bedeutet ja ‘Freude zum Ausdruck bringen, indem man ein Lachen von sich gibt’ und kämpfen heißt ‘einen Kampf führen, Kampfhandlungen vollziehen, sich mit jmdm. oder etw. auseinandersetzen’.
In this paper, general problems with easily confused words among a language community are addressed. Serving as an example, the difficulties of semantic differentiation between the use of German sensibel and sensitiv are discussed. One the one hand, the question is raised as to how a speech community faces challenges of semantic shifts and how monolingual dictionaries document lexical items with similar semantic aspects. On the other hand, I will demonstrate the discrepancies of information on meaning as retrieved and interpreted from large corpus data. It will be shown how the semantics of words change and hence cause confusion among speakers. As a result, empirical evidence opens up several questions concerning the prescriptive vs. descriptive treatment of paronymic items such as sensibel/sensitiv and it demands different approaches to the lexicographic description of such words in future reference works.
Die Beiträge dieses Hefts knüpfen inhaltlich an die Artikel des OPAL-Sonderhefts 4/2009 mit dem Titel Konstruktionelle Varianz bei Verben (http://pub.ids-mannheim.de/laufend/opal/opal09-4.html) an. Thema beider Hefte sind die Argumentstrukturen von Verben. Im vorliegenden Heft werden zwei der bereits im OPAL-Sonderheft diskutierten Argumentstrukturmuster, Argumentstrukturmuster mit innerem Objekt und SUCH-Argumentstrukturmuster, wieder aufgegriffen und unter dem Gesichtspunkt ihres Status als Mitglieder größerer Gruppen von Argumentstrukturmustern diskutiert. Die erstgenannte Gruppe von Argumentstrukturmustern umfasst – wie der Name auch sagt – Strukturen, die ein Objekt enthalten, das in der Grammatikschreibung als inneres oder kognates Objekt bezeichnet wird, wie etwa einen aussichtslosen Kampf kämpfen, eines natürlichen Todes sterben, einen Walzer tanzen u.Ä. Bei Letzteren handelt es sich um eine Gruppe von Argumentstrukturmustern wie etwa nach etwas suchen, etwas auf etwas durchsuchen, nach etwas fahnden, nach etwas sinnen, nach etwas schreien und jemanden um etwas bitten. Wie diese Auflistung bereits zeigt, handelt es sich bei SUCH-Argumentstrukturmustern nicht nur um Muster mit reiner SUCH-Bedeutung. Insofern ist der Name arbiträr. Er wurde in Anlehnung an den von Levin (1993, S. 70-71) eingeführten Begriff der SEARCH-Alternation gewählt, mit dem die Alternation der Muster NP1 V NP2 in NP3 (Ida hunted deer in the woods), NP1 V NP3 for NP2 (Ida hunted the woods for deer) und NP1 V for NP2 in NP3 (Ida hunted for deer in the woods) im Englischen gemeint war. Sowohl die Beiträge des OPAL-Sonderhefts 4/2009 als auch die Beiträge des vorliegenden Hefts sind aus dem Projekt Verben und Argumentstrukturen (www.ids-mannheim.de/lexik/polysemievarianz.html; ehemals Polysemie und konstruktionelle Varianz) hervorgegangen, das zur Zeit in der Abteilung Lexik des IDS bearbeitet wird.
Valenz im Fokus: Vorwort
(2015)
Die Festschrift Valenz im Fokus: Grammatische und lexikografische Studien enthält zum einen die Beiträge des internationalen Kolloquiums „Valenz im Fokus“, das am 12. Juli 2013 im Institut für Deutsche Sprache in Mannheim zu Ehren von Jacqueline Kubczak veranstaltet wurde, zum anderen weitere Beiträge von Kollegen aus der ganzen Welt, die zum einen als elektronische Publikation während des Kolloquiums präsentiert wurden, zum anderen speziell für diese Festschrift hinzukamen.
Valenz im Fokus. Grammatische und lexikografische Studien. Festschrift für Jacqueline Kubczak
(2015)
Die Festschrift Valenz im Fokus: Grammatische und lexikografische Studien enthält zum einen die Beiträge des internationalen Kolloquiums „Valenz im Fokus“, das am 12. Juli 2013 im Institut für Deutsche Sprache in Mannheim zu Ehren von Jacqueline Kubczak veranstaltet wurde, zum anderen weitere Beiträge von Kollegen aus der ganzen Welt, die zum einen als elektronische Publikation während des Kolloquiums präsentiert wurden, zum anderen speziell für die Festschrift hinzukamen.