Refine
Year of publication
- 2015 (318) (remove)
Document Type
- Part of a Book (137)
- Article (77)
- Conference Proceeding (39)
- Book (37)
- Part of Periodical (10)
- Working Paper (8)
- Other (7)
- Master's Thesis (1)
- Preprint (1)
- Review (1)
Keywords
- Deutsch (116)
- Korpus <Linguistik> (52)
- Verb (21)
- Gesprochene Sprache (16)
- Interaktion (14)
- Wörterbuch (14)
- Computerlinguistik (13)
- Computerunterstützte Lexikographie (13)
- Englisch (13)
- Annotation (12)
Publicationstate
- Veröffentlichungsversion (141)
- Zweitveröffentlichung (20)
- Postprint (13)
- Preprint (2)
- Erstveröffentlichung (1)
Reviewstate
Publisher
- Institut für Deutsche Sprache (50)
- De Gruyter (32)
- de Gruyter (25)
- Lang (12)
- Narr Francke Attempto (11)
- Narr (10)
- Springer (7)
- Winter (7)
- Frank & Timme (4)
- IDS (4)
Das Wörterbuch "Neuer Wortschatz" präsentiert den deutschen Wortschatz, der zwischen 2001 und 2010 aufgekommen und in die Allgemeinsprache eingegangen ist. Lexikografisch umfassend beschrieben sind mehr als 570 neue Wörter (z.B. Umweltzone, twittern), neue feste Wortverbindungen (z.B. grünes Rezept, etwas ist kein Ponyhof) und neue Bedeutungen etablierter Wörter (z.B. Heuschrecke 'Finanzinvestor', Stolperstein 'Gedenkstein'). Zu den aus herkömmlichen Wörterbüchern bekannten Angaben z.B. zur Aussprache, Grammatik, Bedeutung treten neue, z.B. zur Wortbildung, zu Enzyklopädischem, die den erhöhten Informationsbedarf in Bezug auf neuen Wortschatz befriedigen helfen. Zusätzlich finden sich neologismusspezifische Angaben zu Aufkommen und Ausbreitung im Erfassungszeitraum - unter Einbeziehung von Zeitverlaufsgrafiken - sowie zur Erstbuchung in einschlägigen Wörterbüchern.
The web portal Lehnwortportal Deutsch <lwp.ids-mannheim.de>, developed at the Institute for the German Language (IDS), aims to provide unified access to a growing number of lexicographical resources on German loanwords in other languages. This paper discusses different possibilities of creating an onomasiological access structure for portal users. We critically examine the meaning list of the “World Loanword Database” project (Haspelmath/Tadmor 2009a) as well as WordNet-based taxonomies and propose a new way of inductively creating a semantic classification scheme that takes both hyperonymic relations and semantic fields into account. We show how such a classification can be integrated into the underlying graph-based data representation of the Lehnwortportal and thus be exploited for advanced onomasiological search options.
This article reports about the on-going work on a new version of the metadata framework Component Metadata Infrastructure (CMDI), central to the CLARIN infrastructure. Version 1.2 introduces a number of important changes based on the experience gathered in the last five years of intensive use of CMDI by the digital humanities community, addressing problems encountered, but also introducing new functionality. Next to the consolidation of the structure of the model and schema sanity, new means for lifecycle management have been introduced aimed at combatting the observed proliferation of components, new mechanism for use of external vocabularies will contribute to more consistent use of controlled values and cues for tools will allow improved presentation of the metadata records to the human users. The feature set has been frozen and approved, and the infrastructure is now entering a transition phase, in which all the tools and data need to be migrated to the new version.
Der vorliegende Beitrag erkundet den Zusammenhang zwischen der Komplexität politischer Argumentationsprozesse und der Diversifikation der Semantik von Schlüsselwörtern, deren Bedeutung im Argumentationsprozess umkämpft und in zahlreichen Facetten entfaltet widAdegenstand der Untersuchung ist die Verwendung von „Ökologie" in den Schlichtungsgesprächen zum Bahnprojekt Stuttgart 21. Im Unterscheid zu bisher vorliegenden Analysen zu semantischen Kämpfen geht es weniger darum, wie ein Ausdruck von einer Partei im Gegensatz zu anderen semantisiert wird. Es wird vielmehr gezeigt, wie semantische Diversifizierung und Ambiguität von „Ökologie" im expertischen Argumentationsprozess entstehen und welche kommunikativen Effekte dies für die Möglichkeit der Bürgerbeteiligung mit sich bringt. Es werden drei Praktiken identifiziert, mit denen die Interaktionsteilnehmer selbst auf semantische Diversifizierung und Ambiguität reagieren und versuchen, den Ausdruck eindeutig interpretierbar und die Quaestio entscheidbar zu machen: Strategieunterstellungen, Popularisierungen und Populismus. Die Interaktionsanalysen zeigen dabei, dass diese Praktiken selbst die Problematik, die sie lösen sollen, reproduzieren.
Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a comprehensive German news corpus for integration in DeReKo, the German Reference Corpus hosted at the Institut für Deutsche Sprache in Mannheim.
This paper discusses computational linguistic methods for the semi-automatic analysis of modality interdependencies (the combination of complex resources such as speaking, writing, and visualizing; MID) in professional crosssituational interaction settings. The overall purpose of the approach is to develop models, methods, and a framework for the description and analysis of MID forms and functions. The paper describes work in progress—the development of an annotation framework that allows annotating different data and file formats at various levels, to relate annotation levels and entries independently of the given file format, and to visualize patterns.
Neologismen
(2015)
Some structures in printed dictionaries also occur in online dictionaries, some do not occur, some need to be adapted whereas new structures may be introduced in online dictionaries. This paper looks at one type of structure, known in printed dictionaries as outer texts. It is argued that the notions of a frame structure and front and back matter texts do not apply to online dictionaries. The data distribution in online dictionaries does not only target the dictionary articles. There are components outside the word list section of the dictionary. These components are not always texts. They could e.g. also be video clips. Consequently the notion of outer texts in printed dictionaries is substituted by the notion of outer features in online dictionaries. This paper shows how outer features help to constitute a feature compound. The outer features in eight online dictionaries are discussed. Where the users guidelines text is a compulsory outer text in printed dictionaries it seems that an equivalent feature is often eschewed in online dictionaries. A distinction is made between dictionary-internal and dictionary-external outer features, illustrating that outer features can be situated in other sources than the specific dictionary. More research is needed to formulate models for online features that can play a comprehensive role in online dictionaries.
In this contribution, we present a novel approach for the analysis of cross-reference structures in digital dictionaries on the basis of the complete dictionary database. Using paradigmatic items in the German Wiktionary as an example, we show how analyses based on graph theory can be fruitfully applied in this context, e. g. to gain an overview of paradigmatic references as a whole or to detect closely connected groups of headwords. Furthermore, we connect information about cross-reference structures with corpus frequencies and log file statistics. In this way, we can answer questions such as the following ones: Are frequent words paradigmatically linked more closely than others? Are closely linked headwords or headwords that stand more solitary in the dictionary visited significantly more often?
Phrasenkomposita im Deutschen. Empirische Untersuchung und konstruktionsgrammatische Modellierung
(2015)
Phrasenkomposita wie Heile-Welt-Gerede oder "Ich-kann-Golf-Ski-und-Wandern-und-bin-schöner-als-die-andern"-Franz werden im Deutschen mit steigender Tendenz verwendet. Sie sind eine Herausforderung für die linguistische Beschreibung.
Der vorliegende Band präsentiert die erste umfassende Untersuchung von Phrasenkomposita. Seine besondere Leistung besteht darin, dass er sowohl eine grammatiktheoretische Modellierung als auch eine breit angelegte korpuslinguistische Untersuchung des Phänomens bietet. Den theoretischen Rahmen bildet ein konstruktionsgrammatischer Ansatz mit gebrauchsbasierter Ausrichtung. Basis für die induktive Datenerhebung ist das ‘Deutsche Referenzkorpus’ des Instituts für Deutsche Sprache, Mannheim. Die Ergebnisse zeigen zum einen, wie sich der konstruktionsgrammatische Ansatz gewinnbringend zur Beschreibung von Wortbildungsphänomenen einsetzen lässt. Zum anderen werden innovative Methoden (Analysemodell, Suchanfrage-Strategie zur induktiven Korpusabfrage) entwickelt, die für die Anwendung der Konstruktionsgrammatik auf authentische Sprachdaten benötigt werden.
In Deutschland leben 7,5 Millionen erwachsene Analphabeten. Daher ist der Bedarf an Materialien zum Erlernen der Schrift gestiegen. Der vorliegende Band ist begleitend für den Rechtschreibunterricht von (vor allem) Erwachsenen gedacht, die Deutsch auf einem (nahezu) muttersprachlichen Niveau beherrschen. Die systemische Beschreibung des Rechtschreibwortschatzes, insbesondere durch seine orthographische Annotation und die Kennzeichnung von Lernstellen, stützt sich größten teils auf die Darstellung der deutschen Orthographie im Rahmencurriculum Schreiben (kurz RCS) des Deutschen Volkshochschulverbandes. Außerdem lehnt sich der vorliegende Wortschatz an Themen an, die sich aus dem alltäglichen Leben ableiten. Lehrende finden in diesem Band gezielt reichlich Material zum Üben im Unterrichtskontext und können bei Bedarf auch neues Übungsmaterial erstellen; sie sollen aber auch zusätzlich vermitteln, dass sie selbst als Experten von Fall zu Fall in Wörterlisten nachschlagen müssen. Für den Lerner soll der Rechtschreibwortschatz dazu beitragen, die Eigeninitiative zu fördern und zu selbständigem praktischen Üben ermutigen.
Der Beitrag befasst sich mit der Beschwerdenexploration und Diagnosemitteilung als zentrale Elemente eines Arzt-Patient-Gesprächs. Damit verbunden sind verschiedene komplementäre Handlungsaufgaben, die von Arzt und Patient bearbeitet werden müssen. So ist es etwa Aufgabe des Arztes, beschwerdenrelevante Sachverhalte zu erfragen, die Ausführungen des Patienten mit dem eigenen medizinischen Fachwissen abzugleichen, körperliche Untersuchungen vorzunehmen und zu erläutern sowie prädiagnostische und schließlich diagnostische Mitteilungen zu formulieren. In den Aufgabenbereich des Patienten fallen indes Aktivitäten wie die Darstellung der Beschwerden vor dem Hintergrund des persönlichen Erfahrungs- und Erlebenswissens, die Relevanzmarkierung wichtiger Beschwerdenaspekte sowie die Legitimation des Arztbesuches. Eine adäquate Bearbeitung dieser Aufgaben ermöglicht einen Abgleich der verschiedenen Wissenswelten von Arzt und Patient und ebnet so den Weg für eine effektive therapeutische Zusammenarbeit.
Medizin betrifft „alle Menschen, Ärzte wie Patienten, Fachleute wie Laien, gleichermaßen zu allen Zeiten. Die Medizin steht daher wie kein zweiter Bereich des Lebens im Spannungsfeld von fachwissenschaftlicher Spezialisierung und menschlichen Alltagserfahrungen“ (Riecke 2004). In diesem Spannungsfeld ist medizinisches Wissen und Handeln ohne Sprache nicht denkbar. Medizin- und Gesundheitskommunikation bilden fachintern wie fachextern, in mündlichen und medialen Diskursen ein prominentes Themenzentrum der medi(k)alisierten Gegenwart. Das Handbuch Sprache in der Medizin bietet einen Überblick über Formen und Funktionen von Arzt-Patient-Kommunikation und ihrer gesprächslinguistischen Erfassung, medizinischen Fachsprachen in Geschichte und Gegenwart sowie Medizin und Gesundheit in medialen Diskursen. Das hierzu notwendige interdisziplinäre Methodenspektrum umfasst sprachwissenschaftliche, Gesprächs- und diskurslinguistische Methoden ebenso wie medien- und kommunikationswissenschaftliche Perspektiven.
Ziel des vorliegenden Beitrags ist es, auszuloten, wie Sprechen und Handeln, das wir aus dem Alltag kennen, einzuschätzen ist, wenn es im Fernsehen und vor allem im so genannten Reality-TV erscheint. Einen guten Einstieg, diese Problemstellung zu illustrieren, bieten Pannen, wie man sie etwa aus Nachrichtensendungen wie der Tagesschau kennt.
Dieser Artikel gibt einen Überblick darüber, wie grundlegend Wissen als Vorausssetzung, Gegenstand und Produkt von Verständigungsprozessen für die Organisation von Gesprächen ist. Zunächst wird ein kognitivistischer Zugang zu Wissen mit einem sozialkonstruktivistischen kontrastiert. Es werden zum einen kommunikative Gattungen, die auf die Kommunikation von Wissen spezialisiert sind, dargestellt; zum anderen wird gezeigt, wie Wissen auch dann die Gestaltung der Interaktion bestimmt, wenn der primäre Gesprächszweck nicht in Wissensvermittlung besteht. Vier Dimensionen werden angesprochen: a) Das mit dem Adressaten geteilte Wissen (common ground) ist Grundlage des Adressatenzuschnitts von Äußerungen (recipient design); b)geteiltes Wissen wird in Verständigungsprozessen konstituiert; c) der relative epistemische Status der Gesprächspartner zueinander wird durch Praktiken des epistemic stance-taking verdeutlicht und bestimmt selbst die Interpretation von Äußerungsformaten; d) epistemischer Status, soziale Identität und Beziehungskonstitution sind durch moralische Anspruchs- und Erwartungsstrukturen eng miteinander verknüpft.
Word-formation rules differ from syntactic rules in that they, apart from obeying morphological and semantic constraints, can also be − and often are − restricted phonologically. The present article includes an overview of the relevant phenomena in English and discusses the consequences for the representation of words in the mental lexicon and for grammar.
"Hey, was geht?". Beobachtungen zum Wandel und zur Differenzierung von Begrüßungsformen Jugendlicher
(2015)
Das Wörterbuch "Neuer Wortschatz" präsentiert den deutschen Wortschatz, der zwischen 2001 und 2010 aufgekommen und in die Allgemeinsprache eingegangen ist. Lexikografisch umfassend beschrieben sind mehr als 570 neue Wörter (z.B. Umweltzone, twittern), neue feste Wortverbindungen (z.B. grünes Rezept, etwas ist kein Ponyhof) und neue Bedeutungen etablierter Wörter (z.B. Heuschrecke 'Finanzinvestor', Stolperstein 'Gedenkstein'). Zu den aus herkömmlichen Wörterbüchern bekannten Angaben z.B. zur Aussprache, Grammatik, Bedeutung treten neue, z.B. zur Wortbildung, zu Enzyklopädischem, die den erhöhten Informationsbedarf in Bezug auf neuen Wortschatz befriedigen helfen. Zusätzlich finden sich neologismusspezifische Angaben zu Aufkommen und Ausbreitung im Erfassungszeitraum - unter Einbeziehung von Zeitverlaufsgrafiken - sowie zur Erstbuchung in einschlägigen Wörterbüchern.
Rassmatrivajutsja novye frazeologizmy nemeckogo jazyka i aspekty ich leksikografičeskogo opisanija v „Nemecko-russkom slovare neologizmov“. Obščaja dolja novych frazeologizmov ot obščego količestva neologizmov nemeckogo jazyka v period s 1991 po 2012 gody sostavljaet okolo šesti procentov. K kategorii frazeologizmov v slovare otnosjatsja ustojčivye sočetanija slov raznoj struktury i stepeni idiomatičnosti. Naibolee mnogočislenny frazeologizmy – imennye gruppy, za nimi sledujut glagol’nye gruppy i frazeologizmy-predloženija. Vyjavljajutsja i opisyvajutsja strukturnye i semantičeskie osobennosti frazeologizmov raznych frazovych kategorij. Osveščajutsja osobennosti podači frazeologizmov v slovnike i tipy leksikografičeskoj informacii v strukture slovarnoj stat’i, učityvajuščie specifiku frazeologičeskich neologizmov kak edinic leksikografičeskogo opisanija.
In dem Beitrag wird der Frage nachgegangen, inwiefern die Frequenz eines Wortes mit seiner orthographischen Richtigschreibung zusammenhangt. Werden häufige Wörter öfter und früher richtig geschrieben? Und welche Rolle spielt dabei die orthographische Regelhaftigkeit der Wortstrukturen? Unter Zuhilfenahme maschineller Analyseverfahren aus der Großstudie "Automatisierte Rechtschreibdiagnostik" (Fay/Berkling/Stüker 2012) werden diesbezuglich über 1000 Schülertexte von Klasse 2 bis 8 untersucht. Im Ergebnis werden zum einen einige Annahmen, die bislang vor allem auf Erfahrungswerten aus der sprachdidaktischen Arbeit fußten, empirisch bestätigt, zum anderen werden sie hinsichtlich spezifischer Rechtschreibphänomene differenziert und erweitert.
Wir können auch Hochdeutsch – Das Institut für Deutsche Sprache in Mannheim – ein Ort der Ideen
(2015)
Abtönung
(2015)
Abstufung
(2015)
Bilingual Kindergarten programmes. The interaction of language management and language attitudes
(2015)
Diese Arbeit beschreibt und analysiert die soziale und sprachliche Welt von Orchestermusikern. Am Beispiel des „Mikrokosmos“ eines Orchesters untersucht sie das Zusammenspiel von beruflich-strukturellen Bedingungen, kulturell vermittelten Orientierungen und sprachlichen Handlungsmustern. Dabei werden das notwendige Hintergrundwissen über die soziale Kategorien, Leitbilder und Kriterien für Professionalität sowie die Handlungsdispositionen von Orchestermusikern dargestellt. Elemente einer historischen Entwicklung der Institution Orchester werden ebenso wie biografische Erfahrungen der Musiker und Musikerinnen auf ihre Relevanz für die Kommunikation im Orchester hin untersucht.
We analyze the linguistic evolution of selected scientific disciplines over a 30-year time span (1970s to 2000s). Our focus is on four highly specialized disciplines at the boundaries of computer science that emerged during that time: computational linguistics, bioinformatics, digital construction, and microelectronics. Our analysis is driven by the question whether these disciplines develop a distinctive language use—both individually and collectively—over the given time period. The data set is the English Scientific Text Corpus (scitex), which includes texts from the 1970s/1980s and early 2000s. Our theoretical basis is register theory. In terms of methods, we combine corpus-based methods of feature extraction (various aggregated features [part-of-speech based], n-grams, lexico-grammatical patterns) and automatic text classification. The results of our research are directly relevant to the study of linguistic variation and languages for specific purposes (LSP) and have implications for various natural language processing (NLP) tasks, for example, authorship attribution, text mining, or training NLP tools.
Speakers’ linguistic experience is for the most part experience with language as used in conversational interaction. Though highly relevant for usage-based linguistics, the study of such data is as yet often left to other frameworks such as conversation analysis and interactional linguistics (Couper-Kuhlen and Selting 2001). On the basis of a case study of salient usage patterns of the two German motion verbs kommen and gehen in spontaneous conversation, the present paper argues for a methodological integration of quantitative corpus-linguistic methods with qualitative conversation analytic approaches to further the usage-based study of conversational interaction.
Duden - Das Aussprachewörterbuch: [Aussprache und Betonung von über 132 000 Wörtern und Namen]
(2015)
ln einer korpuspragmatischen Sicht auf Sprachgebrauch werden sogenannte Sprachgebrauchsmuster, die typisch für bestimmte Sprachausschnitte sind, datengeleitet berechnet. Solche Sprachgebrauchsmuster können z.B. diskursanalytisch gedeutet werden; noch relativ unerforscht ist aber ein konstruktionsgrammatischer Blick auf solche Muster. An zwei Beispielen wird gezeigt, wie mit der Berechnung von typischen n-Grammen (auf der Basis von Wortformen, sowie komplexer auf der Basis von Wortformen und Wortartkategorien) Sprachgebrauchsmuster berechnet werden können: Beim ersten Beispiel werden typische Formulierungsmuster in Leserbriefen, beim zweiten Beispiel aus einem politischen Diskurs (Wulff-Affäre), untersucht. Der Beitrag zielt in der Folge darauf ab, diese Muster dem usage-based-approach der KxG folgend als Konstruktionen zu deuten, die soziopragmatischen Verwendungsbedingungen gehorchen.
,AUFKLÄRUNG‘ ist ein Schlüsselkonzept im Demokratiediskurs der späten 60er Jahre. Aber ,AUFKLÄRUNG‘ kann vieles bedeuten. Erst mit dem neuartigen Paraphrasenmodell der Diskurslinguistik und mit der Einbeziehung des Begriffs der Intertextualität gelingt es, das Verbindende wie das Besondere jeder einzelnen Diskursäußerung darzulegen. Während für die studentische Linke die Verpflichtung zur Aufklärung bedeutet, die Gesellschaft in ihrer ganzen Breite mit Hilfe politischer Protestaktionen aus ihrer Unmündigkeit zu befreien, sehen linksliberale Intellektuelle im Gebot der Aufklärung eher eine demokratische Erziehungsformel, die den Einzelnen auf eine moralisch begründete Vernunft festlegt, welche jede materiell-physische Gewalt ausschließt. Indem so der Begriff der Aufklärung einerseits zur Rechtfertigung sozialen Umbruchs, andererseits zur Begründung gesellschaftlicher Stabilität instrumentalisiert wird, verliert er seine Wirksamkeit und verschwindet allmählich aus dem Diskurs. Der Diskurs bleibt dabei nie stehen. Bedeutungen wandeln sich fortwährend. Ruth Mell trägt mit diesem Band ganz wesentlich zur Entwicklung einer Methodologie für die Analyse der diachronen Dimension von Diskursen bei.
Diskurslexikografie als gesellschaftsbezogene Wortforschung. Vorstellung eines Wörterbuchkonzepts
(2015)
This contribution tries to answer the question how the lexical elements of a discourse, seen as a societal practice, can be presented as instances which give this practice structure and order. Therefore we will first reflect the theoretical and methodological conditions and determine, discourse and lexicography of discourse as terms. Afterwards I introduce two examples of discursive dictionaries: the dictionary of guilt (concerning the postwar time of 1945) and the dictionary of the protest movement late 1960ies. We will finally add a typological classification of discourse lexicography.
In dem Beitrag werden Argumentstrukturmuster mit inneren Objekten genauer untersucht. Als innere Objekte werden Akkusativobjekte bezeichnet, die gelegentlich von normalerweise intransitiven Verben zu sich genommen werden und deren Objekts-Nomen mit dem Verb etymologisch, morphologisch und/oder semantisch verwandt ist. Das heißt, es handelt sich um Sätze wie Maria lachte ihr fröhliches Lachen, Alles geht seinen geordneten Gang oder Er kämpft einen aussichtslosen Kampf. Wie man an diesen wenigen Beispielsätzen bereits sehen kann, wird mit dem inneren Objekt etwas explizit zum Ausdruck gebracht, was bereits in der Verbbedeutung implizit enthalten bzw. angelegt ist, denn lachen bedeutet ja ‘Freude zum Ausdruck bringen, indem man ein Lachen von sich gibt’ und kämpfen heißt ‘einen Kampf führen, Kampfhandlungen vollziehen, sich mit jmdm. oder etw. auseinandersetzen’.
Damit wir uns über Gerichte und Getränke verständigen können, benennen wir sie. Viele Benennungen informieren über Zutaten oder Zubereitung, zum Beispiel Geschmortes Lamm mit rosa Pfeffer. In diesem Beitrag geht es um Benennungen anderer, besonderer Art, zum Beispiel Benennungen wie Ich träume von Casablanca, Armer Ritter und Studentenkuss. Ich nenne sie kostümierte Benennungen, weil sie das Benannte komplett verkleiden. Wir müssen schon wissen oder noch in Erfahrung bringen, um was es sich handelt. Der Beitrag analysiert diesen speziellen Typ von Benennungen morphologisch und semantisch, er zeigt die Strukturen und Sinnhintergründe der Benennungen auf.
The book investigates the diachronic dimension of contact-induced language change based on empirical data from Pennsylvania German (PG), a variety of German in long-term contact with English. Written data published in local print media from Pennsylvania (USA) between 1868 and 1992 are analyzed with respect to semantic changes in the argument structure of verbs, the use of impersonal constructions, word order changes in subordinate clauses and in prepositional phrase constructions.
The research objective is to trace language change based on diachronic empirical data, and to assess whether existing models of language contact make provisions to cover the long-term developments found in PG. The focus of the study is thus twofold: first, it provides a detailed analysis of selected semantic and syntactic changes in Pennsylvania German, and second, it links the empirical findings to theoretical approaches to language contact.
Previous investigations of PG have drawn a more or less static, rather than dynamic, picture of this contact variety. The present study explores how the dynamics of language contact can bring about language mixing, borrowing, and, eventually, language change, taking into account psycholinguistic processes in (the head of) the bilingual speaker.
Nach einer Definition der Begriffe ‚multimodale Verständigung‘ und ‚gesprochene Sprache‘ werden im vorliegenden Beitrag Prozessualität, Interaktivität und Multimodalität als zentrale Besonderheiten multimodaler Verständigung beschrieben und in ihren möglichen Auswirkungen auf die Syntax gesprochener Sprache charakterisiert. Als aktuelle Konzepte zur syntaktischen Beschreibung gesprochener Sprache stelle ich dann die on line-Syntax, die Konstruktionsgrammatik und die multimodale
Grammatik vor. Als Probleme der syntaktischen Beschreibung gesprochener Sprache diskutiere ich die Beschreibungskategorien sowie die Varianz gesprochener Sprache, die eine eindeutige kategoriale Erfassung erschwert. Als Gegenstand syntaktischer Beschreibung werden die funktionalen Einheiten und der Gesprächsbeitrag eingeführt (Abschnitt 2). Sodann stelle ich Ausschließlichkeit, quantitative Differenz und funktionale Differenz als zu unterscheidende Formen von Besonderheiten vor. Es schließen sich Darstellungen zur Syntax im Formulierungsprozess, zu spezifischen syntaktischen Strukturen und Konstruktionen und zur Syntax ‚elliptischer‘ Gesprächsbeiträge an (Abschnitt 3). Zum Abschluss werden zusammenfassend allgemeine Tendenzen der Syntax gesprochener Sprache benannt (Abschnitt 4).
Metalinguistic awareness of standard vs standard usage. The case of determiners in spoken German
(2015)
Contents:
1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1
2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference Corpus of Contemporary Romanian Language, S. 5
3. Sebastian Buschjäger, Lukas Pfahler, Katharina Morik: Discovering Subtle Word Relations in Large German Corpora, S. 11
4. Johannes Graën, Simon Clematide: Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora, S. 15
5. Stefan Evert, Andrew Hardie: Ziggurat: A new data model and indexing format for large annotated text corpora, S. 21
6. Roland Schäfer: Processing and querying large web corpora with the COW14 architecture, S. 28
7. Jochen Tiepmar: Release of the MySQL-based implementation of the CTS protocol, S. 35
Der Beitrag stellt dar, in welch hohem Maße sprachliche Spielfreude zur Ausbildung großer Kompositagruppen rund um ein anregendes Musterwort führen kann und wie dieser Spieltrieb auch eine Fülle von Varianten zu interessanten literarischen oder politischen Formulierungen hervorbringt. Um solche Formulierspiele quer durch aktuelle Zeitungen in Deutschland, in Österreich und in der Schweiz verfolgen zu können, empfiehlt sich die Benutzung eines großen digitalen Erfassungssytems wie COSMAS II aus dem Institut für Deutsche Sprache in Mannheim.
Gegenstand des Beitrags sind Phraseologismen, die seit den 1990er-Jahren in den deutschen Wortschatz eingegangen sind und im Neoglogismenwörterbuch (www.owid.de) präsentiert werden. Dargestellt werden u.a. Funktionen von Phraseologismen wie Schließung von Benennungslücken und Ausdrucksverstärkung. Entstehungsprozesse wie Metaphorisierung und elliptische Kürzung, Wortbildungsprozesse auf der Basis von Phraseologismen sowie Einflüsse aus dem Englischen.
The IMS Open Corpus Workbench (CWB) software currently uses a simple tabular data model with proven limitations. We outline and justify the need for a new data model to underlie the next major version of CWB. This data model, dubbed Ziggurat, defines a series of types of data layer to represent different structures and relations within an annotated corpus; each such layer may contain variables of different types. Ziggurat will allow us to gradually extend and enhance CWB’s existing CQP-syntax for corpus queries, and also make possible more radical departures relative not only to the current version of CWB but also to other contemporary corpus-analysis software.
With an increasing amount of text data available it is possible to automatically extract a variety of information about language. One way to obtain knowledge about subtle relations and analogies between words is to observe words which are used in the same context. Recently, Mikolov et al. proposed a method to efficiently compute Euclidean word representations which seem to capture subtle relations and analogies between words in the English language. We demonstrate that this method also captures analogies in the German language. Furthermore, we show that we can transfer information extracted from large non-annotated corpora into small annotated corpora, which are then, in turn, used for training NLP systems.
Im Fokus dieses Aufsatzes steht die Bereitstellung und Illustration eines Werkzeugs für die Visualisierung bzw. Kontrastierung syntaktischer Strukturen im Lehramtsstudium sowie im (fächerübergreifenden, integrativen) Deutsch- oder Fremdsprachenunterricht höherer Jahrgangsstufen (Sek. II, Ende Sek. I): das „Generalisierte Lineare Satzmodell“ (kurz Gelisa-Modell)1. Das Gelisa-Modell, das auf dem topologischen Satzmodell fußt (vgl. u.a. Reis 1980, Höhle 1986, Pafel 2009, Wöllstein 2010), ermöglicht es, wie bei einem Baukastensystem jegliche Satztypen aus verschiedenen Sprachen (und dann natürlich auch aus einer spezifischen Einzelsprache) in direkter visueller Gegenüberstellung miteinander zu vergleichen. Dabei werden die Sätze und Satztypen distinkter Sprachen unabhängig von der jeweiligen Komplexität auf ein einheitliches Muster bezogen. Die für die grammatische Wohlgeformtheit erforderlichen linearen Strukturzusammenhänge können so auf schematisch anschauliche Weise erfasst und insbesondere zur Basis und zum Ankerpunkt grammatischer Unterrichtsdiskurse und Werkstätten gemacht werden.
Korrekte Verwendung konnektoraler Satzverknüpfungen ist insbesondere in Bezug auf die Textproduktion, aber auch für das Verständnis bzw. die Interpretation von Texten von essenzieller Bedeutung. Wenn nämlich einzelne Propositionen inhaltliche Bausteine von Texten sind, so spielen Satzverknüpfungen eine Rolle als strukturelle Bausteine. Das Anwenden des topologischen Modells im Schulunterricht ist nicht nur ein hilfreiches Mittel zur Veranschaulichung syntaktisch variablen Gebrauchs unterschiedlicher Klassen von Satzverknüpfungsmitteln, sondern auch die Möglichkeit, Schüler auf semantische, pragmatische und mediale Unterschiede bei der Interpretation und Verwendung von Satzverknüpfungen (u.a. auch im gesprochenen Deutsch) aufmerksam zu machen, die sich beispielsweise durch den Positionswechsel ergeben.
This paper summarizes essential steps of a workshop-like presentation of lexicographic practice and reflects an application-oriented demonstration. As a point of departure the question is raised of how different linguistic information is extracted from a corpus for the inclusion in a dictionary. The introductory part on lexicographic objectives is followed by insights into methodological aspects (e. g. online dictionary elexiko). A conclusive example is provided to illustrate the procedure.
Der vorliegende Sammelband präsentiert zentrale im Deutschunterricht zu behandelnde Gebiete rund um Sprache auf der Basis eines einheitlichen topologisch-strukturellen Modells. Er bietet neben der Einführung zum Thema mit einem Basisartikel thematische Beiträge zu Anwendungsmöglichkeiten des topologischen Modells mit konkreten schulpraktischen Vorschlägen in zu unterrichtenden Lern- und Kompetenzbereichen.
Frimer et al. (2015) claim that there is a linear relationship between the level of prosocial language and the level of public disapproval of US Congress. A re-analysis demonstrates that this relationship is the result of a misspecified model that does not account for first-order autocorrelated disturbances. A Stata script to reproduce all presented results is available as an appendix.
The present thesis introduces KoralQuery, a protocol for the generic representation of queries to linguistic corpora. KoralQuery defines a set of types and operations which serve as abstract representations of linguistic entities and configurations. By combining these types and operations in a nested structure, the protocol may express linguistic structures of arbitrary complexity. It achieves a high degree of neutrality with regard to linguistic theory, as it provides flexible structures that allow for the setting of certain parameters to access several complementing and concurrent sources and layers of annotation on the same textual data. JSON-LD is used as a serialisation format for KoralQuery, which allows for the well-defined and normalised exchange of linguistic queries between query engines to promote their interoperability. The automatic translation of queries issued in any of three supported query languages to such KoralQuery serialisations is the second main contribution of this thesis. By employing the introduced translation module, query engines may also work independently of particular query languages, as their backend technology may rely entirely on the abstract KoralQuery representations of the queries. Thus, query engines may provide support for several query languages at once without any additional overhead. The original idea of a general format for the representation of linguistic queries comes from an initiative called Corpus Query Lingua Franca (CQLF), whose theoretic backbone and practical considerations are outlined in the first part of this thesis. This part also includes a brief survey of three typologically different corpus query languages, thus demonstrating their wide variety of features and defining the minimal target space of linguistic types and operations to be covered by KoralQuery.
Wortschatz
(2015)
Die Beschäftigung mit ‚dem Wortschatz‘ ist insofern komplex, als man sich zunächst einer riesigen Menge von Wörtern gegenübersieht. Hilfreich ist es, grundsätzlich zwischen dem Wortschatz einer Sprache und dem Wortschatz einer bestimmten Person(engruppe) zu unterscheiden. Egal, welche Wörtermenge man weiter einkreisen möchte, die Annäherungsschritte sind grundsätzlich die gleichen: sammeln – segmentieren – klassifizieren – interpretieren – ordnen/vernetzen. In dem Beitrag wird für einen dynamischen, prozessualen Wortschatzbegriff plädiert: Die Reflexion über acht Leitfragen soll es Fachleuten wie Laien ermöglichen, das Konzept Wortschatz für ihre Zwecke zu präzisieren: – Wie lässt sich ein Wortschatz ermitteln? – Woraus kann ein Wortschatz bestehen? – Welche Arten von Wortschätzen gibt es? – Auf welcher Textbasis werden Wortschätze erhoben? – Welche Fachdisziplinen widmen sich der Untersuchung von Wortschätzen? – Wie ist ein Wortschatz in sich strukturiert? – Wo (bzw. wie) wird Wortschatz gespeichert? – Wie lassen sich ein Wortschatz und dessen Einheiten adäquat beschreiben?
Jedes Wort besitzt zwei Geschichten, eine Geschichte seiner Ausdrucksseite und eine seines Inhalts. Beide Seiten entwickeln sich meist, aufgrund der Arbitrarität des sprachlichen Zeichens, unabhängig voneinander, sie können sich jedoch auch wechselseitig beeinflussen. Dieser Beitrag fokussiert beide Seiten der Wortgeschichte: kurz den Wandel der formalen Seite, ausführlicher den Bedeutungswandel mit seinen innovativen Verfahren und die Archaisierung. Dabei wird die Perspektive des Einzelwortes eingenommen, die von der Perspektive des Wortschatzes zu trennen ist. Der Wortschatzwandel umfasst weitere Prozesse, auf die nicht eingegangen wird, so die Vermehrung des Wortschatzes durch Wortbildung und Entlehnung. Aufgrund der Vielfalt der stattfindenden Prozesse strebt dieser Beitrag keine Vollständigkeit an. Zudem können die meisten wortgeschichtlichen Erscheinungen nur kurz charakterisiert und nicht ausführlich diskutiert werden.
Das Wort in der Sprachkritik
(2015)
Wer Sprachkritik betreibt, grenzt sich von allen übrigen Sprachverwendern ab, indem er kritisch wertend die Sprache betrachtet. Diese Bewertungen werden meist am einzelnen Wort, an der Aussage oder der Äußerung vollzogen. In der Sprachkritik kommt der Kritik am einzelnen Wort oder an einer einzelnen Äußerung besondere Bedeutung zu, vollzieht sich unser Denken und unsere Wahrnehmung der Welt doch nicht selten in vorgeprägten Schlag- und Schlüsselwörtern. Dieser Beitrag zur Sprachkritik richtet daher den Fokus auf das Wort als sprachliche Einheit. Nach einer definitorischen Einführung in die Gegenstände und Kriterien der Sprachkritik werden vier Bereiche von wortbezogener Sprachkritik erläutert – politische Sprachkritik, feministische Sprachkritik, Sprachpurismus und medienwirksame Sprachkritik –, wobei das Verhältnis von Wort- und Sachkritik stets mitbetrachtet wird. Dabei wird auch das Spannungsfeld von laienlinguistischer und linguistischer Sprachkritik berücksichtigt, wenn in der Öffentlichkeit die Streitfrage „Wer darf welches Wort inwieweit kritisieren?“ diskutiert wird. Die in Abschnitt 3 gewählten Beispiele sollen dabei dazu dienen, das einzelne Wort oder einen bestimmten Ausdruck als Element sprachkritischer Betrachtung zu fokussieren.
Sinnrelationen wurden lange als stabile Beziehungen zwischen Wörtern betrachtet. Dabei zeigen gebrauchsorientierte Untersuchungen, dass Sinnrelationen dynamische Phänomene sind, die sich kommunikativen Bedürfnissen anpassen. Neuere Studien erforschen die Prozesse, die zur Herstellung von Gegensatz bzw. Ähnlichkeit erforderlich sind. Sie untersuchen variable Strukturen, ihre Funktionen sowie kontextuelle Bedingungen und erklären, warum einige Antonyme bessere Gegensatzpaare bilden als andere. Dieser Beitrag konzentriert sich auf deutsche und englische Synonyme und Antonyme aus korpus- und psycholinguistischer Perspektive. Im Mittelpunkt stehen Beschreibungen kontextbasierter und variabler Strukturen, in denen sinnverwandte Wörter regelhaft vorkommen. Es wird gezeigt, dass diese Strukturen über diverse Funktionen verfügen und dass mithilfe kognitiver Prozesse unterschiedlich stark konventionalisierte Muster entstehen. Traditionelle Klassifikationen und Definitionen werden im Lichte neuer empirischer Studien kritisch hinterfragt. Neuere Theorien, die sich um die Einbettung flexibler Beziehungen bemühen, werden erörtert.
In vielen Theorien zur Sprachproduktion spielt die Einheit Wort eine zentrale Rolle: Bei der Planung einer Äußerung werden vorsprachliche Konzepte angenommen, die jedes für sich einer lexikalischen Komponente für eine geeignete Wortwahl übergeben werden. Eine syntaktische Komponente sorgt für eine angemessene Formulierung. Kollokationen als Wortverbindungen bringen den zusätzlichen Einfluss mit ein, dass Wörter vielfach gemeinsam in präferierten Kombinationen gewählt werden. Dieser fällt aber nur dann auf, wenn das Ergebnis nicht das sonst Erwartbare ist – das allerdings von verschiedenen Faktoren (z. B. der situativen Angemessenheit) abhängig ist. Ein Kollokationsbegriff, der auf Abweichungen aufbaut, trägt nur im Vergleich zu einem nicht pauschal definierbaren Standard. Wenn sich Kollokationen aber im Kern auf Gebrauchspräferenzen zurückführen lassen, sind sie empirisch zugänglich. Kollokationen zeigen sich ermergent im Sprachgebrauch und lassen sich in Korpora aufspüren. Eine Einordnung bezüglich Auffälligkeiten (etwa zur Übersetzungsäquivalenz oder zur Idiomatik) ist jeweils eine perspektiven-bezogene Interpretation des allgemeinen Konzepts.
This paper presents a dictionary writing system developed at the Institute for the German Language in Mannheim (IDS) for an ongoing international lexicographical project that traces the way of German loanwords in the East Slavic languages Russian, Belarusian and Ukrainian that were possibly borrowed via Polish. The results will be published in the Lehnwortportal Deutsch (LWP, lwp.ids-mannheim.de), a web portal for loanword dictionaries with German as the common donor language. The system described here is currently in use for excerpting data from a large range of historical and contemporary East Slavic monolingual dictionaries. The paper focuses on the tools that help in merging excerpts that are etymologically related to one and the same Polish etymon. The merging process involves eliminating redundancies and inconsistencies and, above all, mapping word senses of excerpted entries onto a common cross-language set of ‘metasenses’. This mapping may involve literally hundreds of excerpted East Slavic word senses, including quotations, for one ‘underlying’ Polish etymon.
Handbuch Wort und Wortschatz
(2015)
Was Wort und Wortschatz sind, scheint auf den ersten Blick völlig unstrittig. Aber der sicher geglaubte Begriff des Worts wandelt und verschiebt sich hin zu Wortfügungen und Wortelementen, wenn Methoden aus Mündlichkeitsforschung, kognitiver und Korpuslinguistik einbezogen werden. Das Wort und der Wortschatz, verstanden als beziehungsreiches Gefüge zwischen den nur scheinbar isolierten Einzelwörtern, werden in sprachsystematischen wie anwendungsbezogenen Perspektiven beleuchtet: Bestandteile, aus denen Wörter bestehen, mehr oder weniger feste Wortverbindungen, Wörter in Satz- bzw. Äußerungszusammenhang; Wortschätze betrachtet nach Umfang, Zusammensetzung und Anwendungszweck; Wörter in visuellen Kontexten; Bedeutung und Begriff; Wörter und Wortschätze in sprachkritischer, in diachroner Sicht, in der Rechtschreibung, in der Schönen Literatur, im Wortschatzerwerb und im Wörterbuch. Notwendigerweise wird besonderes Augenmerk auf die aktuelleren methodischen Möglichkeiten wortbezogener Forschung gelegt, insofern sie maßgeblich zu einem flexibilisierten, dynamischen Verständnis des Worts beigetragen haben und beitragen. Die Handbuchbeiträge verbinden grundlegende Informationen zum jeweiligen Thema mit aktuellen Forschungsperspektiven.
The task-oriented and format-driven development of corpus query systems has led to the creation of numerous corpus query languages (QLs) that vary strongly in expressiveness and syntax. This is a severe impediment for the interoperability of corpus analysis systems, which lack a common protocol. In this paper, we present KoralQuery, a JSON-LD based general corpus query protocol, aiming to be independent of particular QLs, tasks and corpus formats. In addition to describing the system of types and operations that Koral- Query is built on, we exemplify the representation of corpus queries in the serialized format and illustrate use cases in the KorAP project.
Vorwort
(2015)
Introduction
(2015)
Die öffentliche Akzeptanz und Wirkung natur- und technikwissenschaftlicher Forschung hängt grundlegend davon ab, ob sich die Ziele und Forschungsergebnisse an die Öffentlichkeit vermitteln lassen. Doch die Inhalte aktueller Forschungsvorhaben sind für ein Laienpublikum oft nur schwer zugänglich und verständlich. Vor dem Hintergrund, die gesellschaftliche Diskussion natur- und technikwissenschaftlicher Forschung zu verbessern, untersuchen und bewerten wir im Projekt PopSci – Understanding Science einen wichtigen Sektor des populärwissenschaftlichen Diskurses in Deutschland empirisch. Hierfür identifizieren wir die linguistischen Merkmale deutscher populärwissenschaftlicher Texte durch korpusbasierte Methoden und untersuchen deren Effekt auf die kognitive Verarbeitung der Texte durch Laien. Dazu setzen wir Vor- und Nachwissenstests ein. Außerdem messen wir die Blickbewegungen der Leserinnen und Leser, während sie populärwissenschaftliche Texte lesen. Aus dieser Kombination von unterschiedlichen Methoden versuchen wir, erste Empfehlungen zur Verbesserung des linguistischen Stils und der Wissensrepräsentation populärwissenschaftlicher Texte abzuleiten.
This article reports on the on-going CoRoLa project, aiming at creating a reference corpus of contemporary Romanian (from 1945 onwards), opened for online free exploitation by researchers in linguistics and language processing, teachers of Romanian, students. We invest serious efforts in persuading large publishing houses and other owners of IPR on relevant language data to join us and contribute the project with selections of their text and speech repositories. The CoRoLa project is coordinated by two Computer Science institutes of the Romanian Academy, but enjoys cooperation of and consulting from professional linguists from other institutes of the Romanian Academy. We foresee a written component of the corpus of more than 500 million word forms, and a speech component of about 300 hours of recordings. The entire collection of texts (covering all functional styles of the language) will be pre-processed and annotated at several levels, and also documented with standardized metadata. The pre-processing includes cleaning the data and harmonising the diacritics, sentence splitting and tokenization. Annotation will include morpho-lexical tagging and lemmatization in the first stage, followed by syntactic, semantic and discourse annotation in a later stage.
In this paper, I present the COW14 tool chain, which comprises a web corpus creation tool called texrex, wrappers for existing linguistic annotation tools as well as an online query software called Colibri2. By detailed descriptions of the implementation and systematic evaluations of the performance of the software on different types of systems, I show that the COW14 architecture is capable of handling the creation of corpora of up to at least 100 billion tokens. I also introduce our running demo system which currently serves corpora of up to roughly 20 billion tokens in Dutch, English, French, German, Spanish, and Swedish
In a project called "A Library of a Billion Words" we needed an implementation of the CTS protocol that is capable of handling a text collection containing at least 1 billion words. Because the existing solutions did not work for this scale or were still in development I started an implementation of the CTS protocol using methods that MySQL provides. Last year we published a paper that introduced a prototype with the core functionalities without being compliant with the specifications of CTS (Tiepmar et al., 2013). The purpose of this paper is to describe and evaluate the MySQL based implementation now that it is fulfilling the specifications version 5.0 rc.1 and mark it as finished and ready to use. Further information, online instances of CTS for all described datasets and binaries can be accessed via the projects website.
The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word alignment across multiple languages. Additionally, linguistic annotation such as partof- speech tagging, lemmatisation, chunking, and dependency parsing facilitate precise querying of linguistic properties and can be used to extend word alignment to sub-sentential groups. Such highly interconnected data is stored in a relational database to allow for efficient retrieval and linguistic data mining, which may include the statistics-based selection of good example sentences. The varying information needs of contrastive linguists require a flexible linguistic query language for ad hoc searches. Such queries in the format of generalised treebank query languages will be automatically translated into SQL queries.
The Czech National Corpus (CNC) is a longterm project striving for extensive and continuous mapping of the Czech language. This effort results mostly in compilation, maintenance and providing free public access to a range of various corpora with the aim to offer a diverse, representative, and high-quality data for empirical research mainly in linguistics. Since 2012, the CNC is officially recognized as a research infrastructure funded by the Czech Ministry of Education, Youth and Sports which has caused a recent shift towards user service-oriented operation of the project. All project-related resources are now integrated into the CNC research portal at http://www.korpus.cz/. Currently, the CNC has an established and growing user community of more than 4,500 active users in the Czech Republic and abroad who put almost 1,900 queries per day using one of the user interfaces. The paper discusses the main CNC objectives for each particular domain, aiming at an overview of the current situation supplemented by an outline of future plans.
Maskierung
(2015)
Aus forschungsethischen Gründen müssen die Daten aus Gesprächsaufzeichnungen, die Metadaten sowie die Transkripte maskiert werden. Der Beitrag stellt Arbeitsschritte der Maskierung vor, die auf den Erfahrungen bei der Datenaufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD) basieren.
Transkriptionsaufwand
(2015)
Während die Erhebung von Gesprächsdaten zwar zeitaufwändig, aber doch noch relativ zügig zu bewältigen ist, handelt es sich bei der Transkription um eine langwierige Aufgabe, die oft unterschätzt wird. Damit Studierende, Promovierende sowie WissenschaftlerInnen, die Exposés, Arbeitspläne usw. aufstellen oder Zuschüsse für Projekte beantragen müssen, zukünftig über fundiertere Werte verfügen und damit realistischere Aussagen über den benötigten Aufwand (zeitliche wie personelle Ressourcen) treffen können, stellt der Beitrag die Ergebnisse einer Erhebung des Transkriptionsaufwandes im FOLK-Projekt vor.
Das vorliegende Handbuch vermittelt einige ausgewählte Untersuchungsperspektiven auf die Phänomene Wort und Wortschatz. Die einzelnen Beiträge ordnen die Gegenstände in einen jeweils spezifischen Zusammenhang ein und fokussieren dabei auf sprachliche Kontexte, interdisziplinäre Zusammenhänge, methodische Herangehensweisen unter dem Blickwinkel der linguistischen Theorie oder der angewandten Linguistik. Das Konzept des Wortes und des Wortschatzes erhält daher in jedem Beitrag eine eigene Bedeutung und Funktion. In Summe kommt dadurch ein komplexes Verständnis von Wort und Wortschatz zum Ausdruck, das Vielfalt und Interdisziplinarität statt Einschränkung und singuläre Ausrichtung zulässt.
Learning from Errors. Systematic Analysis of Complex Writing Errors for Improving Writing Technology
(2015)
In this paper, we describe ongoing research on writing errors with the ultimate goal to develop error-preventing editing functions in word-processors. Drawing from the state-of-the-art research in errors carried out in various fields, we propose the application of a general concept for action-slips as introduced by Norman. We demonstrate the feasibility of this approach by using a large corpus of writing errors in published texts. The concept of slips considers both the process and the product: some failure in a procedure results in an error in the product, i.e., is visible in the written text. In order to develop preventing functions, we need to determine causes of such visible errors.
Natural language Processing tools are mostly developed for and optimized on newspaper texts, and often Show a substantial performance drop when applied to other types of texts such as Twitter feeds, Chat data or Internet forum posts. We explore a range of easy-to-implement methods of adapting existing part-of-speech taggers to improve their performance on Internet texts. Our results show that these methods can improve tagger performance substantially.
Synonymie und Antonymie
(2015)
Synonymie (zum Beispiel ‚essen‘ und ‚speisen‘) und Antonymie (zum Beispiel ‚heiß‘ und ‚kalt‘), also Ähnlichkeit und Gegensätzlichkeit der Bedeutung, sind Phänomene, die im Zentrum sprachwissenschaftlicher Forschung stehen. Der zweite Band der Reihe ‚Literaturhinweise zur Linguistik‘ bietet eine konzise Einführung in das Thema Synonymie und Antonymie und eine strukturierte Auswahlbibliografie mit aktueller Fachliteratur und bewährten Nachschlagewerken. Er berücksichtigt verschiedene Richtungen der modernen Sprachwissenschaft wie etwa die Kognitionswissenschaft, die Korpus- und Computerlinguistik und Deutsch als Fremdsprache.
Zu den Gemeinplätzen wissenschaftlichen wie populären Nachdenkens über den Menschen gehört, dass es die Sprache ist, die ihn gegenüber allen anderen Lebewesen auszeichnet. Die naheliegende Folgerung, dass Sprachwissenschaft deshalb immer auch eine anthropologische Wissenschaft ist, wird dennoch eher selten gezogen. Dies obwohl es praktisch nicht möglich ist, sprachtheoretische Überlegungen zum ‚Wesen‘ der Sprache oder zu zentralen Fragestellungen der Linguistik anzustellen, ohne zumindest implizit auch ein Bild des Menschen selbst zu entwerfen. Der folgende Beitrag geht von Humboldt über Benveniste bis zur neueren conversation analysis denjenigen sprachtheoretischen Traditionslinien nach, welche den sprachlichen Menschen als einen basal auf ein Gegenüber bezogenen Menschen entwerfen – eine Konstellation, die zudem die Figur des ‚Dritten‘ erzeugt – und welche Sprachlichkeit als prägendes Formativ menschlicher Sozialität verstehen. Sprache wird entsprechend nicht nur als Medium referenzieller ‚Aboutness‘, sondern ebenso performativer ‚Withness‘ betrachtet. Im Horizont der Überlegungen steht dann allerdings auch die Frage, in welcher Weise die an gesprochener Sprache ausgerichtete, interaktionsorientierte Neukonturierung der Sprachwissenschaft in der zweiten Hälfte des 20. Jahrhunderts einen neuen Blick auf Schriftsprachlichkeit und ihre Leistungen in der Selbstformierung des Menschen ermöglicht.
Der Beitrag zum 50-jährigen Bestehen des IDS gibt einen Überblick über die Entstehung und Entwicklung der Satzsemantik, der am Wahrheitswert von Aussagen orientierten Lehre von zusammengesetzten sprachlichen Ausdrücken. Er tut dies am Beispiel der Negation, insbesondere an der syntaktischen Realisierung der Negation mit dem Negationsartikel ‚kein‘, an Negativen Polaritätselementen wie ‚jemals‘, an der doppelten Negation wie in ‚nicht unglücklich‘ und an der pleonastischen Negation nach ‚bevor‘. Auch die Negation in Fragen und Antwortpartikeln wie ‚nein‘ kommen zur Sprache.