Refine
Year of publication
Document Type
- Part of a Book (2541)
- Article (732)
- Book (260)
- Conference Proceeding (137)
- Review (65)
- Other (54)
- Working Paper (24)
- Part of Periodical (15)
- Report (5)
- Course Material (1)
Language
- German (3361)
- English (410)
- Russian (24)
- Multiple languages (13)
- French (10)
- Spanish (9)
- Portuguese (4)
- Italian (2)
- Dutch (1)
- Norwegian (1)
Keywords
- Deutsch (1651)
- Korpus <Linguistik> (404)
- Sprachgebrauch (187)
- Grammatik (180)
- Konversationsanalyse (164)
- Linguistik (153)
- Wörterbuch (152)
- Gesprochene Sprache (148)
- Kommunikation (129)
- Sprache (124)
Publicationstate
- Veröffentlichungsversion (2490)
- Zweitveröffentlichung (1161)
- Postprint (176)
- Erstveröffentlichung (3)
- Ahead of Print (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836) (remove)
Publisher
- de Gruyter (1007)
- Institut für Deutsche Sprache (304)
- Narr (279)
- Leibniz-Institut für Deutsche Sprache (IDS) (156)
- Narr Francke Attempto (126)
- Lang (120)
- Niemeyer (115)
- Stauffenburg (57)
- IDS-Verlag (51)
- Winter (51)
Neologie und Korpus
(1998)
Das in der Germanistik lange vernachlässigte Thema der Neologie und des lexikalischen Wandels wird in theoretischen, methodologischen und praktischen Aspekten beleuchtet. Es wird gezeigt, welchen Beitrag die Korpuslinguistik bei der Objektivierung des Bedeutungswechsels bereits vorhandener lexikalischer Ausdrücke leisten kann und welche Relevanzkriterien für die lexikographische Bearbeitung erfüllt sein müssen.
Introduction
(2012)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
Das kontrastive Verbvalenzwörterbuch Spanisch - Deutsch (Diccionario contrastivo de valencias verbales español - alemán DCVVEA) liefert eine Beschreibung der kombinatorischen Möglichkeiten von über hundert hochfrequenten Verben des Spanischen und ihrer deutschen Äquivalente und macht präzise Angaben zu ihren semantischen und syntagmatischen Eigenschaften. Die Abgrenzung von Bedeutungsvarianten für die polysemen spanischen Lemmata geht zum einen von vorliegenden lexikographische Beschreibungen aus, die an die Zielsetzungen des DCVVEA angepasst wurden, und stützt sich zum anderen auf das empirische Datenmaterial, das die syntaktische Datenbank Base de datos sintácticos del español actual (BDS) zur Verfügung stellt. Die BDS wurde von WissenschaftlerInnen der USC unter der Leitung von Guillermo Rojo erstellt und enthält die Ergebnisse der syntaktischen Analyse von etwa 160.000 Sätzen aus einem Textkorpus der spanischen Gegenwartssprache, ARTHUS (Archivo de textos hispánicos de la Universidad de Santiago de Compostela).
Das DCVVEA ist ein syntagmatisches Wörterbuch mit alphabetischer Struktur und Spanisch als Metasprache. Die Einträge beziehen sich auf die einzelnen Bedeutungsvarianten eines spanischen Verbs und werden mit authentischen Beispielen belegt. Den spanischen Verbvarianten werden deutsche Verben zugeordnet, die zu ihnen in einer vollständigen oder partiellen Äquivalenzrelation stehen. Die Ermittlung dieser Äquivalente stützt sich auf die Übersetzung der Korpusbeispiele. Die Valenzbeschreibung der spanischen und der deutschen Verbvarianten enthält funktionale, kategoriale und semantische Angaben zu den einzelnen Verbaktanten und explizite Hinweise auf kontrastiv relevante Unterschiede zwischen den Einheiten beider Sprachen.
In this paper, we present first results of training a classifier for discriminating Russian texts into different levels of difficulty. For the classification we considered both surface-oriented features adopted from readability assessments and more linguistically informed, positional features to classify texts into two levels of difficulty. This text classification is the main focus of our Levelled Study Corpus of Russian (LeStCoR), in which we aim to build a corpus adapted for language learning purposes – selecting simpler texts for beginner second language learners and more complex texts for advanced learners. The most discriminative feature in our pilot study was a lexical feature that approximates accessibility of the vocabulary by the second language learner in terms of the proportion of familiar words in the texts. The best feature setting achieved an accuracy of 0.91 on a pilot corpus of 209 texts.
Einleitung
(2012)
Ausgehend von der Einsicht, dass Wortbedeutungen (Sememe) als strukturierte Komplexe semantischer Merkmale (SM oder Seme) aufgefasst werden können, wurden in den zurückliegenden Jahren verschiedene Ermittlungs- und Beschreibungsmethoden für die Wortbedeutung vorgeschlagen. Im Folgenden soll sowohl prinzipiell als auch am Beispiel erörtert werden, welche Möglichkeiten und Grenzen sich gegenwärtig für die lexikographische Nutzung der semantischen Merkmal- oder Komponentenanalysen (SMA) bei der Bedeutungserklärung in Gebrauchswörterbüchern der deutschen Gegenwartssprache abzeichnen.
We discovered several recurring errors in the current version of the Europarl Corpus originating both from the web site of the European Parliament and the corpus compilation based thereon. The most frequent error was incompletely extracted metadata leaving non-textual fragments within the textual parts of the corpus files. This is, on average, the case for every second speaker change. We not only cleaned the Europarl Corpus by correcting several kinds of errors, but also aligned the speakers’ contributions of all available languages and compiled every- thing into a new XML-structured corpus. This facilitates a more sophisticated selection of data, e.g. querying the corpus for speeches by speakers of a particular political group or in particular language combinations.
Based on specific linguistic landmarks in the speech signal, this study investigates pitch level and pitch span differences in English, German, Bulgarian and Polish. The analysis is based on 22 speakers per language (11 males and 11 females). Linear mixed models were computed that include various linguistic measures of pitch level and span, revealing characteristic differences across languages and between language groups. Pitch level appeared to have significantly higher values for the female speakers in the Slavic than the Germanic group. The male speakers showed slightly different results, with only the Polish speakers displaying significantly higher mean values for pitch level than the German males. Overall, the results show that the Slavic speakers tend to have a wider pitch span than the German speakers. But for the linguistic measure, namely for span between the initial peaks and the non-prominent valleys, we only find the difference between Polish and German speakers. We found a flatter intonation contour in German than in Polish, Bulgarian and English male and female speakers and differences in the frequency of the landmarks between languages. Concerning “speaker liveliness” we found that the speakers from the Slavic group are significantly livelier than the speakers from the Germanic group.
This study investigates cross-language differences in pitch range and variation in four languages from two language groups: English and German (Germanic) and Bulgarian and Polish (Slavic). The analysis is based on large multi-speaker corpora (48 speakers for Polish, 60 for each of the other three languages). Linear mixed models were computed that include various distributional measures of pitch level, span and variation, revealing characteristic differences across languages and between language groups. A classification experiment based on the relevant parameter measures (span, kurtosis and skewness values for pitch distributions for each speaker) succeeded in separating the language groups.
Zur Kontextualisierung von sozialen Kategorien und Stereotypen in der sprachlichen Interaktion
(1995)
Wortbegriff und Orthographie
(1980)
TEI Feature Structures as a Representation Format for Multiple Annotation and Generic XML Documents
(2009)
Feature structures are mathematical entities (rooted labeled directed acyclic graphs) that can be represented as graph displays, attribute value matrices or as XML adhering to the constraints of a specialized TEI tag set. We demonstrate that this latter ISO-standardized format can be used as an integrative storage and exchange format for sets of multiple annotation XML documents. This specific domain of application is rooted in the approach of multiple annotations, which marks a possible solution for XML-compliant markup in scenarios with conflicting annotation hierarchies. A more extreme proposal consists in the possible use as a meta-representation format for generic XML documents. For both scenarios our strategy concerning pertinent feature structure representations is grounded on the XDM (XQuery 1.0 and XPath 2.0 Data Model). The ubiquitous hierarchical and sequential relationships within XML documents are represented by specific features that take ordered list values. The mapping to the TEI feature structure format has been implemented in the form of an XSLT 2.0 stylesheet. It can be characterized as exploiting aspects of both the push and pull processing paradigm as appropriate. An indexing mechanism is provided with regard to the multiple annotation documents scenario. Hence, implicit links concerning identical primary data are made explicit in the result format. In comparison to alternative representations, the TEI-based format does well in many respects, since it is both integrative and well-formed XML. However, the result documents tend to grow very large depending on the size of the input documents and their respective markup structure. This may also be considered as a downside regarding the proposed use for generic XML documents. On the positive side, it may be possible to achieve a hookup to methods and applications that have been developed for feature structure representations in the fields of (computational) linguistics and knowledge representation.
Zur Semantik kausaler Satzverbindungen: Integration, Fokussierung, Definitheit und modale Umgebung
(2005)
Die geltende Regelung der Getrennt- und Zusammenschreibung und Ansatzpunkte zu ihrer Vereinfachung
(1975)
Der vorliegende Beitrag untersucht die grammatische Realisierung satzförmiger und satzwertiger Verbgruppen- und Satzadverbialia im Deutschen im Vergleich mit den romanischen Sprachen Italienisch und Portugiesisch (schwerpunktmäßig in der brasilianischen Varietät). Solche Adverbialia können formal recht unterschiedlich realisiert werden. Für das Deutsche sind finite, subjunktor-eingeleitete adverbiale Nebensätze typisch. Seltener sind uneingeleitete finite Nebensätze, Partizipialgruppen und durch eine Präposition eingeleitete Infinitivgruppen. In den romanischen Sprachen werden Gerundial-, Partizipial- und Infinitivgruppen deutlich häufiger als Adverbialia genutzt. Anders als im Deutschen können sie auch eigene Subjekte haben, wodurch sie finiten Nebensätzen ähnlicher werden.
The aim of this study is to select and formulate criteria for the assessment of tools and exercises that are using computer-assisted pronunciation training (CAPT). We examined ten different CAPT tools selected on the basis of an informal questionnaire among 10 colleagues working in a German-French CAPT project. Although the applied assessment must still be regarded as informal, and although the selected CAPT tools might not be an optimal sample for representing the state of the art, the results clearly show that there is a lot to improve regarding the clarity of instruction, the quality of exercises, the robustness of the diagnosis, the clarity and appropriateness of scoring, the diversity of feedback methods, the assumed benefit for various types of users as well as the usage of ASR. Despite various good approaches regarding graphics and game-like exercises there are obviously missing links between the pedagogical expertise in phonetic training on the one hand, and software development including usability engineering on the other.
Einführung in die Bände
(2002)
Zu den sprachwissenschaftlichen Grundlagen der Getrennt- und Zusammenschreibung (GZS) im Deutschen
(1986)
Der Aufsatz wendet sich einem von der germanistischen Linguistik besonders ungenügend behandelten Bereich der deutschen Orthographie zu (1.). Nach der Charakterisierung des Gegenstandsbereiches der GZS wird als deren zentrale Problematik das Gegenüber von Wortgruppe und Zusammensetzung herausgestellt (2.). Orientier! an diesen beiden — durch ihre wesentlichen Merkmale für die deutsche Gegenwartssprache bestimmten — Kategorien wird mit Hilfe des Prinzips von Zentrum und Peripherie für die einzelnen in Bezug auf die GZS relevanten Wortartkombinationen eine Skala ihrer orthographischen Problemhaftigkeit abgeleitet (3.). Der-als besonders problemträchtig erkannte verbale Bereich wird in seiner Spezifik genauer betrachtet (4.), und schließlich wird an Beispielen der Kombination Adjektiv + Verb die Notwendigkeit der Aufhellung und der Beachtung der sprachwissenschaftlichen Grundlagen bei Kodifizierungen im Wörterverzeichnis nachgewiesen (5. u. 6.).
Die germanistische Linguistik wendet in jüngster Zeit Fragen des Wortschatzes - seiner Herausbildung, seiner Entwicklung, seiner Verwendung, seiner Kodifikation - verstärkt ihre Aufmerksamkeit zu. In diesem Zusammenhang gewinnt auch die wissenschaftliche Beschäftigung mit der Neologie und mit der Neologismenlexikographie innerhalb der Germanistik an Bedeutung. Das ist vor allem deshalb zu begrüßen, weil die germanistische Sprachwissenschaft der Erforschung und Erfassung lexikalischer Innovationen in der Vergangenheit nicht in dem Maße gerecht geworden ist, das der gesellschaftlichen Bedeutung dieses Wortschatzbereiches und dem Widerhall, den das Thema in der interessierten Öffentlichkeit seit langem findet, entsprechen würde.
Einem bisher nicht in angemessener Weise gelösten Teilproblem - der lexikographischen Darstellung DDR-spezifischer Neologismen - wollen wir diesen Beitrag widmen.
Neologismen als Forschungsgegenstand - Aktuelle Aufgaben und Ziele der Neologismenlexikographie
(1991)
Wörterbuchvorwörter
(1989)
In this paper, we provide an analysis of temporality in Hausa (Chadic, Afro-Asiatic). By testing the hypothesis of covert tense (Matthewson 2006) against empirical data, we show that Hausa is genuinely tenseless in the sense that the grammar does not restrict the relation between reference time and utterance time. Rather, temporal reference is pragmatically inferred from aspectual and contextual information. We also argue that future time reference in Hausa is realized as a combination of a modal operator and a prospective aspect, thus involving the modal meaning components of intention and prediction as well as event time shifting.
Komplex-Anaphern (Schwarz-Friesel/Consten/Marx 2004; Consten 2004; abstract object anaphora, Asher 1993,2000) sind Nominalphrasen, die sich auf satzwertige Antezedenten beziehen und die dort ausgedrückten Sachverhalte zu einem einheitlichen Diskursobjekt zusammenfassen (vgl. Fraurud 1992). Wir beschreiben diesen anaphorischen Komplexbildungsprozess mit Hilfe ontologischer Kategorien und geben damit Ansätze für ein Verstehensmodell, das durch Integration semantischer und konzeptueller Prozesse die Referenzialisierung (und ggf. Desambiguierung) von Komplexanaphern erklärt.
Wer eine korpusgestützte Untersuchung anstellt, ist zu Recht stolz auf hohe Belegzahlen und statistische Aussagekraft. Aber auch das Seltene und das Einzigartige hat einen Reiz, und darauf konzentrieren sich die folgenden Recherchen und Vorschläge. Selbst das Nichtvorhandene kann morgen schon belegbar sein - zum Beispiel Pluralformen zu Lemmata, die in Wörterbüchern Grammatikangaben wie „ohne Plural“ erhalten. Am Beispiel von Pluralformen besonders zu Feminina mit Derivationssuffix -heit/-(ig)keit werden unterschiedliche Möglichkeiten diskutiert, wie man mit dem Seltenen, mit dem Einzigartigen und mit dem Nichtvorhandenen oder Noch-nicht-Nachweisbaren in der Lexikografie und in sprachtechnologischen Anwendungen umgehen kann. Für Anregungen und Korrekturen danke ich herzlich Vilmos Ágel, Peter Eisenberg, Peter Gallmann, Klaus Mackowiak, Damaris Nübling, Werner Scholze-Stubenrecht, Anatol Stefanowitsch und Lutz Wind. Die Idee zu diesem Versuch gab mir die Mitarbeit an der 7. Auflage des Duden-Universalwörterbuchs, DDUW (2011), unter der Leitung von Werner Scholze-Stubenrecht, und am Vollformenprojekt meiner Kollegen aus der Duden-Sprachtechnologie.
This paper provides a lexicalist formal description of preposition-pronoun contraction (PPC) in Polish, using the theoretical framework of HPSG. Considering the behaviour of PPC with respect to the prosodic, categorial, syntactic and semantic properties, the assumption can be made that each PPC is a morphological unit with prepositional status. The crucial difference between a PPC and a typical preposition consists, besides the phonological form, in the valence properties. While a typical preposition realizes its complement externally via general constraints on phrase structure, the realization of a PPC argument is effected internally by virtue of its lexical entry. Here, we will provide the appropriate implicational lexical constraints that license both typical Ps and PPCs.
Vorwort
(2014)
This paper presents a thorough examination of the validity of three evaluation measures on parser output. We assess parser performance of an unlexicalised probabilistic parser trained on two German treebanks with different annotation schemes and evaluate parsing results using the PARSEVAL metric, the Leaf-Ancestor metric and a dependency-based evaluation. We reject the claim that the TüBa-D/Z annotation scheme is more adequate then the TIGER scheme for PCFG parsing and show that PARSEVAL should not be used to compare parser performance for parsers trained on treebanks with different annotation schemes. An analysis of specific error types indicates that the dependency-based evaluation is most appropriate to reflect parse quality.
Lexikalisch-semantische Graduonymie. Eine empirisch basierte Arbeit zur lexikalischen Semantik
(2016)
Diese Arbeit befasst sich mit der Problematik gradueller Bedeutungsbeziehungen in der Sprache. Sie verfolgt das Ziel, die aufgrund der graduellen Opposition in Paradigmen formierten Wörter als eigenständigen Relationstyp der lexikalischen Semantik zu unterscheiden, ihn theoretisch herauszuarbeiten und empirisch zu fundieren. Diese Relation wird analog der terminologischen Tradition der "-nymie"-Relationen als Graduonymie bezeichnet. Mit verschiedenen empirischen Methoden wie der webbasierten Sprecherbefragung, Korpusanalysen, systematischen Tests und Kontrastierung mit dem Usbekischen werden die Validität und Stabilität der Daten überprüft und somit Erkenntnisse zum Phänomen der Graduonymie gewonnen. Dies bildet den Kernpunkt der Untersuchung. Dabei werden unterschiedliche Aspekte der Graduonymie betrachtet und analysiert. Der Vergleich der Methoden eröffnet neue Perspektiven auf die semantischen Relationen, die Vorgehensweise hat sich methodisch als erfolgreich erwiesen. Die Ergebnisse der Arbeit erbringen interessante Einsichten nicht nur in den Phänomenbereich der Graduonymie, sondern ergänzen den aktuellen Stand der lexikalischen Semantik sowohl in theoretischer Hinsicht als auch durch die methodenpluralistische Behandlung semantischer Relationen.
Der Beitrag will mit einem lexikologisch-lexikografischen Projekt des IDS bekannt machen, in dem seit 1997 Neulexeme und Neubedeutungen der Neunzigerjahre erforscht werden, soweit sie sich im allgemeinsprachlichen Teil des Wortschatzes der deutschen Standardsprache etabliert haben. Das Ziel des Projektes ist die lexikografische Beschreibung und Dokumentation von rund 1000 ausgewählten Neologismen. Dieses Unternehmen ist zugleich Pilotprojekt für die Präsentation lexikografischer Informationen als elektronische Datenbank im Rahmen des im Aufbau befindlichen lexikalisch-lexikologischen, korpusbasierten Informationssystems LEKSIS des IDS. Erste Arbeitserfahrungen mit diesem System werden anhand des Beispiels Shareholdervalue mitgeteilt.
Der Beitrag ist der jüngsten abgeschlossenen Phase deutscher Zeit- und Sprachgeschichte gewidmet - der Wendezeit 1989/90. Unter Bezugnahme auf ein im IDS kürzlich beendetes Projekt wird anhand von Beispielen demonstriert, dass durch die Untersuchung von sogenannten Schlüsselwörtern im öffentlichen Sprachgebrauch der Wendezeit das Verständnis für das Denken und Handeln der gesellschaftlich wirksamen Kräfte jener Zeit vertieft werden kann, dass Zeitgeschichte gleichsam im Spiegel von Schlüsselwörtern erfahren werden kann. Als Beispiel dienen die Bezeichnung die Wende und eine Gruppe von Bezeichnungen, mit denen eine kritische Einstellung zur Art und Weise der Behandlung der DDR-Bürger durch das alte DDR-System und durch die Bundesrepublik ausgedrückt wird (Bevormundung, Gängelei, Entmündigung u. a.).