Refine
Year of publication
Document Type
- Part of a Book (2541)
- Article (732)
- Book (260)
- Conference Proceeding (137)
- Review (65)
- Other (54)
- Working Paper (24)
- Part of Periodical (15)
- Report (5)
- Course Material (1)
Language
- German (3361)
- English (410)
- Russian (24)
- Multiple languages (13)
- French (10)
- Spanish (9)
- Portuguese (4)
- Italian (2)
- Dutch (1)
- Norwegian (1)
Keywords
- Deutsch (1651)
- Korpus <Linguistik> (404)
- Sprachgebrauch (187)
- Grammatik (180)
- Konversationsanalyse (164)
- Linguistik (153)
- Wörterbuch (152)
- Gesprochene Sprache (148)
- Kommunikation (129)
- Sprache (124)
Publicationstate
- Veröffentlichungsversion (2490)
- Zweitveröffentlichung (1161)
- Postprint (176)
- Erstveröffentlichung (3)
- Ahead of Print (1)
- Verlagsveröffentlichung (1)
Reviewstate
- (Verlags)-Lektorat (3836) (remove)
Publisher
- de Gruyter (1007)
- Institut für Deutsche Sprache (304)
- Narr (279)
- Leibniz-Institut für Deutsche Sprache (IDS) (156)
- Narr Francke Attempto (126)
- Lang (120)
- Niemeyer (115)
- Stauffenburg (57)
- IDS-Verlag (51)
- Winter (51)
Neologie und Korpus
(1998)
Das in der Germanistik lange vernachlässigte Thema der Neologie und des lexikalischen Wandels wird in theoretischen, methodologischen und praktischen Aspekten beleuchtet. Es wird gezeigt, welchen Beitrag die Korpuslinguistik bei der Objektivierung des Bedeutungswechsels bereits vorhandener lexikalischer Ausdrücke leisten kann und welche Relevanzkriterien für die lexikographische Bearbeitung erfüllt sein müssen.
Introduction
(2012)
Erpresserbriefe werden häufig mit elliptischen Formulierungen verbunden, welche durch ausgeschnittene, auf einem Stück Papier aufgeklebte Buchstaben realisiert werden. Betrachtet man allerdings authentische Erpresserbriefe, stellt man fest, dass viele wie ein Geschäftsbrief aussehen und verwaltungssprachliche Elemente aufweisen. Welche Formen der Verwaltungssprache sind das und warum werden diese in Schreiben illegalen Charakters verwendet? Der vorliegende Beitrag befasst sich mit diesen Fragestellungen. Anhand einer Stichprobe aus der Tatschreibensammlung des BKA werden Formen der Verwaltungssprache in Erpresserbriefen empirisch untersucht, Erklärungsansätze entwickelt und deren Relevanz für die Autorenerkennung erläutert.
Das kontrastive Verbvalenzwörterbuch Spanisch - Deutsch (Diccionario contrastivo de valencias verbales español - alemán DCVVEA) liefert eine Beschreibung der kombinatorischen Möglichkeiten von über hundert hochfrequenten Verben des Spanischen und ihrer deutschen Äquivalente und macht präzise Angaben zu ihren semantischen und syntagmatischen Eigenschaften. Die Abgrenzung von Bedeutungsvarianten für die polysemen spanischen Lemmata geht zum einen von vorliegenden lexikographische Beschreibungen aus, die an die Zielsetzungen des DCVVEA angepasst wurden, und stützt sich zum anderen auf das empirische Datenmaterial, das die syntaktische Datenbank Base de datos sintácticos del español actual (BDS) zur Verfügung stellt. Die BDS wurde von WissenschaftlerInnen der USC unter der Leitung von Guillermo Rojo erstellt und enthält die Ergebnisse der syntaktischen Analyse von etwa 160.000 Sätzen aus einem Textkorpus der spanischen Gegenwartssprache, ARTHUS (Archivo de textos hispánicos de la Universidad de Santiago de Compostela).
Das DCVVEA ist ein syntagmatisches Wörterbuch mit alphabetischer Struktur und Spanisch als Metasprache. Die Einträge beziehen sich auf die einzelnen Bedeutungsvarianten eines spanischen Verbs und werden mit authentischen Beispielen belegt. Den spanischen Verbvarianten werden deutsche Verben zugeordnet, die zu ihnen in einer vollständigen oder partiellen Äquivalenzrelation stehen. Die Ermittlung dieser Äquivalente stützt sich auf die Übersetzung der Korpusbeispiele. Die Valenzbeschreibung der spanischen und der deutschen Verbvarianten enthält funktionale, kategoriale und semantische Angaben zu den einzelnen Verbaktanten und explizite Hinweise auf kontrastiv relevante Unterschiede zwischen den Einheiten beider Sprachen.
In this paper, we present first results of training a classifier for discriminating Russian texts into different levels of difficulty. For the classification we considered both surface-oriented features adopted from readability assessments and more linguistically informed, positional features to classify texts into two levels of difficulty. This text classification is the main focus of our Levelled Study Corpus of Russian (LeStCoR), in which we aim to build a corpus adapted for language learning purposes – selecting simpler texts for beginner second language learners and more complex texts for advanced learners. The most discriminative feature in our pilot study was a lexical feature that approximates accessibility of the vocabulary by the second language learner in terms of the proportion of familiar words in the texts. The best feature setting achieved an accuracy of 0.91 on a pilot corpus of 209 texts.
Einleitung
(2012)
Ausgehend von der Einsicht, dass Wortbedeutungen (Sememe) als strukturierte Komplexe semantischer Merkmale (SM oder Seme) aufgefasst werden können, wurden in den zurückliegenden Jahren verschiedene Ermittlungs- und Beschreibungsmethoden für die Wortbedeutung vorgeschlagen. Im Folgenden soll sowohl prinzipiell als auch am Beispiel erörtert werden, welche Möglichkeiten und Grenzen sich gegenwärtig für die lexikographische Nutzung der semantischen Merkmal- oder Komponentenanalysen (SMA) bei der Bedeutungserklärung in Gebrauchswörterbüchern der deutschen Gegenwartssprache abzeichnen.
We discovered several recurring errors in the current version of the Europarl Corpus originating both from the web site of the European Parliament and the corpus compilation based thereon. The most frequent error was incompletely extracted metadata leaving non-textual fragments within the textual parts of the corpus files. This is, on average, the case for every second speaker change. We not only cleaned the Europarl Corpus by correcting several kinds of errors, but also aligned the speakers’ contributions of all available languages and compiled every- thing into a new XML-structured corpus. This facilitates a more sophisticated selection of data, e.g. querying the corpus for speeches by speakers of a particular political group or in particular language combinations.