Refine
Year of publication
Document Type
- Part of a Book (40)
- Article (13)
- Book (5)
- Conference Proceeding (4)
- Review (2)
- Report (1)
Keywords
- Deutsch (48)
- Korpus <Linguistik> (34)
- Wortverbindung (25)
- Kollokation (11)
- Phraseologismus (11)
- Phraseologie (10)
- Sprachgebrauch (8)
- Sprichwort (7)
- Computerunterstützte Lexikographie (5)
- Distribution <Linguistik> (5)
Publicationstate
- Veröffentlichungsversion (37)
- Zweitveröffentlichung (10)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (40)
- Peer-Review (4)
- Peer-Revied (1)
- Review-Status-unbekannt (1)
- Verlags-Lektorat (1)
Publisher
- de Gruyter (7)
- Narr (6)
- Narr Francke Attempto (4)
- Institut für Deutsche Sprache (3)
- Lang (3)
- Niemeyer (3)
- Schmidt (3)
- Stauffenburg (3)
- Bulleks (2)
- Dudenverlag (2)
Der Beitrag skizziert die Genese und Komplexität des Konzepts ‚Usuelle Wortverbindung‘ (UWV) vor dem Hintergrund der korpuslinguistischen Wende. Die Möglichkeit, sprachliche Massendaten untersuchen zu können, erbrachte neue Einsichten in Hinblick auf Status, Form, Funktion, Festigkeit und Variabilität dieser zentralen Wortschatzeinheiten – gleichzeitig aber auch in Hinblick auf ihre Unschärfen und vielfachen Überlappungen. Eine der folgenreichsten Erkenntnisse ist, dass UWVs auf vorgeprägten Schemata und Mustern basieren und in ein komplexes Netz von Ausdrücken ähnlicher Art eingebettet sind. Für die Aneignung sprachlichen Wissens ist das Verstehen solcher primär funktionalen Musterbildungen elementar.
This paper deals with a specific type of lexeme, namely binary preposition-noun combinations containing temporal references like am Ende [at (the) end] or für Sekunden [for seconds]. The main characteristic of these combinations is the recurrent internal zero gap. Despite the fact that the omission of the determiner can often be explained by grammatical rules, the zero gaps indicate a higher degree of lexicalization. Therefore, we interpret these expressions as minimal phraseological units with holistic meanings and functions. The corpusdriven exploration of typical context patterns (e.g. using collocation profiles and the lexpan slot filler analysis) shows that a) even such minimal expressions are based on semi-abstract schemes and b) temporal expressions can also fulfill modal or discursive functions, usually with fuzzy borders and overlapping structures. In the case of modalization or pragmatization one can regard such PNs as distinct lexicon entries.
Das neue Onlineformat PREPCONonline führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.
This paper discusses a theoretical and empirical approach to language fixedness that we have developed at the Institut für Deutsche Sprache (IDS) (‘Institute for German Language’) in Mannheim in the project Usuelle Worterbindungen(UWV) over the last decade. The analysis described is based on the Deutsches Referenzkorpus (‘German Reference Corpus’; DeReKo) which is located at the IDS. The corpus analysis tool used for accessing the corpus data is COSMAS II (CII) and – for statistical analysis – the IDS collocation analysis tool (Belica, 1995; CA). For detecting lexical patterns and describing their semantic and pragmatic nature we use the tool lexpan (or ‘Lexical Pattern Analyzer’) that was developed in our project. We discuss a new corpus-driven pattern dictionary that is relevant not only to the field of phraseology, but also to usage-based linguistics and lexicography as a whole.
This paper discusses new perspectives for a usage-based paremiology from a corpus-linguistic point of view. Using the example of proverb patterns, it shows different degrees of fixedness and proverb quality in German-English contrast. An interesting insight is that proverb similarities and differences can also be described by restrictions of semi-abstract schemes.
Die Analyse sprachlicher Massendaten zeigt, wie zentral mehr oder weniger feste Wortverbindungen als Lexikoneinheiten für die Sprachkompetenz sind. Der Beitrag geht zunächst kurz auf aktuelle Entwicklungen in der Phraseologie ein: eine Abkehr von der starken Betonung des Idiosynkratischen einerseits und die Hinwendung zum Vorgeprägten andererseits. Wir führen hierzu den Terminus‚ lexikalisch geprägte Muster‘ (LGM) ein. In einer Detailanalyse beschäftigen wir uns mit satzwertigen Wortverbindungen im Spannungsfeld zwischen ausgeprägter Lexikalisierung, die auf eine gesonderte kognitive Verankerung hindeutet, und der Konstitution abstrakter Spruchmuster als LGM-Subtyp. Im zweiten Teil zeigen wir, wie usuelle Wortverbindungen innerhalb von Phrasenkomposita zur Lexembildung beitragen.
Vorwort
(2018)
In der Geschichte der Sprachwissenschaft hat das Lexikon in unterschiedlichem Maße Aufmerksamkeit erfahren. In jüngerer Zeit ist es vor allem durch die Verfügbarkeit sprachlicher Massendaten und die Entwicklung von Methoden zu ihrer Analyse wieder stärker ins Zentrum des Interesses gerückt. Dies hat aber nicht nur unseren Blick für lexikalische Phänomene geschärft, sondern hat gegenwärtig auch einen profunden Einfluss auf die Entstehung neuer Sprachtheorien, beginnend bei Fragen nach der Natur lexikalischen Wissens bis hin zur Auflösung der Lexikon-Grammatik-Dichotomie. Das Institut für Deutsche Sprache hat diese Entwicklungen zum Anlass genommen, sein aktuelles Jahrbuch in Anknüpfung an die Jahrestagung 2017 – „Wortschätze: Dynamik, Muster, Komplexität“ – der Theorie des Lexikons und den Methoden seiner Erforschung zu widmen.
In my talk, I present an empirical approach to detecting and describing proverbs as frozen sentences with specific functions in current language use. We have developed this approach in the EU project ‘SprichWort’ (based on the German Reference Corpus). The first chapter illustrates selected aspects of our complex, iterative procedure to validate proverb candidates. Based on our corpus-driven lexpan methodology of slot analysis I then discuss semantic restrictions of proverb patterns. Furthermore, I show different degrees of proverb quality ranging from genuine proverbs to non-proverb realizations of the same abstract pattern. On the one hand, the corpus validation reveals that proverbs are definitely perceived and used as relatively fixed entities and often as sentences. On the other hand, proverbs are not only interpreted as an interesting unique phenomenon but also as part of the whole lexicon, embedded in networks of different lexical items.
Sprichwörter im Gebrauch
(2017)
Präposition-Substantiv-Verbindungen mit rekurrentem Nullartikel in adverbialer Verwendung – z.B. nach Belieben, auf Knopfdruck, ohne Ende oder bei Nacht – sind ein in der Mehrwortforschung bisher eher vernachlässigter Typ. Sie sind Untersuchungsgegenstand des laufenden Forschungsprojekts „Präpositionale Wortverbindungen kontrastiv“ (beteiligte Institutionen: IDS Mannheim, Universität Santiago de Compostela, Universität Trnava), in das wir in unserem Vortrag einen Einblick vermitteln. Es wird skizziert, wie sich solche Wortverbindungen sowie abstraktere präpositionale Wortverbindungsmuster vom Typ [in + SUBX-Zeit(en) (z.B. in Echtzeit, in Krisenzeiten) aus kontrastiver Sicht (Deutsch – Spanisch – Slowakisch) korpusbasiert untersuchen und lexikografisch beschreiben lassen. Von großem Interesse – gerade auch für Fremdsprachenlerner – sind dabei insbesondere die semantisch-funktionalen Restriktionen, denen solche Entitäten unterliegen. Basierend auf den theoretischen und empirischen Grundannahmen des am IDS entwickelten Modells „Usuelle Wortverbindungen“ (vgl. Steyer 2013) werden im Projekt zunächst Kollokations- und Kotextmuster für die binären deutschen Mehrworteinheiten induktiv in sehr großen Korpora ermittelt; im Anschluss werden sie einem systematischen Vergleich mit dem Spanischen und Slowakischen unterzogen. Methodisch greifen wir – in allen drei Sprachen – u.a. auf Kookkurrenzprofile zu den Wortverbindungen sowie auf Slotanalysen zu definierten Suchmustern zurück. Ziel des Projekts ist u.a. die Entwicklung eines neuartigen Prototyps für eine multilinguale Aufbereitung des Untersuchungsgegentands (speziell für Fremdsprachenlerner).
This paper presents our model of ‘MultiWord Patterns’ (MWPs). MWPs are defined as recurrent frozen schemes with fixed lexical components and productive slots that have a holistic – but not necessarily idiomatic – meaning and/or function, sometimes only on an abstract level. These patterns can only be reconstructed with corpus-driven, iterative (qualitative-quantitative) methods. This methodology includes complex phrase searches, collocation analysis that not only detects significant word pairs, but also significant syntagmatic cotext patterns and slot analysis with our UWV Tool. This tool allows us to bundle KWICs in order to detect the nature of lexical fillers for and to visualize MWP hierarchies.
Linguistic usage patterns are not just coincidental phenomena on the textual surface but constitute a fundamental constructional principle of language. At the same time, however, linguistic patterns are highly idiosyncratic in the sense that they tend to be item-specific and unpredictable, thus defying all attempts at capturing them by general abstract rules. […] What all these approaches [that deal with constructions, collocations, patterns, etc. K.S.] share, in addition to their interest in recurrent patterns, is a strong commitment to the value of usage, be it in the wider sense of usage as an empirical basis for sound linguistic analysis and description or in the narrower sense of usage as constituting the basis for the emergence and consolidation of linguistic knowledge. (Herbst et al. 2014: 1)
In consequence of the feasibility of studying language data in new quantitative dimensions, the phraseology faces a paradigm shift. The traditional focus on strongly lexicalized, often idiomatic multi-word expressions (MWE) has led to an overestimation of their unique status in the mental lexicon. The majority of MWEs are typical lexical realisations of templates (‘MW patterns’) that emerged from repeated usage and can be instantiated with ever changing lexical elements. The – primarily functional – pattern restrictions cannot always be predicted with rules, but are the result of recurring context factors. In this article, at first, it has been shown the nature and the interrelations of MW patterns that are reconstructed with complex corpus-driven methods. Furthermore, a vision of a new phraseography of MW pattern that described their hierarchies and functions based on authentic corpus data like KWIC bundles, slot filler tables and collocation profiles has been discussed.
Reformulierungen. Sprachliche Relationen zwischen Äußerungen und Texten im öffentlichen Diskurs
(1999)
Sprichwörter im Gebrauch
(2015)
Der Beitrag diskutiert linguistiche Fragestellungen und Probleme, die sich aus dem Projekt „Gesamtdeutsche Korpusinitiative" ergeben. Ausgangspunkt der Überlegungen ist die Frage, welchen Nutzen das Wendekorpus als Kern und eine weiterzuführende Dokumentation der deutschen Gegenwartssprache für sprachwissenschaftliche Analysen bringen könnte.
Im Zentrum der Untersuchungen steht das Spannungsverhältnis zwischen Kontinuität, Variation und wirklichem Wandel der Sprachverwendung. Dabei schließt sich an übergreifende, sich von Einzelphänomenen lösende Aussagen zur Sprache der Wende (Abschnitt I.) die exemplarische Vorführung von Kontinuität und Dynamik sprachlicher Strukturen an Textausschnitten aus dem Wendekorpus an (Abschnitt II.).
Der Beitrag diskutiert linguistische Fragestellungen und Probleme, die sich aus dem Projekt "Gesamtdeutsche Korpusinitiative" ergeben. Ausgangspunkt der Überlegungen ist die Frage, welchen Nutzen das Wendekorpus als Kern und eine weiterzuführende Dokumentation der deutschen Gegenwartssprache für sprachwissenschaftliche Analysen bringen könnte. Im Zentrum der Untersuchungen steht das Spannungsverhältnis zwischen Kontinuität, Variation und wirklichem Wandel der Sprachverwendung. Dabei schließt sich an übergreifende, sich von Einzelphänomenen lösende Aussagen zur Sprache der Wende (Abschnitt I.) die exemplarische Vorführung von Kontinuität und Dynamik sprachlicher Strukturen an Textausschnitten aus dem Wendekorpus an (Abschnitt II.).
Der Beitrag stellt Arbeiten des Projekts Usuelle Wortverbindungen am Institut für Deutsche Sprache (IDS) in Mannheim vor. Im Mittelpunkt stehen dabei neue Perspektiven, die sich für die elektronische Phraseographie aus der korpusanalytischen Auswertung sprachlicher Massendaten ergeben. Eine wichtige Methode ist die statistische Kookkurrenzanalyse, die u.a. dazu dient, feste Wortverbindungen zu extrahieren und typische Kontexte vorzustrukturieren. Auf dieser Basis lässt sich der tatsächliche Gebrauch fester Wortverbindungen in einer quantitativ und qualitativ neuen Dimension erfassen und lexikografisch beschreiben. Die heutigen technologischen Möglichkeiten können des Weiteren für neue und differenziertere Präsentationsformen angepasst an unterschiedliche Rezeptionsbedürfnisse genutzt werden. Das UWV-Projekt beschreitet auch im Bereich der Internet-Lexikografie neue Wege, was anhand ausgewählter Beispiele gezeigt wird.
Von der sprachlichen Oberfläche zum Muster. Zur qualitativen Interpretation syntagmatischer Profile
(2011)
This paper discusses a corpus-driven approach to the study of multi-word expressions (MWE) (in our terminology: Usuelle Wortverbindungen UWV). Our approach is based on collocation data and syntagmatic profiles. Several interpretative Steps lead from the language surface structure to MWE to more abstract multi-word patterns (MWP). MWP contain fixed components as well as slots, which are filled by elements with similar semantic or pragmatic characteristics. Like simple MWE, MWP can be considered units of the lexicon and patterns of language use with a holistic meaning and function. The formation of patterns, the semantic and pragmatic characteristics of the fillers and the restrictions on usage cannot be described by rules or language competence alone, but require bottom-up analysis on the basis of very large Corpora.
Der Beitrag zeigt, auf welch grundlegende Weise das Paradigma der Corpus-Driven-Linguistics (CDL) die linguistische Beschreibung sprachlichen Usus auf der Basis mathematisch-statistischer Clusteringverfahren bestimmt. Es soll deutlich werden, wie sich diese Prämissen im Forschungsschwerpunkt zur linguistischen Systematisierung und Interpretation von Kookkurrenzdaten manifestieren.
In this paper we outline our corpus-driven approach to detecting, describing and presenting multi- word expressions (MWEs). Our goal is to treat MWEs in a way that gives credit to their flexible nature and their role in language use. The bases of our research are a very large corpus and a Statistical method of collocation analysis. The rich empirical data is interpreted linguistically in a structured way which captures the interrelations, patterns and types of variances of MWEs. Several levels of abstraction build on each other: surface patterns, lexical realizations (LRs), MWEs and MWE patterns. Generalizations are made in a controlled way and in adherence to corpus evidence. The results are published online in a hypertext format.
Reformulierungen. Sprachliche Relationen zwischen Äußerungen und Texten im öffentlichen Diskurs
(1997)
Der vorliegende Band diskutiert die Konzepte "Reformulierung" und "Redewiedergabe" aus intertextuell-diskursiver Sicht und beschreibt zugleich einen Teil jüngster deutscher Sprachgeschichte. Untersucht werden grammatisch-strukturelle, propositionale und funktionale Eigenschaften von Reformulierungen unter besonderer Berücksichtigung der argumentativen Einbettungen. Anhand einer Fallstudie aus dem deutsch-deutschen Diskurs zwischen "Wende" und "Vereinigung" im Frühjahr 1990 werden Wiederaufnahmen eines relevanten Originaltextes in Folgetexten beschrieben. Dabei geht es vor allem um sprachliche Indikatoren für sprecher-, kontext- bzw. diskursabhängige Modifikationen, Interpretationen und Bewertungen von Bezugsentitäten. Die Detailanalyse erlaubt schließlich die Rekonstruktion von komplexen Reformulierungsmustern, die das kommunikative Verhalten der Deutschen in der Folgezeit nicht unwesentlich prägen und als typisch für öffentliche Diskurse überhaupt gelten können.
We present a corpus-driven approach to the study of multi-word expressions, which constitute a significant part of. As a data basis, we use collocation profiles computed from DeReKo (Deutsches Referenzkorpus), the largest available collection of written German which has approximately two billion word tokens and is located at the Institute for the German Language (IDS). We employ a strongly usage-based approach to multi-word expressions, which we think of as conventionalised patterns in language use that manifest themselves in recurrent syntagmatic patterns of words. They are defined by their distinct function in language. To find multi-word expressions, we allow ourselves to be guided by corpus data and statistical evidence as much as possible, making interpretative steps carefully and in a monitored fashion. We develop a procedure of interpretation that leads us from the evidence of collocation profiles to a collection of recurrent word patterns and finally to multi-word expressions. When building up a collection of multi-word expressions in this fashion, it becomes clear that the expressions can be defined on different levels of generalisation and are interrelated in various ways. This will be reflected in the documentation and presentation of the findings. We are planning to add annotation in a way that allows grouping the multi-word expressions according to different features and to add links between them to reflect their relationships, thus constructing a network of multi-word expressions.
This paper shows how a corpus-driven approach leads to a new perspective on central issues of phraseology and on lexicographical applications. It argues that a data-driven pattem search (applying Statistical methods), an a posteriori interpretation of the data and a user oriented documentation of the usage of multi-word units (e. g. in lexicographical articles) constitute a step-by-step process where each step has its own informational value and useflilness. The description of multi-word units (Usuelle Wortverbindungen) presented in this paper focuses on the second Step, the high quality analysis and interpretation of collocation data, exemplified by the fields of multi-word units centered around the word formslIdee/Ideenl(idea/ideas).
Das Buch untersucht usuelle Wortverbindungen als kommunikative Einheiten und Muster. Es zeigt, wie ihre pragma-semantischen Restriktionen auf verschiedenen Schematisierungsstufen in sehr großen Korpora zu beschreiben sind. Hierzu werden Korpusmethoden für die Erfassung syntagmatischer Strukturen linguistisch reflektiert und als integratives Analysemodell angewendet. Die Ergebnisse liefern sowohl einen Beitrag zu einer musterbasierten Phrasemtheorie und Phraseografie als auch zu einer qualitativen Korpuslinguistik auf der Basis quantitativer Verfahren. Neue Einsichten erbringt die Abhandlung darüber hinaus zu Festigkeit und Varianz von Chunks und Konstruktionen der geschriebenen Sprache.
CONTRIBUTIONS TO THE STUDY OF GERMAN USAGE A CORPUS-BASED APPROACH
This paper outlines some basic assumptions and principles underlying the corpus linguistics research and some application domains at the Institute for German Language in Mannheim. We briefly address three complementary but closely related tasks: first, the acquisition of very large corpora, second, the research on statistical methods for automatically extracting information about associations between word configurations, and, third, meeting the challenge of understanding the explanatory power of such methods both in theoretical linguistics and in other fields such as second language acquisition or lexicography. We argue that a systematic statistical analysis of huge bodies of text can reveal substantial insights into the language usage und change, far beyond just collocational patterning.
COOCCURRENCE ANALYSIS SEEN CONTRASTIVELY
On applying collocational patterning in bilingual lexicography - some examples from the large German-Czech academic dictionary
This paper resumes some of thoughts presented in the study by C. Belica and K. Steyer in this volume. It shows how bilingual lexicographers can take advantage of the cooccurrence analysis results when dealing with German-Czech contrast and structuring word configurations in an entry. They also sketch the corpus data in a form of structural types based on the collocational patterns and stress the importance of cooccurrence analysis for an enlarged offer of equivalents. They plead for more consideration of the syntactic variability. They argue that the cooccurrence analysis used for both German and for Czech should be an important step.
Usuelle Wortverbindungen des Deutschen. Linguistisches Konzept und lexikografische Möglichkeiten
(2000)
Der Artikel schlägt ein für lexikografische Zwecke adaptierbares linguistisches Modell von üblichen Wortverbindungen vor, das die verschiedenen Herangehensweisen der Idiomatikforschung integriert, das streng korpusbasiert ist und die Kontexte von Wortverbindungen konsequent einbezieht. Das Modul 'Usuelle Wortverbindungen des Deutschen' ist ein zentrales Konzept des IDS-Projektes "Wissen über Wörter", ein hypertextbasiertes, lexikalisch-lexikologisches Informationssystem, das in seinem Endausbau circa 300 000 Stichwörter enthalten wird. Korpusstatistische Kookkurenzanalysen stellen hierbei ein wichtiges lexikografisches Arbeitsinstrument für die Rekonstruktion von Lesarten, von semantischen Merkmalen und Eigenschaften der Lemmata dar. Usuelle Wortverbindungen (Kollokationen, Phraseologismen und andere nicht-idiomatische Wendungen) werden in diesem elektronischen Nachschlagewerk darüber hinaus selbst zum Gegenstand lexikografischer Beschreibung, zum einen als Kookkurrenzangaben zu jedem Einwortlemma und zum anderen in einem eigenständigen Artikeltyp 'Mehrwortlemma'. Schließlich bietet diese kookkurrenzbezogene Herangehensweise eine fundierte empirische Basis für linguistische Untersuchungen.
Der Artikel diskutiert Ziele, Methoden und Probleme einer geplanten deutsch-französischen Übersetzungsplattform. Auf der Basis paralleler und vergleichbarer Korpora sollen mit Hilfe dieses elektronischen Werkzeuges nicht nur Übersetzungsvorschläge für Einzelwörter, sondern auch für Kollokationen, Phrasen und systematisierte Verwendungskontexte gemacht werden. Dabei geht es vor allem um die Erfassung jener Einheiten, die nicht in traditionellen Wörterbüchern stehen, aber bereits Usus sind. Das Projekt integriert drei Herangehensweisen: Korpusbasiertheit, Orientierung auf Idiomatizität als relevanes Übersetzungsprinzip, Kontextbezogenheit. Der Beitrag umreißt den Projektansatz anhand der Kollokationsproblematik.
Der Beitrag zeigt, wie die im korpuslinguistischen Gesamtkonzept des Instituts für Deutsche Sprache entwickelten und in der praktischen Korpusarbeit konsequent umgesetzten Prinzipien sowie die entsprechenden automatischen Methoden der Korpuserschließung und -analyse für die linguistische Forschung und die Lexikografie fruchtbar gemacht werden können. Im Mittelpunkt steht dabei das Erklärungspotenzial der statistischen Kookkurrenzanalyse, einer automatischen Korpusanalysemethode, die einen sinnvollen Zugang zu sprachlichen Massendaten und damit zu sprachlichem Usus eröffnet. Die Anwendung dieser Methode ermöglicht darüber hinaus die Erfassung, Verifizierung und lexikografische Beschreibung usueller Wortverbindungen auf einer umfassenden empirischen Basis. Es wird grundsätzlich zwischen dem statistisch erhobenen Kookkurrenzpotenzial, also der berechneten lexikalischen Kohäsion zwischen sprachlichen Entitäten, und der nachgelagerten linguistischen Interpretation unterschieden. Die automatische Analyse bringt Kookkurrenzcluster hervor, die nicht nur binäre Relationen zwischen einem Bezugswort und einem Kookkurrenzpartner abbilden, sondern multiple Strukturen konstituieren können. Diese Cluster fungieren als „Bausteine der Kommunikation“ und weisen Evidenzen für verschiedenste sprachliche Informationen auf. So können sie semantische und pragmatische Aspektuierungen des Wortgebrauchs, formelhafte Ausprägungen oder auch idiomatische Gebundenheiten indizieren. Schließlich wird in einem Ausblick dargestellt, wie diese Methoden im elexiko-Modul ‚Usuelle Wortverbindungen‘ zur systematischen lexikografischen Erfassung und Beschreibung üblicher Wortverbindungen des Deutschen eingesetzt werden. Ziel ist es, ein korpusbasiertes elektronisches ‚Mehrwortlexikon‘ für das Deutsche zu erstellen und gleichzeitig neue Einblicke in die Kohäsions- und damit auch in Vernetzungsphänomene des deutschen Wortschatzes zu erlangen.