Refine
Year of publication
Document Type
- Part of a Book (22)
- Article (4)
- Conference Proceeding (2)
- Book (1)
Has Fulltext
- yes (29)
Keywords
- Deutsch (20)
- Korpus <Linguistik> (18)
- Wortverbindung (11)
- Kollokation (7)
- Phraseologismus (7)
- Distribution <Linguistik> (5)
- Kookkurrenzanalyse (3)
- Politische Sprache (3)
- Wiedervereinigung <Deutschland> (3)
- Automatische Sprachanalyse (2)
Publicationstate
- Veröffentlichungsversion (29) (remove)
Reviewstate
- (Verlags)-Lektorat (29) (remove)
Publisher
- Narr (4)
- de Gruyter (4)
- Stauffenburg (3)
- Bulleks (2)
- Niemeyer (2)
- Univ. Karlova, Filozifická Fak. (2)
- Frank & Timme (1)
- Institut für Deutsche Sprache (1)
- Ivane Javakhishvili Tbilisi State University (1)
- Leibniz-Gemeinschaft (1)
Der Beitrag zeigt, auf welch grundlegende Weise das Paradigma der Corpus-Driven-Linguistics (CDL) die linguistische Beschreibung sprachlichen Usus auf der Basis mathematisch-statistischer Clusteringverfahren bestimmt. Es soll deutlich werden, wie sich diese Prämissen im Forschungsschwerpunkt zur linguistischen Systematisierung und Interpretation von Kookkurrenzdaten manifestieren.
We present a corpus-driven approach to the study of multi-word expressions, which constitute a significant part of. As a data basis, we use collocation profiles computed from DeReKo (Deutsches Referenzkorpus), the largest available collection of written German which has approximately two billion word tokens and is located at the Institute for the German Language (IDS). We employ a strongly usage-based approach to multi-word expressions, which we think of as conventionalised patterns in language use that manifest themselves in recurrent syntagmatic patterns of words. They are defined by their distinct function in language. To find multi-word expressions, we allow ourselves to be guided by corpus data and statistical evidence as much as possible, making interpretative steps carefully and in a monitored fashion. We develop a procedure of interpretation that leads us from the evidence of collocation profiles to a collection of recurrent word patterns and finally to multi-word expressions. When building up a collection of multi-word expressions in this fashion, it becomes clear that the expressions can be defined on different levels of generalisation and are interrelated in various ways. This will be reflected in the documentation and presentation of the findings. We are planning to add annotation in a way that allows grouping the multi-word expressions according to different features and to add links between them to reflect their relationships, thus constructing a network of multi-word expressions.
Der Beitrag zeigt, wie die im korpuslinguistischen Gesamtkonzept des Instituts für Deutsche Sprache entwickelten und in der praktischen Korpusarbeit konsequent umgesetzten Prinzipien sowie die entsprechenden automatischen Methoden der Korpuserschließung und -analyse für die linguistische Forschung und die Lexikografie fruchtbar gemacht werden können. Im Mittelpunkt steht dabei das Erklärungspotenzial der statistischen Kookkurrenzanalyse, einer automatischen Korpusanalysemethode, die einen sinnvollen Zugang zu sprachlichen Massendaten und damit zu sprachlichem Usus eröffnet. Die Anwendung dieser Methode ermöglicht darüber hinaus die Erfassung, Verifizierung und lexikografische Beschreibung usueller Wortverbindungen auf einer umfassenden empirischen Basis. Es wird grundsätzlich zwischen dem statistisch erhobenen Kookkurrenzpotenzial, also der berechneten lexikalischen Kohäsion zwischen sprachlichen Entitäten, und der nachgelagerten linguistischen Interpretation unterschieden. Die automatische Analyse bringt Kookkurrenzcluster hervor, die nicht nur binäre Relationen zwischen einem Bezugswort und einem Kookkurrenzpartner abbilden, sondern multiple Strukturen konstituieren können. Diese Cluster fungieren als „Bausteine der Kommunikation“ und weisen Evidenzen für verschiedenste sprachliche Informationen auf. So können sie semantische und pragmatische Aspektuierungen des Wortgebrauchs, formelhafte Ausprägungen oder auch idiomatische Gebundenheiten indizieren. Schließlich wird in einem Ausblick dargestellt, wie diese Methoden im elexiko-Modul ‚Usuelle Wortverbindungen‘ zur systematischen lexikografischen Erfassung und Beschreibung üblicher Wortverbindungen des Deutschen eingesetzt werden. Ziel ist es, ein korpusbasiertes elektronisches ‚Mehrwortlexikon‘ für das Deutsche zu erstellen und gleichzeitig neue Einblicke in die Kohäsions- und damit auch in Vernetzungsphänomene des deutschen Wortschatzes zu erlangen.
COOCCURRENCE ANALYSIS SEEN CONTRASTIVELY
On applying collocational patterning in bilingual lexicography - some examples from the large German-Czech academic dictionary
This paper resumes some of thoughts presented in the study by C. Belica and K. Steyer in this volume. It shows how bilingual lexicographers can take advantage of the cooccurrence analysis results when dealing with German-Czech contrast and structuring word configurations in an entry. They also sketch the corpus data in a form of structural types based on the collocational patterns and stress the importance of cooccurrence analysis for an enlarged offer of equivalents. They plead for more consideration of the syntactic variability. They argue that the cooccurrence analysis used for both German and for Czech should be an important step.