Korpuslinguistik
Refine
Year of publication
Document Type
- Book (28) (remove)
Has Fulltext
- yes (28)
Keywords
- Korpus <Linguistik> (28) (remove)
Publicationstate
Reviewstate
Publisher
- Narr (7)
- de Gruyter (4)
- Institut für Deutsche Sprache (3)
- Narr Francke Attempto (3)
- European Language Resources Association (ELRA) (2)
- Heidelberg University Publishing (2)
- Leibniz-Institut für Deutsche Sprache (2)
- European Language Resources Association (1)
- European language resources association (ELRA) (1)
- IDS-Verlag (1)
COSMAS. Ein Computersystem für den Zugriff auf Textkorpora. Version R.1.3-1. Benutzerhandbuch
(1994)
Neologie und Korpus
(1998)
Das in der Germanistik lange vernachlässigte Thema der Neologie und des lexikalischen Wandels wird in theoretischen, methodologischen und praktischen Aspekten beleuchtet. Es wird gezeigt, welchen Beitrag die Korpuslinguistik bei der Objektivierung des Bedeutungswechsels bereits vorhandener lexikalischer Ausdrücke leisten kann und welche Relevanzkriterien für die lexikographische Bearbeitung erfüllt sein müssen.
Große Sprachkorpora sind als empirische Basis für die Arbeit des Linguisten zunehmend wichtig geworden. Dabei gehen die Arbeiten zum Korpusaufbau Hand in Hand mit der Entwicklung immer komfortablerer computerlinguistischer Werkzeuge zur Verwaltung und Analyse großer Datenmengen. Mit dem Fortschritt in den Möglichkeiten der Datenerschließung stellt sich die Frage, wie die Linguistik dies in Erkenntniszuwachs umsetzen kann. Diese aktuelle Frage nach dem Zusammenhang von Datenverfügbarkeit und Wissenszuwachs stand im Zentrum der Jahrestagung des Instituts für Deutsche Sprache 2006. Das Jahrbuch Sprachkorpora - Datenmengen und Erkenntnisfortschritt stellt theoretische und methodische Fragen zu Anlage und Nutzung großer Korpora ins Zentrum und behandelt sie aus der Sicht verschiedener linguistischer Teildisziplinen wie Grammatik, Lexik/Lexikographie, Pragmatik/Soziolinguistik und Computerlinguistik/Informatik. Dabei werden anhand von Darstellungen zu aktuellen Projekten die unterschiedlichen Anforderungen an die Zusammensetzung und Aufbereitung von Sprachkorpora und an die Recherchemöglichkeiten ebenso deutlich wie Kernfragen der Methodologie, z.B. nach dem Status des linguistischen Datums selbst oder nach der Verbindung von quantitativen und qualitativen Verfahren.
Das Werk versteht sich als eine Darstellung der wichtigsten syntaktischen, prosodischen, semantischen und pragmatischen Eigenschaften kausaler und konditionaler Konnektoren des gesprochenen Deutsch.
Die Untersuchung formuliert notwendige theoretische Grundlagen und zeigt die komplexe Interaktion mehrerer Faktoren, die sich auf die Interpretation einer Äußerung auswirken. Empirische Daten belegen, dass die kontextuelle und pragmatische Interpretation der untersuchten Relationen stark mit ihren syntaktischen und prosodischen Mustern korreliert. Jedoch handelt es sich nicht um eine Eins-zu-eins-Beziehung, denn gleiche Lesarten können von kausalen und konditionalen Relationen unterschiedlich markiert sein. Anhand der Ergebnisse wird das Verhältnis zwischen Konditionalität und Kausalität diskutiert.
Die Nutzung von Korpora hat die Grammatikforschung in den letzten Jahren wirkungsvoll vorangebracht und birgt immer noch großes Potenzial. Korpora vermitteln Einsichten in den Sprachgebrauch und ermöglichen es, auch Phänomenen auf die Spur zu kommen, die in der Grammatikografie bisher unbeachtet blieben. Die Beiträge zur Dritten Internationalen Konferenz Grammatik und Korpora (Mannheim 2009) thematisieren zum einen korpusgestützte grammatische Untersuchungen zu verschiedenen Sprachen, zum anderen übereinzelsprachlich ausgerichtete methodologisch-korpuslinguistische Ansätze. Einblicke in laufende Forschungsvorhaben runden den Band ab, der sowohl für Grammatiker mit Interesse an korpuslinguistischen Methoden als auch für Korpuslinguisten gedacht ist, die grammatiktheoretische Fragen nicht ignorieren wollen.
Investigating the history of a language depends on fragmentary sources, but electronic corpora offer the possibility of alleviating the problem of ‘bad data’. However they cannot overcome it totally, and crucial questions thus arise of the optimal architecture for such a corpus, the problem of how representative even a large corpus can be of actual language use at a particular time, and how a historical corpus can best be annotated and provided with tools to maximize its usefulness as a resource for future researchers. Immense strides have been made in recent years in addressing these questions, with exciting new methods and technological advances. The papers in this volume, which were presented at a conference on New Methods in Historical Corpora (Manchester 2011), exemplify the range of these developments in investigating the diachrony of languages as distinct as English, German, Latin, Spanish, French and Slovene and developing appropriate tools for the analysis of historical corpora in these languages.
KonfeThe volume contains 23 papers read at the international conference “Historical Corpora 2012”, which was hosted by the LOEWE Research Cluster “Digital Humanities” of the State of Hesse at the University of Frankfurt on December 6-8, 2012. All in all, the conference comprised 27 individual papers plus five keynote speeches, three of which have been integrated in the present volume, too.
The contributions, which have been duly updated, take a broad variety of perspectives on “historical corpora”, including their structuring, their management, and various facets of the increase of knowledge they can provide. In addition to this, the papers cover a large amount of different languages, German – in nearly all its historical facettes – being the most widely addressed; however, the range of vernaculars treated extends far beyond that, across the Romance languages into the Caucasus and from the recent past down into antiquity. Differences also concern the linguistic interests prevailing in the papers, which may focus on syntactic, semantic, pragmatic, lexicological or other phenomena.
Contents:
1. Andreas Dittrich: Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies, S. 1
2. John Kirk, Anna Čermáková: From ICE to ICC: The new International Comparable Corpus, S. 7
3. Dawn Knight, Tess Fitzpatrick, Steve Morris, Jeremy Evas, Paul Rayson, Irena Spasic, Mark Stonelake, Enlli Môn Thomas, Steven Neale, Jennifer Needs, Scott Piao, Mair Rees, Gareth Watkins, Laurence Anthony, Thomas Michael Cobb, Margaret Deuchar, Kevin Donnelly, Michael McCarthy, Kevin Scannell: Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh), S. 13
4. Marc Kupietz, Andreas Witt, Piotr Bański, Dan Tufiş, Dan Cristea, Tamás Váradi: EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research, S. 15
5. Harald Lüngen, Marc Kupietz: CMC Corpora in DeReKo, S. 20
6. David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner, Hannah Walser: Organizing corpora at the Stanford Literary Lab, S. 25
7. Radoslav Rábara, Pavel Rychlý ,Ondřej Herman: Accelerating corpus search using multiple cores, S. 30
8. John Vidler, Stephen Wattam: Keeping Properties with the Data: CL-MetaHeaders – An Open Specification, S. 35
9. Vladimir Benko: Are Web Corpora Inferior? The Case of Czech and Slovak, S. 43
10. Edyta Jurkiewicz-Rohrbacher, Zrinka Kolaković, Björn Hansen: Web Corpora – the best possible solution for tracking phenomena in underresourced languages: clitics in Bosnian, Croatian and Serbian, S. 49
11. Vít Suchomel: Removing Spam from Web Corpora Through Supervised Learning Using FastText, S. 56