Korpuslinguistik
Refine
Year of publication
Document Type
- Book (34) (remove)
Has Fulltext
- yes (34)
Keywords
- Korpus <Linguistik> (28)
- Deutsch (12)
- Datenmanagement (5)
- Korpuslinguistik (5)
- Computerlinguistik (4)
- Germanistik (4)
- Grammatik (4)
- Kongress (4)
- Forschungsdaten (3)
- Historische Sprachwissenschaft (3)
Publicationstate
Reviewstate
Publisher
- Narr (11)
- de Gruyter (5)
- Institut für Deutsche Sprache (4)
- Narr Francke Attempto (3)
- European Language Resources Association (ELRA) (2)
- Heidelberg University Publishing (2)
- Leibniz-Institut für Deutsche Sprache (2)
- European Language Resources Association (1)
- European language resources association (ELRA) (1)
- IDS-Verlag (1)
Contents:
1. Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary and Benoît Sagot: "Ungoliant: An Optimized Pipeline for the Generation of a Very Large-Scale Multilingual Web Corpus", S.1-9.
2. Markus Gärtner, Felicitas Kleinkopf, Melanie Andresen and Sibylle Hermann: "Corpus Reusability and Copyright - Challenges and Opportunities", S.10-19.
3. Nils Diewald, Eliza Margaretha and Marc Kupietz: "Lessons learned in Quality Management for Online Research Software Tools in Linguistics", S.20-26.
COSMAS. Ein Computersystem für den Zugriff auf Textkorpora. Version R.1.3-1. Benutzerhandbuch
(1994)
In order to satisfy the information needs of a wide range of researchers across a number of disciplines, large textual datasets require careful design, collection, cleaning, encoding, annotation, storage, retrieval, and curation. This daunting set of tasks has coalesced into a number of key themes and questions that are of interest to the contributing research communities: (a) what sampling techniques can we apply? (b) what quality issues should we be aware of? (c) what infrastructures and frameworks are being developed for the efficient storage, annotation, analysis and retrieval of large datasets? (d) what affordances do visualisation techniques offer for the exploratory analysis approaches of corpora? (e) what legal paths can be followed in dealing with IPR and data protection issues governing both the data sources and the query results? (f) how to guarantee that corpus data remain available and usable in a sustainable way?
Contents:
1. Johannes Graën, Tannon Kew, Anastassia Shaitarova and Martin Volk, "Modelling Large Parallel Corpora", S. 1-8
2. Pedro Javier Ortiz Suárez, Benoît Sagot and Laurent Romary, "Asynchronous Pipelines for Processing Huge Corpora on Medium to Low Resource Infrastructures", S. 9-16
3. Vladimír Benko, "Deduplication in Large Web Corpora", S. 17-22
4. Mark Davies, "The best of both worlds: Multi-billion word “dynamic” corpora", S. 23-28
5. Adrien Barbaresi, "On the need for domain-focused web corpora", S. 29-32
6. Marc Kupietz, Eliza Margaretha, Nils Diewald, Harald Lüngen and Peter Fankhauser, "What's New in EuReCo? Interoperability, Comparable Corpora, Licensing", S. 33-39
Digitale Korpora haben die Voraussetzungen, unter denen sich Wissenschaftler mit der Erforschung von Sprachphänomenen beschäftigen, fundamental verändert. Umfangreiche Sammlungen geschriebener und gesprochener Sprache bilden mittlerweile die empirische Basis für mathematisch präzise Generalisierungen über zu beschreibende Wirklichkeitsausschnitte. Das Datenmaterial ist hochkomplex und besteht neben den Rohtexten aus diversen linguistischen Annotationsebenen sowie außersprachlichen Metadaten. Als unmittelbare Folge stellt sich die Konzeption adäquater Recherchelösungen als beträchtliche Herausforderung dar. Im vorliegenden Buch wird deshalb ein datenbankbasierter Ansatz vorgestellt, der sich der Problematiken multidimensionaler Korpusrecherchen annimmt. Ausgehend von einer Charakterisierung der Anforderungsmerkmale linguistisch motivierter Suchen werden Speicherungs- und Abfragestrategien für mehrfach annotierte Korpora entwickelt und anhand eines linguistischen Anforderungskatalogs evaluiert. Ein Schwerpunkt liegt dabei in der Einführung problemorientierter Segmentierung und Parallelisierung.
Phänomene im Bereich von Valenz, Argumentstruktur, Diathesen, Kollokationen und Phrasemen dienen von jeher zur Bestimmung der Schnittstelle zwischen Lexikon und Grammatik. Mittlerweile sind allerdings grundsätzliche Zweifel an der Berechtigung der sprachtheoretischen Zweiteilung in Lexikon und Grammatik aufgekommen, auch weil die Entwicklungen im Bereich empirischer Methodik einen zunehmend besseren Einblick in die differenzierte Natur sprachlichen Wissens ermöglichen und uns mit semiproduktiven Prozessen, graduellen Kategoriezuordnungen, instabilen sprachlichen Mustern und frequenzgesteuerten Usualisierungen eigentlich regelhafter Strukturen konfrontieren. Die strikte Grenze zwischen der Grammatik als dem Ort des syntaktisch-semantisch Regelhaften und dem Lexikon als dem Repositorium des syntaktisch-semantisch Idiosynkratischen ist damit in Frage gestellt. Die Beiträge des Bandes betrachten den Bereich, wo Regelhaftes und Idiosynkratisches miteinander verwoben sind, sie führen Kontroversen zum Status von Konstruktionen und dem Verhältnis zwischen Lexikon und Grammatik, und sie zeigen, wie empirische Methoden der Korpuslinguistik, Psycho- und Neurolinguistik und Spracherwerbsforschung zur Klärung dieser Kontroversen beitragen.
Mit der Verfügbarkeit immer größerer und vielfältigerer Korpora wird im Übergang zum 21. Jahrhundert in der Lexikonforschung ein neues Kapitel aufgeschlagen. Der korpuslinguistische Zugang zum Lexikon hat die Lexikografie mit einer neuen empirischen Basis versehen und die klassische Abgrenzung zwischen Lexikon und Grammatik wird in sprachtheoretischen Debatten zunehmend in Frage gestellt. Der vorliegende Band nimmt eine Positionsbestimmung dieser Entwicklungen vor. Er setzt ein mit der Diskussion zur Rolle des Lexikons im Sprachsystem. Im zweiten Teil, “Kookkurrenz und Konstruktion”, geht es um Phänomene, die über die Ebene des einzelnen Wortes hinausgehen und seit einiger Zeit immer größeres Interesse auf sich ziehen. Mentale Prozesse und Repräsentationen des Lexikons bilden den Fokus im Teil “Kognition und Semantik”. Mit “Komplexität und Dynamik” werden im vierten Teil zwei weitere zentrale Begriffe der aktuellen linguistischen Diskussion über das Lexikon thematisiert, bevor abschließend auch auf die Implikationen für Wortschatzforschung und Lexikografie eingegangen wird.
Korpuslinguistik
(2018)
Der Band nimmt eine Bestandsaufnahme zu Grundlagen, Methodik, Werkzeugen und Anwendungsfeldern der Korpuslinguistik mit Fokus auf die germanistische Sprachwissenschaft vor. Die Beiträge stellen den aktuellen Forschungsstand sowohl im Bereich schriftsprachlicher wie auch mündlicher Korpora dar und beschreiben innovative Herangehensweisen, aktuelle Herausforderungen und Desiderata zur Arbeit mit Korpora in der Sprachwissenschaft.
Contents:
1. Christoph Kuras, Thomas Eckart, Uwe Quasthoff and Dirk Goldhahn: Automation, management and improvement of text corpus production, S. 1
2. Thomas Krause, Ulf Leser, Anke Lüdeling and Stephan Druskat: Designing a re-usable and embeddable corpus search library, S. 6
3. Radoslav Rábara, Pavel Rychlý and Ondřej Herman: Distributed corpus search, S. 10
4. Adrien Barbaresi and Antonio Ruiz Tinoco: Using elasticsearch for linguistic analysis of tweets in time and space, S. 14
5. Marc Kupietz, Nils Diewald and Peter Fankhauser: How to Get the Computation Near the Data: Improving data accessibility to, and reusability of analysis functions in corpus query platforms, S. 20
6. Roman Schneider: Example-based querying for specialist corpora, S. 26
7. Paul Rayson: Increasing interoperability for embedding corpus annotation pipelines in Wmatrix and other corpus retrieval tools, S. 33
Grammar and corpora 2016
(2018)
In recent years, the availability of large annotated and searchable corpora, together with a new interest in the empirical foundation and validation of linguistic theory and description, has sparked a surge of novel and interesting work using corpus-based methods to study the grammar of natural languages. However, a look at relevant current research on the grammar of the Germanic, Romance, and Slavic languages reveals a variety of different theoretical approaches and empirical foci, which can be traced back to different philological and linguistic traditions. Still, this current state of affairs should not be seen as an obstacle but as an ideal basis for a fruitful exchange of ideas between different research paradigms.