CorpusExplorer. Eine Software zur korpuspragmatischen Analyse
- Ziel dieser Arbeit war es, eine Software zu entwickeln, die quantitative und qualitative korpuslinguistische Methoden miteinander verbindet. Die Gesamtarbeit besteht daher aus zwei Teilen: einer Open-Source-Software und dem schriftlichen Teil. Der hier vorgelegte schriftliche Teil ist eine vollständige Dokumentation (Handbuch), ergänzt um eigene Publikationen, die im Rahmen des Dissertationsprojekts entstanden. In Kapitel 1.2 Korpora und beispielhafte Fragestellungen (S. 8) erfolgt eine Illustration beispielhafter Forschungsfragen anhand bereitgestellter und im Corpus- Explorer integrierter Korpora. Außerdem werden unter "?? ?? (S. ??)" Analysen mit verschiedensten prototypischen Forschungsfragen verknüpft, die sowohl quantitative als auch qualitative Perspektiven einnehmen. Der CorpusExplorer wurde besonders nutzerfreundlich gestaltet. Dabei ist die Zielgruppe der Software sehr breit defniert: Die Nutzung soll sowohl in der Forschung als auch in der Lehre möglich sein. Daher richtet sich der CorpusExplorer gleichermaßen an Studierende und Forschende mit ihren jeweils spezifschen Bedürfnissen. Die Nutzung für die Forschung zeigt sich (A) an den integrierten Artikeln sowie daran, dass (B) andere Forschende den CorpusExplorer bereits für ihre Arbeit aufgegriffen haben. Der Nutzen für die Lehre wurde mehrfach selbst erprobt und optimiert. Im Lehr-Einsatz ist es wichtig, dass Korpora mit wenigen Mausklicks analysefertig sind und verschiedene Analysen und Visualisierungen direkt genutzt werden können. Studierende erhalten so die Möglichkeit, eigenes Korpusmaterial direkt und selbst auszuwerten. Für Forschende bietet der CorpusExplorer ein sehr breites Funktionsspektrum. Im Vergleich zu anderer (öffentlich verfügbarer) korpuslinguistischer Software verfügt er aktuell über das wohl breiteste Anwendungsspektrum (51 Analysemodule (inkl. weiterentwickelter Verfahren), über 100 unterstützte Dateiformate für Im- und Export, unterschiedliche Tagger mit 69 unterstützten Sprachmodellen). Er kann so in bestehende Skripte, Toolchains und Workflows für sehr unterschiedliche Forschungsfragen integriert werden. Im CorpusExplorer wurden nicht nur bestehende Funktionen gebündelt, es wurden auch bisherige Verfahren weiterentwickelt. Hierzu zählen z. B. (1) die Entwicklung einer eigenen, an korpuslinguistischen Bedürfnissen ausgerichteten Datenbank- Struktur, (2) die Weiterentwicklung bzw. Optimierung des Verfahrens der Kookkurrenz- Analyse hin zu einer quantitativen Kookkurrenz-Analyse (keine Parameter wie Suchfenstergröße oder Suchwort nötig, Berechnung aller Kookkurrenzen zu allen Token in einem Korpus) und (3) die Verknüpfung unterschiedlicher Analyseressourcen, wie z. B. der NGram- und der Kookkurrenz-Analyse.
- The main goal of this project was to develop a software (working title: CorpusExplorer) that combines both quantitative and qualitative corpus linguistic methods. Therefore, the overall work consists of two parts: an OpenSource software and a written part. The written part presented here is a complete documentation (manual) supplemented with the author's own publications, which were developed in the context of his PhD project. Chapter 1.2 Korpora und beispielhafte Fragestellungen (S.8) offers an exemplary illustration of research questions based on corpora provided by (and included in) the CorpusExplorer. In addition, chapter 2.8 Analysemodule und Anwendungsbeispiele (S. 114) links analyses to a wide variety of prototypical research questions that take both quantitative and qualitative perspectives. CorpusExplorer has been designed to be very user-friendly, and its target group has been de ned very broadly: The software should be able to be used both in research and in teaching. Therefore, CorpusExplorer is aimed at students and researchers alike accommodating each group's speci c needs. The suitability for research is shown (A) by the integrated articles as well as (B) by the fact that CorpusExplorer is already used by other researchers for their research. The suitability for teaching has been self-tested and optimized several times. In teaching, it is important that corpora are ready for analysis after just a few mouse clicks and that various analyses and visualizations can be used directly. Thanks to the way it has been designed, CorpusExplorer gives students the opportunity to analyze their own corpus material directly and on their own. To researchers, CorpusExplorer o ers a very wide range of functions. Compared to other (publicly available) corpus linguistic software, it currently offers one of the widest ranges (if not the widest range) of applications (51 analysis modules (incl. a variety of methods that have been enhanced by the author), over 100 supported file formats for import and export, different taggers with 69 supported language models). CorpusExplorer can thus be integrated into existing scripts, toolchains and work ows for a wide range of research questions. Not only have existing functions been bundled in CorpusExplorer, but existing procedures have also been enhanced. This includes, for example, (1) the development of its own database structure oriented towards corpus linguistic needs, (2) the enhancement of the procedure for co-occurrence analysis towards a quantitative co-occurrence analysis (e.g. by eliminating the need for parameters like search window size or search words or by the calculation of all co-occurrences for all tokens in a corpus) and (3) the linking of di erent analysis resources e. g. NGram and co-occurrence analysis.
Author: | Jan Oliver RüdigerORCiDGND |
---|---|
URN: | urn:nbn:de:bsz:mh39-113155 |
URL: | https://kobra.uni-kassel.de/handle/123456789/13609 |
DOI: | https://doi.org/10.17170/kobra-202202085725 |
Publisher: | Universität Kassel |
Place of publication: | Kassel |
Referee: | Andreas GardtGND, Friedemann VogelORCiDGND |
Document Type: | Doctoral Thesis |
Language: | German |
Year of first Publication: | 2022 |
Date of Publication (online): | 2022/11/03 |
Publishing Institution: | Leibniz-Institut für Deutsche Sprache (IDS) |
Date of final exam: | 2020/08/12 |
Publicationstate: | Veröffentlichungsversion |
Reviewstate: | Qualifikationsarbeit (Dissertation, Habilitationsschrift) |
GND Keyword: | Analytische Methode; Data Mining; Korpus <Linguistik>; Open Source; Software; Text Mining |
Page Number: | vi; 302; xv |
University: | Universität Kassel |
City of University: | Kassel |
DDC classes: | 400 Sprache / 400 Sprache, Linguistik |
Open Access?: | ja |
Linguistics-Classification: | Computerlinguistik |
Linguistics-Classification: | Korpuslinguistik |
Program areas: | L3: Lexik empirisch und digital |
Licence (English): | Creative Commons - Attribution-ShareAlike 4.0 International |