Volltext-Downloads (blau) und Frontdoor-Views (grau)

Instantiation and implementation of a corpus query lingua franca

  • The present thesis introduces KoralQuery, a protocol for the generic representation of queries to linguistic corpora. KoralQuery defines a set of types and operations which serve as abstract representations of linguistic entities and configurations. By combining these types and operations in a nested structure, the protocol may express linguistic structures of arbitrary complexity. It achieves a high degree of neutrality with regard to linguistic theory, as it provides flexible structures that allow for the setting of certain parameters to access several complementing and concurrent sources and layers of annotation on the same textual data. JSON-LD is used as a serialisation format for KoralQuery, which allows for the well-defined and normalised exchange of linguistic queries between query engines to promote their interoperability. The automatic translation of queries issued in any of three supported query languages to such KoralQuery serialisations is the second main contribution of this thesis. By employing the introduced translation module, query engines may also work independently of particular query languages, as their backend technology may rely entirely on the abstract KoralQuery representations of the queries. Thus, query engines may provide support for several query languages at once without any additional overhead. The original idea of a general format for the representation of linguistic queries comes from an initiative called Corpus Query Lingua Franca (CQLF), whose theoretic backbone and practical considerations are outlined in the first part of this thesis. This part also includes a brief survey of three typologically different corpus query languages, thus demonstrating their wide variety of features and defining the minimal target space of linguistic types and operations to be covered by KoralQuery.
  • Die vorliegende Arbeit präsentiert KoralQuery, ein Protokoll für die allgemeine Repräsentation von Anfragen an linguistische Korpora. KoralQuery definiert eine Menge von Typen und Operationen, welche als abstrakte Repräsentationen linguistischer Einheiten und Operationen dienen. Das Protokoll ist in der Lage, durch Verschachtelung dieser Typen und Operationen linguistische Strukturen von beliebiger Komplexität auszudrücken. Es erreicht ein hohes Maß an Neutralität in Bezug auf linguistische Theorien, indem es flexible Strukturen bietet, welche mit Hilfe von gewissen Parametern mehrere ergänzende sowie konkurrierende Annotationsebenen auf denselben Textdaten ansprechen können. Als Serialisierungsformat für KoralQuery wird JSON-LD verwendet, was einen wohl-definierten und normalisierten Austausch linguistischer Anfragen zwischen mehreren Korpusanfragesystemen ermöglicht und somit deren Interoperabilität fördert. Die automatische Übersetzung von Anfragen aus drei konkreten Anfragesprachen in solche KoralQuery-Serialisierungen ist der zweite zentrale Beitrag dieser Arbeit. Die Verwendung des vorgestellten Übersetzungsmoduls ermöglicht Anfragesystemen, unabhängig von bestimmten Anfragesprachen zu arbeiten, da ihre Backend-Technologien lediglich die abstrakten KoralQuery-Repräsentationen der Anfragen interpretieren müssen. Die Anfragesysteme können somit gleichzeitig mehrere Anfragesprachen unterstützen, ohne diese direkt interpretieren zu müssen. Die ursprüngliche Idee zur Entwicklung eines allgemeinen Formats zur Repräsentation linguistischer Anfragen entspringt einer Initiative mit Namen Copus Query Lingua Franca (CQLF), deren theoretischer Hintergrund und praktische Überlegungen im ersten Teil dieser Arbeit wiedergegeben werden. Dieser Teil umfasst ebenfalls eine kurze Studie dreier typologisch verschiedener Korpusanfragesprachen, welche die Mannigfaltigkeit derer Eigenschaften demonstriert und die minimale Zielvorgabe bezüglich der Typen und Operationen definiert, die KoralQuery abdecken muss.

Export metadata

Additional Services

Share in Twitter Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Joachim Bingel
URN:urn:nbn:de:bsz:mh39-42849
Place of publication:Heidelberg
Referee:Andreas WittORCiDGND, Anette Frank
Document Type:Master's Thesis
Language:English
Year of first Publication:2015
Date of Publication (online):2015/10/16
Date of final exam:2015/02/15
Publicationstate:Veröffentlichungsversion
Reviewstate:Abschlussarbeit (Bachelor, Master, Diplom, Magister) (Bachelor, Master, Diss.)
GND Keyword:Computerlinguistik; Korpus <Linguistik>; SQL; Textlinguistik
Pagenumber:78
Dewey Decimal Classification:400 Sprache / 410 Linguistik
Linguistics-Classification:Computerlinguistik
Linguistics-Classification:Korpuslinguistik
Open Access?:Ja
Licence (English):License LogoCreative Commons - Attribution-NoDerivs 4.0 International