Refine
Document Type
- Article (5)
- Conference Proceeding (4)
- Part of a Book (1)
Has Fulltext
- yes (10)
Is part of the Bibliography
- no (10) (remove)
Keywords
- Deutsch (6)
- Korpus <Linguistik> (6)
- Chatten <Kommunikation> (3)
- Computerunterstützte Lexikografie (3)
- Datenbank (2)
- Englisch (2)
- Internet (2)
- Maschinelle Sprachverarbeitung (2)
- Text Encoding Initiative (TEI) (2)
- Bewertung (1)
Publicationstate
- Veröffentlichungsversion (10) (remove)
Reviewstate
- Peer-Review (10) (remove)
Publisher
- Erich Schmidt (2)
- Academic Publishing Division of the Faculty of Arts of the University of Ljubljana (1)
- Austrian Centre for Digital Humanities, Austrian Academy of Sciences (1)
- CLARIN (1)
- GSCL (1)
- IKS e.V. (1)
- International Committee on Computational Linguistics (1)
- Niemeyer (1)
- Sprachwissenschaftliches Institut, Ruhr-Universität Bochum (1)
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
This paper describes the lexical database tool LOLA (Linguistic-Oriented Lexical database Approach) which has been developed for the construction and maintenance of lexicons for the machine translation system LMT. First, the requirements such a tool should meet are discussed, then LMT and the lexical information it requires, and some issues concerning vocabulary acquisition are presented. Afterwards the architecture and the components of the LOLA system are described and it is shown how we tried to meet the requirements worked out earlier. Although LOLA originally has been designed and implemented for the German-English LMT prototype, it aimed from the beginning at a representation of lexical data that can be reused for other LMT or MT prototypes or even other NLP applications. A special point of discussion will therefore be the adaptability of the tool and its components as well as the reusability of the lexical data stored in the database for the lexicon development for LMT or for other applications.
Converting and Representing Social Media Corpora into TEI: Schema and best practices from CLARIN-D
(2016)
The paper presents results from a curation project within CLARIN-D, in which an existing lMWord corpus of German chat communication has been integrated into the DEREKO and DWDS corpus infrastructures of the CLARIN-D centres at the Institute for the German Language (IDS, Mannheim) and at the Berlin-Brandenburg Academy of Sciences (BBAW, Berlin). The focus is on the solutions developed for converting and representing the corpus in a TEI format.
Editorial
(2013)
We introduce our pipeline to integrate CMC and SM corpora into the CLARIN-D corpus infrastructure. The pipeline was developed by transforming an existing CMC corpus, the Dortmund Chat Corpus, into a resource conforming to current technical and legal standards. We describe how the resource has been prepared and restructured in terms of TEI encoding, linguistic annotations, and anonymisation. The output is a CLARIN-conformant resource integrated in the CLARIN-D research infrastructure.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
Der Beitrag beschreibt einen Ansatz zur Qualitätsbewertung multimodaler Hypertexte und internetbasierter Interaktion. Das Modell fußt auf Ansätzen zur Bewertung von Textqualität in linear organisierten Schrifttexten, insbesondere dem Zürcher Textqualitätenraster, das bereits im prädigitalen Zeitalter für eine große empirische Untersuchung zum Schreibgebrauch in Aufsatztexten genutzt wurde. Der Beitrag beschreibt und begründet, welche Erweiterungen für multimodale Hypertexte und internetbasierte Interaktion erforderlich sind. Vertiefend wird dabei das Konzept der Kohärenz behandelt, das für lineare Texte und für Hypertexte gleichermaßen relevant ist. An Beispielen wird gezeigt, wie Hyperlinks als digitale Kohärenzbildungshilfen bei der Hypertextproduktion und beim interaktionsorientierten Schreiben eingesetzt werden. Die Kohärenzanalyse wird erweitert um zwei neue Aspekte: 1) die interaktionale Kohärenz zwischen Beiträgen verschiedener Personen in der digitalen Interaktion (z. B. beim Chatten oder in Online-Diskussionen) und 2) die multimodale Kohärenz zwischen Text-, Bild-, Audio- und Videoelementen.
Wörterbücher im Internet
(1996)
Die Autorinnen entwerfen zunächst eine typologische Skizze der im Internet angebotenen lexikalischen Datensammlungen, die um qualitative und quantitative Untersuchungen zum Sprachenpaar Deutsch-Englisch ergänzt ist. Schließlich werden medienspezifische Merkmale wie Hypertextualisierung, Multimedialität und Zugriffsangebote anhand typischer Beispiele erörtert. Es wird deutlich, daß die meisten der untersuchten Wörterbücher die Gestaltungsmöglichkeiten des Mediums bei weitem nicht ausreizen und dem Qualitätsvergleich mit professionellen elektronischen Offline-Wörterbüchern nicht standhalten können. Die Vorteile des Online-Mediums Internet zeigen sich jedoch bei schnell wachsenden und sich verändernden Wortschatzbereichen, z.B. terminologischen Datensammlungen für Naturwissenschaften und Informatik. In vielerlei Hinsicht interessant sind auch Projekte der kooperativen Wörterbucherstellung, die durch die Kombination von Informations- und Kommunikationsdiensten im Internet begünstigt werden. Diese neuen Formen der Wörterbucharbeit dokumentieren nicht nur den Bedarf nach weltweitem Wissensaustausch, sondern auch Interesse und Spaß an der Kommunikation über Sprache.