Refine
Year of publication
Document Type
- Part of a Book (35)
- Article (17)
- Conference Proceeding (13)
- Other (2)
Keywords
- Deutsch (18)
- Korpus <Linguistik> (16)
- Hypertext (12)
- Computerunterstützte Kommunikation (10)
- Computerunterstützte Lexikografie (8)
- Internet (8)
- Computerunterstütztes Informationssystem (7)
- Chatten <Kommunikation> (6)
- Neue Medien (6)
- Textlinguistik (6)
Publicationstate
- Veröffentlichungsversion (39)
- Zweitveröffentlichung (10)
- Postprint (7)
- Preprint (2)
Reviewstate
- (Verlags)-Lektorat (31)
- Peer-Review (23)
- Peer-review (2)
- Review-Status-unbekannt (1)
Publisher
- de Gruyter (9)
- Niemeyer (8)
- De Gruyter (3)
- Narr (3)
- Springer (3)
- Westdeutscher Verlag (3)
- Erich Schmidt (2)
- IKS e.V. (2)
- Lang (2)
- Olms (2)
We present an empirical study addressing the question whether, and to which extent, lexicographic writing aids improve text revision results. German university students were asked to optimise two German texts using (1) no aids at all, (2) highlighted problems, or (3) highlighted problems accompanied by lexicographic resources that could be used to solve the specific problems. We found that participants from the third group corrected the largest number of problems and introduced the fewest semantic distortions during revision. Also, they reached the highest overall score and were most efficient (as measured in points per time). The second group with highlighted problems lies between the two other groups in almost every measure we analysed. We discuss these findings in the scope of intelligent writing environments, the effectiveness of writing aids in practical usage situations and teaching dictionary skills.
We present an empirical study addressing the question whether, and to which extent, lexicographic writing aids improve text revision results. German university students were asked to optimise two German texts using (1) no aids at all, (2) highlighted problems, or (3) highlighted problems accompanied by lexicographic resources that could be used to solve the specific problems. We found that participants from the third group corrected the largest number of problems and introduced the fewest semantic distortions during revision. Also, they reached the highest overall score and were most efficient (as measured in points per time). The second group with highlighted problems lies between the two other groups in almost every measure we analysed. We discuss these findings in the scope of intelligent writing environments, the effectiveness of writing aids in practical usage situations and teaching dictionary skills.
Netiketten sind Regelsammlungen für den richtigen Umgang mit den Kommunikationsdiensten des Internet, die sich primär an Neulinge richten. Die Regeln transportieren die Wertvorstellungen aus den Gründerjahren des Internet und reflektieren die Erfahrungen der gemeinsamen Netznutzung. Aus diesem Grund sind Netiketten aufschlußreiche Dokumente, um Eigenschaften und Entwicklungen des kommunikativen sozialen Stils im Internet zu beobachten und nachzuzeichnen. Unser Beitrag führt kurz in Geschichte und Status der Netiketten ein und nimmt dann unter sprach- und kommunikationswissenschaftlicher Perspektive die Regulierungsgegenstände unter die Lupe, die sich auf den Umgang mit elektronischer Post beziehen.
Wörterbücher im Internet
(1996)
Die Autorinnen entwerfen zunächst eine typologische Skizze der im Internet angebotenen lexikalischen Datensammlungen, die um qualitative und quantitative Untersuchungen zum Sprachenpaar Deutsch-Englisch ergänzt ist. Schließlich werden medienspezifische Merkmale wie Hypertextualisierung, Multimedialität und Zugriffsangebote anhand typischer Beispiele erörtert. Es wird deutlich, daß die meisten der untersuchten Wörterbücher die Gestaltungsmöglichkeiten des Mediums bei weitem nicht ausreizen und dem Qualitätsvergleich mit professionellen elektronischen Offline-Wörterbüchern nicht standhalten können. Die Vorteile des Online-Mediums Internet zeigen sich jedoch bei schnell wachsenden und sich verändernden Wortschatzbereichen, z.B. terminologischen Datensammlungen für Naturwissenschaften und Informatik. In vielerlei Hinsicht interessant sind auch Projekte der kooperativen Wörterbucherstellung, die durch die Kombination von Informations- und Kommunikationsdiensten im Internet begünstigt werden. Diese neuen Formen der Wörterbucharbeit dokumentieren nicht nur den Bedarf nach weltweitem Wissensaustausch, sondern auch Interesse und Spaß an der Kommunikation über Sprache.
The concept of text coherence was developed for linear text, i.e. text of sequentially organized content. The present article addresses to what extent this concept can be applied to hypertext. Following the introduction (section 1), I will define different aspects of text coherence (section 2). I will then explain the importance of the sequential order of text constituents for coherence-building, as explored by empirical studies on text comprehension (section 3). Section 4 discusses how hypertext-specific forms of reading affect the processes of coherence-building and coherence-design. Section 5 explores how the new challenges of hypertext comprehension may be met by hypertext-specific coherence cues. A summary and outlook is included (section 6).
Bislang bezeichnet der Ausdruck „Hypertext“ eher verschiedene Visionen von künftigen Schreib- und Lesetechnologien als ein klares Konzept. In diesem Aufsatz wird der Versuch unternommen, die mit Hypertext verbundenen innovativen Ideen aus textwissenschaftlicher Perspektive zu beschreiben und zu bewerten und damit zur Präzisierung des Hypertext-Konzepts beizutragen. In Abschnitt 2 werden zunächst die verschiedenen Bestimmungen des Verhältnisses von Text und Hypertext, die in der Literatur zu finden sind, erläutert und systematisiert. Auf dieser Basis werden in Abschnitt 3 begriffliche Differenzierung eingeführt, die es ermöglichen, Hypertexte als textuelle Gebilde mit ganz spezifischen Eigenschaften an einen pragmatisch und funktional fundierten Textbegriff anzubinden und damit textlinguistische Erkenntnisse und Kategorien für die interdisziplinär zu entwickelnde Hypertext-Rhetorik nutzbar zu machen. Abschnitt 4 setzt sich mit der sog. „Nicht- Linearität“ von Hypertexten auseinander. Ausgehend von Überlegungen zum Stellenwert der Sequenzierung von Teiltexten für die Erreichung kommunikativer Handlungsziele, führe ich eine terminologische Unterscheidung zwischen medialer und konzeptueller Linearität ein, die dem Merkmal „nicht-linear“ größere begriffliche Schärfe verleiht und es ermöglicht, Vorteile und Einsatzmöglichkeiten des Mediums „Hypertext“ im Vergleich zum Medium „Buch“ präzise zu fassen.
Schriftverkehr auf der Datenautobahn: Besonderheiten der schriftlichen Kommunikation im Internet
(2000)
The paper deals with the conversion of linear text into non-linear hypertext. It discusses the following issues from a textlinguistic viewpoint: How to segment linear text into hypertext units? What are the guidelines for interrelating these hypertext units by hyperlinks? A two-stage conversion method will be proposed and illustrated by examples from the GRAMMIS project in which a German grammar book is transformed into hypertext: Within the first methodical stage (functional-holistic text analysis) the linear text is segmented and analyzed with regard to its structural properties. Within the second stage the resulting text segments are transformed into hypertext units and interrelated by hyperlinks in accordance with the results of the functional-holistic text analyses. The method is particularly useful for non-standardized text types, which cannot be converted automatically on the basis of form-oriented features.
Bislang hat die mit dem Aufbau von Lexika für Sprachverarbeitungssysteme befaßte Computerlexikographie metalexikographische Forschungsergebnisse nur wenig zur Kenntnis genommen. Die theoriegeleitete Erforschung der Bauteile und Strukturen von Wörterbuchtexten ist jedoch eine wichtige Voraussetzung dafür, daß Wörterbücher in Wörterbuchdatenbanken überführt werden können, die als Datengrundlage sowohl beim Aufbau von Lexika für die maschinelle Sprachverarbeitung als auch beim Aufbau von Hypertext-Wörterbüchem für menschliche Benutzer herangezogen werden. Der vorliegende Artikel versteht sich als Plädoyer für die Relevanz metalexikographischer Forschungsergebnisse für die computerlexikographische Praxis. Zunächst werden die Forschungsbereiche Computerlexikographie und computerunterstützte Lexikographie gegeneinander abgegrenzt; dann wird deren Verhältnis zur lexikographischen Praxis einerseits und zur Metalexikographie andererseits skizziert. Der Hauptteil der Arbeit zeigt am Beispiel des sog. Wörterbuchparsings, wie metalexikographische Methoden und Forschungsergebnisse in der computerlinguistischen Praxis umgesetzt werden können.
Grammatikographie mit Neuen Medien: Erfahrungen beim Aufbau eines grammatischen Informationssystems
(1997)
In 1993, a research group at the Institut für deutsche Sprache (Mannheim) began to develop a Hypermedia grammar. It integrates components of the comprehensive Grammatik der Deutschen Sprache of the IdS into an interactive information system called GRAMMIS (»Grundlagen eines grammatischen Informationssystems«). After some background considerations, the design of the system is presented, and the functioning of some of the components is illustrated. Parts of its present version, Grammis-3, are also accessible via Internet. Practical experiences so far are very encouraging. The paper concludes with a discussion of future prospects.
Der Artikel befasst sich mit der Beschreibung des deutschen Verbwortschatzes im Hinblick auf die Perspektivierungsmöglichkeiten, die mit verbalen Ausdrücken verbunden sind. Im Unterschied zu den meisten Nomina und Adjektiven eröffnen verbale Ausdrücke grundsätzlich Leerstellen, Valenzstellen oder Verbargumente genannt, mit denen die an der Situation beteiligten Entitäten in bestimmter Weise syntaktisch angeschlossen werden können. Verbale Ausdrücke, die sich prinzipiell zur Bezeichnung derselben Situation eignen, unterscheiden sich nun genau in der Anzahl ihrer Verbargumente und der Art des Beitrags der Argumente zur Verbbedeutung voneinander. Weiterhin gibt es im Deutschen wie in fast allen Sprachen systematische Perspektivierungszusammenhänge zwischen syntaktischen Konstruktionen, die mit demselben Verb oder derivationell verwandten Verben gebildet werden können. Im Vordergrund der folgenden Ausführungen steht die Frage, wie diese Perspektivierungsalternativen in einer onomasiologisch orientierten und auf Situationstypen bezogenen Beschreibung verbaler Ausdrücke berücksichtigt werden können.
GrammIs ist ein multimediales Informationssystem zur deutschen Grammatik, das seit Mitte 1993 am Institut für deutsche Sprache (IDS) entwickelt wird. Der vorliegende Aufsatz skizziert zunächst die Architektur des Informationssystems und diskutiert die Vorteile eines solchen Systems im Vergleich zur traditionellen Buchform. Anschließend wird gezeigt, wie bei der Konzeption und Entwicklung des Prototypen GrammIs-1 versucht wurde, durch methodisch reflektierte Konversion des Ausgangstextes, durch die Verwendung intuitiv eingänglicher Benutzermetaphern und durch Navigationsangebote, die sich flexibel auf die unterschiedliche Computererfahrung verschiedener Benutzer einstellen, eine einfach bedienbare Hypermedia-Anwendung zu entwickeln, die im Vergleich zum grammatischen Ausgangstext tatsächlich den vielbeschworenen „informationellen Mehrwert“ aufweist.
Der Beitrag behandelt das Zusammenspiel von Text und Interaktion im Internet. Abschnitt 2 erläutert am Beispiel der Wikipedia, wie sich die textorientierte Arbeit an den Artikeln und das interaktionsorientierte Diskutieren funktional ergänzen. Abschnitt 3 untersucht Links als digitale Kohärenzbildungshilfen und zeigt an einem Fallbeispiel, wie diese in den schriftlichen Diskussionen dafür genutzt werden, relevante Informationen im „virtuellen“ Aufmerksamkeitsbereich präsent und für phorische und deiktische Bezugnahmen zugänglich zu machen. Abschnitt 4 diskutiert Ergebnisse aus zwei Vergleichsstudien zum Gebrauch der Konnektoren 'weil' sowie 'sprich' und 'd.h.' in Wikipedia-Artikeln und Diskussionen, die auf der Basis von Wikipedia-Korpora in der DeReKo-Sammlung des IDS durchgefuhrt wurden.
Für die mediale Dimension grammatischer Variation spielt die Unterscheidung von Gespräch und Text eine wichtige Rolle. Implizit wird dabei die Kategorie Text mit schriftlich realisierter Sprache und die Kategorie Gespräch mit mündlich realisierter Sprache identifiziert. Diese Zuordnung wird in Anbetracht der mediatisierten, hypermedialen Präsentations- und Kommunikationsformen im Internet zunehmend fragwürdig. Der Beitrag zeichnet die Diskussion um die varietätenlinguistische Einordnung der internetbasierten Kommunikation nach und führt das Oppositionspaar „textorientiert“ vs. „interaktionsorientiert“ ein, das es ermöglicht, auf der schriftlichen (medial graphischen) Ebene zwischen zwei Konstellation zu unterscheiden, in denen nähesprachliche Sprachmerkmale gehäuft auftreten: (1) Das interaktionsorientierte Schreiben in der internetbasierten Kommunikation und (2) die fingierte Mündlichkeit in literarischen Texten, die dem textorientierten Schreiben zuzuordnen ist. Am Fallbeispiel der interaktiven Einheit HM wird illustriert, wie frei verfügbare Korpusressourcen genutzt werden können, um die Gemeinsamkeiten, Unterschiede und Interferenzen zwischen der Verwendungen interaktiver Einheiten in Gespräch, Text und internetbasierter Kommunikation zu untersuchen.
Der Beitrag beschreibt einen Ansatz zur Qualitätsbewertung multimodaler Hypertexte und internetbasierter Interaktion. Das Modell fußt auf Ansätzen zur Bewertung von Textqualität in linear organisierten Schrifttexten, insbesondere dem Zürcher Textqualitätenraster, das bereits im prädigitalen Zeitalter für eine große empirische Untersuchung zum Schreibgebrauch in Aufsatztexten genutzt wurde. Der Beitrag beschreibt und begründet, welche Erweiterungen für multimodale Hypertexte und internetbasierte Interaktion erforderlich sind. Vertiefend wird dabei das Konzept der Kohärenz behandelt, das für lineare Texte und für Hypertexte gleichermaßen relevant ist. An Beispielen wird gezeigt, wie Hyperlinks als digitale Kohärenzbildungshilfen bei der Hypertextproduktion und beim interaktionsorientierten Schreiben eingesetzt werden. Die Kohärenzanalyse wird erweitert um zwei neue Aspekte: 1) die interaktionale Kohärenz zwischen Beiträgen verschiedener Personen in der digitalen Interaktion (z. B. beim Chatten oder in Online-Diskussionen) und 2) die multimodale Kohärenz zwischen Text-, Bild-, Audio- und Videoelementen.
Der Beitrag verortet die internetbasierten Kommunikationsformen in einem größeren sprach- und varietätengeschichtlichen Rahmen und macht deutlich, dass sich die neuen interaktionsorientierten Schreibformen — chatten, posten, twittern, skypen etc. — in einem Bereich etablieren, in dem bislang überwiegend mündlich kommuniziert wurde. Auf dieser Basis wird gezeigt, dass es bislang keine empirische Evidenz dafür gibt, dass der interaktionsorientierte Schreibstil auf das textorientierte Schreiben „abfärbt“, dass vielmehr kompetente Schreiber und selbst Jugendliche durchaus dazu in der Lage sind, situationsangemessen zwischen verschiedenen Schreibhaltungen und -stilen zu wechseln. Abschließend werden Desiderate für die korpusgestützte Begleitforschung zu diesen Entwicklungen formuliert und die Herausforderungen erläutert, die sich durch das Nebeneinander von interaktions- und textorientiertem Schreiben für die schulische Sprach- und Schreibförderung ergeben.
This paper deals with multiword lexemes (MWLs), focussing on two types of verbal MWLs: verbal idioms and support verb constructions. We discuss the characteristic properties of MWLs, namely nonstandard compositionality, restricted substitutability of components, and restricted morpho-syntactic flexibility, and we show how these properties may cause serious problems during the analysis, generation, and transfer steps of machine translation systems. In order to cope with these problems, MT lexicons need to provide detailed descriptions of MWL properties. We list the types of information which we consider the necessary minimum for a successful processing of MWLs, and report on some feasibility studies aimed at the automatic extraction of German verbal multiword lexemes from text corpora and machine-readable dictionaries.
Editorial
(2013)
In this paper, the authors describe a semi-automated approach to refine the dictionary-entry structure of the digital version of the Wörterbuch der deutschen Gegenwartssprache (WDG, en.: Dictionary of Present-day German), a dictionary compiled and published between 1952 and 1977 by the Deutsche Akademie der Wissenschaften that comprises six volumes with over 4,500 pages containing more than 120,000 headwords. We discuss the benefits of such a refinement in the context of the dictionary project Digitales Wörterbuch der deutschen Sprache (DWDS, en: Digital Dictionary of the German language). In the current phase of the DWDS project, we aim to integrate multiple dictionary and corpus resources in German language into a digital lexical system (DLS). In this context, we plan to expand the current DWDS interface with several special purpose components, which are adaptive in the sense that they offer specialized data views and search mechanisms for different dictionary functions-e.g. text comprehension, text production-and different user groups-e.g. journalists, translators, linguistic researchers, computational linguists. One prerequisite for generating such data views is the selective access to the lexical items in the article structure of the dictionaries which are the object of study. For this purpose, the representation of the eWDG has to be refined. The focus of this paper is on the semiautomated approach used to transform eWDG into a refined version in which the main structural units can be explicitly accessed. We will show how this refinement opens new and flexible ways of visualizing and querying the lexicographic content of the refined version in the context of the DLS project.
Researchers in many disciplines, sometimes working in close cooperation, have been concerned with modeling textual data in order to account for texts as the prime information unit of written communication. The list of disciplines includes computer science and linguistics as well as more specialized disciplines like computational linguistics and text technology. What many of these efforts have in common is the aim to model textual data by means of abstract data types or data structures that support at least the semi-automatic processing of texts in any area of written communication.
In this contribution, we discuss and compare alternative options of modelling the entities and relations of wordnet-like resources in the Web Ontology Language OWL. Based on different modelling options, we developed three models of representing wordnets in OWL, i.e. the instance model, the dass model, and the metaclass model. These OWL models mainly differ with respect to the ontological Status of lexical units (word senses) and the synsets. While in the instance model lexical units and synsets are represented as individuals, in the dass model they are represented as classes; both model types can be encoded in the dialect OWL DL. As a third alternative, we developed a metaclass model in OWL FULL, in which lexical units and synsets are defined as metaclasses, the individuals of which are classes themselves. We apply the three OWL models to each of three wordnet-style resources: (1) a subset of the German wordnet GermaNet, (2) the wordnet-style domain ontology TermNet, and (3) GermaTermNet, in which TermNet technical terms and GermaNet synsets are connected by means of a set of “plug-in” relations. We report on the results of several experiments in which we evaluated the performance of querying and processing these different models: (1) A comparison of all three OWL models (dass, instance, and metaclass model) of TermNet in the context of automatic text-to-hypertext conversion, (2) an investigation of the potential of the GermaTermNet resource by the example of a wordnet-based semantic relatedness calculation.
We introduce our pipeline to integrate CMC and SM corpora into the CLARIN-D corpus infrastructure. The pipeline was developed by transforming an existing CMC corpus, the Dortmund Chat Corpus, into a resource conforming to current technical and legal standards. We describe how the resource has been prepared and restructured in terms of TEI encoding, linguistic annotations, and anonymisation. The output is a CLARIN-conformant resource integrated in the CLARIN-D research infrastructure.
In the context of the HyTex project, our goal is to convert a corpus into a hypertext, basing conversion strategies on annotations which explicitly mark up the text-grammatical structures and relations between text segments. Domain-specific knowledge is represented in the form of a knowledge net, using topic maps. We use XML as an interchange format. In this paper, we focus on a declarative rule language designed to express conversion strategies in terms of text-grammatical structures and hypertext results. The strategies can be formulated in a concise formal syntax which is independend of the markup, and which can be transformed automatically into executable program code.
Der Kurzbeitrag berichtet über ein Projekt ”Hypertextualisierung auf textgrammatischer Grundlage“ (HyTex), in dem erforscht wird, wie sich linear organisierte Dokumente mit semiautomatischen Methoden auf der Grundlage von textgrammatischem Markup und der linguistisch motivierten Modellierung terminologischen Wissens in delinearisierte Hyperdokumente überführen lassen. Ziel ist es, eine Sammlung von Fachtexten so in einen Hypertext zu überführen, dass terminologiebedingte Verständnisschwierigkeiten beim Lesen durch entsprechende Linkangebote aufgelöst werden, so dass die Fachtexte auch von Semi-Experten der Domäne selektiv gelesen werden können. Der Schwerpunkt des Beitrags liegt auf der Modellierung terminologischen Wissens mit XML Topic Maps und dessen Stellenwert für die automatische Erzeugung von Hyperlinks.
This paper describes an approach to modelling a general-language wordnet, GermaNet, and a domain-specific wordnet, TermNet, in the web ontology language OWL. While the modelling process for GermaNet adopts relevant recommendations with respect to the English Princeton WordNet, for Term-Net an alternative modelling concept is developed that considers the special characteristics of domain-specific terminologies. We present a proposal for linking a general-language wordnet and a terminological wordnet within the framework of OWL and on this basis discuss problems and alternative modelling approaches.
Einführung
(1998)
Internetwörterbücher können viele Informationstypen auf neuartige Weise vereinigen und nutzeradaptiv präsentieren. Sie bilden in vernetzter Form als „Megawörterbücher“ große Wörterbuchportale und verschmelzen mit Korpora, multimedialen Erweiterungen und automatischen Sprachanalysetools zu Wortschatzinformationssystemen neuer Art. Es ist daher schwierig geworden, zwischen einen Wörterbuch einem Korpus, einem Atlas und einer Frequenzliste zu unterscheiden. Die Autoren versuchen, ein wenig Licht in das Dunkel der verschiedenen Typen von Wörterbüchern, Wörterbuchportalen und Wortschatzinformationssystemen zu bringen, und dabei auch zeigen, dass sich die Unordnung, die eine „Schlöraffe“ in die Klassifikation des Tierreichs bringt, am Ende durchaus auszahlen kann.
This paper describes the lexical database tool LOLA (Linguistic-Oriented Lexical database Approach) which has been developed for the construction and maintenance of lexicons for the machine translation system LMT. First, the requirements such a tool should meet are discussed, then LMT and the lexical information it requires, and some issues concerning vocabulary acquisition are presented. Afterwards the architecture and the components of the LOLA system are described and it is shown how we tried to meet the requirements worked out earlier. Although LOLA originally has been designed and implemented for the German-English LMT prototype, it aimed from the beginning at a representation of lexical data that can be reused for other LMT or MT prototypes or even other NLP applications. A special point of discussion will therefore be the adaptability of the tool and its components as well as the reusability of the lexical data stored in the database for the lexicon development for LMT or for other applications.
The paper reports on the results of a scientific colloquium dedicated to the creation of standards and best practices which are needed to facilitate the integration of language resources for CMC stemming from different origins and the linguistic analysis of CMC phenomena in different languages and genres. The key issue to be solved is that of interoperability – with respect to the structural representation of CMC genres, linguistic annotations metadata, and anonymization/pseudonymization schemas. The objective of the paper is to convince more projects to partake in a discussion about standards for CMC corpora and for the creation of a CMC corpus infrastructure across languages and genres. In view of the broad range of corpus projects which are currently underway all over Europe, there is a great window of opportunity for the creation of standards in a bottom-up approach.
Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen
(2002)
Dieser Beitrag skizziert Strategien zur (semi-)automatischen Annotation von definitorischen Textsegmenten und Termverwendungsinstanzen auf der Grundlage grammatisch annotierter Korpora. Ziel unserer Überlegungen ist es, bei der selektiven Rezeption von Fachtexten in einer Hypertextumgebung die je spezifischen Wissensvoraussetzungen, die der Verwendung von Fachtermini unterliegen und die für das Textverständnis eine entscheidende Rolle spielen, über automatisch generierte Linkangebote rekonstruierbar zu machen.
The paper presents an XML schema for the representation of genres of computer-mediated communication (CMC) that is compliant with the encoding framework defined by the TEI. It was designed for the annotation of CMC documents in the project Deutsches Referenzkorpus zur internetbasierten Kommunikation (DeRiK), which aims at building a corpus on language use in the most popular CMC genres on the German-speaking Internet. The focus of the schema is on those CMC genres which are written and dialogic―such as forums, bulletin boards, chats, instant messaging, wiki and weblog discussions, microblogging on Twitter, and conversation on “social network” sites.
The schema provides a representation format for the main structural features of CMC discourse as well as elements for the annotation of those units regarded as “typical” for language use on the Internet. The schema introduces an element <posting>, which describes stretches of text that are sent to the server by a user at a certain point in time. Postings are the main constituting elements of threads and logfiles, which, in our schema, are the two main types of CMC macrostructures. For the microlevel of CMC documents (that is, the structure of the <posting> content), the schema introduces elements for selected features of Internet jargon such as emoticons, interaction words and addressing terms. It allows for easy anonymization of CMC data for purposes in which the annotated data are made publicly available and includes metadata which are necessary for referencing random excerpts from the data as references in dictionary entries or as results of corpus queries.
Documentation of the schema as well as encoding examples can be retrieved from the web at http://www.empirikom.net/bin/view/Themen/CmcTEI. The schema is meant to be a core model for representing CMC that can be modified and extended by others according to their own specific perspectives on CMC data. It could be a first step towards an integration of features for the representation of CMC genres into a future new version of the TEI Guidelines.
Converting and Representing Social Media Corpora into TEI: Schema and best practices from CLARIN-D
(2016)
The paper presents results from a curation project within CLARIN-D, in which an existing lMWord corpus of German chat communication has been integrated into the DEREKO and DWDS corpus infrastructures of the CLARIN-D centres at the Institute for the German Language (IDS, Mannheim) and at the Berlin-Brandenburg Academy of Sciences (BBAW, Berlin). The focus is on the solutions developed for converting and representing the corpus in a TEI format.
The paper reports the results of the curation project ChatCorpus2CLARIN. The goal of the project was to develop a workflow and resources for the integration of an existing chat corpus into the CLARIN-D research infrastructure for language resources and tools in the Humanities and the Social Sciences (http://clarin-d.de). The paper presents an overview of the resources and practices developed in the project, describes the added value of the resource after its integration and discusses, as an outlook, to what extent these practices can be considered best practices which may be useful for the annotation and representation of other CMC and social media corpora.
The paper presents best practices and results from projects dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC) from four different countries. Even though there are still many open issues related to building and annotating corpora of this type, there already exists a range of tested solutions which may serve as a starting point for a comprehensive discussion on how future standards for CMC corpora could (and should) be shaped like.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
The paper presents best practices and results from projects in four countries dedicated to the creation of corpora of computer-mediated communication and social media interactions (CMC). Even though there are still many open issues related to building and annotating corpora of that type, there already exists a range of accessible solutions which have been tested in projects and which may serve as a starting point for a more precise discussion of how future standards for CMC corpora may (and should) be shaped like.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Das Kommunizieren in Sozialen Medien und der Umgang mit Hypertexten ist im Jahr 2020 kein Randphänomen mehr. Die sprachlichen Besonderheiten internetbasierter Kommunikation und Sozialer Medien sind mittlerweile auch gut erforscht und beschrieben, allerdings werden diese bislang in deutschen Grammatiken, mit Ausnahme von Hoffmann (2014), allenfalls am Rande behandelt. Selbst neuere Ansätze zur Textanalyse, z. B. Ágel (2017), konzentrieren sich auf gestaltstabile, linear organisierte Schrifttexte. Dasselbe gilt für Ansätze, die primär für die Bewertung von Schreibprodukten in Bildungskontexten entwickelt wurden.