Refine
Year of publication
- 2017 (163) (remove)
Document Type
- Article (70)
- Part of a Book (35)
- Conference Proceeding (35)
- Book (10)
- Working Paper (5)
- Other (3)
- Part of Periodical (2)
- Report (2)
- Doctoral Thesis (1)
Keywords
- Deutsch (52)
- Korpus <Linguistik> (42)
- Gesprochene Sprache (16)
- Corpus linguistics (11)
- Computerunterstützte Lexikographie (7)
- Diskursmarker (7)
- Computerlinguistik (6)
- Corpus technology (6)
- Interaktionsanalyse (6)
- Texttechnologie (6)
Publicationstate
- Veröffentlichungsversion (163) (remove)
Reviewstate
Publisher
- Institut für Deutsche Sprache (43)
- de Gruyter (19)
- Verlag für Gesprächsforschung (10)
- Lexical Computing CZ s.r.o. (5)
- The Association for Computational Linguistics (5)
- Heidelberg University Publishing (4)
- Narr (4)
- Synchron (4)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- Narr Francke Attempto (3)
Vom 14. bis 16. März fand im Congress Center Rosengarten in Mannheim die 53. Jahrestagung des Instituts für Deutsche Sprache (IDS) statt, die sich in diesem Jahr mit dem Lexikon und dessen Komplexität und Dynamik beschäftigte. Im Mittelpunkt standen neue Perspektiven auf das Lexikon und die Lexikonforschung nach der empirischen Wende, die das Bild vom Wortschatz deutlich verändert und den Blick darauf erweitert hat. Lexikontheoretiker und Lexikografen arbeiten heute u.a. mit quantitativen korpuslinguistischen Methoden und berücksichtigen Forschungsergebnisse und -methoden angrenzender Disziplinen wie der Psycholinguistik, wodurch auch neuartige Konzepte ins Blickfeld rücken. Das Inventar lexikalischer Einheiten beschränkt sich nicht mehr nur auf Wörter, sondern wurde durch konstruktionsartige Einheiten und semiabstrakte lexikalische Muster ergänzt.
This article explores how close one can come to a cultural-scientific perspective on the basis of a constitution-analytical methodology. We do this on the basis of a comparison of the celebration of Totensonntag in Zotzenbach (Southern Hesse) and Sarepta (Wolgograd). In both places, there are protestant churches that perform this ritual to commemorate the dead on this “Sunday of the Dead” as a part of their church service. Our scientific interest lies in the reconstruction of the rituality produced during the in situ execution. In both services, the names of the deceased are read out and a candle is lit for each deceased person. In Zotzenbach the priest reads out the names and an assistant ignites the candles for the deceased, whereas in Sarepta the bereaved are responsible for this. Since the ritual is organised in very different ways in terms of architecture-for-interaction (statically in Zotzenbach, spatially dynamic in Sarepta), we can reconstruct two completely different models of rituality: a demonstrative one (Zotzenbach) and a participative one (Sarepta). The demonstrative model works on the basis of a finely tuned coordination between the two church representatives and is aimed at a dignified execution. The model in Sarepta is not suitable for the production of formality due to its participatory structure. Here, however, the focus is also on the aspect of socialization, which goes beyond the church service and offers the Russian-German worshipers the opportunity to situationally constitute as a culturally homogeneous group.
In this article, we investigate the semantics of causal modifiers headed by vor (‘with’, ‘from’) in adjectival copular sentences with sein (‘to be’). We distinguish two readings of the causal vor-phrases: a pure causal reading as in rot vor Wut (‘red with rage’), sprachlos vor Freude (‘speechless with joy’), and a causal-local reading as in rot vor Blut (‘red from blood’) or schwarz vor Menschen (‘black with people’). Based on corpus data, we provide descriptive generalisations for the use and meaning of vor and its two readings. A uniform formal semantics analysis is presented to account for both readings, according to which the meaning of vor can be captured with a cause relation between two tropes. In the case of the causal-local reading, the causing trope is interpolated via coercion from the compositionally provided concrete object. Finally, we compare vor and von (‚from‘).
Este artículo expone a partir de una serie de ejemplos diferentes situaciones de uso del diccionario bilingüe que evidencian la importancia de llevar a cabo una adecuada adquisición y desarrollo de las competencias lexicográficas en el contexto de enseñanza-aprendizaje de lenguas extranjeras y, en este caso en concreto, del alemán como lengua extranjera. Con este propósito se parte de tres competencias básicas: la selección de la obra lexicográfica adecuada según la situación comunicativa, la desambiguación pertinente en el contexto de la recepción en L2 y traducción de L2 a L1 y la selección y uso del equivalente en el contexto de la producción y traducción en la L2. El objetivo de esta aportación es poner de manifiesto la necesidad de identificar adecuadamente por parte del usuario de un recurso lexicográfico bilingüe la información lexicológica pertinente a la forma, contenido y uso de los lemas consultados tanto en la situación de recepción y producción en L2 como en el contexto de la traducción de y a L2.
Der vorliegende Beitrag beschäftigt sich mit Imperativen, die nicht oder nicht nur für Handlungsaufforderungen, sondern auch für gesprächsorganisatorische Zwecke eingesetzt werden. Einschlägige Vertreter wie guck mal, hör mal, komm oder geh wurden in der Literatur meist als Interjektionen, aber auch als Diskursmarker klassifiziert. Anhand einer explorativen Korpusrecherche wird zunächst ein Überblick über die Häufigkeit und einige distributionelle Eigenschaften gesprächsorganisatorischer Imperative im gesprochenen Deutsch gegeben. Anschließend wird ein bisher nicht empirisch untersuchter Vertreter, warte (mal), anhand einer Kollektion von 190 Belegen im Hinblick auf seine Semantik und Funktion untersucht. In turninitialer und syntaktisch vorangestellter Position wird warte (mal) zur Markierung von Unterbrechungen der Progressivität und von Aktivitätswechseln verwendet, z.B. um Verstehensprobleme zu klären oder Argumente in eine Diskussion einzubringen. Tritt es satzmedial auf, markiert es Selbstreparaturen und Häsi-tationen. Es wird argumentiert, dass die Distribution und Funktionen es nicht rechtfertigen, warte (mal) als Diskursmarker zu bezeichnen.
Zur Einführung
(2017)
Sound units play a pivotal role in cognitive models of auditory comprehension. The general consensus is that during perception listeners break down speech into auditory words and subsequently phones. Indeed, cognitive speech recognition is typically taken to be computationally intractable without phones. Here we present a computational model trained on 20 hours of conversational speech that recognizes word meanings within the range of human performance (model 25%, native speakers 20–44%), without making use of phone or word form representations. Our model also generates successfully predictions about the speed and accuracy of human auditory comprehension. At the heart of the model is a ‘wide’ yet sparse two-layer artificial neural network with some hundred thousand input units representing summaries of changes in acoustic frequency bands, and proxies for lexical meanings as output units. We believe that our model holds promise for resolving longstanding theoretical problems surrounding the notion of the phone in linguistic theory.
When appearance does not match accent: neural correlates of ethnicity-related expectancy violations
(2017)
Most research on ethnicity in neuroscience and social psychology has focused on visual cues. However, accents are central social markers of ethnicity and strongly influence evaluations of others. Here, we examine how varying auditory (vocal accent) and visual (facial appearance) information about others affects neural correlates of ethnicity-related expectancy violations. Participants listened to standard German and Turkish-accented speakers and were subsequently presented with faces whose ethnic appearance was either congruent or incongruent to these voices. We expected that incongruent targets (e.g. German accent/Turkish face) would be paralleled by a more negative N2 event-related brain potential (ERP) component. Results confirmed this, suggesting that incongruence was related to more effortful processing of both Turkish and German target faces. These targets were also subjectively judged as surprising. Additionally, varying lateralization of ERP responses for Turkish and German faces suggests that the underlying neural generators differ, potentially reflecting different emotional reactions to these targets. Behavioral responses showed an effect of violated expectations: German-accented Turkish-looking targets were evaluated as most competent of all targets. We suggest that bringing together neural and behavioral measures of expectancy violations, and using both visual and auditory information, yields a more complete picture of the processes underlying impression formation.
We propose a new type of subword embedding designed to provide more information about unknown compounds, a major source for OOV words in German. We present an extrinsic evaluation where we use the compound embeddings as input to a neural dependency parser and compare the results to the ones obtained with other types of embeddings. Our evaluation shows that adding compound embeddings yields a significant improvement of 2% LAS over using word embeddings when no POS information is available. When adding POS embeddings to the input, however, the effect levels out. This suggests that it is not the missing information about the semantics of the unknown words that causes problems for parsing German, but the lack of morphological information for unknown words. To augment our evaluation, we also test the new embeddings in a language modelling task that requires both syntactic and semantic information.
Complex linguistic phenomena, such as Clitic Climbing in Bosnian, Croatian and Serbian, are often described intuitively, only from the perspective of the main tendency. In this paper, we argue that web corpora currently offer the best source of empirical material for studying Clitic Climbing in BCS. They thus allow the most accurate description of this phenomenon, as less frequent constructions can be tracked only in big, well-annotated data sources. We compare the properties of web corpora for BCS with traditional sources and give examples of studies on CC based on web corpora. Furthermore, we discuss problems related to web corpora and suggest some improvements for the future.
Abschreckend beim Deutschlernen ist u. a. die Erkenntnis, dass man so viel beachten muss, um eine kleine Wortgruppe mit einem Adjektiv, einem Nomen und gegebenenfalls einem Artikel richtig bilden zu können. Es reicht nämlich nicht, zu wissen, ob das Adjektiv vor einem maskulinen, einem femininen oder einem neutralen Nomen steht. Auch das Wissen, in welchem Kasus dieses Nomen steht, reicht nicht aus, um die richtige Form des Adjektivs auszuwählen, nein, man muss auch noch berücksichtigen, ob ein Artikel vor dem Adjektiv steht und wenn ja, welcher, denn auch das beeinflusst die Form des Adjektivs.
Lexicographic meaning descriptions of German lexical items which are formally and semantically similar and therefore easily confused (so-called paronyms) often do not reflect their current usage of lexical items. They can even contradict one’s personal intuition or disagree with lexical usage as observed in public discourse. The reasons are manifold. Language data used for compiling dictionaries is either outdated, or lexicographic practice is rather conventional and does not take advantage of corpus-assisted approaches to semantic analysis. Despite of various modern electronic or online reference works speakers face uncertainties when dealing with easily confusable words. These are for example sensibel/sensitiv (sensitive) or kindisch/kindlich (childish/childlike). Existing dictionaries often do not provide satisfactory answers as to how to use these sets correctly. Numerous questions addressed in online forums show where uncertainties with paronyms are and why users demand further assistance concerning proper contextual usage (cf. Storjohann 2015). There are different reasons why users misuse certain items or mix up words which are similar in form and meaning. As data from written and more spontaneous language resources suggest, some confusions arise due to ongoing semantic change in the current use of some paronyms. This paper identifies shortcomings of contemporary German Dictionaries and discusses innovative ways of empirical lexicographic work that might pave the way for a new data-driven, descriptive reference work of confusable German terms. Currently, such a guide is being developed at the Institute for German Language in Mannheim implementing corpora and diverse corpus-analytical methods. Its objective is to compile a dictionary with contrastive entries which is a useful reference tool in situation of language doubt. At the same time, it aims at sensitizing users of context dependency and language change.
Verstehen und Motivieren: semantische Fluchtpunkte deutscher und italienischer Lexeme mit -log-
(2017)
Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a parser on UD-style annotations and whether the effect is similarly strong for all languages. We conduct a series of experiments where we systematically modify individual annotation decisions taken in the UD scheme and show that this results in an increased accuracy for most, but not for all languages. We show that the encoding in the UD scheme, in particular the decision to encode content words as heads, causes an increase in dependency length for nearly all treebanks and an increase in arc direction entropy for many languages, and evaluate the effect this has on parsing accuracy.
Multinomial processing tree (MPT) models are a class of measurement models that account for categorical data by assuming a finite number of underlying cognitive processes. Traditionally, data are aggregated across participants and analyzed under the assumption of independently and identically distributed observations. Hierarchical Bayesian extensions of MPT models explicitly account for participant heterogeneity by assuming that the individual parameters follow a continuous hierarchical distribution.We provide an accessible introduction to hierarchical MPT modeling and present the user-friendly and comprehensive R package TreeBUGS, which implements the two most important hierarchical MPT approaches for participant heterogeneity—the beta-MPT approach (Smith & Batchelder, Journal of Mathematical Psychology 54:167-183, 2010) and the latent-trait MPT approach (Klauer, Psychometrika 75:70-98, 2010). TreeBUGS reads standard MPT model files and obtains Markov-chain Monte Carlo samples that approximate the posterior distribution. The functionality and output are tailored to the specific needs of MPT modelers and provide tests for the homogeneity of items and participants, individual and group parameter estimates, fit statistics, and within- and between-subjects comparisons, as well as goodness-of-fit and summary plots. We also propose and implement novel statistical extensions to include continuous and discrete predictors (as either fixed or random effects) in the latent-trait MPT model.
We present a major step towards the creation of the first high-coverage lexicon of polarity shifters. In this work, we bootstrap a lexicon of verbs by exploiting various linguistic features. Polarity shifters, such as ‘abandon’, are similar to negations (e.g. ‘not’) in that they move the polarity of a phrase towards its inverse, as in ‘abandon all hope’. While there exist lists of negation words, creating comprehensive lists of polarity shifters is far more challenging due to their sheer number. On a sample of manually annotated verbs we examine a variety of linguistic features for this task. Then we build a supervised classifier to increase coverage. We show that this approach drastically reduces the annotation effort while ensuring a high-precision lexicon. We also show that our acquired knowledge of verbal polarity shifters improves phrase-level sentiment analysis.
Languages employ different strategies to transmit structural and grammatical information. While, for example, grammatical dependency relationships in sentences are mainly conveyed by the ordering of the words for languages like Mandarin Chinese, or Vietnamese, the word ordering is much less restricted for languages such as Inupiatun or Quechua, as these languages (also) use the internal structure of words (e.g. inflectional morphology) to mark grammatical relationships in a sentence. Based on a quantitative analysis of more than 1,500 unique translations of different books of the Bible in almost 1,200 different languages that are spoken as a native language by approximately 6 billion people (more than 80% of the world population), we present large-scale evidence for a statistical trade-off between the amount of information conveyed by the ordering of words and the amount of information conveyed by internal word structure: languages that rely more strongly on word order information tend to rely less on word structure information and vice versa. Or put differently, if less information is carried within the word, more information has to be spread among words in order to communicate successfully. In addition, we find that–despite differences in the way information is expressed–there is also evidence for a trade-off between different books of the biblical canon that recurs with little variation across languages: the more informative the word order of the book, the less informative its word structure and vice versa. We argue that this might suggest that, on the one hand, languages encode information in very different (but efficient) ways. On the other hand, content-related and stylistic features are statistically encoded in very similar ways.
In the lexicon of pidgin and creole languages we can see an important part of these languages’ history of origin and of language contact. The current paper deals with the lexical sources of Tok Pisin and, more specifically, with words of German origin found in this language. During the period of German colonial domination of New Guinea and a number of insular territories in the Pacific (ca. 1885–1915), German words entered the emerging Tok Pisin lexicon. Based on a broad range of lexical and lexicographic data from the early 20th century up until today, we investigate the actual or presumed German origin of a number of Tok Pisin words and trace different lexical processes of integration that are linked to various, often though not always colonially determined, contact settings and sociocultural interactions.
In this paper, we discuss to what extent the German-based contact language Unserdeutsch (Rabaul Creole German, cf. Volker 1982) matches the category‘creole language’ from both a socio-historical and structural perspective. As a point of reference, we will use typological criteria that are widely supposed to be typical for creole languages. It is shown that Unserdeutsch fits fairly well into the pattern of an ‘average creole’, as has been suggested by data in the Atlas of Pidgin and Creole Language Structures (Michaelis et al. 2013). This is despite a series of atypical conditions in its development that might lead us to expect a close structural proximity to the lexifier language, i.e. a relatively acrolectal creole. A possible explanation for this striking discrepancy can be found in the primary function of Unserdeutsch as a marker of identity as well as in the linguistic structure of its substrate language Tok Pisin.
The paper reviews the results of work done in the context of TEI-Lex0, a joint ENeL / DARIAH / PARTHENOS initiative aimed at formulating guidelines for the encoding of retrodigitized dictionaries by streamlining and simplifying the recommendations of the “Print Dictionaries” chapter of the TEI Guidelines. TEI-Lex0 work is performed by teams concentrating on each of the main components of dictionary entries. The work presented here concerns proposals for constraining TEI-based encoding of orthographic, phonetic, and grammatical information on written and spoken forms of the lemma (headword), including auxiliary inflected forms. We also adduce examples of handling various types of orthographic and phonetic variants, as well as examples of handling the representation of inflectional paradigms, which have received less attention in the TEI Guidelines but which are nonetheless essential for properly exposing data content to the various uses that digitized lexica may have.
Die Guidelines sind eine Erweiterung des STTS (Schiller et al. 1999) für die Annotation von Transkripten gesprochener Sprache. Dieses Tagset basiert auf der Annotation des FOLK-Korpus des IDS Mannheim (Schmidt 2014) und es wurde gegenüber dem STTS erweitert in Hinblick auf typisch gesprochensprachliche Phänomene bzw. Eigenheiten der Transkription derselben. Es entstand im Rahmen des Dissertationsprojekts „POS für(s) FOLK – Entwicklung eines automatisierten Part-of-Speech-Tagging von spontansprachlichen Daten“ (Westpfahl 2017 (i.V.)).
Der Artikel beschäftigt sich mit einem ganz spezifischen Blick auf Sprachnormen: Ausgehend von der Sprachnormenkritik der Germanistik fokussiert der Artikel die sozio-politischen Implikationen sprachlicher Normfragen. Der Terminus Sprachnormenkritik hat weder im Englischen noch im Französischen oder Italienischen und auch nicht im Kroatischen eine ausdrucksseitige Entsprechung. Das Konzept der ›Sprachnormenkritik‹ bzw. bestimmte Teilkomponenten sind dessen ungeachtet im Englischen, Französischen, Italienischen und Kroatischen seit Jahrhunderten in der Diskussion. Aus vergleichend europäischer Perspektive ist besonders interessant, dass nicht in jedem nationalsprachlichen Diskurs über Sprachnormen der unmittelbare Zusammenhang von sprachlichen Normen einerseits und sozio-ökonomischer Macht bzw. politischer Handlungsfähigkeit andererseits als korrelierende Phänomene diskutiert wird – und genau dies ist der Kern der ursprünglichen Sprachnormenkritik im Deutschen. Besonders eindrücklich lässt sich der politische Charakter der Sprachnormenkritik im Kroatischen demonstrieren. In den 1960er Jahren ist die Sprachnormenkritik im Kroatischen nicht nur eine Kritik, die degressiv erscheinende Zustände aufzudecken versucht, sondern vor allem eine progressive Kritik, die als Vorreiter der politischen Bewegung für die Unabhängigkeit Kroatiens angesehen werden kann.
Sprachnormen und Sprachnormierungsprozesse hängen unmittelbar mit Sprachreflexion und Sprachkritik zusammen. Entweder werden Sprachnormen und Sprachnormierungsprozesse linguistisch be- schrieben oder linguistisch / laienlinguistisch bewertet. In der linguistisch begründeten Sprachkritik der 1980er Jahre wird unter dem Paradigma der Sprachnormenkritik der Prozess der Sprachnormierung beobachtet und beschrieben. Sprachnormen und Sprachnormierungsprozesse werden in sprachhistorischer Perspektive aber bereits viel früher in intellektuel- len Kreisen reflektiert und kritisiert. Auch in gegenwärtiger Perspektive sind im laienlinguistischen Bereich Bestrebungen zu verzeichnen, mittels Sprachkritik Einfluss auf Sprachnormen und Sprachnormierungsprozesse zu nehmen. Seit den 2000er Jahren setzen sich wiederum Linguistinnen und Linguisten zum Ziel, Sprachnormen und Sprachnormierung zunächst zu beschreiben und dann nach linguistischen Kriterien zu bewerten. In dem Artikel wird ein Sprachnormenkritikbegriff vertreten, der auf einem Kontinuum von eher Ausdrucksmöglichkeiten abwägenden bis hin zu eindeutig positionsbezogenen Sprachbetrachtungen zu verorten ist, und sowohl die linguistische als auch die laienlinguistische Perspektive mit einbezieht. Unter Sprachnormenkritik wird hier also eine Reflexion der Sprachnormen und Sprachnormierungsprozesse verstanden, in der die Kriterien explizit (eher beschreibend oder eher bewertend) formuliert oder implizit praktiziert werden.
Das Handbuch Europäische Sprachkritik Online liefert eine vergleichende Perspektive auf Sprachkritik in europäischen Sprachkulturen (im Speziellen auf die Sprachkritik im Deutschen, Englischen, Französischen, Italienischen und Kroatischen). In dem Handbuch werden zentrale Konzepte der Sprachkritik deskriptiv behandelt. Das Ziel ist demnach, eine Konzeptgeschichte der europäischen Sprachkritik zu präsentieren. Zum einen liefert das Handbuch einen spezifischen Blick auf die jeweiligen Sprachkulturen. Zum anderen werden diese vergleichend in den Blick genommen. Das multilinguale Handbuch erscheint periodisch in Bänden.
Schriften
(2017)
Rückblick 2017
(2017)
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer generated text from web corpora.
The paper also presents a keyword comparison of an unfiltered corpus with the same collection of texts cleaned by a supervised classifier trained using FastText. The classifier was able to recognize 71% of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
This paper discusses the categorial status of nominalized adjectives, which share formal properties with both adjectives and nouns, in present-day German. Based on a corpus study conducted in the Deutsches Referenzkorpus (DeReKo), it is shown that different types of deadjectival nouns do not behave uniformly with respect to pronoun choice in attributive relative clauses. While nominalized positives (in the neuter gender) preferably combine with the regular relative pronoun das ‘that’, superlatives strongly favor relativization by means of the corresponding wh-form was ‘what’. The contrasts are taken to reflect structural differences in the internal make-up of the respective categories that give rise to different degrees of ‘nouniness’.
Rekontextualisierung von Hate Speech als Aneignungs- und Positionierungsverfahren in Sozialen Medien
(2017)
Hate Speech wird im vorliegenden Aufsatz nicht als Medium der Herabwürdigung betrachtet, sondern als Positionierungsverfahren. Es handelt sich bei Hate Speech Liebert (2015, 176) zufolge um eine „unorganisierte [...] Praktik" innerhalb der Online-Kommunikation. Das würde erstens bedeuten, dass keine strategische Dekonstruktion einer spezifischen Identität damit verbunden ist, wie das etwa beim Cybermobbing der Fall wäre. Es gibt also keine Verabredungen und gruppenkonstitutiven Prozesse außerhalb der medial vermittelten Kommunikation. Es scheint jedoch auch die diskursdynamischen Prozesse auszublenden, die sich ad hoc „organisieren", wo Hassrede praktiziert wird. Zweitens ruft der Terminus der „Unorganisiertheit" die Assoziation einer strukturellen Unterspezifikation auf und damit das Bedürfnis nach einer präzisierenden Definition für diese Praktik. Drittens ware davon auszugehen, dass Hass-Kommentare verstreut an Diskursorten und zu willkürlichen Diskurszeiten auftreten, die deshalb nicht vorhersagbar sind.
Reden über Geld
(2017)
Sprachwissenschaft geht logozentrisch vor, konzentriert sich also aufs geschriebene und seit einigen Jahrzehnten auch aufs gesprochene Wort. Das ist verständlich und sinnvoll (Schuster, bleib bei deinen Leisten!), setzt sich aber auch Scheuklappen auf und übersieht bedeutsame Erscheinungen am Rande.
Contents:
1. Andreas Dittrich: Intra-connecting a small exemplary literary corpus with semantic web technologies for exploratory literary studies, S. 1
2. John Kirk, Anna Čermáková: From ICE to ICC: The new International Comparable Corpus, S. 7
3. Dawn Knight, Tess Fitzpatrick, Steve Morris, Jeremy Evas, Paul Rayson, Irena Spasic, Mark Stonelake, Enlli Môn Thomas, Steven Neale, Jennifer Needs, Scott Piao, Mair Rees, Gareth Watkins, Laurence Anthony, Thomas Michael Cobb, Margaret Deuchar, Kevin Donnelly, Michael McCarthy, Kevin Scannell: Creating CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh), S. 13
4. Marc Kupietz, Andreas Witt, Piotr Bański, Dan Tufiş, Dan Cristea, Tamás Váradi: EuReCo - Joining Forces for a European Reference Corpus as a sustainable base for cross-linguistic research, S. 15
5. Harald Lüngen, Marc Kupietz: CMC Corpora in DeReKo, S. 20
6. David McClure, Mark Algee-Hewitt, Douris Steele, Erik Fredner, Hannah Walser: Organizing corpora at the Stanford Literary Lab, S. 25
7. Radoslav Rábara, Pavel Rychlý ,Ondřej Herman: Accelerating corpus search using multiple cores, S. 30
8. John Vidler, Stephen Wattam: Keeping Properties with the Data: CL-MetaHeaders – An Open Specification, S. 35
9. Vladimir Benko: Are Web Corpora Inferior? The Case of Czech and Slovak, S. 43
10. Edyta Jurkiewicz-Rohrbacher, Zrinka Kolaković, Björn Hansen: Web Corpora – the best possible solution for tracking phenomena in underresourced languages: clitics in Bosnian, Croatian and Serbian, S. 49
11. Vít Suchomel: Removing Spam from Web Corpora Through Supervised Learning Using FastText, S. 56