Refine
Year of publication
Document Type
- Part of a Book (11)
- Article (7)
- Conference Proceeding (4)
- Book (1)
- Other (1)
Has Fulltext
- yes (24)
Keywords
- Internet (24) (remove)
Publicationstate
- Veröffentlichungsversion (24) (remove)
Reviewstate
- (Verlags)-Lektorat (12)
- Peer-Review (9)
- Review-Status-unbekannt (2)
- Verlags-Lektorat (1)
Publisher
- Institut für Deutsche Sprache (7)
- de Gruyter (3)
- Buro van die Wat (1)
- De Gruyter (1)
- DuMont (1)
- Erich Schmidt (1)
- Fachverband Deutsch als Fremdsprache (FaDaF) (1)
- GSCL (1)
- KM Kulturmanagement Network GmbH (1)
- Lang (1)
Wie wirkt sich die je spezifische Materialität von Sprache auf die Gestalt unserer Zeichen und damit auf die Bildung unserer Vorstellungen aus? Das wird hier am Beispiel von Schrift im World Wide Web untersucht. Unter dem Einfluss technisierter Materialität, Medialität und Multimodalität bildet sich eine Schriftlichkeit aus, deren Erscheinungsform und Bedeutung aus dem semiotischen Zusammenspiel von Sehflächen-Design, Bild und Text erwächst. Vor dem Hintergrund einer medial gestützten Geschichte kommunikativer Abstraktion, in deren Verlauf Leib und Seele im Bewusstsein auseinander traten, und anhand charakteristischer Beispiele aus dem WWW werden Entstehungsbedingungen, Eigenschaften und Leistungen solch ,tertiärer Schriftlichkeit‘ erläutert.
Wie selbstbestimmt können wir das Internet nutzen? Wie viel wissen wir darüber,welche digitalen Spuren wir setzen und wer diesen hinterher spürt?
Wie werden die beim Surfen erzeugten Daten von Dritten weiter verwendet – mit und ohne unser Wissen? Und ist die gefühlte Nacktheit in Zeiten der digital ausspähbaren, scheinbaren Transparenz wirklich akut oder durch traditionelle analoge Denk- und Erfahrungsstrukturen geprägt?
Wörterbücher im Internet
(1996)
Die Autorinnen entwerfen zunächst eine typologische Skizze der im Internet angebotenen lexikalischen Datensammlungen, die um qualitative und quantitative Untersuchungen zum Sprachenpaar Deutsch-Englisch ergänzt ist. Schließlich werden medienspezifische Merkmale wie Hypertextualisierung, Multimedialität und Zugriffsangebote anhand typischer Beispiele erörtert. Es wird deutlich, daß die meisten der untersuchten Wörterbücher die Gestaltungsmöglichkeiten des Mediums bei weitem nicht ausreizen und dem Qualitätsvergleich mit professionellen elektronischen Offline-Wörterbüchern nicht standhalten können. Die Vorteile des Online-Mediums Internet zeigen sich jedoch bei schnell wachsenden und sich verändernden Wortschatzbereichen, z.B. terminologischen Datensammlungen für Naturwissenschaften und Informatik. In vielerlei Hinsicht interessant sind auch Projekte der kooperativen Wörterbucherstellung, die durch die Kombination von Informations- und Kommunikationsdiensten im Internet begünstigt werden. Diese neuen Formen der Wörterbucharbeit dokumentieren nicht nur den Bedarf nach weltweitem Wissensaustausch, sondern auch Interesse und Spaß an der Kommunikation über Sprache.
Our paper describes an experiment aimed to assessment of lexical coverage in web corpora in comparison with the traditional ones for two closely related Slavic languages from the lexicographers’ perspective. The preliminary results show that web corpora should not be considered ― inferior, but rather ― different.
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer generated text from web corpora.
The paper also presents a keyword comparison of an unfiltered corpus with the same collection of texts cleaned by a supervised classifier trained using FastText. The classifier was able to recognize 71% of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
Complex linguistic phenomena, such as Clitic Climbing in Bosnian, Croatian and Serbian, are often described intuitively, only from the perspective of the main tendency. In this paper, we argue that web corpora currently offer the best source of empirical material for studying Clitic Climbing in BCS. They thus allow the most accurate description of this phenomenon, as less frequent constructions can be tracked only in big, well-annotated data sources. We compare the properties of web corpora for BCS with traditional sources and give examples of studies on CC based on web corpora. Furthermore, we discuss problems related to web corpora and suggest some improvements for the future.
CMC Corpora in DeReKo
(2017)
We introduce three types of corpora of computer-mediated communication that have recently been compiled at the Institute for the German Language or curated from an external project and included in DeReKo, the German Reference Corpus, namely Wikipedia (discussion) corpora, the Usenet news corpus, and the Dortmund Chat Corpus. The data and corpora have been converted to I5, the TEI customization to represent texts in DeReKo, and are researchable via the web-based IDS corpus research interfaces and in the case of Wikipedia and chat also downloadable from the IDS repository and download server, respectively.
“My Curiosity was Satisfied, but not in a Good Way”: Predicting User Ratings for Online Recipes
(2014)
In this paper, we develop an approach to automatically predict user ratings for recipes at Epicurious.com, based on the recipes’ reviews. We investigate two distributional methods for feature selection, Information Gain and Bi-Normal Separation; we also compare distributionally selected features to linguistically motivated features and two types of frameworks: a one-layer system where we aggregate all reviews and predict the rating vs. a two-layer system where ratings of individual reviews are predicted and then aggregated. We obtain our best results by using the two-layer architecture, in combination with 5 000 features selected by Information Gain. This setup reaches an overall accuracy of 65.60%, given an upper bound of 82.57%.
Wiktionary is increasingly gaining influence in a wide variety of linguistic fields such as NLP and lexicography, and has great potential to become a serious competitor for publisher-based and academic dictionaries. However, little is known about the "crowd" that is responsible for the content of Wiktionary. In this article, we want to shed some light on selected questions concerning large-scale cooperative work in online dictionaries. To this end, we use quantitative analyses of the complete edit history files of the English and German Wiktionary language editions. Concerning the distribution of revisions over users, we show that — compared to the overall user base — only very few authors are responsible for the vast majority of revisions in the two Wiktionary editions. In the next step, we compare this distribution to the distribution of revisions over all the articles. The articles are subsequently analysed in terms of rigour and diversity, typical revision patterns through time, and novelty (the time since the last revision). We close with an examination of the relationship between corpus frequencies of headwords in articles, the number of article visits, and the number of revisions made to articles.
Tagset und Richtlinie für das PoSTagging von Sprachdaten aus Genres internetbasierter Kommunikation
(2015)
Mailinglisten und Newsgroups sind durch Verzicht auf Multimedialität „asketische“ Internet-Dienste; dennoch werden sie von Online-Gemeinschaften zunehmend als wichtige interaktive Ressource für Informationsaustausch und Diskussion, auch zu berufsbezogenen Themen, genutzt. Die spezifischen kommunikativen Regeln und Normen sind in dieser Umbruchphase noch nicht selbstverständlich und teils noch strittig; so lassen sich vielfältige metakommunikative Formen der Kommunikationsregulierung beobachten. Das hat für die Nutzer allerdings Chancen und Risiken: Eine Thematisierung divergenter Normkonzepte und Leitvorstellungen kann Mittel zur Beilegung von Normkonflikten sein, aber auch zu gestörten Formen der Beziehungskommunikation („flame wars“) und zur Korrumpierung der ursprünglich von den Beteiligten akzeptierten Themen und Ziele führen. Dieses Risiko wird in face-to-face-Interaktion durch die Kopräsenz der Gesprächspartner, durch ein gegenüber dem „Quoten“ reichhaltigeres Repertoire an Berücksichtigungsformen für Partner-Äußerungen und ein stärker ausgeprägtes Bewusstsein von den situativen Voraussetzungen kontrolliert.
Editorial
(2013)
We present studies using the 2013 log files from the German version of Wiktionary. We investigate several lexicographically relevant variables and their effect on look-up frequency: Corpus frequency of the headword seems to have a strong effect on the number of visits to a Wiktionary entry. We then consider the question of whether polysemic words are looked up more often than monosemic ones. Here, we also have to take into account that polysemic words are more frequent in most languages. Finally, we present a technique to investigate the time-course of look-up behaviour for specific entries. We exemplify the method by investigating influences of (temporary) social relevance of specific headwords.