Refine
Document Type
- Conference Proceeding (5)
- Part of a Book (2)
Has Fulltext
- yes (7)
Keywords
- Algorithmus (7) (remove)
Publicationstate
- Veröffentlichungsversion (4)
- Zweitveröffentlichung (3)
- Postprint (1)
Reviewstate
- Peer-Review (5)
- (Verlags)-Lektorat (2)
Publisher
Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations
(2009)
In this paper we show that the extraction of opinions from free-text reviews can improve the accuracy of movie recommendations. We present three approaches to extract movie aspects as opinion targets and use them as features for the collaborative filtering. Each of these approaches requires different amounts of manual interaction. We collected a data set of reviews with corresponding ordinal (star) ratings of several thousand movies to evaluate the different features for the collaborative filtering. We employ a state-of-the-art collaborative filtering engine for the recommendations during our evaluation and compare the performance with and without using the features representing user preferences mined from the free-text reviews provided by the users. The opinion mining based features perform significantly better than the baseline, which is based on star ratings and genre information only.
This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model implementation for German is compared with state-of-the-art approaches. The presented solution is faster than other tools while maintaining comparable quality.
In this paper, we present a suite of flexible UIMA-based components for information retrieval research which have been successfully used (and re-used) in several projects in different application domains. Implementing the whole system as UIMA components is beneficial for configuration management, component reuse, implementation costs, analysis and visualization.
This paper introduces LRTwiki, an improved variant of the Likelihood Ratio Test (LRT). The central idea of LRTwiki is to employ a comprehensive domain specific knowledge source as additional “on-topic” data sets, and to modify the calculation of the LRT algorithm to take advantage of this new information. The knowledge source is created on the basis of Wikipedia articles. We evaluate on the two related tasks product feature extraction and keyphrase extraction, and find LRTwiki to yield a significant improvement over the original LRT in both tasks.
Fragen der Verdatung sind Bestandteil der digitalen Diskursanalyse und keine Vorarbeiten. Die Analyse digital(isiert)er Diskurse setzt im Unterschied zur Auswertung nicht-digital repräsentierter Sprache und Kommunikation notwendig technische Verfahren und Praktiken, Algorithmen und Software voraus, die den Untersuchungsgegenstand als digitales Datum konstituieren. Die nachfolgenden Abschnitte beschreiben kurz und knapp wiederkehrende Aspekte dieser Verdatungstechniken und -praktiken, insbesondere mit Blick auf Erhebung und Transformation (Abschnitt 2), Korpuskompilierung (Abschnitt 3), Annotation (Abschnitt 4) und Wege der analytischen Datenerschließung (Abschnitt 5). Im Fazit wird die Relevanz der Verdatungsarbeit für den Analyseprozess zusammengefasst (6).
This paper describes a rule-based approach to detect direct speech without the help of any quotation markers. As datasets fictional and non-fictional texts were used. Our evaluation shows that the results appear stable throughout different datasets in the fictional domain and are comparable to the results achieved in related work.
Der Beitrag analysiert die Strukturen der Inhaltsdistribution im Microblogging-System Twitter. Den Ausgangspunkt hierfür bildet eine Fokussierung der Medienforschung auf Produktion und Rezeption von „User Generated Content“ im Social Web, die ebenso wie die Annahme einer „freien“ Wahl von Themen- und Informationsquellen im Web hinterfragt werden soll. Die zentrale These lautet hierbei, dass nicht nur Nutzerinnen und Nutzer über die Verteilung der Inhalte bestimmen, sondern in hohem Maße auch Algorithmen. Im Konzept der selektiven Distribution werden die typischen Distributionsmodi sowie deren Erzeugungsmechanismen herausgearbeitet und dargestellt. Die medienethische Verantwortung für die Verteilung der nutzergenerierten Inhalte liegt (auch) bei den Medienunternehmen, die die Macht über algorithmische Distributionsstrukturen haben. Die Unternehmen geraten dadurch, wie abschließend argumentiert wird, in einen Konflikt zwischen wirtschaftlichen Interessen und gesellschaftlicher Verantwortung. Aus der Analyse ergeben sich Forderungen nach mehr Transparenz der algorithmischen Distributionsprinzipien sowie mehr Kontrollmöglichkeiten für die User.