400 Sprache, Linguistik
Refine
Document Type
- Part of a Book (4)
- Conference Proceeding (3)
- Article (2)
- Book (1)
Keywords
- Empirische Linguistik (10) (remove)
Publicationstate
- Zweitveröffentlichung (5)
- Veröffentlichungsversion (4)
- Postprint (1)
Reviewstate
- (Verlags)-Lektorat (5)
- Peer-Review (4)
Linguistische Studien arbeiten häufig mit einer Differenzierung zwischen gesprochener und geschriebener Sprache bzw. zwischen Kommunikation der Nähe und Distanz. Die Annahme eines Kontinuums zwischen diesen Polen bietet sich für eine Verortung unterschiedlichster Äußerungsformen an, inklusive unkonventioneller Textsorten wie etwa Popsongs. Wir konzipieren, implementieren und evaluieren ein automatisiertes Verfahren, das mithilfe unkorrelierter Entscheidungsbäume entsprechende Vorhersagen auf Textebene durchführt. Für die Identifizierung der Pole definieren wir einen Merkmalskatalog aus Sprachphänomenen, die als Markierer für Nähe/Mündlichkeit bzw. Distanz/Schriftlichkeit diskutiert werden, und wenden diesen auf prototypische Nähe-/Mündlichkeitstexte sowie prototypische Distanz-/Schrifttexte an. Basierend auf der sehr guten Klassifikationsgüte verorten wir anschließend eine Reihe weiterer Textsorten mithilfe der trainierten Klassifikatoren. Dabei erscheinen Popsongs als „mittige Textsorte“, die linguistisch motivierte Merkmale unterschiedlicher Kontinuumsstufen vereint. Weiterhin weisen wir nach, dass unsere Modelle mündlich kommunizierte, aber vorab oder nachträglich verschriftlichte Äußerungen wie Reden oder Interviews vollkommen anders verorten als prototypische Gesprächsdaten und decken Klassifikationsunterschiede für Social-Media-Varianten auf. Ziel ist dabei nicht eine systematisch-verbindliche Einordung im Kontinuum, sondern eine empirische Annäherung an die Frage, welche maschinell vergleichsweise einfach bestimmbaren Merkmale („shallow features“) nachweisbar Einfluss auf die Verortung haben.
Der CorpusExplorer v2.0 ist eine frei verfügbare Software zur korpushermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visualisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungsarbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, die zur Entwicklung des CorpusExplorers führten, einer korpuslinguistischen Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: Effizienz-/Anpassungsprobleme – bzw.: Was passiert, wenn Visualisierungen an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des CorpusExplorers v2.0 ist, wird abschließend darauf eingegangen, wie unterschiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/Interpretation von Daten auswirken.
Mögliche Erklärungshorizonte für grammatische Variation in Übersetzungen können durch kontrastive Unterschiede sowie Textsortenkonventionen für die involvierten Sprachen hergeleitet werden. Weiterhin ausschlaggebend sind die vom Übersetzer verwendeten Übersetzungsstrategien, wie Simplifizierung und Explizierung, die mit Methoden der Korpuslinguistik und der Translationsprozessforschung untersucht werden können. Letztere betreffend liefert das Eyetracking Hinweise auf Problemstellen im Ausgangstext; das Keylogging lässt Rückschlüsse auf die Problemlösestrategien im Zieltext zu. Durch die Triangulation der gewonnenen Produkt- und Prozessdaten kann einerseits der ganzheitliche Übersetzungsprozess und andererseits die Produktion der grammatischen Variation empirisch aufgearbeitet werden.
Die Sprachverarbeitung beim Übersetzen unterliegt zwei gegenläufigen Forderungen: der ausgangstextbasierten Äquivalenzforderung und der funktionalistischen Zielpublikumsorientierung. So können Übersetzungen mehr oder weniger wie eine Kopie des Ausgangstextes in einer anderen Sprache wirken, je nachdem wie wörtlich oder frei übersetzt wurde. Dieses Entscheidungskontinuum lässt sich mit dem Entropiebegriff operationalisieren. Je höher die Entropie, desto mehr Übersetzungsvarianten gibt es fur einen ausgangssprachlichen Ausdruck. Welche Rolle hierbei das mentale Lexikon spielt und inwiefern die Entropie die kognitiven Prozesse beim Übersetzen beeinflusst, kann durch experimentelle Forschung untersucht werden. In einer ersten Studie haben wir den Einfluss des mentalen Lexikons auf die Übersetzungsentropie und dessen Entwicklungspotenzial bei Studierenden am Beispiel von Kognaten untersucht. Die zweite Studie belegt den Zusammenhang zwischen Entropie und der kognitiven Belastung am Beispiel verschiedener Wortarten. Durch die Datentriangulation von produkt- und prozessbasierten Ergebnissen lassen sich spezifische Verwendungsmuster ableiten.
Der zweite Band der Reihe des Zentrums Sprachenvielfalt und Mehrsprachigkeit (ZSM) der Universität zu Köln enthält die Beiträge des Kolloquiums "Was ist linguistische Evidenz?". Die Beiträge stammen aus verschiedenen sprachwissenschaftlichen Disziplinen (Allgemeine Sprachwissenschaft, Anglistik, Sprachliche Informationsverarbeitung, Phonetik und Psycholinguistik) und widmen sich der Frage des Kolloquiums aus verschiedenen Perspektiven. Behandelt werden grundsätzliche Diskussionen über den Zusammenhang von Evidenz und sprachwissenschaftlichen Theorien, experimentelle Paradigmen (Priming-Experimente, Eye-Tracking-Experimente, Thermometerverfahren), computergesteuerte Korpusanalyse und Herausforderungen bei der Datengewinnung durch Feldforschung.
We present a technique called event mapping that allows to project text representations into event lists, produce an event table, and derive quantitative conclusions to compare the text representations. The main application of the technique is the case where two classes of text representations have been collected in two different settings (e.g., as annotations in two different formal frameworks) and we can compare the two classes with respect to their systematic differences in the event table. We illustrate how the technique works by applying it to data collected in two experiments (one using annotations in Vladimir Propp’s framework, the other using natural language summaries).
In this paper, we examine methods to automatically extract domain-specific knowledge from the food domain from unlabeled natural language text. We employ different extraction methods ranging from surface patterns to co-occurrence measures applied on different parts of a document. We show that the effectiveness of a particular method depends very much on the relation type considered and that there is no single method that works equally well for every relation type. We also examine a combination of extraction methods and also consider relationships between different relation types. The extraction methods are applied both on a domain-specific corpus and the domain-independent factual knowledge base Wikipedia. Moreover, we examine an open-domain lexical ontology for suitability.
Accentuation, Uncertainty and Exhaustivity - Towards a Model of Pragmatic Focus Interpretation
(2010)
This paper presents a model of pragmatic focus interpretation that is assumed to be part of a complete language comprehension model and that is inspired by Levelt's language processing model. The model is derived from our empirical data on the role of accentuation, prosodic indicators of uncertainty and context for pragmatic focus interpretation. In its present state, the model is restricted to these data, but nevertheless generates predictions.