Refine
Year of publication
- 2019 (138) (remove)
Document Type
- Article (48)
- Part of a Book (30)
- Review (19)
- Conference Proceeding (14)
- Book (12)
- Part of Periodical (11)
- Other (2)
- Doctoral Thesis (1)
- Working Paper (1)
Language
- German (97)
- English (38)
- Ukrainian (2)
- Multiple languages (1)
Is part of the Bibliography
- no (138) (remove)
Keywords
- Deutsch (52)
- Korpus <Linguistik> (17)
- Rezension (10)
- Interaktion (9)
- Konversationsanalyse (9)
- Linguistik (9)
- Diskursanalyse (8)
- Gesprochene Sprache (8)
- Sprache (8)
- Germanistik (7)
Publicationstate
- Veröffentlichungsversion (58)
- Zweitveröffentlichung (53)
- Postprint (13)
Reviewstate
Publisher
Mein Beitrag entstand im Rahmen meiner biografie- und interaktionsanalytischen Studie zu sozialen und sprachlichen Erfahrungen junger „Rückkehrer/innen“, d. h. junger Frauen und Männer türkischer Herkunft, die in Deutschland oder Österreich aufwuchsen, und als Jugendliche bzw. junge Erwachsene in die Türkei migrierten. Furkan, der Informant, den ich hier vorstelle, schildert Ausgrenzungserfahrungen in Deutschland aufgrund seiner ethnischen Herkunft und Anpassungsprobleme in der Türkei aufgrund sprachlicher und sozialer Auffälligkeiten. Ziel meiner Analyse ist es, die verschiedenen Phasen seiner Lebensgeschichte in beiden Lebenswelten zu beschreiben, den Zusammenhang zwischen Ausgrenzungserlebnissen, ihrer Deutung und ihrer narrativen Bewältigung zu rekonstruieren und die Unterschiede zwischen der Schilderung in beiden Lebenswelten herauszuarbeiten. Auf dieser Basis lässt sich die narrative Bewältigung der Erlebnisse in Kindheit und früher Jugend in Deutschland mit Erzählformen für Traumata in Beziehung setzen.
Text corpora come in many different shapes and sizes and carry heterogeneous annotations, depending on their purpose and design. The true benefit of corpora is rooted in their annotation and the method by which this data is encoded is an important factor in their interoperability. We have accumulated a large collection of multilingual and parallel corpora and encoded it in a unified format which is compatible with a broad range of NLP tools and corpus linguistic applications. In this paper, we present our corpus collection and describe a data model and the extensions to the popular CoNLL-U format that enable us to encode it.
Common Crawl is a considerably large, heterogeneous multilingual corpus comprised of crawled documents from the internet, surpassing 20TB of data and distributed as a set of more than 50 thousand plain text files where each contains many documents written in a wide variety of languages. Even though each document has a metadata block associated to it, this data lacks any information about the language in which each document is written, making it extremely difficult to use Common Crawl for monolingual applications. We propose a general, highly parallel, multithreaded pipeline to clean and classify Common Crawl by language; we specifically design it so that it runs efficiently on medium to low resource infrastructures where I/O speeds are the main constraint. We develop the pipeline so that it can be easily reapplied to any kind of heterogeneous corpus and so that it can be parameterised to a wide range of infrastructures. We also distribute a 6.3TB version of Common Crawl, filtered, classified by language, shuffled at line level in order to avoid copyright issues, and ready to be used for NLP applications.
Nearly all of the very large corpora of English are “static”, which allows a wide range of one-time, pre-processed data, such as collocates. The challenge comes with large “dynamic” corpora, which are updated regularly, and where preprocessing is much more difficult. This paper provides an overview of the NOW corpus (News on the Web), which is currently 8.2 billion words in size, and which grows by about 170 million words each month. We discuss the architecture of NOW, and provide many examples that show how data from NOW can (uniquely) be extracted to look at a wide range of ongoing changes in English.
As the Web ought to be considered as a series of sources rather than as a source in itself, a problem facing corpus construction resides in meta-information and categorization. In addition, we need focused data to shed light on particular subfields of the digital public sphere. Blogs are relevant to that end, especially if the resulting web texts can be extracted along with metadata and made available in coherent and clearly describable collections.
Wie werden Wörter im Deutschen und im Englischen geschrieben? Wo sind Gemeinsamkeiten, wo sind Unterschiede? Diese Fragen werden aus morphologisch-graphematischer Perspektive bearbeitet. Es geht hier also nicht um Bezüge zwischen Schrift und Lautform (traditionell oft im Fokus der Graphematik), sondern um Korrespondenzen zwischen Schrift und Morphologie. Das betrifft zum einen den Aufbau von Morphemen. Welche Beschränkungen lassen sich hier für die Abfolge der Buchstaben formulieren? Was sind minimale, was sind prototypische Stämme und Affixe? Zum anderen geht es um Fragen der Einheitlichkeit (Wie uniform wird ein Morphem in der Schrift repräsentiert?) und der Eindeutigkeit (Wie distinkt verweist eine Schreibung auf ein Morphem?). Insgesamt zeigt sich, dass im Englischen eher Affixe verlässlich kodiert werden (oft eindeutig und einheitlich), während im Deutschen häufig Stämme einheitlich kodiert werden. Das sind zwei grundsätzlich unterschiedliche Strategien der Leseerleichterung.
The present thesis investigates the syntagmatic relations of certain Finnish emotion verbs that are formed by the derivational suffix -ua/-yä (e.g. suuttua ‘get angry’, pelästyä ‘get frightened’). Prototypically, the suffix expresses reflexivity, but in the case of the “inchoative” emotion verbs, it indicates a change of state on behalf of the experiencer, from a non-emotional state to an emotional state.
Internetlinguistik
(2019)
Die Internetlinguistik ist eine neue Forschungsdisziplin, die sich aus drei großen Untersuchungsbereichen konstituiert: der Sprachverwendung in internetbasierten Kommunikationsumgebungen (wie Messengerdienste, Soziale Netzwerkseiten), der Interaktion zwischen Mensch und Maschine (etwa mit smarten Objekten) und der Generierung von Datenkorpora, was auch ethische Fragen aufwirft.
Dieser Band enthält neben einem kurzen Abriss über die Entwicklung der Internetlinguistik bibliografische Angaben zu Spezifika des Kommunikationsraums, der Kommunikationsplattformen und der digitalen Kommunikation, zu menschlichen Handlungsweisen im Web 2.0 und zu methodischen Zugängen der linguistischen Onlineforschung mit einem Überblick über Internetkorpora. Darüber hinaus werden Schnittstellen zu anderen Wissenschaftsdisziplinen aufgezeigt. Der Band gibt außerdem Empfehlungen zu einschlägigen Blogs und Zeitschriften.
Gerhard Stickel (*1937) bietet in diesem Band eine Auswahl aus seinen kleineren Arbeiten, die in der Zeit von 1966 bis 2019 erschienen sind. Geboten wird eine bunte Vielfalt von Aufsätzen und Essays zu Themen, mit denen der Autor sich in all den Jahren befasst hat, darunter: Negation, Kontrastive Grammatik, ‚Fremdwörter', Sprache und Geschlecht, Spracheinstellungen, Rechts- und Verwaltungssprache sowie deutsche und europäische Sprachpolitik. Mehrere Arbeiten sind während Stickels langjähriger Tätigkeit als Direktor des Instituts für Deutsche Sprache (1976-2002) entstanden und ab 2003 im Zusammenhang mit seinen Aufgaben in und für EFNIL, der European Federation of National Institutions for Language. Erhofft wird, dass auch die älteren Arbeiten über ihre Zeitgebundenheit hinaus für manche Linguistinnen und Linguisten sowie andere Sprachinteressierte anregend sein können.
Tourlex: ein deutsch-italienisches Fachwörterbuch zur Tourismussprache für italienische DaF-Lerner
(2019)
Tourlex is a specialized bilingual online dictionary under construction hosted at the University of Mannheim with a particular focus on collocations and multi-word units. The languages included are German and Italian, but because of the need for online dictionaries of tourism language (Flinz 2015: 56) the framework is open to the inclusion of other languages. Tourlex is a corpus-based dictionary, i.e. the primary sources will be corpora, in particular a proper bilingual comparable corpus analysed with the tools Sketch Engine and Lexpan, and the freely accessible corpus DeReKo. The aim of this paper is to give an overview of the main actions (already done but also in planning), according to the phases of the lexicographical process of a dictionary under construction. The description of each phase will be enriched by examples taken from the project, showing also how the decisions taken to satisfy the needs of the user, the Italian learner of German as a foreign language, had influenced the microstructure of the entries. We conclude with a final reflection on the data, facts, and ongoing problems.
Im Mittelpunkt der vorliegenden Untersuchung stehen ausgewählte deutschsprachige Werbeslogans mit hohem Wiedererkennungswert und einer Tendenz zur Usualisierung im aktuellen Sprachgebrauch. Ihre angesichts des häufigen Gebrauchs durch zahlreiche Sprecher begründete bzw. angenommene lexikalische Verfestigung wird korpusinformiert anhand umfangreicher elektronischer Korpora validiert und rekonstruiert. Für die Beschreibung ihrer Verwendungsspezifik als eigenständige satzwertige Wortschatzeinheiten außerhalb der Domäne Werbung wird das Modell der usuellen Wortverbindungen sowie die korpuslinguistische Methodologie angewendet und mit weiteren qualitativen und quantitativen Methoden gekoppelt. In den detaillierten lexikografischen Beschreibungen ausgewählter Slogans werden sprachliche, kontextuelle und funktionale Aspekte dargestellt und die Mikrodiachronie ihres Gebrauchs in Zeitverlaufsgrafiken illustriert.
Untersuchungsgegenstand dieser Arbeit sind retrospektive Äußerungen, d.h. Nachfragen und fremdinitiierte Erweiterungen, die an den Sprecher der Ausgangsäußerung gerichtet sind. In der Forschung werden Nachfragen und Erweiterungen meist unabhängig voneinander mit unterschiedlichen Funktionen beschrieben. Die vorliegende Untersuchung setzt sich mit den gemeinsamen Eigenschaften beider Äußerungsformate auseinander, unabhängig von ihren deklarativen und interrogativen Merkmalen. Im Rahmen der Triangulation werden die Methode der Konversationsanalyse und die Annahmen der Relevanztheorie verbunden, um zu beschreiben, wie Sprecher in retrospektiven Äußerungen auf inhaltlicher Ebene mit den Informationen aus vorhergehenden Redebeiträgen umgehen. Primäre Datengrundlage sind die narrativen Interviews des Berliner Wendekorpus, ca. 60 Stunden gesprochenes Deutsch. Die Arbeit analysiert die grammatischen und lexikalischen Mittel, mit denen Sprecher bei der Bedeutungskonstruktion epistemische Unterstützung zum Ausdruck bringen. Weitere Analyseebenen sind die grammatische Kohärenz retrospektiver Äußerungen als evidentiale Strategie und die Ähnlichkeitsrelationen zwischen der interpretativen Annahme und den jeweiligen Bezugskomponenten.
Innerhalb der für das Paronymprojekt aufgestellten Stichwortliste lassen sich zahlreiche Wortbildungsmuster erkennen. Deren Übereinstimmung von theoretischer Wortbildung und praktischem Sprachgebrauch soll in diesem Beitrag anhand von zehn auf -freit-los endender Paronympaare untersucht werden. Es wird gezeigt, dass diese Wortbildungsgruppe in vielfacher Hinsicht in sich heterogen ist. So lässt sich weder eine Präferenz für eine Endung ausmachen, noch entsprechen die Endungen einer einheitlichen Bedeutung. Auch werden die Paronyme mal synonym, mal teil-synonym und mal semantisch gänzlich unabhängig voneinander verwendet. In diesem Beitrag wird anhand von konkreten Korpusbeispielen gezeigt, wie unterschiedlich sich die einzelnen, mit gleichen Endungen gebildeten Paronympaare kontextuell verhalten.
Both compounds and multi-word expressions are complex lexical units, made up of at least two constituents. The most basic difference is that the former are morphological objects and the latter result from syntactic processes. However, the exact demarcation between compounds and multi-word expressions differs greatly from language to language and is often a matter of debate in and across languages. Similarly debated is whether and how these two different kinds of units complement or compete with each other.
The volume presents an overview of compounds and multi-word expressions in a variety of European languages. Central questions that are discussed for each language concern the formal distinction between compounds and multi-word expressions, their formation and their status in lexicon and grammar.
The volume contains chapters on German, English, Dutch, French, Italian, Spanish, Greek, Russian, Polish, Finnish, and Hungarian as well as a contrastive overview with a focus on German. It brings together insights from word-formation theory, phraseology and theory of grammar and aims to contribute to the understanding of the lexicon, both from a language-specific and cross-linguistic perspective.