Refine
Year of publication
Document Type
- Article (34)
- Part of a Book (3)
- Conference Proceeding (2)
- Review (2)
Language
- German (41) (remove)
Keywords
- Korpus <Linguistik> (41) (remove)
Publicationstate
- Veröffentlichungsversion (23)
- Zweitveröffentlichung (14)
- Postprint (1)
Reviewstate
- Peer-Review (41) (remove)
Im Beitrag werden ausgewählte semantische und syntaktische Eigenschaften von AcI-Konstruktionen bei Wahrnehmungsverben im Deutschen, Italienischen und Ungarischen anhand einer Korpusanalyse dargestellt. Dabei wird in erster Linie auf Eigenschaften eingegangen, denen in der bisherigen Forschung wenig Aufmerksamkeit gewidmet wurde. Das Hauptziel ist, syntaktische Eigenschaften der Konstruktion aufzudecken, die sich von den Eigenschaften von Sätzen mit einer weniger markierten syntaktischen Struktur unterscheiden. Des Weiteren wird auch auf den Grammatikalisierungsgrad der Konstruktion in den einzelnen Vergleichssprachen eingegangen.
Dieser Beitrag widmet sich der Beschreibung des Korpus Deutsch in Namibia (DNam), das über die Datenbank für Gesprochenes Deutsch (DGD) frei zugänglich ist. Bei diesem Korpus handelt es sich um eine neue digitale Ressource, die den Sprachgebrauch der deutschsprachigen Minderheit in Namibia sowie die zugehörigen Spracheinstellungen umfassend und systematisch dokumentiert. Wir beschreiben die Datenerhebung und die dabei angewandten Methoden (freie Gespräche, „Sprachsituationen“, semi-strukturierte Interviews), die Datenaufbereitung inklusive Transkription, Normalisierung und Tagging sowie die Eigenschaften des verfügbaren Korpus (Umfang, verfügbare Metadaten usw.) und einige grundlegende Funktionalitäten im Rahmen der DGD. Erste Forschungsergebnisse, die mithilfe der neuen Ressource erzielt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen aus den Bereichen Kontakt-, Variations-
und Soziolinguistik.
In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.
Im Beitrag steht das LeGeDe-Drittmittelprojekt und der im Laufe der Projektzeit entwickelte korpusbasierte lexikografische Prototyp zu Besonderheiten des gesprochenen Deutsch in der Interaktion im Zentrum der Betrachtung. Die Entwicklung einer lexikografischen Ressource dieser Art knüpft an die vielfältigen Erfahrungen in der Erstellung von korpusbasierten Onlinewörterbüchern (insbesondere am Leibniz-Institut für Deutsche Sprache, Mannheim) und an aktuelle Methoden der korpusbasierten Lexikologie sowie der Interaktionsanalyse an und nimmt als multimedialer Prototyp für die korpusbasierte lexikografische Behandlung von gesprochensprachlichen Phänomenen eine innovative Position in der modernen Onlinelexikografie ein. Der Beitrag befasst sich im Abschnitt zur LeGeDe-Projektpräsentation ausführlich mit projektrelevanten Forschungsfragen, Projektzielen, der empirischen Datengrundlage und empirisch erhobenen Erwartungshaltungen an eine Ressource zum gesprochenen Deutsch. Die Darstellung der komplexen Struktur des LeGeDe-Prototyps wird mit zahlreichen Beispielen illustriert. In Verbindung mit der zentralen Information zur Makro- und Mikrostruktur und den lexikografischen Umtexten werden die vielfältigen Vernetzungs- und Zugriffsstrukturen aufgezeigt. Ergänzend zum abschließenden Fazit liefert der Beitrag in einem Ausblick umfangreiche Vorschläge für die zukünftige lexikografische Arbeit mit gesprochensprachlichen Korpusdaten.
Der Artikel diskutiert Ziele, Methoden und Probleme einer geplanten deutsch-französischen Übersetzungsplattform. Auf der Basis paralleler und vergleichbarer Korpora sollen mit Hilfe dieses elektronischen Werkzeuges nicht nur Übersetzungsvorschläge für Einzelwörter, sondern auch für Kollokationen, Phrasen und systematisierte Verwendungskontexte gemacht werden. Dabei geht es vor allem um die Erfassung jener Einheiten, die nicht in traditionellen Wörterbüchern stehen, aber bereits Usus sind. Das Projekt integriert drei Herangehensweisen: Korpusbasiertheit, Orientierung auf Idiomatizität als relevanes Übersetzungsprinzip, Kontextbezogenheit. Der Beitrag umreißt den Projektansatz anhand der Kollokationsproblematik.
Hypermedia und Internet revolutionieren die Gesellschaft in vielen Lebens- und Arbeitsbereichen. Sie sind auch in der Linguistik nicht nur zum Forschungsgegenstand, sondern auch zum Präsentationsmedium geworden. Auch und besonders in der Gesprächsanalyse werden die Möglichkeiten der Darstellung und der Analyse durch den Einsatz elektronischer Systeme um ein Vielfaches erweitert. In diesem Beitrag möchten wir darüber informieren, wie und zu welchem Zweck Videodateien in verschiedenen online oder offline verfügbaren Systemen zur Gesprächsforschung eingesetzt werden, und versuchen, den Stellenwert dieses Einsatzes im gesprächsanalytischen Arbeitsprozess aufzuzeigen. Nach einer Darstellung der bisherigen wesentlichen Entwicklungsschritte des Gesprächsanalytischen Informationssystems GAIS und einem Überblick über andere Hypermediasysteme zeigen wir, wie man mit Hilfe von Videos die Flüchtigkeit des originalen Kommunikationsereignisses nachbilden oder in spezifischer Weise auf dieses Ereignis zugreifen kann. Ferner zeigen wir, wie sich der Videoeinsatz mit Phasen des gesprächsanalytischen Arbeitsprozesses verknüpfen lässt, und plädieren für eine Integration der didaktischen Vermittlung in diesen Prozess. Wir beschäftigen uns hier also mit den didaktischen Einsatzmöglichkeiten für Lehrende und den Lernmöglichkeiten für Studierende, die hypermediale Systeme in der Gesprächsanalyse bieten.
Editorial
(2013)
Editorial
(2016)
Die Vermittlung von Fachsprache gewinnt in der heutigen europäischen Gesellschaft, die von 'Bewegungen' unterschiedlicher Art charakterisiert ist, immer mehr an Relevanz, aber die Lernergruppen werden immer differenzierter und die Lehrenden, die meist keine Experten auf dem Fachgebiet sind, haben Schwierigkeiten lernergerechte Kurse zu gestalten, da die Möglichkeiten zur Aus- oder Fortbildung selten sind. Fragen, die offen stehen oder nur teilweise beantwortet wurden, gibt es noch viele und eine einheitliche Antwort ist nicht immer möglich, aber wir möchten trotzdem versuchen, anstatt von Problemfällen auch Experimente und Lösungen vorzustellen. Wir möchten zeigen, wie und mit welchen Mitteln und Werkzeugen Fachsprachen beschrieben werden können und welche Auswirkungen dies im Unterricht haben kann. Nach einem Überblick über die unterschiedlichen Definitionsmöglichkeiten von 'Fachsprache', zeigen wir, welche Auswirkungen die unterschiedlichen Schwerpunkte in der Lehre haben können. Abschließend werden wir ein kleines korpuslinguistisches Experiment vorstellen (Korpus mit den Aufsätzen zum Themenschwerpunkt 'Fachsprache' ZIF 2019-1), um mögliche Anregungen zur Benutzung von Korpora zu geben, da sich Korpora in allen Phasen des Unterrichts (vor, während und danach) sowohl für Lehrende als auch für Lernende positiv auswirken können.
FnhdC/HTML und FnhdC/S
(2007)
Dieser Beitrag stellt das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) und die Datenbank für Gesprochenes Deutsch (DGD) als Instrumente gesprächsanalytischer Arbeit vor. Nach einer allgemeinen Einführung in FOLK und DGD im zweiten Abschnitt werden im dritten Abschnitt die methodischen Beziehungen zwischen Korpuslinguistik und Gesprächsforschung und die Herausforde-rungen, die sich bei der Begegnung dieser beiden Herangehensweisen an authenti-sches Sprachmaterial stellen, kurz skizziert. Der vierte Abschnitt illustriert dann ausgehend vom Beispiel der Formel ich sag mal, wie eine korpus- und datenbankgesteuerte Analyse zur Untersuchung von Gesprächsphänomenen beitragen kann.
The variation of the strong genitive marker of the singular noun has been treated by diverse accounts. Still there is a consensus that it is to a large extent systematic but can be approached appropriately only if many heterogeneous factors are taken into account. Over thirty variables influencing this variation have been proposed. However, it is actually unclear how effective they can be, and above all, how they interact. In this paper, the potential influencing variables are evaluated statistically in a machine learning approach and modelled in decision trees in order to predict the genitive marking variants. Working with decision trees based exclusively on statistically significant data enables us to determine what combination of factors is decisive in the choice of a marking variant of a given noun. Consequently the variation factors can be assessed with respect to their explanatory power for corpus data and put in a hierarchized order.
Die Idee hinter dem Projekt – einen schnellen und einfachen Einstieg in die Analyse großer Korpusdaten mittels CorpusExplorer geben. Diese frei verfügbare Software bietet aktuell über 45 Analysen/Visualisierungen für vielfältige korpuslinguistische Zwecke und ist durch ihre Nutzerfreundlichkeit auch für den Einsatz in der universitären Lehre geeignet. Als Beispiel dient das EuroParl-Korpus, man kann aber auch eigenes Textmaterial (z. B. Textdateien, eBooks, Xml, Twitter, Blogs, etc.) mit dem CorpusExplorer annotieren, analysieren und visualisieren. Die Videos zeigen Schritt-für-Schritt die einzelnen Funktionen.
Überspannt werden die Videos von einer kleinen zweistufigen Aufgabe: Zuerst sollten ein paar Fragen/Thesen/Annahmen überlegt werden, die sich mit den Plenarprotokollen des EuroParl auswerten lassen – einige Videos geben auch explizite Anregungen oder man nutzt die Inspiration der anderen Beiträge im Issue #3. Die einfachsten Fragen/Thesen lassen sich bereits mit den hier vorgestellten Videos beantworten. Sobald es komplexer wird, betritt man den zweiten – reflexiven Teil der überspannenden Aufgabe: Es ist zu überlegen, wie durch (mehrfache) Kombination der einzelnen Video-/Wissensbausteine das Ziel erreicht werden kann (ein Beispiel – siehe Script). Im Zweifelsfall stehen außerdem ein Handbuch und ein E-Mail Support zur Verfügung.
Das Phänomen der Paronymie hat bisher weder aus Sicht der Korpuslinguistik noch aus Sicht der kognitiven Linguistik große Beachtung gefunden. Bisherige Untersuchungen und erste Definitionsversuche stützten sich nicht auf empirische Analysen, sondern auf ein differenziertes strukturalistisches Modell, das, wenn nicht ausschließlich so doch primär, mit morphologischen Kriterien operiert (vgl. Läzärescu 1999). Sprachgebrauchsbasierte Befunde blieben bislang hingegen unberücksichtigt. Hier setzt dieser Artikel an: Er skizziert aus korpusbasierter und sprachgebrauchsorientierter Perspektive erste Ergebnisse zur Bestimmung und Unterscheidung von Arten der Paronymie hinsichtlich ihrer kommunikativen Funktion, ihrer Diskurszugehörigkeit sowie ihrer semantischen Eigenschaften. Ausgangspunkt ist eine kurze Darstellung des einzigen bisher vorliegenden Klassifikationsmodells von Läzärescu. Anschließend werden unterschiedliche Typen von Paronymen vorgestellt, die im Zuge der empirischen Analysen herausgearbeitet werden konnten. Der Beitrag plädiert für eine differenzierte Betrachtung des komplexen Phänomens, denn die eindimensionale, morphologisch motivierte Klassifikation wird dem Untersuchungsgegenstand nicht gerecht, da zudem sprachgebrauchs- sowie kognitiv-orientierte Parameter für eine Definition bzw. Typologisierung herangezogen werden müssen.
DaF-Lernende sollen – laut z. B. dem „Gemeinsamen europäischen Referenzrahmen für Sprachen“ – auf C1 Niveau über lexikalische Kompetenzen in der Interaktion verfügen und aus einem Repertoire von Diskursmitteln eine geeignete Wendung für konkrete Kommunikationsbedürfnisse auswählen können. Wir betrachten diese Annahme im vorliegenden Beitrag als Ausgangspunkt und stellen darauf aufbauend die Frage, welche Diskursmittel und lexikalischen Einheiten typisch für die mündliche Interaktion sind und daher auch spezifische Beachtung im DaF-/DaZ-Unterricht finden sollten. Zu hinter-fragen ist, wie die Anforderungen an DaF-Lernende zu lexikalischen Besonderheiten im Mündlichen in Richtlinien wie dem GeR oder „Profile Deutsch“ formuliert werden und wie diese Anforderungen in Lehr- und Nachschlagewerken für diese Zielgruppe aufgegriffen werden. Unsere Untersuchungen zeigen, dass die Möglichkeiten noch ausbaufähig sind, was aus unserer Sicht zum Beispiel über eine verstärkte Nutzung der inzwischen vorhandenen Korpora zum gesprochenen Deutsch denkbar sein kann. In diesem Zusammenhang wird auch eine direkte Verbindung zu dem Forschungsprojekt LeGeDe (IDS Mannheim) hergestellt, das u. a. die Konzipierung einer innovativen korpusbasierten Ressource zur Lexik des gesprochenen Deutsch in der Interaktion als Prototyp anvisiert und damit einen Ausschnitt aus einem Repertoire an standardnahen lexikalischen Elementen und Diskursmitteln zusammen mit lexikalisch und interaktions-linguistisch relevanten Informationen in multimedialer Form anbieten möchte. Dieses Vorhaben kommt, laut der Ergebnisse entsprechender Befragungen, u. a. auch den Erwartungen der Probanden aus der Lernerperspektive entgegen und findet daher sowohl für die Forschung als auch für die Lehre entsprechende Anwendungsmöglichkeiten.
All linguistics should be media linguistics, but it is not. This thesis is presented by using linguistic landscapes as an example. LL research does not belong to the traditional core of either mainstream linguis-tics or media linguistics. This is why not everything within power has been done yet to make full use of their thematic, conceptual and methodological possibilities. Visible signs in public space, however, are an everyday phenomenon. You have to pull out all the stops to research them extensively. The distinction between linguistics and media linguistics turns out to be counterproductive. But this does not only apply to the case of linguistic landscapes. It also stands for any comprehensive investigation of language and language use. (Ex-ceptions may be very narrow questions for specific purposes.) The above thoughts are supported by a database of the project „Metro-polenzeichen“ with more than 25.000 systematically collected, ge-ocoded and tagged photographs.
Dieses Papier diskutiert informationsstrukturelle Aspekte der mehrfachen Vorfeldbesetzung im Deutschen. Auf der Grundlage einer größtenteils aus den IDS-Korpora extrahierten Belegsammlung werden Diskursgegebenheit, Fokus- und Topikstatus (vor allem) des Vorfeldmaterials beschrieben und in Bezug zu entsprechenden Aussagen in der Literatur gesetzt. Neben informationsstrukturellen Faktoren werden im letzten Abschnitt mögliche weitere Faktoren angesprochen, die mehrfache Vorfeldbesetzung favorisieren könnten. Zudem werden für einen begrenzten Ausschnitt des Deutschen erstmals Zahlen vorgelegt, die das Verhältnis von mehrfacher Vorfeldbesetzung zur ähnlichen, aber als „kanonischer“ geltenden Besetzung des Vorfelds mit einer (möglicherweise partiellen) Verbalphrase illustrieren.
This article investigates the use of überhaupt and sowieso in German and Dutch. These two words are frequently classified as particles, if only because of their pragmatic functions. The frequent use of particles is considered a specific trait common to German and Dutch, and the description of their semantics and pragmatics is notoriously difficult. It is unclear whether both particles have the same meaning in Dutch (where they are loanwords) and German, whether they can fulfil the same syntactic functions and to what extent the (semantic and pragmatic) functions of überhaupt und sowieso overlap. There has already been linguistic research on überhaupt and sowieso by Fisseni (2009) using the world-wide web and by Bruijnen and Sudhoff (2013) using the EUROPARL corpus. In the present study we critically evaluated the corpus study, integrating information on original utterance language and discussing the adequacy of this corpus. Moreover, we conducted an experimental survey collecting subjective-intuitive judgements in three dimensions, thus gathering more data on sparse and informal constructions.
By using these complementary methods, we obtain a more nuanced picture of the use of überhaupt and sowieso in both languages: On the one hand, the data show where the use of both words is more similar and on the other hand, differences between the languages can also be discerned.
Persuasionsstrategien in deutschen rechtsorientierten Zeitungen. Eine korpuslinguistische Studie
(2019)
Corpus Linguistics has often proved fruitful to examine different types of discourses, also the one of refugees. Aim of the paper is to show how language usage patterns can be focused on with the help of techniques grounded in Corpus Linguistics, giving information about themes and topoi. After showing what type of words (keywords, collocations) and what type of phenomena will be considered (topoi, metaphors and frames) in the article, the focus will shift on the methodology and the adopted criteria. After presenting the primary corpus (articles from right-oriented newspapers) and the comparison corpus (articles from 'Die Zeit') the main results of the analysis are presented and reflected on.
This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying developments in form and usage over time and in different types of texts. The contribution summarizes results of a pilot study: First, it describes the manual annotation of a corpus of short narrative texts in relation to linguistic descriptions of ST&WR. Then, two different techniques of automatic detection – a rule-based and a machine learning approach – are described and compared. Evaluation of the results shows success with automatic detection, especially for direct and indirect ST&WR.
Dieser Beitrag stellt nach einer kurzen allgemeinen Einführung die Datenbank für Gesprochenes Deutsch (DGD) und das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente speziell für gesprächsanalytisches Arbeiten vor. Anhand des Beispiels sprich als Diskursmarker für Reformulierungen werden Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen illustriert: Nutzungsmöglichkeiten der Token-, Kontext-, Metadaten- und Positionssuche werden gezeigt, jeweils in Bezug auf und im wechselseitigen Verhältnis mit qualitativen Fallanalysen, auch mit Belegannotationen nach analyserelevanten (strukturellen und funktionalen) Kategorien. Schließlich wird das heißt als weiterer Reformulierungsindikator für eine vergleichende Analyse herangezogen. Dieser Beitrag stellt eine detailliertere Ausarbeitung einer kürzeren, eher technisch-didaktischen Online-Handreichung (Kaiser/ Schmidt 2016) zu diesem Thema dar, und hat einen stärker inhaltlich-analytischen Fokus.
Studenten, StudentInnen, Studierende? Aktuelle Verwendungspräferenzen bei Personenbezeichnungen
(2020)
Im Beitrag werden Meinungen und Einstellungen zur geschlechtergerechten Sprache dargestellt. Dazu werden verschiedene Möglichkeiten für die Bezeichnung von Personen, die studieren, in den Blick genommen. Diese werden zunächst beschrieben und ihre Frequenzen im Deutschen Referenzkorpus ausgewertet. Anschließend werden explizit die Meinungen und Einstellungen behandelt. Dafür werden die Daten der Deutschland-Erhebung 2008 und der Deutschland-Erhebung 2017 ausgewertet. In der aktuellen Erhebung wurden laienlinguistische Verwendungspräferenzen von Personenbezeichnungen erhoben; präferiert wird von den meisten Befragten die Partizipialform (den Studierenden). Die Verwendungspräferenzen hangen vor allem mit dem Alter der Befragten und ihrer politischen Orientierung zusammen. Insgesamt zeigt sich jedoch, dass das Thema der geschlechtergerechten Sprache für die meisten Befragten nur eine untergeordnete Rolle spielt.
Usuelle Wortverbindungen des Deutschen. Linguistisches Konzept und lexikografische Möglichkeiten
(2000)
Der Artikel schlägt ein für lexikografische Zwecke adaptierbares linguistisches Modell von üblichen Wortverbindungen vor, das die verschiedenen Herangehensweisen der Idiomatikforschung integriert, das streng korpusbasiert ist und die Kontexte von Wortverbindungen konsequent einbezieht. Das Modul 'Usuelle Wortverbindungen des Deutschen' ist ein zentrales Konzept des IDS-Projektes "Wissen über Wörter", ein hypertextbasiertes, lexikalisch-lexikologisches Informationssystem, das in seinem Endausbau circa 300 000 Stichwörter enthalten wird. Korpusstatistische Kookkurenzanalysen stellen hierbei ein wichtiges lexikografisches Arbeitsinstrument für die Rekonstruktion von Lesarten, von semantischen Merkmalen und Eigenschaften der Lemmata dar. Usuelle Wortverbindungen (Kollokationen, Phraseologismen und andere nicht-idiomatische Wendungen) werden in diesem elektronischen Nachschlagewerk darüber hinaus selbst zum Gegenstand lexikografischer Beschreibung, zum einen als Kookkurrenzangaben zu jedem Einwortlemma und zum anderen in einem eigenständigen Artikeltyp 'Mehrwortlemma'. Schließlich bietet diese kookkurrenzbezogene Herangehensweise eine fundierte empirische Basis für linguistische Untersuchungen.
Der Aufsatz diskutiert neue Möglichkeiten, die sich durch die Potenzen elektronischer Medien für eine umfassende und komplexe Beschreibung von Wortschatz ergeben. Dabei wird vor allem auf drei zentrale Problembereiche eingegangen: Zunächst werden die Vor- und Nachteile von Hypertext als Medium der Wissens-Präsentation besprochen. Darauf aufbauend wird erläutert, inwiefern die Potenzen von Hypertext gleichsam eine neue Dimension der Lexikografie eröffnen. Drittens wird der linguistische Mehrwert diskutiert, der zum einen mit dem Aufbau eines computergestützten lexikalisch-lexikologischen Informationssystems verbunden ist, sich zum anderen aus der Nutzung eines solchen Systems für die linguistische Forschung ergibt. Diese drei Problembereiche werden vor dem Hintergrund der Konzipierung eines lexikalisch-lexikologischen, korpusbasierten Such- und Informations-Systems behandelt (LEXXIS), einem neuen Projekt des Instituts für deutsche Sprache.
In einem der zentralen Projekte der Abteilung Grammatik des IDS, Korpusgrammatik – grammatische Variation im standardsprachlichen und standardnahen Deutsch, wird derzeit u.a. die Wortbildung bearbeitet. Es werden auch Erkenntnisse und weiterführende Fragestellungen berücksichtigt, die sich aus dem Ende 2014 abgeschlossenen Projekt zur Semantik der deutschen Konnektoren ergeben haben. Das neue Projekt stützt sich noch stärker als schon das Konnektoren-Projekt auf Korpusauswertungen. Methodik und erste Ergebnisse werden im vorliegenden Text an zwei exemplarischen Fallgruppen demonstriert: Zunächst geht es um eine Reihe konzessiver Subjunktoren der Bildungsmuster ob-/wenn-/wiewohl etc.; sodann um Bildungen auf -falls, die zu den Adverbkonnektoren gehören. Bestand und sich aus dessen Systematisierung ergebende Wortbildungsmuster werden aus Korpusbelegen vervollständigt, und unterliegende Wortbildungsverfahren (im Kontrast zu der Lage bei den Hauptwortarten) werden diskutiert. Dabei zeigen sich unerwartete Mustervarianten, die auch Hinweise auf die Produktivität der Wortbildungsverfahren geben. Schließlich werden die Varianten mit grammatikexternen Metadaten korreliert, wobei die Möglichkeiten des statistischen Tools KoGra-R genutzt werden.
Zur Vorbereitung eines zweisprachigen Fachworterbuchs zur Tourismusfachsprache werden korpuslinguistische Verfahren eingesetzt, um Auffalligkeiten in der jeweiligen Fachsprache im Vergleich zum allgemeinsprachlichen Gebrauch aufzuspüren. Neben den hervorstechenden Elementen des Vokabulars, den Schlüsselwortern als potentiellen Stichwortern, geht es vor allem um sprach- und fachsprachspezifische typische Formulierungen und deren Ubersetzungsaquivalente. Fur die gemeinsame, interlinguale Betrachtung des Sprachenpaars Deutsch-Italienisch wurde ein kleines Fachsprachenkorpus aufgebaut und innerhalb der Sketch Engine-Umgebung unter Zuhilfenahme der darin integrierten Referenzkorpora ausgewertet. Fur eine weitere intralinguale Untersuchung der deutschsprachigen Komponente wurde auf das Deutsche Referenzkorpus DeReKo und weitere, intern zu Verfügung stehende Instrumente des Instituts für Deutsche Sprache zuruckgegriffen. Neben üblichen Verfahren der quantitativen Ein- oder Mehrwortbewertung wird ein Ansatz ergänzend getestet, der der dunnen Datengrundlage im fachsprachlichen Bereich Rechnung trägt: Diese ergibt sich nicht nur aus der Korpusgrobe, sondern auch daraus, dass bestimmte feste Floskeln (wie ,eine Reiserücktrittsversicherung abschlieben‘) selten rekurrent, vielmehr eher nur einmal pro Text verwendet werden. Auch wenn dieser Ansatz aufgrund infrastruktureller Artefakte in Einzelfallen an seine Grenzen stößt, die hier selbstkritisch nicht verschwiegen werden sollen, so zeigt sich doch an vielen Stellen auch das grobe Potential. Abschließend wird beispielhaft illustriert, wie Evidenzen dieser und der anderen korpuslinguistischen Auswertungen lexikographisch umgesetzt wurden.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), zugänglich über die Datenbank für Gesprochenes Deutsch (DGD), strebt den Status eines Referenzkorpus für den aktuellen mündlichen Sprachgebrauch im deutschen Sprachraum an. Es enthält einen wachsenden Bestand von Audio- und Videoaufnahmen authentischer Gespräche aus verschiedenen Bereichen des gesellschaftlichen Lebens. Die Dokumentation und Repräsentation von Interaktions- und Sprecherinformationen sind bereits seit den Anfängen des Korpusaufbaus integrale Bestandteile von FOLK. Allerdings lag bislang kein ausgearbeitetes, empirisch erprobtes und vollständig in die Korpusinfrastruktur integrierbares Stratifikationskonzept vor. Mit dem vorliegenden Artikel wird ein solches Konzept vorgeschlagen. Es knüpft an frühere Konzeptionen an und wurde anhand der vorhandenen Daten überprüft, korrigiert und erweitert. Dieser Prozess verlief parallel zur Überarbeitung des XML-Schemas zur Metadatendokumentation, um die konkrete Implementierung vorzubereiten. Im Anschluss an eine Skizzierung genereller Aspekte des Korpusdesigns werden die stratifikationsleitenden und ergänzenden Parameter vorgestellt und erläutert. Abschließend werden Ansätze und Strategien zum Korpusausbau diskutiert.
Ein sehr mächtiges Instrument für die Untersuchung von Wörtern und Verwandtschaftsbeziehungen zwischen ihnen ist die Analyse typischer Verwendungskontexte - unabhängig davon, ob die Evidenzen auf Bedeutungskonstitution, ihre Veränderung oder Verwechslung hinweisen, drei Aspekte, die alle bei der Charakterisierung von Paronymie eine Rolle spielen. Auch wenn für die Ermittlung typischer Verwendungsmuster ausgereifte Methoden zur Verfügung stehen, so sollte beim Vergleich der Analysen doch beachtet werden, dass sie diversen Einflussgrößen unterliegen. Neben der Datengrundlage und der Definition und Handhabung des relevanten Kontextes wird im Folgenden besonders darauf eingegangen, welche Rolle verschiedene Teilmengen eines Flexionsparadigmas spielen können, wenn ein Lemma als dessen Gesamtmenge als sprachliche Bezugseinheit einer Untersuchung gewählt wurde. Veranschaulicht wird die Gedankenführung an der beispielhaften Betrachtung von Paronymkandidaten.
Der Beitrag beschreibt ein mehrfach annotiertes Korpus deutschsprachiger Songtexte als Datenbasis für interdisziplinäre Untersuchungsszenarien. Die Ressource erlaubt empirisch begründete Analysen sprachlicher Phänomene, systemischstruktureller Wechselbeziehungen und Tendenzen in den Texten moderner Popmusik. Vorgestellt werden Design und Annotationen des in thematische und autorenspezifische Archive stratifizierten Korpus sowie deskriptive Statistiken am Beispiel des Udo-Lindenberg-Archivs.