Refine
Year of publication
- 2022 (35) (remove)
Document Type
- Part of a Book (24)
- Article (10)
- Conference Proceeding (1)
Has Fulltext
- yes (35)
Keywords
- Deutsch (13)
- Korpus <Linguistik> (13)
- Fallstudie (6)
- Forschungsmethode (6)
- Interaktion (5)
- Kommunikation (5)
- Sprachanalyse (5)
- Sprachdaten (5)
- Datenanalyse (4)
- Datenerhebung (4)
Publicationstate
- Postprint (35) (remove)
Reviewstate
- (Verlags)-Lektorat (27)
- Peer-Review (8)
Publisher
- Wilhelm Fink (14)
- Benjamins (3)
- V&R Unipress (2)
- Winter (2)
- Frank & Timme (1)
- Friedrich (1)
- John Benjamins (1)
- Klostermann (1)
- Lemmens (1)
- Metzler (1)
In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die gängigen Abfragesprachen unterscheiden sich in vielen Details. Diese Details und die Möglichkeiten und Grenzen der einzelnen Abfragesprachen stellen wir im zweiten Teil mit vielen Beispielaufgaben und dazu passenden Lösungen in jeweils drei Abfragesprachen vor.
Eine korpuslinguistische Untersuchung mit umfassender Analyse der häufiger vorkommenenden Adverbbildungsmuster des Deutschen legt nahe, dass die Sättigung des internen Argumentplatzes eines ursprünglich relationalen Ausdrucks eine wichtige Rolle bei der Adverbproduktion spielt (Brandt 2020). Eine genauere Betrachtung der Unterschiede zwischen -ermaßen- vs. -erweise-Adverbien deutet auf eine grammatische Unterscheidung zwischen Satzadverbien und Adverbien der Art und Weise: Im Fall von -ermaßen erfolgt die Sättigung über Token-Reflexivität, während der interne Slot von -erweise- Bildungen über häufigere und möglicherweise expansive Mechanismen geschlossen wird. Darüber hinaus fördert die pleonastische Qualität von Bildungen auf der Basis gerundivaler Partizipien die Produktivität von -erweise Adverbien.
Korpora sind – als idealerweise digital verfüg- und auswertbare Sammlungen von Texten – eine wertvolle empirische Grundlage linguistischer Studien. Eigene Korpora aufzubauen ist, je nach Sprachausschnitt, mit unterschiedlichen Herausforderungen verbunden. Zu allen Texten sollten Metadaten zu den Textentstehungsbedingungen (Zeit, Quelle usw.) erhoben werden, um diese als Variablen in Auswertungen einbeziehen zu können. Andere Informationen wie etwa die Themenzugehörigkeit (oder Annotationen auch unterhalb der Textebene) sind auch hilfreich, in vielerlei Hinsicht aber schwieriger pauschal taxonomisch vorzugeben, geschweige denn, operationell zu ermitteln. Jenseits der »materiellen« Verfügbarkeit der Texte und der technischen Aufbereitung sind es das Urheberrecht, vor allem Lizenz- bzw. Nutzungsrechte, sowie ethische Verantwortung und Persönlichkeitsrechte, die beachtet werden müssen, auch um zu gewährleisten, dass die Daten für die Reproduktion der Studien Dritten rechtssicher zugänglich gemacht werden dürfen. Bevor für ein Vorhaben ein neues Korpus aufgebaut wird, sollte deshalb am besten geprüft werden, ob nicht ein geeignetes bereits zur Verfügung steht. Wenn ein Korpus aufgebaut wird, sollte für eine nachhaltige Aufbewahrung und Zugänglichmachung gesorgt und die Existenz an geeigneter Stelle dokumentiert werden.
Since the beginning of the Covid-19 pandemic, about 2000 new lexical units have entered the German lexicon. These concern a multitude of coinings and word formations (Kuschelkontakt, rumaerosolen, pandemüde) as well as lexical borrowings mainly from English (Lockdown, Hotspot, Superspreader). In a special way, these neologisms function as keywords and lexical indicators sketching the development of the multifaceted corona discourse in Germany. They can be detected systematically by corpus-linguistic investigations of reports and debates in contemporary public communication. Keyword analyses not only exhibit new vocabulary, they also reveal discursive foci, patterns of argumentation and topicalisations within the diverse narratives of the discourse. With the help of quickly established and dominant neologisms, this paper will outline typical contexts and thematic references, but it will also identify speakers' attitudes and evaluations.
Mobiles Livevideostreaming ist eine Medienpraktik, bei der sich die Beteiligten in einer spezifischen Ausrichtung zueinander befinden und in der Streamer*innen und Zuschauer*innen unterschiedliche semiotische Ressourcen zur Verfügung stehen. Anhand der multimodalen Sequenzanalyse einer prägnanten Episode eines Ortswechsels im Rahmen der Berichterstattung eines Journalisten von einem politischen Ereignis auf der Livevideostreaming-Plattform Periscope wird die Frage bearbeitet, wie Beteiligung und involvement in Livevideostreams hergestellt sowie organisiert werden und dargelegt, inwiefern mobiles Livevideostreaming soziale Parainteraktion transzendiert. Es wird gezeigt, dass die Hosts der Medienpraktik ‚Livevideostreaming' interaktionsdominierend agieren und die Zuschauer*innen durch asymmetrische Partizipationskoordination per footing shifts situativ in das Geschehen involvieren.
This paper deals with different types of verbal complementation of the German verb verdienen. It focuses on constructions that have been undergoing a grammaticalization process and thus express deontic modality, as in Sie verdient geliebt zu werden (ʽShe deserves to be lovedʼ) and Sie verdient zu leben (ʽShe deserves to liveʼ) (Diewald, Dekalo & Czicza 2021). These constructions are connected to parallel complementation types with passive and active infinitives containing a correlate es, as in Sie verdient es, geliebt zu werden and Sie verdient es, zu leben, as well as finite clauses with the subordinator dass with and without correlative es, as in Sie verdient, dass sie geliebt wird and Sie verdient es, dass sie geliebt wird. This paper attempts to show a close comparative investigation of these six types of constructions based on their relevant semantic and syntactic properties in terms of clause linkage (Lehmann 1988). We analyze the relevant data retrieved from the DWDS corpus of the 20th century and present an expanded grammaticalization path for verdienen-constructions. The finite complementation with dass is regarded as an example of a separate structural option called “elaboration”. Concerning the use of correlative es, it is shown that it does not have any substantial effect on the grammaticalization of modal verdienen-constructions.
Selten zuvor hat ein Ereignis in der Welt so direkt und für viele Menschen unmittelbar spürbar Einfluss auf den Wortschatz des Deutschen gehabt wie die Coronapandemie. Fast täglich konnte man ab Frühjahr 2020 neuen Wortschatz im Radio oder Fernsehen hören und in Zeitungen, Zeitschriften oder Beiträgen in den Sozialen Medien lesen. Zugleich sind zahlreiche medizinische und epidemiologische Fachausdrücke in den Allgemeinwortschatz eingegangen. Welche Spuren dieses dynamischen Wandels in Lexikon und Kommunikation auf lange Sicht in unserer Sprache zu finden sein werden, ist eine offene Frage, auf die die Sprachwissenschaft erst in den nächsten Jahrzehnten eine Antwort wird geben können. Erste Tendenzen aber zeichnen sich schon heute ab.
Daten und Metadaten
(2022)
In diesem Kapitel werden Metadaten als Daten definiert, die der Dokumentation und/oder Beschreibung empirischer Sprachdaten dienen. Einleitend werden die verschiedenen Funktionen von Metadaten im Forschungsprozess und ihre Bedeutung für die Konzepte der Ausgewogenheit und Repräsentativität diskutiert. Anhand des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) werden dann Metadaten eines konkreten Korpus vorgestellt, und es wird gezeigt, wie diese bei Korpusanalysen zum Einsatz kommen.
Auch Linguist*innen, die gesprochene Sprache untersuchen, kommen schon seit längerem nicht mehr ohne digitale Infrastrukturen aus. Seit Beginn der Gesprochene-Sprache-Forschung werden Gespräche aufgezeichnet und anschließend transkribiert, da die flüchtigen, innerhalb von Bruchteilen von Sekunden stattfindenden Feinheiten des Gesprochenen paradoxerweise nur durch Verschriftung im Detail untersucht werden können. Diese Detailuntersuchungen beschränkten sich im vergangenen Jahrhundert meist auf wenige Einzelbelege für ein untersuchtes Phänomen. Das heißt, die Forschenden hatten den unmittelbaren Überblick über ihre Datenkollektionen und benötigten keine elaborierten digitalen Methoden zu deren Aufbereitung, Annotation und Analyse. Dies hat sich in den letzten beiden Jahrzehnten stark geändert: Es wurden vermehrt gezielt große Datenmengen gesammelt, in Datenbanken organisiert und der Forschungsgemeinschaft zur Nutzung zur Verfügung gestellt. An erster Stelle muss hier das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genannt werden (vgl. Schmidt 2014). Dieses wird seit 2008 am Leibniz-Institut für Deutsche Sprache (IDS) aufgebaut und ist heute das größte Referenzkorpus für das gesprochene Deutsch.
KonsortSWD ist das NFDI Konsortium für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften. Für die äußerst vielfältigen Datentypen und Forschungsmethoden bauen die Beteiligten im Rahmen der NFDI eine bereits bestehende Forschungsdateninfrastruktur aus und ergänzen neue integrierende Dienste. Basis sind die heute 41 vom Rat für Sozial- und Wirtschaftsdaten akkreditierten Forschungsdatenzentren (FDZ). FDZ sind Spezialsammlungen zu jeweils spezifischen Forschungsdaten, z.B. aus der qualitativen Sozialforschung, und können so Forschende auf Basis einer ausführlichen Expertise zu diesen Daten beraten. Neben der Unterstützung der FDZ baut KonsortSWD auch neue Dienste in den Bereichen Datenproduktion, Datenzugang und Technische Lösungen auf.
Einführung
(2022)
Der Beitrag lässt sich hinsichtlich seines Gegenstands dem Bereich ,Sprache und Emotion' zuordnen. Seine Fragestellung bezieht sich auf die Kodierung von Gefühlen und auf deontisch markierte Ausdrücke. Datengrundlage sind Texte, die bisher von der Linguistik noch nicht erschlossen wurden. Es sind Berichte von Nationalsozialist*innen, die ihren Weg zur NSDAP schildern, in die sie in der späten Weimarer Republik eintraten. Der Beitrag analysiert diese Texte mit einem quantitativ-qualitativen Ansatz, indem er danach fragt, welche Gefühlsbezeichnungen in den untersuchten Texten verwendet werden und worauf sie referieren. Die Beantwortung dieser Fragen besteht in der Darstellung der lexikalisch-semantischen Kodierung von Gefühlen seitens der positiv und negativ emotionalisierten NS-affinen Mitglieder der Gesellschaft. Er leistet damit einen linguistischen Beitrag zur Entstehungsgeschichte des Nationalsozialismus.
Gegenstand des Beitrags sind korpuslinguistische Zugänge zur Variation im Auftreten des Fugenelements in Komposita aus zwei Nomen (Arbeit I s I weg). Die qualitative Vorstudie zeigt, dass die Verfügung nach Erstglied auf Vokal (Bühne I n I spiel, See I ufer) entgegen manchen Hinweisen aus bisherigen Korpusuntersuchungen sehr weitgehend linguistisch systematisierbar ist. Die Hauptstudie fokussiert dann die sehr variable Verfügung nach Erstglied auf Konsonant (Arbeit I s I weg vs. Heimat I art). Sie modelliert statistisch den Einfluss von Größen, deren Bedeutung in der bisherigen Forschung nur angenommen, aber nicht überprüft werden konnte. Dabei führt sie auch neue Einflussgrößen ein und gibt deutliche Hinweise darauf, dass die Variation in größerem Ausmaß als bisher vermutet einzelfallspezifisch geregelt ist.
Gesprochene Lernerkorpora: Methodisch-technische Aspekte der Erhebung, Erschließung und Nutzung
(2022)
This article provides an overview of methodological and technical issues that arise in the collection, indexing and use of spoken learner corpora, i. e. corpora containing spoken utterances of learners of a target language. After an introductory discussion of the most important special features of this type of corpus that distinguish it from written language learner corpora and spoken corpora with L1 speakers, we will go into more detail on questions of corpus design. The main part of the paper is then an overview of the methodological and technical procedures of the individual steps of collecting, indexing, providing and using spoken learner corpora. The main aim of this overview is to highlight practices that can be considered best practices according to the current state of research. Finally, we outline the challenges that still exist for this type of corpus.
Meta-communicative practices are generally reflexive in a fairly obvious sense: Inasmuch as speakers use them to talk about or comment on earlier/subsequent talk, they use language self-reflexively. In this paper, we explore a practice that is reflexive not only in this meta-communicative sense but also in a sequential-interactional one: Prefacing a conversational turn with I was gonna say. We show that the I was gonna say-preface furnishes the following general semantic-pragmatic affordances: (1) It retroactively relates the speaker’s subsequent talk to preceding talk from a co-participant, (2) it embodies a claim to prior, now-preempted, communicative intent with regard to what their co-participant has (just) said/done, (3) it therefore displays its speaker’s orientation to the relevance or the appropriate placement of the action(s) done in their own subsequent talk at an earlier moment in the interaction, and (4) it reflexively re-invokes, or retrieves, this earlier moment as the relevant sequential context for their action(s). We then go on to illustrate how speakers draw on these sequentially reflexive affordances for managing recurrent interactional contingencies in specific sequential environments. The paper ends with a discussion of the role that reflexivity plays in and for the deployment of this practice.
Die Untersuchung des Umgangs mit Klausuren in der Studieneingangsphase seitens internationaler Studierender stellt im Projekt Sprache und Studienerfolg bei Bildungsausländer/-innen (SpraStu) neben der Analyse des Mitschreibens in Vorlesungen eine zweite Annäherung an konkretes studientypisches Sprachhandeln dar. Ziel der überwiegend qualitativen Erhebungen rund um Klausuren in der Anfangsphase des Bachelorstudiums von Bildungsausländer:innen ist es hier, sich ein erstes Bild von subjektiv empfundenen Schwierigkeiten und von strategischen Vorgehensweisen bei der Klausurbearbeitung zu verschaffen; dazu wurden sowohl Dozierende als auch L2-Studierende in die Analysen einbezogen. In diesem Kapitel werden einige erste explorative qualitative Analysen der entsprechenden Daten präsentiert. Die Auswertungen beziehen sich auf zwei exemplarische Klausuren der Fächer Deutsch als Fremdsprache (Abschlussklausur zum Modul Lexikologie) und Wirtschaftswissenschaften (Klausur zur Vorlesung Bürgerliches Recht für Wirtschaftswissenschaftler (BGB)), die jeweils am Ende des ersten Studiensemesters geschrieben wurden, und auf mit sechs Bildungsausländer:innen durchgeführte Stimulated Recalls zu diesen Klausuren (vgl. Gass & Mackey, 2017; Heine & Schramm, 2016). Ferner werden Daten aus Interviews mit den Dozierenden ausgewertet, die für die beiden Klausuren verantwortlich waren. Die Analysen können also keinen Anspruch auf Generalisierbarkeit erheben, sondern illustrieren vielmehr einige exemplarische Hürden, die sich ganz spezifisch für L2-Studierende ergeben, aus deren subjektiver Sicht, und setzen sie ins Verhältnis zu den von den jeweiligen Dozierenden erwarteten Herausforderungen.
Korpora gesprochener Sprache
(2022)
Korpora gesprochener Sprache bestehen aus Audio- oder Videoaufnahmen sprachlicher Produktionen, die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden. Sie kommen zur Untersuchung unterschiedlichster sprachwissenschaftlicher Fragestellungen unter anderem in der Gesprächsforschung, der Dialektologie und der Phonetik zum Einsatz. Dieser Beitrag diskutiert die wichtigsten Eigenschaften von Korpora gesprochener Sprache und stellt einige Vertreter der verschiedenen Kategorien vor.
Dieses Kapitel gibt einen Überblick über Korpora internetbasierter Kommunikation, die als digitale Ressourcen frei zur Verfügung stehen und für eigene linguistische Forschungsarbeiten genutzt werden können. In Abschnitt 1 erläutern wir korpuslinguistische Basiskonzepte, die für die Arbeit mit Korpora internetbasierter Kommunikation benötigt werden, und präzisieren die Sprachgebrauchsdomäne Internetbasierte Kommunikation, die den Gegenstand des hier beschriebenen Ressourcentyps bildet. Abschnitt 2 gibt einen Überblick zu existierenden Korpusressourcen für das Deutsche und stellt ausgewählte Korpora zu weiteren europäischen Sprachen vor. In Abschnitt 3 geben wir abschließend einen kurzen Einblick in aktuelle Forschungsfelder, die sich im Bereich der Korpuslinguistik und Sprachtechnologie in Bezug auf den Aufbau und die Aufbereitung von Korpora internetbasierter Kommunikation stellen.
Der folgende Leitfaden bietet eine grundlegende Übersicht darüber, welche Schritte bei der Konzeption und Durchführung einer empirischen Untersuchung in der germanistischen Linguistik zu beachten sind. Wir werden den grundlegenden Ablauf und die zugrunde liegenden Konzepte allgemein bzw. modellhaft beschreiben und sie anhand von einfachen Beispielen illustrieren. Eine stärkere Ausgestaltung anhand von Beispielen zu verschiedenen linguistischen Forschungsfragen und -feldern und damit auch mehr Illustrationen, wie die einzelnen Schritte für bestimmte Forschungsfragen umzusetzen sind, finden Sie in den Fallstudien im —> Teil III dieses Bandes. Detailliertere Ausführungen zu den zentralen Konzepten des empirischen Arbeitens in der Linguistik finden Sie in —> Teil VI dieses Bandes. Weiterführende Literatur findet sich am Ende des Beitrags.
Diese Fallstudie untersucht die quantitative Verteilung von direkten und nicht-direkten Formen von Redewiedergabe im Vergleich zwischen zwei Literaturtypen: Hochliteratur - definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen - und Heftromanen - massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden. Die Studie geht von manuell annotierten Daten aus und überprüft daran die Verlässlichkeit automatischer Annotationswerkzeuge, die im Anschluss eingesetzt werden, um eine Untersuchung von insgesamt 250 Volltexten durchzuführen. Es kann nachgewiesen werden, dass sich die Literaturtypen sowie auch unterschiedliche Genres von Heftromanen hinsichtlich der verwendeten Wiedergabeformen unterscheiden.
This paper investigates the long-term diachronic development of the perfect and preterite tenses in German and provides a novel analysis by supplementing Reichenbach’s (1947) classical theory of tense by the notion of underspecification. Based on a newly compiled parallel corpus spanning the entire documented history of German, we show that the development in question is cyclic: It starts out with only one tense form (preterite) compatible with both current relevance and narrative past readings in (early) Old High German and, via three intermediate stages, arrives at only one tense form again (perfect) compatible with the same readings in modern Upper German dialects. We propose that in order to capture all attested stages we must allow tenses to be unspecified for R (reference time), with R merely being inferred pragmatically. We then propose that the transitions between the different stages can be explained by the interplay between semantics and pragmatics.
The article addresses Solution-Oriented Questions (SOQs) as an interactional practice for relationship management in psychodiagnostic interviews. Therapeutic alliance results from the concordance of alignment, as willingness to cooperate regarding common goals, and of affiliation, as relationship based upon trust. SOQs particularly allow for both: They are situated at the end of a troublesome topic area, which is linked to low agency on the patient’s side, and they reveal understanding of and interest in the patient. Following the paradigm of Conversation Analysis and German Gesprächsanalyse this paper analyzes the design and functions of SOQs as a means for securing and enhancing the relationship in the process of therapy. Our data comprise 15 videotaped first interviews following the manual of the Operationalized Psychodynamic Diagnostics. The analyses refer to all SOQs found but will be illustrated by means of a single conversation.
Wir stellen eine empirische Studie vor, die der Frage nachgeht, ob und in welchem Ausmaß Wörterbücher und andere lexikographische Ressourcen die Ergebnisse von Textüberarbeitungen verbessern. Studierende wurden in unserer Studie gebeten, zwei Texte zu optimieren und waren dabei zufällig in drei unterschiedliche Versuchsbedingungen eingeteilt: 1. ein Ausgangstext ohne Hinweise auf potenzielle Fehler im Text, 2. ein Ausgangstext, bei dem problematische Stellen im Text hervorgehoben waren und 3. ein Ausgangstext mit hervorgehobenen Problemstellen zusammen mit lexikographischen Ressourcen, die zur Lösung der spezifischen Probleme verwendet werden konnten. Wir fanden heraus, dass die Teilnehmer*innen der dritten Gruppe die meisten Probleme korrigierten und die wenigsten semantischen Verzerrungen während der Überarbeitung einführten. Außerdem waren sie am effizientesten (gemessen in verbesserten Textabschnitten pro Zeit). Wir berichten in dieser Fallstudie ausführlich vom Versuchsaufbau, der methodischen Durchführung der Studie und eventuellen Limitationen unserer Ergebnisse.
Der Beitrag steht im Zusammenhang mit einem Forschungsprojekt, das die Erarbeitung einer sprachlichen Sozialgeschichte der Jahre 1933 bis 1945 zum Ziel hat. Er verfolgt das Ziel, zum einen die Kategorie der Alltagsdissidenz methodisch-theoretisch im Searleschen Sinn von Akzeptanzverweigerung zu konzipieren und empirisch zu erproben. Außerdem wird damit ein bisher diskurslinguistisch nicht beachteter Aspekt der Sozialgeschichte im NS sprachgeschichtlich erschlossen. Materialgestützt werden Formen von Alltagsdissidenz vorgestellt und in ein, nach Beteiligung und Öffentlichkeitsgrad unterscheidendes Ordnungsschema gebracht.
Sobald eine statistische Datenanalyse abgeschlossen ist, müssen in einem weiteren Schritt die Untersuchungsergebnisse aufbereitet und dargestellt werden. Hierzu gibt es verschiedene Möglichkeiten, die davon abhängig sind, welche Art von Analyse man durchgeführt hat. Aus diesem Grund ist der Beitrag gegliedert in die Aufbereitung von Ergebnissen für deskriptive, also beschreibende statistische Analysen (Abschnitt 2) und in die Ergebnisdarstellung von inferenzstatistischen (= schließenden) Auswertungen (Abschnitt 3). Wir gehen dabei auf die Aufbereitung der Daten in Tabellenform ein, werden an einem Beispiel zeigen, wie man die Ergebnisse von statistischen Tests berichtet und einige Visualisierungsmöglichkeiten vorstellen.
In diesem Beitrag wird anhand von per Telefon gedolmetschten Gesprächen zwischen einer deutschsprechenden Asylverfahrensberaterin und arabischsprechenden KlientInnen die Notwendigkeit eines reflektierten computergestützten Transkriptionsverfahrens für interaktionsbezogene Untersuchungen diskutiert. Gesprächstranskription erfordert die Verwendung eines romanisierten, rechtsläufigen Schriftsystems für die schriftliche und grafische Darstellung der zeitlichen Dimensionen, d. h. die Synchronizität, Simultaneität und Reziprozität des sprachlichen Handelns. Durch die Entwicklung einer transparenten Systematik zur Romanisierung und Übersetzung von Gesprächsdaten wird ihre Opazität sowohl für LeserInnen ohne Arabischkenntnisse als auch für Sprachkundige ohne Kenntnisse über die rekonstruierten Varietäten reduziert und ansatzweise eine Lesbarkeit auch für Nicht-Sprachkundige geschaffen. Dies ist für die Datenkuratierung und etwaige Nachnutzungen von besonderer Bedeutung.
In a recent article, Meylan and Griffiths (Meylan & Griffiths, 2021, henceforth, M&G) focus their attention on the significant methodological challenges that can arise when using large-scale linguistic corpora. To this end, M&G revisit a well-known result of Piantadosi, Tily, and Gibson (2011, henceforth, PT&G) who argue that average information content is a better predictor of word length than word frequency. We applaud M&G who conducted a very important study that should be read by any researcher interested in working with large-scale corpora. The fact that M&G mostly failed to find clear evidence in favor of PT&G's main finding motivated us to test PT&G's idea on a subset of the largest archive of German language texts designed for linguistic research, the German Reference Corpus consisting of ∼43 billion words. We only find very little support for the primary data point reported by PT&G.
The Leibniz-Institute for the German Language (IDS) was established in Mannheim in 1964. Since then, it has been at the forefront of innovation in German linguistics as a hub for digital language data. This chapter presents various lessons learnt from over five decades of work by the IDS, ranging from the importance of sustainability, through its strong technical base and FAIR principles, to the IDS’ role in national and international cooperation projects and its expertise on legal and ethical issues related to language resources and language technology.
Klassische Namen der Offline-Welt sind bei weitem umfangreicher erforscht als die eher kurzlebigen und auch noch sehr jungen Namen der digitalen Welt. Im vorliegenden Beitrag werden virtuelle Namen als eigene Namenklasse postuliert und unter Verweis auf bestehende Namentypologien verortet. Anschließend werden drei unterschiedliche Typen frei wählbarer virtueller Namen in Videospielen am Beispiel des populären Browserspiels ‚Forge of Empires‘ graphematisch und semantisch analysiert: Gilden-, Städte- und Benutzernamen. Hierfür werden drei Korpora mit je 100 Namen des jeweiligen Typs auf unterschiedliche Muster zunächst hinsichtlich Sprachwahl, Zeichenverwendung und graphematischen Besonderheiten untersucht. Anschließend erfolgt eine Untersuchung der den Namen zugrundeliegenden Benennungsmotive durch induktiv-explorative Kategorienbildung. Zwischen den untersuchten Namentypen kristallisiert sich in der Analyse ein funktionaler Unterschied heraus: Gildennamen priorisieren eine kommunikativ-phatische Funktion, wohingegen Benutzernamen primär Individualität ausdrücken. Städtenamen nehmen dabei eine Zwischenposition ein. Insgesamt fügen sich die verschiedenen Teilergebnisse in das Bild der bisherigen spärlichen Studien zur Namenwahl in Videospielen ein und rufen zugleich zur weiteren Erforschung auf.
Was darf die sprachwissenschaftliche Forschung? Juristische Fragen bei der Arbeit mit Sprachdaten
(2022)
Sich in der Linguistik mit rechtlichen Themen beschäftigen zu müssen, ist auf den ersten Blick überraschend. Da jedoch in den Sprachwissenschaften empirisch gearbeitet wird und Sprachdaten, insbesondere Texte und Ton- und Videoaufnahmen sowie Transkripte gesprochener Sprache, in den letzten Jahren auch verstärkt Sprachdaten internetbasierter Kommunikation, als Basis für die linguistische Forschung dienen, müssen rechtliche Rahmenbedingungen für jede Art von Datennutzung beachtet werden. Natürlich arbeiten auch andere Wissenschaften, wie z. B. die Astronomie oder die Meteorologie, empirisch. Jedoch gibt es einen grundsätzlichen Unterschied der empirischen Basis: Im Gegensatz zu Temperaturen, die gemessen, oder Konstellationen von Himmelskörpern, die beobachtet werden, basieren Sprachdaten auf schriftlichen, mündlichen oder gebärdeten Äußerungen von Menschen, wodurch sich juristisch begründete Beschränkungen ihrer Nutzung ergeben.
Wenn alle Forschungsfragen gestellt, alle Hypothesen formuliert, alle Korpora kompiliert und alle Daten von Proband*innen gesammelt wurden, befinden Sie sich auf einer der letzten Etappen Ihrer linguistischen Studie: der Analyse der Daten. In diesem Kapitel werden Sie einige Werkzeuge kennenlernen, die Sie dabei unterstützen können. Hier nehmen wir an, dass Sie in irgendeiner Form eine quantitative statistische Auswertung vornehmen möchten, denn für qualitative Analysen sind die Werkzeuge, die wir Ihnen vorstellen werden, weniger bis gar nicht geeignet.
Transkriptionswerkzeuge sind spezialisierte Softwaretools für die Transkription und Annotation von Audio- oder Videoaufzeichnungen gesprochener Sprache. Dieses Kapitel erklärt einleitend, worin der zusätzliche Nutzen solcher Werkzeuge gegenüber einfacher Textverarbeitungssoftware liegt, und gibt dann einen Überblick über grundlegende Prinzipien und einige weitverbreitete Tools dieser Art. Am Beispiel der Editoren FOLKER und OrthoNormal wird schließlich der praktische Einsatz zweier Werkzeuge in den Arbeitsabläufen eines Korpusprojekts illustriert.
Close repetitions of lexical material can create an impression of clumsiness in the style of Italian prose, while they seem to be accepted with more ease in German. The present study shows that this traditional claim needs some further differentiation. The negative effects on style take place in Italian when informationally prominent words are repeated, while informational background material may - and in certain cases even must - be repeated for clarity. The comparative study investigates lexical, syntactic and prosodic resources for indicating adversative (contrast) relations in argumentative texts from the field of humanities, written in Italian and German. It shows that, for encoding this kind of relation, Italian depends very much on lexical resources, including repetitions of words, while German makes more use of syntactic and prosodic parallelism. As a consequence, German can often dispense with adversative connectives and allows to employ word repetitions for different purposes.