Refine
Year of publication
- 2018 (151) (remove)
Document Type
- Part of a Book (81)
- Article (31)
- Book (20)
- Conference Proceeding (6)
- Working Paper (6)
- Other (5)
- Review (2)
Is part of the Bibliography
- yes (151) (remove)
Keywords
- Deutsch (44)
- Korpus <Linguistik> (37)
- Gesprochene Sprache (13)
- Interaktionsanalyse (12)
- Grammatik (11)
- Linguistik (10)
- Sprache (9)
- Annotation (8)
- Kommunikation (8)
- Konversationsanalyse (8)
Publicationstate
- Veröffentlichungsversion (151) (remove)
Reviewstate
Publisher
- de Gruyter (39)
- Institut für Deutsche Sprache (22)
- Heidelberg University Publishing (14)
- European language resources association (ELRA) (13)
- Znanstvena založba Filozofske fakultete Univerze v Ljubljani / Ljubljana University Press, Faculty of Arts (7)
- Verlag für Gesprächsforschung (5)
- De Gruyter (3)
- Leibniz-Zentrum allgemeine Sprachwissenschaft (ZAS); Humboldt-Universität zu Berlin (3)
- The Association for Computational Linguistics (3)
- Association for Computational Linguistics (2)
Am Beispiel der polyfunktionalen Mehrworteinheit <was weiß ich> wird das Zusammenspiel von pragmatischer und phonetischer Ausdifferenzierung in Pragmatikalisierungsprozessen untersucht. Hierzu werden spontan-sprachliche Belege aus dem Korpus „Deutsch heute“ analysiert. Die beobachtete phonetische Variationsbreite deutet auf eine komplexe Beziehung zu den jeweiligen pragmatischen Funktionen hin.
We present a testsuite for POS tagging German web data. Our testsuite provides the original raw text as well as the gold tokenisations and is annotated for parts-of-speech. The testsuite includes a new dataset for German tweets, with a current size of 3,940 tokens. To increase the size of the data, we harmonised the annotations in already existing web corpora, based on the Stuttgart-Tübingen Tag Set. The current version of the corpus has an overall size of 48,344 tokens of web data, around half of it from Twitter. We also present experiments, showing how different experimental setups (training set size, additional out-of-domain training data, self-training) influence the accuracy of the taggers. All resources and models will be made publicly available to the research community.
A syntax-based scheme for the annotation and segmentation of German spoken language interactions
(2018)
Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed,
some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.
The grammatical information system grammis combines descriptive texts on German grammar with dictionaries of specific word classes and grammatical terminology. In this paper, we describe the first attempts at analyzing user behavior for an online grammar of the German language and the implementation of an analysis and data extraction tool based on Matomo, a web analytics tool. We focus on the analysis of the keywords the users search for, either within grammis or via an external search platform like Google, and the analysis of the interaction between the text components within grammis and the integrated dictionaries. The overall results show that about 50% of the searches are for grammatical terms, and that the users shift from texts to dictionaries, mainly by using the integrated links to the dictionary of terminology within the texts. Based on these findings, we aim to improve grammis by extending its integrated dictionaries.
Das hier zu besprechende Buch, das Ergebnisse einer gleichnamigen Tagung zusammenfasst, die im Juni 2013 in Zürich stattfand, macht eines offenkundig: Wer in jenem Sommer nicht dabei war, hat etwas verpasst. Umso glücklicher darf man sein, dass Angelika Linke und Juliane Schröter die Arbeit, die mit der Herausgabe eines Sammelbandes verbunden ist, auf sich genommen haben. Mehr noch: In einem programmatischen ersten Kapitel geben sie einen systematischen Einblick in das tragfähige Forschungsfeld „Sprachliche Relationalität“ (vgl. S. 1–6), das ganz im Sinne der emotiven Wende in der Sprachwissenschaft konkrete theoretische Anschlussfähigkeit signalisiert, wo bislang eine „fast unübersehbare Menge an Veröffentlichungen“ (Schwarz-Friesel 2013: 16) zwar zeigte, wie attraktiv die Thematik ist, aber auch wie unstrukturiert sich die Zuwendung dazu gestaltet. Dass der Band nun weitere „exemplarische Besetzungen“ (S. 21) des Forschungsfeldes zur Diskussion stellt, wird hier keinesfalls als Nachteil angesehen, sondern als methodisch folgerichtiger empirischer Zugang zur Erschließung eines Forschungsfeldes unter den zielsetzenden Leitfragen „Wie werden im Medium von Sprachgebrauch und Sprache Konzeptualisierungen, Kategorisierungen und Differenzierungen menschlicher Beziehungen ausgebildet, verfestigt und auch wieder verändert?“ und „Welche sprachgeformten Beziehungskonzepte, -kategorien und -unterschiede sind typisch für bestimmte historische Epochen bzw. für bestimmte soziale Gruppierungen?“
The workshop presents ATHEN 1 (Annotation and Text Highlighting Environment), an extensible desktop-based annotation environment which supports more than just regular annotation. Besides being a general purpose annotation environment, ATHEN supports indexing and querying support of your data as well as the ability to automatically preprocess your data with Meta information. It is especially suited for those who want to extend existing general purpose annotation tools by implementing their own custom features, which cannot be fulfilled by other available annotation environments. On the according gitlab, we provide online tutorials, which demonstrate the use of specific features of ATHEN
This paper presents the results of a survey on dictionary use in Europe, the largest survey of dictionary use to date with nearly 10,000 participants in nearly thirty countries. The paper focuses on the comparison of the results of the Slovenian participants with the results of the participants from other European countries. The comparisons are made both with the European averages, and with the results from individual countries, in order to determine in which aspects Slovenian participants share similarities with other dictionary users (and non-users) around Europe, and in which aspects they differ. The findings show that in many ways the Slovenian users are similar to their European counterparts, with some noticeable exceptions, including (much) stronger preference for digital dictionaries over print ones, above-average reliance on other people when dictionary does not contain the relevant information, and the largest difference between the price of a dictionary and the amount willing to spend on it.
Augenblicks-Kommunikation: Mikrostruktur und soziale Implikativität einer kommunikativen Minimalform
(2018)
Die hier vorgelegte Studie ist das empirisch-konstitutionsanalytische Ergebnis meiner multi-modal-interaktionsanalytischen Beschäftigung mit einem bestimmten Typ kommunikativer Minimalform. Es handelt sich um den nur wenige Sekunden dauernden und oftmals nur blick-lich-mimisch-körperlich konstituierten sozialen Austausch von Passanten, die an einem Fens-ter vorbeigehen und dabei in das Zimmer blicken, an dem eine Person an einem Tisch sitzt, die ihrerseits die Hereinblickenden anschaut und somit eine Situation der Wahrnehmungs-wahrnehmung (Hausendorf 2003) etabliert. Im Mittelpunkt dieser Untersuchung zu Augenblicks-Kommunikation am Fenster steht die detaillierte Analyse motiviert ausgewählter Fälle aus einem umfangreichen Korpus (siehe Abschnitt 11). Die Fallanalysen dienen dem Nachweis der konstitutiven Bausteine der kom-munikativen Minimalform und der Systematik des Beteiligtenverhaltens über eine Vielzahl unterschiedlicher Konstellationen hinweg. Basierend auf der fallanalytisch produzierten empi-rischen Evidenz und Rekurrenz interaktionsstruktureller und sozial-implikativer Konstituen-ten des dokumentierten Interaktionsereignisses wird es möglich, die Relevanz der interakti-onsanalytischen Beschäftigung mit kommunikativen Minimalformen als relevante Unter-suchungsgegenstände deutlich zu machen. Um den empirisch basierten Nachweis kommunikativer Minimalformen als relevante und bislang übersehene Untersuchungsgegenstände der multimodalen Interaktionsanalyse nicht noch durch die Beschreibung, Reflexion und Problematisierung damit zusammenhängender methodisch-methodologischer Voraussetzungen und Anforderungen zu überfrachten, habe ich letztere Überlegungen – soweit es mir vertretbar erschien – mehr oder weniger konsequent ausgeklammert. Ich habe sie jedoch nicht ausgesondert und zur Seite gelegt. Vielmehr stellt die Reflexion und Diskussion der methodisch-methodologischen Implikationen der multimo-dal-interaktionsanalytischen Untersuchung kommunikativer Minimalform(en) ein zweites Ergebnis meiner bisherigen Beschäftigung mit der Augenblicks-Kommunikation am Fenster dar. Dieses Ergebnis befindet sich augenblicklich noch in Vorbereitung und wird als eigen-ständige Publikation veröffentlicht. Es stellt eine systematische und notwendige Ergänzung der hier vorliegenden Studie mit ihrem empirisch-fallanalytischen Fokus dar. Wer sich also speziell für die (weiterführende) methodisch-methodologische und theoretische Seite der Ana-lyse kommunikativer Minimalformen interessiert, der sei auf diese zweite Publikation (Schmitt/Petrova i. Vorb.) verwiesen.
In this paper we use methods for creating a large lexicon of verbal polarity shifters and apply them to German. Polarity shifters are content words that can move the polarity of a phrase towards its opposite, such as the verb “abandon” in “abandon all hope”. This is similar to how negation words like “not” can influence polarity. Both shifters and negation are required for high precision sentiment analysis. Lists of negation words are available for many languages, but the only language for which a sizable lexicon of verbal polarity shifters exists is English. This lexicon was created by bootstrapping a sample of annotated verbs with a supervised classifier that uses a set of data- and resource-driven features. We reproduce and adapt this approach to create a German lexicon of verbal polarity shifters. Thereby, we confirm that the approach works for multiple languages. We further improve classification by leveraging cross-lingual information from the English shifter lexicon. Using this improved approach, we bootstrap a large number of German verbal polarity shifters, reducing the annotation effort drastically. The resulting German lexicon of verbal polarity shifters is made publicly available.
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Die „21. Arbeitstagung zur Gesprächsforschung“ mit dem Rahmenthema „Vergleichende Gesprächsforschung“ fand vom 21.-23. März 2018 am Institut für Deutsche Sprache in Mannheim statt. Das Ziel der Tagung war es, Forscherinnen und Forscher zusammenzubringen, die authentische Interaktionsdaten aus vergleichender Perspektive untersuchen. Das Rahmenthema der Tagung ergab sich aus dem steigenden Interesse an vergleichenden Fragestellungen innerhalb konversations- und gesprächsanalytischer Untersuchungen. Die Tagung nahm gezielt Vorgehensweisen und Methoden bei der Durchführung vergleichender Untersuchungen in den Blick. Die Vorträge1, Projektpräsentationen und Datensitzungen erörterten 1. das Vergleichen als analytische Grundoperation der Konversations- und Gesprächsanalyse, 2. Vergleiche alternativer Ressourcen und Praktiken für spezifische Handlungen und Aktivitäten in der Interaktion sowie 3. methodologische Herausforderungen einer vergleichenden Gesprächsforschung.
Wie nun bereits seit einigen Jahren üblich, wurde die IDS-Jahrestagung auch dieses Jahr wieder von einer Methodenmesse begleitet, auf der sich passend zum Tagungsthema anwendungsorientierte Projekte mit Bezug zur Lexikonforschung präsentierten. Die Bandbreite der dargebotenen Themen war sehr groß: innovative methodische Ansätze im Bereich der Translationswissenschaft, Tools zur Analyse und Beschreibung lexikalischer Muster oder zur Detektion von Neologismen, neue lexikografische Ressourcen bis hin zu Infrastrukturaktivitäten und einem Kooperationsprojekt zwischen Schüler/innen und Wissenschaftler/innen zur Wortschatzanalyse. Im Folgenden sollen die einzelnen Projekte, die sich auf der Messe präsentiert haben, auf der Basis der eingereichten Abstracts der Messeteilnehmer/innen kurz vorgestellt werden.
Der Beitrag beschäftigt sich mit der Interaktion zwischen blinden und sehenden Personen bei der kooperativen Anfertigung einer Audiodeskription. Eine Audio-deskription ist die verbale Beschreibung visueller Inhalte für Sehbeeinträchtigte und stellt eine Sonderform der Translation dar. Auf der Basis von Videodaten wird die Kooperation eines Dreierteams mit den Verfahren der multimodalen Interaktionsanalyse untersucht. Ein Charakteristikum dieser Kooperation besteht darin, dass eines der Teammitglieder blind ist und die beiden anderen sehen können. Das Erkenntnisinteresse richtet sich besonders auf die professionelle Beteiligung des blinden Teammitglieds an der Interaktion. Die Analyse zeigt, wie Blindheit als Ressource für die kooperative Herstellung der Audiodeskription genutzt wird und wie die Beteiligten in einer visuell asymmetrischen Situation interagieren. Der Beitrag ist eine der seltenen Untersuchungen, die sich mit professioneller Interaktion zwischen Blinden und Sehenden beschäftigen. Er diskutiert Aspekte von genereller Relevanz für die weitere Entwicklung der empirischen Interaktionsforschung, vor allem in Bezug auf eine Erweiterung von Beteiligungsperspektiven in Richtung Inklusion.
The present submission reports on a pilot project conducted at the Institute for the German Language (IDS), aiming at strengthening the connection between ISO TC37SC4 “Language Resource Management” and the CLARIN infrastructure. In terminology management, attempts have recently been made to use graph-theoretical analyses to get a better understanding of the structure of terminology resources. The project described here aims at applying some of these methods to potentially incomplete concept fields produced over years by numerous researchers serving as experts and editors of ISO standards. The main results of the project are twofold. On the one hand, they comprise concept networks dynamically generated from a relational database and browsable by the user. On the other, the project has yielded significant qualitative feedback that will be offered to ISO. We provide the institutional context of this endeavour, its theoretical background, and an overview of data preparation and tools used. Finally, we discuss the results and illustrate some of them.
German is a language with complex morphological processes. Its long and often ambiguous word forms present a bottleneck problem in natural language processing. As a step towards morphological analyses of high quality, this paper introduces a morphological treebank for German. It is derived from the linguistic database CELEX which is a standard resource for German morphology. We build on its refurbished, modernized and partially revised version. The derivation of the morphological trees is not trivial, especially for such cases of conversions which are morpho-semantically opaque and merely of diachronic interest. We develop solutions and present exemplary analyses. The resulting database comprises about 40,000 morphological trees of a German base vocabulary whose format and grade of detail can be chosen according to the requirements of the applications. The Perl scripts for the generation of the treebank are publicly available on github. In our discussion, we show some future directions for morphological treebanks. In particular, we aim at the combination with other reliable lexical resources such as GermaNet.
Neulich sah ich am Pfeifferswörth, wo immer die freundlich orangen Wagen der Mannheimer Abfallwirtschaft runterbrettern, einen Cityfanten, auf dem Cityfant stand. Das fällt einer Sprachwissenschaftlerin natürlich auf, die sich aus ihrer Jugend an den Ottifanten erinnert und mal was über einen aus dem Ei gepellten Mammufanten geschrieben hat. Also habe ich nachrecherchiert, ob es nicht noch mehr Bildungen mit fant als zweitem Teil gibt.
Many studies on dictionary use presuppose that users do indeed consult lexicographic resources. However, little is known about what users actually do when they try to solve language problems on their own. We present an observation study where learners of German were allowed to browse the web freely while correcting erroneous German sentences. In this paper, we are focusing on the multi-methodological approach of the study, especially the interplay between quantitative and qualitative approaches. In one example study, we will show how the analysis of verbal protocols, the correction task and the screen recordings can reveal the effects of intuition, language (learning) awareness, and determination on the accuracy of the corrections. In another example study, we will show how preconceived hypotheses about the problem at hand might hinder participants from arriving at the correct solution.
This paper discusses changes in lexicographic traditions with respect to contrastive dictionary entries and dynamic, on-demand e-lexicographic descriptions. The new German online dictionary Paronyme - Dyna- misch im Kontrast is concerned with easily confused words (paronyms), such as effektivtefficient and sensibel/ sensitiv. New approaches to the empirical analysis and lexicographic presentation of words such as these are required, and this dictionary is committed to overcoming the discrepancy between traditional practice and insights from language use. As a corpus-guided reference work, it strives to adequately reflect not only authentic use in situations of actual communication, but also cognitive ideas such as conceptual structure, categorization and knowledge. Looking up easily confused lexical items requires contrastive entries where users can instantly compare meaning, contexts and reference. Adaptable access to lexicographic details and variable search options offer different foci and perspectives on linguistic information, and authentic examples reflect prototypical structures. These are essential in order to meet all the different interests of users. This paper will illustrate the contrastive structure of the new e-dictionary and demonstrate which information can be compared. It also focusses on various dynamic modes of dictionary consultation, which enable users to shift perspectives on paronyms accordingly.
In the past two decades, more and more dictionary usage studies have been published, but most of them deal with questions related to what users appreciate about dictionaries, which dictionaries they use and what type of information they need in specific situations — presupposing that users actually consult lexicographic resources. However, language teachers and lecturers in linguistics often have the impression that students do not use enough high-quality dictionaries in their everyday work. With this in mind, we launched an international cooperation project to collect empirical data to evaluate what it is that students actually do while attempting to solve language problems. To this end, we applied a new methodological setting: screen recording in conjunction with a thinking-aloud task. The collected empirical data offers a broad insight into what users really do while they attempt to solve language-related tasks online.
Except for some recent advances in spoken language lexicography (cf. Verdonik & Sepesy Maučec 2017, Hansen & Hansen 2012, Siepmann 2015), traditional lexicographic work is mainly oriented towards the written language. In this paper, we describe a method we used to identify relevant headword candidates for a lexicographic resource for spoken language that is currently being developed at the Institute for the German Language (IDS, Mannheim). We describe the challenges of the headword selection for a dictionary of spoken language, and having made considerations regarding our headword concept, we present the corpus-based procedures that we used in order to facilitate the headword selection. After presenting the results regarding the selection of one-word lemmas, we discuss the opportunities and limitations of our approach.
„Bringt morgen jemand ein paar Mistgabeln und Fackeln mit zur Schule???“ Diese Frage werfen Schüler/innen eines Gymnasiums in einem Facebook-Thread auf. Mit Mistgabeln und Fackeln, so malen es sich die Jugendlichen für jede/n mitlesbar aus, müsse man die Person attackieren, die ihren Unmut auf sich gezogen hat. In einem anderen Fall droht ein/e Schreiber/in in einer geschlossenen Hassgruppe, dass ein Mitglied der Trainingsgruppe dessen / deren „füße in der fresse hängen [haben wird]!“, was Beifall in der Gruppe und eine Reihe weiterer diskreditierender Kommentare hervorruft.
Diese Schlaglichter aus Online-Interaktionen geben einen ersten Eindruck von Cybermobbing, einer Form von Gewalt, die vornehmlich sprachlich realisiert und in Sozialen Medien verbreitet wird und sozialpsychologischen Studien zufolge heute zum Schulalltag gehört.
Das deutsche Wort Frühstück
(2018)
Der Beitrag untersucht auf der Grundlage der multimodal-raumanalytischen Interaktionsanalyse die Abendmahlfeier in drei lutherisch-protestantischen Gottesdiensten. Die Videoaufnahmen hierzu stammen aus Sarepta (Russland) und Rimbach und Zotzenbach (Deutschland). Nach einer kurzen Einordnung des Beitrags in den relevanten Forschungszusammenhang wird das spezifische raumanalytische Erkenntnisinteresse am Abendmahl als kollektive Positionierungsanforderung erläutert. Drei Fallanalysen rekonstruieren zunächst die interaktionsarchitektonischen Voraussetzungen für die kollektive Bewegung der Gemeinde ins kirchenräumliche Vorne. Diese Bewegung, die Positionierung der Gemeinde zur Einnahme des Abendmahls (der Konsum von Wein und Brot) und der Rückweg zu den Kirchenbänken sind raumbezogene Teilaufgaben, die in der konkreten Situation bearbeitet werden müssen. Die Bewegung der Gemeinde wird in den drei analysierten Gottesdiensten auf sehr unterschiedliche Weise organisiert. Die Rekonstruktion dieser Unterschiede ermöglicht die Formulierung von drei unterschiedlichen Vollzugsmodellen primär auf der Basis der zwei folgenden Aspekte: Relevant ist zum einen das Ausmaß und die Form der Vergemeinschaftung
(als symbolischer Nachvollzugs des überlieferten Abendmahls von Jesus Christus mit seinen Jüngern am Gründonnerstag) und zum anderen die Spezifik, in der die Teilnehmer konkret den Wein und das Brot konsumieren. Auf diesem Wege konnten ein Modell der Vergemeinschaftung mit Kollektivversorgung (Sarepta), ein Modell der Teil-Vergemeinschaftung mit Teil-Gruppenversorgung (Zotzenbach) sowie ein Individualisierungsmodell mit Einzelversorgung (Rimbach) identifiziert werden. Als strukturprägende Einflussgrößen werden einerseits die Möglichkeiten, die die Architektur für den Vollzug des Abendmahls zur Verfügung stellt, und andererseits die Anzahl der Teilnehmer deutlich. Ab einer gewissen Anzahl entsteht eine Art Ökonomisierungszwang, der sich negativ auf die Qualität der Vergemeinschaftung auswirkt. Von Reinhold Schmitt stammt die Idee, das Abendmahl als Koordinations- und Positionierungsaufgabe zu konzeptualisieren. Er hat auch die multimodal-interaktionsanalytische Methodologie entwickelt, die dem Beitrag zugrunde liegt. Darüber hinaus hat er die Videoaufnahmen in Rimbach und Zotzenbach erstellt und transkribiert. Anna Petrova hat die Gottesdienste in Sarepta dokumentiert und transkribiert. Die methodische und theoretische Konzeption des Beitrags stammt von beiden Autoren. Auch die Analysen der ausgewählten Fälle haben sie gemeinsam durchgeführt.
In der Datenbank zum Datensatz attributive_Adjektive_1.csv finden sich 1.598 Belege zu artikellosen Nominalphrasen mit je zwei attributiven Adjektiven im Dativ Singular Maskulinum oder Neutrum.
Die Datenbank attributive Adjektive enthält zu jedem Beleg neben dem Satzkontext eine Reihe von Annotationen. Dazu gehören Metadaten wie Register und regionale Zuordnung sowie Annotationen zur Phonologie, Morphosyntax, Semantik und Frequenz. Anhand dieser Annotationen lassen sich Hypothesen zur Adjektivflexion und -reihenfolge überprüfen. Nach einer Auswahl aus diesen Annotationen können Sie hier suchen. Alternativ können Sie unter „Download“ das gesamte Suchergebnis mit allen Annotationen und inklusive aller Belege, die bei der Untersuchung von Adjektivflexion und -reihenfolge als Fehlbelege eingestuft worden sind, herunterladen.
2017 gibt es im deutschen Mikrozensus zum ersten Mal seit etwa achtzig Jahren eine Frage zur Sprache der Bevölkerung in Deutschland. Diese Frage wird dann offenbar im entsprechenden Rhythmus des Mikrozensus jährlich wiederholt werden. Der Mikrozensus ist eine seit 1957 durchgeführte, repräsentative Befragung, bei der ungefähr 830.000 Menschen (das sind ca. 1 % der Bevölkerung) in rund 370.000 Haushalten befragt werden.1 Darin werden etwa Angaben zu den soziodemographischen Daten erfragt, zur familiären Situation, zur Wohnsituation, zur Aus- und Fortbildung und zur Arbeitssituation. Für die befragten Personen besteht Auskunftspflicht. Das Stellen einer Sprachfrage sieht, aus sprachwissenschaftlicher Sicht, zunächst nach einem sinnvollen und wünschenswerten Schritt aus. Nach näherer Betrachtung der gestellten Frage zeigen sich jedoch viele Unzulänglichkeiten und das, obwohl die Antworten und statistischen Auswertungen zu dieser Frage überhaupt noch ausstehen. Die Ergebnisse werden üblicherweise in der zweiten Hälfte des Folgejahres durch das statistische Bundesamt veröffentlicht.
Seit Mitte der 1990er Jahre wird am Institut für deutsche Sprache (IDS) in Mannheim erforscht, wie der hochkomplexe Gegenstandsbereich „Grammatik“ unter Ausnutzung digitaler Sprachressourcen und hypertextueller Navigationsstrukturen gleichermaßen wissenschaftlich fundiert und anschaulich vermittelt werden kann. Die grammatischen Online-Informationssysteme des IDS wenden sich nicht allein an Forscher und die interessierte Öffentlichkeit in Deutschland, sondern in gleichem Maße an Germanisten und Deutsch-Lernende in der ganzen Welt. Der vorliegende Beitrag beschreibt die damit verbundenen Hoffnungen und Anspruche. Daran anschließend thematisiert er praktische Einsatzmöglichkeiten und skizziert die funktionale und inhaltliche Weiterentwicklung der digitalen Grammatik-Angebote.
Our corpus study is concerned with subject-verb agreement in contemporary German, more precisely the variation in verb number. We focus on subjects consisting of noun phrases coordinated by the conjunction und (‘and’). In our samples, both nouns are in singular. Number resolution – i.e., plural verb despite of the singular nouns – can be regarded as the default choice in contemporary German. However, our data show that eliding the second determiner in the subject enhances the probability of using the singular verb. This ellipsis effect is highly significant in German and Austrian texts. It seems to be weaker in Swiss texts. Regression analyses reveal that the ellipsis effect is stronger than both the highly significant influence of subject individuation and the significant effect of subject agentivity.
Die moderne sprachwissenschaftliche Forschung nutzt in zunehmender Weise digitale Forschungsinfrastrukturen und Informationssysteme. Diese Entwicklung begann um die Jahrtausendwende und beschleunigt sich seither. Der Band thematisiert nationale und europäische Infrastrukturverbünde und verschiedene Sprachressourcen aus der germanistischen Sprachwissenschaft, die über digitale Infrastrukturen auffindbar, zugreifbar und (wieder-)verwendbar sind.
We present evidence for the analysis of the vowels in English <say> and <so> as biphonemic diphthongs /ɛi/ and /əu/, based on neutralization patterns, regular alternations, and foot structure. /ɛi/ and /əu/ are hence structurally on a par with the so called “true diphthongs” /ɑi/, /ɐu/, /ɔi/, but also share prosodic organization with the monophthongs /i/ and /u/. The phonological evidence is supported by dynamic measurements based on the American English TIMIT database.
Calculations of F2-slopes proved to be especially suited to distinguish the relevant groups in accordance with their phonologically motivated prosodic organizations.
Negation is an important contextual phenomenon that needs to be addressed in sentiment analysis. Next to common negation function words, such as not or none, there is also a considerably large class of negation content words, also referred to as shifters, such as the verbs diminish, reduce or reverse. However, many of these shifters are ambiguous. For instance, spoil as in spoil your chance reverses the polarity of the positive polar expression chance while in spoil your loved ones, no negation takes place. We present a supervised learning approach to disambiguating verbal shifters. Our approach takes into consideration various features, particularly generalization features.
We study German affixoids, a type of morpheme in between affixes and free stems. Several properties have been associated with them – increased productivity; a bleached semantics, which is often evaluative and/or intensifying and thus of relevance to sentiment analysis; and the existence of a free morpheme counterpart – but not been validated empirically. In experiments on a new data set that we make available, we put these key assumptions from the morphological literature to the test and show that despite the fact that affixoids generate many low-frequency formations, we can classify these as affixoid or non-affixoid instances with a best F1-score of 74%.
Eine europaweite Umfrage zu Wörterbuchbenutzung und -kultur. Ergebnisse der deutschen Teilnehmenden
(2018)
Gebrauchsgegenstand, Streitschlichter, Spielzeug, Nationalsymbol, Arbeitshilfe oder doch nur etwas, für das sich hauptsächlich Akademikerinnen und Akademiker interessieren? Welche Rolle spielen einsprachige Wörterbücher heute? Um unter anderen diesen Fragen nachzugehen, koordinierten wir gemeinsam mit Iztok Kosem (Universität Ljubljana) und Robert Lew (Adam-Mickiewicz Universität Poznań) die bis dato größte europaweite Umfrage zur Wörterbuchbenutzung und -kultur. Gemeinsam mit 26 ‚lokalen‘ Partnerinnen und Partnern aus ganz Europa führten wir im Rahmen des European Network of e-Lexicography (ENeL) diese Umfrage durch. Die Ergebnisse der Studie versprechen neue Einsichten in den gesellschaftlichen Status von Wörterbüchern in vielen europäischen Ländern. Durch die möglichst parallele Erhebung der Daten in den teilnehmenden Ländern werden außerdem interessante Vergleiche der lokalen ‚Wörterbuchkulturen‘ möglich sein. Im Fokus der Befragung standen allgemeine einsprachige Wörterbücher in der oder den jeweiligen Landessprache(n).
Einleitung
(2018)
Einleitung
(2018)
Einleitung
(2018)
Einleitung
(2018)
Einleitung
(2018)
Einleitung
(2018)
The paper describes preliminary studies regarding the usage of Example-Based Querying for specialist corpora. We outline an infrastructure for its application within the linguistic domain. Example-Based Querying deals with retrieval situations where users would like to explore large collections of specialist texts semantically, but are unable to explicitly name the linguistic phenomenon they look for. As a way out, the proposed framework allows them to input prototypical everyday language examples or cases of doubt, which are automatically processed by CRF and linked to appropriate linguistic texts in the corpus.