Refine
Year of publication
- 2017 (12) (remove)
Document Type
- Article (9)
- Conference Proceeding (3)
Has Fulltext
- yes (12)
Keywords
- Deutsch (5)
- Rezension (4)
- Computerlinguistik (3)
- Grammatik (2)
- Konversationsanalyse (2)
- Korpus <Linguistik> (2)
- Maschinelles Lernen (2)
- Niederdeutsch (2)
- Semantik (2)
- Sprachgebrauch (2)
Publicationstate
- Zweitveröffentlichung (12) (remove)
Reviewstate
- Peer-Review (12) (remove)
Publisher
Basic grammatical categories may carry social meanings irrespective of their semantic content. In a set of four studies, we demonstrate that verbs—a basic linguistic category present and distinguishable in most languages—are related to the perception of agency, a fundamental dimension of social perception. In an archival analysis of actual language use in Polish and German, we found that targets stereotypically associated with high agency (men and young people) are presented in the immediate neighborhood of a verb more often than non-agentic social targets (women and older people). Moreover, in three experiments using a pseudo-word paradigm, verbs (but not adjectives and nouns) were consistently associated with agency (but not with communion). These results provide consistent evidence that verbs, as grammatical vehicles of action, are linguistic markers of agency. In demonstrating meta-semantic effects of language, these studies corroborate the view of language as a social tool and an integral part of social perception.
In this paper we present work in developing a computerized grammar for the Latin language. It demonstrates the principles and challenges in developing a grammar for a natural language in a modern grammar formalism. The grammar presented here provides a useful resource for natural language processing applications in different fields. It can be easily adopted for language learning and use in language technology for Cultural Heritage like translation applications or to support post-correction of document digitization.
We present a supervised machine learning AND system which tackles semantic similarity between publication titles by means of word embeddings. Word embeddings are integrated as external components, which keeps the model small and efficient, while allowing for easy extensibility and domain adaptation. Initial experiments show that word embeddings can improve the Recall and F score of the binary classification sub-task of AND. Results for the clustering sub-task are less clear, but also promising and overall show the feasibility of the approach.
Genau tritt im aktuellen Sprachgebrauch nicht nur in seiner klassischen Bedeutung als Adjektiv oder Adverb auf, sondern wird auch als Fokus- bzw. Gradpartikel sowie Gesprächspartikel verwendet. Bisherige Beschreibungen haben sich nur in geringem Maße und unter Verwendung heterogener Begriffe mit seinem interaktionalen Gebrauch auseinandergesetzt. In diesem Beitrag werden mit Hilfe eines sequenziellen und multimodalen Ansatzes verschiedene interaktionale Verwendungen von genau in Videoaufnahmen deutscher Alltagsgespräche untersucht. Ausgehend von seiner Funktion als Gradpartikel wird genau sowohl als redebeitragsinterne Bestätigungspartikel in Wortfindungsprozessen als auch als responsive Bestätigungspartikel eingesetzt. Da genau häufig das Ende eines Verstehensprozesses bzw. einer Wissensverhandlung markiert, könnte allgemeiner die Bezeichnung des Intersubjektivitätsmarkers in Erwägung gezogen werden. Aus dem responsiven, bestätigenden Gebrauch heraus entsteht eine stärker sequenzschließende und sequenzstrukturierende Funktion von genau, woraus sich auch der zunehmende Gebrauch dieses Lexems als rein diskursstrukturierende Partikel innerhalb eines Redezugs erklären könnte.
Für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften stellt CLARIN eine Forschungsinfrastruktur bereit, die auf die hochgradig heterogenen Forschungsdaten in diesen Wissenschaftsbereichen angepasst ist. Mit Werkzeugen zum Auffinden, zur standardkonformen Aufbereitung und zur nachhaltigen Aufbewahrung von Daten sowie mit der Bereitstellung von virtuellen Forschungsumgebungen zur kollaborativen Erstellung und Auswertung von Forschungsdaten unterstützt CLARIN alle wesentlichen Aspekte des Datenmanagements und der Datenarchivierung. Diese CLARIN-Angebote werden durch Beratungs- und Schulungsmaßnahmen begleitet.
Die Idee hinter dem Projekt – einen schnellen und einfachen Einstieg in die Analyse großer Korpusdaten mittels CorpusExplorer geben. Diese frei verfügbare Software bietet aktuell über 45 Analysen/Visualisierungen für vielfältige korpuslinguistische Zwecke und ist durch ihre Nutzerfreundlichkeit auch für den Einsatz in der universitären Lehre geeignet. Als Beispiel dient das EuroParl-Korpus, man kann aber auch eigenes Textmaterial (z. B. Textdateien, eBooks, Xml, Twitter, Blogs, etc.) mit dem CorpusExplorer annotieren, analysieren und visualisieren. Die Videos zeigen Schritt-für-Schritt die einzelnen Funktionen.
Überspannt werden die Videos von einer kleinen zweistufigen Aufgabe: Zuerst sollten ein paar Fragen/Thesen/Annahmen überlegt werden, die sich mit den Plenarprotokollen des EuroParl auswerten lassen – einige Videos geben auch explizite Anregungen oder man nutzt die Inspiration der anderen Beiträge im Issue #3. Die einfachsten Fragen/Thesen lassen sich bereits mit den hier vorgestellten Videos beantworten. Sobald es komplexer wird, betritt man den zweiten – reflexiven Teil der überspannenden Aufgabe: Es ist zu überlegen, wie durch (mehrfache) Kombination der einzelnen Video-/Wissensbausteine das Ziel erreicht werden kann (ein Beispiel – siehe Script). Im Zweifelsfall stehen außerdem ein Handbuch und ein E-Mail Support zur Verfügung.
Die kontinental-westgermanischen Sprachen und Dialekte zeichnen sich durch das Vorkommen von mehrteiligen Verbformen in einem satzfinalen Verbalkomplex (im Folgenden VK) aus. Charakteristisch für diesen VK ist sein hohes Maß an Stellungsvariation, wie sie sich bei drei oder mehr Verben bereits innerhalb des Standarddeutschen zeigt (vgl. Duden 2005, 481-482, § 684). Im vorliegenden Beitrag werden Aspekte des VKs im Ostpommerschen untersucht, jenem ostniederdeutschen Dialekt, der bis 1945 östlich der Oder im heutigen Polen gesprochen wurde. Dies geschieht anhand spontansprachlicher Aufnahmen aus der Mitte des 20. Jahrhunderts; der Beitrag ist also als eine sprachhistorische Untersuchung zu verstehen.
While good results have been achieved for named entity recognition (NER) in supervised settings, it remains a problem that for low resource languages and less studied domains little or no labelled data is available. As NER is a crucial preprocessing step for many natural language processing tasks, finding a way to overcome this deficit in data remains of great interest. We propose a distant supervision approach to NER that is both language and domain independent where we automatically generate labelled training data using gazetteers that we previously extracted from Wikipedia. We test our approach on English, German and Estonian data sets and contribute further by introducing several successful methods to reduce the noise in the generated training data. The tested models beat baseline systems and our results show that distant supervision can be a promising approach for NER when no labelled data is available. For the English model we also show that the distant supervision model is better at generalizing within the same domain of news texts by comparing it against a supervised model on a different test set.