410 Linguistik
Refine
Year of publication
- 2014 (10) (remove)
Document Type
- Part of a Book (3)
- Conference Proceeding (3)
- Article (2)
- Preprint (1)
- Working Paper (1)
Has Fulltext
- yes (10)
Keywords
- Konversationsanalyse (3)
- Korpus <Linguistik> (2)
- Annotation (1)
- Arzt (1)
- Automatic recognition of speech (1)
- Automatische Sprachanalyse (1)
- Computerlinguistik (1)
- Conversational analysis (1)
- Creative Commons (1)
- Data Mining (1)
Publicationstate
- Postprint (1)
- Veröffentlichungsversion (1)
Reviewstate
- Peer-Review (2)
Publisher
This contribution presents an XML Schema for annotating a high level narratological category: speech, thought and writing representation (ST&WR). It focusses on two aspects: Firstly, the original Schema is presented as an example for the challenge to encode a narrative feature in a structured and flexible way and secondly, ways of adapting this Schema to TEI are considered, in Order to make it usable for other, TEI-based projects.
As a result of legal restrictions the Google Ngram Corpora datasets are a) not accompanied by any metadata regarding the texts the corpora consist of and the data are b) truncated to prevent an indirect conclusion from the n-gram to the author of the text. Some of the consequences of this strategy are discussed in this article.
Eine Umschau in jüngeren sprachwissenschaftlichen Arbeiten zeigt einen häufig betonten engen Zusammenhang von Sprache und Identität, vor allem den der eigenen Sprache und der ethnischen Identität. Dass aber Sprache in einem zwei- oder mehrsprachigen Kontext nur eine Ressource einer Identitätskonstruktion sein kann, wird selten herausgestellt. Der nachstehende Aufsatz untersucht als charakteristisches Beispiel einer gelösten Bindung von Sprache und ethnischer Identität die Minderheit der deutschen Aussiedler aus der ehemaligen Sowjetunion. Im Vordergrund steht dabei die zweite Generation, bei der ihr Zugehörigkeitsgefühl zur ethnischen Identität als Deutsche trotz der erfolgten Sprachumstellung sich nicht oder selten verändert hat.
Data Mining with Shallow vs. Linguistic Features to Study Diversification of Scientific Registers
(2014)
We present a methodology to analyze the linguistic evolution of scientific registers with data mining techniques, comparing the insights gained from shallow vs. linguistic features. The focus is on selected scientific disciplines at the boundaries to computer science (computational linguistics, bioinformatics, digital construction, microelectronics). The data basis is the English Scientific Text Corpus (SCITEX) which covers a time range of roughly thirty years (1970/80s to early 2000s) (Degaetano-Ortlieb et al., 2013; Teich and Fankhauser, 2010). In particular, we investigate the diversification of scientific registers over time. Our theoretical basis is Systemic Functional Linguistics (SFL) and its specific incarnation of register theory (Halliday and Hasan, 1985). In terms of methods, we combine corpus-based methods of feature extraction and data mining techniques.