Refine
Year of publication
- 2018 (64) (remove)
Document Type
- Part of a Book (35)
- Article (9)
- Book (6)
- Conference Proceeding (6)
- Other (5)
- Working Paper (2)
- Review (1)
Language
- German (37)
- English (22)
- French (3)
- Multiple languages (2)
Keywords
- Korpus <Linguistik> (64) (remove)
Publicationstate
- Veröffentlichungsversion (40)
- Zweitveröffentlichung (18)
- Postprint (2)
Reviewstate
- (Verlags)-Lektorat (29)
- Peer-Review (29)
Publisher
- de Gruyter (18)
- Heidelberg University Publishing (6)
- Institut für Deutsche Sprache (5)
- European language resources association (ELRA) (4)
- Znanstvena založba Filozofske fakultete Univerze v Ljubljani / Ljubljana University Press, Faculty of Arts (3)
- Lang (2)
- Narr Francke Attempto (2)
- Peter Lang (2)
- University of Antwerp (2)
- Armand Colin (1)
Projektvorstellung – Redewiedergabe. Eine literatur- und sprachwissenschaftliche Korpusanalyse
(2018)
Das laufende DFG-Projekt „Redewiedergabe“ stellt einen Anwendungsfall quantitativer Sprach-und Literaturwissenschaft dar und beschäftigt sich mit dem Phänomen „Redewiedergabe“ auf der Grundlage großer Datenmengen. Zu diesem Zweck wird zum einen ein Korpus manuell mit Redewiedergabeformen annotiert, zum anderen werden Verfahren zur automatischen Erkennung des Phänomens entwickelt. Ziel ist es, Forschungsfragen nach der Entwicklung von Redewiedergabe vor allem im 19. Jahrhundert zu beantworten.
The NottDeuYTSch corpus contains over 33 million words taken from approximately 3 million YouTube comments from videos published between 2008 to 2018 targeted at a young, German-speaking demographic and represents an authentic language snapshot of young German speakers. The corpus was proportionally sampled based on video category and year from a database of 112 popular German-speaking YouTube channels in the DACH region for optimal representativeness and balance and contains a considerable amount of associated metadata for each comment that enable further longitudinal cross-sectional analyses.
Cette contribution propose une analyse qualitative et quantitative des reformulations sur des données interactionnelles. Pour la constitution du corpus d’étude, nous nous appuyons sur un outil de détection automatique des hétéro-répétitions, considérées comme indices de reformulation. Après avoir illustré les éléments qui ont présidé à la conception de l’outil, nous présentons le paramétrage de cette ressource, que nous avons testée sur quatre enregistrements de la base de données CLAPI. Cette étude souligne la pertinence de l’approche interactionnelle dans l’analyse des hétéro-répétitions, en en montrant les fonctionnalités multiples, notamment dans les pratiques de reformulation dans la conversation.
CorpusExplorer
(2018)
Software for corpus linguists and text/data mining enthusiasts. The CorpusExplorer combines over 45 interactive visualizations under a user-friendly interface. Routine tasks such as text acquisition, cleaning or tagging are completely automated. The simple interface supports the use in university teaching and leads users/students to fast and substantial results. The CorpusExplorer is open for many standards (XML, CSV, JSON, R, etc.) and also offers its own software development kit (SDK).
Der CorpusExplorer v2.0 ist eine frei verfügbare Software zur korpushermeneutischen Analyse und bietet über 45 unterschiedliche Analysen/Visualisierungen für eigenes Korpusmaterial an. Dieser Praxisbericht gibt Einblicke, zeigt Fallstricke auf und bietet Lösungen an, um die tägliche Visualisierungsarbeit zu erleichtern. Zunächst wird ein kurzer Einblick in die Ideen gegeben, die zur Entwicklung des CorpusExplorers führten, einer korpuslinguistischen Software, die nicht nur vielfältige Forschungsansätze unterstützt, sondern auch mit einem Fokus auf die universitäre Lehre entwickelt wird. Der Mittelteil behandelt einen der vielen Fallstricke, die im Entwicklungsprozess auftraten: Effizienz-/Anpassungsprobleme – bzw.: Was passiert, wenn Visualisierungen an neue Begebenheiten angepasst werden müssen? Da diese Lösung Teil des CorpusExplorers v2.0 ist, wird abschließend darauf eingegangen, wie unterschiedliche Visualisierungen zu denselben Datensätzen sich auf die Rezeption/Interpretation von Daten auswirken.
Lexical explorer
(2018)
Das Tool Lexical Explorer ermöglicht, die Korpus-Frequenzangaben vom FOLK (Forschung und Lehrkorpus Gesprochenes Deutsch; Schmidt 2014) und GeWiss (Gesprochene Wissenschaftssprache; Fandrych, Meißner & Wallner 2017) zu durchsuchen und abzufragen. Das Tool besteht aus Tabellen, die für die Zwecke des Projekts LeGeDe entwickelt wurden (Möhrs et al. 2017). Die Zahlen beruhen auf dem DGD-Release 2.10 (23.05.2018). Für den Vergleich zwischen Korpora der gesprochenen Sprache und DeReKo wird die DeReKo Version 2016-II (30.09.2016) ohne Subkorpora Wikipedia-Daten (Artikel, Diskussionen) und ohne Sprachliche Umbrüche (45/68) verwendet (vgl. Kupietz & Keibel 2009). Die Tabellen werden mit Hilfe von DataTables (plug-in for jQuery) präsentiert, wobei die Ajax Protokolle benutzt werden, um die Tabellen asynchron aus der Datenbank zu ziehen. Die Benutzung des Tools setzt die Vertrautheit mit der Annotation der Korpora in der DGD voraus.
The General Data Protection Regulation (hereinafter: GDPR), EU Regulation 2016/679 of 27 April 2016, will become applicable on 25 May 2018 and repeal the Personal Data Directive of 24 October 1995.
Unlike a directive, which requires transposition into national laws (while leaving the choice of “forms and methods” to the Member States), a regulation is binding and directly applicable in all Member States. This means that when the GDPR becomes applicable, all the EU countries will have the same rules regarding the protection of personal data — at least in principle, since some details (including in the area of research — see below) are expressly left to the discretion of the Member States.
The GDPR is a particularly ambitious piece of legislation (consisting of 99 articles and 173 recitals) whose intended territorial scope extends beyond the borders of the European Union. Its main concepts and principles are essentially similar to those of the Personal Data Directive, but enriched with interpretation developed through the case law of the CJEU and the opinions of the Article 29 Data Protection Working Party (hereinafter: WP29).
This White Paper will discuss the main principles of data protection and their impact on language resources, as well as special rules regarding research under the GDPR and the standardisation mechanisms recognized by the Regulation.
Das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), zugänglich über die Datenbank für Gesprochenes Deutsch (DGD), strebt den Status eines Referenzkorpus für den aktuellen mündlichen Sprachgebrauch im deutschen Sprachraum an. Es enthält einen wachsenden Bestand von Audio- und Videoaufnahmen authentischer Gespräche aus verschiedenen Bereichen des gesellschaftlichen Lebens. Die Dokumentation und Repräsentation von Interaktions- und Sprecherinformationen sind bereits seit den Anfängen des Korpusaufbaus integrale Bestandteile von FOLK. Allerdings lag bislang kein ausgearbeitetes, empirisch erprobtes und vollständig in die Korpusinfrastruktur integrierbares Stratifikationskonzept vor. Mit dem vorliegenden Artikel wird ein solches Konzept vorgeschlagen. Es knüpft an frühere Konzeptionen an und wurde anhand der vorhandenen Daten überprüft, korrigiert und erweitert. Dieser Prozess verlief parallel zur Überarbeitung des XML-Schemas zur Metadatendokumentation, um die konkrete Implementierung vorzubereiten. Im Anschluss an eine Skizzierung genereller Aspekte des Korpusdesigns werden die stratifikationsleitenden und ergänzenden Parameter vorgestellt und erläutert. Abschließend werden Ansätze und Strategien zum Korpusausbau diskutiert.
This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of such relations in chat, wiki talk, and blog corpora. We distinguish technical reply structures, indentation structures, and interpretative reply relations, which include reply relations induced by linguistic markers. We sort out the different levels of description and annotation that are involved and propose a solution for their combined representation within the TEI annotation framework.
DaF-Lernende sollen – laut z. B. dem „Gemeinsamen europäischen Referenzrahmen für Sprachen“ – auf C1 Niveau über lexikalische Kompetenzen in der Interaktion verfügen und aus einem Repertoire von Diskursmitteln eine geeignete Wendung für konkrete Kommunikationsbedürfnisse auswählen können. Wir betrachten diese Annahme im vorliegenden Beitrag als Ausgangspunkt und stellen darauf aufbauend die Frage, welche Diskursmittel und lexikalischen Einheiten typisch für die mündliche Interaktion sind und daher auch spezifische Beachtung im DaF-/DaZ-Unterricht finden sollten. Zu hinter-fragen ist, wie die Anforderungen an DaF-Lernende zu lexikalischen Besonderheiten im Mündlichen in Richtlinien wie dem GeR oder „Profile Deutsch“ formuliert werden und wie diese Anforderungen in Lehr- und Nachschlagewerken für diese Zielgruppe aufgegriffen werden. Unsere Untersuchungen zeigen, dass die Möglichkeiten noch ausbaufähig sind, was aus unserer Sicht zum Beispiel über eine verstärkte Nutzung der inzwischen vorhandenen Korpora zum gesprochenen Deutsch denkbar sein kann. In diesem Zusammenhang wird auch eine direkte Verbindung zu dem Forschungsprojekt LeGeDe (IDS Mannheim) hergestellt, das u. a. die Konzipierung einer innovativen korpusbasierten Ressource zur Lexik des gesprochenen Deutsch in der Interaktion als Prototyp anvisiert und damit einen Ausschnitt aus einem Repertoire an standardnahen lexikalischen Elementen und Diskursmitteln zusammen mit lexikalisch und interaktions-linguistisch relevanten Informationen in multimedialer Form anbieten möchte. Dieses Vorhaben kommt, laut der Ergebnisse entsprechender Befragungen, u. a. auch den Erwartungen der Probanden aus der Lernerperspektive entgegen und findet daher sowohl für die Forschung als auch für die Lehre entsprechende Anwendungsmöglichkeiten.
This presentation introduces a new collaborative project: the International Comparable Corpus (ICC) (https://korpus.cz/icc), to be compiled from European national, standard(ised) languages, using the protocols for text categories and their quantities of texts in the International Corpus of English (ICE).
Quantitativ ausgerichtete empirische Linguistik hat in der Regel das Ziel, grose Mengen sprachlichen Materials auf einmal in den Blick zu nehmen und durch geeignete Analysemethoden sowohl neue Phanomene zu entdecken als auch bekannte Phanomene systematischer zu erforschen. Das Ziel unseres Beitrags ist es, anhand zweier exemplarischer Forschungsfragen methodisch zu reflektieren, wo der quantitativ-empirische Ansatz fur die Analyse lexikalischer Daten wirklich so funktioniert wie erhofft und wo vielleicht sogar systembedingte Grenzen liegen. Wir greifen zu diesem Zweck zwei sehr unterschiedliche Forschungsfragen heraus: zum einen die zeitnahe Analyse von produktiven Wortschatzwandelprozessen und zum anderen die Ausgleichsbeziehung von Wortstellungsvs. Wortstrukturregularitat in den Sprachen der Welt. Diese beiden Forschungsfragen liegen auf sehr unterschiedlichen Abstraktionsebenen. Wir hoffen aber, dass wir mit ihnen in groser Bandbreite zeigen konnen, auf welchen Ebenen die quantitative Analyse lexikalischer Daten stattfinden kann. Daruber hinaus mochten wir anhand dieser sehr unterschiedlichen Analysen die Moglichkeiten und Grenzen des quantitativen Ansatzes reflektieren und damit die Interpretationskraft der Verfahren verdeutlichen.
New exceptions for Text and Data Mining and their possible impact on the CLARIN infrastructure
(2018)
The proposed paper discusses new exceptions for Text and Data Mining that have recently been adopted in some EU Member States, and probably will soon be adopted also at the EU level. These exceptions are of great significance for language scientists, as they exempt those who compile corpora from the obligation to obtain authorisation from rightholders. However, corpora compiled on the basis of such exceptions cannot be freely shared, which in a long run may have serious consequences for Open Science and the functioning of research infrastructure such as CLARIN ERIC.