Refine
Year of publication
- 2008 (10) (remove)
Document Type
- Part of a Book (6)
- Conference Proceeding (2)
- Article (1)
- Master's Thesis (1)
Has Fulltext
- yes (10)
Is part of the Bibliography
- no (10)
Keywords
- Gesprochene Sprache (10) (remove)
Publicationstate
Reviewstate
Publisher
In this paper we investigate the coverage of the two knowledge sources WordNet and Wikipedia for the task of bridging resolution. We report on an annotation experiment which yielded pairs of bridging anaphors and their antecedents in spoken multi-party dialog. Manual inspection of the two knowledge sources showed that, with some interesting exceptions, Wikipedia is superior to WordNet when it comes to the coverage of information necessary to resolve the bridging anaphors in our data set. We further describe a simple procedure for the automatic extraction of the required knowledge from Wikipedia by means of an API, and discuss some of the implications of the procedure’s performance.
Mehrsprachigkeit in linguistischen Daten. Theoretische und praktische Aspekte ihrer Erfassung
(2008)
Sprache und Gehirn
(2008)
Sprachverstehen ist ein hochkomplexer Prozess bei dem eine Reihe von Subprozessen aufgerufen und zeitlich koordiniert werden müssen. Linguistische Theorien und psycholinguistische Modelle postulieren unterschiedliche Prozessdomänen für die Verarbeitung von gesprochener Sprache: Semantik, Syntax und Phonologie und innerhalb dieser, die Prosodie. Neurophysiologische Studien, die auf den zeitlichen Verlauf dieser Prozesse im Gehirn fokussieren, zeigen, dass syntaktische Information früh und unabhängig von semantischer Information verarbeitet wird. Bildgebende Verfahren belegen, dass diese verschiedenen Prozessdomänen von unterschiedlichen neuronalen Netzwerken in der linken Hirnhälfte unterstützt werden. Für die syntaktische Verarbeitung können dabei zwei Subnetzwerke differenziert werden. Ein Netzwerk, bestehend aus dem frontalen Operculum und dem anterioren Anteil des oberen Temporalgyrus, zeichnet verantwortlich für die Verarbeitung der lokalen Phrasenstruktur. Ein zweites Netzwerk, bestehend aus dem Broca-Areal und dem hinteren Anteil des oberen Temporalgyrus, ist verantwortlich für die Verarbeitung hierarchischer Strukturen. Die rechte Hirnhälfte ist vornehmlich für die Verarbeitung prosodischer Information auf Satzebene zuständig. Die schnelle Kommunikation zwischen beiden Hirnhälften ist Voraussetzung für eine enge Koppelung von syntaktischer und prosodischer Verarbeitung auf dem Weg zum Sprachverstehen. Diese wird durch eine Hirnstruktur gesichert, die die beiden Hemisphären miteinander verbindet. Als Beleg hierfür gilt der Befund, dass Patienten mit Schädigung dieser Hirnstruktur keine normale Interaktion zwischen grammatischer und prosodischer Information zeigen.
The metadata management system for speech corpora “memasysco” has been developed at the Institut für Deutsche Sprache (IDS) and is applied for the first time to document the speech corpus “German Today”. memasysco is based on a data model for the documentation of speech corpora and contains two generic XML schemas that drive data capture, XML native database storage, dynamic publishing, and information retrieval. The development of memasysco’s information architecture was mainly based on the ISLE MetaData Initiative (IMDI) guidelines for publishing metadata of linguistic resources. However, since we also have to support the corpus management process in research projects at the IDS, we need a finer atomic granularity for some documentation components as well as more restrictive categories to ensure data integrity. The XML metadata of different speech corpus projects are centrally validated and natively stored in an Oracle XML database. The extension of the system to the management of annotations of audio and video signals (e.g. orthographic and phonetic transcriptions) is planned for the near future.
In literalen Gesellschaften umfasst das Sprachvermögen sowohl das Sprechen wie auch das Schreiben. Dies gilt für die Muttersprache ebenso wie für Fremdsprachen. Sprechen und Schreiben sind dabei recht unterschiedliche Tätigkeiten, so dass zu erwarten wäre, dass sie im Fremdsprachen- wie auch im DaF-Unterricht zu gleichen Anteilen berücksichtigt werden. Die Unterrichtspraxis zeigt jedoch, dass die Schriftsprache dominant vertreten ist und die gesprochene Sprache ein Schattendasein führt. In diesem Beitrag benenne ich fünf Gründe, warum die gesprochene Sprache in dieser Weise im Hintergrund steht und ein sperriger, schwer zu handhabender Gegenstand ist (Abschnitt 2). Im Anschluss versuche ich zu verdeutlichen, wie weitreichend die Unterschiede zwischen gesprochener und geschriebener Sprache sind (Abschnitt 3). Abschließend formuliere ich einige Konsequenzen, die sich hieraus für den Fremdsprachen- und DaF-Unterricht ergeben, und plädiere dafür, sich die Schwierigkeiten, die mit einer Berücksichtigung der gesprochenen Sprache verbunden sind, bewusst zu machen und sich ihnen zu stellen, denn gesprochene Sprache ist m.E.ein unverzichtbarer Bestandteil des fremdsprachlichen Unterrichts.
The research project “German Today” aims to determine the amount of regional variation in (near-)standard German spoken by young and older educated adults and to identify and locate regional features. To this end, we compile an areally extensive corpus of read and spontaneous German speech. Secondary school students and 50-to-60-year-old locals are recorded in 160 cities throughout the German speaking area of Europe. All participants read a number of short texts and a word list, name pictures, translate words and sentences from English, answer questions in a sociobiographic interview, and take part in a map task experiment. The resulting corpus comprises over 1000 hours of speech, which is transcribed orthographically. Automatically derived broad phonetic transcriptions, selective manual narrow phonetic transcriptions, and variationalist annotations are added. Focussing on phonetic variation we aim to show to what extent national or regional standards exist in spoken German. Furthermore, the linguistic variation due to different contextual styles (read vs. spontaneous speech) shall be analysed. Finally, the corpus enables us to investigate whether linguistic change has occurred in spoken (near-)standard German.
Data and transcription
(2008)
Rescuing Legacy Data
(2008)
This paper discusses issues that arise in the transformation of electronic language data from outdated to modern, sustainable formats. We first describe the problem and then present four different cases in which corpora of spoken language were converted from legacy formats to an XML-based representation. For each of the four cases, we describe the conversion workflow and discuss the difficulties that we had to overcome. Based on this experience, we formulate some more general observations about transforming legacy data and conclude with a set of best practice recommendations for a more sustainable handling of language corpora.