@article{SchmidtWoernerHedelandetal.2013, author = {Thomas Schmidt and Kai W{\"o}rner and Hanna Hedeland and Timm Lehmberg}, title = {Leitfaden zur Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache}, volume = {2013}, publisher = {Institut f{\"u}r Deutsche Sprache}, address = {Mannheim}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-13314}, pages = {1 -- 22}, year = {2013}, abstract = {Korpora gesprochener Sprache werden mindestens seit den 1950er Jahren von Sprachwissenschaftlern und Forschern anderer Disziplinen mit verschiedensten Forschungsinteressen aufgebaut. Die technischen M{\"o}glichkeiten f{\"u}r die Erhebung und Bereitstellung solcher Daten haben sich seitdem fortw{\"a}hrend und grundlegend gewandelt. Heute kann es als Normalfall angesehen werden, dass ein Korpus gesprochener Sprache digital erhoben wird. Die wissenschaftliche Community ist au{\"s}erdem auf dem Wege, sich auf gewisse Mindeststandards zu einigen, die bei der Erhebung bez{\"u}glich Dokumentation, Strukturierung und Enkodierung der Daten eingehalten werden sollten, um eine m{\"o}glichst nachhaltige Nutzung der Korpora zu erm{\"o}glichen. Verschiedene Datenzentren schlie{\"s}lich haben sich zum Ziel gesetzt, Korpora gesprochener Sprache zu einer eben solchen Nachnutzung dauerhaft zu archivieren und in digitalen Infrastrukturen bereitzustellen. Eine der wichtigsten Aufgaben solcher Zentren ist es, Korpora aus abgeschlossenen Projekten zu {\"u}bernehmen und sie so aufzubereiten, dass eine dauerhafte Archivierung und Bereitstellung {\"u}berhaupt m{\"o}glich wird. Dieser Leitfaden basiert auf Erfahrungen, die hinsichtlich dieser Aufgabe an zwei Standorten – dem Sonderforschungsbereich 538 ‚Mehrsprachigkeit’ bzw. dem Zentrum f{\"u}r Sprachkorpora (HZSK) an der Universit{\"a}t Hamburg, sowie dem Archiv f{\"u}r gesprochenes Deutsch (AGD) am Institut f{\"u}r Deutsche Sprache in Mannheim – gesammelt wurden.1 Am SFB 538 (Laufzeit: 1999-2011) hatte das Projekt Z2 „Computergest{\"u}tzte Erfassungs- und Analysemethoden“ die Aufgabe {\"u}bernommen, Korpora aus den Teilprojekten des SFB nach deren Abschluss f{\"u}r eine Archivierung und Nachnutzung vorzubereiten (siehe dazu Schmidt/Benn{\"o}hr 2007). Die Archivierung und Bereitstellung der Daten im Gesamtumfang von 30 Korpora erfolgt nun im zum Abschluss des SFB (2011) gegr{\"u}ndeten HZSK (Hedeland/Lehmber /Schmidt/W{\"o}rner 2011). Das Archiv f{\"u}r Gesprochenes Deutsch bzw. dessen Vorl{\"a}ufer, das Deutsche Spracharchiv (Stift/Schmidt 2014), fungiert bereits seit den 1960er Jahren als eine zentrale Sammelstelle f{\"u}r Korpora des gesprochenen Deutsch. Im Laufe der Jahre hat es aus IDS-internen und -externen Projekten knapp 50 Korpora {\"u}bernommen, die verschiedene Stadien der Aufbereitung erfahren haben und der wissenschaftlichen Gemeinschaft nun u.a. {\"u}ber die Datenbank f{\"u}r Gesprochenes Deutsch (DGD2, Schmidt/Dickgie{\"s}er/Gasch 2013) zur Verf{\"u}gung gestellt werden. Das derzeitige Angebot dieser beiden Einrichtungen zeigt, dass es prinzipiell m{\"o}glich ist, von den im einleitenden Zitat beschriebenen Sammlungen zu dauerhaft nachnutzbaren digitalen 1 Die Konzeption dieses Leitfadens war Gegenstand eines Arbeitspakets im Projekt „Etablierung eines Schwerpunkts ‚Mehrsprachigkeit und Gesprochene Sprache‘ am Hamburger Zentrum f{\"u}r Sprachkorpora“, das von der Deutschen Forschungsgemeinschaft im Rahmen des F{\"o}rderprogramms „Literaturversorgungs- und Informationssysteme (LIS)“ gef{\"o}rdert wurde. An der Umsetzung haben sich die genannten MitarbeiterInnen des HZSK und des AGD beteiligt.4 Ressourcen zu gelangen. Die Erfahrung zeigt aber auch, dass dies oft ein langwieriger Prozess mit vielen unvorhergesehenen Hindernissen ist, an dessen Ende man sich zumindest gelegentlich die Frage stellen kann, ob Aufwand und Nutzen der Datenaufbereitung in einem angemessenen Verh{\"a}ltnis zueinander stehen. Zweck dieses Leitfadens ist es, Kriterien f{\"u}r die Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache zu definieren, mittels derer bereits bei der Planung eines entsprechenden Projektes eine Absch{\"a}tzung der Kosten und Nutzen getroffen werden kann. Kosten bezeichnen in diesem Kontext insbesondere den zeitlichen Arbeitsaufwand, der sich nicht immer leicht in monet{\"a}re Kosten umrechnen l{\"a}sst. Die Nachnutzbarkeit definiert sich vor allem dar{\"u}ber, wie offen oder restriktiv der Zugang zum Korpus gestaltet wird und {\"u}ber die Quantit{\"a}t und Qualit{\"a}t der Korpusbestandteile. Der Leitfaden gliedert sich in sechs Abschnitte, die in Form von strukturierten Frageb{\"a}umen die wichtigsten Eigenschaften einer aufzubereitenden Ressource abfragen. Den Frageb{\"a}umen sind Erl{\"a}uterungen zum besseren Verst{\"a}ndnis der einzelnen Fragen vorangestellt. Die Pfade in den Frageb{\"a}umen f{\"u}hren jeweils zu einem \"Ampelsymbol\", anhand dessen {\"u}ber das weitere Vorgehen bei der Aufbereitung entschieden werden kann.}, language = {de} }