@incollection{KupietzSchmidt2015, author = {Marc Kupietz and Thomas Schmidt}, title = {Schriftliche und m{\"u}ndliche Korpora am IDS als Grundlage f{\"u}r die empirische Forschung}, series = {Sprachwissenschaft im Fokus. Positionsbestimmungen und Perspektiven}, editor = {Ludwig M. Eichinger}, publisher = {De Gruyter}, address = {Berlin [u.a.]}, isbn = {978-3-11-035881-0}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-34824}, pages = {297 -- 322}, year = {2015}, abstract = {Die Programmbereiche „Korpuslinguistik“ und „M{\"u}ndliche Korpora“ haben am IDS die Aufgabe, Grundlagen f{\"u}r die empirische Erforschung der deutschen Sprache zu legen. Unter anderem sammeln und erstellen sie schriftliche und m{\"u}ndliche Korpora, bereiten sie f{\"u}r eine wissenschaftliche Nutzung auf und stellen sie {\"u}ber Web-Oberfl{\"a}chen (COSMAS, DGD2 demn{\"a}chst KorAP) zur Verf{\"u}gung. Unser Beitrag gibt zun{\"a}chst einen {\"U}berblick {\"u}ber Entstehungsgeschichte und aktuellen Stand dieser Arbeiten. Mit einem Blick in die Zukunft widmen wir uns auch der Frage, ob und in welcher Weise das Schlagwort ,Big Data‘ f{\"u}r diese Arten linguistischer Ressourcen relevant ist. In Bezug auf die schriftlichen Korpora wird dabei insbesondere {\"u}ber die diesj{\"a}hrige DEREKo-Erweiterung um {\"u}ber 17 Milliarden W{\"o}rter und die damit verbundenen Arbeiten berichtet. In diesem Zusammenhang werden u.a. DeReKos Design, die zugrundeliegende Akquisitionsstrategie und {\"U}berlegungen zu Dispersion und Stratifizierbarkeit diskutiert. Die spezifischen Herausforderungen, die sich beim Aufbau eines gro{\"s}en Gespr{\"a}chskorpus stellen, werden am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) diskutiert. Dabei steht au{\"s}er Frage, dass angesichts des Aufwandes, den Feldzugang sowie Erschlie{\"s}ung der im Feld gewonnenen Audio- und Videodaten bedeuten, vergleichbare Datenmengen und Wachstumsraten wie bei Textkorpora nicht zu erreichen sind. F{\"u}r den Aufbau umfangreicher m{\"u}ndlicher Korpora ist daher die Entwicklung eines eigenen Methodeninstrumentariums notwendig.}, language = {de} }