@book{Stadler2014, author = {Heike Stadler}, title = {Die Erstellung der Basislemmaliste der neuhochdeutschen Standardsprache aus mehrfach linguistisch annotierten Korpora}, editor = {Hardarik Bl{\"u}hdorn and Mechthild Elstermann and Annette Klosa}, publisher = {Institut f{\"u}r Deutsche Sprache}, address = {Mannheim}, issn = {1860-9422}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:mh39-29999}, pages = {45}, year = {2014}, abstract = {Die Basislemmaliste (BLL) der neuhochdeutschen (nhd.) Standardsprache ist eine korpusbasierte, frequenzsortierte Lemmaliste mit mehr als 325.000 Eintr{\"a}gen. Jedes Lemma wird erg{\"a}nzt durch Wortarten- und H{\"a}ufigkeitsangaben. Die im Folgenden vorgestellte Version 1.0 der BLL wurde aus DeReKo, dem Deutschen Referenzkorpus des Instituts f{\"u}r Deutsche Sprache, mit 5 Milliarden Wortformen erstellt. Weitere Sprachressourcen sind linguistische Korpusannotationen, die von linguistischen Annotationswerkzeugen wie Lemmatisierern, Part-of-Speech-Taggern oder Parsern stammen. F{\"u}r die Erstellung der BLL ist das Lemma und das Part-of-Speech-Tag relevant. Die Distanz zwischen lexikografischen Konventionen und maschineller Realit{\"a}t in Form von automatisch vergebenen Lemma-Annotationen erfordert einen Abgleich der aus den Korpusannotationen automatisch generierten Lemmalisten mit der digital verf{\"u}gbaren Lemmastrecke eines W{\"o}rterbuches. Zum einen, um die Vollst{\"a}ndigkeit der Eintr{\"a}ge frequenter W{\"o}rter und das Vorkommen seltener Simplizia in der BLL zu gew{\"a}hrleisten, zum anderen, um die Lemmaform und die Lemmagranularit{\"a}t an die Erwartungen anzupassen, die ein menschlicher Benutzer an ein lexikalisches Verzeichnis der neuhochdeutschen Standardsprache stellt.}, language = {de} }