Computerlinguistik
Refine
Year of publication
Document Type
- Conference Proceeding (302)
- Part of a Book (126)
- Article (87)
- Book (26)
- Working Paper (16)
- Other (15)
- Report (11)
- Contribution to a Periodical (7)
- Doctoral Thesis (7)
- Master's Thesis (4)
Language
- English (422)
- German (186)
- Multiple languages (2)
- French (1)
Keywords
- Computerlinguistik (205)
- Korpus <Linguistik> (166)
- Annotation (78)
- Deutsch (76)
- Automatische Sprachanalyse (69)
- Forschungsdaten (50)
- Natürliche Sprache (49)
- Digital Humanities (42)
- Gesprochene Sprache (40)
- Maschinelles Lernen (33)
Publicationstate
- Veröffentlichungsversion (373)
- Zweitveröffentlichung (108)
- Postprint (55)
- Preprint (2)
- (Verlags)-Lektorat (1)
- Erstveröffentlichung (1)
Reviewstate
Publisher
- Association for Computational Linguistics (40)
- European Language Resources Association (32)
- de Gruyter (30)
- Springer (26)
- European Language Resources Association (ELRA) (23)
- Institut für Deutsche Sprache (21)
- Zenodo (17)
- Linköping University Electronic Press (13)
- The Association for Computational Linguistics (11)
- CLARIN (9)
- Narr (8)
- Universitätsverlag Hildesheim (8)
- German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg (7)
- Gesellschaft für Sprachtechnologie und Computerlinguistik (7)
- European language resources association (ELRA) (6)
- Heidelberg University Publishing (6)
- LiU Electronic Press (6)
- Oxford University Press (6)
- Narr Francke Attempto (5)
- ELRA (4)
- Niemeyer (4)
- Ruhr-Universität Bochum (4)
- Universität zu Köln (4)
- Association for Computing Machinery (3)
- CLARIAH-DE (3)
- Extreme Markup Languages Conference (3)
- GSCL (3)
- Gesellschaft für Informatik e.V. (3)
- IDS-Verlag (3)
- Incoma Ltd. (3)
- Lang (3)
- Leibniz-Institut für Deutsche Sprache (3)
- Leibniz-Institut für Deutsche Sprache (IDS) (3)
- Leibniz-Institut für Deutsche Sprache, CLARIAH-DE (3)
- Libri Books on Demand (3)
- Northern European Association for Language Technology (3)
- University of Oulu (3)
- Universität Hamburg (3)
- Universität Hildesheim (3)
- Universitätsverlag Rhein-Ruhr (3)
- Westdeutscher Verlag (3)
- enigma corporation (3)
- ACL (2)
- ACM (2)
- Asian Federation of Natural Language Processing (2)
- Austrian Academy of Sciences (2)
- BBAW (2)
- Benjamins (2)
- CSLI Publications (2)
- Dagstuhl (2)
- Deutsche Gesellschaft für Sprachwissenschaft (2)
- Dublin City University (2)
- EACL (2)
- Euralex (2)
- Gardez! Verlag (2)
- Gesellschaft für Informatik (2)
- Gesellschaft für Sprachtechnologie and Computerlinguistik (2)
- Gesellschaft für Sprachtechnologie and Computerlinguistik e.V. (2)
- ICCC Press (2)
- INCOMA Ltd. (2)
- Institut für Kommunikationsforschung und Phonetik (2)
- International Computer Science Institute (2)
- John Benjamins Publishing Company (2)
- McGill University & Université de Montréal (2)
- Routledge, Taylor & Francis Group (2)
- Schöningh (2)
- Stauffenburg Verlag (2)
- Steiner (2)
- TEIA Lehrbuch Verlag (2)
- Technische Informationsbibliothek (2)
- Universität Bielefeld (2)
- Universität Hamburg - Sonderforschungsbereich 538 (2)
- Universität Tübingen (2)
- VS Verlag für Sozialwissenschaften (2)
- Österreichische Gesellschaft für Artificial Intelligence (2)
- AAAI Press (1)
- ACTA Press (1)
- AIFB (1)
- Aarhus University, School of Business and Social Sciences (1)
- Acta Press (1)
- Association for Computational (1)
- BDÜ, Weiterbildungs- und Fachverlagsgesellschaft mbh (1)
- Bayerische Akademie der Wissenschaften (1)
- Berkeley Linguistics Society (1)
- Berkeley Linguistics Society, Inc. (1)
- Berlin-Brandenburgische Akademie der Wissenschaften (1)
- Bibliographisches Institut (1)
- Bielefeld University (1)
- Bulgarian Academy of Sciences (1)
- CEUR-WS (1)
- CEUR-WS.org (1)
- CLARIN Legal and Ethical Issues Committee (CLIC) (1)
- CLARIN-D (1)
- Cambridge University Press (1)
- Charles University (1)
- Clarin (1)
- Cornell University (1)
- DFKI GmbH (1)
- DGPF e.V. (1)
- De Gruyter (1)
- De Gruyter Mouton (1)
- De Gruyter Oldenbourg (1)
- Deutscher Universitätsverlag (1)
- E-MELD (1)
- EDUCatt (1)
- ELDA (1)
- EPFL/UNIL (1)
- Edinburgh University Press (1)
- Editorial Universitat Politècnica de València (1)
- Ediçoes Colibri (1)
- Erich Schmidt (1)
- Ernst Klett Verlag (1)
- Europ. Akad. (1)
- FOSSGIS e.V. (1)
- Foi-Commerce (1)
- Frontiers Media S.A. (1)
- Fundacja Uniwersytetu im. Adama Mickiewicza (1)
- GOEDOC, Dokumenten- und Publikationsserver der Georg-August-Universität (1)
- Gardez!-Verl. (1)
- Gesellschaft für Linguistische Datenverarbeitung (1)
- Graphen & Netzwerke; AG des Verbandes Digital Humanities im deutschsprachigen Raum e.V. (1)
- Halem (1)
- Hamburg (1)
- Hessische Historische Kommission Darmstadt (1)
- ICOMANIA Ltd. (1)
- IEEE (1)
- IKS e.V. (1)
- IOS Press (1)
- Institut Universitari de Linguistica Aplicada, Universitat Pompeu Fabra: (1)
- Institut für Informationswissenschaft und Sprachtechnologie, Universität Hildesheim (1)
- Institut für Kommunikationswissenschaften der Universität Bonn (1)
- Institute of Cybernetics, Institute of the Estonian Language (1)
- International Committee on Computational Linguistics (1)
- Klostermann (1)
- Kluwer (1)
- L'Harmattan (1)
- LINDAT/CLARIAH-CZ digital library (1)
- LIRMM (1)
- Lambert-Lucas (1)
- Lexical Computing CZ s.r.o. (1)
- Linköping University Electronic Press, Linköpings universitet (1)
- MIT (1)
- MIT Press (1)
- Medieval Nordic Text Archive (Menota) (1)
- Mentis-Verlag (1)
- Metzler (1)
- Nyelvtudományi Kutatóközpont / Hungarian Research Centre for Linguistics (1)
- OBST (1)
- OSF Preprints, Center for Open Science (1)
- Office for Humanities Communication; Centre for Computing in the Humanities (King’s College London (1)
- Open University of the Netherlands (1)
- Polish Information Processing Society (1)
- Press Universitaires Savoie Mont Blanc (1)
- Regensburg (1)
- Sage (1)
- Schmidt (1)
- SciTePress (1)
- Sociedad Española para el procesamiento del Lenguaje Natural (1)
- Springer International Publishing (1)
- Springer Vieweg (1)
- Stanford University Library (1)
- Stauffenburg (1)
- Stroudsburg (1)
- The Association for Computational Linguistics and The Asian Federation of Natural Processing (1)
- Tsinghua University Press (1)
- Univ.-Verl. Rhein-Ruhr (1)
- Universidad de Alicante (1)
- Universidad de Las Palmas de Gran Canaria (1)
- Universidade de Brasília (1)
- University of Birmingham (1)
- University of Gothenburg (1)
- University of Göteborg (1)
- University of Hawaii Press (1)
- University of Pennsylvania - Institute for Research in Cognitive Science (1)
- University of Pittsburgh (1)
- University of Tartu (1)
- University of Tübingen (1)
- University of Victoria (1)
- University of Zurich, Faculty of Arts (1)
- Universität (1)
- Universität Hamburg - Sonderforschungsbereich 538 (1)
- Universität Kassel (1)
- Universität Konstanz (1)
- Universität Leipzig (1)
- Universitäts-Verlag (1)
- Universitätsbibliothek Johann Christian Senckenberg (1)
- Universitätsverlag Rhein-Ruhr OHG (1)
- VS Verlag (1)
- VS, Verlag für Sozialwissenschaften (1)
- Vandenhoeck & Ruprecht GmbH & Co. KG (1)
- Verein der Freunde und Förderer der Zeitschrift "Kritische Ausgabe" e.V. (1)
- Verl.-Haus. Monsenstein und Vannerdat (1)
- Werner Hülsbusch (1)
- Wichmann (1)
- ZDV Universität Tübingen (1)
- b.i.t.verlag GmbH (1)
- düsseldorf university press (1)
- heiBOOKS (1)
A constructicon, i.e., a structured inventory of constructions, essentially aims at documenting functions of lexical and grammatical constructions. Among other parameters, so-called constructional collo-profiles, as introduced by Herbst (2018, 2020), are conclusive for determining constructional meanings. They provide information on how relevant individual words are for construction slots, they hint at usage preferences of constructions and serve as a helpful indicator for semantic peculiarities of constructions. However, even though collo-profiles constitute an indispensable component of constructicon entries, they pose major challengers for constructicographers: For a constructicographic enterprise it is not feasible to conduct collostructional analyses for hundreds or even thousands of constructions. In this article, we introduce a procedure based on the large language model BERT that allows to predict collo-profiles without having to extensively annotate instances of constructions in a given corpus. Specifically, by discussing the constructions X macht Y ADJP (‘x makes Y ADJ’, e.g. he drives him crazy) and N1 PREP N1 (e.g., bumper to bumper, constructions over constructions), we show how the developed automated system generates collo-profiles based on a limited number of annotated instances. Finally, we place collo-profiles alongside other dimensions of constructional meanings included in the German Constructicon.
In a previous study, Aceves and Evans present a large-scale quantitative information-theoretic analysis of parallel corpus data in ~1,000 languages to show that there are apparently strong associations between the way languages encode information into words and patterns of communication, e.g. the configuration of semantic information. During the peer review process, one reviewer raised the question of the extent to which the presented results depend on different corpus sizes (see the Peer Review File). This is a very important question given that most, if not all, of the quantities associated with word frequency distributions vary systematically with corpus size. While Aceves and Evans claim that corpus size does not affect the results presented, I challenge this view by presenting reanalyses of the data that clearly suggest that it does.
This contribution summarizes the lessons learned from the organization of a joint conference on text analytics research by the Business, Economic, and Related Data (BERD@NFDI) and Text+ consortia within the National Research Data Infrastructure (NFDI) in Germany. The collaboration aimed to identify common ground and foster interdisciplinary dialogue between scholars in the humanities and in the business domain. The lessons learned include the importance of presenting research questions using textual data to establish common ground, similarities in methodology for processing textual data between the consortia, similarities in research data management, and the need for regular interconsortial discussions on textual analysis methods and data. The collaboration proved valuable for interdisciplinary dialogue within the NFDI, and further collaboration between the consortia is planned.
"Reproducibility crisis" and "empirical turn" are only two keywords when it comes to providing reasons for research data management. Research data is omnipresent and with the more and more automatic data processing procedures, they become even more important. However, just because new methods require data and produce data, this does not mean that data are easily accessible, reusable or even make a difference in the CV of a researcher, even if a large portion of research goes into data creation, acquisition, preparation, and analysis. In this talk I will present where we find data in the research process, where we may find appropriate support for data management and advocate for a procedure for including it in research publications and resumes.
This presentation relies on work within the BMBF-funded project CLARIN-D. It also builds on work within the German National Research Data Infrastructure (NFDI) consortium Text+, DFG project number 460033370.
KoMuX, der Kompositamuster-Explorer, (www.owid.de/plus/komux) ist eine Webanwendung, die es ermöglicht, mehr als 50.000 nominale Komposita des Deutschen gezielt nach abstrakten oder lexikalisch-teilspezifizierten Mustern zu durchsuchen. Unterschiedliche Visualisierungen helfen dabei, Strukturen und Zusammenhänge innerhalb der Ergebnismenge zu erfassen.
Retro-sequence
(2023)
The Data Governance Act was proposed in late 2020 as part of the European Strategy for Data, and adopted on 30 May 2022 (as Regulation 2022/868). It will enter into application on 24 September 2023. The Data governance Act is a major development in the legal framework affecting CLARIN and the whole language community. With its new rules on the re-use of data held by the public sector bodies and on the provision of data sharing services, and especially its encouragement of data altruism, the Data Governance Act creates new opportunities and new challenges for CLARIN ERIC. This paper analyses the provisions of the Data Governance Act, and aims at initiating the debate on how they will impact CLARIN and the whole language community.
Linguistische Studien arbeiten häufig mit einer Differenzierung zwischen gesprochener und geschriebener Sprache bzw. zwischen Kommunikation der Nähe und Distanz. Die Annahme eines Kontinuums zwischen diesen Polen bietet sich für eine Verortung unterschiedlichster Äußerungsformen an, inklusive unkonventioneller Textsorten wie etwa Popsongs. Wir konzipieren, implementieren und evaluieren ein automatisiertes Verfahren, das mithilfe unkorrelierter Entscheidungsbäume entsprechende Vorhersagen auf Textebene durchführt. Für die Identifizierung der Pole definieren wir einen Merkmalskatalog aus Sprachphänomenen, die als Markierer für Nähe/Mündlichkeit bzw. Distanz/Schriftlichkeit diskutiert werden, und wenden diesen auf prototypische Nähe-/Mündlichkeitstexte sowie prototypische Distanz-/Schrifttexte an. Basierend auf der sehr guten Klassifikationsgüte verorten wir anschließend eine Reihe weiterer Textsorten mithilfe der trainierten Klassifikatoren. Dabei erscheinen Popsongs als „mittige Textsorte“, die linguistisch motivierte Merkmale unterschiedlicher Kontinuumsstufen vereint. Weiterhin weisen wir nach, dass unsere Modelle mündlich kommunizierte, aber vorab oder nachträglich verschriftlichte Äußerungen wie Reden oder Interviews vollkommen anders verorten als prototypische Gesprächsdaten und decken Klassifikationsunterschiede für Social-Media-Varianten auf. Ziel ist dabei nicht eine systematisch-verbindliche Einordung im Kontinuum, sondern eine empirische Annäherung an die Frage, welche maschinell vergleichsweise einfach bestimmbaren Merkmale („shallow features“) nachweisbar Einfluss auf die Verortung haben.
"Das im Januar 2022 gestartete Projekt "Sprachanfragen" (https://www.ids-mannheim.de/gra/projekte2/sprachanfragen/) verfolgt erstmalig das Ziel, Sprachanfragedaten zu erfassen, aufzubereiten und ein wissenschaftsöffentliches Monitorkorpus aus ihnen zu erstellen. Dazukommend wird eine Rechercheschnittstelle entwickelt, mit der die Sprachanfragen systematisch wissenschaftlich analysierbar gemacht werden. Das Poster gibt einen Überblick über das Projekt, zeigt erste Ergebnisse und bietet einen Ausblick auf Überlegungen zur Konzeption eines Chatbots zur automatisierten Beantwortung von Sprachanfragen." Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.
Mit dem cGAT-Handbuch stellt das FOLK-Projekt eine Richtlinie für das computergestützte Transkribieren nach GAT 2 zur Verfügung. Das Handbuch wurde anhand der Transkriptionspraxis in FOLK entwickelt und enthält eine Vielzahl von authentischen Beispielen, die mit dem zugehörigen Audio auch über die Datenbank für Gesprochenes Deutsch (DGD) abgerufen werden können.