Linguistische Korpora, Datensets und Annotationsschemata

Das Dortmunder Chat-Korpus

Das Dortmunder Chat-Korpus wurde in den Jahren 2002 bis 2005 von Michael Beißwenger und Angelika Storrer an Angelika Storrers Dortmunder Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik als eine Ressource für die Analyse sprachlicher Besonderheiten und sprachlicher Variation in der Chat-Kommunikation aufgebaut. Zum Zeitpunkt seiner Veröffentlichung im  Jahr 2005 war es das erste linguistische Korpus zur internetbasierten Kommunikation im deutschsprachigen Raum.

Das Korpus umfasst eine okkasionell erhobene Stichprobe des Sprachgebrauchs in Webchats und IRC-Channels um die Jahrtausendwende und enthält ca. eine Million laufende Wortformen (Tokens) in 140.240 Nutzer-Postings, die sich auf 470 Chat-Interaktionen aus dem Zeitraum 1998-2005 verteilen. Bei der Zusammenstellung der Korpusdaten wurde Wert gelegt auf eine breite Streuung über Chat-Plattformen und situative Kontexte (Plauderchats, Chats in Lehr-/Lernkontexten, Beratungschats, moderierte Chats mit Politiker:innen u. a.).

Von 2005-2015 war das Korpus über eine Website an der TU Dortmund, von 2016-2022 über eine Website an der Universiotät Duisburg-Essen abrufbar. Nachfolgend können Sie das Korpus in zwei Varianten herunterladen: (a) in Form eines Web-Archivs, das die komplette Website einschließlich verschiedener Versionen des Korpus umfasst, (b) in Form der sog. ‚Release-Version‘ des Korpus:

  • Web-Archiv (ZIP, 16,7 MB) der Korpus-Website auf dem Stand von 2016: umfasst verschiedene downloadbare Versionen des Korpus einschließlich einer browsbaren HTML-Version des Release-Korpus. Für die korrekte Darstellung der Website rufen Sie nach dem Entpacken des Archivs bitte die Seite index.html im Hauptverzeichnis auf.
  • Release-Version (ZIP, 3,7 MB): Die Release-Version umfasst sämtliche Korpusdokumente, die öffentlich zur Verfügung gestellt werden konnten, in Form annotierter XML-Dokumente, eine 85-seitige Bestandsdokumentation sowie das Java-basierte Abfragewerkzeug STACCADo einschließlich des STACCADo-Handbuchs. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.

Eine um zusätzliche linguistische Annotationen erweiterte und in TEI repräsentierte Version des Korpus (‚Chat-Korpus 2.1‘) ) ist über die CLARIN-Repositories der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) und des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim abrufbar:

Eine Beschreibung des Dortmunder Chat-Korpus bietet das folgende Buchkapitel:

  • Michael Beißwenger; Harald Lüngen (2022): Korpora internetbasierter Kommunikation. In: Michael Beißwenger, Lothar Lemnitzer & Carolin Müller-Spitzer (Hrsg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. Paderborn: Brill|Fink (UTB 5711), 431-448.

Die Remodellierung 2021 (‚Chat-Korpus 2.1‘) ist in diesem Konferenzpaper beschrieben:

  • Harald Lüngen; Michael Beißwenger; Axel Herold; Angelika Storrer (2016): Integrating corpora of computer-mediated communication in CLARIN-D: Results from the curation project ChatCorpus2CLARIN. In: Stefanie Dipper, Friedrich Neubarth & Heike Zinsmeister (eds.): Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), 156-164. https://www.linguistics.rub.de/konvens16/pub/20_konvensproc.pdf

Die Mobile Communication Database 2 (MoCoDa 2)

Das Korpus Mobile Communication Database 2 wurde 2016/17 an der Universität DuisburgEssen konzipiert und wird von einem Projektteam an den Universitäten Duisburg-Essen, Hamburg und Münster betreut. In Kooperation mit der Firma lingdata wird das Korpus und die zugehörige Recherche- und Analyseschnittstelle kontinuierlich ausgebaut und weiterentwickelt. Zum Projektteam gehören Michael Beißwenger (UDE), Marcel Fladrich (UHH), Wolfgang Imo (UHH), Katharina König (WWU) und Evelyn Zielger (UDE).

Die Entwicklung und Weiterentwicklung des Korpus wurde 2017 aus Mitteln des Ministerium für Innovation, Wissenschaft und Forschung NRW (Projektlinie „Digitale Infrastrukturen in den Geisteswissenschaften“, Projektleitung: Beißwenger/Imo/Ziegler) und 2020 in Form eines Tandem-Fellowships für Innovationen in der digitalen Hochschullehre des Stifterverbands und des und Ministeriums für Kultur und Wissenschaft NRW (Projektleitung: Beißwenger/König) gefördert.

Das Korpus wird unter https://db.mocoda2.de/ online als Ressource für Forschung und Lehre zur Verfügung gestellt.

Referenzpublikation zum Korpus:

  • Michael Beißwenger; Marcel Fladrich,; Wolfgasng Imo; Evelyn Ziegler (2020): Die Mobile Communication Database 2 (MoCoDa 2). In: Henning Lobin, Konstanze Marx & Axel Schmidt (Hrsg.): Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig. Jahrbuch 2019 des Leibniz-Instituts für Deutsche Sprache. Berlin/Boston: de Gruyter, 349-352.

Guidelines für die Part-of-Speech-Annotation von Social-Media-Korpora

Die folgenden Guidelines wurden im Rahmen der GSCL Shared Task Task 'Automatic Linguistic Annotation of Computer-Mediated Communication / Social Media' (EmpiriST2015) entwickelt und zur Verfügung gestellt:

  • Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. [PDF|deutsch] [PDF|englisch]
  • Richtlinie für die manuelle Tokenisierung von Sprachdaten aus Genres internetbasierter Kommunikation. [PDF|deutsch]

Eine ausführliche Beschreibung des Shared-Task-Projekts und seiner Ergebnisse bietet das folgende Conference Paper:

  • Michael Beißwenger; Sabine, Bartsch; Stefan Evert; Kay-Michael Würzner (2016): EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora. In: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task. Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-2606), 44-56. https://www.aclweb.org/anthology/W16-2606.pdf

TEI-Modelle für die Repräsentation von Korpora internetbasierter Kommunikation

Im Zusammenhang mit der Special Interest Group ‚Computer-mediated Communication‘ der Text Encoding Initiative (TEI) und dem DFG-Netzwerk ‚Empirische Erforschung internetbasierter Kommunikation‘ wurden seit 2014 verschidene Varianten von TEI-Schemas (Customizations) für die XML-Repräsentation von Korpora internetbasierter Kommunikation entwickelt. Die aktuellste Version (‚CMC-core‘) sowie das für die Remodellierung des Dortmunder Chat-Korpus in TEI (2016) verwendete Schemaversion stehen unter den nachfolgenden Links im TEI-Wiki als TEI-ODD und RNG-Schema-Datei zur Verfügung:

Ausführliche linguistische (und texttechnologische) Begründungen der in den Schemas verfolgten Modellierungsprinzipien bieten die folgenden Artikel:

  • Michael Beißwenger (2018): Internetbasierte Kommunikation und Korpuslinguistik: Repräsentation basaler Interaktionsformate in TEI. In: Henning Lobin; Roman Schneider; Andreas Witt (Hrsg.): Digitale Infrastrukturen für die germanistische Forschung. Berlin/New York: deGryuter 2018 (Germanistische Sprachwissenschaft um 2020, Bd. 6), 307-349. Open Access: https://doi.org/10.1515/9783110538663-015
  • Michael Beißwenger; Harald Lüngen (2020): CMC-core: a schema for the representation of CMC corpora in TEI. In: Corpus 20 (Special issue "Traitements, standardisation et analyse des corpus de communication médiée par les réseaux sociaux", ed. by Céline Poudat, Ciara R. Wigham & Loïc Liégeois). Open Access: https://journals.openedition.org/corpus/455

Das VVPPER-Datenset (Verb-Pronomen-Verschmelzungen in Chats)

Das VVPPER-Datenset (2017) umfasst 230 Belege für Verb-Pronomen-Verschmelzungen aus deutschsprachigen Chats mit Part-of-speech-Annotationen (Standford-Tagger). Es istüber den obigen Link abrufbar über das CLARIN-Repository des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim. Eine Beschreibung des Datensets findet sich auf den Seiten 204-206 des folgenden Buchkapitels:

  • Michael Beißwenger; Tobias Horsmann; Torsten Zesch (2017): Part-of-speech Tagging for Corpora of Computer-mediated Communication: A Case Study on Finding Rare Phenomena. In: Darja Fišer; Michael Beißwenger (Eds.): Investigating Computer-Mediated Communication: Corpus-Based Approaches to Language in the Digital World. Ljubljana: Ljubljana University Press (Translation Studies and Applied Linguistics), 192-219. Open Access: https://ebooks.uni-lj.si/zalozbaul//catalog/view/4/2/9-1

OER-Ressourcen für die Deutschdidaktik und die Hochschullehre

Moodle-Erweiterung TEXTLABOR für kooperative Textarbeit

Moodle-Erweiterung Textlabor (PDF-Annotationen BETA): Lese- und Annotationsumgebung für digital bereitgestellte Texte; einbindbar als Lernaktivität in die Lernplattform Moodle, Versionen 3.2, 3.3, 3.4, 3.5, 3.6 oder 3.7:

Eine Erläuterung der Funktionen der Moodle-Erweiterung und eine Darstellung verschiedener didaktischer Konzepte für die Arbeit mit dem Textlabor bietet das folgende OER-Modul im Portal des Universitätsverbunds digiLL:

Eine Beschreibung verschiedener didaktischer Möglichkeiten der Arbeit mit dem TEXTLABOR in Seminaren der Germanistik sowie der damit gemachten Erfahrungen bietet der folgende Artikel:

  • Michael Beißwenger; Liane Schüller; Veronika Burovikhina (2020): Textbegegnungen im sozialen Medium: Erfahrungen mit einem mediendidaktischen Konzept für die kooperative Erarbeitung voraussetzungs- und aspektreicher Texte in germanistischen Seminaren. In: Katharina Staubach (Hrsg.): Multimodale Kommunikation in den Hypermedien und Deutschunterricht. Theoretische, methodische und unterrichtspraktische Zugänge. Baltmannsweiler: Schneider Verlag Hohengehren, 81-116.

Das online-gestützte Planspiel ORTHO & GRAF

Download der Spielumgebung und der didaktischen Materialien:

Eine Erläuterung des medien- und rechtschreibdidaktischen Konzepts sowie die Dokumentation eines Unterrichtsprojekts in der Klassenstufe 7 bietet das folgende OER-Modul im Portal des Universitätsverbunds digiLL:

Eine Begründung der medien- und rechtschreibdidaktischen Konzeption, eine Beschreibung der Materialien und des Unterrichtsprojekts in der Klassenstufe 7 bietet der folgende Artikel:

  • Michael Beißwenger; Lena Meyer (2020): Zum Lernen verlocken: Erfahrungen mit einem online-gestützten Planspiel zur Reflexion über Rechtschreibung und Grammatik in der Sekundarstufe I. In: Osnabrücker Beiträge zur Sprachtheorie 96, 135-168. Open Access: https://doi.org/10.17185/duepublico/74432