Deutsches Textarchiv (DTA)
BBAW – Deutsches Textarchiv (DTA) und CLARIN-D Matthias Boenig, Alexander Geyken, Jörg Fischer, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand, Kai Zimmer – Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) – Das von der Deutschen Forschungsgemeinschaft (DFG) im Zeitraum 2007–2016 geförderte Projekt Deutsches Textarchiv (DTA, www.deutschestextarchiv.de) der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) stellt einen disziplinenübergreifenden Kernbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis ca. 1900 bereit. Mit Stand vom Oktober 2017 sind mehr als 4000 historische Textdokumente im DTA verfügbar, die in Übereinstimmung mit der Open-Access-Politik der BBAW unter einer Creative-Commons-Lizenz bereitgestellt werden. Sämtliche Texte des DTA-Korpus sind entsprechend den Empfehlungen der Text Encoding Initiative (TEI) annotiert, um deren plattformunabhängige und interoperable Nutzbarkeit sicherzustellen. Darüber hinaus erfolgt eine automatisierte linguistische Analyse des Textmaterials, einschließlich der Tokenisierung, Lemmatisierung, Wortartenbestimmung (POS-Tagging) und der orthographischen Normierung historischer Schreibweisen. Das DTA-Korpus ist somit für sprachgeschichtliche Untersuchungen, literaturwissenschaftliche, historische und soziologische Fragestellungen nutzbar. Die Dokumente und Metadaten des DTA-Korpus werden parallel zu deren Veröffentlichung in die web- und zentrenbasierte Infrastruktur des vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Projekts CLARIN-D (www.clarin-d.net) integriert. Innerhalb dieser Forschungsdateninfrastruktur für die Geistes- und Sozialwissenschaften findet die weitere Dissemination der Forschungsdaten statt und stehen zahlreiche Tools und Webservices für deren Nutzung und Analyse zur Verfügung. Über das zertifizierte CLARIN- Repositorium der BBAW (http://clarin.bbaw.de/) sind die Daten persistent adressierbar, werden regelmäßig versioniert sowie nachhaltig verfügbar gehalten.