Vom Dokument zur Edition - Teil 1: Handschriftenerkennung mit Transkribus
Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, muss das „digitale Paradigma“ bei Konzeption und Realisierung konsequent mitgedacht werden. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.
Am Anfang eines digitalen Editionsprojekts steht in der Regel das Digitalisat einer historischen Handschrift oder eines Drucks. In den letzten Jahren hat sich der Einsatz von sog. HTR-Programmen etabliert, mit deren Hilfe Digitalisate semiautomatisch segmentiert und Texte transkribiert werden können. Unterstützt durch maschinelles Lernen lassen sich hierzu für das vorliegende Material Modelle trainieren, die z. B. auf das Erkennen bestimmter Schriften spezialisiert sind. Im Zentrum dieses Workshops steht die HTR-Plattform Transkribus. Es werden anhand von Beispieldokumenten Schritt für Schritt Dokumentimport, Verwaltung von Dokumentkorpora, Layoutanalyse und HTR-Erkennung erprobt. Des Weiteren werden im erkannten Text Annotationen vorgenommen, die beim Datenexport in das Zielformat, z. B. TEI/XML, übernommen und als Grundlage für die Weiterverarbeitung, z. B. die Überführung der Daten in eine Web-Darstellung, dienen können.
Im Zusammenspiel mit dem Workshop Vom Dokument zur Edition - Teil 2: Textpräsentation mit dem TEI-Publisher wird ein Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.
Diese Veranstaltung ist Teil der Reihe "D4T4 L1T3R4CY".
Dozent/in | Fabian Etling, Julian Helmchen |
---|---|
Anmeldung | → Online anmelden |
Raum | Garystraße 39 CeDiS-Schulungsraum |
Beginn | 18.01.2024 | 10:00 |
Ende | 18.01.2024 | 14:00 |
Zielgruppe
- Forschende und Lehrende der Freien Universität Berlin
- Fokus auf Forschung an/mit Textdaten, insb. Textedition
Voraussetzungen
Inhaltliche Voraussetzungen:
- Als Quellenbeispiele dienen deutsche Handschriften aus dem 15. Jahrhundert, paläographische und/oder germanistische Kenntnisse sind daher von Vorteil, aber nicht zum Verständnis notwendig.
Technische Voraussetzungen:
- Eigener Laptop
- Installation von Transkribus (Nutzen Sie bitte den „Expert Client“; Download & Installationsanleitung: https://readcoop.eu/de/transkribus/wiki/download-und-installation/; für den Download ist es nötig, einen kostenlosen Account einzurichten.)
- Installation des Oxygen XML Editor (Download & Installationsanleitung: https://www.zedat.fu-berlin.de/Benutzerservice/OXygenXMLEditor)
Inhalt
- Handschriftenerkennung: Layout-Analyse und Segmentierung, Transkription, Machine Learning/Model Training
- Handschrifterschließung: Strukturerkennung, Tagging
- Datei- und Datenexport
Lernziele
- Sie lernen die Möglichkeiten der automatischen Handschriftenerkennung mit „Transkribus“ kennen
- Sie sensibilisieren sich für die zentrale Rolle der Daten in Editionsvorhaben