Dokumente automatisiert transkribieren – Handschriftenerkennung mit Transkribus

Einführung in die machine-learning-gestützte Segmentierung, Transkription und Erschließung von Handschriften mit Transkribus

TypPräsenzseminar
Dozent/inFabian Etling, Sandra Balck, Julian Helmchen
Anmeldung→ Online anmelden
RaumCeDiS-Konferenz- und Schulungsraum K063, Garystr. 39
Beginn10.12.2024 | 10:00
Ende10.12.2024 | 14:00

Zielgruppe

Lehrende, Forschende, Mitarbeitende und Studierende der Freien Universität

Voraussetzungen

Technische Voraussetzungen:

Vom Dokument zur Edition (Teil 1): Dokumente automatisiert transkribieren – Handschriftenerkennung mit Transkribus

Mit dem Medienwandel zeichnet sich auch im Bereich kritischer Editionen ein Paradigmenwechsel ab: Die Tendenz geht zur „digitalen Edition“, die entweder begleitend zur klassischen Print-Publikation eingesetzt wird oder diese als genuin digitales Produkt immer häufiger vollständig substituiert. Das Internet, sog. neue Medien sowie der verstärkte Einsatz von Informationstechnologie in den Geisteswissenschaften eröffnen dabei neue Möglichkeitsräume für Erfassung, Analyse und Visualisierung von Inhalten. Um diese Potenziale ausschöpfen und in nachhaltige Editionsprodukte umsetzen zu können, gilt es bei Konzeption und Realisierung konsequent einem „digitale Paradigma“ zu folgen. Dies erfordert u. a. ein grundlegendes Verständnis der involvierten Technologien und technischen Prozesse von der Erschließung des zu edierenden Gegenstands bis hin zu dessen Präsentation in ggf. multiplen Wiedergabeszenarien.

Am Anfang eines digitalen Editionsprojekts steht in der Regel das Digitalisat einer historischen Handschrift oder eines Drucks. In den letzten Jahren hat sich der Einsatz von Programmen für die Handwritten Text Recognition (HTR) etabliert, mit deren Hilfe Digitalisate semiautomatisch segmentiert und Texte transkribiert werden können. Unterstützt durch maschinelles Lernen lassen sich hierzu für das vorliegende Material Modelle trainieren, die z. B. auf das Erkennen bestimmter Schriften spezialisiert sind. Im Zentrum dieses Workshops steht die HTR-Plattform Transkribus. Es werden anhand von Beispieldokumenten Schritt für Schritt Dokumentimport, Verwaltung von Dokumentkorpora, Layoutanalyse und HTR-Erkennung erprobt. Des Weiteren werden im erkannten Text Annotationen vorgenommen, die beim Datenexport in das Zielformat, z. B. TEI/XML, übernommen und als Grundlage für die Weiterverarbeitung, z. B. die Überführung der Daten in eine Web-Darstellung, dienen können.

Die Veranstaltung ist Teil der Reihe „Vom Dokument zur Edition“, die einen Gesamtüberblick über eine mögliche technische Infrastruktur für die digitale Edition handschriftlicher Dokumente vermittelt. Die Veranstaltungen bauen aufeinander auf, können aber auch als Einzelveranstaltung besucht werden.

Teil 2: Textdaten modellieren und kodieren – Einführung in XML und die Arbeit mit dem Oxygen XML Editor

Teil 3: Textuelle Forschungsdaten standardisieren – Einführung in die Richtlinien und Werkzeuge der Text Encoding Initiative (TEI)

Teil 4: Digitale Editionen publizieren – TEI-basierte Textpräsentation mit der TYPED-Infrastruktur

Lerninhalte

  • Technische Grundlagen von OCR/HTR
  • Handschriftenerkennung anwenden: Layout-Analyse und Transkription
  • Training eigener KI-Modelle
  • Handschrifterschließung: Strukturerkennung, Tagging
  • Datei- und Datenexport 

Lernziele 

  • Sie lernen die Einsatzgebiete, Möglichkeiten und Grenzen von HTR-Programmen kennen
  • Sie üben die automatischen Handschriftenerkennung mit dem einstiegsfreundlichen Tool „Transkribus“

  • Sie lernen, wie eigene KI-Modelle trainiert und bereits verfügbare Modelle dafür genutzt werden können
  • Sie sensibilisieren sich dafür, welchen Einfluss die Texterschließung mit HTR auf Editionsvorhaben hat

Consulting & Support

Consulting
Vom CeDiS Consulting erhalten Sie individuelle Beratung und Unterstützung bei der Konzeption Ihrer digitalen Lehr- und Forschungsvorhaben. 
Kontakt: consulting@cedis.fu-berlin.de

Support
Der CeDiS Support beantwortet Ihre Nutzeranfragen zur Bedienung der folgenden zentralen Systeme der Freien Universität: Blackboard, CMS, FU-Wikis, FU-Blogs.
Kontakt: support@cedis.fu-berlin.de