Digital Humanities Day #3
14. & 15. Januar 2021
Einführung in die automatisierte Handschriftenerkennung mit Transkribus
Prof. Dr. Tobias Hodel
14.01., 09:00 - 12:00
Die automatisierte Erkennung von handschriftlichen Texten eröffnet den historisch arbeitenden Geisteswissenschaften Zugänge zu bislang unerschlossenen Quellen und unedierten Texten. Dank dem Einsatz von Sprachmodellen und Zeichen- bzw. Worterkennung werden handschriftliche Texte in guter Qualität erkannt und aufbereitet.
Mit der Plattform Transkribus werden neueste Ansätze der Computerwissenschaft in einem Tool, welches das Arbeiten mit Digitalisaten erlaubt vereint. Im Workshop werden die Werkzeuge eingeführt und die technischen Ansätze der Texterkennung vermittelt.
Transkribus ist eine umfassende Plattform mit unterschiedlichen Zugriffsformen zur Aufbereitung von Handschriften und frühen Drucken. Transkribus wurde entwickelt, um alle jene zu unterstützen, die mit der Transkription historischer, gedruckter oder handschriftlicher Dokumente befasst sind. Bei Transkribus handelt es sich nicht um ein einziges Programm, sondern um eine Reihe von Werkzeugen für die automatisierte Erfassung von Dokumenten zur Verfügung, darunter eine computergestützte Handschriftenerkennung (Handwritten Text Recognition), Bilderkennung (Layout Analysis) und Strukturerkennung (Document Understanding). Diese bedürfen der jeweiligen Einführung und der Adaption für die einzelnen spezifischen Anwendungsbereiche der Nutzenden.
Aufbau des Workshops
- 09:00 Begrüssung und Einführung
- 09:15 Texterkennung und Transkribus (ein kurzer Einblick in die Technik)
- 09:35 Einführung in die Plattform
- 10:10 Selbständiges Austesten (Support auf Nachfrage) und Pause
- 10:40 Einblick in Trainingsmöglichkeiten
- 11:00 Export, Crowdsourcing & Weiterverarbeitung
- Ab 11:30 Diskussion von individuellen Problemen
Transkribus ist Java-basiert und funktioniert entsprechend auf allen gängigen Betriebssystemen. Teilnehmende laden sich bitte vor dem Workshop das Programm Transkribus herunter und registrieren sich. Im Falle von Installationsproblemen steht die Workshopleitung bereits 15 Minuten vor dem Start zur Verfügung.
Vorwissen wird keines vorausgesetzt. Wer mit eigenen Digitalisaten arbeiten will, soll diese auf dem eigenen Rechner optimalerweise im Format JPEG bereithalten.
Über den Dozenten
Tobias Hodel ist promovierter Mittelalterhistoriker und Assistenzprofessor für Digital Humanities an der Universität Bern. Er befasst sich aktuell mit deep learning für geisteswissenschaftliche Fragestellungen mit Fokus auf Textwissenschaften.