Welche Möglichkeiten bieten Open Source-Tools für die automatisierte Handschriftenerkennung? Wie lange dauert es und was gilt es zu bedenken, um ein pathologisches Sektionsprotokoll in Kurrentschrift aus dem Jahr 1862 zu transkribieren und die Software zu trainieren? Solche Fragen soll das Pilotprojekt beantworten, das das Berliner Medizinhistorische Museum der Charité unterstützt vom Digitalen Netzwerk Sammlungen in Zusammenarbeit mit der Forschungsstelle DACHS des Zentrums für Philologie und Digitalität der Universität Würzburg durchführt.
Das Berliner Medizinhistorische Museum der Charité bewahrt 46 dickleibige Folianten auf, die handschriftlich verfasste und jahrgangsweise gebundene Sektionsprotokolle des Pathologischen Instituts der Charité der Jahre 1856 bis 1902 enthalten. Der Bestand umfasst insgesamt 35.156 Protokolle auf 41.111 Blatt Folio. Im Universitätsarchiv Würzburg lagern weitere Protokollbände aus der Zeit von 1849 bis 1856. Die Sektionsprotokolle stellen eine wissenschaftshistorisch bedeutende Primärquelle dar. Sie stammen aus der Schaffenszeit Rudolf Virchows (1821-1902), der als Mitbegründer der modernen, naturwissenschaftlich geprägten Medizin gilt. Er leistete einen zentralen Beitrag zur Entwicklung der Pathologie als eigenständiger Disziplin, prägte bis heute gebräuchliche Krankheitsbegriffe und mit diesen Begriffen auch Konzepte von Krankheiten.
Aufgrund ihres schlechten konservatorischen Zustands konnten die Protokolle des Berliner Medizinhistorischen Museums der Charité der Forschung bislang kaum zur Verfügung gestellt werden. Förderungen der KEK und des Fördervereins des Museums ermöglichen aktuell die Restaurierung und Digitalisierung aller 46 Bände bis Ende 2025.
Ziel des Projekts
Das Projekt ist als Pilotstudie für ein umfangreicheres Forschungsprojekt konzipiert. Die angefertigten Segmentierungen und Transkriptionen werden als „Ground Truth“ für das Training eines Modells zur weiteren maschinellen Bearbeitung verwendet. Dadurch werden wichtige Erkenntnisse zur Leistungsfähigkeit der Open Source-Software OCR4all und dem LAREX-Editor für das Vorhaben sowie eine solide Datengrundlage für die weitere Aufwandseinschätzung gewonnen. Ziel der Projektverantwortlichen am BMM ist es, einen Förderantrag zur Erstellung einer Digitalen Quellenedition auf den Weg zu bringen, die alle Sektionsprotokolle aus der Schaffenszeit von Rudolf Virchow in Berlin und Würzburg von 1849 bis 1902 transkribiert und historisch-kritisch aufbereitet der Forschung zur Verfügung stellt.
Fotos (1, 2): © 2022 KBE/Kuhn, FREIZEIT Gestaltung;
Screenshot (3): Sektionsprotokoll von 1862 im LAREX-Editor (2024, Digitales Netzwerk Sammlungen)