Transkribus - Erfahrungen?

Es wurde diese Software zum elektronischen Lesen von alter Schrift schon im Beitrag:
"Vorauswertung von KB mittels OCR"
genannt, aber ein Video über diese Programm fand ich doch bezüglich einer Aussage zur Schlüsselwortsuche sehr interessant.

ab min 31:30
https://www.youtube.com/watch?v=pZ8QUywZt94

Ich suche Goldschmiede und wenn es die Möglichkeit gäbe, mir die Seiten zu zeigen, die Goldschmiede enthalten, wäre das eine sehr große Erleichterung für mich.
Gibt es jemanden, der damit Erfahrung hat und ist es Archion möglich, so etwas zu Testzwecken zu implementieren?
 
Hallo silberpunze,

da ich selbst Software-Entwickler bin hatte mich dieses Projekt auch interessiert, denn eine automatische Indexierung von KB per OCR wäre nobelpreis-würdig ;)

Daher habe ich das Transkribus-System mal zum Testen installiert und einige wenige Beispiel-KB-Seiten auswerten lassen. Das Ergebnis war - um es diplomatisch auszudrücken - "bescheiden".

Natürlich gibt es KB, die sich vermutlich zufriedenstellend scannen lassen, aber bei 99% der KB, die mir unter gekommen sind, fehlt dem System noch ein gewaltige Portion KI.

Gerade KB aus dem 18. Jahrhundert oder älter sind nur von Menschen mit umfangreicher Erfahrung lesbar. Als Mensch lernt man die Schreibweise des Autors nach einiger Zeit zu deuten und vergleicht dann bei schwer lesbaren Passagen den Text mit anderen Text-Passagen auf der gleichen oder anderer Seiten. So etwas kann m.E. heute noch kein Computer-Programm (zumindest was mir bekannt ist).

Sicherlich wäre es toll, wenn man mit Transkrisbus schon Indizes hätte, die ansatzweise Namen einigermaßen verständlich darstellen würde. Selbst wenn aus "Müller" "Miller" oder "Maller" geworden ist, wäre es eine kleine Hilfe für uns Ahnenforscher.

Momentan ist m.E. der Mensch für diese Aufgabe immer noch die beste Wahl, aber ich bin nicht technologie-feindlich. Wenn es da bald etwas gäbe, wäre ich der erste, der es nutzen würde.

Viele Grüße
Peter


 
Vielen Dank Peter für die Ausführungen. Es ist richtig, dass bis zum Erkennen ganzer Texte noch ein weiter Weg ist. Immerhin wäre es schön, wenn man die unterschiedlichen Varianten der Handschriften schon mal klassifizieren könnte.

Für mich wäre es vor allem hilfreich, wenn es gelingen könnte, ein Keywort einzugeben und danach suchen zu lassen. Da darf dann die Fehlerquote auch relativ hoch sein.

Mein Ziel wäre es, wenn ich alle Seiten bekäme, die das Wort Gold bzw. Silber in unterschiedlichen Schreibweisen ausgeben würde. Das würde mir viel Zeit für die Suche ersparen.
 
Zum Thema keyword-spotting gibt es ein sehr interessantes Video auf youtube.

Es wäre schön, wenn Archion mal damit experimentieren würde.
Wenn man beispielsweise alle Seiten eines Kirchenbuches bekäme, die die Wörter
Gold, Golt, Silber, aurifaber ... beeinhalten.

https://www.youtube.com/watch?v=lcAZpwCPvM0
 
Hallo Theo,

was Transkribus "keyword-spotting" nennt ist im Grunde ja nichts anderes als eine hinlänglich bekannte und seit Jahrzehnten praktizierte Indexierung.

Dreh- und Angelpunkt // die Ausgangsbasis damit dieses Tool überhaupt funktioniert // bleibt jedoch immer noch die Erkennung/Character Recognition als solche und da hat sich Transkribus meiner Meinung nach seit Peters letztem Statement hierzu (siehe oben) leider nicht nennenswert weiterentwickelt.

Aber ja, bei Deinem speziellen Forschungsgebiet sind die hier aufgezeigten Ansätze stets ein erneuter Hoffnungsschimmer.

VG, Vera

 
Es ist leider so dass man das Programm für jede Handschrift sehr mühsam "anlernen" muß, Buchstabe für Buchstabe. Das lohnt sich z.B. bei einem Schriftsteller der einen ganzen Zentner eigene Handschriften hinterlassen hat.
Bei einem Kirchenbuch wechselt nach einigen Jahren oder Jahrzehnten der Pfarrer und der neue hat eine ganz andere Handschrift.Das Anlernen beginnt neu.
In Moment fehlt solchen Handschriftenerkennungsprogrammen noch eine Lernfähigkeit. Ausgehend von Wörtern die zweifelsfrei gelesen werden können die erkannten Buchstaben in anderen Wörtern einsetzten und dann im Idealfall den nicht erkannten Buchstaben lesen können weil nur er Sinn ergibt und diese Erkenntnis wieder bei anderen Wörtern anwenden.
Man nennt das einlesen. Jeder der alte Handschriften ließt kennt den Effekt. Nach fünf Minuten kann man die vorher unbekannte Handschrift viel besser lesen als in den ersten Sekunden.
Ein Progrann das sich selbständig einliest und dann zufriedenstellenstellendee Ergebnisse liefert wie da jetzt schon Spracherkennungsprogramme können wäre tatsächlich der Knaller.
 
Man kann sicherlich viel dazu schreiben, aber um den aktuellen Stand zu sehen und auszuprobieren, gibt es hier eine Online-Version.
https://readcoop.eu/transkribus/

Mir geht es auch nicht darum, ganze Texte zu transkribieren. Mir reicht es, wenn das Keyword-Spotting funktioniert und das ist trotz unterschiedlicher Handschriften relativ robust, wenn man die Fehlertoleranz groß genug wählt, auch auf die Gefahr hin, dann viele falsch positive herauszufiltern.

Aber Archion müsste da mitspielen und mal ein solches Experiment wagen. Vielleicht gibt es auch Fördermittel, wenn Transcribus und Archion kooperieren würden.
Vielleicht gibt es auch Geld von den ganz Großen, denn Google &Co dürften auch Interesse haben.
 
Zurück
Oben