Transkribus - Erfahrungen?

Es wurde diese Software zum elektronischen Lesen von alter Schrift schon im Beitrag:
"Vorauswertung von KB mittels OCR"
genannt, aber ein Video über diese Programm fand ich doch bezüglich einer Aussage zur Schlüsselwortsuche sehr interessant.

ab min 31:30
https://www.youtube.com/watch?v=pZ8QUywZt94

Ich suche Goldschmiede und wenn es die Möglichkeit gäbe, mir die Seiten zu zeigen, die Goldschmiede enthalten, wäre das eine sehr große Erleichterung für mich.
Gibt es jemanden, der damit Erfahrung hat und ist es Archion möglich, so etwas zu Testzwecken zu implementieren?
 
Hallo silberpunze,

da ich selbst Software-Entwickler bin hatte mich dieses Projekt auch interessiert, denn eine automatische Indexierung von KB per OCR wäre nobelpreis-würdig ;)

Daher habe ich das Transkribus-System mal zum Testen installiert und einige wenige Beispiel-KB-Seiten auswerten lassen. Das Ergebnis war - um es diplomatisch auszudrücken - "bescheiden".

Natürlich gibt es KB, die sich vermutlich zufriedenstellend scannen lassen, aber bei 99% der KB, die mir unter gekommen sind, fehlt dem System noch ein gewaltige Portion KI.

Gerade KB aus dem 18. Jahrhundert oder älter sind nur von Menschen mit umfangreicher Erfahrung lesbar. Als Mensch lernt man die Schreibweise des Autors nach einiger Zeit zu deuten und vergleicht dann bei schwer lesbaren Passagen den Text mit anderen Text-Passagen auf der gleichen oder anderer Seiten. So etwas kann m.E. heute noch kein Computer-Programm (zumindest was mir bekannt ist).

Sicherlich wäre es toll, wenn man mit Transkrisbus schon Indizes hätte, die ansatzweise Namen einigermaßen verständlich darstellen würde. Selbst wenn aus "Müller" "Miller" oder "Maller" geworden ist, wäre es eine kleine Hilfe für uns Ahnenforscher.

Momentan ist m.E. der Mensch für diese Aufgabe immer noch die beste Wahl, aber ich bin nicht technologie-feindlich. Wenn es da bald etwas gäbe, wäre ich der erste, der es nutzen würde.

Viele Grüße
Peter


 
Vielen Dank Peter für die Ausführungen. Es ist richtig, dass bis zum Erkennen ganzer Texte noch ein weiter Weg ist. Immerhin wäre es schön, wenn man die unterschiedlichen Varianten der Handschriften schon mal klassifizieren könnte.

Für mich wäre es vor allem hilfreich, wenn es gelingen könnte, ein Keywort einzugeben und danach suchen zu lassen. Da darf dann die Fehlerquote auch relativ hoch sein.

Mein Ziel wäre es, wenn ich alle Seiten bekäme, die das Wort Gold bzw. Silber in unterschiedlichen Schreibweisen ausgeben würde. Das würde mir viel Zeit für die Suche ersparen.
 
Hallo Theo,

was Transkribus "keyword-spotting" nennt ist im Grunde ja nichts anderes als eine hinlänglich bekannte und seit Jahrzehnten praktizierte Indexierung.

Dreh- und Angelpunkt // die Ausgangsbasis damit dieses Tool überhaupt funktioniert // bleibt jedoch immer noch die Erkennung/Character Recognition als solche und da hat sich Transkribus meiner Meinung nach seit Peters letztem Statement hierzu (siehe oben) leider nicht nennenswert weiterentwickelt.

Aber ja, bei Deinem speziellen Forschungsgebiet sind die hier aufgezeigten Ansätze stets ein erneuter Hoffnungsschimmer.

VG, Vera

 
Es ist leider so dass man das Programm für jede Handschrift sehr mühsam "anlernen" muß, Buchstabe für Buchstabe. Das lohnt sich z.B. bei einem Schriftsteller der einen ganzen Zentner eigene Handschriften hinterlassen hat.
Bei einem Kirchenbuch wechselt nach einigen Jahren oder Jahrzehnten der Pfarrer und der neue hat eine ganz andere Handschrift.Das Anlernen beginnt neu.
In Moment fehlt solchen Handschriftenerkennungsprogrammen noch eine Lernfähigkeit. Ausgehend von Wörtern die zweifelsfrei gelesen werden können die erkannten Buchstaben in anderen Wörtern einsetzten und dann im Idealfall den nicht erkannten Buchstaben lesen können weil nur er Sinn ergibt und diese Erkenntnis wieder bei anderen Wörtern anwenden.
Man nennt das einlesen. Jeder der alte Handschriften ließt kennt den Effekt. Nach fünf Minuten kann man die vorher unbekannte Handschrift viel besser lesen als in den ersten Sekunden.
Ein Progrann das sich selbständig einliest und dann zufriedenstellenstellendee Ergebnisse liefert wie da jetzt schon Spracherkennungsprogramme können wäre tatsächlich der Knaller.
 
Man kann sicherlich viel dazu schreiben, aber um den aktuellen Stand zu sehen und auszuprobieren, gibt es hier eine Online-Version.
https://readcoop.eu/transkribus/

Mir geht es auch nicht darum, ganze Texte zu transkribieren. Mir reicht es, wenn das Keyword-Spotting funktioniert und das ist trotz unterschiedlicher Handschriften relativ robust, wenn man die Fehlertoleranz groß genug wählt, auch auf die Gefahr hin, dann viele falsch positive herauszufiltern.

Aber Archion müsste da mitspielen und mal ein solches Experiment wagen. Vielleicht gibt es auch Fördermittel, wenn Transcribus und Archion kooperieren würden.
Vielleicht gibt es auch Geld von den ganz Großen, denn Google &Co dürften auch Interesse haben.
 
hatte ich falsch eingestellt

Ich habe vor drei Tagen das Programm "transkriubus" getestet. Auf der Startseite steht ein Beispiel mit schöner Handschrift. Dazu die Übertragung mit dem Hinweis zu 98 % richtig. Beim Nachlesen stelle ich fest dass von 60 Wörtern drei völlig falsch sind und bei drei Wörtern einige Buchstaben. Das sind für mich keine 98 %. Bei ausgeprägten Handschriften, ist die Fehlerquote 50 %, der Text ergibt dann auch keinen Sinn mehr. Mit Kurrentschrift habe ich es erst garnicht probiert.
Fazit je ausgeprägter die Handschrift um so schlechter das Ergebnis. Angeblich ist das Programm lernfähig.
Soll ich etwa den richtigen Text später dem Programm zum Lernen zurückschicken?
Das hochladen und übertragen dauert viel zu lange, bis das Programm ein Ergebnis anzeigt habe ich den Text schon dreimal gelesen, aber dafür kosten bis zu 500 Texte nix.
Wer Sütterlin gar nicht lesen kann, kommt mit dem Programm schon etwas weiter. Wer selbst lesen kann, ist viel schneller und bei nicht eindeutigen Textstellen, gibt es hier bei Archion immer Hilfe, denn vier oder acht Augen sehen mehr und das ist bei manchen Buchstaben wirklich wichtig.
 
Hallo,

für mich ist eigentlich die Antwort wichtig auf die Frage: Wer prüft das Ergebnis ob es richtig ist?
Wenn ich es selber bin, kann ich es gleich selber lesen.
Was für ein Unsinn rauskommt, sehen wir bei ungeprüfter Übernahme von Daten aus ................... von wem auch immer.
Selbst, wie schon oft geschrieben, auch OFBs sind nicht Fehlerfrei!
Und wo liegt der Anreiz in der ganzen Sache?

Ich übernehme nur Daten, die ich! selbst geprüft habe und deshalb sollte man es auch selber lesen wollen und immer besser können.

Und dank der guten Leser, wird einem hier schon auf die Sprünge geholfen,

Gruß Rainer
 
Lieber letteeter und lieber Schleuse,
Transkribus ist eine wirklich tolle Sache für die Dinge, um die es mir geht. Inzwischen ist dieses Programm so ausgestattet, dass es selbst die unterschiedlichen Schrifttypen erkennen kann. Ja, als Texterkennungsprogramm ist es viel zu fehlerhaft und eignet sich nicht, um Texte zu transkribieren. Aber für meinen Fall wäre es ideal, wenn nicht auf einmal ein Kostenhammer seit Jahresbeginn gekommen wäre. Wenn ich das richtig sehe, soll es in Zukunft ca. 10-20 Cent je Seite kosten, die transkribiert wird. Da lohnt sich das dann nicht mehr. Bei 0,1 Cent wäre ich dabei.

Gerne hätte ich das Programm auf meine Rechner und würde es lokal betreiben. Es gibt ein polnisches Archivportal, in dem man ganze Kirchenbücher (beispielsweise Kolberg https://www.szukajwarchiwach.gov.pl/ ) innerhalb weniger Minuten auf seinen Rechner laden kann. Wenn es dann eine Nacht dauert, die jeweils ca. 500 Seiten transkribieren zu lassen, wäre das für mich OK.
Hinterher lässt man dann mit Keyword-Spotting jene Seiten und Fundstellen anzeigen, in denen man einen Gold(Schmied/Arbeiter) Auri(faber), Silber(arbeiter), Juwebier/Jubilierer ... findet. Das würde eine Menge Zeit sparen, auch wenn der ein oder andere Gottfried als falsch positives Ereignis angezeigt wird.

Aber der Vorteil wäre trotzdem, dass wenn ein Buch einmal transkribiert wurde, es dann ja von mehreren Personen benutzt werden kann. Vielleicht sollte man dann mal einen Pool bilden, wo 10-20 Nutzer Geld in einen Topf werfen, um ein bestimmtes Buch transkribieren zu lassen.
 
Hallo und danke für die Info.

Für mich bleibt die Frage: Wer prüft das Ergebnis auf Richtigkeit?
Es wäre für mich interessant mal eine Seite im Original und eine vom Programm übersetzte zu sehen. Ohne Nachbearbeitung.

Bleibe aber bei der Aussage, wenn ich es prüfe kann ich es gleich selber machen.

Und dann die Grundregel, nur was ich selber lese und sehe ist richtig.
Ohne Kontrolle die Daten übernehmen, da kann es scnell in die falsche Richtung gehen.

Wer kontrolliert dann das ganze Buch? von den 10 bis 20 Nutzern, zu welchem Preis?
Warum ein ganzes Buch, wenn ich nur wenige Seiten brauche?
Fragen und mögliche Konflikte ohne Ende.
Und im Ergebnis geht es ja immer nur ums Geld.
Das muß "Jeder" für sich ausmachen, was es "Ihm" Wert ist.
Wenn ich Daten aus einem Archiv gebraucht habe, habe ich einen Fachmann vor Ort beauftragt.
Der kennt sich aus hat Kontakte im Archiv und kostet bei gutem Ergebnis auch nicht mehr als wenn ich es selber mache.

Ich bleibe bei meinen Bemühungen es selber zu lesen und besser zu werden.

Gruß und schönes Wochenende RAiner
 
Ich habe es mal spaßeshalber mit einer Taufe von 1749 versucht.
Besser wie gedacht. Der Text ist verständlich. ABER:
Da jetzt eine Suche nach einem Begriff drüber laufen zu lassen würde nichts bringen, da immer wieder Buchstaben fehlen....
Zum Verstehen des Eintrages reicht es, aber nicht um es als Grundlage für eine Suche zu nehmen:

an sen Supfer
v. Schwier alhir.
den 21. Septembr ist Peter Bohms des Krügers vor
Rahusdorf
Rahnsdorff Töhterlein getaufft, u. den Nahmen bekommen Maria
Dorothea. Tester. 1. Andreus Schwantz, Fischer u. Nachtbah
2. der junge gesell Andreas Ludewig Lücke, Rostilions Knegt
auffm Erckenan. 3. Fr. Dorothea Elisabeth Lücken gebohrne Gött
schin des mecken-Pachters in Rahndorfft Ehefrau. 4. fr Anna Mari
Schaftin, gebohrne Müllern, des Fiehes u. Nachtbahr Schulzen
Ehehen
hwartzen a8
 
Hallo noch einmal,

ich kann es nur mal an einem Beispiel versuchen. Vor einiger (längerer) Zeit habe ich hier im Forum "Jemanden" beim Suchen geholfen.
Mein Ergebnis war ein anderes als er aus dem OFB übernommen hatte.
Der Ersteller des OFB hat den Fehler bestätigt und in seiner Internetseite korrigiert.
Es ging nur um einen falsch gelesenen Buchstaben im Nachnamen und schon war der ganze Stammbaum weder einen noch 10 Cent wert.

Gruß und Schluß RAiner
 
Nachtrag: Bestattungen 1948 in Tabellenform eigentlich unbrauchbar, alles untereinander, extrem falsch

Man kann es ja kostenfrei selbst auf der Webseite probieren.
 
....Ja, als Texterkennungsprogramm ist es viel zu fehlerhaft und eignet sich nicht, um Texte zu transkribieren. ....

Aber der Vorteil wäre trotzdem, dass wenn ein Buch einmal transkribiert wurde, es dann ja von mehreren Personen benutzt werden kann. ....

Hallo @silberpunze

Diese Argumentation erschließt sich mir offengestanden bis jetzt noch nicht.

Wenn sich doch Transcribus für Transliterationen momentan noch nicht eignet -soweit stimmen wir vollkommen überein-, warum soll man es dann dafür nutzen?

Oder geht Dein Ansatz "nur" dahin, daß sich mehrere Nutzer zusammenschließen sollen, um die Kosten der "Bearbeitung" durch Transcribus zu tragen, um "nur" einigermaßen "schnell" nach Schlagworten suchen zu können.
Für Berufsgruppen-Forscher (alle Goldschmiede o.ä., alle Scharfrichter o.ä., alle Müller o.ä. usw.) mag das praktikabel sein, aber der "große Rest"......

BG, Vera
 
Mir erschließt es sich nicht wie ich nach Schlagwörtern suchen kann wenn diese nicht "gelesen" werden.
Wenn ich Goldschmiede sammle, Transkribus aber nur Golschmid liest......
 
Mir erschließt es sich nicht wie ich nach Schlagwörtern suchen kann wenn diese nicht "gelesen" werden.
Wenn ich Goldschmiede sammle, Transkribus aber nur Golschmid liest......

Selbst, wenn Transkribus es richtig liest, die Schreibweise im Buch kann auch von vornherein immer mal anders sein.
Dafür braucht man dann eine unscharfe Suche, dann ist das kein großes Problem.
 
Zurück
Oben