Vorauswertung von KB mittels OCR

Hallo alle,

ich ärgere mich oft, dass es von vielen KB keine "Register" gibt. In den ostpreußischen KB war das wohl mehr oder weniger Standard, so dass dort eine Suche nur nach Namen (ohne ein genaues Datum zu wissen) bei mir oft zu Treffern führte :)

In meinen Heimat-KB (nördliches Westfalen) gibt es leider nahezu keine Register, so dass man ohne dem ungefähren Jahr sich einen Wolf sucht :-(

Nun leben wir ja im Jahr 2017, wo die selbstfahrenden Autos schon angekündigt sind, und wo die IT-Technik immens große Fortschritte gemacht hat und noch macht.

Ich frage mich, ob es nicht möglich wäre eine ART OCR-Software über die Digitalisate laufen zu lassen um dann eine gewisse Indexierung aller gefundenen Namen und Begriffe zu erstellen?

Sicherlich bringt das bei wahrscheinlich 70% aller KB nichts, da die Schrift (wenn man von Schrift reden kann) oft sehr unleserlich ist (harmlos ausgedrückt), so dass selbst die erfahrensten Menschen es nicht entziffern können.

Trotzdem würden vielleicht 30% an erkannten Worten reichen, um zumindest eine Basis-Suche durchzuführen. Dabei müsste man sicher oft verschiedene Buchstaben in den Namen testen, aber man bekäme eine Seiten-Vorauswahl, wo man dann mal eben schnell nachschauen kann.

Eure Meinung?

Viele Grüße
Peter
 
Welcher ernsthafte Forscher, würde auf eine 30% Lösung verlassen?

Habe ich mich so missverständlich ausgedrückt? Es geht nicht darum auf Knopf-Druck eine kompletten Stammbaum aus KB zu erstellen, sondern nur zur Verkürzung der Suchzeit.

Ein mehr oder weniger korrekte Auswertung von KB-Einträgen wird auf längere Sicht nicht ohne das menschliche Gehirn gehen (Alleinstellungsmerkmal ;-) )

Grüße
Peter
 
Mit Eintippen eines einfachen (nicht zu einfachen) Namensregisters ist man alle mal schneller als mit der Nachbearbeitung irgend welcher Maschinenübersetzungen aus Handschriften.

Martina
 
Hallo PD1964
In welchem Kirchenbuch suchst Du denn? Mancherorts ist man schon recht weit mit der Indexierung, oder es gibt Verkartungen...

MfG
Bernd
 
In welchem Kirchenbuch suchst Du denn? Mancherorts ist man schon recht weit mit der Indexierung, oder es gibt Verkartungen...
Hallo Bernd,

irgendwie habe ich das Gefühl etwas verpasst zu haben? Was sind Indexierungen (Indizierungen?) und Verkartungen? Habe ich hier noch nie gesehen -> bitte mal ein Beispiel-Link! Wer hat diese Such-Hilfe erstellt?

Ich war bisher nur in den KB von Ostpreußen und Westfalen unterwegs und in Westfalen gibt es keine Namensregister-KB. Z.B. hier:

http://www.archion.de/p/1a195f1401/

Das sind über 500 Seiten mit je 8 Taufeinträgen ergibt 4000 Taufeinträge (in 52 Jahren). Eigentlich nicht wirklich viel, aber wenn man einen Bereich von 20 Jahren absuchen muss, gehen doch "einige" Minuten bei drauf...

Viele Grüße
Peter
 
Hallo Peter!

nur zur Verkürzung der Suchzeit.


Eine (bis zu) 30% korrekte Erfassung von Handschriften ist nicht sehr sinnvoll. Zumal es maschinell noch schlechter geht, wenn "selbst die erfahrensten Menschen es nicht entziffern können".

Dazu zwei mögliche Szenarien:


1. In einem solchen Index/Register findet man nichts, was passen könnte. Was ist die Konsequenz? Man sucht "per Hand" das komplette Kirchenbuch bzw. den in Frage kommenden Zeitraum durch.

2. In einem solchen Index/Register findet man etwas, das passen könnte. Was ist die Konsequenz? Man sucht "per Hand" das komplette bzw. restliche Kirchenbuch durch, weil etwas beim Indizieren übersehen worden, original anders notiert, anders gelesen, im Index anders aufgeschrieben worden sein könnte.


Das ist das übliche Vorgehen bei einer Fehlerquote größer 0. Und selbst bei Registern und Indizes, die als fehlerfrei gelten (gibt es die?), sieht man sich die Originaleinträge an, ob es auch wirklich keine Übertragungsfehler gibt.

Wer schon mit indizierten Kirchenbüchern gearbeitet hat (z.B bei familysearch, ancestry, PTG), weiß, dass selten alles stimmt, auch wenn eine vollständige (wenn auch fehlerbehaftete) Erfassung durchaus Zeit sparen und Anhaltspunkte zur weiteren Suche geben kann. Den Blick in die Originale erspart es dennoch nicht.

Übrigens spricht nichts dagegen, selbst ein Register zu erstellen oder wenigstens anzufangen. Der Nächste, der in der gleichen Gegend forscht, freut sich! ;)

Beste Grüße
 
... nördliches Westfalen = etwas genauere Region ?
Siehe Link im Beitrag vorher ;-)

Kreis Tecklenburg!



An alle: Ich staune, dass viele von euch so "negativ" eingestellt sind?

Habt ihr Angst ein Computer nimmt euren "Arbeitsplatz" weg? ;-)

Ich hätte eigentlich mehr positives Feedback erwartet?

Grüße
Peter
 
Da ist nichts "negativ eingestellt". Es ist einfach unrealistisch. Die Fehlerquote ist zu hoch.

Ich habe die letzten 10 Jahre täglich solche Register geschrieben, mit Sicherheit auch nicht komplett fehlerfrei. Und bei mancher Sauklaue mußte ich auch mit 20jähriger Leserfahrung kapitulieren.

Martina
 
Leider kann ich Martina nur zustimmen. Ein Computerprogramm, das altdeutsche Handschriften mit der Sicherheit eines geübten Menschen erkennt - vielleicht in 100 Jahren.
Ich wüsste da was besseres - Spracherkennung. Diktieren geht schneller als Schreiben und selbst komplizierte Familiennamen braucht man nur ein Mal zu schreiben. Das Propramm merkt sich die Schreibweise. Eine Liste mit 100 Vor- und Nachnamen ist in 10 Minuten erstellt.

MfG
Bernd
 
Leider kann ich Martina nur zustimmen. Ein Computerprogramm, das altdeutsche Handschriften mit der Sicherheit eines geübten Menschen erkennt - vielleicht in 100 Jahren.
Ich wüsste da was besseres - Spracherkennung. Diktieren geht schneller als Schreiben und selbst komplizierte Familiennamen braucht man nur ein Mal zu schreiben. Das Propramm merkt sich die Schreibweise. Eine Liste mit 100 Vor- und Nachnamen ist in 10 Minuten erstellt.
Hallo Bernd,

ich bin für jeden alternativen Vorschlag dankbar :)

Nur wie setzt man so etwas um?

Dazu müsste es eine zentrale Stelle geben, die alles organisiert, damit keine Mehrfach-Analysen ein und desselben KB erfolgen und wo die Daten dann gespeichert und zugreifbar gemacht werden.

Dein "Verfahren" ist natürlich auch mit Aufwand und Kosten verbunden. Wert zahlt dass?

Mehr Fragen als Antworten, aber trotzdem vielen Dank für die vielen Beiträge!

Viele Grüße
Peter
 
Hallo zusammen,

es gab - wenn ich mich richtig erinnere - schon einmal die Anfrage nach der Nutzung von UGC. Dort könnte man solche Infos doch sicherlich ablegen. Dann müsste das nur noch durchsuchbar sein, so dass man nicht alle Seiten durchblättern muss...

Oder Archion richtet eine neue Datenbank ein, in der solche Indizes gespeichert werden können. Vielleicht Name, Vorname, Ort, Kirchenbuch (wobei dies sicher automatisch übernommen werden könnte).

Viele Grüße
Jan

PS: Kann man im Forum gar nicht suchen? Das war mir neu...
 
Hallo zusammen,

es gab - wenn ich mich richtig erinnere - schon einmal die Anfrage nach der Nutzung von UGC.
Das geht zwar allmächlich in ein anderes Thema über, aber ich poste es hier mal:
Vor wenigen Tagen hat Herr Müller-Baur in Detmold einen Vortrag gehalten, und da ging es auch kurz um UGC. Die Funktion ist ja generell implementiert, aber bisher nicht aktiviert, weil anderes wichtiger war. Das soll sich jetzt ändern. In naher Zukunft (wenn ich ihn richtig verstanden habe, noch in diesem Jahr) soll die UGC-Funktion aktiviert werden und man soll dann Texte - vom ganzen Kirchenbuch über einzelne Seiten bis zu einzelnen Einträgen - bei ARCHION einstellen können. Wenn ich ihn weiterhin richtig verstanden habe soll ein Symbol auf der Seite oder beim Eintrag anzeigen,dass da jemand schon gearbeitet hat und beim Klick darauf erscheint der übertragene Text. Das ganze ist mit der Suchfuktion auffindbar, liegt aber - wenn es so weit ist - innerhalb der Paywall, d.h. man muß seinen Obolus entrichtet haben, um darauf zugreifen zu können.
Wolln wir mal sehen was draus wird.
Um jetzt wieder zu Thema zurück zu kommen: Die Arbeit haben natürlich die Familienforscher. ARCHION wird da nicht helfen können, dazu sind sie einfach zu wenig Leute. Es wäre natürlich schön, wenn die UGC-Funktion Texte, die schon in Familienforschers Datenbank vorliegen, darstellen könnte, am besten natürlich aus dem Gedcom-Format übertragen.
Die dürfte es reichlich im Lande geben und es ist wirklich ein Unsinn, dass Kirchenbuch-Texte immer und immer wieder abgeschrieben werden. Einmal reicht und in Verbindung mit der Ablichtung des Orginals wäre die Sache auch schnell überprüfbar.
Wie man einen höchst individuellen Stammbaun ohne viel Arbeit wieder in seine einzelnen Eintragungen zerlegt ist mir dabei nicht klar. Ich hoffe, das die Sache daran nicht scheitert.

MfG
Bernd
 
.....Es wäre natürlich schön, wenn die UGC-Funktion Texte, die schon in Familienforschers Datenbank vorliegen, darstellen könnte, am besten natürlich aus dem Gedcom-Format übertragen.....

MfG
Bernd

Wie willst du aus einer Gedcom die Abschrift eines Kirchenbuches erstellen? Eine Abschrift sollte ja buchstabengetreu sein. Alles andere sind Hilfsdateien, aber keine Abschrift.

Martina
 
Da sollten wir wohl unterscheiden nach "wörtlicher Abschrift", also eine Art von Übersetzung, und einem alphabetischen Register mit den Familiennamen und ggfl. Vornamen der Personen.

UGC eignet sich vermutlich in erster Linie für die Abschrift einer ganzen Seite oder eines Teils davon.

Das alphabetische Register sehe ich da noch nicht. Es wäre aber für den Familienforscher mindestens ebenso interessant. Allerdings sind da auch Probleme, denn wie soll man aus "Diemanns Backhäuser" einen Familiennamen machen?

Gruß
Libero
 
Guten Morgen,

noch ist sie etwas umständlich und nicht so ausgereift, aber da wird ständig weitergebastelt. Meiner Meinung nach das vielversprechendste Prjekt in der Richtung.

Grüße

 
Zurück
Oben