OCR in der Bauakte
Die kompletten Bauakten zum Gebäude hier in der Gastfeldstraße habe ich als pdf-Dateien auf dem Server liegen. Alles wurde säuberlich eingescannt und, zu meiner großen Überraschung, schien da eine automatisierte Texterkennung drübergelaufen zu sein. Jedenfalls lassen sich im Grunde sämtliche Texte markieren.
Unten seht ihr gelb hinterlegt einen originalen Absatz aus der ganz alten Bauakte. Offenbar ist die OCR-Software beim Bauamt nicht mit der Fraktur-Schrift klargekommen – was bei Copy&Paste herauskommt, könnt ihr oben drüber sehen.
Unten seht ihr gelb hinterlegt einen originalen Absatz aus der ganz alten Bauakte. Offenbar ist die OCR-Software beim Bauamt nicht mit der Fraktur-Schrift klargekommen – was bei Copy&Paste herauskommt, könnt ihr oben drüber sehen.
Trackbacks
Nur registrierte Benutzer dürfen Einträge kommentieren. Erstellen Sie sich einen eigenen Account hier und loggen Sie sich danach ein. Ihr Browser muss Cookies unterstützen.
Die Kommentarfunktion wurde vom Besitzer dieses Blogs in diesem Eintrag deaktiviert.
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
SPages am :
Raoul am :
AvN am :
Ich war letztens übrigens überrascht, wie gut diese Funktion mit Frakturschrift zurechtkommt. Kaum ein Fehler wie bei dir.
selbst am :
Von mir verwendete Programme können es nicht.
Chris am :
Von wann ist die Akte denn? Wurde in den 50ern noch Fraktur verwendet?
TOMRA am :
http://www.dkriesel.com/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning
Dohn Joe am :
Früher hätte man einen Text besser einfach selbst abgeschrieben, als die Software stundenlang zu "trainieren". Verrutschte mal ein Pixel bei einem gescannten Buchstaben, ging das Theater wieder von vorne los
Acrobat Pro hat eine OCR-Engine eingebaut umd auch Textfutter für die Indexfunktionen, bzw. zur Verwaltung von PDFs (eben auch mit Scans) zu haben. Ohne spezielle Software kann man so rudimentär Dokumente verwalten und gegebenenfalls auch mal per Textsuche wieder finden.