Wie man handgeschriebene Dokumente in Text umwandelt

Pexels Pixabay 51191

Wenn Sie einen Stapel handgeschriebener Dokumente haben, die darauf warten, digitalisiert zu werden, um eine einfache Bearbeitung, das Teilen und die Speicherung zu ermöglichen, ist die Handschrift-zu-Text (HTR) Technologie hier, um Ihnen zu helfen. Mit ihrer Hilfe können Sie handgeschriebene Dokumente in wenigen einfachen Schritten in Text umwandeln, und alles, was Sie brauchen, ist ein Scanner und Software.

Inhaltsverzeichnis

  • Die Herausforderung beim Scannen handgeschriebener Dokumente
  • Handgeschriebene Dokumente mit Transkribus in Text umwandeln
  • Alternativen zu Transkribus

Die Herausforderung beim Scannen handgeschriebener Dokumente

Das Scannen handgeschriebener Dokumente und die Umwandlung in digitalen Text kann eine echte Herausforderung darstellen, da es mit einem einzigartigen Set an Problemen verbunden ist:

  • Die Handschrift variiert von Person zu Person, was es schwierig macht, dass Standard-Optische Zeichenerkennungs- (OCR) Software den Text genau erkennt und transkribiert.
  • Handgeschriebene Dokumente enthalten oft Fehler, wie durchgestrichene Wörter und Schreibfehler, die die Scansoftware zusätzlich verwirren können.
  • Viele Dokumente, die handgeschrieben sind, sind alt, und die Qualität des Papiers, die verwendete Tinte sowie das Vorhandensein von Zufallsstrichen oder Falten können den Scanprozess weiter komplizieren.

Um mit diesen und anderen Herausforderungen umzugehen, haben Softwareentwickler spezialisierte Handschrift-zu-Text (HTR) Software entwickelt, die speziell für die Umwandlung handgeschriebener Dokumente in Text konzipiert ist.

HTR-Tools verwenden fortschrittliche Algorithmen, um sich an verschiedene Handschriftstile anzupassen, absichtlichen Text von zufälligen Strichen oder Korrekturen zu unterscheiden und mit alten oder beschädigten Dokumenten umzugehen.

Handgeschriebene Dokumente mit Transkribus in Text umwandeln

Wenn es darum geht, handgeschriebene Dokumente in Text umzuwandeln, gibt es viele HTR-Tools zur Verfügung. Dasjenige, das ich am meisten empfehle, ist Transkribus. Es handelt sich um eine Online-Software mit einer Desktop-Version, die extrem einfach zu bedienen ist, und Sie können sie trainieren, um ihre Leistung zu verbessern.

Vom ersten Moment an können die Ergebnisse mit Transkribus enttäuschend sein. Die wahre Stärke dieses Werkzeugs liegt jedoch in seiner Trainingsoberfläche. Mit etwas Zeit und Mühe können Sie Transkribus so trainieren, dass es Ihre Handschrift genauer erkennt, was die Qualität der Transkription erheblich verbessern kann.

Die kostenlose Version von Transkribus ermöglicht es Ihnen, bis zu 100 Dokumente zu konvertieren und bis zu fünf Trainingsläufe pro Monat durchzuführen (mehr dazu bald). Um loszulegen, besuchen Sie die Website des Tools, klicken Sie auf die Schaltfläche Kostenlos testen und erstellen Sie ein Benutzerkonto.

Transkribus Try For Free

Um die Umwandlung Ihres Dokuments zu beginnen, öffnen Sie die Standardkollektion in Transkribus. Denken Sie an Kollektionen als Ordner, in denen Sie Ihre Arbeiten organisieren können, wobei jede Kollektion einzelne Dokumente enthält. Jedes Dokument besteht aus Bildern, die die tatsächlichen Seiten Ihres Textes repräsentieren.

Transkribus Default Collection

Um Ihr Dokument hinzuzufügen, klicken Sie auf die Schaltfläche Dateien hochladen. Transkribus akzeptiert verschiedene Formate wie JPEGs, PNGs und PDFs, empfiehlt jedoch für optimale Erkennung die Verwendung von 300 DPI JPEGs. Sobald Ihre Dokumente hochgeladen sind, sind Sie bereit, das handgeschriebene Dokument in Text umzuwandeln.

Transkribus Upload Files

Öffnen Sie das Dokument und wählen Sie alle Bilder aus, die Sie umwandeln möchten. Klicken Sie auf die Schaltfläche Erkennen.

Transkribus Recognize Button

Transkribus bietet eine Reihe von öffentlichen Modellen für verschiedene Sprachen und Zeitperioden. Um sofortige Texterkennung ohne Training zu ermöglichen, wählen Sie das Modell, das am besten zu den Eigenschaften Ihres Dokuments passt, und klicken Sie dann auf die Schaltfläche Erkennung starten und warten Sie. Ich habe das Modell Der Englisch Adler gewählt.

Transkribus English Eagle

Die Erkennungsaufträge handgeschriebener Texte, die von kostenlosen Benutzern erstellt wurden, erhalten eine niedrigere Priorität, sodass es eine Weile dauern kann, bis Transkribus seine Arbeit abschließt.

Transkribus Results

Nach dem Erkennungsprozess können Sie die Ergebnisse mit dem Dokumenteneditor von Transkribus verfeinern. Dieser synchronisiert Text- und Bildansichten für einen intuitiven Bearbeitungsprozess. Sie können Tags verwenden, um Entitäten, Ereignisse oder unklare Transkriptionen zu kennzeichnen.

Ein benutzerdefiniertes Modell trainieren, um die HTR-Leistung zu verbessern

Um ein benutzerdefiniertes Modell zu trainieren, bereiten Sie Ihre Basisdaten vor. Dies beinhaltet die genaue Transkription einer Reihe handgeschriebener Dokumente, die den Handschriftstilen entsprechen, die Sie das Modell erkennen lassen möchten. Je vielfältiger und repräsentativer Ihre Daten sind, desto besser wird Ihr Modell funktionieren.

Transkribus Train Text Recognition Model

Um ein Modell zu trainieren, klicken Sie auf die Schaltfläche Neues Modell trainieren. Wählen Sie die Option Texterkennungsmodell, wählen Sie die Kollektion mit Ihren Basisdokumenten aus und wählen Sie dann die Seiten aus, die in die Trainings- und Validierungsdaten einbezogen werden sollen. Die Trainingsdaten werden verwendet, um die Parameter des Modells anzupassen, während die Validierungsdaten eine unvoreingenommene Bewertung der Leistung des Modells bieten.

Transkribus Model Training Setup

Konfigurieren Sie die Einstellungen des Modells, wie die Sprache und das Zeichensatz, um den Trainingsprozess zu starten, der aus mehreren Zyklen oder „Epochen“ besteht, in denen das Modell aus Ihren Daten lernt. Transkribus stoppt das Training automatisch, wenn die Leistung des Modells nicht mehr verbessert wird.

Nach dem Training können Sie Ihr benutzerdefiniertes Modell verwenden, um neue Dokumente mit verbesserter Genauigkeit zu transkribieren.

Alternativen zu Transkribus

Während Transkribus meine erste Wahl zur Umwandlung handgeschriebener Dokumente in Text ist, gibt es viele andere großartige Optionen:

  • Pen2Txt ist ein Neuling in der HTR-Landschaft. Es zielt darauf ab, hohe Genauigkeit zu liefern, indem es die neuesten KI-Technologien nutzt, um sich an verschiedene Handschriftstile anzupassen. Obwohl es sich noch in der Entwicklung befindet, bietet Pen2Txt eine benutzerfreundliche Oberfläche und solide Leistung. Free-Nutzer sind jedoch auf nur drei Konversionen beschränkt.
  • Google Document AI ist Teil von Googles Suite von KI-gestützten Dokumentenverarbeitungs-Tools. Es bietet hervorragende Erkennung ohne Training, was es zu einer soliden Wahl für schnelle Konversionen macht. Sie können $300 an kostenlosem Guthaben erhalten, um das Tool auszuprobieren, müssen aber für die fortlaufende Nutzung pro Konversion zahlen.
  • GrabText ist ein einfaches Online-Tool, das handgeschriebene oder gedruckte Texte aus Fotos, Grafiken und Dokumenten erfasst und in bearbeitbaren Text umwandelt. Es bietet einen einfachen dreistufigen Prozess: den Text erfassen, automatische Korrekturen (einschließlich Rechtschreibung und Grammatik) anwenden und den umgewandelten Text in verschiedenen Formaten exportieren. Leider müssen Sie einen Freund einladen, um es kostenlos zu nutzen.

Ob Sie sich für Transkribus oder eine der oben genannten Alternativen entscheiden, Sie werden in der Lage sein, Ihre Dokumente problemlos zu digitalisieren. Wenn Sie nach weiteren Optionen suchen, erfahren Sie, wie Sie Bilder mit OCR auf Android in Text umwandeln können.

Bildquelle: Pixabay. Alle Screenshots von David Morelo.