Comment convertir des documents manuscrits en texte

Si vous avez une pile de documents manuscrits qui demandent à être numérisés pour permettre un accès facile à l’édition, au partage et au stockage, la technologie de reconnaissance de l’écriture manuscrite (HTR) est là pour vous sauver. Grâce à elle, vous pouvez convertir des documents manuscrits en texte en quelques étapes simples, et tout ce dont vous avez besoin est un scanner et un logiciel.
Table des matières
- Le défi de la numérisation des documents manuscrits
- Convertir des documents manuscrits en texte avec Transkribus
- Alternatives à Transkribus
Le défi de la numérisation des documents manuscrits
La numérisation de documents manuscrits et leur conversion en texte numérique peut être un véritable défi, car elle présente un ensemble unique de problèmes :
- L’écriture manuscrite varie d’une personne à l’autre, rendant difficile pour les logiciels de reconnaissance optique de caractères (OCR) standard de reconnaître et de transcrire le texte avec précision.
- Les documents manuscrits contiennent souvent des erreurs, telles que des mots barrés et des fautes d’orthographe, ce qui peut encore plus embrouiller les logiciels de numérisation.
- De nombreux documents écrits à la main sont anciens, et la qualité du papier, de l’encre utilisée, et même la présence de marques parasites ou de plis peuvent compliquer le processus de numérisation.
Pour faire face à ces défis et à d’autres, les développeurs de logiciels ont créé des logiciels spécialisés de reconnaissance de l’écriture manuscrite (HTR), conçus spécifiquement pour le travail de conversion des documents manuscrits en texte.
Les outils HTR utilisent des algorithmes avancés pour s’adapter à différents styles d’écriture, différencier le texte intentionnel et les marques ou corrections indésirables, et gérer les documents anciens ou abîmés.
Convertir des documents manuscrits en texte avec Transkribus
Lorsqu’il s’agit de convertir des documents manuscrits en texte, il existe de nombreux outils HTR disponibles. Cependant, celui que je recommande le plus est Transkribus. C’est un logiciel en ligne avec une version de bureau qui est extrêmement facile à utiliser, et vous pouvez l’entraîner pour améliorer ses performances.
D’emblée, les résultats avec Transkribus peuvent être décevants. Cependant, le véritable pouvoir de cet outil réside dans son interface d’entraînement. Avec un peu de temps et d’efforts, vous pouvez former Transkribus à reconnaître votre écriture de manière plus précise, ce qui peut considérablement améliorer la qualité de la transcription.
La version gratuite de Transkribus vous permet de convertir jusqu’à 100 documents et d’effectuer jusqu’à cinq cycles d’entraînement par mois (plus d’informations sur ceux-ci bientôt). Pour commencer, visitez le site web de l’outil, cliquez sur le bouton Essayer gratuitement, et créez un compte utilisateur.

Pour commencer à convertir votre document, ouvrez la collection par défaut dans Transkribus. Pensez aux collections comme à des dossiers où vous pouvez organiser votre travail, chaque collection contenant des documents individuels. Chaque document est composé d’images qui représentent les pages réelles de votre texte.

Pour ajouter votre document, cliquez sur le bouton Télécharger des fichiers. Transkribus accepte divers formats, comme les JPEG, PNG et PDF, mais pour une reconnaissance optimale, il recommande d’utiliser des JPEG à 300 DPI. Une fois vos documents téléchargés, vous êtes prêt à convertir le document manuscrit en texte.

Ouvrez le document et sélectionnez toutes les images que vous souhaitez convertir. Cliquez sur le bouton Reconnaître.

Transkribus propose une gamme de modèles publics pour différentes langues et périodes. Pour une reconnaissance immédiate du texte sans formation, choisissez celui qui correspond le mieux aux caractéristiques de votre document, puis cliquez sur le bouton Démarrer la reconnaissance et attendez. J’ai choisi le modèle L’Aigle Anglais.

Les tâches de reconnaissance de texte manuscrit créées par des utilisateurs gratuits reçoivent une priorité faible, donc cela peut prendre un certain temps pour que Transkribus termine.

Après le processus de reconnaissance, peaufinez les résultats en utilisant l’éditeur de documents Transkribus. Il synchronise les vues de texte et d’image pour un processus d’édition intuitif. Vous pouvez utiliser des tags pour marquer des entités, des événements ou des transcriptions incertaines.
Former un modèle personnalisé pour améliorer les performances HTR
Pour former un modèle personnalisé, préparez vos données de vérité de base. Cela implique de transcrire avec précision un ensemble de documents manuscrits qui correspondent aux styles d’écriture que vous souhaitez que le modèle reconnaisse. Plus vos données sont variées et représentatives, meilleures seront les performances de votre modèle.

Pour former un modèle, cliquez sur le bouton Former un nouveau modèle. Sélectionnez l’option Modèle de reconnaissance de texte, choisissez la collection contenant votre(s) document(s) de vérité de base, puis sélectionnez les pages à inclure dans les données d’entraînement et de validation. Les données d’entraînement sont utilisées pour ajuster les paramètres du modèle, tandis que les données de validation fournissent une évaluation impartiale des performances du modèle.

Configurez les paramètres du modèle, tels que la langue et le jeu de caractères pour commencer le processus d’entraînement, qui implique plusieurs cycles ou “époques” où le modèle apprend à partir de vos données. Transkribus arrête automatiquement l’entraînement lorsque les performances du modèle cessent de s’améliorer.
Après l’entraînement, utilisez votre modèle personnalisé pour transcrire de nouveaux documents avec une précision améliorée.
Alternatives à Transkribus
Bien que Transkribus soit mon premier choix pour convertir des documents manuscrits en texte, il existe de nombreuses autres bonnes options :
- Pen2Txt est un nouvel arrivant dans le paysage HTR. Il vise à offrir une haute précision en s’appuyant sur les dernières technologies AI pour s’adapter à divers styles d’écriture. Bien qu’il soit encore en développement, Pen2Txt offre une interface conviviale et une performance solide. Cependant, les utilisateurs gratuits sont limités à seulement trois conversions.
- Google Document AI fait partie de la suite d’outils de traitement de documents alimentés par l’IA de Google. Il offre une excellente reconnaissance prête à l’emploi sans formation, ce qui en fait un choix solide pour des conversions rapides. Vous pouvez obtenir 300 $ de crédit gratuit pour essayer l’outil, mais vous devrez payer à l’utilisation pour continuer à l’utiliser.
- GrabText est un outil en ligne simple qui capture du texte manuscrit ou imprimé à partir de photos, graphiques et documents, et le convertit en texte modifiable. Il propose un processus simple en trois étapes : capturer le texte, appliquer des corrections automatiques (y compris l’orthographe et la grammaire), et exporter le texte converti dans divers formats. Malheureusement, vous devez inviter un ami pour l’utiliser gratuitement.
Que vous choisissiez Transkribus ou l’une des alternatives mentionnées ci-dessus, vous serez en mesure de numériser vos documents avec facilité. Si vous recherchez d’autres options, apprenez à convertir des images en texte en utilisant OCR sur Android.
Crédit image : Pixabay. Toutes les captures d’écran de David Morelo.