Nous avons développé un modèle de correction OCR néerlandais utilisant l'architecture ByT5, qui est capable d'identifier et de rectifier les erreurs OCR. La technologie de reconnaissance optique de caractères (OCR) est largement utilisée pour convertir des documents scannés en texte numérisé, mais elle produit souvent des erreurs. Pour automatiser la phase manuelle de post-correction, nous avons entraîné le modèle ByT5 sur un vaste ensemble de données néerlandaises et simulé des erreurs d'OCR à l'aide de la bibliothèque nlpaug. ByT5, un modèle sans jeton qui fonctionne sur des octets bruts de texte, s'avère plus résistant aux données bruitées que les modèles basés sur les jetons. Notre implémentation, qui comprend le chargement des données, l'apprentissage du modèle et l'inférence, démontre l'efficacité du modèle ByT5 dans les tâches de correction de l'OCR. Les résultats mettent en évidence ses avantages par rapport aux modèles à base de jetons pour les phrases de taille petite à moyenne avec des niveaux de bruit élevés. Ce modèle de correction OCR constitue une solution puissante pour automatiser la phase de post-traitement et améliorer la précision des résultats OCR.
L'article de blog peut être consulté sur notre canal Medium en cliquant sur ce lien.