Qu'est-ce que l'OCR (Optical Character Recognition) ?

Qu’est-ce que l’OCR (Optical Character Recognition) ?

L’optical Character Recognition ou OCR, est une technique de traitements des images qui permet de détecter et reconnaitre le texte contenu dans une image.

Même si l’OCR n’a pas attendu le deep learning pour se développer, les récentes avancées sur ce domaine ont permis d’améliorer de façon considérable les temps de traitement et la précision.

Dans cet article, on explique le fonctionnement des méthodes d’OCR, et on présente certaines applications de cette technique.

Comment fonctionne l’Optical Character Recognition ?

L’OCR est une des techniques d’analyse d’images les plus anciennes.

Les méthodes classiques

Les méthodes classiques reposaient quasiment exclusivement sur des mathématiques et permettaient déjà d’avoir des résultats exploitables.

La méthode la plus simple consiste à détecter les contours du caractère, en identifiant les pixels ou on a un changement brusque d’intensité. On va ensuite calculer une distance mathématique entre la matrice résultante, et des matrices de références pré-définies pour chaque caractère.

Qu'est-ce que l'OCR (Optical Character Recognition) ?

Dans une forme un peu plus avancée, mais toujours en gardant le même esprit, on peut travailler avec des méthodes de gradients, qui sont largement utilisées pour la détection de contour en général.

L’arrivée des CNN

Les réseaux de neurones de convolutions ont fait considérablement avancer le domaine de l’OCR. Les techniques d’aujourd’hui sont beaucoup plus performantes et robustes. Même si elles sont gourmandes en données d’entraînement et en capacité de calcul.

Avec les CNN, on laisse le modèle trouver les caractéristiques et les pattern tout seul, on lui donne uniquement les images brutes sans aucune information sur les contours. En l’alimentant avec plusieurs images représentants la lettre a, on le laisse comprendre seul ce qui caractérise la lettre a en trouvant les similarités. C’est le travail qu’il fera dans la phase d’entraînement.

Dans la phase de détection, le modèle va rechercher dans ce qu’il aura appris les caractéristiques du caractère qu’il doit prédire.

Quels outils utiliser pour faire de l’OCR ?

Les solutions qui permettent de faire de l’OCR sont nombreuses :

  • Tesseract : c’est une solution open-source proposée par Google, c’est de loin la plus utilisée, la plus légère et la plus simple à prendre en main
  • GOCR
  • Kraken (rien à voir avec la plateforme de crypto ahah)

Quelles sont les applications de l’OCR ?

L’OCR est un des domaines de la vision par ordinateur les plus actifs et qui se renouvèle le plus. Ceci s’explique par le fait qu’il soit facile à mettre en place et à forte valeur ajoutée dans beaucoup de domaines.

Tri automatisé du courrier

Une des applications les plus connues de l’OCR est la lecture automatisée des adresses postales pour le tri des courriers.

Chaque année, La Poste distribue plus de 14 milliards de lettres et colis à travers la France. Pour trier rapidement et efficacement ces colis, et donc permettre une distribution plus rapide du courier, La Poste mise sur l’OCR. Des modèles performants permettent de détecter et lire les adresses qu’elles soient manuscrites ou non, pour les classer.

C’est pour la reconnaissance de chiffres manuscrits que les CNN ont été proposés initialement. Et jusqu’à aujourd’hui, l’un des premiers projets que l’on réalise lorsque l’on veut apprendre la vision par ordinateur et celui fait sur la base MNIST qui regroupe des images des chiffres manuscrits de 0 à 9.

KYC (Know Your Customer)

L'OCR pour le contrôle automatisée d'identité

Lorsque vous créez un compte bancaire en ligne ou que vous faites une démarche administrative, il vous est demandé de prendre en photo votre carte d’identité ou autres documents. Se sont souvent des techniques d’OCR qui sont utilisées pour faire une vérification d’identité automatisée.

Elles permettent d’extraire vos informations (nom, prénom, date et lieu de naissance, adresse, etc.).

L’OCR pour la gestion des documents administratifs

L’OCR peut aider dans la gestion des documents administratifs. A l’échelle d’une famille déjà la quantité de documents à traiter est assez énorme, je vous laisse imaginer ce que c’est à l’échelle d’une grande entreprise.

Pour faciliter le traitement du courier, des modèles d’OCR peuvent servir de premier tri qui permet de distribuer le courier plus facilement et de façon automatisée à chaque service.

Les modèles les plus performants peuvent en plus de détecter et reconnaitre le texte, comprendre ce que dit le message, le résumé et envoyer un note simplifiée ou ajouter une tâche. On pourrait même imaginer un système dans lequel la deadline est reconnue automatiquement et ajoutée à un calendrier.

Traduction des panneaux et affichages et de signalisation

l'OCR pour la traduction

Google a proposé il y a plusieurs années une application qui permet de traduire un texte en utilisant la caméra. Cette application m’a pas mal servie pendant mes voyages et c’est un exemple parfait d’utilisation de l’OCR.

Application de l’OCR dans le domaine du retail

Dans le domaine du retail aussi l’OCR est de plus en plus utilisée.

Les entreprises de l’agroalimentaires qui ont des contrats avec des grands distributeurs comme Carrefour, ont des clauses assez strictes sur le positionnement de leurs produits. Le simple fait d’avoir une bouteille ou un paquet de gâteau disposé à l’envers dans le rayon constitue un manque à gagner pour l’entreprise, et donc des contrôles assez réguliers sont éféctués.

L’OCR, et la vision par ordinateur en général, vont permettre de vérifier si les produits sont correctement disposés et si la marque de l’entreprise et bien lisible.

Conclusion

L’OCR est une technique assez simple à mettre en oeuvre, peu couteuse et qui peut faire gagner beaucoup de temps. C’est ce qui fait que c’est une des techniques de traitement d’images les plus utilisées et les plus appréciées.