Qu'est-ce que l'OCR (Optical Character Recognition) ?

L’OCR (ou Optical Character Recognition) est une technique de traitement d’images qui permet de détecter et de convertir le texte contenu dans une image (document scanné, photo, PDF image) en données textuelles exploitables par une machine.

Si l’OCR n’a pas attendu l’intelligence artificielle générative pour exister, la définition même du terme a évolué. Il ne s’agit plus seulement de « reconnaître des lettres », mais de comprendre un document.

Les avancées récentes en deep learning et en modèles multimodaux ont transformé l’OCR : on est passé d’une simple transcription littérale à une véritable extraction sémantique structurée.

Dans cet article, nous explorons le fonctionnement historique de l’OCR, ses ruptures technologiques récentes (Transformers, Multimodalité), et ses nouvelles applications stratégiques.

Comment fonctionne l’Optical Character Recognition ?

Pour comprendre la puissance des outils actuels, il faut regarder le chemin parcouru : des approches classiques mathématiques à la multimodalité.

Les méthodes classiques

Les méthodes historiques reposaient exclusivement sur des algorithmes de vision géométrique.

Détection de contours : L’algorithme identifie les changements brusques d’intensité (contraste noir/blanc) pour isoler des formes.

Pattern Matching : On compare la matrice de pixels de la forme isolée avec des matrices de référence (le contour d’un « A », d’un « B », etc.) via des calculs de distance mathématique.

Ces méthodes, bien que rapides, étaient très rigides : une légère inclinaison, une police exotique ou une tache d’encre suffisaient à faire échouer la lecture.

L’arrivée des CNN et des RNN

Les réseaux de neurones de convolutions ont fait considérablement avancer le domaine de l’OCR. Les techniques d’aujourd’hui sont beaucoup plus performantes et robustes. Même si elles sont gourmandes en données d’entraînement et en capacité de calcul.

Avec les CNN, on laisse le modèle trouver les caractéristiques et les pattern tout seul, on lui donne uniquement les images brutes sans aucune information sur les contours.

En l’alimentant avec plusieurs images représentants la lettre a, on le laisse comprendre seul ce qui caractérise la lettre a en trouvant les similarités. C’est le travail qu’il fera dans la phase d’entraînement.

Dans la phase de détection, le modèle va rechercher dans ce qu’il aura appris les caractéristiques du caractère qu’il doit prédire. Le modèle analyse l’image brute et repère des motifs abstraits (courbes, lignes).

Souvent couplés à des réseaux récurrents RNN ou LSTM, ces systèmes peuvent utiliser le contexte séquentiel.

Si le modèle lit « M-A-I-S-O… », il anticipe que la prochaine lettre a une forte probabilité d’être un « N ». C’est cette technologie qui a popularisé l’OCR moderne.

OCR et multimodalité

En intelligence artificielle, la multimodalité désigne la capacité d’un système à ingérer, traiter et mettre en relation simultanément plusieurs types de données (ou « modalités »), comme le texte, l’image et le son.

Contrairement aux systèmes anciens qui utilisaient des modules séparés (un module pour « voir » l’image, puis un autre pour « lire » le texte), un modèle multimodal natif traite les pixels de l’image et les concepts linguistiques dans un même espace de compréhension unifié.

Les modèles de langage modernes (LLM) sont devenus multimodaux. Pour des modèles comme GPT-4o, Claude 3.5, ou Janus (DeepSeek), il n’y a plus de frontière stricte entre le texte et l’image. Le modèle « voit » l’image du texte et la projette dans le même espace vectoriel que le texte pur.

Contextualisation absolue : Si un mot est flou ou taché, le modèle devine le mot manquant grâce au sens global de la phrase, exactement comme un humain le ferait, là où un OCR classique aurait produit un caractère erroné.
Zéro configuration : Ces modèles gèrent nativement l’écriture manuscrite complexe, les ratures et les mélanges de langues.

De l’OCR au Layout Parsing

Reconnaître les caractères ne suffit plus. Le véritable enjeu aujourd’hui est de conserver la structure du document pour permettre une compréhension complète du contexte par l’IA. C’est ce qu’on appelle le Document Layout Analysis.

De l'OCR au document layout parsing — De l’OCR au document layout parsing (Layout-Parser)

Un document n’est pas une simple suite linéaire de mots, mais une organisation spatiale complexe.

Un OCR classique échoue souvent face à cette complexité : il lit les tableaux ligne par ligne sans comprendre les colonnes, rendant les données inexploitables, ou mélange le contenu de colonnes de journaux distinctes.

Le défi actuel est donc de comprendre cette hiérarchie visuelle pour distinguer un titre, un sous-titre ou une légende d’image, et ainsi restituer une structure logique cohérente.

Les modèles récents ne se contentent pas d’extraire le texte « brut », ils génèrent du Markdown ou du JSON qui représente fidèlement la mise en page (tableaux intacts, titres balisés).

Quels outils utiliser pour faire de l’OCR ?

Le marché s’est scindé en deux catégories : les moteurs spécialisés (rapides et locaux) et les modèles génératifs (puissants mais coûteux).

Les solutions Open-Source & Spécialisées

Tesseract : Le vétéran de Google. Toujours utile pour des tâches simples, mais vieillissant face aux documents complexes.
PaddleOCR & DocTR : Des bibliothèques modernes basées sur le Deep Learning, très performantes pour l’anglais et le chinois, et capables de tourner en local sur des serveurs classiques.
Kraken : Excellente solution pour les documents historiques et les scripts complexes.

Les modèles d’IA générative

C’est ici que se concentrent les dernières avancées :

Vision LLMs (OpenAI/Anthropic/Google) : Ces modèles permettent non seulement de lire le texte, mais d’interroger l’image (« Quel est le total de cette facture ? ») sans passer par une étape de programmation complexe.
Mistral OCR : La pépite française Mistral AI a lancé des fonctionnalités d’OCR optimisées pour transformer des PDF complexes en texte structuré, idéales pour le traitement de données d’entreprise.
DeepSeek (Janus/VL) : Les modèles multimodaux chinois montrent des capacités impressionnantes de raisonnement visuel.

Quelles sont les applications de l’OCR ?

L’OCR est un des domaines de la vision par ordinateur les plus actifs et qui se renouvèle le plus. Ceci s’explique par le fait qu’il soit facile à mettre en place et à forte valeur ajoutée dans beaucoup de domaines.

Tri automatisé du courrier

Une des applications les plus connues de l’OCR est la lecture automatisée des adresses postales pour le tri des courriers.

Chaque année, La Poste distribue plus de 14 milliards de lettres et colis à travers la France. Pour trier rapidement et efficacement ces colis, et donc permettre une distribution plus rapide du courier, La Poste mise sur l’OCR. Des modèles performants permettent de détecter et lire les adresses qu’elles soient manuscrites ou non, pour les classer.

C’est pour la reconnaissance de chiffres manuscrits que les CNN ont été proposés initialement. Et jusqu’à aujourd’hui, l’un des premiers projets que l’on réalise lorsque l’on veut apprendre la vision par ordinateur et celui fait sur la base MNIST qui regroupe des images des chiffres manuscrits de 0 à 9.

KYC (Know Your Customer)

L'OCR pour le contrôle automatisée d'identité

Lorsque vous créez un compte bancaire en ligne ou que vous faites une démarche administrative, il vous est demandé de prendre en photo votre carte d’identité ou autres documents. Se sont souvent des techniques d’OCR qui sont utilisées pour faire une vérification d’identité automatisée.

Elles permettent d’extraire vos informations (nom, prénom, date et lieu de naissance, adresse, etc.).

L’OCR pour la gestion des documents administratifs

L’OCR peut aider dans la gestion des documents administratifs. A l’échelle d’une famille déjà la quantité de documents à traiter est assez énorme, je vous laisse imaginer ce que c’est à l’échelle d’une grande entreprise.

Pour faciliter le traitement du courier, des modèles d’OCR peuvent servir de premier tri qui permet de distribuer le courier plus facilement et de façon automatisée à chaque service.

Les modèles les plus performants peuvent en plus de détecter et reconnaitre le texte, comprendre ce que dit le message, le résumé et envoyer un note simplifiée ou ajouter une tâche. On pourrait même imaginer un système dans lequel la deadline est reconnue automatiquement et ajoutée à un calendrier.

Traduction des panneaux et affichages et de signalisation

Google a proposé il y a plusieurs années une application qui permet de traduire un texte en utilisant la caméra. Cette application m’a pas mal servie pendant mes voyages et c’est un exemple parfait d’utilisation de l’OCR.

Application de l’OCR dans le domaine du retail

Dans le domaine du retail aussi l’OCR est de plus en plus utilisée.

Les entreprises de l’agroalimentaires qui ont des contrats avec des grands distributeurs comme Carrefour, ont des clauses assez strictes sur le positionnement de leurs produits. Le simple fait d’avoir une bouteille ou un paquet de gâteau disposé à l’envers dans le rayon constitue un manque à gagner pour l’entreprise, et donc des contrôles assez réguliers sont éféctués.

L’OCR, et la vision par ordinateur en général, vont permettre de vérifier si les produits sont correctement disposés et si la marque de l’entreprise et bien lisible.

OCR pour les RAG

C’est l’application reine du moment. Les entreprises veulent discuter avec leurs propres données (PDF techniques, rapports financiers).

Pour ce faire, il faut transformer ces PDF « morts » en texte exploitable par l’IA. Un OCR de haute qualité (incluant le Layout Parsing) est indispensable pour ne pas perdre l’information contenue dans les tableaux ou les graphiques lors de cette conversion.

Conclusion

L’OCR a changé de dimension. D’une technique de « reconnaissance de caractères », nous sommes passés à une ère de « compréhension de documents ».

Pour les développeurs et les data scientists, l’enjeu n’est plus de réussir à lire un caractère flou, mais de choisir le bon modèle entre coût, latence et intelligence, capable de restituer la structure logique de l’information.

Avec l’avènement des modèles multimodaux comme ceux de Mistral ou DeepSeek, la barrière entre le document physique et la donnée numérique n’a jamais été aussi fine.