DeepSeek‑OCR : vers une nouvelle ère de l’OCR et de la compression visuelle
- ARKTechNews

- 15 nov. 2025
- 2 min de lecture
Le modèle DeepSeek‑OCR (Optical Character Recognition), développé par DeepSeek AI, explore une approche inédite : au lieu de convertir les documents en long flux de texte puis de les injecter dans un modèle de langage, l’idée est de transformer ces documents en représentation visuelle compressée, puis d’en extraire l’information textuelle ou sémantique. Cette méthode, que l’on pourrait qualifier de « compression optique du contexte », propose de réduire drastiquement le nombre de « tokens texte » tout en préservant l’essentiel du contenu. D’après le papier de DeepSeek, quand le nombre de tokens texte est jusqu’à 10 fois celui des tokens visuels, le modèle atteint environ 97 % de précision en décodage OCR. Même avec une compression de l’ordre de 20×, l’exactitude reste proche de 60 %. Les applications sont nombreuses : documents scientifiques, manuels techniques, rapports financiers, tout ce qui mêle texte, graphiques, tableaux et mises en page complexes.
Comment ça fonctionne et pourquoi c’est intéressant
La méthode repose sur deux composantes principales : un encodeur visuel haute résolution (DeepEncoder) qui transforme la page en image ou patchs visuels, puis un décodeur (DeepSeek3B‑MoE‑A570M) qui interprète cette représentation compressée pour restituer, interroger ou résumer le contenu. L’intérêt majeur se situe dans la gestion du « contexte long » pour les modèles de langage : en compressant visuellement l’information, on réduit le nombre de tokens nécessaires, ce qui peut alléger les contraintes de mémoire, d’attention ou de coût de calcul des grands modèles. Cette approche « vision‑comme‑compression » remet en cause les pipelines classiques d’OCR qui se limitent à extraire du texte, sans forcément préserver la structure visuelle, la mise en page ou le contexte global. DeepSeek‑OCR revendique ainsi non seulement un rendement élevé mais aussi une restitution fidèle des mises en page complexes.

Limites, défis et perspectives
Toutefois, plusieurs réserves sont à souligner. Premièrement, il existe un compromis clair entre taux de compression et précision : à compression élevée (≈20×), la précision chute significativement. Cela suggère qu’il reste des limites fondamentales à ce que la compression visuelle peut conserver. Deuxièmement, bien que les résultats annoncés soient prometteurs, peu de benchmarks indépendants comparatifs à long terme ont encore été publiés. Il faudra vérifier, dans des environnements réels et diversifiés, si la fidélité, la robustesse (langues variées, documents mal scannés, manuscrits, etc.) et la rentabilité sont bien au rendez‑vous. Enfin, cette technologie soulève des questions concernant l’intégration dans des chaînes d’exploitation existantes (OCR, extraction de données, workflow documentaire), l’opérabilité sur des infrastructures matérielles standards, et la gestion des documents très spécialisés (formules mathématiques, écriture manuscrite, langues rares). Mais elle ouvre également des perspectives intéressantes : une meilleure gestion de la mémoire à long terme des modèles, la possibilité de traiter des volumes documentaires plus importants, et une réduction des coûts de calcul dans l’écosystème IA.
#DeepSeekOCR #compressionvisuelle #OCR #documentAI #visionascompression #longcontexte #tokens #LLM #DeepSeekAI
Sources :


