Aller au contenu principal

Architecture RAG

Multimodal RAG

Au-delà du texte : indexer et retriever des images, tableaux, schémas et documents visuels. De l'OCR classique à ColPali.

Mis à jour en avril 2026 - Benchmarks ViDoRe (Faysse et al., 2024), DocVQA

Multimodal RAG - images, tableaux et graphiques avec ColPali

Le texte ne suffit plus

Un pipeline RAG classique ne traite que du texte. Les tableaux sont aplatis en lignes incohérentes, les schémas d'architecture sont ignorés, les graphiques deviennent invisibles. Sur un corpus technique typique, 30-50 % de l'information est visuelle : diagrammes, captures d'écran, tableaux de données, infographies.

L'OCR traditionnelle (Tesseract, Textract) extrait le texte mais perd la structure. Un tableau financier devient une liste de chiffres sans colonnes. Un schéma d'architecture devient une poignée de labels déconnectés. Le retrieval sur ce texte dégradé est médiocre.

Multimodal RAG résout ce problème avec trois approches progressives : améliorer le parsing OCR, utiliser un VLM pour décrire les pages, ou embedder directement les images avec ColPali. Cette dernière approche atteint 81,3 nDCG@5 sur ViDoRe - 10-15 points au-dessus de l'OCR - sans aucun parsing.

Outils interactifs

Comparez les pipelines multimodaux et estimez le coût d'indexation VLM vs OCR.

Comparateur pipelines multimodaux

Comparez 3 approches d'indexation sur différents types de documents visuels.

Document

Rapport trimestriel avec tableaux de chiffres, colonnes alignées, totaux en gras.

OCR + chunking texte
Faible35 %

L'OCR extrait les chiffres mais perd l'alignement colonnes/lignes. Les totaux sont mélangés avec les détails. Le chunking coupe au milieu du tableau.

Extraction OCR (Tesseract, Amazon Textract), puis chunking classique. Les images et la mise en page sont perdues.

VLM captioning
Moyenne75 %

Le VLM décrit correctement la structure du tableau et les tendances. Les chiffres précis peuvent être approximés ou omis dans la description textuelle.

Un Vision LLM (GPT-4o, Claude Sonnet 4) décrit chaque page en texte. Le texte généré est ensuite indexé comme un chunk classique.

ColPali (embedding visuel)
Élevée90 %

L'embedding capture la structure visuelle complète : colonnes, lignes, mise en forme. Le retrieval retrouve le bon tableau même avec une requête en langage naturel.

ColPali encode directement le screenshot de la page en vecteurs multi-token. Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.

Scores de fidélité indicatifs basés sur les benchmarks ViDoRe (Faysse et al., 2024) et DocVQA. Les résultats réels dépendent de la qualité des documents et du modèle utilisé.

Calculateur coût indexation multimodale

Estimez le coût et le temps d'indexation VLM vs OCR classique.

Modèle de vision
Résolution

VLM / ColPali

Coût estimé0,15 $
Temps estimé4 min
Coût/page0,0003 $

OCR classique (baseline)

Coût estimé0,75 $
Temps estimé2 min
Coût/page0,0015 $

Ratio coût VLM/OCR : Le VLM est 5.0x moins cher que l'OCR. ColPali et les modèles Flash rendent l'indexation multimodale compétitive.

Coûts estimés en avril 2026. OCR baseline : Amazon Textract. Le coût VLM inclut l'appel API par page. ColPali : coût GPU estimé (A100, cloud).

3 approches d'indexation multimodale

Du plus simple (OCR) au plus avancé (ColPali). Chaque approche a son compromis coût/fidélité.

OCR + chunking texte

Pipeline classique : extraction OCR (Tesseract, Amazon Textract, Google Document AI), puis chunking et indexation du texte brut. Les images, tableaux et mise en page sont perdus ou dégradés.

Avantages

  • Mature et bien outillé (Textract, Document AI)
  • Compatible avec tout pipeline RAG existant
  • Coût faible (0,001-0,002 $/page)

Inconvénients

  • Perd la structure visuelle (colonnes, alignement)
  • Les schémas et graphiques sont ignorés
  • Qualité dégradée sur les scans de mauvaise qualité

VLM captioning

Un Vision Language Model (GPT-4o, Claude Sonnet 4, Gemini) analyse chaque page et génère une description textuelle. Ce texte est ensuite indexé comme un chunk classique.

Avantages

  • Capture le contenu visuel en langage naturel
  • Décrit les tendances des graphiques et la structure des tableaux
  • Compatible avec tout index vectoriel existant

Inconvénients

  • Coût API élevé sur les gros corpus (0,001-0,005 $/page)
  • La description peut omettre des détails numériques précis
  • Latence d'indexation (1 appel LLM par page)

ColPali / embedding visuel direct

ColPali (Faysse et al., 2024) encode directement le screenshot de la page en vecteurs multi-token via un modèle de vision (PaliGemma). Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.

Avantages

  • Zéro pipeline de parsing (pas d'OCR, pas de chunking)
  • Capture toute l'information visuelle sans perte
  • nDCG@5 de 81,3 sur ViDoRe (vs 65-75 pour le texte seul)

Inconvénients

  • Modèle spécialisé à héberger (GPU requis)
  • Embeddings plus volumineux que le texte (multi-token)
  • Écosystème moins mature que le RAG textuel

Benchmarks Multimodal RAG

Le multimodal surpasse le text-only dès que les documents contiennent des éléments visuels. Le gain est maximal sur les infographies et les tableaux complexes.

DatasetTypeMultimodalBaselineNote
ViDoReDocument retrieval visuel81,3 nDCG@5 (ColPali)65-75 (OCR + BM25)Benchmark dédié au retrieval de pages de documents. ColPali surpasse les pipelines OCR de 10-15 points sans aucun parsing.
DocVQAQuestion answering sur documents85-90 % accuracy (VLM)70-78 % (OCR + LLM)Questions sur des documents scannés. Les VLM lisent directement l'image et évitent les erreurs d'OCR sur les tableaux et formulaires.
InfoVQAQA sur infographies72-78 % accuracy (VLM)45-55 % (OCR)Questions sur des infographies complexes. L'OCR échoue presque totalement sur les éléments graphiques. Le VLM interprète le visuel.
TabFactVérification factuelle sur tableaux80-85 % accuracy (VLM)65-72 % (OCR + parsing)Vérifier si une affirmation est supportée par un tableau. Le VLM comprend la structure tabulaire sans parsing explicite.

Multimodal vs text-only vs OCR vs ColPali

Le choix dépend de la nature de vos documents. Le texte pur reste optimal pour les contenus purement textuels. Le multimodal devient indispensable dès que le visuel porte de l'information.

CritèreMultimodal (VLM)Text-onlyOCR pipelineColPali
Contenu textuel purÉquivalent (VLM) / Bon (ColPali)ExcellentBonBon
Tableaux structurésFort (VLM + ColPali)Faible (perd la structure)Modéré (parsing fragile)Fort (structure visuelle)
Schémas et diagrammesFortNul (ignorés)Faible (labels seuls)Excellent (topologie capturée)
Coût d'indexationÉlevé (VLM) / Modéré (ColPali)FaibleFaibleModéré (GPU)
Latence de retrievalStandardStandardStandardStandard (ANN search)
Cas d'usage idéalDocuments visuels hétérogènesTexte pur (articles, mails)Formulaires structurésPDF/scans avec mise en page riche

5 limites à connaître

Le RAG multimodal est en progression rapide mais reste plus coûteux et moins outillé que le RAG textuel classique.

1. Coût des Vision LLM

Le captioning VLM coûte 5-10x plus cher que l'OCR par page. Sur un corpus de 100 000 pages, la différence est significative. ColPali réduit ce coût (GPU local) mais nécessite l'infrastructure. Le choix dépend du volume et de la proportion de contenu visuel.

2. Hallucinations visuelles

Les VLM peuvent halluciner des détails numériques : lire "1 250" au lieu de "12 500" dans un tableau, inventer des tendances dans un graphique. La validation post-génération est indispensable, surtout pour les chiffres financiers ou médicaux.

3. Résolution et qualité d'image

La qualité du retrieval multimodal dépend directement de la résolution de l'image source. Les scans basse résolution (< 150 DPI), les photos floues ou les PDF avec compression JPEG agressive dégradent les performances de ColPali et des VLM.

4. Évaluation encore immature

Les métriques d'évaluation pour le RAG multimodal sont moins établies que pour le texte. ViDoRe (2024) est le premier benchmark dédié. Il manque des métriques standardisées pour évaluer la fidélité de la description VLM ou la qualité du retrieval sur des schémas.

5. Embeddings volumineux

ColPali produit des embeddings multi-token (1 028 vecteurs de 128 dimensions par page). Le stockage et la recherche sont plus coûteux que pour des embeddings texte classiques (1 vecteur de 768-1536 dimensions). L'index vectoriel doit supporter le late interaction scoring.

Multimodal RAG : le retrieval qui voit

Ignorer le contenu visuel, c'est ignorer 30-50 % de l'information de vos documents. Le RAG multimodal comble ce manque avec trois niveaux de sophistication : OCR amélioré pour les cas simples, VLM captioning pour la compréhension visuelle, ColPali pour le retrieval natif sur images.

Commencez par identifier la proportion de contenu visuel dans votre corpus. Si elle dépasse 20 %, le multimodal est justifié. Combinez avec Hybrid RAG pour le retrieval textuel et Agentic RAG pour orchestrer les sources multimodales. Retrouvez toutes les architectures dans le guide des 12 architectures RAG.