Architecture RAG

Multimodal RAG

Au-delà du texte : indexer et retriever des images, tableaux, schémas et documents visuels. De l'OCR classique à ColPali.

Mis à jour en avril 2026 - Benchmarks ViDoRe (Faysse et al., 2024), DocVQA

Multimodal RAG - images, tableaux et graphiques avec ColPali

Le texte ne suffit plus

Un pipeline RAG classique ne traite que du texte. Les tableaux sont aplatis en lignes incohérentes, les schémas d'architecture sont ignorés, les graphiques deviennent invisibles. Sur un corpus technique typique, 30-50 % de l'information est visuelle : diagrammes, captures d'écran, tableaux de données, infographies.

L'OCR traditionnelle (Tesseract, Textract) extrait le texte mais perd la structure. Un tableau financier devient une liste de chiffres sans colonnes. Un schéma d'architecture devient une poignée de labels déconnectés. Le retrieval sur ce texte dégradé est médiocre.

Multimodal RAG résout ce problème avec trois approches progressives : améliorer le parsing OCR, utiliser un VLM pour décrire les pages, ou embedder directement les images avec ColPali. Cette dernière approche atteint 81,3 nDCG@5 sur ViDoRe - 10-15 points au-dessus de l'OCR - sans aucun parsing.

Outils interactifs

Comparez les pipelines multimodaux et estimez le coût d'indexation VLM vs OCR.

Comparateur pipelines multimodaux

Comparez 3 approches d'indexation sur différents types de documents visuels.

Document

Rapport trimestriel avec tableaux de chiffres, colonnes alignées, totaux en gras.

OCR + chunking texte

Faible35 %

L'OCR extrait les chiffres mais perd l'alignement colonnes/lignes. Les totaux sont mélangés avec les détails. Le chunking coupe au milieu du tableau.

Extraction OCR (Tesseract, Amazon Textract), puis chunking classique. Les images et la mise en page sont perdues.

VLM captioning

Moyenne75 %

Le VLM décrit correctement la structure du tableau et les tendances. Les chiffres précis peuvent être approximés ou omis dans la description textuelle.

Un Vision LLM (GPT-4o, Claude Sonnet 4) décrit chaque page en texte. Le texte généré est ensuite indexé comme un chunk classique.

ColPali (embedding visuel)

Élevée90 %

L'embedding capture la structure visuelle complète : colonnes, lignes, mise en forme. Le retrieval retrouve le bon tableau même avec une requête en langage naturel.

ColPali encode directement le screenshot de la page en vecteurs multi-token. Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.

Scores de fidélité indicatifs basés sur les benchmarks ViDoRe (Faysse et al., 2024) et DocVQA. Les résultats réels dépendent de la qualité des documents et du modèle utilisé.

Calculateur coût indexation multimodale

Estimez le coût et le temps d'indexation VLM vs OCR classique.

Nombre de pages : 500

5010 000

Modèle de vision

Résolution

VLM / ColPali

Coût estimé0,15 $

Temps estimé4 min

Coût/page0,0003 $

OCR classique (baseline)

Coût estimé0,75 $

Temps estimé2 min

Coût/page0,0015 $

Ratio coût VLM/OCR : Le VLM est 5.0x moins cher que l'OCR. ColPali et les modèles Flash rendent l'indexation multimodale compétitive.

Coûts estimés en avril 2026. OCR baseline : Amazon Textract. Le coût VLM inclut l'appel API par page. ColPali : coût GPU estimé (A100, cloud).

3 approches d'indexation multimodale

Du plus simple (OCR) au plus avancé (ColPali). Chaque approche a son compromis coût/fidélité.

OCR + chunking texte

Pipeline classique : extraction OCR (Tesseract, Amazon Textract, Google Document AI), puis chunking et indexation du texte brut. Les images, tableaux et mise en page sont perdus ou dégradés.

Avantages

Mature et bien outillé (Textract, Document AI)
Compatible avec tout pipeline RAG existant
Coût faible (0,001-0,002 $/page)

Inconvénients

Perd la structure visuelle (colonnes, alignement)
Les schémas et graphiques sont ignorés
Qualité dégradée sur les scans de mauvaise qualité

VLM captioning

Un Vision Language Model (GPT-4o, Claude Sonnet 4, Gemini) analyse chaque page et génère une description textuelle. Ce texte est ensuite indexé comme un chunk classique.

Avantages

Capture le contenu visuel en langage naturel
Décrit les tendances des graphiques et la structure des tableaux
Compatible avec tout index vectoriel existant

Inconvénients

Coût API élevé sur les gros corpus (0,001-0,005 $/page)
La description peut omettre des détails numériques précis
Latence d'indexation (1 appel LLM par page)

ColPali / embedding visuel direct

ColPali (Faysse et al., 2024) encode directement le screenshot de la page en vecteurs multi-token via un modèle de vision (PaliGemma). Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.

Avantages

Zéro pipeline de parsing (pas d'OCR, pas de chunking)
Capture toute l'information visuelle sans perte
nDCG@5 de 81,3 sur ViDoRe (vs 65-75 pour le texte seul)

Inconvénients

Modèle spécialisé à héberger (GPU requis)
Embeddings plus volumineux que le texte (multi-token)
Écosystème moins mature que le RAG textuel

Benchmarks Multimodal RAG

Le multimodal surpasse le text-only dès que les documents contiennent des éléments visuels. Le gain est maximal sur les infographies et les tableaux complexes.

Dataset	Type	Multimodal	Baseline	Note
ViDoRe	Document retrieval visuel	81,3 nDCG@5 (ColPali)	65-75 (OCR + BM25)	Benchmark dédié au retrieval de pages de documents. ColPali surpasse les pipelines OCR de 10-15 points sans aucun parsing.
DocVQA	Question answering sur documents	85-90 % accuracy (VLM)	70-78 % (OCR + LLM)	Questions sur des documents scannés. Les VLM lisent directement l'image et évitent les erreurs d'OCR sur les tableaux et formulaires.
InfoVQA	QA sur infographies	72-78 % accuracy (VLM)	45-55 % (OCR)	Questions sur des infographies complexes. L'OCR échoue presque totalement sur les éléments graphiques. Le VLM interprète le visuel.
TabFact	Vérification factuelle sur tableaux	80-85 % accuracy (VLM)	65-72 % (OCR + parsing)	Vérifier si une affirmation est supportée par un tableau. Le VLM comprend la structure tabulaire sans parsing explicite.

Multimodal vs text-only vs OCR vs ColPali

Le choix dépend de la nature de vos documents. Le texte pur reste optimal pour les contenus purement textuels. Le multimodal devient indispensable dès que le visuel porte de l'information.

Critère	Multimodal (VLM)	Text-only	OCR pipeline	ColPali
Contenu textuel pur	Équivalent (VLM) / Bon (ColPali)	Excellent	Bon	Bon
Tableaux structurés	Fort (VLM + ColPali)	Faible (perd la structure)	Modéré (parsing fragile)	Fort (structure visuelle)
Schémas et diagrammes	Fort	Nul (ignorés)	Faible (labels seuls)	Excellent (topologie capturée)
Coût d'indexation	Élevé (VLM) / Modéré (ColPali)	Faible	Faible	Modéré (GPU)
Latence de retrieval	Standard	Standard	Standard	Standard (ANN search)
Cas d'usage idéal	Documents visuels hétérogènes	Texte pur (articles, mails)	Formulaires structurés	PDF/scans avec mise en page riche

5 limites à connaître

Le RAG multimodal est en progression rapide mais reste plus coûteux et moins outillé que le RAG textuel classique.

1. Coût des Vision LLM

Le captioning VLM coûte 5-10x plus cher que l'OCR par page. Sur un corpus de 100 000 pages, la différence est significative. ColPali réduit ce coût (GPU local) mais nécessite l'infrastructure. Le choix dépend du volume et de la proportion de contenu visuel.

2. Hallucinations visuelles

Les VLM peuvent halluciner des détails numériques : lire "1 250" au lieu de "12 500" dans un tableau, inventer des tendances dans un graphique. La validation post-génération est indispensable, surtout pour les chiffres financiers ou médicaux.

3. Résolution et qualité d'image

La qualité du retrieval multimodal dépend directement de la résolution de l'image source. Les scans basse résolution (< 150 DPI), les photos floues ou les PDF avec compression JPEG agressive dégradent les performances de ColPali et des VLM.

4. Évaluation encore immature

Les métriques d'évaluation pour le RAG multimodal sont moins établies que pour le texte. ViDoRe (2024) est le premier benchmark dédié. Il manque des métriques standardisées pour évaluer la fidélité de la description VLM ou la qualité du retrieval sur des schémas.

5. Embeddings volumineux

ColPali produit des embeddings multi-token (1 028 vecteurs de 128 dimensions par page). Le stockage et la recherche sont plus coûteux que pour des embeddings texte classiques (1 vecteur de 768-1536 dimensions). L'index vectoriel doit supporter le late interaction scoring.

Multimodal RAG : le retrieval qui voit

Ignorer le contenu visuel, c'est ignorer 30-50 % de l'information de vos documents. Le RAG multimodal comble ce manque avec trois niveaux de sophistication : OCR amélioré pour les cas simples, VLM captioning pour la compréhension visuelle, ColPali pour le retrieval natif sur images.

Commencez par identifier la proportion de contenu visuel dans votre corpus. Si elle dépasse 20 %, le multimodal est justifié. Combinez avec Hybrid RAG pour le retrieval textuel et Agentic RAG pour orchestrer les sources multimodales. Retrouvez toutes les architectures dans le guide des 12 architectures RAG.

← Agentic RAG Toutes les architectures RAG

Formation RAG (2 jours)Discuter d'un projet