Architecture RAG
Multimodal RAG
Au-delà du texte : indexer et retriever des images, tableaux, schémas et documents visuels. De l'OCR classique à ColPali.
Mis à jour en avril 2026 - Benchmarks ViDoRe (Faysse et al., 2024), DocVQA

Le texte ne suffit plus
Un pipeline RAG classique ne traite que du texte. Les tableaux sont aplatis en lignes incohérentes, les schémas d'architecture sont ignorés, les graphiques deviennent invisibles. Sur un corpus technique typique, 30-50 % de l'information est visuelle : diagrammes, captures d'écran, tableaux de données, infographies.
L'OCR traditionnelle (Tesseract, Textract) extrait le texte mais perd la structure. Un tableau financier devient une liste de chiffres sans colonnes. Un schéma d'architecture devient une poignée de labels déconnectés. Le retrieval sur ce texte dégradé est médiocre.
Multimodal RAG résout ce problème avec trois approches progressives : améliorer le parsing OCR, utiliser un VLM pour décrire les pages, ou embedder directement les images avec ColPali. Cette dernière approche atteint 81,3 nDCG@5 sur ViDoRe - 10-15 points au-dessus de l'OCR - sans aucun parsing.
Outils interactifs
Comparez les pipelines multimodaux et estimez le coût d'indexation VLM vs OCR.
Comparateur pipelines multimodaux
Comparez 3 approches d'indexation sur différents types de documents visuels.
Document
Rapport trimestriel avec tableaux de chiffres, colonnes alignées, totaux en gras.
L'OCR extrait les chiffres mais perd l'alignement colonnes/lignes. Les totaux sont mélangés avec les détails. Le chunking coupe au milieu du tableau.
Extraction OCR (Tesseract, Amazon Textract), puis chunking classique. Les images et la mise en page sont perdues.
Le VLM décrit correctement la structure du tableau et les tendances. Les chiffres précis peuvent être approximés ou omis dans la description textuelle.
Un Vision LLM (GPT-4o, Claude Sonnet 4) décrit chaque page en texte. Le texte généré est ensuite indexé comme un chunk classique.
L'embedding capture la structure visuelle complète : colonnes, lignes, mise en forme. Le retrieval retrouve le bon tableau même avec une requête en langage naturel.
ColPali encode directement le screenshot de la page en vecteurs multi-token. Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.
Scores de fidélité indicatifs basés sur les benchmarks ViDoRe (Faysse et al., 2024) et DocVQA. Les résultats réels dépendent de la qualité des documents et du modèle utilisé.
Calculateur coût indexation multimodale
Estimez le coût et le temps d'indexation VLM vs OCR classique.
VLM / ColPali
OCR classique (baseline)
Ratio coût VLM/OCR : Le VLM est 5.0x moins cher que l'OCR. ColPali et les modèles Flash rendent l'indexation multimodale compétitive.
Coûts estimés en avril 2026. OCR baseline : Amazon Textract. Le coût VLM inclut l'appel API par page. ColPali : coût GPU estimé (A100, cloud).
3 approches d'indexation multimodale
Du plus simple (OCR) au plus avancé (ColPali). Chaque approche a son compromis coût/fidélité.
OCR + chunking texte
Pipeline classique : extraction OCR (Tesseract, Amazon Textract, Google Document AI), puis chunking et indexation du texte brut. Les images, tableaux et mise en page sont perdus ou dégradés.
Avantages
- Mature et bien outillé (Textract, Document AI)
- Compatible avec tout pipeline RAG existant
- Coût faible (0,001-0,002 $/page)
Inconvénients
- Perd la structure visuelle (colonnes, alignement)
- Les schémas et graphiques sont ignorés
- Qualité dégradée sur les scans de mauvaise qualité
VLM captioning
Un Vision Language Model (GPT-4o, Claude Sonnet 4, Gemini) analyse chaque page et génère une description textuelle. Ce texte est ensuite indexé comme un chunk classique.
Avantages
- Capture le contenu visuel en langage naturel
- Décrit les tendances des graphiques et la structure des tableaux
- Compatible avec tout index vectoriel existant
Inconvénients
- Coût API élevé sur les gros corpus (0,001-0,005 $/page)
- La description peut omettre des détails numériques précis
- Latence d'indexation (1 appel LLM par page)
ColPali / embedding visuel direct
ColPali (Faysse et al., 2024) encode directement le screenshot de la page en vecteurs multi-token via un modèle de vision (PaliGemma). Pas d'OCR, pas de parsing - le retrieval opère sur l'image brute.
Avantages
- Zéro pipeline de parsing (pas d'OCR, pas de chunking)
- Capture toute l'information visuelle sans perte
- nDCG@5 de 81,3 sur ViDoRe (vs 65-75 pour le texte seul)
Inconvénients
- Modèle spécialisé à héberger (GPU requis)
- Embeddings plus volumineux que le texte (multi-token)
- Écosystème moins mature que le RAG textuel
Benchmarks Multimodal RAG
Le multimodal surpasse le text-only dès que les documents contiennent des éléments visuels. Le gain est maximal sur les infographies et les tableaux complexes.
| Dataset | Type | Multimodal | Baseline | Note |
|---|---|---|---|---|
| ViDoRe | Document retrieval visuel | 81,3 nDCG@5 (ColPali) | 65-75 (OCR + BM25) | Benchmark dédié au retrieval de pages de documents. ColPali surpasse les pipelines OCR de 10-15 points sans aucun parsing. |
| DocVQA | Question answering sur documents | 85-90 % accuracy (VLM) | 70-78 % (OCR + LLM) | Questions sur des documents scannés. Les VLM lisent directement l'image et évitent les erreurs d'OCR sur les tableaux et formulaires. |
| InfoVQA | QA sur infographies | 72-78 % accuracy (VLM) | 45-55 % (OCR) | Questions sur des infographies complexes. L'OCR échoue presque totalement sur les éléments graphiques. Le VLM interprète le visuel. |
| TabFact | Vérification factuelle sur tableaux | 80-85 % accuracy (VLM) | 65-72 % (OCR + parsing) | Vérifier si une affirmation est supportée par un tableau. Le VLM comprend la structure tabulaire sans parsing explicite. |
Multimodal vs text-only vs OCR vs ColPali
Le choix dépend de la nature de vos documents. Le texte pur reste optimal pour les contenus purement textuels. Le multimodal devient indispensable dès que le visuel porte de l'information.
| Critère | Multimodal (VLM) | Text-only | OCR pipeline | ColPali |
|---|---|---|---|---|
| Contenu textuel pur | Équivalent (VLM) / Bon (ColPali) | Excellent | Bon | Bon |
| Tableaux structurés | Fort (VLM + ColPali) | Faible (perd la structure) | Modéré (parsing fragile) | Fort (structure visuelle) |
| Schémas et diagrammes | Fort | Nul (ignorés) | Faible (labels seuls) | Excellent (topologie capturée) |
| Coût d'indexation | Élevé (VLM) / Modéré (ColPali) | Faible | Faible | Modéré (GPU) |
| Latence de retrieval | Standard | Standard | Standard | Standard (ANN search) |
| Cas d'usage idéal | Documents visuels hétérogènes | Texte pur (articles, mails) | Formulaires structurés | PDF/scans avec mise en page riche |
5 limites à connaître
Le RAG multimodal est en progression rapide mais reste plus coûteux et moins outillé que le RAG textuel classique.
1. Coût des Vision LLM
Le captioning VLM coûte 5-10x plus cher que l'OCR par page. Sur un corpus de 100 000 pages, la différence est significative. ColPali réduit ce coût (GPU local) mais nécessite l'infrastructure. Le choix dépend du volume et de la proportion de contenu visuel.
2. Hallucinations visuelles
Les VLM peuvent halluciner des détails numériques : lire "1 250" au lieu de "12 500" dans un tableau, inventer des tendances dans un graphique. La validation post-génération est indispensable, surtout pour les chiffres financiers ou médicaux.
3. Résolution et qualité d'image
La qualité du retrieval multimodal dépend directement de la résolution de l'image source. Les scans basse résolution (< 150 DPI), les photos floues ou les PDF avec compression JPEG agressive dégradent les performances de ColPali et des VLM.
4. Évaluation encore immature
Les métriques d'évaluation pour le RAG multimodal sont moins établies que pour le texte. ViDoRe (2024) est le premier benchmark dédié. Il manque des métriques standardisées pour évaluer la fidélité de la description VLM ou la qualité du retrieval sur des schémas.
5. Embeddings volumineux
ColPali produit des embeddings multi-token (1 028 vecteurs de 128 dimensions par page). Le stockage et la recherche sont plus coûteux que pour des embeddings texte classiques (1 vecteur de 768-1536 dimensions). L'index vectoriel doit supporter le late interaction scoring.
Multimodal RAG : le retrieval qui voit
Ignorer le contenu visuel, c'est ignorer 30-50 % de l'information de vos documents. Le RAG multimodal comble ce manque avec trois niveaux de sophistication : OCR amélioré pour les cas simples, VLM captioning pour la compréhension visuelle, ColPali pour le retrieval natif sur images.
Commencez par identifier la proportion de contenu visuel dans votre corpus. Si elle dépasse 20 %, le multimodal est justifié. Combinez avec Hybrid RAG pour le retrieval textuel et Agentic RAG pour orchestrer les sources multimodales. Retrouvez toutes les architectures dans le guide des 12 architectures RAG.