Architecture RAG
Advanced RAG
Hybrid search, reranking, compression, déduplication : les 4 optimisations qui transforment un prototype en pipeline production.
Mis à jour en avril 2026 - Génération 2023-2024
Qu'est-ce que l'Advanced RAG ?
L'Advanced RAG reprend le pipeline linéaire du Naive RAG (chunk, embed, retrieve, generate) et ajoute des optimisations à chaque étape. L'objectif : corriger les 5 limites documentées du Naive RAG sans changer l'architecture fondamentale.
En 2026, l'Advanced RAG est le standard de fait pour tout pipeline RAG en production. Les benchmarks montrent un NDCG@10 de 0.93 pour un pipeline complet (hybrid search + reranking + compression + MMR) contre 0.72 pour un Naive RAG - soit +29 % de précision mesurée sur MS MARCO et Natural Questions (Dennyson, 2025).
Chaque optimisation s'ajoute indépendamment au pipeline existant. La progression est incrémentale : vous pouvez commencer par le hybrid search seul (+18 % de NDCG@10), puis ajouter le reranking (+33 % de précision supplémentaire), la compression et le MMR. Cet article détaille chaque optimisation avec ses benchmarks, son coût et son implémentation.
Testez les optimisations Advanced RAG
Activez les optimisations une par une pour mesurer leur impact, et visualisez comment le reranking réordonne les résultats.
Comparateur Naive vs Advanced RAG
Activez les optimisations pour voir l'impact sur la précision, la latence et le coût.
Configuration : Naive RAG
72 %
Précision (NDCG@10)
45 ms
Latence retrieval
100 %
Coût relatif
Benchmarks : NDCG@10 sur MS MARCO + Natural Questions (Dennyson, 2025). Latence moyenne sur 100 documents, K=5.
Simulateur de reranking
Voyez comment un cross-encoder réordonne les résultats du retrieval vectoriel.
Requête utilisateur
Comment configurer le reranking dans un pipeline RAG ?
Architecture générale d'un système RAG
Configuration du reranking avec un cross-encoder
Comparaison des modèles d'embedding 2026
Installer Qdrant en production avec Docker
Optimiser la latence d'un pipeline RAG
Scores simulés à titre pédagogique. En production, un cross-encoder comme Cohere Rerank 4 ou ms-marco-MiniLM traite 100 paires en ~120 ms.
Les 4 optimisations clés
Chaque optimisation corrige une limite spécifique du Naive RAG. Elles s'empilent dans cet ordre pour un impact maximal.
Hybrid Search
BM25 + recherche vectorielle
Le Naive RAG ne fait que de la recherche vectorielle. L'Advanced RAG ajoute une recherche lexicale BM25 en parallèle. Les deux rankings sont fusionnés par Reciprocal Rank Fusion (RRF) : chaque document reçoit un score basé sur sa position dans chaque liste, sans normalisation de scores. Résultat : +18 % de NDCG@10 par rapport au vecteur seul (0.85 vs 0.72, benchmark Dennyson 2025). La recherche lexicale capture les termes exacts que le vecteur manque, et inversement.
Source : Dennyson, Dense vs Sparse vs Hybrid RRF, 2025
Reranking
Cross-encoder de précision
Après le retrieval (top 50-100 documents), un cross-encoder reclasse les résultats en analysant chaque paire (query, document) conjointement. Contrairement aux bi-encoders du retrieval initial qui encodent query et documents séparément, le cross-encoder voit les deux textes ensemble et capture des nuances fines. Le benchmark MS MARCO montre +42 % de précision, HotpotQA +42 %, Natural Questions +38 %. Le coût : ~120 ms de latence supplémentaire.
Source : ailog.fr, Cross-Encoder Reranking Study
Compression de contexte
Réduction du bruit avant génération
Les chunks récupérés contiennent souvent des passages non pertinents par rapport à la question. La compression de contexte extrait uniquement les phrases utiles avant de les envoyer au LLM. Deux approches : extractive (sélection de phrases) ou abstractive (résumé). Résultat : moins de tokens en input (donc moins cher), et surtout une réduction du phénomène "Lost in the Middle" documenté par Liu et al. (2023) - le LLM ne perd plus d'attention sur du bruit.
Source : LongLLMLingua, Jiang et al., 2023
Déduplication MMR
Diversité des résultats
Maximal Marginal Relevance (MMR) élimine les doublons sémantiques dans le top-K. Sans MMR, les 5 chunks récupérés disent souvent la même chose avec des mots différents. Le LLM génère alors une réponse redondante et incomplète. Avec MMR, chaque chunk apporte une information distincte. Le paramètre lambda contrôle le compromis pertinence/diversité (0.5 en standard). Coût quasi nul en latence (+10 ms), impact significatif sur la complétude des réponses.
Source : Carbonell & Goldstein, MMR, 1998 - standard RAG 2024+
Pipeline complet : Naive vs Advanced
Comparaison étape par étape des deux pipelines. L'Advanced RAG ajoute 3 étapes (post-retrieval, filtrage, évaluation) au pipeline Naive existant.
| Étape | Naive RAG | Advanced RAG |
|---|---|---|
| 1. Ingestion | Chunking fixe | Chunking sémantique + métadonnées |
| 2. Embedding | Bi-encoder seul | Bi-encoder + index BM25 |
| 3. Retrieval | Vector search (top-K) | Hybrid RRF (BM25 + vecteur) |
| 4. Post-retrieval | Aucun | Reranking cross-encoder |
| 5. Filtrage | Aucun | MMR + compression de contexte |
| 6. Génération | LLM brut | LLM avec contexte optimisé |
| 7. Évaluation | Manuelle | RAGAS automatisé (CI/CD) |
Modèles de reranking : le comparatif 2026
Le reranking est l'optimisation au meilleur rapport impact/complexité. Voici les modèles leaders classés par score ELO (leaderboard Agentset.ai, avril 2026).
| Modèle | Type | Score ELO | Coût | Latence |
|---|---|---|---|---|
| Zerank 2 | Propriétaire | 1 638 | 0,025 $/1M tokens | ~100 ms |
| Cohere Rerank 4 Pro | Propriétaire | 1 629 | 0,050 $/1M tokens | ~90 ms |
| Voyage AI Rerank 2.5 | Propriétaire | 1 544 | 0,050 $/1M tokens | ~110 ms |
| ms-marco-MiniLM-L6-v2 | Open source | ~1 400 | Self-hosted (GPU) | ~50 ms |
La configuration recommandée en production : récupérer 50 à 100 documents au retrieval initial, puis reranker vers le top 5-10. Pour les budgets serrés, le modèle open source ms-marco-MiniLM-L6-v2 offre +35 % de précision pour 50 ms de latence sur 100 paires. Pour la meilleure qualité, Zerank 2 (ELO 1 638) ou Cohere Rerank 4 Pro (ELO 1 629) sont les leaders du benchmark.
Frameworks pour implémenter un Advanced RAG
Trois frameworks dominent l'écosystème RAG en 2026. Chacun a une spécialité qui le rend meilleur pour certains cas d'usage.
LangChain
Force : Prototypage rapide, agents
Performance : +35 % out-of-the-box
POC, experimentation
LlamaIndex
Force : Ingestion documents complexes
Performance : +35 % retrieval accuracy
Q&A sur gros corpus
Haystack
Force : Production, debuggabilité
Performance : Pipeline testable
Pipeline de production
La combinaison la plus courante en 2026 : LangChain pour le prototypage et les agents (LangGraph), LlamaIndex pour l'ingestion de documents complexes, et Haystack pour l'évaluation en CI/CD. Les trois supportent nativement le hybrid search, le reranking et les intégrations avec les bases vectorielles courantes (Qdrant, Pinecone, pgvector, Weaviate).
Mesurer la qualité : les 4 métriques RAGAS
Un pipeline Advanced RAG sans métriques est un pipeline Naive RAG qui se ment à lui-même. RAGAS (RAG Assessment, Es et al. 2023) définit 4 métriques automatisées qui couvrent le retrieval et la génération.
| Métrique | Définition | Seuil recommandé |
|---|---|---|
| Faithfulness | Cohérence factuelle entre la réponse et le contexte récupéré | > 0.80 |
| Answer Relevancy | Similarité entre la question posée et la réponse générée | > 0.80 |
| Context Precision | Rang des chunks pertinents dans le top-K récupéré | > 0.70 |
| Context Recall | Couverture des informations nécessaires dans le contexte | > 0.80 |
En pratique, intégrez RAGAS dans votre pipeline CI/CD. À chaque mise à jour du corpus ou du modèle, un jeu de 50 à 100 questions de référence est évalué automatiquement. Si une métrique passe sous le seuil, le déploiement est bloqué. Cette approche est le principal différenciateur entre un POC et un système production.
Benchmarks de référence existants pour calibrer vos seuils : RAGBench (général), CRAG (relevance contextuelle), LegalBench-RAG (juridique), T2-RAGBench (multi-tour).
Quand passer du Naive au Advanced RAG
5 signaux qui indiquent qu'il est temps d'ajouter des optimisations à votre pipeline. Chaque signe a une action spécifique.
Précision insuffisante
Signe : Les utilisateurs signalent des réponses incorrectes ou incomplètes
Action : Ajouter hybrid search + reranking
Résultats redondants
Signe : Le LLM répète la même information sous différentes formes
Action : Activer MMR (lambda = 0.5)
Coût LLM élevé
Signe : Tokens input > 4 000 par requête en moyenne
Action : Ajouter compression de contexte
Questions multi-hop
Signe : Accuracy < 50 % sur les questions nécessitant 2+ documents
Action : Envisager Self-RAG ou Agentic RAG
Pas de métriques
Signe : Aucune mesure automatisée de la qualité des réponses
Action : Intégrer RAGAS dans le CI/CD
Aller plus loin
L'Advanced RAG est le socle de tout pipeline RAG en production. Les 4 optimisations (hybrid search, reranking, compression, MMR) font passer la précision de 72 % à 93 % pour un surcoût de latence de ~330 ms et un investissement en complexité modéré.
Pour les cas d'usage qui dépassent l'Advanced RAG (questions multi-hop, raisonnement multi-étapes, corpus relationnel), les architectures suivantes du guide des 12 architectures apportent des solutions ciblées : Self-RAG pour l'auto-évaluation, Graph RAG pour les relations entre entités, Agentic RAG pour l'orchestration autonome.