Aller au contenu principal

Architecture RAG

Advanced RAG

Hybrid search, reranking, compression, déduplication : les 4 optimisations qui transforment un prototype en pipeline production.

Mis à jour en avril 2026 - Génération 2023-2024

Qu'est-ce que l'Advanced RAG ?

L'Advanced RAG reprend le pipeline linéaire du Naive RAG (chunk, embed, retrieve, generate) et ajoute des optimisations à chaque étape. L'objectif : corriger les 5 limites documentées du Naive RAG sans changer l'architecture fondamentale.

En 2026, l'Advanced RAG est le standard de fait pour tout pipeline RAG en production. Les benchmarks montrent un NDCG@10 de 0.93 pour un pipeline complet (hybrid search + reranking + compression + MMR) contre 0.72 pour un Naive RAG - soit +29 % de précision mesurée sur MS MARCO et Natural Questions (Dennyson, 2025).

Chaque optimisation s'ajoute indépendamment au pipeline existant. La progression est incrémentale : vous pouvez commencer par le hybrid search seul (+18 % de NDCG@10), puis ajouter le reranking (+33 % de précision supplémentaire), la compression et le MMR. Cet article détaille chaque optimisation avec ses benchmarks, son coût et son implémentation.

Testez les optimisations Advanced RAG

Activez les optimisations une par une pour mesurer leur impact, et visualisez comment le reranking réordonne les résultats.

Comparateur Naive vs Advanced RAG

Activez les optimisations pour voir l'impact sur la précision, la latence et le coût.

+18 %+25 %+8 %+5 %

Configuration : Naive RAG

72 %

Précision (NDCG@10)

45 ms

Latence retrieval

100 %

Coût relatif

Naive RAG (72 %)Advanced complet (93 %)

Benchmarks : NDCG@10 sur MS MARCO + Natural Questions (Dennyson, 2025). Latence moyenne sur 100 documents, K=5.

Simulateur de reranking

Voyez comment un cross-encoder réordonne les résultats du retrieval vectoriel.

Requête utilisateur

Comment configurer le reranking dans un pipeline RAG ?

1

Architecture générale d'un système RAG

0.89
2

Configuration du reranking avec un cross-encoder

0.85
3

Comparaison des modèles d'embedding 2026

0.83
4

Installer Qdrant en production avec Docker

0.81
5

Optimiser la latence d'un pipeline RAG

0.79

Scores simulés à titre pédagogique. En production, un cross-encoder comme Cohere Rerank 4 ou ms-marco-MiniLM traite 100 paires en ~120 ms.

Les 4 optimisations clés

Chaque optimisation corrige une limite spécifique du Naive RAG. Elles s'empilent dans cet ordre pour un impact maximal.

Optimisation 01

Hybrid Search

BM25 + recherche vectorielle

Le Naive RAG ne fait que de la recherche vectorielle. L'Advanced RAG ajoute une recherche lexicale BM25 en parallèle. Les deux rankings sont fusionnés par Reciprocal Rank Fusion (RRF) : chaque document reçoit un score basé sur sa position dans chaque liste, sans normalisation de scores. Résultat : +18 % de NDCG@10 par rapport au vecteur seul (0.85 vs 0.72, benchmark Dennyson 2025). La recherche lexicale capture les termes exacts que le vecteur manque, et inversement.

NDCG@10 : 0.85 (hybrid RRF) vs 0.72 (dense seul)

Source : Dennyson, Dense vs Sparse vs Hybrid RRF, 2025

Optimisation 02

Reranking

Cross-encoder de précision

Après le retrieval (top 50-100 documents), un cross-encoder reclasse les résultats en analysant chaque paire (query, document) conjointement. Contrairement aux bi-encoders du retrieval initial qui encodent query et documents séparément, le cross-encoder voit les deux textes ensemble et capture des nuances fines. Le benchmark MS MARCO montre +42 % de précision, HotpotQA +42 %, Natural Questions +38 %. Le coût : ~120 ms de latence supplémentaire.

Précision moyenne : +33 % (MS MARCO, NQ, HotpotQA, FEVER)

Source : ailog.fr, Cross-Encoder Reranking Study

Optimisation 03

Compression de contexte

Réduction du bruit avant génération

Les chunks récupérés contiennent souvent des passages non pertinents par rapport à la question. La compression de contexte extrait uniquement les phrases utiles avant de les envoyer au LLM. Deux approches : extractive (sélection de phrases) ou abstractive (résumé). Résultat : moins de tokens en input (donc moins cher), et surtout une réduction du phénomène "Lost in the Middle" documenté par Liu et al. (2023) - le LLM ne perd plus d'attention sur du bruit.

Réduction de 40-60 % des tokens input, +8 % de faithfulness

Source : LongLLMLingua, Jiang et al., 2023

Optimisation 04

Déduplication MMR

Diversité des résultats

Maximal Marginal Relevance (MMR) élimine les doublons sémantiques dans le top-K. Sans MMR, les 5 chunks récupérés disent souvent la même chose avec des mots différents. Le LLM génère alors une réponse redondante et incomplète. Avec MMR, chaque chunk apporte une information distincte. Le paramètre lambda contrôle le compromis pertinence/diversité (0.5 en standard). Coût quasi nul en latence (+10 ms), impact significatif sur la complétude des réponses.

+15-25 % de diversité des réponses, latence négligeable (+10 ms)

Source : Carbonell & Goldstein, MMR, 1998 - standard RAG 2024+

Pipeline complet : Naive vs Advanced

Comparaison étape par étape des deux pipelines. L'Advanced RAG ajoute 3 étapes (post-retrieval, filtrage, évaluation) au pipeline Naive existant.

ÉtapeNaive RAGAdvanced RAG
1. IngestionChunking fixeChunking sémantique + métadonnées
2. EmbeddingBi-encoder seulBi-encoder + index BM25
3. RetrievalVector search (top-K)Hybrid RRF (BM25 + vecteur)
4. Post-retrievalAucunReranking cross-encoder
5. FiltrageAucunMMR + compression de contexte
6. GénérationLLM brutLLM avec contexte optimisé
7. ÉvaluationManuelleRAGAS automatisé (CI/CD)

Modèles de reranking : le comparatif 2026

Le reranking est l'optimisation au meilleur rapport impact/complexité. Voici les modèles leaders classés par score ELO (leaderboard Agentset.ai, avril 2026).

ModèleTypeScore ELOCoûtLatence
Zerank 2Propriétaire1 6380,025 $/1M tokens~100 ms
Cohere Rerank 4 ProPropriétaire1 6290,050 $/1M tokens~90 ms
Voyage AI Rerank 2.5Propriétaire1 5440,050 $/1M tokens~110 ms
ms-marco-MiniLM-L6-v2Open source~1 400Self-hosted (GPU)~50 ms

La configuration recommandée en production : récupérer 50 à 100 documents au retrieval initial, puis reranker vers le top 5-10. Pour les budgets serrés, le modèle open source ms-marco-MiniLM-L6-v2 offre +35 % de précision pour 50 ms de latence sur 100 paires. Pour la meilleure qualité, Zerank 2 (ELO 1 638) ou Cohere Rerank 4 Pro (ELO 1 629) sont les leaders du benchmark.

Frameworks pour implémenter un Advanced RAG

Trois frameworks dominent l'écosystème RAG en 2026. Chacun a une spécialité qui le rend meilleur pour certains cas d'usage.

LangChain

Force : Prototypage rapide, agents

Performance : +35 % out-of-the-box

POC, experimentation

LlamaIndex

Force : Ingestion documents complexes

Performance : +35 % retrieval accuracy

Q&A sur gros corpus

Haystack

Force : Production, debuggabilité

Performance : Pipeline testable

Pipeline de production

La combinaison la plus courante en 2026 : LangChain pour le prototypage et les agents (LangGraph), LlamaIndex pour l'ingestion de documents complexes, et Haystack pour l'évaluation en CI/CD. Les trois supportent nativement le hybrid search, le reranking et les intégrations avec les bases vectorielles courantes (Qdrant, Pinecone, pgvector, Weaviate).

Mesurer la qualité : les 4 métriques RAGAS

Un pipeline Advanced RAG sans métriques est un pipeline Naive RAG qui se ment à lui-même. RAGAS (RAG Assessment, Es et al. 2023) définit 4 métriques automatisées qui couvrent le retrieval et la génération.

MétriqueDéfinitionSeuil recommandé
FaithfulnessCohérence factuelle entre la réponse et le contexte récupéré> 0.80
Answer RelevancySimilarité entre la question posée et la réponse générée> 0.80
Context PrecisionRang des chunks pertinents dans le top-K récupéré> 0.70
Context RecallCouverture des informations nécessaires dans le contexte> 0.80

En pratique, intégrez RAGAS dans votre pipeline CI/CD. À chaque mise à jour du corpus ou du modèle, un jeu de 50 à 100 questions de référence est évalué automatiquement. Si une métrique passe sous le seuil, le déploiement est bloqué. Cette approche est le principal différenciateur entre un POC et un système production.

Benchmarks de référence existants pour calibrer vos seuils : RAGBench (général), CRAG (relevance contextuelle), LegalBench-RAG (juridique), T2-RAGBench (multi-tour).

Quand passer du Naive au Advanced RAG

5 signaux qui indiquent qu'il est temps d'ajouter des optimisations à votre pipeline. Chaque signe a une action spécifique.

1

Précision insuffisante

Signe : Les utilisateurs signalent des réponses incorrectes ou incomplètes

Action : Ajouter hybrid search + reranking

2

Résultats redondants

Signe : Le LLM répète la même information sous différentes formes

Action : Activer MMR (lambda = 0.5)

3

Coût LLM élevé

Signe : Tokens input > 4 000 par requête en moyenne

Action : Ajouter compression de contexte

4

Questions multi-hop

Signe : Accuracy < 50 % sur les questions nécessitant 2+ documents

Action : Envisager Self-RAG ou Agentic RAG

5

Pas de métriques

Signe : Aucune mesure automatisée de la qualité des réponses

Action : Intégrer RAGAS dans le CI/CD

Aller plus loin

L'Advanced RAG est le socle de tout pipeline RAG en production. Les 4 optimisations (hybrid search, reranking, compression, MMR) font passer la précision de 72 % à 93 % pour un surcoût de latence de ~330 ms et un investissement en complexité modéré.

Pour les cas d'usage qui dépassent l'Advanced RAG (questions multi-hop, raisonnement multi-étapes, corpus relationnel), les architectures suivantes du guide des 12 architectures apportent des solutions ciblées : Self-RAG pour l'auto-évaluation, Graph RAG pour les relations entre entités, Agentic RAG pour l'orchestration autonome.