Aller au contenu principal

Architecture RAG

Agentic RAG

Quand le LLM ne se contente plus de lire les chunks - il planifie, évalue, reformule et itère jusqu'à trouver la bonne réponse.

Mis à jour en avril 2026 - Benchmarks HotpotQA, StrategyQA, ALCE, GAIA

Au-delà du pipeline linéaire

Un pipeline RAG classique suit un chemin fixe : recevoir la requête, chercher dans l'index, envoyer les chunks au LLM, générer la réponse. Si les chunks sont mauvais, la réponse est mauvaise. Pas de seconde chance. Sur les requêtes complexes (multi-hop, multi-source, ambiguës), ce pipeline linéaire échoue dans 40-60 % des cas.

Agentic RAG transforme le retrieval en boucle de raisonnement. Le LLM devient un agent qui décide quoi chercher, où chercher, évalue les résultats, et itère si nécessaire. Au lieu d'un pipeline "retrieve → generate", on obtient un cycle "plan → retrieve → evaluate → reformulate → retrieve → ... → respond".

Le gain est démontré : sur HotpotQA (questions multi-hop), l'approche agentique atteint 72-78 % F1 contre 55-62 % pour le pipeline linéaire. Le coût est une latence et une consommation de tokens supérieures - un compromis à évaluer selon la complexité de vos requêtes.

Outils interactifs

Simulez le comportement d'un agent RAG et évaluez la maturité agentique de votre pipeline.

Simulateur agent RAG

Comparez un pipeline linéaire et un agent qui raisonne sur sa stratégie de retrieval.

Requête utilisateur

Comparer les coûts d'hébergement Vercel vs Coolify pour un site Next.js avec 50k visites/mois

Réponse pipeline linéaire

Vercel propose un plan Pro à 20 $/mois. Coolify est open-source.

Le pipeline linéaire cherche une seule fois et génère avec des chunks incomplets. Il manque les détails Coolify (VPS requis, coût réel) et la comparaison structurée.

Simulation pédagogique. Un agent réel utilise des tool calls et une boucle de raisonnement (ReAct, plan-and-execute).

Checklist maturité agentique

Évaluez le niveau agentique de votre pipeline RAG.

Score de maturité0/12

Pipeline linéaire

Pipeline retrieve-then-generate classique. Pour évoluer vers un agent, commencez par la décomposition de requêtes complexes et le multi-source retrieval.

Checklist basée sur les patterns agentiques décrits par Yao et al. (ReAct, 2023) et les frameworks LangGraph, CrewAI.

Les 4 composants d'un agent RAG

Un agent RAG complet intègre quatre modules qui interagissent dans une boucle de raisonnement. Chaque module peut être implémenté indépendamment.

Planner (décomposition)

Le planner analyse la requête et la décompose en sous-questions indépendantes. Chaque sous-question cible une source ou un angle différent. Le planner décide aussi de l'ordre d'exécution.

Exemple : "Comparer Vercel et Coolify" → sous-question 1 : pricing Vercel → sous-question 2 : pricing Coolify + VPS → sous-question 3 : comparaison structurée

Réduit le taux d'erreur sur les requêtes multi-hop de 40-60 % (HotpotQA).

Retriever tools (multi-source)

L'agent dispose de plusieurs outils de retrieval : index vectoriel, BM25, recherche web, appels API, base SQL. Il choisit l'outil adapté à chaque sous-question au lieu d'un retriever unique.

Exemple : Sous-question pricing → recherche web (données fraîches). Sous-question technique → index vectoriel interne (documentation).

Le multi-source améliore le recall de 15-25 % sur les requêtes nécessitant des sources hétérogènes.

Evaluator (critique)

Après chaque retrieval, l'évaluateur juge la pertinence des résultats. Si les chunks sont insuffisants, il demande une reformulation ou une recherche complémentaire. C'est le mécanisme de feedback loop.

Exemple : Chunks trouvés trop génériques → évaluation : pertinence 2/5 → décision : reformuler la requête avec des termes plus spécifiques.

L'évaluation post-retrieval réduit les hallucinations de 30-50 % (ALCE benchmark).

Mémoire (contexte)

L'agent maintient une mémoire de travail entre les itérations : résultats précédents, requêtes déjà tentées, informations accumulées. Cette mémoire évite les recherches redondantes et permet la synthèse finale.

Exemple : Itération 1 : pricing Vercel trouvé. Itération 2 : pricing Coolify trouvé. Mémoire : les deux informations sont combinées pour la réponse finale.

La mémoire réduit le nombre d'itérations nécessaires de 20-30 % sur les requêtes conversationnelles.

3 patterns agentiques

La boucle agentique peut être implémentée selon trois architectures. Du plus simple (ReAct) au plus itératif (Reflexion).

ReAct (Reason + Act)

L'agent alterne entre raisonnement ("je dois chercher X parce que...") et action (tool call). Chaque étape est un cycle thought → action → observation.

Avantages

  • Simple à implémenter (un seul prompt)
  • Traces de raisonnement lisibles
  • Compatible avec tous les LLM supportant le function calling

Inconvénients

  • Peut boucler sur des raisonnements circulaires
  • Pas de planification globale (décisions locales)
  • Budget de tokens difficile à contrôler

Yao et al., 2023 - "ReAct: Synergizing Reasoning and Acting in Language Models"

Plan-and-Execute

L'agent génère d'abord un plan complet (liste d'étapes), puis exécute chaque étape séquentiellement. Le plan peut être révisé en cours d'exécution si les résultats l'exigent.

Avantages

  • Vision globale avant l'exécution
  • Plus efficace en tokens (pas de raisonnement par étape)
  • Plan révisable en cours de route

Inconvénients

  • Le plan initial peut être sous-optimal
  • Nécessite un LLM capable de planification multi-step
  • Plus complexe à implémenter (2 agents ou 2 prompts)

Wang et al., 2023 - "Plan-and-Solve Prompting"

Reflexion

L'agent génère une réponse, l'évalue, identifie ses faiblesses, puis itère. Chaque cycle produit une réponse améliorée. Le processus s'arrête quand l'auto-évaluation est satisfaisante ou quand le budget est épuisé.

Avantages

  • Amélioration itérative de la qualité
  • Auto-correction des erreurs factuelles
  • Réduit les hallucinations par vérification croisée

Inconvénients

  • Coût en tokens élevé (2-4x une génération simple)
  • Latence proportionnelle au nombre d'itérations
  • Risque de sur-correction (modifier une réponse correcte)

Shinn et al., 2023 - "Reflexion: Language Agents with Verbal Reinforcement Learning"

Benchmarks Agentic RAG

L'approche agentique surpasse le pipeline linéaire sur les tâches complexes. Le gain est proportionnel au nombre de steps nécessaires.

DatasetTypeAgentic RAGBaselineNote
HotpotQAMulti-hop QA72-78 % F155-62 % F1 (naive RAG)Les questions multi-hop nécessitent 2-4 retrievals enchaînés. L'agent décompose et chaîne automatiquement.
StrategyQARaisonnement implicite76-82 % Accuracy60-68 % (chain-of-thought)Requêtes dont la stratégie de recherche n'est pas évidente. L'agent doit inférer quelles informations chercher.
ALCE (citations)Fidélité aux sources65-72 % citation F145-55 % (retrieve-then-read)Mesure si les affirmations sont supportées par les sources. L'évaluateur filtre les chunks non pertinents.
GAIATâches réelles35-45 % (Level 1)15-25 % (GPT-4 seul)Benchmark de tâches complexes nécessitant recherche web, calcul, et raisonnement multi-step. L'agent excelle sur Level 1 (3-5 steps).

Agentic vs Adaptive vs Self-RAG

Agentic RAG est le plus puissant mais le plus coûteux. Adaptive RAG route intelligemment, Self-RAG auto-critique. Choisissez selon la complexité de vos requêtes.

CritèreAgentic RAGAdaptive RAGSelf-RAG
Requêtes simplesSurdimensionnéBon (routing)Correct
Requêtes multi-hopExcellent (décomposition)LimitéModéré
Fidélité aux sourcesFort (évaluation)ModéréFort (critique)
LatenceÉlevée (boucle)Faible (1 route)Modérée (2 passes)
Coût en tokensÉlevé (planner + evaluator)Faible (routing seul)Modéré (critique)
Cas d'usage idéalRequêtes complexes, multi-sourceTrafic hétérogène, optimisation coûtCorpus spécialisé, haute fidélité

5 limites à connaître

L'approche agentique est la plus puissante mais aussi la plus exigeante en ressources, en observabilité et en garde-fous.

1. Coût en tokens multiplié

Chaque itération de la boucle agentique consomme des tokens : raisonnement, évaluation, reformulation. Sur une requête complexe (3-5 itérations), le coût peut être 3-5x celui d'un pipeline linéaire. Le budget de tokens doit être contrôlé par un circuit breaker.

2. Latence de la boucle

Chaque itération ajoute un aller-retour LLM (300-800 ms avec GPT-4o, 200-500 ms avec Claude Sonnet 4). Une requête à 4 itérations prend 1-3 secondes de plus qu'un pipeline linéaire. Le streaming atténue la perception mais pas la latence totale.

3. Boucles infinies

Un agent mal calibré peut boucler indéfiniment : reformuler sans fin, chercher des informations inexistantes, ou évaluer négativement des résultats corrects. Un budget maximal d'itérations (3-5) et un timeout sont indispensables.

4. Dépendance au LLM planner

La qualité de la décomposition dépend du LLM. Un modèle trop faible produit des plans sous-optimaux (sous-questions redondantes, mauvais ordre). Les modèles < 70B paramètres peinent sur la planification multi-step complexe.

5. Difficulté de debugging

La boucle agentique est non-déterministe : deux exécutions de la même requête peuvent suivre des chemins différents. L'observabilité (LangSmith, Arize, logs structurés) est critique pour diagnostiquer les échecs et optimiser le pipeline.

Agentic RAG : le retrieval qui raisonne

L'approche agentique transforme le RAG d'un pipeline passif en un système qui raisonne sur sa propre stratégie de recherche. Le planner décompose, les tools cherchent, l'évaluateur critique, la mémoire synthétise. Sur les requêtes complexes, ce cycle produit des réponses significativement meilleures.

Commencez avec ReAct (le pattern le plus simple), ajoutez l'évaluation post-retrieval, puis évoluez vers plan-and-execute si vos requêtes nécessitent une planification multi-step. Pour le retrieval lui-même, combinez avec Hybrid RAG (BM25 + embeddings) ou Graph RAG (relations entre entités). Retrouvez toutes les architectures dans le guide des 12 architectures RAG.