Aller au contenu principal

Architecture RAG

Raptor RAG

Un arbre de résumés multi-niveaux construit par clustering récursif. Le retrieval capture le contexte thématique, pas seulement les passages individuels.

Mis à jour en avril 2026 - Sarthi et al. (ICLR 2024)

Qu'est-ce que Raptor RAG ?

Raptor (Sarthi et al., ICLR 2024) transforme un corpus plat en un arbre hiérarchique de résumés. À la base, les chunks originaux (feuilles). Au-dessus, des clusters thématiques résumés par un LLM. Au sommet, un résumé global du corpus entier. Chaque niveau capture un degré d'abstraction différent.

Le problème que Raptor résout : les pipelines RAG classiques cherchent des passages individuels similaires à la requête. Ils manquent le contexte thématique - les liens entre documents, les tendances globales, les synthèses. Raptor encode ce contexte dans les résumés intermédiaires, rendant le retrieval capable de raisonner à différents niveaux de granularité.

Le clustering utilise un GMM soft clustering sur les embeddings. Contrairement au k-means, le GMM permet à un document d'appartenir à plusieurs clusters (avec des probabilités), reflétant la réalité où un document peut traiter de plusieurs thèmes. Le retrieval peut ensuite descendre l'arbre (tree traversal) ou chercher dans tous les niveaux simultanément (collapsed tree).

Outils interactifs

Explorez l'arbre Raptor et estimez le coût d'indexation.

Visualiseur d'arbre Raptor

Explorez la structure hiérarchique : cliquez sur un noeud pour voir son résumé et ses enfants.

RacineCorpus complet

Ce corpus couvre les architectures RAG, du Naive RAG aux approches avancées (Self-RAG, CRAG, Adaptive RAG). Il traite de l'indexation, du retrieval, de la génération et de l'évaluation des pipelines.

2 enfants directs

Tree traversal - Le retrieval descend l'arbre depuis la racine. À chaque niveau, seuls les noeuds pertinents sont explorés. Rapide mais peut manquer des feuilles dans des branches non visitées.

Illustration basée sur Sarthi et al. (ICLR 2024). L'arbre réel utilise un GMM soft clustering sur les embeddings.

Calculateur de coût d'indexation Raptor

Estimez le coût et le temps de construction de l'arbre de résumés.

Résumés à générer

124

Coût estimé

0,13 $

Temps estimé

4 min

Investissement faible

Coût négligeable. L'arbre Raptor est rapidement construit et rentabilisé. Idéal pour tester l'approche hiérarchique sur votre corpus.

Estimation basée sur ~800 tokens/doc et ~200 tokens/résumé. Coûts API indicatifs (avril 2026). Temps séquentiel - le parallélisme réduit le temps réel.

Structure de l'arbre

L'arbre Raptor se construit de bas en haut : les feuilles sont clusterisées, chaque cluster est résumé, et le processus se répète récursivement jusqu'à la racine.

Feuilles (niveau 0)

Les chunks originaux du corpus. Chaque document est une feuille de l'arbre, encodée en embedding pour le retrieval de base.

Les feuilles conservent le contenu original intégral. Elles sont le point de départ du clustering : les embeddings de chaque feuille servent à identifier les regroupements thématiques via GMM (Gaussian Mixture Model) soft clustering.

Clusters (niveaux intermédiaires)

Regroupements thématiques de documents similaires. Chaque cluster a un résumé généré par un LLM qui capture l'essence de ses enfants.

Le GMM soft clustering permet à un document d'appartenir à plusieurs clusters (probabilité d'appartenance). Le résumé de chaque cluster est généré par un LLM qui reçoit tous les textes enfants et produit une synthèse de 150-200 mots. Ces résumés sont eux-mêmes encodés en embeddings.

Racine (niveau final)

Le résumé le plus abstrait du corpus entier. Capture la vue d'ensemble thématique de toute la base documentaire.

La racine résume les clusters de niveau supérieur. Pour un corpus de 10 000 documents avec 3 niveaux, la racine synthétise ~20 clusters de haut niveau en un seul résumé. C'est le point d'entrée du tree traversal.

Tree traversal vs collapsed tree

Raptor propose deux modes de retrieval sur l'arbre. Le choix dépend du compromis entre exhaustivité et efficacité.

Tree Traversal

Le retrieval descend l'arbre niveau par niveau. À chaque niveau, les k noeuds les plus pertinents sont sélectionnés et leurs enfants sont explorés.

Avantages

  • Efficace : explore uniquement les branches pertinentes
  • Latence prévisible (proportionnelle à la profondeur)
  • Bon pour les requêtes ciblées

Inconvénients

  • Peut manquer des feuilles dans des branches non visitées
  • Sensible à la qualité des résumés intermédiaires
  • k mal calibré = trop ou pas assez de branches

Collapsed Tree

Tous les noeuds (racine, clusters, feuilles) sont mis à plat dans un index unique. Le retrieval cherche parmi tous les niveaux simultanément.

Avantages

  • Exhaustif : aucune feuille ne peut être manquée
  • Capture simultanément le contexte global et le détail
  • Plus simple à implémenter

Inconvénients

  • Index plus large (tous les niveaux)
  • Peut ramener des résumés au lieu de contenu source
  • Nécessite un reranking pour mélanger les niveaux

Benchmarks Raptor

Sarthi et al. évaluent Raptor sur des datasets nécessitant la compréhension de documents longs. Le gain est maximal sur les tâches où le contexte thématique est essentiel (NarrativeQA, QASPER).

DatasetTypeRaptorBaselineNote
NarrativeQALong document QAMeilleur F1RAG standardQuestions nécessitant la compréhension globale d'un récit - le résumé hiérarchique capture le contexte narratif
QASPERScientific paper QA+significatifRAG standardQuestions sur des articles scientifiques - les résumés capturent les contributions et méthodes
QuALITYMultiple choice QA+significatifRAG standardQuestions de compréhension longue - le tree traversal identifie les passages thématiquement pertinents

Raptor vs RAG flat vs Adaptive RAG

Raptor change la structure de l'index, pas le pipeline de génération. Il se compare aux approches flat (embeddings directs) et au routing adaptatif.

CritèreRaptorRAG flatAdaptive RAG
Structure d'indexArbre hiérarchique (clustering + résumés)Index plat (embeddings directs)Index plat + classifier en amont
Contexte thématiqueFort (résumés multi-niveaux)Faible (chunk isolés)Variable (dépend du retriever)
Coût d'indexationÉlevé (LLM pour chaque résumé)Faible (embeddings uniquement)Faible + classifier à entraîner
FraîcheurDifficile (re-clustering)Facile (ajout incrémental)Facile (ajout incrémental)
Cas d'usage idéalCorpus stable, raisonnement thématiqueCorpus dynamique, QA factuelMix de complexités, optimisation latence

5 limites à connaître

Raptor excelle sur les corpus stables nécessitant du raisonnement thématique, mais son modèle d'indexation a des contraintes spécifiques.

1. Coût d'indexation élevé

Construire l'arbre nécessite de générer un résumé LLM pour chaque cluster à chaque niveau. Pour un corpus de 50 000 documents et 3 niveaux, cela représente des milliers d'appels LLM. Le coût est ponctuel mais significatif.

2. Fraîcheur du corpus

L'ajout d'un nouveau document nécessite de recalculer les clusters et résumés concernés. L'arbre n'est pas conçu pour l'indexation incrémentale en temps réel. Raptor convient aux corpus stables (documentation, base de connaissances).

3. Qualité des résumés

L'arbre est aussi bon que ses résumés. Un résumé qui omet un détail critique rend ce détail invisible au tree traversal. La qualité du LLM de résumé impacte directement la précision du retrieval.

4. Scalabilité du clustering

Le GMM soft clustering sur les embeddings a une complexité O(n * k * d) par itération EM. Pour des corpus > 100 000 documents, le clustering lui-même peut devenir un goulot d'étranglement.

5. Profondeur vs granularité

Trop de niveaux diluent l'information (résumés de résumés). Trop peu de niveaux ne capturent pas les thématiques intermédiaires. Le choix de la profondeur dépend de la taille et de la diversité thématique du corpus.

Raptor : le retrieval qui pense en hiérarchie

Raptor transforme un index plat en arbre de connaissances. Pour les corpus stables où le raisonnement thématique est essentiel (documentation technique, base juridique, littérature scientifique), l'investissement en indexation se rentabilise par une précision supérieure sur les questions globales.

Pour optimiser la latence selon la complexité des requêtes, combinez Raptor avec Adaptive RAG. Pour filtrer les sources après retrieval, ajoutez CRAG. Explorez toutes les architectures dans le guide des 12 architectures RAG.