Architecture RAG

Raptor RAG

Un arbre de résumés multi-niveaux construit par clustering récursif. Le retrieval capture le contexte thématique, pas seulement les passages individuels.

Mis à jour en avril 2026 - Sarthi et al. (ICLR 2024)

RAPTOR - arbre hierarchique de resumes multi-granularite

Qu'est-ce que Raptor RAG ?

Raptor (Sarthi et al., ICLR 2024) transforme un corpus plat en un arbre hiérarchique de résumés. À la base, les chunks originaux (feuilles). Au-dessus, des clusters thématiques résumés par un LLM. Au sommet, un résumé global du corpus entier. Chaque niveau capture un degré d'abstraction différent.

Le problème que Raptor résout : les pipelines RAG classiques cherchent des passages individuels similaires à la requête. Ils manquent le contexte thématique - les liens entre documents, les tendances globales, les synthèses. Raptor encode ce contexte dans les résumés intermédiaires, rendant le retrieval capable de raisonner à différents niveaux de granularité.

Le clustering utilise un GMM soft clustering sur les embeddings. Contrairement au k-means, le GMM permet à un document d'appartenir à plusieurs clusters (avec des probabilités), reflétant la réalité où un document peut traiter de plusieurs thèmes. Le retrieval peut ensuite descendre l'arbre (tree traversal) ou chercher dans tous les niveaux simultanément (collapsed tree).

Outils interactifs

Explorez l'arbre Raptor et estimez le coût d'indexation.

Visualiseur d'arbre Raptor

Explorez la structure hiérarchique : cliquez sur un nœud pour voir son résumé et ses enfants.

RacineCorpus complet

Ce corpus couvre les architectures RAG, du Naive RAG aux approches avancées (Self-RAG, CRAG, Adaptive RAG). Il traite de l'indexation, du retrieval, de la génération et de l'évaluation des pipelines.

2 enfants directs

Tree traversal - Le retrieval descend l'arbre depuis la racine. À chaque niveau, seuls les nœuds pertinents sont explorés. Rapide mais peut manquer des feuilles dans des branches non visitées.

Illustration basée sur Sarthi et al. (ICLR 2024). L'arbre réel utilise un GMM soft clustering sur les embeddings.

Calculateur de coût d'indexation Raptor

Estimez le coût et le temps de construction de l'arbre de résumés.

Taille du corpus : 1 000 documents

10050 000

Profondeur de l'arbre : 3 niveaux

Modèle de résumé

Résumés à générer

124

Coût estimé

0,13 $

Temps estimé

4 min

Investissement faible

Coût négligeable. L'arbre Raptor est rapidement construit et rentabilisé. Idéal pour tester l'approche hiérarchique sur votre corpus.

Estimation basée sur ~800 tokens/doc et ~200 tokens/résumé. Coûts API indicatifs (avril 2026). Temps séquentiel - le parallélisme réduit le temps réel.

Structure de l'arbre

L'arbre Raptor se construit de bas en haut : les feuilles sont clusterisées, chaque cluster est résumé, et le processus se répète récursivement jusqu'à la racine.

Feuilles (niveau 0)

Les chunks originaux du corpus. Chaque document est une feuille de l'arbre, encodée en embedding pour le retrieval de base.

Les feuilles conservent le contenu original intégral. Elles sont le point de départ du clustering : les embeddings de chaque feuille servent à identifier les regroupements thématiques via GMM (Gaussian Mixture Model) soft clustering.

Clusters (niveaux intermédiaires)

Regroupements thématiques de documents similaires. Chaque cluster a un résumé généré par un LLM qui capture l'essence de ses enfants.

Le GMM soft clustering permet à un document d'appartenir à plusieurs clusters (probabilité d'appartenance). Le résumé de chaque cluster est généré par un LLM qui reçoit tous les textes enfants et produit une synthèse de 150-200 mots. Ces résumés sont eux-mêmes encodés en embeddings.

Racine (niveau final)

Le résumé le plus abstrait du corpus entier. Capture la vue d'ensemble thématique de toute la base documentaire.

La racine résume les clusters de niveau supérieur. Pour un corpus de 10 000 documents avec 3 niveaux, la racine synthétise ~20 clusters de haut niveau en un seul résumé. C'est le point d'entrée du tree traversal.

Tree traversal vs collapsed tree

Raptor propose deux modes de retrieval sur l'arbre. Le choix dépend du compromis entre exhaustivité et efficacité.

Tree Traversal

Le retrieval descend l'arbre niveau par niveau. À chaque niveau, les k nœuds les plus pertinents sont sélectionnés et leurs enfants sont explorés.

Avantages

Efficace : explore uniquement les branches pertinentes
Latence prévisible (proportionnelle à la profondeur)
Bon pour les requêtes ciblées

Inconvénients

Peut manquer des feuilles dans des branches non visitées
Sensible à la qualité des résumés intermédiaires
k mal calibré = trop ou pas assez de branches

Collapsed Tree

Tous les nœuds (racine, clusters, feuilles) sont mis à plat dans un index unique. Le retrieval cherche parmi tous les niveaux simultanément.

Avantages

Exhaustif : aucune feuille ne peut être manquée
Capture simultanément le contexte global et le détail
Plus simple à implémenter

Inconvénients

Index plus large (tous les niveaux)
Peut ramener des résumés au lieu de contenu source
Nécessite un reranking pour mélanger les niveaux

Benchmarks Raptor

Sarthi et al. évaluent Raptor sur des datasets nécessitant la compréhension de documents longs. Le gain est maximal sur les tâches où le contexte thématique est essentiel (NarrativeQA, QASPER).

Dataset	Type	Raptor	Baseline	Note
NarrativeQA	Long document QA	Meilleur F1	RAG standard	Questions nécessitant la compréhension globale d'un récit - le résumé hiérarchique capture le contexte narratif
QASPER	Scientific paper QA	+significatif	RAG standard	Questions sur des articles scientifiques - les résumés capturent les contributions et méthodes
QuALITY	Multiple choice QA	+significatif	RAG standard	Questions de compréhension longue - le tree traversal identifie les passages thématiquement pertinents

Raptor vs RAG flat vs Adaptive RAG

Raptor change la structure de l'index, pas le pipeline de génération. Il se compare aux approches flat (embeddings directs) et au routing adaptatif.

Critère	Raptor	RAG flat	Adaptive RAG
Structure d'index	Arbre hiérarchique (clustering + résumés)	Index plat (embeddings directs)	Index plat + classifier en amont
Contexte thématique	Fort (résumés multi-niveaux)	Faible (chunk isolés)	Variable (dépend du retriever)
Coût d'indexation	Élevé (LLM pour chaque résumé)	Faible (embeddings uniquement)	Faible + classifier à entraîner
Fraîcheur	Difficile (re-clustering)	Facile (ajout incrémental)	Facile (ajout incrémental)
Cas d'usage idéal	Corpus stable, raisonnement thématique	Corpus dynamique, QA factuel	Mix de complexités, optimisation latence

5 limites à connaître

Raptor excelle sur les corpus stables nécessitant du raisonnement thématique, mais son modèle d'indexation a des contraintes spécifiques.

1. Coût d'indexation élevé

Construire l'arbre nécessite de générer un résumé LLM pour chaque cluster à chaque niveau. Pour un corpus de 50 000 documents et 3 niveaux, cela représente des milliers d'appels LLM. Le coût est ponctuel mais significatif.

2. Fraîcheur du corpus

L'ajout d'un nouveau document nécessite de recalculer les clusters et résumés concernés. L'arbre n'est pas conçu pour l'indexation incrémentale en temps réel. Raptor convient aux corpus stables (documentation, base de connaissances).

3. Qualité des résumés

L'arbre est aussi bon que ses résumés. Un résumé qui omet un détail critique rend ce détail invisible au tree traversal. La qualité du LLM de résumé impacte directement la précision du retrieval.

4. Scalabilité du clustering

Le GMM soft clustering sur les embeddings a une complexité O(n * k * d) par itération EM. Pour des corpus > 100 000 documents, le clustering lui-même peut devenir un goulot d'étranglement.

5. Profondeur vs granularité

Trop de niveaux diluent l'information (résumés de résumés). Trop peu de niveaux ne capturent pas les thématiques intermédiaires. Le choix de la profondeur dépend de la taille et de la diversité thématique du corpus.

L'essentiel en 5 lignes

Un arbre de résumés multi-niveaux construit par clustering récursif. Mis à jour en avril 2026 - Sarthi et al. L'arbre Raptor se construit de bas en haut : les feuilles sont clusterisées, chaque cluster est résumé, et le processus se répète récursivement jusqu'à la racine. Raptor transforme un index plat en arbre de connaissances. Pour optimiser la latence selon la complexité des requêtes, combinez Raptor avec Adaptive RAG .

Raptor : le retrieval qui pense en hiérarchie

Raptor transforme un index plat en arbre de connaissances. Pour les corpus stables où le raisonnement thématique est essentiel (documentation technique, base juridique, littérature scientifique), l'investissement en indexation se rentabilise par une précision supérieure sur les questions globales.

Pour optimiser la latence selon la complexité des requêtes, combinez Raptor avec Adaptive RAG. Pour filtrer les sources après retrieval, ajoutez CRAG. Explorez toutes les architectures dans le guide des 12 architectures RAG.

← Adaptive RAG Toutes les architectures RAG

Formation RAG (2 jours)Discuter d'un projet