Architecture RAG

HyDE

Hypothetical Document Embeddings - générer un faux document pour trouver les vrais. HyDE comble le gap sémantique entre requête courte et documents longs.

Mis à jour en avril 2026 - Gao et al. (arXiv:2212.10496, 2022)

HyDE - generation hypothetique pour combler le gap semantique

Le gap sémantique : pourquoi le retrieval échoue

Dans un pipeline RAG classique, la requête utilisateur est encodée en vecteur puis comparée aux embeddings des documents. Problème : une requête de 5 mots et un document de 500 mots vivent dans des espaces sémantiques différents. L'embedding de la requête capture une intention, celui du document capture un contenu complet. Ce décalage est le gap sémantique.

HyDE (Gao et al., 2022) propose une solution contre-intuitive : avant le retrieval, demander à un LLM de générer un document hypothétique qui pourrait répondre à la requête. Ce document est faux - il peut contenir des erreurs factuelles. Mais son embedding est sémantiquement proche des vrais documents du corpus, car il utilise le même vocabulaire, la même structure et le même niveau de détail.

Le retrieval utilise ensuite l'embedding du document hypothétique au lieu de celui de la requête. Le résultat : des documents plus pertinents remontés, avec un gain de 5-25 % sur les métriques de retrieval selon le gap sémantique initial. Le document hypothétique n'est jamais montré à l'utilisateur - il sert uniquement de pont sémantique.

Outils interactifs

Comparez le retrieval avec et sans HyDE, et diagnostiquez votre gap sémantique.

Simulateur HyDE

Comparez les résultats de retrieval avec et sans document hypothétique.

Requête utilisateur

effets secondaires metformine personnes âgées

Document hypothétique généré par le LLM

La metformine, traitement de première intention du diabète de type 2, présente des effets secondaires spécifiques chez les patients âgés de plus de 65 ans. Les troubles gastro-intestinaux (nausées, diarrhée) touchent 20-30 % des patients. Le risque d'acidose lactique, bien que rare (0,03/1000 patients-année), augmente avec l'insuffisance rénale liée à l'âge. Une surveillance régulière de la créatinine est recommandée. La carence en vitamine B12 concerne 5-10 % des utilisateurs au long cours.

Fiche pharmacologique metformine (Vidal)Pertinent

72 %

Diabète de type 2 : traitements disponiblesHors sujet

68 %

Guide HAS : prise en charge du diabèteHors sujet

61 %

Précision retrieval : 1/3 documents pertinents - La requête courte ne capture pas assez de contexte sémantique pour un retrieval précis.

Simulation pédagogique basée sur Gao et al. (arXiv:2212.10496, 2022). Les scores et résultats sont illustratifs.

Diagnostic gap sémantique

Évaluez si HyDE est pertinent pour votre cas d'usage.

Type de requêtesLongueur des documentsDomaine

Gap sémantique21/50

HyDE recommandé

Gap sémantique modéré. HyDE apportera un gain mesurable, surtout sur les requêtes ambiguës ou les domaines spécialisés. Alternative : query expansion + reranking.

Score indicatif. HyDE améliore le retrieval de 5-25 % selon le gap sémantique (Gao et al., 2022).

Pipeline HyDE en 5 étapes

HyDE s'insère entre la réception de la requête et le retrieval vectoriel. Le document hypothétique est un intermédiaire jetable - il n'est jamais exposé à l'utilisateur.

Réception de la requête

L'utilisateur envoie une requête courte en langage naturel. Exemple : "effets secondaires metformine personnes âgées".

La requête brute contient peu de contexte sémantique. Son embedding sera éloigné des documents longs et spécialisés du corpus. C'est le gap sémantique que HyDE cherche à combler.

Génération du document hypothétique

Un LLM génère un document fictif qui pourrait répondre à la requête, sans accès au corpus.

Le prompt demande au LLM de rédiger un passage de 150-200 mots comme s'il provenait du corpus. Le document peut contenir des erreurs factuelles - ce n'est pas grave, car il sert uniquement à produire un embedding, pas à être lu par l'utilisateur.

Embedding du document hypothétique

Le document hypothétique est encodé en vecteur par le même modèle d'embedding que le corpus.

L'embedding du document hypothétique capture le vocabulaire technique, le style et la structure des documents cibles. Il est sémantiquement plus proche des vrais documents que l'embedding de la requête courte.

Retrieval par similarité

La recherche vectorielle utilise l'embedding du document hypothétique au lieu de celui de la requête.

Le cosine similarity entre le document hypothétique et les vrais documents est plus élevé qu'entre la requête et les documents. Le retrieval remonte des résultats plus pertinents, même si le document hypothétique contenait des erreurs.

Génération de la réponse

Le LLM génère la réponse finale en s'appuyant sur les vrais documents retrouvés, pas sur le document hypothétique.

Le document hypothétique n'est jamais montré à l'utilisateur ni injecté dans le contexte de génération. Il a servi uniquement de "pont sémantique" pour le retrieval. La réponse finale s'appuie exclusivement sur les sources réelles du corpus.

Benchmarks HyDE

Gao et al. évaluent HyDE sur plusieurs benchmarks de retrieval. Le gain est proportionnel au gap sémantique entre requêtes et documents. Les datasets avec des requêtes courtes et des documents longs bénéficient le plus de l'approche.

Dataset	Type	HyDE	Baseline	Note
TREC DL 19/20	Web search	+8-12 % NDCG@10	Contriever, BM25	Requêtes courtes (2-3 mots) sur des documents web longs. Le gap sémantique est maximal - le gain HyDE est le plus élevé.
BEIR (multi-domain)	Multi-domain retrieval	+5-15 % selon domaine	Contriever zero-shot	18 datasets couvrant biomédical, finance, juridique. Le gain varie selon le gap sémantique du domaine.
Natural Questions	Open-domain QA	+3-5 % Recall@20	DPR, Contriever	Questions naturelles issues de Google Search. Gain modéré car les questions sont déjà bien formulées.
MS MARCO	Passage ranking	+6-10 % MRR@10	BM25, ANCE	Requêtes de recherche réelles. HyDE améliore le ranking des passages pertinents, surtout pour les requêtes ambiguës.

Quand utiliser HyDE ?

HyDE n'est pas universellement bénéfique. Son efficacité dépend du gap sémantique entre les requêtes et les documents de votre corpus.

Base de connaissances technique

Gain élevé (+15-25 %)

Documentation API, code, specs techniques interrogées par des utilisateurs non-techniques.

Le gap sémantique est maximal : l'utilisateur demande "comment envoyer un email" et la doc contient des références à SMTP, transactional templates, API endpoints. Le document hypothétique traduit la question en jargon technique.

Corpus médical ou juridique

Gain élevé (+10-20 %)

Textes spécialisés avec terminologie propre, interrogés en langage courant.

"Effets secondaires metformine" vs le vocabulaire médical (pharmacocinétique, acidose lactique, clairance rénale). Le document hypothétique injecte la terminologie du domaine dans l'embedding.

FAQ et support client

Gain faible (< 5 %)

Base de questions-réponses où les formulations utilisateur sont proches des documents.

Les FAQ sont déjà rédigées en langage courant. L'embedding de la requête est naturellement proche des documents. HyDE ajoute de la latence sans gain significatif.

Requêtes déjà techniques

Contre-productif

Utilisateurs experts qui formulent des requêtes avec le vocabulaire exact du domaine.

Un développeur qui cherche "optimiser cold start Lambda Python provisioned concurrency" utilise déjà les termes exacts des documents. Le document hypothétique n'apporte rien - il risque même d'introduire du bruit.

HyDE vs query expansion vs query rewriting

HyDE n'est pas la seule technique pour améliorer la qualité des requêtes. Le query expansion enrichit le vocabulaire, le query rewriting reformule. HyDE va plus loin en générant un document complet.

Critère	HyDE	Query expansion	Query rewriting
Principe	Génère un document complet qui ressemble aux cibles	Ajoute des termes synonymes/liés à la requête	Reformule la requête pour la clarifier
Coût LLM	1 appel LLM (génération 150-200 tokens)	0-1 appel (peut être fait par thesaurus)	1 appel LLM (reformulation courte)
Latence ajoutée	500-2000 ms (génération + embedding)	50-200 ms	200-500 ms
Gap sémantique comblé	Fort (vocabulaire + structure + contexte)	Modéré (vocabulaire uniquement)	Faible (reformulation sans enrichissement)
Risque d'hallucination	Modéré (doc hypothétique peut être faux)	Faible (termes vérifiables)	Faible (reformulation fidèle)
Cas d'usage idéal	Gap élevé, requêtes courtes, domaines spécialisés	Gap modéré, requêtes ambiguës	Requêtes mal formulées, fautes d'orthographe

5 limites à connaître

HyDE est simple à implémenter mais introduit des compromis spécifiques. Le gain en précision a un coût en latence, en tokens et en complexité de prompt engineering.

1. Latence supplémentaire

HyDE ajoute un appel LLM complet au pipeline de retrieval. Avec GPT-4o mini, la génération du document hypothétique prend 500-1500 ms. Pour les applications temps réel (chatbot, autocomplétion), cette latence peut être rédhibitoire. Solution : cache des documents hypothétiques pour les requêtes fréquentes.

2. Amplification des biais du LLM

Le document hypothétique reflète les biais du LLM qui le génère. Si le LLM a des biais sur certains sujets (médical, politique, culturel), le document hypothétique orientera le retrieval vers des sources qui confirment ces biais plutôt que des sources contradictoires.

3. Inutilité sur les requêtes précises

Quand la requête contient déjà le vocabulaire exact des documents cibles, HyDE n'améliore pas le retrieval. Il peut même le dégrader en introduisant du bruit sémantique. Un diagnostic du gap sémantique avant activation est recommandé.

4. Dépendance au prompt de génération

La qualité du document hypothétique dépend fortement du prompt. Un prompt mal calibré produit des documents trop génériques ou hors sujet. Le prompt doit spécifier le domaine, le style et la longueur attendue pour maximiser la similarité avec les vrais documents.

5. Coût en tokens

Chaque requête consomme 200-500 tokens d'output pour le document hypothétique, en plus des tokens du prompt. À 1000 requêtes/jour avec GPT-4o mini (0,15 $/M tokens output), le surcoût est de ~0,05 $/jour. Négligeable à faible volume, significatif à l'échelle.

L'essentiel en 5 lignes

Hypothetical Document Embeddings - générer un faux document pour trouver les vrais. Mis à jour en avril 2026 - Gao et al. HyDE s'insère entre la réception de la requête et le retrieval vectoriel. HyDE transforme une requête courte en document riche avant le retrieval. Pour structurer votre corpus en arbre de résumés avant le retrieval, explorez Raptor RAG .

HyDE : un pont sémantique pour le retrieval

HyDE transforme une requête courte en document riche avant le retrieval. Pour les corpus spécialisés interrogés en langage courant (documentation technique, bases juridiques, littérature médicale), le gain de précision justifie la latence supplémentaire. Pour les corpus déjà proches du langage utilisateur, préférez le query expansion ou le reranking direct.

Pour structurer votre corpus en arbre de résumés avant le retrieval, explorez Raptor RAG. Pour adapter dynamiquement la stratégie de retrieval selon la complexité de chaque requête, combinez avec Adaptive RAG. Retrouvez toutes les architectures dans le guide des 12 architectures RAG.

← Raptor RAG Toutes les architectures RAG

Formation RAG (2 jours)Discuter d'un projet