Architecture RAG
HyDE
Hypothetical Document Embeddings - générer un faux document pour trouver les vrais. HyDE comble le gap sémantique entre requête courte et documents longs.
Mis à jour en avril 2026 - Gao et al. (arXiv:2212.10496, 2022)
Le gap sémantique : pourquoi le retrieval échoue
Dans un pipeline RAG classique, la requête utilisateur est encodée en vecteur puis comparée aux embeddings des documents. Problème : une requête de 5 mots et un document de 500 mots vivent dans des espaces sémantiques différents. L'embedding de la requête capture une intention, celui du document capture un contenu complet. Ce décalage est le gap sémantique.
HyDE (Gao et al., 2022) propose une solution contre-intuitive : avant le retrieval, demander à un LLM de générer un document hypothétique qui pourrait répondre à la requête. Ce document est faux - il peut contenir des erreurs factuelles. Mais son embedding est sémantiquement proche des vrais documents du corpus, car il utilise le même vocabulaire, la même structure et le même niveau de détail.
Le retrieval utilise ensuite l'embedding du document hypothétique au lieu de celui de la requête. Le résultat : des documents plus pertinents remontés, avec un gain de 5-25 % sur les métriques de retrieval selon le gap sémantique initial. Le document hypothétique n'est jamais montré à l'utilisateur - il sert uniquement de pont sémantique.
Outils interactifs
Comparez le retrieval avec et sans HyDE, et diagnostiquez votre gap sémantique.
Simulateur HyDE
Comparez les résultats de retrieval avec et sans document hypothétique.
Requête utilisateur
effets secondaires metformine personnes âgées
Document hypothétique généré par le LLM
La metformine, traitement de première intention du diabète de type 2, présente des effets secondaires spécifiques chez les patients âgés de plus de 65 ans. Les troubles gastro-intestinaux (nausées, diarrhée) touchent 20-30 % des patients. Le risque d'acidose lactique, bien que rare (0,03/1000 patients-année), augmente avec l'insuffisance rénale liée à l'âge. Une surveillance régulière de la créatinine est recommandée. La carence en vitamine B12 concerne 5-10 % des utilisateurs au long cours.
Précision retrieval : 1/3 documents pertinents - La requête courte ne capture pas assez de contexte sémantique pour un retrieval précis.
Simulation pédagogique basée sur Gao et al. (arXiv:2212.10496, 2022). Les scores et résultats sont illustratifs.
Diagnostic gap sémantique
Évaluez si HyDE est pertinent pour votre cas d'usage.
HyDE recommandé
Gap sémantique modéré. HyDE apportera un gain mesurable, surtout sur les requêtes ambiguës ou les domaines spécialisés. Alternative : query expansion + reranking.
Score indicatif. HyDE améliore le retrieval de 5-25 % selon le gap sémantique (Gao et al., 2022).
Pipeline HyDE en 5 étapes
HyDE s'insère entre la réception de la requête et le retrieval vectoriel. Le document hypothétique est un intermédiaire jetable - il n'est jamais exposé à l'utilisateur.
Réception de la requête
L'utilisateur envoie une requête courte en langage naturel. Exemple : "effets secondaires metformine personnes âgées".
La requête brute contient peu de contexte sémantique. Son embedding sera éloigné des documents longs et spécialisés du corpus. C'est le gap sémantique que HyDE cherche à combler.
Génération du document hypothétique
Un LLM génère un document fictif qui pourrait répondre à la requête, sans accès au corpus.
Le prompt demande au LLM de rédiger un passage de 150-200 mots comme s'il provenait du corpus. Le document peut contenir des erreurs factuelles - ce n'est pas grave, car il sert uniquement à produire un embedding, pas à être lu par l'utilisateur.
Embedding du document hypothétique
Le document hypothétique est encodé en vecteur par le même modèle d'embedding que le corpus.
L'embedding du document hypothétique capture le vocabulaire technique, le style et la structure des documents cibles. Il est sémantiquement plus proche des vrais documents que l'embedding de la requête courte.
Retrieval par similarité
La recherche vectorielle utilise l'embedding du document hypothétique au lieu de celui de la requête.
Le cosine similarity entre le document hypothétique et les vrais documents est plus élevé qu'entre la requête et les documents. Le retrieval remonte des résultats plus pertinents, même si le document hypothétique contenait des erreurs.
Génération de la réponse
Le LLM génère la réponse finale en s'appuyant sur les vrais documents retrouvés, pas sur le document hypothétique.
Le document hypothétique n'est jamais montré à l'utilisateur ni injecté dans le contexte de génération. Il a servi uniquement de "pont sémantique" pour le retrieval. La réponse finale s'appuie exclusivement sur les sources réelles du corpus.
Benchmarks HyDE
Gao et al. évaluent HyDE sur plusieurs benchmarks de retrieval. Le gain est proportionnel au gap sémantique entre requêtes et documents. Les datasets avec des requêtes courtes et des documents longs bénéficient le plus de l'approche.
| Dataset | Type | HyDE | Baseline | Note |
|---|---|---|---|---|
| TREC DL 19/20 | Web search | +8-12 % NDCG@10 | Contriever, BM25 | Requêtes courtes (2-3 mots) sur des documents web longs. Le gap sémantique est maximal - le gain HyDE est le plus élevé. |
| BEIR (multi-domain) | Multi-domain retrieval | +5-15 % selon domaine | Contriever zero-shot | 18 datasets couvrant biomédical, finance, juridique. Le gain varie selon le gap sémantique du domaine. |
| Natural Questions | Open-domain QA | +3-5 % Recall@20 | DPR, Contriever | Questions naturelles issues de Google Search. Gain modéré car les questions sont déjà bien formulées. |
| MS MARCO | Passage ranking | +6-10 % MRR@10 | BM25, ANCE | Requêtes de recherche réelles. HyDE améliore le ranking des passages pertinents, surtout pour les requêtes ambiguës. |
Quand utiliser HyDE ?
HyDE n'est pas universellement bénéfique. Son efficacité dépend du gap sémantique entre les requêtes et les documents de votre corpus.
Base de connaissances technique
Gain élevé (+15-25 %)Documentation API, code, specs techniques interrogées par des utilisateurs non-techniques.
Le gap sémantique est maximal : l'utilisateur demande "comment envoyer un email" et la doc contient des références à SMTP, transactional templates, API endpoints. Le document hypothétique traduit la question en jargon technique.
Corpus médical ou juridique
Gain élevé (+10-20 %)Textes spécialisés avec terminologie propre, interrogés en langage courant.
"Effets secondaires metformine" vs le vocabulaire médical (pharmacocinétique, acidose lactique, clairance rénale). Le document hypothétique injecte la terminologie du domaine dans l'embedding.
FAQ et support client
Gain faible (< 5 %)Base de questions-réponses où les formulations utilisateur sont proches des documents.
Les FAQ sont déjà rédigées en langage courant. L'embedding de la requête est naturellement proche des documents. HyDE ajoute de la latence sans gain significatif.
Requêtes déjà techniques
Contre-productifUtilisateurs experts qui formulent des requêtes avec le vocabulaire exact du domaine.
Un développeur qui cherche "optimiser cold start Lambda Python provisioned concurrency" utilise déjà les termes exacts des documents. Le document hypothétique n'apporte rien - il risque même d'introduire du bruit.
HyDE vs query expansion vs query rewriting
HyDE n'est pas la seule technique pour améliorer la qualité des requêtes. Le query expansion enrichit le vocabulaire, le query rewriting reformule. HyDE va plus loin en générant un document complet.
| Critère | HyDE | Query expansion | Query rewriting |
|---|---|---|---|
| Principe | Génère un document complet qui ressemble aux cibles | Ajoute des termes synonymes/liés à la requête | Reformule la requête pour la clarifier |
| Coût LLM | 1 appel LLM (génération 150-200 tokens) | 0-1 appel (peut être fait par thesaurus) | 1 appel LLM (reformulation courte) |
| Latence ajoutée | 500-2000 ms (génération + embedding) | 50-200 ms | 200-500 ms |
| Gap sémantique comblé | Fort (vocabulaire + structure + contexte) | Modéré (vocabulaire uniquement) | Faible (reformulation sans enrichissement) |
| Risque d'hallucination | Modéré (doc hypothétique peut être faux) | Faible (termes vérifiables) | Faible (reformulation fidèle) |
| Cas d'usage idéal | Gap élevé, requêtes courtes, domaines spécialisés | Gap modéré, requêtes ambiguës | Requêtes mal formulées, fautes d'orthographe |
5 limites à connaître
HyDE est simple à implémenter mais introduit des compromis spécifiques. Le gain en précision a un coût en latence, en tokens et en complexité de prompt engineering.
1. Latence supplémentaire
HyDE ajoute un appel LLM complet au pipeline de retrieval. Avec GPT-4o mini, la génération du document hypothétique prend 500-1500 ms. Pour les applications temps réel (chatbot, autocomplétion), cette latence peut être rédhibitoire. Solution : cache des documents hypothétiques pour les requêtes fréquentes.
2. Amplification des biais du LLM
Le document hypothétique reflète les biais du LLM qui le génère. Si le LLM a des biais sur certains sujets (médical, politique, culturel), le document hypothétique orientera le retrieval vers des sources qui confirment ces biais plutôt que des sources contradictoires.
3. Inutilité sur les requêtes précises
Quand la requête contient déjà le vocabulaire exact des documents cibles, HyDE n'améliore pas le retrieval. Il peut même le dégrader en introduisant du bruit sémantique. Un diagnostic du gap sémantique avant activation est recommandé.
4. Dépendance au prompt de génération
La qualité du document hypothétique dépend fortement du prompt. Un prompt mal calibré produit des documents trop génériques ou hors sujet. Le prompt doit spécifier le domaine, le style et la longueur attendue pour maximiser la similarité avec les vrais documents.
5. Coût en tokens
Chaque requête consomme 200-500 tokens d'output pour le document hypothétique, en plus des tokens du prompt. À 1000 requêtes/jour avec GPT-4o mini (0,15 $/M tokens output), le surcoût est de ~0,05 $/jour. Négligeable à faible volume, significatif à l'échelle.
HyDE : un pont sémantique pour le retrieval
HyDE transforme une requête courte en document riche avant le retrieval. Pour les corpus spécialisés interrogés en langage courant (documentation technique, bases juridiques, littérature médicale), le gain de précision justifie la latence supplémentaire. Pour les corpus déjà proches du langage utilisateur, préférez le query expansion ou le reranking direct.
Pour structurer votre corpus en arbre de résumés avant le retrieval, explorez Raptor RAG. Pour adapter dynamiquement la stratégie de retrieval selon la complexité de chaque requête, combinez avec Adaptive RAG. Retrouvez toutes les architectures dans le guide des 12 architectures RAG.