Comment extraire des données structurées d'un texte avec n8n
Chapitres
Résumé
Le nœud Information Extractor permet d'extraire des données structurées depuis un texte brut grâce à l'IA. En entree, on lui fournit un texte (email, PDF, page web, message) et un modèle d'IA. En sortie, on obtient un JSON structure avec les informations demandees : noms, emails, numéros de telephone, montants, dates ou toute autre donnée présente dans le texte.
Ce nœud est l'un des plus utiles pour automatiser le traitement de documents non structures. Au lieu d'ecrire des expressions régulières complexes, on decrit simplement ce qu'on veut extraire et l'IA se charge du parsing.
Les 3 modes de schéma
Le nœud propose 3 facons de définir la structure des données à extraire :
From Attribute Description
Le mode le plus simple. On définit chaque champ manuellement : nom du champ, type (string, number), description et caractère obligatoire. Ideal pour extraire une seule information d'un texte. Limitation : retourne un seul item en sortie.
Format JSON Schema
On définit un schéma JSON avec les propriétés attendues et leurs types. Plus précis que le mode attribut, mais retourne egalement un seul item. Utile quand on connait exactement la structure souhaitée et qu'on n'attend qu'un seul résultat.
Generate from JSON Example
Le mode recommande pour extraire plusieurs résultats. On fournit un exemple JSON de ce qu'on attend en sortie. Pour obtenir plusieurs items, il suffit de définir un tableau dans l'exemple. L'IA comprend alors qu'elle doit extraire toutes les occurrences, pas seulement la première.
Exemple concret : extraire des personnes d'un texte
Entree : un texte contenant des noms, prenoms et ages dissemines dans un recit. Schéma utilisé (Generate from JSON Example) :
[{ "nom": "nom d'une personne", "prenom": "prenom d'une personne", "age": 0 }]
Resultat : 21 personnes extraites avec nom, prenom et age structures dans un tableau JSON. Le nœud Split Out permet ensuite de traiter chaque personne individuellement.
Options et réglages
| Reglage | Description |
|---|---|
| System Prompt | Instructions supplémentaires pour l'IA (ex : "Extrais tous les noms et prenoms que tu trouves") |
| Always Output Data | Genere une sortie même si aucune donnée n'est trouvee (evite de bloquer le workflow) |
| Execute Once | N'exécute l'extraction que sur le premier item si plusieurs arrivent en entree |
| Retry on Fail | Relance automatiquement si le modèle échoue (nombre de tentatives et délai configurables) |
Bonnes pratiques
- Utiliser Generate from JSON Example avec un tableau pour extraire plusieurs résultats
- Ajouter un System Prompt précis pour guider l'IA sur le contexte du texte
- Combiner avec Split Out pour iterer sur chaque résultat extrait
- Utiliser un modèle leger (GPT-4.1 mini, Claude Haiku) pour des extractions simples - reservez les modèles puissants aux textes complexes
- Activer Always Output Data pour eviter les blocages si le texte ne contient pas les données attendues
Comparateur des modes de schéma
Choisissez le mode adapté à votre besoin pour configurer le nœud Information Extractor.
Fournir un exemple JSON de la sortie attendue. Avec un tableau [], l'IA extrait toutes les occurrences. Le mode le plus puissant.
[
{
"nom": "nom d'une personne",
"prenom": "prénom d'une personne",
"age": 0
}
]{
"output": [
{ "nom": "Dupont", "prenom": "Marie", "age": 34 },
{ "nom": "Martin", "prenom": "Pierre", "age": 28 },
{ "nom": "Bernard", "prenom": "Sophie", "age": 45 },
...21 résultats au total
]
}Cas d'usage recommandés
- Extraire plusieurs entités d'un texte
- Listes de contacts, produits, événements
- Tout cas où le nombre de résultats est variable
Contenu détaillé
00:00Introduction au nœud Information Extractor
Presentation du nœud et de son principe : fournir un texte + un modèle d'IA pour extraire des données structurées (noms, emails, numéros, etc.).
01:30Configuration et Settings
Réglages du nœud : Always Output Data, Execute Once, Retry on Fail, description et notes pour documenter le workflow.
03:00Mode From Attribute Description
Définir manuellement chaque champ à extraire (nom, type, description, obligatoire). Simple mais limité à un seul item en sortie.
05:00Mode Format JSON Schema
Définir un schéma JSON complet avec types et propriétés. Plus précis mais toujours un seul item en sortie.
06:30Mode Generate from JSON Example
Le mode recommande. Fournir un exemple JSON avec un tableau pour extraire plusieurs résultats. L'IA comprend la structure attendue et extrait toutes les occurrences.
08:00Split Out et traitement des résultats
Utiliser le nœud Split Out pour transformer le tableau en items individuels. Passage de 1 item contenant 21 personnes a 21 items traitables un par un.
Questions fréquentes
Transcription complète
Pour aller plus loin
Ce tutoriel vous a été utile ? Contactez-moi pour un accompagnement personnalisé sur n8n.