Comment extraire des donnees structurees d'un texte avec n8n
Chapitres
Résumé
Le noeud Information Extractor permet d'extraire des donnees structurees depuis un texte brut grace a l'IA. En entree, on lui fournit un texte (email, PDF, page web, message) et un modele d'IA. En sortie, on obtient un JSON structure avec les informations demandees : noms, emails, numeros de telephone, montants, dates ou toute autre donnee presente dans le texte.
Ce noeud est l'un des plus utiles pour automatiser le traitement de documents non structures. Au lieu d'ecrire des expressions regulieres complexes, on decrit simplement ce qu'on veut extraire et l'IA se charge du parsing.
Les 3 modes de schema
Le noeud propose 3 facons de definir la structure des donnees a extraire :
From Attribute Description
Le mode le plus simple. On definit chaque champ manuellement : nom du champ, type (string, number), description et caractere obligatoire. Ideal pour extraire une seule information d'un texte. Limitation : retourne un seul item en sortie.
Format JSON Schema
On definit un schema JSON avec les proprietes attendues et leurs types. Plus precis que le mode attribut, mais retourne egalement un seul item. Utile quand on connait exactement la structure souhaitee et qu'on n'attend qu'un seul resultat.
Generate from JSON Example
Le mode recommande pour extraire plusieurs resultats. On fournit un exemple JSON de ce qu'on attend en sortie. Pour obtenir plusieurs items, il suffit de definir un tableau dans l'exemple. L'IA comprend alors qu'elle doit extraire toutes les occurrences, pas seulement la premiere.
Exemple concret : extraire des personnes d'un texte
Entree : un texte contenant des noms, prenoms et ages dissemines dans un recit. Schema utilise (Generate from JSON Example) :
[{ "nom": "nom d'une personne", "prenom": "prenom d'une personne", "age": 0 }]
Resultat : 21 personnes extraites avec nom, prenom et age structures dans un tableau JSON. Le noeud Split Out permet ensuite de traiter chaque personne individuellement.
Options et reglages
| Reglage | Description |
|---|---|
| System Prompt | Instructions supplementaires pour l'IA (ex : "Extrais tous les noms et prenoms que tu trouves") |
| Always Output Data | Genere une sortie meme si aucune donnee n'est trouvee (evite de bloquer le workflow) |
| Execute Once | N'execute l'extraction que sur le premier item si plusieurs arrivent en entree |
| Retry on Fail | Relance automatiquement si le modele echoue (nombre de tentatives et delai configurables) |
Bonnes pratiques
- Utiliser Generate from JSON Example avec un tableau pour extraire plusieurs resultats
- Ajouter un System Prompt precis pour guider l'IA sur le contexte du texte
- Combiner avec Split Out pour iterer sur chaque resultat extrait
- Utiliser un modele leger (GPT-4.1 mini, Claude Haiku) pour des extractions simples - reservez les modeles puissants aux textes complexes
- Activer Always Output Data pour eviter les blocages si le texte ne contient pas les donnees attendues
Comparateur des modes de schema
Choisissez le mode adapte a votre besoin pour configurer le noeud Information Extractor.
Fournir un exemple JSON de la sortie attendue. Avec un tableau [], l'IA extrait toutes les occurrences. Le mode le plus puissant.
[
{
"nom": "nom d'une personne",
"prenom": "prenom d'une personne",
"age": 0
}
]{
"output": [
{ "nom": "Dupont", "prenom": "Marie", "age": 34 },
{ "nom": "Martin", "prenom": "Pierre", "age": 28 },
{ "nom": "Bernard", "prenom": "Sophie", "age": 45 },
...21 resultats au total
]
}Cas d'usage recommandes
- Extraire plusieurs entites d'un texte
- Listes de contacts, produits, evenements
- Tout cas ou le nombre de resultats est variable
Contenu détaillé
00:00Introduction au noeud Information Extractor
Presentation du noeud et de son principe : fournir un texte + un modele d'IA pour extraire des donnees structurees (noms, emails, numeros, etc.).
01:30Configuration et Settings
Reglages du noeud : Always Output Data, Execute Once, Retry on Fail, description et notes pour documenter le workflow.
03:00Mode From Attribute Description
Definir manuellement chaque champ a extraire (nom, type, description, obligatoire). Simple mais limite a un seul item en sortie.
05:00Mode Format JSON Schema
Definir un schema JSON complet avec types et proprietes. Plus precis mais toujours un seul item en sortie.
06:30Mode Generate from JSON Example
Le mode recommande. Fournir un exemple JSON avec un tableau pour extraire plusieurs resultats. L'IA comprend la structure attendue et extrait toutes les occurrences.
08:00Split Out et traitement des resultats
Utiliser le noeud Split Out pour transformer le tableau en items individuels. Passage de 1 item contenant 21 personnes a 21 items traitables un par un.
Questions fréquentes
Transcription complète
Pour aller plus loin
Ce tutoriel vous a été utile ? Contactez-moi pour un accompagnement personnalisé sur n8n.