Aller au contenu principal
Noeuds n8n

Comment extraire des donnees structurees d'un texte avec n8n

Publié le 10 mars 20259min

Chapitres

Résumé

Le noeud Information Extractor permet d'extraire des donnees structurees depuis un texte brut grace a l'IA. En entree, on lui fournit un texte (email, PDF, page web, message) et un modele d'IA. En sortie, on obtient un JSON structure avec les informations demandees : noms, emails, numeros de telephone, montants, dates ou toute autre donnee presente dans le texte.

Ce noeud est l'un des plus utiles pour automatiser le traitement de documents non structures. Au lieu d'ecrire des expressions regulieres complexes, on decrit simplement ce qu'on veut extraire et l'IA se charge du parsing.

Les 3 modes de schema

Le noeud propose 3 facons de definir la structure des donnees a extraire :

From Attribute Description

Le mode le plus simple. On definit chaque champ manuellement : nom du champ, type (string, number), description et caractere obligatoire. Ideal pour extraire une seule information d'un texte. Limitation : retourne un seul item en sortie.

Format JSON Schema

On definit un schema JSON avec les proprietes attendues et leurs types. Plus precis que le mode attribut, mais retourne egalement un seul item. Utile quand on connait exactement la structure souhaitee et qu'on n'attend qu'un seul resultat.

Generate from JSON Example

Le mode recommande pour extraire plusieurs resultats. On fournit un exemple JSON de ce qu'on attend en sortie. Pour obtenir plusieurs items, il suffit de definir un tableau dans l'exemple. L'IA comprend alors qu'elle doit extraire toutes les occurrences, pas seulement la premiere.

Exemple concret : extraire des personnes d'un texte

Entree : un texte contenant des noms, prenoms et ages dissemines dans un recit. Schema utilise (Generate from JSON Example) :

[{ "nom": "nom d'une personne", "prenom": "prenom d'une personne", "age": 0 }]

Resultat : 21 personnes extraites avec nom, prenom et age structures dans un tableau JSON. Le noeud Split Out permet ensuite de traiter chaque personne individuellement.

Options et reglages

ReglageDescription
System PromptInstructions supplementaires pour l'IA (ex : "Extrais tous les noms et prenoms que tu trouves")
Always Output DataGenere une sortie meme si aucune donnee n'est trouvee (evite de bloquer le workflow)
Execute OnceN'execute l'extraction que sur le premier item si plusieurs arrivent en entree
Retry on FailRelance automatiquement si le modele echoue (nombre de tentatives et delai configurables)

Bonnes pratiques

  • Utiliser Generate from JSON Example avec un tableau pour extraire plusieurs resultats
  • Ajouter un System Prompt precis pour guider l'IA sur le contexte du texte
  • Combiner avec Split Out pour iterer sur chaque resultat extrait
  • Utiliser un modele leger (GPT-4.1 mini, Claude Haiku) pour des extractions simples - reservez les modeles puissants aux textes complexes
  • Activer Always Output Data pour eviter les blocages si le texte ne contient pas les donnees attendues

Comparateur des modes de schema

Choisissez le mode adapte a votre besoin pour configurer le noeud Information Extractor.

Generate from JSON ExampleRecommandeMulti-resultats

Fournir un exemple JSON de la sortie attendue. Avec un tableau [], l'IA extrait toutes les occurrences. Le mode le plus puissant.

Configuration dans n8n
[
  {
    "nom": "nom d'une personne",
    "prenom": "prenom d'une personne",
    "age": 0
  }
]
Sortie JSON
{
  "output": [
    { "nom": "Dupont", "prenom": "Marie", "age": 34 },
    { "nom": "Martin", "prenom": "Pierre", "age": 28 },
    { "nom": "Bernard", "prenom": "Sophie", "age": 45 },
    ...21 resultats au total
  ]
}

Cas d'usage recommandes

  • Extraire plusieurs entites d'un texte
  • Listes de contacts, produits, evenements
  • Tout cas ou le nombre de resultats est variable

Contenu détaillé

00:00Introduction au noeud Information Extractor

Presentation du noeud et de son principe : fournir un texte + un modele d'IA pour extraire des donnees structurees (noms, emails, numeros, etc.).

01:30Configuration et Settings

Reglages du noeud : Always Output Data, Execute Once, Retry on Fail, description et notes pour documenter le workflow.

03:00Mode From Attribute Description

Definir manuellement chaque champ a extraire (nom, type, description, obligatoire). Simple mais limite a un seul item en sortie.

05:00Mode Format JSON Schema

Definir un schema JSON complet avec types et proprietes. Plus precis mais toujours un seul item en sortie.

06:30Mode Generate from JSON Example

Le mode recommande. Fournir un exemple JSON avec un tableau pour extraire plusieurs resultats. L'IA comprend la structure attendue et extrait toutes les occurrences.

08:00Split Out et traitement des resultats

Utiliser le noeud Split Out pour transformer le tableau en items individuels. Passage de 1 item contenant 21 personnes a 21 items traitables un par un.

Questions fréquentes

Transcription complète

Ce tutoriel vous a été utile ? Contactez-moi pour un accompagnement personnalisé sur n8n.