Accueil » 📂N8N » 📂Workflows » 🇫🇷 Extraction Content File
Valentin Charrier présentant le guide complet du Workflow Extraction Content File N8N Français

L’extraction de contenu depuis des fichiers est une étape fondamentale pour automatiser la gestion documentaire. Que ce soit un PDF, un fichier TXT, un tableur Excel ou une image, N8N propose des nœuds spécialisés pour récupérer le texte de chaque format. Combinée à l’IA, cette extraction permet ensuite de classifier automatiquement vos documents : factures, devis, tickets de remboursement, contrats.

Pourquoi extraire le contenu des fichiers ?

L’extraction de contenu est la première étape d’une chaîne d’automatisation documentaire. Une fois le texte extrait, vous pouvez :

Types de fichiers et méthodes d’extraction

Chaque type de fichier nécessite une approche différente. N8N propose des nœuds dédiés pour les formats courants :

Type de fichierNœud N8NMéthode d’extraction
TXTExtract from TextLecture directe du contenu texte
PDF (texte)Extract from PDFExtraction du texte natif
PDF (image/scan)Analyze Image (OpenAI)Conversion en image + OCR IA
XLSX / CSVRead Binary File + SpreadsheetParsing des cellules
Image (JPG, PNG)Analyze Image (OpenAI)Vision IA pour extraire le texte

Workflow simple : extraction fichier TXT

Commençons par un workflow basique pour comprendre le fonctionnement de l’extraction.

Architecture du workflow

Formulaire → Extract from Text → LLM (Résumé) → Merge
                                → LLM (Nom fichier) ↗

Étape 1 : Réception du fichier

Un nœud Formulaire permet à l’utilisateur de télécharger un fichier TXT. Ce déclencheur récupère le fichier en entrée du workflow.

Étape 2 : Extraction du contenu

Le nœud Extract from Text lit le fichier TXT et en extrait le contenu brut sous forme de texte. Cette opération est instantanée car les fichiers TXT contiennent du texte natif sans encodage complexe.

Étape 3 : Traitement par LLM

Deux LLM travaillent en parallèle sur le contenu extrait :

Étape 4 : Fusion des résultats

Le nœud Merge rassemble les deux sorties (résumé + nom proposé) dans un seul objet exploitable pour la suite du workflow.

Exemple de résultat

Pour un fichier TXT contenant du code CSS d’un header de site :

Ce résumé peut ensuite alimenter un nœud classifieur pour catégoriser automatiquement le document.

Workflow avancé : gestion multi-formats

Pour traiter différents types de fichiers, le workflow doit router chaque format vers le nœud d’extraction approprié.

Architecture multi-formats

Fichier → Détection type → Switch
                              ├── TXT → Extract from Text → LLM
                              ├── PDF → Extract from PDF → (vide ?) → Analyze Image → LLM
                              ├── Image → Analyze Image → LLM
                              └── XLSX → Read Spreadsheet → LLM

Le nœud Switch route le fichier vers le bon traitement selon son extension ou son type MIME.

Extraire le texte d’une image avec l’IA

Les images (JPG, PNG) nécessitent un traitement spécial : l’IA analyse visuellement le contenu et décrit ce qu’elle voit, y compris le texte présent.

Utiliser Analyze Image (OpenAI)

Le nœud Analyze Image d’OpenAI utilise GPT-4 Vision pour analyser une image. Il peut :

Le texte retourné par l’IA peut ensuite être traité comme n’importe quel contenu texte : résumé, classification, extraction de données.

Cas particulier : PDF image ou scanné

Les PDF peuvent contenir deux types de contenu :

Détecter un PDF image

Après extraction avec Extract from PDF, si le contenu retourné est vide ou quasi-vide, le PDF est probablement un scan ou une photo convertie en PDF.

Workflow pour PDF image

PDF → Extract from PDF → Contenu vide ?
                              ├── Non → Traitement texte normal
                              └── Oui → Write File → Convert to Image → Read File → Analyze Image → LLM

Étapes détaillées

  1. Write File : écrire le PDF sur le serveur N8N
  2. Convert to Image : convertir le PDF en image (JPG/PNG)
  3. Read File : récupérer l’image en binaire
  4. Analyze Image : analyser l’image avec l’IA pour extraire le texte
  5. Nettoyage : supprimer les fichiers temporaires du serveur

Cette méthode permet de traiter n’importe quel PDF, qu’il contienne du texte natif ou des images scannées.

Classifier les documents avec l’IA

Une fois le texte extrait, le nœud Text Classifier permet de catégoriser automatiquement les documents selon des catégories que vous définissez.

Exemple de catégories

Le classifieur analyse le résumé ou le contenu brut et attribue la catégorie la plus pertinente. Cette classification peut ensuite déclencher des actions spécifiques : archivage dans un dossier dédié, notification, extraction de données structurées.

Bonnes pratiques

Quotien Intellectuel pour illustrer l'apprentissage du noeud N8N

Comment extraire le texte d'un PDF qui contient uniquement une image scannée ?

Conclusion

L’extraction de contenu dans N8N est une brique essentielle pour automatiser la gestion documentaire. Chaque type de fichier nécessite une approche spécifique : Extract from Text pour les TXT, Extract from PDF pour les PDF texte, et Analyze Image pour les images et PDF scannés. En combinant ces extractions avec des LLM, vous pouvez résumer, renommer et classifier automatiquement vos documents.

Pour aller plus loin avec la classification automatique, consultez notre tutoriel dédié au nœud Text Classifier. Explorez nos autres ressources N8N ou contactez notre équipe pour concevoir un système de gestion documentaire intelligent adapté à vos besoins.

Comment extraire du texte d’un fichier PDF dans N8N ?

Utilisez le nœud Extract from PDF qui lit le contenu texte natif du document. Si le PDF retourne un contenu vide, il s’agit probablement d’un scan ou d’une image : convertissez-le en image puis utilisez le nœud Analyze Image d’OpenAI pour extraire le texte via l’IA.

Comment extraire le texte d’une image avec N8N ?

Utilisez le nœud Analyze Image d’OpenAI qui exploite GPT-4 Vision. Ce nœud analyse visuellement l’image et peut lire le texte présent, décrire le contenu et identifier des éléments spécifiques. Le texte extrait peut ensuite être traité par des LLM pour résumé ou classification.

Comment différencier un PDF texte d’un PDF image ?

Après extraction avec le nœud Extract from PDF, vérifiez si le contenu retourné est vide ou quasi-vide. Un PDF texte retourne le contenu directement lisible. Un PDF image (scan, photo) retourne un contenu vide car le texte n’existe que sous forme d’image, pas de données texte.

Peut-on classifier automatiquement des documents avec N8N ?

Oui, utilisez le nœud Text Classifier après avoir extrait le contenu du fichier. Définissez vos catégories (facture, devis, contrat, etc.) et le classifieur attribuera automatiquement la catégorie la plus pertinente. Vous pouvez aussi passer par un LLM avec un prompt de classification.

Quels formats de fichiers peut-on traiter dans N8N ?

N8N supporte les formats courants : TXT (Extract from Text), PDF (Extract from PDF), XLSX et CSV (Read Spreadsheet), images JPG/PNG (Analyze Image avec OpenAI). Pour les formats spécifiques, vous pouvez utiliser des API externes ou des nœuds Code personnalisés.

Comment créer un workflow réutilisable pour l’extraction de fichiers ?

Créez un workflow maître avec toutes les branches d’extraction (TXT, PDF, image) et exposez-le via le nœud ‘When Executed by Another Workflow’. Depuis vos autres automatisations, appelez ce workflow via le nœud Execute Workflow en lui passant le fichier en paramètre.


Vous recherchez d’autres contenus ?