Workflow Extraction Content File N8N Français

Accueil » 📂N8N » 📂Workflows » 🇫🇷 Extraction Content File

L’extraction de contenu depuis des fichiers est une étape fondamentale pour automatiser la gestion documentaire. Que ce soit un PDF, un fichier TXT, un tableur Excel ou une image, N8N propose des nœuds spécialisés pour récupérer le texte de chaque format. Combinée à l’IA, cette extraction permet ensuite de classifier automatiquement vos documents : factures, devis, tickets de remboursement, contrats.

Pourquoi extraire le contenu des fichiers ?

L’extraction de contenu est la première étape d’une chaîne d’automatisation documentaire. Une fois le texte extrait, vous pouvez :

Classifier automatiquement : identifier si un document est une facture, un devis, un contrat
Résumer le contenu : obtenir une synthèse rapide d’un document long
Renommer intelligemment : générer un nom de fichier pertinent basé sur le contenu
Indexer pour la recherche : rendre vos documents accessibles par mots-clés
Alimenter une base de données : extraire des informations structurées (montants, dates, noms)

Types de fichiers et méthodes d’extraction

Chaque type de fichier nécessite une approche différente. N8N propose des nœuds dédiés pour les formats courants :

Type de fichier	Nœud N8N	Méthode d’extraction
TXT	Extract from Text	Lecture directe du contenu texte
PDF (texte)	Extract from PDF	Extraction du texte natif
PDF (image/scan)	Analyze Image (OpenAI)	Conversion en image + OCR IA
XLSX / CSV	Read Binary File + Spreadsheet	Parsing des cellules
Image (JPG, PNG)	Analyze Image (OpenAI)	Vision IA pour extraire le texte

Workflow simple : extraction fichier TXT

Commençons par un workflow basique pour comprendre le fonctionnement de l’extraction.

Architecture du workflow

Formulaire → Extract from Text → LLM (Résumé) → Merge
                                → LLM (Nom fichier) ↗

Étape 1 : Réception du fichier

Un nœud Formulaire permet à l’utilisateur de télécharger un fichier TXT. Ce déclencheur récupère le fichier en entrée du workflow.

Étape 2 : Extraction du contenu

Le nœud Extract from Text lit le fichier TXT et en extrait le contenu brut sous forme de texte. Cette opération est instantanée car les fichiers TXT contiennent du texte natif sans encodage complexe.

Étape 3 : Traitement par LLM

Deux LLM travaillent en parallèle sur le contenu extrait :

Premier LLM : génère un résumé du contenu du fichier
Second LLM : propose un nom de fichier pertinent basé sur le contenu

Étape 4 : Fusion des résultats

Le nœud Merge rassemble les deux sorties (résumé + nom proposé) dans un seul objet exploitable pour la suite du workflow.

Exemple de résultat

Pour un fichier TXT contenant du code CSS d’un header de site :

Nom proposé : « Style Header Component »
Résumé : description des propriétés CSS et de leur usage

Ce résumé peut ensuite alimenter un nœud classifieur pour catégoriser automatiquement le document.

Workflow avancé : gestion multi-formats

Pour traiter différents types de fichiers, le workflow doit router chaque format vers le nœud d’extraction approprié.

Architecture multi-formats

Fichier → Détection type → Switch
                              ├── TXT → Extract from Text → LLM
                              ├── PDF → Extract from PDF → (vide ?) → Analyze Image → LLM
                              ├── Image → Analyze Image → LLM
                              └── XLSX → Read Spreadsheet → LLM

Le nœud Switch route le fichier vers le bon traitement selon son extension ou son type MIME.

Extraire le texte d’une image avec l’IA

Les images (JPG, PNG) nécessitent un traitement spécial : l’IA analyse visuellement le contenu et décrit ce qu’elle voit, y compris le texte présent.

Utiliser Analyze Image (OpenAI)

Le nœud Analyze Image d’OpenAI utilise GPT-4 Vision pour analyser une image. Il peut :

Décrire le contenu visuel de l’image
Lire et extraire le texte visible (OCR intelligent)
Identifier des éléments spécifiques (logos, signatures, tableaux)

Le texte retourné par l’IA peut ensuite être traité comme n’importe quel contenu texte : résumé, classification, extraction de données.

Cas particulier : PDF image ou scanné

Les PDF peuvent contenir deux types de contenu :

PDF texte : le texte est directement accessible via Extract from PDF
PDF image : le contenu est une image (scan, photo), le texte n’est pas extractible directement

Détecter un PDF image

Après extraction avec Extract from PDF, si le contenu retourné est vide ou quasi-vide, le PDF est probablement un scan ou une photo convertie en PDF.

Workflow pour PDF image

PDF → Extract from PDF → Contenu vide ?
                              ├── Non → Traitement texte normal
                              └── Oui → Write File → Convert to Image → Read File → Analyze Image → LLM

Étapes détaillées

Write File : écrire le PDF sur le serveur N8N
Convert to Image : convertir le PDF en image (JPG/PNG)
Read File : récupérer l’image en binaire
Analyze Image : analyser l’image avec l’IA pour extraire le texte
Nettoyage : supprimer les fichiers temporaires du serveur

Cette méthode permet de traiter n’importe quel PDF, qu’il contienne du texte natif ou des images scannées.

Classifier les documents avec l’IA

Une fois le texte extrait, le nœud Text Classifier permet de catégoriser automatiquement les documents selon des catégories que vous définissez.

Exemple de catégories

Facture
Devis
Contrat
Ticket de remboursement
Document administratif
Correspondance

Le classifieur analyse le résumé ou le contenu brut et attribue la catégorie la plus pertinente. Cette classification peut ensuite déclencher des actions spécifiques : archivage dans un dossier dédié, notification, extraction de données structurées.

Bonnes pratiques

Créez un workflow réutilisable : développez un workflow maître que vous appelez via Execute Workflow depuis d’autres automatisations
Nettoyez les fichiers temporaires : supprimez les fichiers écrits sur le serveur après traitement pour éviter l’accumulation
Gérez les erreurs : prévoyez des branches pour les cas où l’extraction échoue (fichier corrompu, format non supporté)
Optimisez les coûts IA : utilisez des modèles légers pour les tâches simples (résumé court) et des modèles avancés uniquement pour l’analyse d’images
Testez avec différents formats : validez votre workflow avec des PDF texte, PDF scan, images de qualité variable

Quotien Intellectuel pour illustrer l'apprentissage du noeud N8N

Comment extraire le texte d'un PDF qui contient uniquement une image scannée ?

Utilisez le nœud Read Binary File qui détecte automatiquement le texte dans les images et l'extrait sans configuration supplémentaire. Utilisez Extract from PDF, puis si le contenu est vide, convertissez le PDF en image et analysez-la avec le nœud Analyze Image d'OpenAI pour extraire le texte via l'IA. Envoyez le PDF à Google Drive qui convertit automatiquement les scans en texte éditable via son OCR natif. Utilisez directement le nœud Extract from PDF qui gère automatiquement les images scannées grâce à son OCR intégré.

Conclusion

L’extraction de contenu dans N8N est une brique essentielle pour automatiser la gestion documentaire. Chaque type de fichier nécessite une approche spécifique : Extract from Text pour les TXT, Extract from PDF pour les PDF texte, et Analyze Image pour les images et PDF scannés. En combinant ces extractions avec des LLM, vous pouvez résumer, renommer et classifier automatiquement vos documents.

Pour aller plus loin avec la classification automatique, consultez notre tutoriel dédié au nœud Text Classifier. Explorez nos autres ressources N8N ou contactez notre équipe pour concevoir un système de gestion documentaire intelligent adapté à vos besoins.

Comment extraire du texte d’un fichier PDF dans N8N ?

Utilisez le nœud Extract from PDF qui lit le contenu texte natif du document. Si le PDF retourne un contenu vide, il s’agit probablement d’un scan ou d’une image : convertissez-le en image puis utilisez le nœud Analyze Image d’OpenAI pour extraire le texte via l’IA.

Comment extraire le texte d’une image avec N8N ?

Utilisez le nœud Analyze Image d’OpenAI qui exploite GPT-4 Vision. Ce nœud analyse visuellement l’image et peut lire le texte présent, décrire le contenu et identifier des éléments spécifiques. Le texte extrait peut ensuite être traité par des LLM pour résumé ou classification.

Comment différencier un PDF texte d’un PDF image ?

Après extraction avec le nœud Extract from PDF, vérifiez si le contenu retourné est vide ou quasi-vide. Un PDF texte retourne le contenu directement lisible. Un PDF image (scan, photo) retourne un contenu vide car le texte n’existe que sous forme d’image, pas de données texte.

Peut-on classifier automatiquement des documents avec N8N ?

Oui, utilisez le nœud Text Classifier après avoir extrait le contenu du fichier. Définissez vos catégories (facture, devis, contrat, etc.) et le classifieur attribuera automatiquement la catégorie la plus pertinente. Vous pouvez aussi passer par un LLM avec un prompt de classification.

Quels formats de fichiers peut-on traiter dans N8N ?

N8N supporte les formats courants : TXT (Extract from Text), PDF (Extract from PDF), XLSX et CSV (Read Spreadsheet), images JPG/PNG (Analyze Image avec OpenAI). Pour les formats spécifiques, vous pouvez utiliser des API externes ou des nœuds Code personnalisés.

Comment créer un workflow réutilisable pour l’extraction de fichiers ?

Créez un workflow maître avec toutes les branches d’extraction (TXT, PDF, image) et exposez-le via le nœud ‘When Executed by Another Workflow’. Depuis vos autres automatisations, appelez ce workflow via le nœud Execute Workflow en lui passant le fichier en paramètre.