
L’extraction de contenu depuis des fichiers est une étape fondamentale pour automatiser la gestion documentaire. Que ce soit un PDF, un fichier TXT, un tableur Excel ou une image, N8N propose des nœuds spécialisés pour récupérer le texte de chaque format. Combinée à l’IA, cette extraction permet ensuite de classifier automatiquement vos documents : factures, devis, tickets de remboursement, contrats.
Pourquoi extraire le contenu des fichiers ?
L’extraction de contenu est la première étape d’une chaîne d’automatisation documentaire. Une fois le texte extrait, vous pouvez :
- Classifier automatiquement : identifier si un document est une facture, un devis, un contrat
- Résumer le contenu : obtenir une synthèse rapide d’un document long
- Renommer intelligemment : générer un nom de fichier pertinent basé sur le contenu
- Indexer pour la recherche : rendre vos documents accessibles par mots-clés
- Alimenter une base de données : extraire des informations structurées (montants, dates, noms)
Types de fichiers et méthodes d’extraction
Chaque type de fichier nécessite une approche différente. N8N propose des nœuds dédiés pour les formats courants :
| Type de fichier | Nœud N8N | Méthode d’extraction |
| TXT | Extract from Text | Lecture directe du contenu texte |
| PDF (texte) | Extract from PDF | Extraction du texte natif |
| PDF (image/scan) | Analyze Image (OpenAI) | Conversion en image + OCR IA |
| XLSX / CSV | Read Binary File + Spreadsheet | Parsing des cellules |
| Image (JPG, PNG) | Analyze Image (OpenAI) | Vision IA pour extraire le texte |
Workflow simple : extraction fichier TXT
Commençons par un workflow basique pour comprendre le fonctionnement de l’extraction.
Architecture du workflow
Formulaire → Extract from Text → LLM (Résumé) → Merge
→ LLM (Nom fichier) ↗
Étape 1 : Réception du fichier
Un nœud Formulaire permet à l’utilisateur de télécharger un fichier TXT. Ce déclencheur récupère le fichier en entrée du workflow.
Étape 2 : Extraction du contenu
Le nœud Extract from Text lit le fichier TXT et en extrait le contenu brut sous forme de texte. Cette opération est instantanée car les fichiers TXT contiennent du texte natif sans encodage complexe.
Étape 3 : Traitement par LLM
Deux LLM travaillent en parallèle sur le contenu extrait :
- Premier LLM : génère un résumé du contenu du fichier
- Second LLM : propose un nom de fichier pertinent basé sur le contenu
Étape 4 : Fusion des résultats
Le nœud Merge rassemble les deux sorties (résumé + nom proposé) dans un seul objet exploitable pour la suite du workflow.
Exemple de résultat
Pour un fichier TXT contenant du code CSS d’un header de site :
- Nom proposé : « Style Header Component »
- Résumé : description des propriétés CSS et de leur usage
Ce résumé peut ensuite alimenter un nœud classifieur pour catégoriser automatiquement le document.
Workflow avancé : gestion multi-formats
Pour traiter différents types de fichiers, le workflow doit router chaque format vers le nœud d’extraction approprié.
Architecture multi-formats
Fichier → Détection type → Switch
├── TXT → Extract from Text → LLM
├── PDF → Extract from PDF → (vide ?) → Analyze Image → LLM
├── Image → Analyze Image → LLM
└── XLSX → Read Spreadsheet → LLM
Le nœud Switch route le fichier vers le bon traitement selon son extension ou son type MIME.
Extraire le texte d’une image avec l’IA
Les images (JPG, PNG) nécessitent un traitement spécial : l’IA analyse visuellement le contenu et décrit ce qu’elle voit, y compris le texte présent.
Utiliser Analyze Image (OpenAI)
Le nœud Analyze Image d’OpenAI utilise GPT-4 Vision pour analyser une image. Il peut :
- Décrire le contenu visuel de l’image
- Lire et extraire le texte visible (OCR intelligent)
- Identifier des éléments spécifiques (logos, signatures, tableaux)
Le texte retourné par l’IA peut ensuite être traité comme n’importe quel contenu texte : résumé, classification, extraction de données.
Cas particulier : PDF image ou scanné
Les PDF peuvent contenir deux types de contenu :
- PDF texte : le texte est directement accessible via Extract from PDF
- PDF image : le contenu est une image (scan, photo), le texte n’est pas extractible directement
Détecter un PDF image
Après extraction avec Extract from PDF, si le contenu retourné est vide ou quasi-vide, le PDF est probablement un scan ou une photo convertie en PDF.
Workflow pour PDF image
PDF → Extract from PDF → Contenu vide ?
├── Non → Traitement texte normal
└── Oui → Write File → Convert to Image → Read File → Analyze Image → LLM
Étapes détaillées
- Write File : écrire le PDF sur le serveur N8N
- Convert to Image : convertir le PDF en image (JPG/PNG)
- Read File : récupérer l’image en binaire
- Analyze Image : analyser l’image avec l’IA pour extraire le texte
- Nettoyage : supprimer les fichiers temporaires du serveur
Cette méthode permet de traiter n’importe quel PDF, qu’il contienne du texte natif ou des images scannées.
Classifier les documents avec l’IA
Une fois le texte extrait, le nœud Text Classifier permet de catégoriser automatiquement les documents selon des catégories que vous définissez.
Exemple de catégories
- Facture
- Devis
- Contrat
- Ticket de remboursement
- Document administratif
- Correspondance
Le classifieur analyse le résumé ou le contenu brut et attribue la catégorie la plus pertinente. Cette classification peut ensuite déclencher des actions spécifiques : archivage dans un dossier dédié, notification, extraction de données structurées.
Bonnes pratiques
- Créez un workflow réutilisable : développez un workflow maître que vous appelez via Execute Workflow depuis d’autres automatisations
- Nettoyez les fichiers temporaires : supprimez les fichiers écrits sur le serveur après traitement pour éviter l’accumulation
- Gérez les erreurs : prévoyez des branches pour les cas où l’extraction échoue (fichier corrompu, format non supporté)
- Optimisez les coûts IA : utilisez des modèles légers pour les tâches simples (résumé court) et des modèles avancés uniquement pour l’analyse d’images
- Testez avec différents formats : validez votre workflow avec des PDF texte, PDF scan, images de qualité variable

Comment extraire le texte d'un PDF qui contient uniquement une image scannée ?
Conclusion
L’extraction de contenu dans N8N est une brique essentielle pour automatiser la gestion documentaire. Chaque type de fichier nécessite une approche spécifique : Extract from Text pour les TXT, Extract from PDF pour les PDF texte, et Analyze Image pour les images et PDF scannés. En combinant ces extractions avec des LLM, vous pouvez résumer, renommer et classifier automatiquement vos documents.
Pour aller plus loin avec la classification automatique, consultez notre tutoriel dédié au nœud Text Classifier. Explorez nos autres ressources N8N ou contactez notre équipe pour concevoir un système de gestion documentaire intelligent adapté à vos besoins.
Utilisez le nœud Extract from PDF qui lit le contenu texte natif du document. Si le PDF retourne un contenu vide, il s’agit probablement d’un scan ou d’une image : convertissez-le en image puis utilisez le nœud Analyze Image d’OpenAI pour extraire le texte via l’IA.
Utilisez le nœud Analyze Image d’OpenAI qui exploite GPT-4 Vision. Ce nœud analyse visuellement l’image et peut lire le texte présent, décrire le contenu et identifier des éléments spécifiques. Le texte extrait peut ensuite être traité par des LLM pour résumé ou classification.
Après extraction avec le nœud Extract from PDF, vérifiez si le contenu retourné est vide ou quasi-vide. Un PDF texte retourne le contenu directement lisible. Un PDF image (scan, photo) retourne un contenu vide car le texte n’existe que sous forme d’image, pas de données texte.
Oui, utilisez le nœud Text Classifier après avoir extrait le contenu du fichier. Définissez vos catégories (facture, devis, contrat, etc.) et le classifieur attribuera automatiquement la catégorie la plus pertinente. Vous pouvez aussi passer par un LLM avec un prompt de classification.
N8N supporte les formats courants : TXT (Extract from Text), PDF (Extract from PDF), XLSX et CSV (Read Spreadsheet), images JPG/PNG (Analyze Image avec OpenAI). Pour les formats spécifiques, vous pouvez utiliser des API externes ou des nœuds Code personnalisés.
Créez un workflow maître avec toutes les branches d’extraction (TXT, PDF, image) et exposez-le via le nœud ‘When Executed by Another Workflow’. Depuis vos autres automatisations, appelez ce workflow via le nœud Execute Workflow en lui passant le fichier en paramètre.
