Aller au contenu principal
Cas d'usage

Comment extraire et classifier automatiquement vos fichiers avec n8n

Publié le 26 mars 20255min

Chapitres

Résumé

Ce tutoriel montre comment extraire le contenu de différents types de fichiers (PDF, Word, Excel, images) dans n8n pour ensuite les analyser et les classifier automatiquement avec l'IA. L'objectif : transformer des fichiers non structurés en données exploitables par les workflows.

Types de fichiers supportés

n8n peut extraire le contenu de plusieurs formats : PDF (texte et OCR pour les scans), documents Word (.docx), tableurs Excel (.xlsx), fichiers CSV, et images (via OCR). Chaque format nécessite un noeud ou une méthode d'extraction différente. Le noeud Extract from File gère les formats courants. Pour les PDF scannés et les images, un service OCR externe ou un noeud IA avec vision est nécessaire.

Extraction du contenu

Pour les PDF texte, le noeud Extract from File retourne le contenu en texte brut. Pour les documents Word, le contenu est extrait paragraphe par paragraphe. Pour les tableurs Excel, les données sont converties en JSON avec les en-têtes comme clés. L'extraction est la première étape avant toute analyse ou classification.

Classification par IA

Une fois le contenu extrait, un noeud LLM Chain ou AI Agent classe le document dans une catégorie : facture, contrat, devis, courrier, CV. Le prompt de classification définit les catégories possibles et les critères de tri. Le modèle IA retourne la catégorie et un score de confiance. Cette classification permet ensuite d'acheminer le document vers le bon traitement dans le workflow.

Pipeline complet

Le workflow type : trigger (email, webhook ou dossier surveillé) vers extraction du contenu vers classification IA vers action conditionnelle (archivage, notification, traitement spécifique). Ce pipeline transforme un flux de documents désorganisé en un processus structuré et automatisé.

Guide d'extraction par type de fichier

Sélectionnez un format pour voir le noeud et la méthode d'extraction adaptés.

.pdf

PDF (texte sélectionnable)

Noeud n8n

Extract from File

Méthode d'extraction

Extraction directe du texte intégré dans le PDF

Format de sortie

Texte brut, paragraphe par paragraphe

Limites

Ne fonctionne pas sur les PDF scannés (images)

Contenu détaillé

00:00Introduction

Présentation du tutoriel : extraire le contenu de fichiers pour les analyser et les classifier avec l'IA dans n8n.

00:30Types de fichiers supportés

PDF, Word, Excel, CSV, images. Chaque format nécessite une méthode d'extraction différente.

01:30Le noeud Extract from File

Utiliser le noeud pour extraire le texte des PDF, Word et Excel. Configuration des options d'extraction.

02:30OCR pour les images et PDF scannés

Quand le PDF est un scan, utiliser un service OCR ou un modèle IA avec vision pour extraire le texte.

03:30Classifier avec un LLM

Envoyer le contenu extrait à un noeud LLM Chain avec un prompt de classification. Définir les catégories et les critères.

04:30Pipeline complet

Assembler le workflow : trigger, extraction, classification, action conditionnelle selon la catégorie.

05:15Résultat et cas d'usage

Démonstration du pipeline sur des fichiers variés. Cas d'usage : tri de factures, analyse de CV, classement de courrier.

Questions fréquentes

Transcription complète

Ce tutoriel vous a été utile ? Contactez-moi pour un accompagnement personnalisé sur n8n.