n8n peut-il lire des PDF protégés par mot de passe ?

Non nativement. Les PDF protégés doivent être déverrouillés avant l'extraction. Utiliser un service externe ou un nœud Code avec une librairie de manipulation PDF pour retirer la protection.

Quelle est la précision de la classification IA ?

Avec un prompt bien rédigé et des catégories clairement définies, la précision atteint 90 à 95% sur des documents standards (factures, contrats, devis). La précision baisse sur des documents atypiques ou ambigus.

Peut-on extraire des données structurées d'un PDF (nom, montant, date) ?

Oui. Après extraction du texte, envoyer le contenu à un nœud LLM avec un prompt demandant les champs spécifiques en format JSON. Le modèle retourne les données structurées prêtes à être utilisées dans le workflow.

Cas d'usage

Comment extraire et classifier automatiquement vos fichiers avec n8n

Publié le 26 mars 20255min

Chapitres

Résumé

Ce tutoriel montre comment extraire le contenu de différents types de fichiers (PDF, Word, Excel, images) dans n8n pour ensuite les analyser et les classifier automatiquement avec l'IA. L'objectif : transformer des fichiers non structurés en données exploitables par les workflows.

Types de fichiers supportés

n8n peut extraire le contenu de plusieurs formats : PDF (texte et OCR pour les scans), documents Word (.docx), tableurs Excel (.xlsx), fichiers CSV, et images (via OCR). Chaque format nécessite un nœud ou une méthode d'extraction différente. Le nœud Extract from File gère les formats courants. Pour les PDF scannés et les images, un service OCR externe ou un nœud IA avec vision est nécessaire.

Extraction du contenu

Pour les PDF texte, le nœud Extract from File retourne le contenu en texte brut. Pour les documents Word, le contenu est extrait paragraphe par paragraphe. Pour les tableurs Excel, les données sont converties en JSON avec les en-têtes comme clés. L'extraction est la première étape avant toute analyse ou classification.

Classification par IA

Une fois le contenu extrait, un nœud LLM Chain ou AI Agent classe le document dans une catégorie : facture, contrat, devis, courrier, CV. Le prompt de classification définit les catégories possibles et les critères de tri. Le modèle IA retourne la catégorie et un score de confiance. Cette classification permet ensuite d'acheminer le document vers le bon traitement dans le workflow.

Pipeline complet

Le workflow type : trigger (email, webhook ou dossier surveillé) vers extraction du contenu vers classification IA vers action conditionnelle (archivage, notification, traitement spécifique). Ce pipeline transforme un flux de documents désorganisé en un processus structuré et automatisé.

Guide d'extraction par type de fichier

Sélectionnez un format pour voir le nœud et la méthode d'extraction adaptés.

.pdf

PDF (texte sélectionnable)

Nœud n8n

Extract from File

Méthode d'extraction

Extraction directe du texte intégré dans le PDF

Format de sortie

Texte brut, paragraphe par paragraphe

Limites

Ne fonctionne pas sur les PDF scannés (images)

Contenu détaillé

00:00Introduction

Présentation du tutoriel : extraire le contenu de fichiers pour les analyser et les classifier avec l'IA dans n8n.

00:30Types de fichiers supportés

PDF, Word, Excel, CSV, images. Chaque format nécessite une méthode d'extraction différente.

01:30Le nœud Extract from File

Utiliser le nœud pour extraire le texte des PDF, Word et Excel. Configuration des options d'extraction.

02:30OCR pour les images et PDF scannés

Quand le PDF est un scan, utiliser un service OCR ou un modèle IA avec vision pour extraire le texte.

03:30Classifier avec un LLM

Envoyer le contenu extrait à un nœud LLM Chain avec un prompt de classification. Définir les catégories et les critères.

04:30Pipeline complet

Assembler le workflow : trigger, extraction, classification, action conditionnelle selon la catégorie.

05:15Résultat et cas d'usage

Démonstration du pipeline sur des fichiers variés. Cas d'usage : tri de factures, analyse de CV, classement de courrier.

Questions fréquentes

Transcription complète

Pour aller plus loin

Ce tutoriel vous a été utile ? Contactez-moi pour un accompagnement personnalisé sur n8n.

← Toutes les ressources Prendre contact →