Classer ses factures automatiquement avec n8n : extraction IA et archivage structure
Les factures arrivent par email, WhatsApp, courrier scanné, portail fournisseur. Sans système de classement automatisé, elles finissent dans des dossiers génériques, sont renommées de manière incohérente, ou sont perdues entre deux canaux. Le classement manuel consomme du temps, génère des oublis et complique le suivi comptable. n8n permet d’automatiser l’intégralité de ce processus : reception, extraction des données par IA, renommage et classement dans une arborescence structurée - sans intervention humaine.
Mis à jour : mars 2026.
Calculateur economies classement automatise
5.3h
Heures gagnees / mois
133€
Economies / mois
1 596€
Economies / an
+343 %
ROI mensuel
Estimation basee sur le temps de classement manuel elimine. Le cout reel depend du volume et du LLM utilise pour l'extraction.
Besoin d'aide pour mettre ça en place dans votre entreprise ?
Discutons de votre projet →Le problème du classement manuel des factures
Dans une PME, les factures arrivent par des canaux différents : pieces jointes email, photos WhatsApp, scans papier, téléchargements depuis des portails fournisseurs. Chaque canal à son propre format et sa propre logique de nommage. Le fichier s’appelle facture_2026.pdf, INV-00234.pdf, ou IMG_20260315.jpg selon la source.
Les consequences concretes :
- Temps de recherche : retrouver une facture spécifique parmi des centaines de fichiers mal nommes prend plusieurs minutes à chaque fois
- Documents perdus : une facture recue par WhatsApp un vendredi soir est oubliée le lundi matin
- Doublons : la même facture recue par email et par courrier est classee deux fois
- Stress comptable : en fin de mois ou lors d’un contrôle, l’équipe passe des heures a reconstituer les pieces manquantes
Ce problème touche particulièrement les PME de 5 a 20 personnes ou la gestion administrative n’est pas le coeur de métier. Le cas de PH Taxi illustre cette situation : avant automatisation, la centralisation des factures multi-canal etait une source de stress quotidien pour l’équipe.
Architecture du workflow n8n
Le workflow de classement automatique suit un pipeline en six étapes. Chaque étape correspond à un ou plusieurs nœuds dans n8n.
- Trigger : détection d’une nouvelle facture (Gmail Trigger, Google Drive Trigger, Webhook, ou IMAP Email Trigger)
- Extraction du fichier : récupération de la piece jointe ou du fichier (Move Binary Data, HTTP Request)
- Analyse IA : envoi du document à un LLM multimodal pour extraire les données structurées
- Formatage : nœud Code pour générer le nom de fichier et le chemin de classement selon la convention
- Classement : deplacement du fichier renomme dans le bon dossier (Google Drive, Dropbox, ou système de fichiers local)
- Notification (optionnel) : confirmation par email, Discord ou Slack
Ce workflow se déclenche automatiquement à chaque reception de facture. Il peut aussi s’exécuter en batch via un Cron Trigger pour traiter un lot de documents accumules. Source : docs.n8n.io - Trigger nodes.
Extraction du contenu des factures
Les factures arrivent sous trois formats principaux, chacun necessitant un traitement différent dans n8n.
PDF texte
Les PDF generes numeriquement (factures de SaaS, fournisseurs en ligne) contiennent du texte extractible. Le nœud Extract from File de n8n extrait le contenu textuel directement, sans OCR. Ce texte brut est ensuite envoyé au LLM pour structuration.
PDF image et scans
Les factures scannees ou les PDF generes à partir de photos ne contiennent pas de texte extractible - uniquement une image. Pour ces documents, un LLM multimodal est nécessaire : le fichier est envoyé directement comme image au modèle, qui “lit” visuellement le document.
Images (photos WhatsApp, captures)
Même traitement que les PDF images : le fichier est envoyé tel quel au LLM multimodal. Claude (Anthropic) et GPT-4o (OpenAI) supportent l’analyse d’images et produisent des résultats fiables même sur des photos de qualité moyenne.
L’avantage d’utiliser un LLM multimodal pour les trois cas : un seul pipeline géré tous les formats. Pas besoin de séparer les flux selon le type de document. Le modèle s’adapte au format recu - texte ou image - et extrait les mêmes données structurées dans les deux cas.
Analyse IA : extraire les données clés
Le nœud central du workflow est l’appel au LLM. Le prompt doit être structure pour obtenir une réponse JSON exploitable par les nœuds suivants. Exemple de prompt système :
Tu es un assistant de gestion documentaire. Analyse cette facture et retourne un JSON avec les champs suivants :
- fournisseur : nom du fournisseur
- date : date de la facture au format YYYY-MM-DD
- numero : numero de facture
- montant_ht : montant hors taxes
- montant_ttc : montant TTC
- type : "facture", "devis", "bon_de_transport", "avoir" ou "autre"
- categorie : categorie du fournisseur (ex: "telecom", "fournitures", "transport")
Si une information est illisible ou absente, mettre null.
Le LLM retourne un JSON structure que le nœud Code parse pour alimenter les étapes suivantes. Le champ type est critique car il determine le sous-dossier de classement. Le champ categorie est optionnel mais utile pour les analyses comptables ulterieures.
En pratique, un LLM multimodal comme Claude 3.5 Sonnet ou GPT-4o extrait correctement les données de la grande majorite des factures standardisees. Les cas d’échec sont généralement lies à des documents manuscrits, des factures tres degradees, ou des mises en page inhabituelles. Le prompt inclut la consigne de retourner null plutot que d’inventer une valeur - ce qui permet de détecter les extractions incompletes et de les traiter manuellement si nécessaire.
Renommage et classement automatique
Une fois les données extraites, le nœud Code génère le chemin de classement et le nom de fichier selon une convention stricte.
Arborescence recommandee
Automatisation/
2026/
Factures/
01-Janvier/
Fournisseur-A/
2026-01-15_Fournisseur-A_facture-00234_580EUR.pdf
Fournisseur-B/
2026-01-20_Fournisseur-B_facture-00891_1200EUR.pdf
02-Fevrier/
...
Devis/
01-Janvier/
...
Bons-de-transport/
...
La structure suit cette hierarchie : Annee > Type de document > Mois > Fournisseur > Fichier. Le type de document (facture, devis, bon de transport, avoir) est le deuxieme niveau, ce qui permet de retrouver rapidement tous les devis ou toutes les factures d’une période sans naviguer dans chaque fournisseur.
Convention de nommage
Le fichier est renomme selon le format : YYYY-MM-DD_fournisseur_type-numero_montant.pdf. Cette convention garantit un tri chronologique naturel dans l’explorateur de fichiers et une identification immédiate du contenu sans ouvrir le document. Le nœud Code génère ce nom à partir du JSON retourne par le LLM, en normalisant les caracteres (suppression des accents, remplacement des espaces par des tirets).
Classement dans Google Drive ou autre stockage
Le nœud Google Drive (ou Dropbox, ou HTTP Request vers une API de stockage) créé les dossiers manquants et deplace le fichier renomme au bon emplacement. Si le dossier 2026/Factures/03-Mars/Nouveau-Fournisseur/ n’existe pas encore, le workflow le créé automatiquement avant d’y deposer le fichier.
Obligations legales en France
Le classement automatisé doit respecter les obligations de conservation des documents comptables en France.
- Duree de conservation : 10 ans pour les factures (article L123-22 du Code de commerce, Legifrance)
- Format electronique : la facture electronique est acceptee comme original depuis la loi de finances 2017. Un PDF stocke dans Google Drive à la même valeur juridique qu’un original papier, a condition de garantir l’authenticite de l’origine et l’integrite du contenu
- Facturation electronique obligatoire : la reforme impose progressivement la facturation electronique entre entreprises assujetties à la TVA (calendrier en cours de déploiement, pilote prevu à partir de 2026)
Le workflow n8n ne modifie pas le contenu des factures - il les renomme et les deplace. L’original est preserve tel quel dans le dossier de destination. Pour les entreprises qui doivent prouver l’integrite des documents, ajouter un hash SHA-256 du fichier dans les metadonnees ou dans un fichier de log associe.
Limites et points de vigilance
- Qualité des documents source : un scan de mauvaise qualité ou une photo floue reduit la fiabilite de l’extraction. Le LLM retournera des champs
nullque le workflow doit gérer (notification pour traitement manuel) - Factures manuscrites : les LLM actuels lisent les ecritures manuscrites avec une fiabilite variable. Prevoir un circuit de vérification humaine pour ces cas
- Cout des appels LLM : chaque facture analysee consomme des tokens. Avec Claude 3.5 Sonnet, l’analyse d’une facture image coute environ 0,01 a 0,03 $ selon la taille du document (tarif mars 2026). Pour 100 factures par mois, le cout LLM reste sous 3 $
- Credentials et acces : le workflow a besoin d’acces en écriture au stockage (Google Drive, Dropbox). Ces credentials doivent être configurees dans n8n et ne sont pas exportees avec le workflow (voir article sur la sauvegarde des workflows)
FAQ
n8n dispose-t-il d’un OCR natif ?
Non. n8n n’intégré pas de moteur OCR natif. Pour les documents images, la solution recommandee est d’utiliser un LLM multimodal (Claude, GPT-4o) qui analyse directement l’image sans étape OCR intermediaire. Cette approche est plus simple à configurer et souvent plus fiable qu’un OCR classique suivi d’une extraction par règles. Pour les PDF texte, le nœud Extract from File suffit.
Peut-on traiter des factures en plusieurs langues ?
Oui. Les LLM multimodaux comprennent les factures en francais, anglais, allemand, espagnol et la plupart des langues europeennes. Le prompt d’extraction n’a pas besoin d’être adapte - le modèle détecté la langue automatiquement et retourne les données dans le format JSON demande.
Que se passe-t-il si l’IA n’arrive pas à extraire une donnée ?
Le prompt demande au LLM de retourner null pour les champs illisibles ou absents. Le nœud Code suivant détecté les valeurs null et peut soit classer le document dans un dossier “A traiter manuellement”, soit envoyer une notification à l’utilisateur pour vérification. L’objectif est de ne jamais classer un document avec des données fausses.
Quel volume de factures le workflow peut-il traiter ?
Le facteur limitant est le debit de l’API du LLM, pas n8n. En pratique, un workflow traite une facture en 5 a 15 secondes (temps d’analyse IA inclus). Pour les volumes importants (plusieurs centaines par jour), utiliser le nœud SplitInBatches avec un delai entre les lots pour respecter les limites de debit de l’API.
Comment gérer les doublons ?
Le workflow peut vérifier si un fichier portant le même nom existe déjà dans le dossier de destination avant de classer. Si le numéro de facture et le fournisseur correspondent à un document déjà archive, le workflow signale le doublon au lieu de créer une copie. Cette vérification se fait dans le nœud Code en comparant avec la liste des fichiers existants via l’API Google Drive ou un fichier de log.
Fiche technique
| Élément | Détail |
|---|---|
| Triggers | Gmail Trigger, IMAP Email Trigger, Google Drive Trigger, Webhook |
| Extraction PDF texte | Nœud Extract from File (docs.n8n.io) |
| Extraction PDF image / photo | LLM multimodal (Claude 3.5 Sonnet, GPT-4o) via nœud correspondant |
| Classement | Google Drive, Dropbox, HTTP Request vers API de stockage |
| Arborescence | Annee > Type de document > Mois > Fournisseur > Fichier |
| Nommage | YYYY-MM-DD_fournisseur_type-numero_montant.pdf |
| Conservation legale | 10 ans (art. L123-22 Code de commerce) |
| Cout LLM par facture | ~0,01 a 0,03 $ (Claude 3.5 Sonnet, mars 2026) |
