Classer ses factures automatiquement avec n8n : extraction IA et archivage structure
Les factures arrivent par email, WhatsApp, courrier scanne, portail fournisseur. Sans systeme de classement automatise, elles finissent dans des dossiers generiques, sont renommees de maniere incoherente, ou sont perdues entre deux canaux. Le classement manuel consomme du temps, genere des oublis et complique le suivi comptable. n8n permet d’automatiser l’integralite de ce processus : reception, extraction des donnees par IA, renommage et classement dans une arborescence structuree - sans intervention humaine.
Mis a jour : mars 2026.
Calculateur economies classement automatise
5.3h
Heures gagnees / mois
133€
Economies / mois
1 596€
Economies / an
+343 %
ROI mensuel
Estimation basee sur le temps de classement manuel elimine. Le cout reel depend du volume et du LLM utilise pour l'extraction.
Besoin d'aide pour mettre ca en place dans votre entreprise ?
Discutons de votre projet →Le probleme du classement manuel des factures
Dans une PME, les factures arrivent par des canaux differents : pieces jointes email, photos WhatsApp, scans papier, telechargements depuis des portails fournisseurs. Chaque canal a son propre format et sa propre logique de nommage. Le fichier s’appelle facture_2026.pdf, INV-00234.pdf, ou IMG_20260315.jpg selon la source.
Les consequences concretes :
- Temps de recherche : retrouver une facture specifique parmi des centaines de fichiers mal nommes prend plusieurs minutes a chaque fois
- Documents perdus : une facture recue par WhatsApp un vendredi soir est oubliee le lundi matin
- Doublons : la meme facture recue par email et par courrier est classee deux fois
- Stress comptable : en fin de mois ou lors d’un controle, l’equipe passe des heures a reconstituer les pieces manquantes
Ce probleme touche particulierement les PME de 5 a 20 personnes ou la gestion administrative n’est pas le coeur de metier. Le cas de PH Taxi illustre cette situation : avant automatisation, la centralisation des factures multi-canal etait une source de stress quotidien pour l’equipe.
Architecture du workflow n8n
Le workflow de classement automatique suit un pipeline en six etapes. Chaque etape correspond a un ou plusieurs noeuds dans n8n.
- Trigger : detection d’une nouvelle facture (Gmail Trigger, Google Drive Trigger, Webhook, ou IMAP Email Trigger)
- Extraction du fichier : recuperation de la piece jointe ou du fichier (Move Binary Data, HTTP Request)
- Analyse IA : envoi du document a un LLM multimodal pour extraire les donnees structurees
- Formatage : noeud Code pour generer le nom de fichier et le chemin de classement selon la convention
- Classement : deplacement du fichier renomme dans le bon dossier (Google Drive, Dropbox, ou systeme de fichiers local)
- Notification (optionnel) : confirmation par email, Discord ou Slack
Ce workflow se declenche automatiquement a chaque reception de facture. Il peut aussi s’executer en batch via un Cron Trigger pour traiter un lot de documents accumules. Source : docs.n8n.io - Trigger nodes.
Extraction du contenu des factures
Les factures arrivent sous trois formats principaux, chacun necessitant un traitement different dans n8n.
PDF texte
Les PDF generes numeriquement (factures de SaaS, fournisseurs en ligne) contiennent du texte extractible. Le noeud Extract from File de n8n extrait le contenu textuel directement, sans OCR. Ce texte brut est ensuite envoye au LLM pour structuration.
PDF image et scans
Les factures scannees ou les PDF generes a partir de photos ne contiennent pas de texte extractible - uniquement une image. Pour ces documents, un LLM multimodal est necessaire : le fichier est envoye directement comme image au modele, qui “lit” visuellement le document.
Images (photos WhatsApp, captures)
Meme traitement que les PDF images : le fichier est envoye tel quel au LLM multimodal. Claude (Anthropic) et GPT-4o (OpenAI) supportent l’analyse d’images et produisent des resultats fiables meme sur des photos de qualite moyenne.
L’avantage d’utiliser un LLM multimodal pour les trois cas : un seul pipeline gere tous les formats. Pas besoin de separer les flux selon le type de document. Le modele s’adapte au format recu - texte ou image - et extrait les memes donnees structurees dans les deux cas.
Analyse IA : extraire les donnees cles
Le noeud central du workflow est l’appel au LLM. Le prompt doit etre structure pour obtenir une reponse JSON exploitable par les noeuds suivants. Exemple de prompt systeme :
Tu es un assistant de gestion documentaire. Analyse cette facture et retourne un JSON avec les champs suivants :
- fournisseur : nom du fournisseur
- date : date de la facture au format YYYY-MM-DD
- numero : numero de facture
- montant_ht : montant hors taxes
- montant_ttc : montant TTC
- type : "facture", "devis", "bon_de_transport", "avoir" ou "autre"
- categorie : categorie du fournisseur (ex: "telecom", "fournitures", "transport")
Si une information est illisible ou absente, mettre null.
Le LLM retourne un JSON structure que le noeud Code parse pour alimenter les etapes suivantes. Le champ type est critique car il determine le sous-dossier de classement. Le champ categorie est optionnel mais utile pour les analyses comptables ulterieures.
En pratique, un LLM multimodal comme Claude 3.5 Sonnet ou GPT-4o extrait correctement les donnees de la grande majorite des factures standardisees. Les cas d’echec sont generalement lies a des documents manuscrits, des factures tres degradees, ou des mises en page inhabituelles. Le prompt inclut la consigne de retourner null plutot que d’inventer une valeur - ce qui permet de detecter les extractions incompletes et de les traiter manuellement si necessaire.
Renommage et classement automatique
Une fois les donnees extraites, le noeud Code genere le chemin de classement et le nom de fichier selon une convention stricte.
Arborescence recommandee
Automatisation/
2026/
Factures/
01-Janvier/
Fournisseur-A/
2026-01-15_Fournisseur-A_facture-00234_580EUR.pdf
Fournisseur-B/
2026-01-20_Fournisseur-B_facture-00891_1200EUR.pdf
02-Fevrier/
...
Devis/
01-Janvier/
...
Bons-de-transport/
...
La structure suit cette hierarchie : Annee > Type de document > Mois > Fournisseur > Fichier. Le type de document (facture, devis, bon de transport, avoir) est le deuxieme niveau, ce qui permet de retrouver rapidement tous les devis ou toutes les factures d’une periode sans naviguer dans chaque fournisseur.
Convention de nommage
Le fichier est renomme selon le format : YYYY-MM-DD_fournisseur_type-numero_montant.pdf. Cette convention garantit un tri chronologique naturel dans l’explorateur de fichiers et une identification immediate du contenu sans ouvrir le document. Le noeud Code genere ce nom a partir du JSON retourne par le LLM, en normalisant les caracteres (suppression des accents, remplacement des espaces par des tirets).
Classement dans Google Drive ou autre stockage
Le noeud Google Drive (ou Dropbox, ou HTTP Request vers une API de stockage) cree les dossiers manquants et deplace le fichier renomme au bon emplacement. Si le dossier 2026/Factures/03-Mars/Nouveau-Fournisseur/ n’existe pas encore, le workflow le cree automatiquement avant d’y deposer le fichier.
Obligations legales en France
Le classement automatise doit respecter les obligations de conservation des documents comptables en France.
- Duree de conservation : 10 ans pour les factures (article L123-22 du Code de commerce, Legifrance)
- Format electronique : la facture electronique est acceptee comme original depuis la loi de finances 2017. Un PDF stocke dans Google Drive a la meme valeur juridique qu’un original papier, a condition de garantir l’authenticite de l’origine et l’integrite du contenu
- Facturation electronique obligatoire : la reforme impose progressivement la facturation electronique entre entreprises assujetties a la TVA (calendrier en cours de deploiement, pilote prevu a partir de 2026)
Le workflow n8n ne modifie pas le contenu des factures - il les renomme et les deplace. L’original est preserve tel quel dans le dossier de destination. Pour les entreprises qui doivent prouver l’integrite des documents, ajouter un hash SHA-256 du fichier dans les metadonnees ou dans un fichier de log associe.
Limites et points de vigilance
- Qualite des documents source : un scan de mauvaise qualite ou une photo floue reduit la fiabilite de l’extraction. Le LLM retournera des champs
nullque le workflow doit gerer (notification pour traitement manuel) - Factures manuscrites : les LLM actuels lisent les ecritures manuscrites avec une fiabilite variable. Prevoir un circuit de verification humaine pour ces cas
- Cout des appels LLM : chaque facture analysee consomme des tokens. Avec Claude 3.5 Sonnet, l’analyse d’une facture image coute environ 0,01 a 0,03 $ selon la taille du document (tarif mars 2026). Pour 100 factures par mois, le cout LLM reste sous 3 $
- Credentials et acces : le workflow a besoin d’acces en ecriture au stockage (Google Drive, Dropbox). Ces credentials doivent etre configurees dans n8n et ne sont pas exportees avec le workflow (voir article sur la sauvegarde des workflows)
FAQ
n8n dispose-t-il d’un OCR natif ?
Non. n8n n’integre pas de moteur OCR natif. Pour les documents images, la solution recommandee est d’utiliser un LLM multimodal (Claude, GPT-4o) qui analyse directement l’image sans etape OCR intermediaire. Cette approche est plus simple a configurer et souvent plus fiable qu’un OCR classique suivi d’une extraction par regles. Pour les PDF texte, le noeud Extract from File suffit.
Peut-on traiter des factures en plusieurs langues ?
Oui. Les LLM multimodaux comprennent les factures en francais, anglais, allemand, espagnol et la plupart des langues europeennes. Le prompt d’extraction n’a pas besoin d’etre adapte - le modele detecte la langue automatiquement et retourne les donnees dans le format JSON demande.
Que se passe-t-il si l’IA n’arrive pas a extraire une donnee ?
Le prompt demande au LLM de retourner null pour les champs illisibles ou absents. Le noeud Code suivant detecte les valeurs null et peut soit classer le document dans un dossier “A traiter manuellement”, soit envoyer une notification a l’utilisateur pour verification. L’objectif est de ne jamais classer un document avec des donnees fausses.
Quel volume de factures le workflow peut-il traiter ?
Le facteur limitant est le debit de l’API du LLM, pas n8n. En pratique, un workflow traite une facture en 5 a 15 secondes (temps d’analyse IA inclus). Pour les volumes importants (plusieurs centaines par jour), utiliser le noeud SplitInBatches avec un delai entre les lots pour respecter les limites de debit de l’API.
Comment gerer les doublons ?
Le workflow peut verifier si un fichier portant le meme nom existe deja dans le dossier de destination avant de classer. Si le numero de facture et le fournisseur correspondent a un document deja archive, le workflow signale le doublon au lieu de creer une copie. Cette verification se fait dans le noeud Code en comparant avec la liste des fichiers existants via l’API Google Drive ou un fichier de log.
Fiche technique
| Element | Detail |
|---|---|
| Triggers | Gmail Trigger, IMAP Email Trigger, Google Drive Trigger, Webhook |
| Extraction PDF texte | Noeud Extract from File (docs.n8n.io) |
| Extraction PDF image / photo | LLM multimodal (Claude 3.5 Sonnet, GPT-4o) via noeud correspondant |
| Classement | Google Drive, Dropbox, HTTP Request vers API de stockage |
| Arborescence | Annee > Type de document > Mois > Fournisseur > Fichier |
| Nommage | YYYY-MM-DD_fournisseur_type-numero_montant.pdf |
| Conservation legale | 10 ans (art. L123-22 Code de commerce) |
| Cout LLM par facture | ~0,01 a 0,03 $ (Claude 3.5 Sonnet, mars 2026) |
