ScrapingLégalRGPDE-commerceCNILJurisprudence

Est-ce légal de scraper une boutique e-commerce ? Ce que dit la loi

Cadre juridique du scraping e-commerce en France : RGPD, droit sui generis des bases de données, droit d'auteur, concurrence déloyale. Jurisprudence, doctrine CNIL 2024 et bonnes pratiques.

11 avril 2026

Kaatalog

"Est-ce légal de scraper une boutique e-commerce ?" C'est la première question que se pose tout e-commerçant qui envisage d'utiliser le scraping pour constituer un catalogue, faire de la veille concurrentielle ou enrichir ses fiches produits. La réponse courte : oui, le scraping de données publiques est légal en France, mais dans un cadre précis — avec des risques réels si tu franchis certaines lignes.

Cet article explique ce cadre en détail : les quatre zones juridiques à connaître (RGPD, droit sui generis, droit d'auteur, concurrence déloyale), la jurisprudence française récente qui fait autorité, la doctrine CNIL 2024 sur l'intérêt légitime, et les bonnes pratiques pour scraper sans te mettre en danger. Ce n'est pas un conseil juridique personnalisé — pour ça, consulte un avocat spécialisé — mais un état des lieux factuel à jour de 2026 pour comprendre où se situe la ligne rouge.

Le principe général : le scraping de données publiques est légal en France

Commençons par le principe fondamental : le scraping en tant que tel n'est pas illégal en France. La collecte de données publiquement accessibles sur internet n'est interdite par aucune loi. C'est un point acquis, confirmé par la jurisprudence constante et par les autorités administratives.

Concrètement, cela veut dire que tu as le droit d'aller sur une boutique Shopify, WooCommerce, PrestaShop ou Magento publique, de lire les produits qui y sont affichés, et d'utiliser un programme automatisé pour les extraire en masse. Tu n'as pas besoin d'autorisation préalable du propriétaire du site pour faire ça, tant que les données visées sont publiquement accessibles sans authentification et que tu respectes les quatre grands garde-fous juridiques détaillés plus bas.

Le scraping devient illégal quand il franchit une de ces quatre lignes rouges. Le piège, c'est qu'elles se recoupent souvent sur un même cas concret, et qu'il suffit de tomber dans une seule pour te mettre en difficulté devant un tribunal.

Les 4 risques juridiques à connaître

Risque 1 : le RGPD (dès que tu touches à des données personnelles)

Dès que tu extrais des données permettant d'identifier directement ou indirectement une personne physique — nom, email, numéro de téléphone, photo de profil, pseudonyme, avis client signé, etc. — tu entres dans le périmètre du Règlement Général sur la Protection des Données (RGPD). Et le RGPD s'applique même quand les données sont publiquement accessibles : le caractère public d'une donnée ne la fait pas sortir du cadre.

Pour être conforme, tu dois disposer d'une base légale valide au sens de l'article 6 du RGPD. Pour le scraping, la base la plus couramment invoquée est l'intérêt légitime (article 6.1.f), mais elle impose des conditions strictes : finalité clairement définie, collecte limitée au strict nécessaire, transparence envers les personnes concernées, droit d'opposition facilement exerçable, et analyse d'impact si le traitement présente des risques élevés.

Les sanctions CNIL en cas de violation peuvent atteindre 20 millions d'euros ou 4 % du chiffre d'affaires annuel mondial (le plus élevé des deux). En pratique, les amendes récentes se sont élevées à plusieurs centaines de milliers d'euros — KASPR a été condamné à 240 000 € en 2024 pour avoir scrapé des profils LinkedIn à des fins de prospection commerciale sans respecter les conditions de l'intérêt légitime. Le signal envoyé par la CNIL est clair : elle scrute de près les pratiques de scraping de données personnelles, surtout quand elles sont utilisées pour du marketing direct.

Bonne nouvelle pour le scraping e-commerce produit : les données relatives aux produits eux-mêmes (titre, description, prix, variantes, stock, catégories) ne sont pas des données personnelles au sens du RGPD. Scraper un catalogue produit pour l'importer dans ta propre boutique te fait sortir du périmètre RGPD. Le risque revient dès que tu touches aux avis clients (souvent signés), aux noms de vendeurs marketplace, ou à tout ce qui identifie des personnes physiques.

Risque 2 : le droit sui generis du producteur de base de données

C'est le risque juridique le plus spécifique au scraping e-commerce, et le plus souvent invoqué par les sites qui poursuivent en justice. L'article L341-1 du Code de la propriété intellectuelle protège les producteurs de bases de données qui ont investi "substantiellement" dans la constitution, la vérification ou la présentation de leur base. Ce droit est indépendant du droit d'auteur et s'applique même si le contenu individuel n'est pas protégé en tant que tel.

Concrètement, même si chaque produit d'une boutique est une donnée publique et non protégée individuellement, le catalogue dans son ensemble peut être protégé en tant que base de données, à partir du moment où le propriétaire a investi du temps, de l'argent ou des ressources humaines à le constituer. Extraire une partie "substantielle" de ce catalogue peut alors constituer une contrefaçon, sanctionnée par des dommages et intérêts civils.

Le cas de référence : l'arrêt Leboncoin contre Entreparticuliers. Entreparticuliers avait scrapé les annonces immobilières de Leboncoin pour les republier sur son propre site. Les tribunaux ont tranché en faveur de Leboncoin en reconnaissant son droit sui generis de producteur de base de données — malgré le fait que chaque annonce individuelle soit une donnée publique. La condamnation a fait jurisprudence et est citée dans presque toutes les affaires de scraping e-commerce depuis.

Autre cas notable plus ancien : Ryanair contre Opodo (Cour d'appel de Paris, 23 mars 2012). Opodo avait scrapé les horaires et prix de vols de Ryanair pour les afficher sur son propre comparateur. Ryanair a obtenu gain de cause au titre de la violation des CGU et du parasitisme. Cet arrêt reste une référence en matière de scraping de données commerciales à grande échelle.

Le critère-clé pour savoir si tu risques ce motif : ton concurrent a-t-il substantiellement investi dans la constitution de son catalogue (rédaction éditoriale, shootings photo, curation, maintenance, structuration) ? Si oui, la partie substantielle que tu extrais peut déclencher ce droit. Si non (cas typique d'un dropshipper qui utilise des fiches AliExpress brutes), le risque est beaucoup plus faible.

Risque 3 : le droit d'auteur sur le contenu scrapé

Même si tu as légalement extrait des données d'un site, tu n'as pas pour autant le droit de les republier telles quelles. Le contenu éditorial (descriptions produit, articles de blog, guides d'achat) et les éléments graphiques (photos, illustrations, vidéos) sont protégés par le droit d'auteur dès qu'ils présentent un caractère d'originalité, au sens de l'article L112-2 du Code de la propriété intellectuelle.

Pour les descriptions produit, le critère d'originalité est généralement rempli dès qu'il y a un effort rédactionnel personnel et un parti pris éditorial. Les descriptions fournisseur standardisées franchissent difficilement le seuil (elles sont dupliquées sur des milliers de boutiques), mais les descriptions rédigées par un concurrent qui a investi dans son contenu sont protégées. Copier-coller ces descriptions est une contrefaçon, sanctionnée civilement et potentiellement pénalement.

Pour les images, le même principe s'applique. Les photos produit originales (shooting maison, mise en scène, retouche artistique) sont protégées. Les images brutes fournisseur type AliExpress peuvent ne pas franchir le seuil d'originalité — une photo produit générique sur fond blanc, sans parti pris créatif, ne constitue pas une œuvre protégeable au sens strict. Mais attention : même si le concurrent qui utilise ces images brutes n'en est pas l'auteur et n'a donc pas de droit opposable, le vrai titulaire des droits (photographe, fabricant) reste théoriquement dans la course.

La règle pratique : si tu scrapes pour t'inspirer et réécrire, tu es en sécurité. Si tu scrapes pour republier directement, tu es en infraction. Cette distinction, c'est celle qu'utilise toute la doctrine française sur le sujet, et c'est la ligne la plus claire à retenir.

C'est d'ailleurs pour cette raison que les outils SaaS qui combinent scraping + réécriture SEO par IA dans un seul workflow — comme Kaatalog — sont particulièrement bien positionnés juridiquement : par construction, ils imposent une réécriture intégrale de chaque fiche avant publication. L'IA transforme le contenu scrapé en un catalogue éditorialement distinct, ce qui coche d'une seule pierre deux coups : la case droit d'auteur (contenu nouveau, pas de republishing direct) et la case SEO (pas de duplicate content, donc fiches rankables). Pour un e-commerçant qui veut rester dans la zone verte sans se transformer en avocat, c'est de loin la voie la plus simple.

Risque 4 : la concurrence déloyale et le parasitisme

C'est un risque souvent sous-estimé et pourtant très utilisé en contentieux. La concurrence déloyale est une notion jurisprudentielle, construite par les tribunaux au fil du temps, qui sanctionne les pratiques commerciales contraires aux usages honnêtes entre professionnels. Le parasitisme, en particulier, vise celui qui se place dans le sillage d'un concurrent pour profiter de ses investissements sans bourse délier.

Le scraping à grande échelle est une cible classique de ce motif : si tu scrapes un concurrent qui a investi massivement dans la constitution de son catalogue, son branding, ses descriptions ou ses photos, et que tu l'utilises pour lancer une offre similaire sans faire le même effort, tu peux être poursuivi pour parasitisme économique — indépendamment du droit sui generis et du droit d'auteur. C'est un motif autonome qui peut s'empiler sur les précédents.

Les sanctions sont civiles : dommages et intérêts, publication du jugement, cessation de l'activité parasitaire, parfois indemnisation du préjudice moral. Elles ne sont pas pénales, mais peuvent être lourdes financièrement et dommageables en termes d'image et de référencement si le jugement est publié.

Ce que tu peux et ne peux pas scraper : le tableau décisionnel

Voici un récapitulatif pragmatique pour évaluer rapidement si un scraping envisagé se situe dans la zone verte, orange ou rouge.

Donnée scrapée	Statut juridique	Niveau de risque	Bonne pratique
Prix affichés publiquement	Légal	Très faible	Pas de surcharge technique, pas d'ententes illicites
Titres et descriptions produit — pour analyse	Légal	Faible	OK pour t'inspirer
Titres et descriptions — pour republier tel quel	Illégal (droit d'auteur)	Élevé	Réécrire impérativement
Images produit originales	Illégal (droit d'auteur)	Élevé	Retraiter ou refaire
Images brutes fournisseur (AliExpress)	Zone grise	Moyen	Retraiter (SEO et sécurité)
Stocks et disponibilités	Légal	Très faible	—
Variantes et attributs techniques	Légal	Faible	—
Avis clients signés — pour republier	Illégal (RGPD + droit d'auteur)	Très élevé	Ne jamais republier
Avis clients — analyse statistique agrégée	Légal	Faible	Anonymiser et agréger
Noms et contacts de vendeurs marketplace	Illégal (RGPD)	Très élevé	Ne pas collecter
Catalogue entier d'un concurrent "à investissement substantiel"	Illégal (droit sui generis)	Élevé	Limiter l'extraction
Catalogue d'un concurrent dropshipper (fiches brutes)	Zone grise	Moyen	Réécrire systématiquement

Ce tableau n'est pas exhaustif, mais il couvre 95 % des cas de scraping e-commerce courants. La règle transverse à retenir : plus ton action se rapproche de "analyser pour t'inspirer" et s'éloigne de "copier pour republier", plus tu es en sécurité.

Le cadre CNIL 2024 sur l'intérêt légitime

La CNIL a publié fin 2024 une fiche focus sur le web scraping qui clarifie les conditions dans lesquelles la collecte par moissonnage peut s'appuyer sur la base légale de l'intérêt légitime. C'est la référence administrative la plus à jour et elle est citée systématiquement dans toutes les décisions récentes.

Les mesures obligatoires listées par la CNIL pour qu'un scraping de données personnelles soit conforme :

Définir à l'avance des critères de collecte précis — quelles données, pour quelle finalité, sur quelle période, dans quels volumes
Exclure les catégories de données sensibles (santé, opinions politiques, orientation sexuelle, convictions religieuses, etc.) si elles ne sont pas strictement nécessaires à la finalité
Supprimer immédiatement les données non pertinentes récoltées par inadvertance au cours du scraping
Respecter les CGU du site cible et le fichier robots.txt comme mesures de minimisation et de bonne foi
Garantir la transparence envers les personnes concernées et leur permettre d'exercer leur droit d'opposition dans des conditions facilitées
Documenter une analyse d'impact (AIPD) si le traitement présente un risque élevé pour les personnes

Si ton scraping se limite à des données produit non personnelles (titres, prix, descriptions, variantes, images de produits sans personnages), tu n'entres pas dans le périmètre du RGPD et ces obligations ne s'appliquent pas à toi au titre du règlement. Elles restent cependant d'excellentes bonnes pratiques à adopter, ne serait-ce que pour démontrer ta bonne foi en cas de litige ultérieur avec le propriétaire du site cible.

Cas particulier : scraper un concurrent dropshipper vs un commerce "réel"

Cette distinction a des conséquences juridiques importantes en pratique. Elle ressort de la combinaison droit d'auteur + droit sui generis + parasitisme. Elle est abordée brièvement dans le guide complet du scraping e-commerce, on l'analyse ici purement sous l'angle juridique.

Scraper un concurrent dropshipper — qui utilise des fiches AliExpress brutes, des images non retravaillées, des descriptions standardisées copiées depuis son fournisseur — expose à un risque juridique théorique mais faible en pratique :

Le contenu du concurrent n'est pas original (il l'a lui-même récupéré d'un fournisseur), donc le critère d'originalité pour le droit d'auteur est très difficile à démontrer
Le concurrent n'a pas investi substantiellement dans la constitution de sa base (il a cliqué sur "Import DSers"), donc le droit sui generis est difficile à invoquer
L'argument du parasitisme est faible puisqu'il n'a pas d'investissement propre à protéger

Scraper un commerce "réel" — marque propre, shootings photo originaux, descriptions rédigées par une équipe éditoriale, catalogue construit sur des années de curation — est beaucoup plus risqué :

Les descriptions rédigées sont protégées par le droit d'auteur
Les photos originales le sont aussi
L'investissement substantiel déclenche probablement le droit sui generis
Le parasitisme est caractérisé si tu t'inspires trop largement pour lancer une offre concurrente

En pratique, le scraping comme technique de lancement de boutique fonctionne juridiquement bien quand il cible des dropshippers concurrents, et beaucoup moins bien quand il cible des marques établies. C'est une distinction à garder en tête avant de choisir ta boutique source.

Les bonnes pratiques pour scraper dans les règles

Pour rester dans la zone légale et minimiser les risques, voici la checklist opérationnelle à respecter systématiquement.

Techniquement

Respecte le robots.txt du site cible (même s'il n'a pas force de loi, c'est un signe de bonne foi retenu en justice)
Limite le rythme de tes requêtes pour ne pas créer de surcharge (1 à 2 requêtes/seconde maximum)
Évite de scraper en pleine journée aux heures de pic de trafic du site cible
N'accède jamais à du contenu protégé par authentification
Identifie-toi clairement via ton user-agent si possible

Sur les données

Priorise les données non personnelles (produits, prix, stocks, catégories, variantes)
Évite les données personnelles (avis signés, profils vendeurs, contacts clients)
Si tu récupères accidentellement des données personnelles, supprime-les immédiatement et documente cette suppression
Ne revends jamais une base de données scrapée à des tiers

Sur l'usage

Réécris systématiquement le contenu textuel scrapé avant de le republier — pas une paraphrase superficielle, une vraie réécriture éditoriale
Retraite ou remplace les images scrapées — au minimum recadrage, fond blanc uniforme, compression
Ne republie jamais du contenu tel quel, même partiellement, même avec attribution
Limite ton extraction à ce qui est strictement nécessaire à ta finalité

Documentation

Garde une trace écrite de ta finalité de scraping (pourquoi tu scrapes, pour quel projet)
Documente ta base légale si tu manipules des données personnelles
Conserve les logs de tes extractions (dates, volumes, sources) pendant au moins un an au cas où

Les vraies sanctions si tu ignores tout ça

Pour finir, un récapitulatif des sanctions réelles qui te pendent au nez si tu franchis les lignes rouges :

Amende administrative CNIL — jusqu'à 20 millions d'euros ou 4 % du CA mondial (en pratique, les amendes récentes sur des cas de scraping s'étalent de 50 000 € à 500 000 €, avec KASPR à 240 000 € en 2024 comme référence)
Dommages et intérêts civils au titre du droit d'auteur et/ou du droit sui generis — montants variables, pouvant atteindre plusieurs dizaines de milliers d'euros selon l'ampleur et la durée du préjudice
Condamnation pour parasitisme ou concurrence déloyale — dommages et intérêts, publication du jugement aux frais du condamné, cessation immédiate de l'activité parasitaire
Sanctions pénales dans les cas aggravés — l'article 323-2 du Code pénal sur l'entrave au fonctionnement d'un système de traitement automatisé de données prévoit 5 ans de prison et 150 000 € d'amende, mais cette qualification est rarement retenue pour du scraping "normal"

En pratique, les petits scrapings de données produit pour un usage interne (veille, enrichissement de catalogue, démarrage d'une boutique avec réécriture complète et retraitement des images) ne déclenchent quasiment jamais ces sanctions. Les cas qui finissent devant les tribunaux sont généralement : republishing massif de contenu, extraction systématique de données personnelles pour du marketing direct, scraping à très grande échelle avec surcharge technique du site cible, ou tentative de concurrence directe par duplication d'un catalogue investissement.

En résumé

Le scraping e-commerce en France est légal par principe mais encadré par quatre dimensions juridiques qui doivent toutes être respectées simultanément : le RGPD (dès qu'il y a des données personnelles), le droit sui generis (sur les bases de données à investissement substantiel), le droit d'auteur (sur le contenu éditorial et les images originales), et la concurrence déloyale / parasitisme (sur l'usage que tu fais des données extraites).

Si tu scrapes des données produit non personnelles et que tu réécris systématiquement avant de republier, tu es dans la zone verte. Si tu extrais des données personnelles sans base légale, que tu republies du contenu tel quel, ou que tu tentes de dupliquer à l'identique le catalogue d'un concurrent qui a substantiellement investi dans son contenu, tu es dans la zone rouge.

La bonne nouvelle, c'est que le workflow scraping + réécriture SEO par IA — celui qu'on décrit dans le guide complet du scraping e-commerce et dans le satellite sur le lancement en 3 jours — coche naturellement toutes les bonnes cases : pas de données personnelles manipulées, pas de republishing direct, réécriture intégrale du contenu, retraitement des images. C'est précisément ce qui rend cette approche viable juridiquement, au-delà de l'efficacité SEO qu'elle apporte.

C'est exactement ce que fait Kaatalog : tu colles l'URL d'une boutique concurrente, le scraper récupère les produits, l'IA réécrit chaque fiche avec son propre vocabulaire et sa propre structure SEO, et l'import se fait directement dans ta boutique Shopify ou WooCommerce. Deux problèmes — conformité juridique et visibilité Google — résolus par le même outil. Les 50 premiers crédits sont offerts à l'inscription, sans carte bancaire, de quoi tester le workflow sans engagement.

Disclaimer : cet article est un état des lieux factuel basé sur la doctrine et la jurisprudence française à jour de 2026. Il ne constitue pas un conseil juridique personnalisé. Pour un projet de scraping à grande échelle ou avec des enjeux spécifiques (marque déposée, données personnelles, volumétrie importante, usage commercial), consulte un avocat spécialisé en droit du numérique ou en propriété intellectuelle.

Questions frequentes

Est-ce que je risque une amende si je scrape un concurrent ?+

Oui, dans certains cas. Les sanctions peuvent provenir de trois sources : la CNIL si tu as scrapé des données personnelles sans respecter le RGPD (jusqu'à 4 % du CA annuel mondial ou 20 M€, plafond qui s'applique rarement mais les amendes récentes se comptent en centaines de milliers d'euros — KASPR a été condamné à 240 000 € en 2024), un tribunal civil si tu violes le droit sui generis du producteur de base de données (article L341-1 CPI) ou si tu pratiques de la concurrence déloyale, ou des dommages et intérêts au titre du droit d'auteur si tu republies du contenu protégé. Pour un scraping de données produit non personnelles suivi d'une réécriture complète, les risques sont faibles mais pas nuls — ils dépendent de ce que tu fais des données.

Dois-je demander l'autorisation avant de scraper une boutique ?+

Légalement, non, tant que tu scrapes des données publiques et que tu ne violes pas les conditions générales d'utilisation du site. Pratiquement, les CGU de la plupart des boutiques e-commerce interdisent explicitement le scraping automatisé — ce qui ne te rend pas hors-la-loi (les CGU ne sont pas la loi) mais te met en infraction contractuelle si tu as un compte client sur le site cible. Demander une autorisation explicite n'est jamais nécessaire pour du scraping occasionnel de données publiques. Pour un scraping massif, régulier ou commercial, l'idéal est de passer par les API officielles quand elles existent.

Est-ce que le fichier robots.txt a une valeur légale ?+

Non, le fichier robots.txt n'est pas une norme légale en tant que telle — c'est un standard technique que les moteurs de recherche et les crawlers respectent par convention. Ignorer robots.txt n'est pas illégal en soi, mais c'est un indicateur que tu agis contre la volonté explicite du site, ce qui peut être retenu contre toi si une affaire remonte en justice (notamment sur les questions d'intention de nuire ou de concurrence déloyale). La CNIL, dans sa fiche focus 2024 sur le moissonnage, recommande explicitement de respecter le robots.txt comme mesure de minimisation et de bonne foi.

Puis-je scraper les avis clients publiquement affichés sur une boutique ?+

Attention, c'est une zone à haut risque. Les avis clients combinent deux dimensions juridiques : d'une part c'est du contenu produit par des utilisateurs (souvent signé avec leur nom ou pseudonyme, parfois leur photo) — donc des données personnelles au sens du RGPD, même quand elles sont publiques. D'autre part, c'est du contenu potentiellement protégé par le droit d'auteur. Tu peux analyser statistiquement ces avis (sentiment moyen, note moyenne, thèmes récurrents) sans grand risque, mais les **republier tels quels** sur ta propre boutique est dangereux sur les deux plans. Pour de la veille, anonymise et agrège ; pour du republishing, abstiens-toi.

Est-ce que scraper pour de la veille de prix concurrentielle est légal ?+

Oui, et c'est même un des cas les plus clairs de scraping toléré en France. Les prix affichés publiquement sur un site e-commerce ne sont pas des données personnelles et ne font pas partie d'un contenu protégé par le droit d'auteur. La veille tarifaire concurrentielle est une pratique industrielle standard, utilisée ouvertement par les comparateurs de prix et les outils de repricing. Les seules limites : ne pas créer de surcharge technique sur le site cible (article 323-2 du Code pénal sur l'entrave), respecter les CGU si tu as un compte client chez le concurrent, et ne pas utiliser ces données pour pratiquer des ententes illicites sur les prix entre concurrents.