Web scraping e-commerce : le guide complet pour importer un catalogue
Le guide complet du web scraping e-commerce : cas d'usage, cadre légal, méthodes techniques (Shopify /products.json, WooCommerce HTML parsing), outils, et comment importer un catalogue scrapé.
Lancer une boutique e-commerce crédible demande souvent des dizaines ou des centaines de fiches produits. Écrire chaque fiche à partir de zéro, c'est des semaines de travail — souvent des mois. C'est pour ça que la plupart des e-commerçants passent par une autre voie : s'appuyer sur un catalogue existant, qu'il s'agisse de la boutique d'un concurrent bien documenté ou d'un fournisseur en dropshipping. Pour importer un fournisseur (AliExpress, CJDropshipping), les outils dédiés type DSers, Zendrop ou AutoDS font le travail via les APIs partenaires. Pour récupérer le catalogue d'un concurrent, en revanche, il n'existe qu'une seule méthode automatisable à l'échelle : le scraping.
Le web scraping e-commerce — aussi appelé aspiration de site web dans sa forme francisée — consiste à extraire de façon automatisée les données d'une boutique en ligne (titres, descriptions, prix, variantes, images, stocks) pour les réutiliser dans sa propre boutique ou dans un outil d'analyse. C'est une technique qui fait peur parce qu'elle est perçue comme technique et juridiquement floue, alors qu'en 2026, c'est devenu une pratique courante avec des outils de scraping accessibles à tous — plus besoin de savoir coder.
Ce guide explique tout ce qu'il faut savoir : les cas d'usage, le cadre légal, les méthodes techniques, les outils de web scraping disponibles, les obstacles à contourner, et comment transformer un scraping brut en catalogue prêt à publier sur Shopify ou WooCommerce.
Qu'est-ce que le web scraping e-commerce
Scraping, web scraping, scraper, aspirer un site web : peu importe le terme, l'idée est la même. Un programme (ou un outil de scraping en ligne) parcourt une ou plusieurs pages web, identifie les éléments qui contiennent l'information qui t'intéresse, et les enregistre dans un format exploitable (CSV, JSON, base de données).
Appliqué à l'e-commerce, le scraping permet de récupérer de manière structurée :
- Les fiches produits d'une boutique entière (titre, description, images, prix)
- Les collections et leur arborescence (catégories mères, filles)
- Les stocks et disponibilités en temps réel
- Les avis clients et notes moyennes
- Les variantes (tailles, couleurs, matériaux) et leurs combinaisons
- Les attributs techniques (dimensions, poids, composition)
- Les meta données (title, description, données structurées Product schema)
Dit autrement : tout ce qu'une boutique affiche publiquement à ses visiteurs peut être scrapé. La question n'est pas "peut-on le faire" mais "comment le faire proprement, à l'échelle, et dans un cadre légal".
Les 4 grands cas d'usage
Le scraping e-commerce n'est pas qu'un outil de dropshipping pour "copier" des boutiques. Il sert à quatre usages distincts qui ont des objectifs complètement différents :
1. Lancer une boutique rapidement en scrapant un concurrent.
Tu viens d'identifier une niche, tu as une marque, mais il te manque les produits. Scraper une boutique concurrente déjà bien documentée te permet d'avoir 100, 200 ou 500 fiches importées en quelques heures — avec toute leur structure (titres, variantes, caractéristiques, catégorisation).
Attention : si tu te contentes de scraper et de republier tel quel, tu crées du contenu dupliqué et tes fiches seront invisibles sur Google. L'idée n'est pas de copier, c'est de récupérer la structure d'un catalogue existant pour ensuite la réécrire entièrement avec ton propre angle éditorial.
C'est exactement ce que Kaatalog automatise : tu colles l'URL d'une boutique concurrente, le scraper récupère les produits, l'IA réécrit chaque fiche (titre, description, meta, alt, slug) en respectant les règles SEO, et l'import dans ta boutique se fait en un clic. Bien fait, le résultat n'est pas une copie — c'est un catalogue plus optimisé que celui du concurrent, ce qui te donne une vraie chance de l'outrank sur ses propres mots-clés. Le workflow complet sur 3 jours (setup, catalogue, page d'accueil) est détaillé dans Lancer une boutique e-commerce en 3 jours grâce au scraping.
Attention, deux prérequis avant de se lancer. D'abord, l'accès aux mêmes fournisseurs : cette stratégie marche si ton concurrent est un dropshipper qui source chez AliExpress ou CJDropshipping (tu peux retrouver les mêmes produits trivialement par recherche image), mais elle ne marche pas si ton concurrent est un vrai commerce avec marque propre, contrats exclusifs ou fournisseurs artisanaux. Ensuite, la gestion des commandes : puisque tu n'importes pas via DSers, il manque le lien produit ↔ fournisseur pour automatiser le fulfillment. La solution s'appelle la méthode Pareto 20/80 et elle est détaillée dans Scraping + dropshipping : gérer les commandes sans import DSers (la méthode 20/80).
À ne pas confondre avec l'import classique depuis AliExpress ou CJDropshipping, qui passe par des outils dédiés (DSers, Zendrop, AutoDS) via les APIs partenaires — pas par du scraping.
2. Faire de la veille concurrentielle.
Tu veux savoir quels produits vend ton concurrent, à quels prix, avec quels avis clients, quelle structure de collections. Le scraping régulier de sa boutique te donne une base de données de veille actualisée automatiquement. C'est comme ça que les retailers ajustent leurs prix à la journée et identifient les nouveautés du marché.
3. Enrichir un catalogue existant.
Ta boutique tourne déjà mais tes fiches sont pauvres (uniquement un titre et un prix). Scraper les mêmes produits chez des concurrents mieux documentés te donne des caractéristiques techniques, des spécifications précises, des dimensions, des avis — autant d'éléments pour compléter tes propres fiches sans repartir de zéro.
4. Monitorer les prix et faire de la veille tarifaire.
Les comparateurs de prix, les outils de repricing Amazon et les e-commerçants qui vendent dans des verticales concurrentielles (high-tech, électroménager, cosmétique) utilisent le scraping pour détecter en quasi-temps réel les changements de tarifs et les ruptures de stock chez leurs concurrents. Des SaaS dédiés à la veille tarifaire comme Prisync, Minderest, Price2Spy ou Price Observatory sont construits intégralement sur du scraping régulier, et leurs clients s'en servent pour ajuster leurs prix plusieurs fois par jour. Sans scraping, il n'y a tout simplement pas de pricing dynamique possible.
Ces quatre cas d'usage ont un point commun : ils t'évitent de saisir à la main des données qui existent déjà quelque part sur le web.
Est-ce légal de scraper une boutique e-commerce
C'est la première question que tout le monde se pose, et la réponse est "ça dépend de ce que tu fais des données". En résumé très synthétique :
- Scraper des données publiques (prix, noms de produits, descriptions visibles sans login) est généralement toléré en France et dans l'UE, tant que tu respectes les conditions générales d'utilisation du site cible, le RGPD et le droit sui generis sur les bases de données.
- Copier-coller les descriptions textuelles telles quelles dans ta boutique t'expose à une violation du droit d'auteur et à des pénalités SEO pour duplicate content.
- Les images sont protégées par le droit d'auteur — tu ne peux pas les réutiliser telles quelles sans autorisation, même si tu peux techniquement les scraper.
- Créer une surcharge technique importante sur un site cible (trop de requêtes par seconde, en continu) peut s'apparenter à une entrave au fonctionnement d'un système de traitement automatisé de données, ce qui est puni par la loi (article 323-2 du Code pénal).
La règle d'or : scrape pour t'inspirer et restructurer, pas pour copier. Tu peux récupérer la liste des produits, leurs caractéristiques et leurs prix, mais tu dois réécrire les descriptions, retraiter les images, et ne jamais republier tel quel du contenu appartenant à un tiers.
Cas particulier : quand ton concurrent est un dropshipper
Une nuance importante mérite d'être soulignée, surtout dans les niches où une grande partie des boutiques concurrentes sont en dropshipping : toutes les images ne se valent pas sur le plan légal.
Si ton concurrent a réalisé ses propres shootings photo (marque établie, photographe pro, mise en scène, modèles), ses images sont incontestablement protégées par le droit d'auteur et tu ne peux pas les réutiliser — même après retouche mineure.
Mais si ton concurrent est un dropshipper qui utilise directement les images brutes d'AliExpress, de CJDropshipping ou d'un grossiste, la situation est très différente :
- Le concurrent n'est pas l'auteur de ces images. Il n'a pas pris les photos, il n'a pas commandé le shooting, il ne détient aucun droit d'auteur dessus. Il ne peut donc pas invoquer son droit d'auteur pour t'empêcher de les utiliser — il n'en a pas.
- Le vrai titulaire des droits est le fabricant d'origine ou le photographe qu'il a mandaté (souvent un atelier en Chine). En pratique, ces acteurs ne traquent pas l'utilisation de leurs images par des dropshippers occidentaux, et beaucoup tolèrent — voire encouragent — leur diffusion, qui fait office de promotion gratuite pour leurs produits.
- En droit français, une photographie doit de plus faire preuve d'originalité pour être protégée (article L112-2 du Code de la propriété intellectuelle). Une photo produit générique sur fond blanc, sans mise en scène ni parti pris artistique, franchit difficilement ce seuil d'originalité. Les visuels "catalogue" standard d'AliExpress sont rarement considérés comme des œuvres protégeables.
Conclusion pragmatique : si ton concurrent est clairement un dropshipper qui utilise des visuels bruts non retouchés, le risque juridique de reprendre ces images est faible, voire quasi-nul. Deux précisions cependant :
- Vérifie que le concurrent n'a pas ajouté son propre travail photo en complément (il y a souvent un mix : visuels produit génériques + photos lifestyle maison — ces dernières sont protégées et tu dois les éviter).
- Le problème reste entier côté SEO. Même si tu es dans ton bon droit juridiquement, Google détecte les images identiques à travers des milliers de boutiques et relègue celles qui arrivent en dernier. La recommandation de retraiter ou remplacer les images reste valable — pas par peur du procès, mais pour protéger tes rankings et ta différenciation.
Côté descriptions textuelles, la logique s'inverse. Même un concurrent dropshipper réécrit généralement les descriptions AliExpress avant de les publier (ne serait-ce que pour traduire de l'anglais et donner un minimum de cohérence éditoriale). Ces descriptions réécrites constituent son propre travail et sont, elles, bien protégées par le droit d'auteur. Tu ne peux donc pas les republier telles quelles, même si l'original AliExpress n'était lui-même pas protégeable.
La jurisprudence française de référence
Si tu veux comprendre où se situe la ligne rouge, un seul arrêt suffit : Leboncoin contre Entreparticuliers. Le site Entreparticuliers avait scrapé les annonces immobilières de Leboncoin. Les tribunaux ont tranché en faveur de Leboncoin en reconnaissant que son investissement dans la constitution de sa base de données lui conférait le droit sui generis du producteur de bases de données (article L341-1 du Code de la propriété intellectuelle). Moralité : même si chaque annonce est publique, extraire systématiquement tout ou partie significative d'une base construite par un tiers peut être illégal, indépendamment du RGPD.
Le cadre CNIL sur l'intérêt légitime
Côté données personnelles, la CNIL a publié en 2024 une fiche focus sur le web scraping qui clarifie les règles : la collecte par moissonnage peut s'appuyer sur la base légale de l'intérêt légitime au sens du RGPD, mais à des conditions strictes (mesures de minimisation, exclusion des données sensibles, droit d'opposition facilité, respect des CGU et du robots.txt). Si tu scrapes un site e-commerce pour la veille tarifaire ou la constitution d'un catalogue, tu manipules a priori des données produit et non personnelles — tu sors du périmètre RGPD. Mais dès que tu scrapes des avis clients, des noms d'auteurs ou des profils, tu entres en territoire CNIL et il faut documenter ta base légale.
Le détail complet du cadre juridique français et européen (RGPD, LCEN, droit des bases de données, décisions récentes) est traité dans notre article dédié : Est-ce légal de scraper une boutique e-commerce ? Ce que dit la loi.
Les 4 approches techniques pour scraper une boutique
Il existe plusieurs façons de scraper un site e-commerce, avec des niveaux de complexité et de fiabilité très différents. Voici les quatre grandes familles classées du plus simple au plus puissant.
1. La méthode manuelle (copier-coller)
C'est la méthode zéro. Tu ouvres chaque fiche produit, tu copies le titre, la description, les images, les variantes, et tu les colles dans un Google Sheet ou directement dans ta boutique.
Avantages : gratuit, aucun outil à installer, légal à 100 %. Inconvénients : très lent — compte environ 15 minutes par fiche une fois que tu as téléchargé les images, copié-collé les textes, et tout recollé dans ta propre boutique. Aucune structuration automatique, grosse marge d'erreur humaine, et aucune cohérence éditoriale d'une fiche à l'autre.
Utile uniquement pour une dizaine de produits maximum, par exemple si tu veux comparer quelques fiches de concurrents pour t'en inspirer. Au-delà, c'est une perte de temps : pour 500 produits, rien que le transfert manuel te prend déjà 125 heures, avant même de commencer la réécriture SEO.
2. Les extensions de navigateur no-code
Des outils comme Instant Data Scraper, Web Scraper.io, Data Miner ou Scraper Chrome permettent d'extraire les données d'une page ou d'une liste de pages en quelques clics, sans écrire une ligne de code. Tu sélectionnes visuellement les éléments à récupérer, l'outil apprend le pattern, et il répète l'extraction sur toutes les pages similaires.
Avantages : très accessibles, suffisants pour la plupart des sites e-commerce standards, export CSV direct. Inconvénients : limités sur les sites protégés (Cloudflare, Akamai), mauvaise gestion du JavaScript dynamique, pas de scheduling automatique, pas d'enrichissement des données, rien pour réécrire ou normaliser en sortie.
Utiles pour 50 à 500 produits sur un site peu protégé, si tu n'as pas besoin de lancer le scraping de façon récurrente.
3. Les scripts sur mesure (Python, Node.js)
Les développeurs écrivent des scripts en Python (avec requests, BeautifulSoup, Scrapy, Playwright) ou en Node.js pour parcourir les pages, extraire les données, les nettoyer et les exporter. C'est l'approche historique du scraping, et elle reste la plus flexible.
Avantages : flexibilité totale, gestion du rendu JavaScript, intégration avec des proxies rotatifs, gestion fine des captchas, scheduling automatique, orchestration de plusieurs scrapers en parallèle. Inconvénients : nécessite des compétences techniques solides, entretien continu (les sélecteurs cassent dès que le site cible change sa structure), infrastructure à prévoir (serveurs, proxies, queues, monitoring), coût caché en temps de dev.
Utile pour les projets d'envergure ou quand aucune solution sur étagère ne fonctionne sur ta cible.
4. Les outils de scraping SaaS spécialisés e-commerce
Des plateformes comme Kaatalog, Apify, Octoparse Cloud, ParseHub, ScrapingBee ou Bright Data proposent des scrapers préconfigurés pour les plateformes e-commerce (Shopify, WooCommerce, PrestaShop, Magento). Tu colles l'URL d'une boutique concurrente, tu cliques sur "Scraper", tu récupères ta liste de produits structurée. Certains outils sont généralistes (Apify, Bright Data), d'autres sont spécifiquement construits pour Shopify (ShopScraper, Shopify-scraper.fr, eScraper) et d'autres encore combinent scraping et réécriture SEO dans un seul workflow (Kaatalog).
Avantages : zéro configuration, gestion native des protections, mise à jour continue quand les sites cibles changent, intégration directe avec Shopify/WooCommerce pour l'import, pas d'infrastructure à gérer, souvent un module de réécriture SEO ou de normalisation intégré. Inconvénients : coût à l'utilisation (crédits ou abonnement), moins de flexibilité que du code sur mesure pour des cas très spécifiques.
Utile dès que tu dépasses 100 produits ou que tu veux scraper régulièrement — autrement dit, pour 90 % des e-commerçants.
Tableau comparatif des 4 approches
| Approche | Volume viable | Temps de setup | Scalable | Coût réaliste |
|---|---|---|---|---|
| Manuelle | < 10 produits | Zéro | Non | Gratuit (mais temps humain) |
| Extensions no-code | 50 à 500 | 30 min | Moyen | Gratuit / freemium |
| Scripts sur mesure | Illimité | 1 à 5 jours + maintenance | Oui | Dev + infra + proxies |
| SaaS spécialisé | Illimité | 5 minutes | Oui | Quelques euros pour 100 fiches |
Pour l'écrasante majorité des e-commerçants, l'approche SaaS spécialisée est le bon compromis. Elle combine la simplicité des outils no-code et la puissance des scripts sans leurs inconvénients.
Scraper une boutique Shopify : la méthode la plus simple (et méconnue)
Si ta cible est une boutique Shopify, il existe une astuce que 90 % des e-commerçants ignorent : tu n'as pas besoin de scraper au sens classique du terme. Toute boutique Shopify expose publiquement un endpoint JSON qui retourne directement le catalogue structuré, sans avoir à parser du HTML ni à exécuter du JavaScript.
L'endpoint /products.json
Tape simplement https://nomdelaboutique.com/products.json dans ton navigateur. La plupart des boutiques Shopify te renverront un fichier JSON avec les 30 premiers produits de la boutique, avec tous leurs champs : titre, description (en HTML), variantes, prix, images, tags, date de création. Tu peux paginer en ajoutant ?page=2, ?page=3, et récupérer jusqu'à 250 produits par page avec ?limit=250.
Concrètement, pour aspirer un catalogue Shopify de 500 produits, deux requêtes suffisent :
https://exempleshop.com/products.json?limit=250&page=1
https://exempleshop.com/products.json?limit=250&page=2
Aucun proxy, aucun captcha, aucun JavaScript. Les données arrivent dans un format structuré propre, directement exploitable. C'est la méthode la plus simple, la plus rapide et la plus légale pour récupérer un catalogue Shopify — parce que cet endpoint est volontairement exposé par Shopify dans le cadre de son API publique, et que les boutiques doivent explicitement le désactiver si elles veulent le cacher (ce que très peu font).
Ce que tu obtiens vraiment
L'endpoint /products.json retourne presque tout — mais pas tout. Voici ce que tu récupères et ce que tu dois aller chercher ailleurs :
| Donnée | /products.json | Page HTML |
|---|---|---|
| Titre produit | Oui | Oui |
| Description HTML | Oui | Oui |
| Prix et variantes | Oui | Oui |
| Images | Oui (URL) | Oui |
| Tags | Oui | Parfois |
| Meta title / meta description | Non | Oui |
| Schema JSON-LD complet | Non | Oui |
| Avis clients | Non | Oui (selon l'app) |
| Stocks précis | Non (seulement disponible/indisponible) | Parfois |
Pour un import de catalogue classique, /products.json couvre 90 % du besoin. Pour une veille SEO poussée (meta tags, schema), tu dois compléter en scrapant aussi la page HTML.
Les outils qui exploitent /products.json
La plupart des "scrapers Shopify" gratuits que tu trouves en ligne (Shopify-scraper.fr, ShopScraper, eScraper, Shopify Scraper de Reputon) ne font qu'appeler cet endpoint et formater le résultat en CSV. C'est pour ça qu'ils sont gratuits, qu'ils marchent en quelques secondes, et qu'ils n'ont aucun problème de protection anti-bot : ils ne scrapent pas vraiment, ils interrogent une API publique.
Kaatalog exploite aussi cet endpoint pour l'import d'une boutique Shopify source — avec en plus la réécriture SEO automatique et l'import direct dans ta boutique cible.
Les autres plateformes : WooCommerce, PrestaShop, Magento, marketplaces
Les autres CMS n'offrent pas d'équivalent public à /products.json et demandent du vrai scraping HTML :
- WooCommerce : structure HTML standard via le thème WordPress. Scrapable avec un outil no-code basique, mais la structure varie énormément selon le thème utilisé.
- PrestaShop et Magento : même logique, parsing HTML, sélecteurs CSS.
- Marketplaces (Amazon, eBay, Walmart, Cdiscount) : protections anti-bot agressives, besoin obligatoire de proxies rotatifs résidentiels et souvent de résolveurs de captcha. Des APIs officielles existent (Amazon Product Advertising API, eBay Browse API) et sont la voie légale recommandée.
- AliExpress et autres fournisseurs dropshipping : ne relèvent pas du scraping au sens où on l'entend ici. L'import depuis AliExpress ou CJDropshipping passe par des outils dédiés (DSers, Zendrop, AutoDS) qui utilisent les APIs partenaires de ces plateformes pour gérer à la fois l'import et le fulfillment — un workflow complètement différent.
Les différences techniques entre Shopify et WooCommerce sont détaillées dans notre article Scraping Shopify vs WooCommerce : différences et méthodes.
Les 5 obstacles techniques à connaître
Même avec le bon outil, tu vas te heurter à des obstacles. Les connaître te permet de les anticiper et de choisir la bonne méthode dès le départ.
Obstacle 1 : le rendu JavaScript
Beaucoup de boutiques modernes (et notamment certaines boutiques Shopify personnalisées) rendent une partie du contenu côté client via JavaScript. Un scraper basique qui lit uniquement le HTML initial ne voit qu'une page vide ou partielle. Il faut un scraper capable d'exécuter le JavaScript via un navigateur headless (Playwright, Puppeteer, Selenium) pour récupérer le contenu réellement affiché à l'utilisateur.
Obstacle 2 : le rate limiting et les blocages IP
Si tu envoies 100 requêtes par seconde vers une même boutique, tu vas te faire bloquer en quelques secondes. Les sites e-commerce utilisent des mécanismes de protection qui détectent les comportements anormaux et blacklistent les IP suspectes. Les parades : ralentir les requêtes (1 à 2 par seconde), utiliser des proxies rotatifs (pool d'IP résidentielles), et imiter le comportement d'un navigateur humain (user-agent réaliste, headers HTTP cohérents, délais aléatoires entre les requêtes).
Obstacle 3 : les captchas et les protections anti-bot
Cloudflare, reCAPTCHA, hCaptcha, DataDome et les autres systèmes de protection détectent les bots et les bloquent derrière un défi (captcha, challenge JavaScript, fingerprinting). Les solutions incluent des services de résolution automatique de captchas (2Captcha, Anti-Captcha, CapSolver), des stealth plugins qui masquent l'empreinte d'un navigateur headless, et des proxies de qualité. C'est un jeu du chat et de la souris constant où les sites améliorent continuellement leurs protections.
Obstacle 4 : la pagination et le scroll infini
La liste des produits d'une collection est rarement affichée sur une seule page. Il y a soit une pagination classique (?page=2, ?page=3), soit un scroll infini qui charge les produits dynamiquement au fur et à mesure, soit un bouton "Voir plus" qui déclenche une requête AJAX. Un bon scraper doit gérer les trois cas — et idéalement détecter automatiquement lequel est utilisé sur la page cible.
Obstacle 5 : la structure hétérogène des fiches
Deux boutiques Shopify peuvent avoir des structures HTML complètement différentes, avec des sélecteurs CSS et des schemas JSON-LD divergents. Un scraper générique qui cible "toutes les boutiques Shopify" doit comprendre comment détecter et extraire les données quelles que soient les variations de thème. C'est la principale raison pour laquelle les outils SaaS spécialisés e-commerce battent les scrapers génériques : ils sont conçus pour s'adapter à la variété des thèmes Shopify ou WooCommerce sans configuration manuelle.
Du scraping brut au catalogue utilisable
Avoir scrapé 300 fiches produits ne veut pas dire que ton catalogue est prêt. Le scraping brut génère systématiquement un dataset sale, hétérogène et juridiquement sensible. Il reste quatre étapes cruciales avant de pouvoir l'importer dans ta boutique.
Étape 1 : le nettoyage des données
Les données scrapées arrivent souvent avec des artefacts : espaces en trop, tags HTML résiduels, caractères d'échappement, prix dans plusieurs devises, dimensions dans des unités différentes, attributs vides. La première étape est de normaliser tout ça :
- Supprimer les tags HTML inutiles des descriptions
- Convertir les prix dans une devise unique
- Standardiser les unités de mesure (cm, kg, ml)
- Nettoyer les caractères spéciaux et les apostrophes tordues
- Dédoublonner les produits présents plusieurs fois dans le dataset
Étape 2 : la normalisation des variantes
C'est le point le plus compliqué, et celui que la plupart des outils no-code gèrent mal. Les variantes scrapées sont rarement cohérentes : "Size M" vs "Taille M" vs "Medium", "Red" vs "Rouge" vs "Crimson", "128 GB" vs "128GB" vs "128 go". Sans normalisation, tes clients vont voir des variantes illisibles et ta conversion va s'écrouler. Il faut mapper chaque variante scrapée vers un référentiel maison (tailles FR, couleurs en français, matériaux standardisés).
Étape 3 : la réécriture SEO des descriptions
C'est la condition absolue pour que tes fiches rankent sur Google. Une description scrapée est, par définition, un contenu dupliqué : elle existe déjà quelque part sur le web, souvent sur plusieurs sites concurrents. Google la connaît, et ta page sera invisible dans les résultats de recherche, voire carrément désindexée.
Tu dois réécrire chaque description avec ton propre vocabulaire, ta propre structure (H2, H3, listes), et tes propres angles éditoriaux. C'est le sujet de notre guide ultime de la fiche produit SEO, qui détaille les règles de réécriture section par section. Pour automatiser cette réécriture à l'échelle avec l'IA, voir le guide de l'IA pour l'e-commerce.
Étape 4 : le traitement des images
Les images scrapées posent trois problèmes :
- Droit d'auteur : les images appartiennent au site source, tu ne peux pas les réutiliser telles quelles. Utilise uniquement les images de tes fournisseurs avec autorisation explicite, ou refais tes propres photos pour les produits stratégiques.
- Watermarks et fonds parasites : retravaille les images (recadrage, fond blanc uniforme, retouche) ou remplace-les.
- Optimisation : convertis en WebP, redimensionne à 1500 px maximum de largeur, compresse à qualité 80. Une image produit mal optimisée dégrade le LCP (Largest Contentful Paint) et donc ton ranking.
Importer le catalogue dans Shopify ou WooCommerce
Une fois le catalogue scrapé, nettoyé et réécrit, il reste à l'importer dans ta boutique. Trois options principales, avec des compromis différents.
CSV import : la voie classique
Shopify et WooCommerce acceptent tous les deux l'import de produits via un fichier CSV. Chaque colonne correspond à un champ (titre, description, prix, variante, image), et chaque ligne représente un produit ou une variante.
Avantages : simple, intégré nativement à Shopify/WooCommerce, pas besoin d'app tierce, rapide à mettre en place. Inconvénients : très strict sur le format (une erreur de colonne casse tout l'import), difficile à maintenir manuellement au-delà de 100 produits, pas de rollback automatique en cas d'erreur.
Pour les spécificités du format CSV Shopify (colonnes obligatoires, gestion des variantes, URL d'images, options), consulte CSV import Shopify : le guide pas à pas.
Import via l'API Admin
Shopify et WooCommerce exposent tous les deux une API qui permet de créer des produits par programme. C'est plus technique mais beaucoup plus puissant : tu peux scripter l'import, gérer les erreurs au cas par cas, enrichir les fiches au fil de l'import, et faire des mises à jour incrémentales.
Utile pour les imports fréquents, les gros volumes (1000+ produits), ou les intégrations continues avec un fournisseur externe.
Les apps et outils d'import spécialisés
Des apps comme Matrixify (Shopify), WP All Import (WooCommerce) ou Kaatalog automatisent l'import en s'occupant du mapping des champs, du téléchargement et rehost des images, et de la mise à jour incrémentale. C'est la méthode la plus utilisée par les boutiques qui importent régulièrement des catalogues scrapés.
Comment Kaatalog automatise tout ce workflow
Kaatalog combine scraping, nettoyage, réécriture SEO et import dans un seul outil intégré à Shopify et WooCommerce. Tu colles l'URL d'une boutique concurrente, le scraper récupère les produits, l'IA réécrit automatiquement chaque fiche (titre, description, meta, alt d'images, slug) en respectant les règles SEO, et l'import dans ta propre boutique se fait en un clic — sans copier-coller manuel ni configuration. Tu récupères ainsi la structure d'un catalogue éprouvé, mais avec un contenu entièrement réécrit, unique, et souvent plus optimisé que l'original — ce qui te donne une vraie chance d'outrank la boutique que tu as scrapée sur ses propres mots-clés. Les 50 premiers crédits sont offerts à l'inscription, sans carte bancaire — de quoi tester sur une cinquantaine de produits avant de décider.
Checklist : scraper proprement de A à Z
Avant de lancer un scraping, vérifie tous ces points. C'est la différence entre un catalogue utilisable et un import qui cassera ton SEO ou t'exposera à des ennuis juridiques.
Cadrage légal et éthique
- Tu as lu les conditions générales d'utilisation du site cible
- Tu respectes le fichier
robots.txtpour les crawlers automatisés - Tu n'as pas l'intention de republier du contenu tel quel (texte ou images)
- Tu limites le rythme de tes requêtes pour ne pas surcharger le site source
- Tu as prévu de retravailler les images pour éviter la réutilisation directe
Configuration technique
- Ton scraper gère le rendu JavaScript si la cible en a besoin
- Tu utilises des proxies rotatifs pour les gros volumes
- Tu as prévu une gestion des erreurs et des reprises automatiques
- Tes sélecteurs sont robustes aux changements mineurs de structure
- Tu gères correctement la pagination ou le scroll infini
Données extraites
- Titres, descriptions, prix, variantes, images, stocks, catégories
- Tu captures aussi les meta (title, description) et le Product schema s'il existe
- Tu notes les URL d'origine pour la traçabilité
Nettoyage et enrichissement
- Les données sont normalisées (devises, unités, formats)
- Les doublons sont supprimés
- Les descriptions sont entièrement réécrites (pas de duplicate content)
- Les variantes sont mappées vers un référentiel cohérent en français
Import dans la boutique
- Les données sont au format attendu par Shopify ou WooCommerce
- Les images sont optimisées (WebP, largeur 1500 px max)
- Le Product schema est généré correctement par ton CMS à partir des champs remplis
- Tu as fait un test d'import sur 5 à 10 produits avant de lancer le lot complet
- Tu as prévu une stratégie de publication progressive plutôt qu'une bascule massive
En résumé
Le scraping e-commerce n'est plus une pratique réservée aux développeurs : c'est devenu un outil standard pour accélérer la constitution d'un catalogue, faire de la veille concurrentielle ou monitorer les prix. Les quatre approches (manuelle, no-code, scripts sur mesure, SaaS spécialisé) couvrent tous les cas d'usage, et pour la grande majorité des e-commerçants, un outil SaaS spécialisé e-commerce est le bon compromis entre simplicité, puissance et respect du cadre légal.
Le scraping seul ne suffit pas : c'est la chaîne complète qui compte — scraping, nettoyage, normalisation des variantes, réécriture SEO, traitement des images, import dans la boutique. Chaque maillon est indispensable, et si tu en sautes un, tes fiches seront invisibles sur Google ou illégales. Le vrai gain de productivité vient des outils qui automatisent toute la chaîne d'un bout à l'autre, et qui te permettent de passer d'un catalogue source à une boutique publiée en quelques heures plutôt qu'en quelques semaines.
Questions frequentes
Scraping e-commerce et dropshipping, c'est la même chose ?+
Non, et les deux se confondent souvent à tort. Le dropshipping est un modèle économique (tu vends sans stocker, le fournisseur expédie directement au client). L'import des fiches depuis un fournisseur type AliExpress ou CJDropshipping se fait via des outils dédiés (DSers, Zendrop, AutoDS) qui utilisent les APIs partenaires de ces plateformes — ce n'est pas du scraping au sens classique. Le scraping, lui, sert surtout à récupérer les données d'une boutique concurrente déjà en ligne (structure de catalogue, prix, caractéristiques), à faire de la veille tarifaire, ou à enrichir son propre catalogue. Un dropshipper peut très bien ne jamais faire de scraping, et un e-commerçant qui scrape ses concurrents n'est pas forcément dropshipper.
Quels sites e-commerce sont les plus faciles à scraper en 2026 ?+
Les boutiques Shopify sont les plus accessibles, et de loin : elles exposent un endpoint JSON public, /products.json, qui retourne le catalogue directement dans un format structuré, sans avoir à parser du HTML ni à exécuter du JavaScript. Il suffit d'ajouter /products.json?limit=250 à l'URL d'une boutique Shopify pour récupérer 250 produits d'un coup. WooCommerce reste facile à scraper mais demande du parsing HTML et varie selon le thème WordPress utilisé. Les plus difficiles sont les sites protégés par Cloudflare, Akamai ou DataDome, et les marketplaces comme Amazon ou eBay qui utilisent des protections anti-bot avancées.
Faut-il forcément des proxies et un résolveur de captcha pour scraper ?+
Non, pas pour un scraping simple à petite échelle (moins de 100 requêtes sur une boutique peu protégée). Mais dès que tu dépasses quelques centaines de pages ou que tu cibles un site avec des protections, des proxies rotatifs et une gestion des captchas deviennent indispensables pour éviter de te faire bloquer. Les outils SaaS spécialisés gèrent ces problématiques pour toi de façon transparente.
Puis-je scraper la boutique d'un concurrent pour lancer la mienne ?+
Tu peux récupérer la liste de ses produits, leurs prix et leurs caractéristiques pour t'en inspirer, mais tu ne peux pas copier-coller ses descriptions textuelles ni réutiliser ses images — elles sont protégées par le droit d'auteur. La règle : scrape pour analyser et structurer, jamais pour republier tel quel. Ta boutique doit avoir son propre contenu réécrit, sinon tu t'exposes à des risques juridiques et à une pénalité SEO pour duplicate content.
Combien de temps faut-il pour scraper et importer 500 produits dans Shopify ?+
Entièrement à la main, compte environ 500 heures — soit plusieurs mois de travail à temps plein. Le calcul : 15 minutes de scraping manuel par fiche (télécharger les images, copier les textes, recoller dans ta boutique) + 30 à 45 minutes de réécriture SEO + le traitement des images et l'import. Autrement dit, c'est impossible dans la vraie vie. Avec un scraper no-code et une IA de réécriture type ChatGPT, tu descends à 50 à 100 heures — faisable mais encore long. Avec un outil SaaS spécialisé qui intègre scraping, réécriture automatique et import direct dans Shopify, 500 produits se traitent en quelques heures — c'est l'ordre de grandeur qu'atteint Kaatalog.
Quels sont les meilleurs outils gratuits pour scraper une boutique e-commerce ?+
Pour une boutique Shopify, les outils gratuits les plus simples exploitent tous l'endpoint /products.json : Shopify-scraper.fr, ShopScraper (extension Chrome), eScraper, ou Shopify Product Scraper de Reputon. Pour d'autres CMS, les extensions Chrome Instant Data Scraper, Web Scraper.io, Data Miner et Scraper Chrome fonctionnent très bien en freemium jusqu'à quelques centaines de pages. Octoparse propose un plan gratuit généreux pour du scraping plus avancé. Ces outils sont parfaits pour exporter un catalogue en CSV, mais ne gèrent ni la réécriture SEO, ni l'import automatique dans ta propre boutique — tu dois gérer ces étapes derrière.