Scraping

Le terme « scraping » vient de l’anglais et signifie gratter ou rassembler. Dans le domaine de la cybersécurité, le scraping désigne le processus de collecte – de grattage – et de stockage de données. La plupart du temps, il s’agit de données provenant de sites Internet, de plateformes ou de réseaux sociaux.

Que signifie le terme « scraping » en détail ?

Le scraping – la collecte et le stockage de données – peut en principe se faire de deux manières :

  • Manuellement, c’est-à-dire à la main. Si le volume de données est important, cette procédure demande beaucoup de travail.
  • Automatiquement, par exemple par des programmes informatiques. Dans ce cas, même de grandes quantités de données peuvent être traitées rapidement.

Actuellement, le terme scraping est principalement utilisé pour désigner la collecte de données sur les pages Internet. En principe, il peut toutefois s’appliquer à tous les textes affichés sur les écrans. Différents termes sont donc parfois utilisés : par exemple web scraping, screen scraping ou data scraping. Cependant, leur point commun est toujours la collecte et le stockage de données.

Le scraping peut être utilisé à différentes fins :

  • Pour vos propres analyses, par exemple pour une analyse manuelle de la concurrence.
  • Pour la collecte et la préparation automatiques de données provenant de nombreux sites Internet différents.
  • Pour la collecte de données de contact, par exemple les adresses e-mail publiées sur les plateformes de médias sociaux.
  • Pour la copie et la publication non autorisée de contenus de sites Internet tiers.

Où est-ce que je rencontre le scraping dans mon travail quotidien ?

Derrière chaque recherche avec un moteur de recherche et chaque comparaison de prix en ligne se cache le scraping. Les programmes des moteurs de recherche « scrapent » inlassablement les adresses et les informations des pages Internet afin de pouvoir les présenter comme résultats de recherche. Dans le cas des comparateurs de prix, les prix, les images et, le cas échéant, les détails des produits sont collectés par scraping.
Le scraping est également très utilisé dans le contexte professionnel. Par exemple, pour l’analyse de la concurrence.

Cependant, vous pouvez également rencontrer le côté abusif du scraping dans votre travail quotidien. Par exemple, par

  • un e-mail d’hameçonnage, après que votre adresse e-mail publiée sur le site Web de l’entreprise ou sur LinkedIn, par exemple, a été collectée par scraping.
  • Une entreprise qui casse systématiquement vos prix, qu’elle lit par scaping.
  • Une entreprise qui a copié des textes et des images de votre site Internet sans votre accord.
  • Sites Internet de phishing qui ont copié en détail des pages légitimes par scraping, par exemple une page de connexion à une banque en ligne.

Que puis-je faire pour me protéger contre le scraping abusif ?

  • Soyez très conscient du partage de vos données sur les sites Internet et les médias sociaux. Celles-ci peuvent être collectées, stockées et partagées par scraping.
  • Publiez le moins possible de données susceptibles de faire l’objet d’un scraping abusif. Par exemple, mettez en place des formulaires de contact sur le site Web de votre entreprise au lieu d’y faire figurer des adresses électroniques.
  • Suivez les instructions de ce billet de blog Perseus pour vérifier si des données vous concernant ou concernant votre entreprise ont déjà été collectées et publiées par scraping.