Robot d’exploration web

Webcrawler se traduit par « crawler à travers Internet ». Les robots d’exploration web sont des programmes informatiques qui recherchent indépendamment sur Internet et analysent les pages web.

Que signifie en détail un web crawler ?

Les robots d’exploration web sont des robots – des programmes informatiques qui effectuent automatiquement et de manière indépendante certaines tâches. Le terme figuré « crawler web » vient du fonctionnement de ces bots. Ils « rampent » de lien en lien via Internet. C’est ainsi qu’ils passent de site web en site. Les moteurs de recherche utilisent des robots d’indexation web pour analyser les sites web et les ajouter à leur annuaire. Chaque moteur de recherche utilise ses propres robots d’indexation. Le site web de votre entreprise est visité par Googlebot, Bingbot et d’autres moteurs de recherche.

Les robots d’exploration web peuvent être utilisés pour collecter et analyser automatiquement les données des sites web. Par conséquent, ils sont également utilisés, par exemple, pour des sites de comparaison de prix afin de trouver les prix les plus bas pour certains produits.
Mais les robots d’exploration web sont aussi utilisés à des fins douteuses ou illégales. Par exemple, collecter automatiquement des adresses e-mail, auxquelles le spam est ensuite envoyé.

Où est-ce que je rencontre le sujet des « robots d’exploration web » dans mon travail quotidien ?

Vous le rencontrez indirectement à chaque fois que vous utilisez un moteur de recherche. Les résultats de recherche sont les résultats du travail des robots d’indexation. Des informations inhabituelles sur des adresses e-mail sur des sites tels que « info(at)unternehmen(dot)com » sont également justifiées par les robots d’indexation. Ce format est conçu pour rendre l’adresse e-mail illisible pour les robots web douteux. Cependant, les adresses e-mail fournies de cette manière ne sont plus sans barrières et ne peuvent plus être utilisées, par exemple, par les personnes ayant une vision sévèrement déficiente. De plus, de nombreux robots web douteux sont désormais programmés pour reconnaître ces orthographes alternatives.

Que puis-je faire pour améliorer ma sécurité ?

Protégez les adresses e-mail accessibles sur le site web de votre entreprise contre les robots d’indexation douteux. Il existe plusieurs façons de procéder. Deux exemples :

  • Remplacez les adresses e-mail par des formulaires de contact. Les formulaires de contact ne peuvent pas être utilisés par les bots, mais peuvent être rendus accessibles aux humains.
  • Remplacez les adresses e-mail par un transfert via redirection HTTP. Dans ce cas, l’adresse e-mail devient accessible par un détour incompréhensible pour les bots. Contactez votre service informatique pour identifier et mettre en œuvre les meilleures pratiques de votre site web.