Webcrawler se traduit par « crawler à travers Internet ». Les robots d’exploration web sont des programmes informatiques qui recherchent indépendamment sur Internet et analysent les pages web.
Les robots d’exploration web sont des robots – des programmes informatiques qui effectuent automatiquement et de manière indépendante certaines tâches. Le terme figuré « crawler web » vient du fonctionnement de ces bots. Ils « rampent » de lien en lien via Internet. C’est ainsi qu’ils passent de site web en site. Les moteurs de recherche utilisent des robots d’indexation web pour analyser les sites web et les ajouter à leur annuaire. Chaque moteur de recherche utilise ses propres robots d’indexation. Le site web de votre entreprise est visité par Googlebot, Bingbot et d’autres moteurs de recherche.
Les robots d’exploration web peuvent être utilisés pour collecter et analyser automatiquement les données des sites web. Par conséquent, ils sont également utilisés, par exemple, pour des sites de comparaison de prix afin de trouver les prix les plus bas pour certains produits.
Mais les robots d’exploration web sont aussi utilisés à des fins douteuses ou illégales. Par exemple, collecter automatiquement des adresses e-mail, auxquelles le spam est ensuite envoyé.
Vous le rencontrez indirectement à chaque fois que vous utilisez un moteur de recherche. Les résultats de recherche sont les résultats du travail des robots d’indexation. Des informations inhabituelles sur des adresses e-mail sur des sites tels que « info(at)unternehmen(dot)com » sont également justifiées par les robots d’indexation. Ce format est conçu pour rendre l’adresse e-mail illisible pour les robots web douteux. Cependant, les adresses e-mail fournies de cette manière ne sont plus sans barrières et ne peuvent plus être utilisées, par exemple, par les personnes ayant une vision sévèrement déficiente. De plus, de nombreux robots web douteux sont désormais programmés pour reconnaître ces orthographes alternatives.
Protégez les adresses e-mail accessibles sur le site web de votre entreprise contre les robots d’indexation douteux. Il existe plusieurs façons de procéder. Deux exemples :