Webcrawler

Webcrawler bedeutet übersetzt etwa „durchs-Internet-Krabbler“. Webcrawler sind Computerprogramme, die selbständig das Internet durchsuchen und Webseiten analysieren.

 

Was bedeutet Webcrawler im Detail?

Webcrawler sind Bots – Computerprogramme, die automatisch und selbständig bestimmte Aufgaben ausführen. Die bildliche Bezeichnung „Webcrawler“ leitet sich aus der Funktionsweise dieser Bots ab. Sie „krabbeln“ von Verlinkung zu Verlinkung durch das Internet. So gelangen sie von Webseite zu Webseite. Suchmaschinen nutzen Webcrawler, um Webseiten zu analysieren und in ihr Verzeichnis aufzunehmen. Jede Suchmaschine setzt ihre eigenen Webcrawler ein. Ihre Unternehmenswebseite wird vom Googlebot, vom Bingbot und den Webcrawlern anderer Suchmaschinen besucht.

Mit Webcrawlern lassen sich automatisch Daten von Webseiten sammeln und analysieren. Daher werden sie z. B. auch für Preisvergleich-Webseiten genutzt, um die jeweils niedrigsten Preise für bestimmte Produkte zu finden.
Doch auch für zwielichtige oder illegale Zwecke werden Webcrawler eingesetzt. Zum Beispiel zum automatischen Sammeln von E-Mail-Adressen an welche dann Spam versandt wird.

 

Wo begegnet mir das Thema „Webcrawler“ im Arbeitsalltag?

Indirekt begegnet es Ihnen bei jeder Nutzung einer Suchmaschine. Die Suchergebnisse sind die Ergebnisse der Arbeit der Webcrawler. Auch ungewöhnliche E-Mail-Adress-Angaben auf Webseiten wie „info(at)unternehmen(dot)com“ sind durch Webcrawler begründet. Dieses Format soll die E-Mail-Adresse für zwielichtige Webcrawler unlesbar machen. Allerdings sind so angegebene E-Mail-Adressen nicht mehr barrierefrei und z. B. für Menschen mit stark eingeschränkter Sehfähigkeit nicht mehr nutzbar. Weiterhin sind viele zwielichtige Webcrawler inzwischen darauf programmiert, solche Alternativschreibweisen zu erkennen.

 

Was kann ich tun, um meine Sicherheit zu verbessern?

Schützen Sie auf Ihrer Unternehmenswebseite zugängliche E-Mail-Adressen vor zwielichtigen Webcrawlern. Hierfür gibt es mehrere Möglichkeiten. Zwei Beispiele:

  • Ersetzen Sie E-Mail-Adressen durch Kontaktformulare. Kontaktformulare sind für Bots nicht nutzbar, lassen sich aber für Menschen barrierefrei gestalten.
  • Ersetzen Sie E-Mail-Adressen durch eine Weiterleitung über HTTP-Redirect. Dabei wird die E-Mail-Adresse über einen Umweg zugänglich, der für Bots nicht nachvollziehbar ist. Wenden Sie sich an Ihre IT-Abteilung, um Ihre Webseite besten Methoden zu identifizieren und umzusetzen.

Web crawler means something like ‘Internet crawler’. Web crawlers are computer programs that independently search the Internet and analyse websites.

 

What does web crawler mean in detail?

Web crawlers are bots – computer programs that automatically and independently perform specific tasks. The figurative term ‘web crawler’ is derived from the way these bots work. They ‘crawl’ from link to link through the internet. This is how they get from website to website. Search engines use web crawlers to analyse websites and add them to their index. Every search engine uses its own web crawlers. Your company website is visited by Googlebot, Bingbot and the web crawlers of other search engines.

Web crawlers can be used to automatically collect and analyse data from websites. They are therefore also used, for example, by price comparison websites to find the lowest prices for specific products.

However, web crawlers are also used for dubious or illegal purposes. For example, they can be used to automatically collect email addresses to which spam is then sent.

 

Where do I encounter the topic of ‘web crawlers’ in my everyday work?

You encounter them indirectly every time you use a search engine. The search results are the results of the work of web crawlers. Unusual email addresses on websites such as ‘info(at)company(dot)com’ are also the result of web crawlers. This format is intended to make the email address unreadable for dubious web crawlers. However, email addresses specified in this way are no longer accessible and can no longer be used by people with severely impaired vision, for example. Furthermore, many dubious web crawlers are now programmed to recognise such alternative spellings.

 

What can I do to improve my security?

Protect email addresses accessible on your company website from dubious web crawlers. There are several ways to do this. Here are two examples:

  • Replace email addresses with contact forms. Contact forms cannot be used by bots, but can be designed to be accessible to humans.
  • Replace email addresses with an HTTP redirect. This makes the email address accessible via a detour that cannot be traced by bots. Contact your IT department to identify and implement best practices for your website.