Scraping

Der Begriff „Scraping“ kommt aus dem Englischen und bedeutet so viel wie ab- oder zusammenkratzen. Im Bereich der Cybersicherheit bezeichnet Scraping den Vorgang, Daten zu sammeln – zusammenzukratzen – und zu speichern. Meistens geht es dabei um Daten von Internetseiten, Plattformen oder sozialen Netzwerken.

 

Was bedeutet der Begriff Scraping im Detail?

Scraping – das Sammeln und Speichern von Daten – kann grundsätzlich auf zwei Wegen erfolgen:

  • Manuell, also per Hand. Bei größeren Datenmengen wird dieses Vorgehen sehr arbeitsaufwendig.
  • Automatisch, zum Beispiel durch Computerprogramme. Dann können auch große Datenmengen schnell verarbeitet werden.

 

Aktuell wird der Begriff Scraping vorwiegend für das Sammeln von Daten von Internetseiten genutzt. Prinzipiell kann er sich aber auf alle Texte beziehen, die auf Bildschirmen angezeigt werden. Zum Teil werden daher unterschiedliche Begriffe verwendet: zum Beispiel Web Scraping, Screen Scraping oder Data Scraping. Ihre Gemeinsamkeit besteht jedoch immer im Sammeln und Speichern von Daten.

Scraping kann zu unterschiedlichen Zwecken betrieben werden:

  • Für eigene Analysen, zum Beispiel für eine manuelle Konkurrenzanalyse.
  • Für automatische Sammlungen und Aufbereitung von Daten von vielen unterschiedlichen Internetseiten.
  • Für die Sammlung von Kontaktdaten, zum Beispiel von auf Social-Media-Plattformen veröffentlichte E-Mail-Adressen.
  • Für das Kopieren und unerlaubte Veröffentlichen von Inhalten fremder Internetseiten.

 

Wo begegnet mir Scraping im Arbeitsalltag?

Hinter jeder Suche mit einer Suchmaschine und jedem Online-Preisvergleich steht Scraping. Programme der Suchmaschinen “scrapen” unermüdlich die Adressen und Informationen von Internetseiten, um sie als Suchergebnisse darstellen zu können. Bei Preisvergleichen werden die Preise, Bilder und ggf. Produkt-Details per Scraping gesammelt.
Auch im beruflichen Kontext wird Scraping häufig verwendet. Zum Beispiel zur Konkurrenzanalyse.

Allerdings kann Ihnen auch die missbräuchliche Seite von Scraping im Arbeitsalltag begegnen. Zum Beispiel durch:

  • Eine Phishing-E-Mail, nachdem Ihre z. B. auf der Unternehmenswebsite oder auf LinkedIn veröffentlichte E-Mail-Adresse per Scraping erfasst wurde.
  • Ein Unternehmen, das systematisch Ihre Preise unterbietet, die es per Scaping ausliest.
  • Ein Unternehmen, das Texte und Bilder Ihrer Internetseite ohne Ihr Einverständnis kopiert hat.
  • Phishing-Internetseiten, die durch Scraping legitime Seiten detailgetreu kopiert haben, zum Beispiel eine Login-Seite zum Online-Banking.

 

Was kann ich tun, um mich vor missbräuchlichem Scraping zu schützen?

  • Gehen Sie sehr bewusst mit dem Teilen Ihrer Daten auf Internetseiten und in Sozialen Medien um. Diese können per Scraping gesammelt, gespeichert und weitergegeben werden.
  • Veröffentlichen Sie möglichst wenig Daten, die für missbräuchliches Scraping interessant sind. Richten Sie auf Ihrer Unternehmenswebsite z. B. Kontaktformulare ein, anstatt E-Mail-Adressen aufzuführen.
  • Folgen Sie der Anleitung dieses Perseus Blogbeitrags, um zu überprüfen, ob Daten von Ihnen oder Ihrem Unternehmen bereits per Scraping gesammelt und veröffentlicht wurden.

The term “scraping” comes from English and means something like “scraping off” or “gathering.” In the context of cybersecurity, it refers to the process of collecting and storing data – usually from websites, platforms, or social networks.

 

What does “scraping” mean in detail?

Scraping – the act of collecting and saving data – can be done in two ways:

  • Manually, i.e. by hand. This becomes very labor-intensive with large amounts of data.

  • Automatically, using computer programs. This allows large data sets to be processed quickly.

Today, the term “scraping” is mostly used in reference to collecting data from websites. However, in principle, it applies to all text that is displayed on screens. Depending on the method, different terms may be used: web scraping, screen scraping, or data scraping. What they all have in common is the collection and storage of data.

 

Scraping may be used for various purposes:

  • For internal analysis, such as manual competitor research

  • For automatically collecting and processing data from many different websites

  • For gathering contact information, such as email addresses published on social media platforms

  • For copying and republishing content from other websites without permission

 

Where might I encounter scraping in everyday work?

Scraping is behind every internet search and every online price comparison. Search engines use scraping programs to tirelessly scan websites for addresses and content to display as search results. In price comparisons, scraping is used to collect prices, images, and product details.

Scraping is also common in the business world – for example, for competitor analysis.

However, you may also encounter the abusive side of scraping in your daily work, such as:

  • A phishing email sent to an address that was scraped from your company website or LinkedIn profile

  • A competitor systematically undercutting your prices based on data scraped from your site

  • A company copying your website’s texts and images without permission

  • Phishing websites that scrape and clone legitimate pages, such as online banking login forms

 

How can I protect myself from abusive scraping?

  • Be very deliberate about sharing your data online and on social media. Anything you publish can potentially be scraped, stored, and misused.
  • Avoid publishing data that could be valuable for abusive scraping. For example, instead of displaying email addresses on your company website, consider using contact forms.
  • Follow the instructions in this Perseus blog post to check whether information about you or your company has already been scraped and published elsewhere.