Wat is data scraping? Definitie en gebruik

Bij data scraping wordt informatie van een website opgehaald en in een spreadsheet gezet. Voor de toegewijde data scraper is deze methode een efficiënte manier om veel informatie te vergaren voor analyses, verwerking of een presentatie. 

Stel dat u bijvoorbeeld voor een schoenenfabrikant werkt en uw manager u heeft gevraagd mensen te vinden die bereid zijn de producten van de organisatie te promoten op Instagram. U kunt dan duizenden zoekopdrachten uitvoeren om mensen te vinden die misschien kunnen helpen. Of u kunt een scraping-tool gebruiken om een spreadsheet te vullen met informatie die u vervolgens kunt bestuderen. Welke methode zou sneller zijn?

Wat is data scraping?

Websites staan vol met informatie die voor u waardevol is. Maar u zult vaak geen zin of tijd hebben om elke pagina door te nemen en gedetailleerde aantekeningen te maken. Data scraping kan dan uitkomst bieden. Bij data scraping hebt u aan één tool genoeg om alle informatie te verzamelen die u wilt hebben (zonder dat u urenlang hoeft te klikken). 

Data scraping-tools zijn ontworpen met mensen in het achterhoofd. In de output komen geen code, tags of opmaakregels voor. De resultaten kunnen eenvoudig gelezen en bewerkt worden. 

De drie belangrijkste vormen van data scraping zijn:

  1. Rapport-mining: een programma haalt data op van websites en genereert op basis hiervan rapporten. Het is eigenlijk net als het printen van een pagina, maar dan met een rapport in plaats van een printer. 
  2. Screen scraping: een tool haalt informatie op uit legacy computers en genereert een gemoderniseerde versie. 
  3. Web scraping: een tool haalt gegevens op van websites en genereert hiermee rapporten die gebruikers kunnen personaliseren. 

Data scraping kan voor verschillende doeleinden worden gebruikt:

  • Website-upgrades. Een screen scraper kan een cruciale tool zijn als u werkt met een oude computer die niet compatibel is met een nieuw systeem. In plaats van te proberen de oude versie te herprogrammeren of actualiseren, kunt u de informatie gewoon ophalen en opnieuw beginnen, nu met moderne technologie. 
  • Concurrentieanalyse. Een organisatie waarmee u concurreert publiceert alle kleuren, maten en prijzen van een product online. Data scraping kan u dan vertellen hoeveel uw product moet kosten en hoeveel mensen het willen kopen. Experts vinden dat deze vorm van analyse een van de beste manieren is om data scraping te benutten
  • Data-aggregatie. Hebt u weleens een website bezocht met krantenkoppen van over de hele wereld? Of een pagina waarop de prijzen en producten van verschillende merken op één plek worden vergeleken? Het is data scraping dat dit mogelijk maakt.
  • Grondige verslaggeving. In 2018 creëerden journalisten van BuzzFeed verschillende diagrammen waarin alle State of the Union-toespraken die ooit in de Verenigde Staten zijn gegeven, werden vergeleken. Voor die analyse werd data gebruikt van het Presidency-project van de University of California (Santa Barbara). Zonder data scraping hadden de journalisten alle toespraken handmatig moeten uittypen, wat heel veel tijd zou hebben gekost. 

Sommige mensen gebruiken de techniek helaas om anderen schade te berokkenen. Zo worden scraping-tools weleens gebruikt om e-mailadressen of social media-profielen te verzamelen en worden de data vervolgens gebundeld om ze aan e-mail spammers te verkopen. 

Malafide actoren kunnen scraping-tools ook gebruiken om data te stelen. Zo klaagde Facebook in 2020 twee organisaties aan die extensies installeerden om namen, geboortedatums en andere gevoelige data te scrapen. Gebruikers waren zich hiervan niet bewust en de organisaties verkochten hun data vervolgens aan derden. 

Data scraping wordt weleens verward met web crawling, maar dit zijn twee sterk verschillende technieken. Een web crawler analyseert de code in een pagina aandachtig en het device kan pagina's zelfs volledig overslaan als de programmeur de juiste tag gebruikt. Met deze resultaten kunnen websites als Google bepalen wat op de pagina's met zoekresultaten moet worden getoond. Data scraping-tools besteden geen aandacht aan het leeuwendeel van de code en ook niet aan verzoeken van programmeurs.

Hoe werkt data scraping? 

U wilt gegevens ophalen uit een bron die u hebt geanalyseerd en gescreend. Hoe pakt u dit aan? De kans is groot dat u een tool kunt gebruiken die iemand al voor dit doeleinde heeft geprogrammeerd. 

Overweeg web scrapers te gebruiken. Deze tools werken in het algemeen in drie stappen:

  1. Verzoek. Het programma gebruikt een "GET"-commando om gegevens op te halen van de pagina die u selecteert. 
  2. Parsering. De scraper gaat op zoek naar het specifieke dataveld dat u hebt opgegeven. 
  3. Weergave. De informatie waarom u hebt verzocht, wordt opgenomen in het rapport dat u opgeeft of creëert. 

Deze tools kunnen lastig te programmeren zijn en lijken misschien ingewikkeld. Maar eigenlijk kunnen ze door iedereen relatief eenvoudig worden gebruikt. Met de volgende drie data scraping-tools kunt u eenvoudig experimenteren:

  • Data Scraper: deze Chrome-extensie haalt gegevens op van elke pagina die u bezoekt en verzamelt ze op een formulier van uw keuze. U hoeft zelfs niets te programmeren. Het is een kwestie van richten en wachten. 
  • Data Miner: deze extensie voor Chrome en Microsoft Edge scrapet data naar csv-bestanden. U kunt de data vervolgens in Excel openen en naar wens bewerken. 
  • Data Scraping Crawler: deze tool kan telefoonnummers, e-mailadressen en social media-profielen extraheren. De gegevens worden opgeslagen in een Excel-bestand en u kunt het programma zo configureren dat velden automatisch worden bijgewerkt. 

Als u dit liever niet zelf doet, kunt u ook een data scraper inhuren via UpWork.

4 manieren om uw data te beschermen 

U kunt alleen volledig voorkomen dat uw informatie wordt gestolen door deze niet op uw website te zetten. Maar hoe kunnen klanten uw producten en prijzen dan vinden? Om te kunnen concurreren, moet u gewoon een online aanwezigheid hebben. Maar gelukkig kunt u beschermen wat van u is. 

Probeer deze vier strategieën uit:

  1. Beperk het aantal verzoeken. Pas rate limiting-regels toe zodat een IP-adres uw server binnen een bepaald tijdsbestek niet te vaak kan pingen. 
  2. Pas CAPTCHA toe. Als u ziet dat er meerdere verzoeken afkomstig zijn van één server, vraag de gebruiker dan zijn identiteit te verifiëren door een eenvoudige puzzel op te lossen of op een knop te drukken. Bots kunnen die stap niet uitvoeren, dus op deze manier kunt u elke scraping tool blokkeren. 
  3. Gebruik afbeeldingen. Tools voor web scraping zijn ontworpen om tekst te analyseren en parseren, maar geen foto's. Integreer gevoelige informatie, zoals contactgegevens en tarieven, in afbeeldingen en niet in tekst, waar de informatie eenvoudig geëxtraheerd kan worden. 
  4. Pas uw teksten aan. Eenvoudige aanpassingen (bijvoorbeeld het gebruik van [at] in plaats van @ in een e-mailadres) kunnen data scraping-tools op het verkeerde been zetten en het stelen en gebruiken van informatie een stuk moeilijker maken.

Waarschijnlijk zult u niet al uw data altijd kunnen beschermen. Maar deze vier ideeën helpen u om uw gevoelige pagina's te beveiligen.

Als u op zoek bent naar meer manieren om uw data te beschermen, neem dan contact met ons op. Okta kan u helpen alle identities, van klanten én werknemers, te beveiligen. Meer informatie.

Referenties

Five Best Ways to Use Data Scraping. (November 2019). Towards Data Science.

Spiders, Crawlers, and Bots, Oh My! The Basics of Website Scraping. (Oktober 2012). Intellectual Property Today.

"I Have the Best Words." How Trump's First SOTU Compares to All the Others. (Januari 2018). BuzzFeed.

Facebook Sues Two Companies Engaged in Data Scraping Operations. (Oktober 2020). Tech Crunch.

Data Scraper. Chrome Web Store.

Data Miner, Data Miner.io

Data Scraping Crawler, Phantom Buster.

Hire the Best Web Scrapers. Upwork.