Net als Edward Snowden aan de slag met crawler-software

Dacht je dat klokkenluider Edward Snowden ingewikkelde software gebruikte om allerlei geheime documenten te verzamelen? Dan heb je het mis. Volgens Amerikaanse bronnen gebruikte Snowden relatief eenvoudige, goedkope en voor iedereen verkrijgbare ‘webcrawler’ software om meer dan 1,7 miljoen verschillende geheime documenten te verzamelen.


Net als Edward Snowden aan de slag met crawler-software


Door Marijn Baar

Alarmbellen
De zoektocht van Snowden liet wel enkele malen alarmbellen afgaan tijdens zijn werk als systeembeheerder bij de NSA, maar desondanks wist hij toch tal van documenten buit te maken.

Crawl frontier
Ben je benieuwd hoe zo’n crawler precies werkt? Het programma begint met een lijst URLs om te bezoeken, de zogenaamde seeds. Terwijl de crawler deze lijst met URLs afgaat, identificeert hij alle hyperlinks op een pagina om ze toe te voegen aan een te bezoeken lijst van URLs, genaamd de crawl frontier. URLs van de frontier worden alleen bezocht als ze aan een aantal vooraf ingestelde voorwaarden voldoen. Dit omdat de crawler – door het grote volume – maar een beperkt aantal webpagina’s kan downloaden.

Net als Snowden
Het web doorzoeken op geheime documenten is dus helemaal niet zo moeilijk met deze open source crawler software. Waar gerenommeerde zoekmachines als Google en Bing content censureren, je zoekopdrachten verzamelen en je zoekprofiel kunnen verkopen, kun je met een crawler het hele internet afspeuren zonder censuur, zonder advertenties en zonder monitoring.

Aan de slag Als je zelf wilt zoeken naar bestanden kun je de volgende open source crawlers gemakkelijk installeren: GNU Wget, Srapy, Seeks of YaCy. Op Lifehacker is ook nog een handige tutorial te vinden over hoe zoeken met Wget precies in zijn werk gaat. Zo kun je echt eens een kijkje nemen in de krochten van het internet. Bang om net als Snowden met vertrouwelijke informatie van de NSA op de proppen te komen hoef je niet te zijn: door gebruik te maken van zijn eigen wachtwoorden en die van collega’s kon hij bij al deze geheime documenten komen.