Wat is robots.txt?

Robots.txt is een klein tekstbestand dat instructies bevat voor bots. Met dit bestand is het mogelijk om op domein niveau bots aan te sturen om bepaalde domeinen, mappen, pagina’s, bestanden of specifieke URL’s niet te crawlen. Let er op dat de instructies in de robots.txt richtlijnen zijn. Het zijn voor bots geen verplichtingen. In het geval van de website van Invest Online ziet de robots.txt er zo uit:

Robots.txt biedt de gebruiker de mogelijkheid om voor alle bots instructies te geven of juist voor een bepaalde bot: alleen Googlebot of Bingbot. Dit wordt aangegeven door de “user-agent” en dat ziet er zo uit:

  • User-agent: Googlebot → Dag Googlebot, welkom op mijn website. De volgende instructies zijn voor jou.
  • User-agent: Bingbot → Dag Bingbot, welkom op mijn website. De volgende instructies zijn voor jou.
  • User-agent: * → Dag bots, welkom op mijn website. De volgende instructies zijn voor iedereen.

De laatste versie met een “*” geeft instructies voor alle bots.

Er zijn verschillende soorten instructies die je kunt meegeven vanuit robots.txt. Hierna worden voorbeelden gegeven met als user-agent Googlebot.

Hoe sluit ik pagina’s uit van crawlen?

Wanneer je een gehele pagina niet geïndexeerd wilt hebben dan kan je deze uit sluiten middels de “disallow” instructie. Dit doe je als volgt:

User-agent: Googlebot
Disallow: /ditisdepaginadieiknietgecrawldwilhebben.html
Dag Googlebot, welkom op mijn website. Pagina /ditisdepaginadieiknietgecrawldwilhebben.html mag je niet bezoeken.

Hoe sluit ik een gehele map uit van crawlen?

Wil je een gehele map uitgesloten hebben van het bezoek door bots, dan gebruik je:

User-agent: Googlebot
Disallow: /ditisdemapdieiknietgecrawldwilhebben/
Dag Googlebot, welkom op mijn website. Map /ditisdemapdieiknietgecrawldwilhebben/mag je niet bezoeken.

Bovenstaande tekst betekent ook dat onderliggende pagina’s ook niet bezocht mogen worden. Dus:
Dag Googlebot, welkom op mijn website. Map /ditisdemapdieiknietgecrawldwilhebben/paginaerondermagjeooknietbezoeken.

Pagina’s toestaan

Daarnaast is er de “allow” instructie. Hiermee geef je aan wanneer je een pagina wel geïndexeerd wilt hebben. Standaard crawlt een bot alles, dus alleen pagina’s toevoegen met de instructie “allow” is niet nodig. Waarom bestaat dan de “allow” instructie? Het kan zijn dat je een bepaalde map niet gecrawld wilt hebben door een bot maar dat iets binnen die map wel weer mag worden gecrawld. Je krijgt dan:

User-agent: Googlebot
Disallow: /ditisdemapdieiknietgecrawldwilhebben
Allow: /ditisdemapdieiknietgecrawldwilhebben/maardezepaginawel.html
Dag Googlebot, welkom op mijn website. Map /ditisdemapdieiknietgecrawldwilhebben/ mag je niet bezoeken maar pagina “/maardezepaginawel.html” binnen die map wel.

Paginareeksen uitsluiten van botbezoek

Naast het blokkeren van gehele mappen of pagina’s is het ook mogelijk om URL’s te blokkeren die bepaalde tekens bevatten. Dit wordt met het karakter “*” gedaan. Wanneer je het volgende in de robots.txt toevoegt dan worden alle URL’s geblokkeerd met een vraagteken er in:

User-agent: Googlebot
Disallow: /*?
Dag Googlebot, welkom op mijn website. Alle URL’s die een vraagteken bevatten mag je niet bezoeken.

Bestanden uitsluiten met robots.txt

Tot slot kan je het dollarteken ($) gebruiken om URL’s met hetzelfde einde uit te sluiten. Wanneer je alleen pdf-bestanden wilt uitsluiten dan voeg je dit toe:

User-agent: Googlebot
Disallow: /*.pdf$
Dag Googlebot, welkom op mijn website. Alle URL’s die eindigen op .pdf mag je niet bezoeken.

Vermeld de sitemap in robots.txt

De locatie van de sitemap kan ook toegevoegd worden in de Robots.txt. Dit kan helpen om pagina’s binnen de website beter geïndexeerd te krijgen. De sitemap is een overzicht van alle pagina’s van een website. De robots.txt wil je eigenlijk altijd toevoegen. Met name omdat je daarin kunt verwijzen naar de sitemap wat kan bijdragen aan het beter laten indexeren van pagina’s. Het biedt daarnaast de mogelijkheid om pagina’s of mappen te blokkeren voor zoekmachines. Heb je geen robots.txt toegevoegd dan kunnen bots alles bezoeken van je website.

Het instellen van de sitemap is geheel afhankelijk van de website. Zo geven sommige websites bots alle ruimte en beperken andere websites het bezoek. Het is altijd goed om na te gaan of je alle pagina’s van je website bezocht wilt hebben door bots. Het is verstandig om te onthouden dat het blokkeren van een pagina middels robots.txt niet altijd betekent dat de pagina niet geïndexeerd wordt. Wanneer er veel externe links naar die pagina staat dan zal de pagina wel geïndexeerd kunnen worden maar dan weet een zoekmachine niet wat er op die pagina staat (Yoast, 2016).

In het kort

Robots.txt is een krachtig middel om mappen, pagina’s en bestanden uit te sluiten van het bezoek door bots. Denk goed na over welke pagina’s je wel in de zoekresultaten wilt hebben en welke niet. Wees daarbij voorzichtig bij het gebruik van de uitsluitmogelijkheden die robots.txt biedt. Een typefout kan betekenen dat delen van je website uitgesloten worden.

Heb je vragen over het gebruik van robots.txt? Neem dan vrijblijvend contact op met Invest Online.

Benieuwd waar jouw online kansen liggen?

Ontvang direct 4 bruikbare tips in je mailbox!

Ons adviesrapport ontvang
je als PDF

Bedankt voor je inschrijving! De eerste 4 tips sturen we je direct toe.