Een korte handleiding voor het schrijven van een Robots.txt-bestand

Hoe raadpleeg je een enorm leerboek? Door de index bladeren. Nou: er is één element dat de echte samenvatting van uw website is...

Robots.txt: programmeercodes zullen steeds geavanceerder worden
Programmeercodes zullen steeds geavanceerder worden

De enige manier om in contact te komen met de spider van de zoekmachine, of de crawler, is via een bestand genaamd robots.txt. Of beter. Wanneer u uw websitevoorstel indient bij Google, wordt deze geconfronteerd met een kolossale hoeveelheid informatie.

Hoe raadpleeg je een leerboek dat zo dik is dat je het gevoel hebt dat je nooit alles zult vinden wat je nodig hebt? Jij overlegt een hint. Nou: het robots.txt-bestand is de index van je website.

Dit is een eenvoudig in te vullen document dat de crawler van de zoekmachine vertelt waarnaar hij moet zoeken. Kortom: u helpt hem te begrijpen waar uw site van gemaakt is, zodat het algoritme u een ranking kan geven die congruent is met het werk dat u heeft gedaan.

Kan iedereen een robots.txt-bestand schrijven?

Het korte antwoord is ja. Het eerlijke antwoord is nee. Hoewel de grammatica van een robots.txt-bestand uiterst eenvoudig is en de samenstelling uit een paar regels bestaat, kun je beter vertrouwen op de zorg van een deskundige webmaster die weet waar hij zijn handen moet leggen. Een klein foutje is immers al genoeg om de positionering van uw website in gevaar te brengen en zo alle SEO-operaties tot stilstand te brengen voordat ze zelfs maar beginnen.

Voordat u begint, moet u één ding weten: iedereen kan het robots.txt-bestand van elke site raadplegen door een /robots.txt achter het domein te schrijven. Je kunt zelfs die van Google raadplegen!

U kunt zo'n bestand schrijven zonder speciale software te downloaden. In feite is het voldoende om uw kladblok te gebruiken en op te slaan, raad eens, in .txt-formaat.

Laten we samen een robots.txt schrijven: de header

Laten we bij het begin beginnen, want dat is altijd logisch. De opening van het bestand, of liever de header, is geheel gewijd aan de naam van de spin, voorafgegaan door een kleine formulering die altijd hetzelfde is. Laten we aannemen dat je opgemerkt wilt worden door Google. De eerste regel wordt dus:

User-agent: Googlebot

Deze zeer korte string vertelt Google dat alles wat volgt zeker voor hem interessant zal zijn. Als u wilt dat alle crawlers die dit type bestand lezen het document kunnen raadplegen, vervangt u Googlebot door een simpele *, een asterisk.

Nu je hebt aangegeven welke spin, dus WIE, moet je aangeven ook WAT hij zal moeten lezen.

Elke regel code komt per definitie overeen met een actie van de machine. Het spreekt voor zich dat elk commando in het robots.txt-bestand overeenkomt met wat de machine niet moet doen. En dit is de sleutel waarmee u een echt effectieve kunt schrijven. We hebben het over het DISALLOW-commando.

Wat is het DISALLOW-commando?

Il disallow commando stelt u in staat te redeneren door uitsluiting. Met andere woorden, wanneer wordt gezegd dat het eerst is om te zeggen wat niet moet worden gedaan, dan redeneert u door uitsluiting. Naast de disallow is er ook de allow, de uitzondering op de blokkering.

Als je een goed robots-bestand wilt schrijven, moet je andersom denken, dus je moet Google vertellen wat het niet mag lezen. Als je schrijft:

Disallow:

De spider leest je hele site, zonder enige rem.

Als u na "Disallow:" een schuine streep plaatst (dus Disallow: /), wordt de site niet ingevoerd in zoekmachines, punt.

Disallow: /directories/

Vervang de woordmap door de map die u vanuit de spiderweergave wilt weigeren. U kunt hetzelfde doen met een specifiek bestand.

Disallow: /mijnbestand.html

Aandacht voor leestekens en letters, hoofdletters of kleine letters. Dit type bestand heeft dit soort "kleinigheden" hoog in het vaandel staan, maar ze maken een groot verschil.

Waarom zou je voorkomen dat Google een groot deel van je site leest? Wanneer u een bestand van dit type schrijft, is het belangrijk om te begrijpen welke bestanden niet in de zoekmachine mogen verschijnen, maar zonder ze te misbruiken. Weet echter dat iedereen die het exacte adres van dat specifieke bestand kent, er hoe dan ook toegang toe zal hebben.

Wat is het ALLOW-commando?

In het bestand kun je een uitzondering toevoegen met het commando TOESTAAN. De grammatica is identiek, maar het zal een aantal uitzonderingen creëren op de DISALLOW die het mogelijk maken om interessante onderzoeksmarges voor de spin te openen.

Een klein voorbeeldbestand:

User-agent: Googlebot

Disallow: /afbeeldingen/

Toestaan: /images/holidays.jpg

In feite hebben we de Googlebot verteld om de afbeeldingenmap niet te bekijken, behalve een bepaalde foto erin, namelijk die van de vakantie.

En dat, jongens, is het. We schreven ons eerste robots.txt-bestand. Natuurlijk, wat we gaan doen voor de daadwerkelijke site kan iets anders zijn, maar niet veel. Laat u bij twijfel altijd adviseren door een gespecialiseerde webmaster. We raden u aan om eerst te proberen het zelf te schrijven en het ter controle naar hem op te sturen, zodat u de eerste beginselen onder de knie krijgt en beter begrijpt hoe uw site werkt.

Wat is de correlatie tussen robots.txt en sitemaps?

De sitemap is een bestand dat wordt gegenereerd door speciale plug-ins en dat alle links op de site bevat. Wanneer de spin de site betreedt, leest hij eerst de robots en doorzoekt hij vervolgens de site. Als de robot tijdens het crawlen het adres van de sitemap vindt, wordt het hele proces veel eenvoudiger.

Voeg het volgende toe aan de bovenstaande code:

Sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Concluderend

Alle robots-bestanden zijn hetzelfde. Dit betekent dat een Robots-bestand geschreven voor Google ook prima werkt voor Bing en dezelfde grammatica volgt.

Met een goed georganiseerd robots.txt-bestand kan dat bespaar crawler-tijd. Laat je niet ontmoedigen: dit is de eerste stap naar succes!

Robots.txt: Google is de krachtigste zoekmachine op internet
Google is de krachtigste zoekmachine op internet