Robots.txt
Den første muligheten til å hinte til roboter er å sette opp noen regler i en fil som heter robots.txt. Den skal ligge på nettstedets rot.
http://www.dittdomene.com/robots.txt
Filens oppgave er å fortelle robotene hvilke deler av nettstedet som IKKE skal indekseres. Eksempel:
User-agent: *
Disallow: /bin/
Disallow: /Admin/
Hver linje er en egen regel. I eksempelet sier første linje at alle (*) roboter skal lystre reglene på de etterfølgende linjene.
De neste linjene sier at roboter ikke skal indeksere filer i katalogene bin og Admin. I praksis betyr dette at dersom roboten finner en lenke på nettstedet til en fil i en av disse katalogene så skal den ikke følge den ei heller indeksere den.
Det kan lages ulike regler for ulike søkemotorer ved å angi navn på dem istedenfor asterisk (*) etter User-Agent som gjort her. Dersom det lages ulike regler for ulike roboter må disse være først i robots.txt. Årsaken er at en robot leser fra toppen og slutter når den har nok informasjon.
Spesielle regler må settes opp før generelle regler.
SSL
For sikre forbindelser der https-protokollen benyttes skal det være en egen robots.txt fil. Denne bør (trolig!) be roboten om ikke å indeksere filer:
User-agent: *
Disallow: /
Fjerne individuelle websider
Websider kan fjernes fra søkeresultater ved at websider selv har informasjon om at roboter skal overse dem ved å bruke en META-tagg. Eksempelet viser at roboter ikke skal indeksere siden og at de heller ikke skal følge lenker og indeksere dem.
<html>
<head>
<title>Ikke indekser denne siden...</title>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
</head>
<body>-</body>
</html>
Mer informasjon
http://www.google.com/webmasters/remove.html
Forklaring på tilpassing av nettsted for Google’s robot.
http://www.searchtools.com/
Informasjon om søkemotorer til bruk på nettsteder. Informerer også om håndtering av roboter.
http://www.robotstxt.org/
The Web Robots Pages med informasjon om roboter og ulike søkemotorer.