Alt om programmering som jeg selv finner interessant. No more, no less. Trolig vil det være mest om webprogrammering, .NET og andre ting jeg jobber med fast.

onsdag, april 26, 2006

Robots.txt og søkemotorer

Websider indekseres automatisk for søkemotorer av programmer som blant annet kalles roboter. En kan hinte til disse programmene om indekseringen av et websted.

Robots.txt
Den første muligheten til å hinte til roboter er å sette opp noen regler i en fil som heter robots.txt. Den skal ligge på nettstedets rot.

http://www.dittdomene.com/robots.txt

Filens oppgave er å fortelle robotene hvilke deler av nettstedet som IKKE skal indekseres. Eksempel:

User-agent: *
Disallow: /bin/
Disallow: /Admin/

Hver linje er en egen regel. I eksempelet sier første linje at alle (*) roboter skal lystre reglene på de etterfølgende linjene.

De neste linjene sier at roboter ikke skal indeksere filer i katalogene bin og Admin. I praksis betyr dette at dersom roboten finner en lenke på nettstedet til en fil i en av disse katalogene så skal den ikke følge den ei heller indeksere den.

Det kan lages ulike regler for ulike søkemotorer ved å angi navn på dem istedenfor asterisk (*) etter User-Agent som gjort her. Dersom det lages ulike regler for ulike roboter må disse være først i robots.txt. Årsaken er at en robot leser fra toppen og slutter når den har nok informasjon.

Spesielle regler må settes opp før generelle regler.

SSL


For sikre forbindelser der https-protokollen benyttes skal det være en egen robots.txt fil. Denne bør (trolig!) be roboten om ikke å indeksere filer:

User-agent: *
Disallow: /


Fjerne individuelle websider


Websider kan fjernes fra søkeresultater ved at websider selv har informasjon om at roboter skal overse dem ved å bruke en META-tagg. Eksempelet viser at roboter ikke skal indeksere siden og at de heller ikke skal følge lenker og indeksere dem.


<html>
<head>
<title>Ikke indekser denne siden...</title>
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
</head>
<body>-</body>
</html>


Mer informasjon



http://www.google.com/webmasters/remove.html
Forklaring på tilpassing av nettsted for Google’s robot.

http://www.searchtools.com/
Informasjon om søkemotorer til bruk på nettsteder. Informerer også om håndtering av roboter.

http://www.robotstxt.org/
The Web Robots Pages med informasjon om roboter og ulike søkemotorer.

1 kommentar:

Anonym sa...

Kjempenyttig, Kenneth! Men, hva om du vil legge inn sperre for en fil eller flere filer i robots.txt?

Om meg

Bildet mitt
I love music. And computers. And Dostoevsky, too.