Alt om programmering ;-): april 2006

onsdag, april 26, 2006

Robots.txt og søkemotorer

Websider indekseres automatisk for søkemotorer av programmer som blant annet kalles roboter. En kan hinte til disse programmene om indekseringen av et websted.

Robots.txt
Den første muligheten til å hinte til roboter er å sette opp noen regler i en fil som heter robots.txt. Den skal ligge på nettstedets rot.

http://www.dittdomene.com/robots.txt

Filens oppgave er å fortelle robotene hvilke deler av nettstedet som IKKE skal indekseres. Eksempel:


User-agent: *
Disallow: /bin/
Disallow: /Admin/

Hver linje er en egen regel. I eksempelet sier første linje at alle (*) roboter skal lystre reglene på de etterfølgende linjene.

De neste linjene sier at roboter ikke skal indeksere filer i katalogene bin og Admin. I praksis betyr dette at dersom roboten finner en lenke på nettstedet til en fil i en av disse katalogene så skal den ikke følge den ei heller indeksere den.

Det kan lages ulike regler for ulike søkemotorer ved å angi navn på dem istedenfor asterisk (*) etter User-Agent som gjort her. Dersom det lages ulike regler for ulike roboter må disse være først i robots.txt. Årsaken er at en robot leser fra toppen og slutter når den har nok informasjon.

Spesielle regler må settes opp før generelle regler.

SSL

For sikre forbindelser der https-protokollen benyttes skal det være en egen robots.txt fil. Denne bør (trolig!) be roboten om ikke å indeksere filer:

User-agent: *
Disallow: /

Fjerne individuelle websider

Websider kan fjernes fra søkeresultater ved at websider selv har informasjon om at roboter skal overse dem ved å bruke en META-tagg. Eksempelet viser at roboter ikke skal indeksere siden og at de heller ikke skal følge lenker og indeksere dem.


<html>
  <head>
    <title>Ikke indekser denne siden...</title>
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
  </head>
  <body>-</body>
</html>

Mer informasjon

http://www.google.com/webmasters/remove.html
Forklaring på tilpassing av nettsted for Google’s robot.

http://www.searchtools.com/
Informasjon om søkemotorer til bruk på nettsteder. Informerer også om håndtering av roboter.

http://www.robotstxt.org/
The Web Robots Pages med informasjon om roboter og ulike søkemotorer.

torsdag, april 20, 2006

Sammenligne versjoner av filer i TortoiseCVS

Å sammenligne filer under versjonskontroll er nyttig, men TortoiseCVS støtter ikke dette direkte. En kan imidlertid fortelle TortoiseCVS hvilket program en vil bruke til dette.

Et gratis verktøy som lar en se ulikheter mellom to filer heter ExamDiff. Programmet kan lastes ned og installeres fra http://www.prestosoft.com/ps.asp?page=edp_examdiff.

Når ExamDiff er installert kan TortoiseCVS settes opp til å bruke det på følgende måte:

Klikk Start Alle programmer TortoiseCVS Settings (Eller høyreklikk i Windows utforsker og velg CVS Settings…).
Klikk arkfanen Tools.
Feltet Diff application skal inneholde banen til ExamDiff. Dersom du har norsk operativsystem og installerte ExamDiff til standardplassering, skal banen være C:\Programfiler\ExamDiff\ExamDiff.exe.
Det neste feltet er kommandolinje-argumenter som skal sendes til diff-programmet. ExamDiff trenger å vite navn på filene som skal sammenlignes. For at TortoiseCVS skal gi navnet på begge filene til ExamDiff må det stå "%1" "%2" i feltet.

Dersom du har filer under kildekontroll kan du høyreklikke på en av dem og velge CVS History… Merk to versjoner av filen ved å holde CTRL-tasten nede, høyreklikk på dem og velg Diff på hurtigmenyen. TortoiseCVS starter ExamDiff og versjonene sammenlignes visuelt. Nyttig!

Versjonskontroll i Windows med TortoiseCVS

Total kontroll på versjoner av kode er ikke noe alle programmerere er forunt å ha sånn helt av seg selv. Men mangel på versjonskontroll kan få svært kjedelige konsekvenser når endringer overskriver kode som var viktigere enn antatt og den gamle versjonen ikke lenger… fins. Au. Jo da, jeg har opplevd dette.

Dette temaet er viktig for heltidsprogrammerere, men studenter innen informasjonsteknologi bør absolutt også lære dette (”Den skal tidlig krøkes…” osv.).

I det siste har jeg brukt et program for versjonskontroll som heter TortoiseCVS og er under GPL-lisens. Det kan brukes alene eller knyttet opp til et sentralt oppbevaringssted (repository). TortoiseCVS integreres på hurtigmenyen i Windows Utforsker og er enkelt i bruk. Jeg har laget en kjapp steg-for-steg introduksjon til programmet nedenfor slik at det blir enklere å komme i gang.

Last ned og installer TortoiseCVS fra http://www.tortoisecvs.org/download.shtml.

Lag en mappe på maskinen som skal inneholde endringer (oppbevaringsstedet), for eksempel C:\CVSfiler\

Lag en mappe som skal inneholde filene du arbeider med. Test med mappen C:\EtProsjekt\

Høyreklikk på arbeidsmappen C:\EtProsjekt, velg CVS Make New Module…

Endre Protocol til Locally mounted folder

Skriv inn banen til oppbevaringsstedet C:\CVSfiler etter ledeteksten Repository Folder

Navn på modulen vises nederst og den er oppkalt etter arbeidsmappen
Klikk OK.

Det kommer opp en meldingsboks som sier There is no CVS repository in this folder. Kryss av for Initialise a new repository here og klikk OK.

Hvis du tar en titt i mappen CVSfiler vil du se at det er opprettet to mapper inne i den. Mappen CVSROOT inneholder endringer som er gjort på filer. Mappen EtProsjekt inneholder filene til modulen. (Husk at det er filene i arbeidsmappen du skal arbeide med og ikke filer i denne mappen!)

Filer kan nå legges til i arbeidsmappen. Disse må manuelt tas med i kildekontroll. Eksempel:

Lag en tekstfil som heter test.txt i mappen C:\EtProsjekt. Legg merke til spørsmålstegnet som vises over ikonet. Det indikerer at filen ikke er lagt til i kildekontroll.

Høyreklikk på filen og velg CVS Add… Et vindu viser informasjon om fil(er) som skal legges til. Klikk OK i dette vinduet. Spørsmålstegnet er nå erstattet av et pluss-tegn.

Høyreklikk på filen og velg CVS Commit… Vinduet som kommer opp nå lar en legge til informasjon om filen. Bruk dette alternativet så mye som mulig! Skriv følgende under Comment: ”Fil lagt til i modul for å teste TortoiseCVS.”

Klikk OK. Plusstegnet over ikonet til filen er nå erstattet av en avkrysning. Denne indikerer at filen ikke er blitt endret på siden den ble lagt til.

For å se at filen virkelig er lagt til under kildekontroll kan vi åpne mappen C:\CVSfiler\EtProsjekt\ og se at den er der med en modifisert filendelse.

Gå tilbake til mappen C:\EtProsjekt og åpne tekstfilen. Skriv ”Heisann!”, lagre og lukk filen. Ikonet til filen får nå en over seg en pil som peker til venstre som indikerer at filen er endret siden den ble sjekket inn sist.

Høyreklikk på filen og velg CVS Commit… Skriv ”Jeg la til ordet Heisann i filen.” som kommentar og klikk OK. Merk at ikonet på filen har endret seg til en avkrysning igjen!

Nå eksisterer det to versjoner av denne filen. Høyreklikk filen og velg CVS History... I listen ligger versjon 1.1 og versjon 1.2 av filen. Kommentarene som ble lagt til vises også her når en velger versjon.

Det er selvsagt mye mer å sette seg inn i, men en kan komme i gang med det som er gjennomgått over. Kanskje skriver jeg noe mer i en senere post ;-)

Om bloggen

"Alt om programmering ;-)" er min blogg om alt jeg finner interessant om programmering og ikke noe mer.

Linux har jeg fremdeles til gode å stifte et seriøst bekjentskap med selv om jeg har arbeidet i it-bransjen i mange år. Windows-plattformen og Microsoft-teknologier er (og har vært) mitt område. Webprogrammering med ASP .NET er primært i fokus på jobben, og i dag bruker jeg stort sett Microsoft Visual Web Developer 2005 Express Edition som utviklingsmiljø til dette.

(Reklame: WDE er forøvrig et veldig bra IDE med god debugger og til og med en liten webserver for lokal testing. Fri nedlasting av programmet for alle ut november 2006 fra http://msdn.microsoft.com/vstudio/express/vwd/.)

PS: Dersom du faktisk ønsker å vite ALT om programmering vil jeg anbefale deg å sjekke ut www.google.com ;-)

Oppdatering 5. august 2006
I dag benytter jeg Visual Studio 2005 Professional som gir større fleksibilitet og muligheter enn Express-utgavene. Har jeg skjønt ting riktig, er forøvrig Express-utgavene gratis for nedlasting helt til jorda og resten av solsystemet slukes av et stort, sort hull.

Alt om programmering ;-)