Robots.txt er en lille tekstfil, der kan få stor betydning for, hvordan søgemaskiner og andre bots bevæger sig rundt på et website. Den bruges især til at styre crawling, så Googlebot og andre crawlere bruger tid på de rigtige sider – og ikke spilder ressourcer på irrelevante URL’er som filtrering, interne søgesider eller loginområder. Samtidig er robots.txt et område, hvor mange begår klassiske SEO-fejl, typisk fordi filen bliver forvekslet med “indeksér ikke”.
Filen er enkel, men konsekvenserne af en forkert opsætning er alt andet end små. Blokeres vigtige ressourcer som CSS og JavaScript, kan Google have svært ved at forstå layout og indhold korrekt. Blokeres hele sitet ved en fejl, kan synligheden i søgeresultaterne falde markant over tid. Derfor giver det mening at forstå robots.txt, før der laves ændringer.
Hvad er robots.txt? (definition)
Robots.txt er en tekstfil, der ligger i roden af et domæne, typisk på denne adresse: https://ditdomæne.dk/robots.txt. Filen følger det, der kaldes “Robots Exclusion Protocol”, og den fortæller bots, hvilke dele af sitet de må crawle, og hvilke de bør lade være.
Det centrale punkt er dette: robots.txt styrer crawling – ikke indeksering. En URL kan godt dukke op i Google, selv om den er blokeret i robots.txt, hvis Google finder den via links fra andre sider. I de tilfælde kan resultatet blive vist med begrænset information, fordi Google ikke må hente indholdet.
Robots.txt bruges især af:
- Søgemaskiner (Google, Bing m.fl.)
- SEO-tools og crawlers
- Andre automatiske bots (ikke alle respekterer filen)
Sådan virker robots.txt i praksis
Når en bot besøger et website, tjekker den som regel robots.txt først. Filen består af regler, der er opdelt efter “User-agent” (hvilken bot reglen gælder for). Herefter følger typisk “Disallow” (må ikke crawles) og nogle gange “Allow” (må gerne crawles) for at lave undtagelser.
De vigtigste direktiver i en robots.txt-fil:
- User-agent: Angiver hvilken bot reglen gælder for (fx
Googlebot eller * for alle)
- Disallow: Angiver en sti, som ikke må crawles
- Allow: Angiver en sti, der gerne må crawles, selv om en bredere Disallow ellers blokerer
- Sitemap: Angiver placeringen af et sitemap (hjælper med discovery)
Robots.txt eksempel (typisk og sikker start)
User-agent: *
Disallow:
Sitemap: https://ditdomæne.dk/sitemap.xml
Ovenstående betyder i praksis: “Alle bots må gerne crawle alt”, og samtidig får de en klar henvisning til sitemap.
Eksempel: Blokér login og kurv (ofte relevant for SEO)
User-agent: *
Disallow: /login/
Disallow: /kurv/
Disallow: /checkout/
Sitemap: https://ditdomæne.dk/sitemap.xml
Det kan være fornuftigt, fordi disse sider sjældent har SEO-værdi, og fordi de kan skabe støj i crawl-budgettet på større sites.
Fordele og ulemper ved robots.txt
Robots.txt er populær, fordi den er nem at implementere og gælder på tværs af sitet. Men den kan også give en falsk tryghed, især når den bruges til formål, den ikke er lavet til.
Fordele
- Bedre styring af crawl budget: Bots kan ledes væk fra lavværdi-sider, så vigtigere sider crawles oftere.
- Mindre støj fra tekniske URL’er: Fx parametre, filtre, interne søgninger og testområder.
- Lavere serverbelastning: Særligt på sites med mange URL’er kan det reducere unødvendige hits.
- Enkel central kontrol: Ét sted at administrere regler.
Ulemper (og typiske misforståelser)
- Forhindrer ikke indeksering: En blokeret URL kan stadig blive indekseret, hvis den findes via links.
- Ikke et sikkerhedsværktøj: Filen er offentlig, og “hemmelige” stier bliver faktisk lettere at finde.
- Fejl kan ramme hårdt: En enkelt linje kan blokere store dele af sitet.
- Ikke alle bots følger reglerne: “Pæne” crawlere respekterer dem typisk, men det er ikke garanteret.
Robots.txt og SEO: hvad den bruges til (og hvad den ikke bruges til)
Robots.txt SEO handler primært om at prioritere, hvad søgemaskiner skal bruge tid på at hente. Det er især relevant, hvis sitet har mange URL’er eller genererer mange varianter af samme indhold (filtre, sortering, parametre).
Robots.txt bruges ofte til:
- Intern søgning:
/search eller ?q=
- Filtrering og parametre: fx
?color=, ?sort=, ?price=
- Login-/konto-sider:
/konto/, /login/
- Checkoutflow:
/checkout/, /cart/
Robots.txt bør normalt ikke bruges til:
- At “skjule” fortroligt indhold (brug adgangskontrol/password)
- At sikre, at en side ikke vises i Google (brug
noindex eller fjern siden og lad den crawles)
Vil indhold holdes ude af Google, kræver det en løsning, der faktisk påvirker indeksering – robots.txt løser det ikke alene. En præcis SEO-gennemgang af crawler- og indeksstyring hører typisk hjemme i en samlet SEO-indsats, hvor robots.txt kun er én brik.
Anvendelse i praksis: sådan skriver og placerer man robots.txt
Robots.txt skal placeres i roden af domænet og være tilgængelig i browseren. Det er vigtigt, at der ikke ligger flere versioner på underdomæner uden kontrol – hvert subdomæne har sin egen robots.txt.
Praktiske trin:
- Opret en ren tekstfil med navnet
robots.txt (små bogstaver)
- Upload den til domænets rod (samme niveau som forsiden)
- Tjek at den kan åbnes direkte:
https://ditdomæne.dk/robots.txt
- Tilføj et sitemap-link, hvis der findes et XML-sitemap
- Test reglerne, før de rulles ud (især ved store sites)
Undgå denne klassiske fejl
User-agent: *
Disallow: /
Det betyder: “Blokér hele sitet for alle bots.” Det kan være relevant i udviklingsmiljøer, men på et live site er det en af de mest skadelige fejl, der findes.
Vigtigt: blokér ikke CSS og JavaScript uden grund
Hvis filer i fx /wp-content/ eller /assets/ blokeres ukritisk, kan Google få problemer med at rendere sider korrekt. Det påvirker forståelsen af layout, mobilvenlighed og i værste fald selve indholdet.
FAQ: Ofte stillede spørgsmål om robots.txt
Forhindrer robots.txt indeksering i Google?
Nej. Robots.txt forhindrer crawling, ikke indeksering. Hvis Google opdager en URL via links, kan den stadig ende i indekset – men ofte med begrænsede oplysninger, fordi Google ikke må hente siden.
Hvad sker der, hvis der ikke er en robots.txt fil?
Så vil søgemaskiner typisk antage, at de må crawle alt på sitet. På mange små websites er det helt fint. På større sites kan det dog betyde spildt crawl budget.
Hvor skal robots.txt ligge?
Den skal ligge i roden af domænet, fx:
https://ditdomæne.dk/robots.txt
En robots.txt på en underside (fx /mappe/robots.txt) bliver ikke brugt til domænets regler.
Kan robots.txt bruges til at skjule følsomme sider?
Nej. Filen er offentlig, og stierne kan læses af alle. Følsomt indhold bør beskyttes med login/password, IP-begrænsning eller anden adgangskontrol.
Skal sitemap stå i robots.txt?
Det er ikke et krav, men det er ofte en god idé. Det gør det lettere for crawlere at finde de vigtigste URL’er hurtigt, især på sites med mange sider. En typisk linje ser sådan ud:
Sitemap: https://ditdomæne.dk/sitemap.xml