Hvis du mottok advarselen «Indeksert, men blokkert av robots.txt»-varselet i Google Search Console, bør du fikse det så snart som mulig, siden det kan påvirke sidenes evne til å rangere i det hele tatt i søkemotoren Resultatsider (SERPS).
En robots.txt-fil er en fil som ligger i katalogen til nettstedet ditt, som gir noen instruksjoner for søkemotorsøkeprogrammer, som Googles bot, om hvilke filer de bør og ikke bør se.
“Indeksert, men blokkert av robots.txt” indikerer at Google har funnet siden din, men har også funnet en instruksjon om å ignorere den i robotfilen din (som betyr at den ikke vises i resultatene).
Noen ganger er dette tilsiktet, eller noe det er tilfeldig, av en rekke årsaker som er skissert nedenfor, og kan fikses.
Her er et skjermbilde av varselet:
Identifiser de(n) berørte siden(e) eller nettadresse(r)
Hvis du har mottatt et varsel fra Google Search Console (GSC), må du identifisere de aktuelle sidene eller nettadressene.
Du kan se sider med indeksert, men blokkert av robots.txt-problemer på Google Search Console>>Dekning. Hvis du ikke ser advarselsetiketten, så er du fri og tydelig.
En måte å teste robots.txt på er å bruke vår robots.txt-tester. Du kan finne ut at du har det bra med at det som blir blokkert forblir “blokkert”. Du trenger derfor ikke foreta deg noe.
Du kan også følge denne GSC-kobling. Du må da:
- Åpne listen over de blokkerte ressursene og velg domenet.
- Klikk på hver ressurs. Du bør se denne popupen:
Identifiser årsaken til varselet
Varslingen kan skyldes flere årsaker. Her er de vanlige:
Men for det første er det ikke nødvendigvis et problem hvis det er sider blokkert av robots.txt., Det kan ha blitt utformet på grunn av årsaker, for eksempel at utvikleren ønsker å blokkere unødvendige/kategorisider eller duplikater. Så, hva er avvikene?
Feil URL-format
Noen ganger kan problemet oppstå fra en URL som egentlig ikke er en side. Hvis for eksempel nettadressen https://www.seoptimer.com/?s=digital+marketing, må du vite hvilken side URL-en henvender seg til.
Hvis det er en side som inneholder betydelig innhold som du virkelig trenger at brukerne dine skal se, må du endre URL-en. Dette er mulig på Content Management Systems (CMS) som WordPress hvor du kan redigere en sidens slug.
Hvis siden ikke er viktig, eller med vårt /?s=digital+markedsføringseksempel, det er et søk fra bloggen vår, er det ikke nødvendig å fikse GSC-feilen.
Det spiller ingen rolle om det er indeksert eller ikke, siden det ikke engang er en ekte URL, men et søk. Alternativt kan du slette siden.
Sider som bør indekseres
Det er flere grunner til at sider som bør indekseres ikke blir indeksert. Her er noen:
- Har du sjekket robotdirektivene dine? Du kan ha inkludert direktiver i robots.txt-filen din som ikke tillater indeksering av sider som faktisk skal indekseres, for eksempel koder og kategorier. Tagger og kategorier er faktiske nettadresser på nettstedet ditt.
- Peker du Googlebot til en viderekoblingskjede? Googlebot går gjennom hver lenke de kan komme over og gjør sitt beste for å lese for indeksering. Men hvis du setter opp en multippel, lang, dyp omdirigering, eller hvis siden bare er utilgjengelig, ville Googlebot slutte å lete.
- Implementert den kanoniske lenken riktig? En kanonisk kode brukes i HTML-overskriften for å fortelle Googlebot hvilken som er den foretrukne og kanoniske siden i tilfelle duplisert innhold. Hver side bør ha en kanonisk kode. Du har for eksempel en side som er oversatt til spansk. Du vil selv kanonisk den spanske URL-adressen, og du ønsker å kanonisere siden tilbake til din standard engelske versjon.
Hvordan bekrefter jeg at Robots.txt er riktig på WordPress?
For WordPress, hvis robots.txt-filen din er en del av nettstedsinstallasjonen, bruker du Yoast-pluginen for å redigere den. Hvis robots.txt-filen som forårsaker problemer er på et annet nettsted som ikke er ditt eget, må du kommunisere med nettstedseierne og be dem om å redigere robots.txt-filen.
Sider som ikke skal indekseres
Det er flere grunner til at sider som ikke bør indekseres, blir indeksert. Her er noen:
Robots.txt-direktiver som “sier” at en side ikke skal indekseres. Merk at du må tillate at siden med et ‘noindex’-direktiv gjennomsøkes slik at søkemotorrobotene ‘vet’ at den ikke skal indekseres.
I robots.txt-filen må du sørge for at:
- ‘Ikke tillat’-linjen følger ikke umiddelbart etter ‘brukeragent’-linjen.
- Det er ikke mer enn én ‘user-agent’-blokk.
- Usynlige Unicode-tegn – du må kjøre robots.txt-filen din gjennom et tekstredigeringsprogram som konverterer kodinger. Dette vil fjerne eventuelle spesialtegn.
Det lenkes til sider fra andre nettsteder. Sider kan bli indeksert hvis de er koblet til fra andre nettsteder, selv om de ikke er tillatt i robots.txt. I dette tilfellet vises imidlertid bare URL-en og ankerteksten i søkemotorresultatene. Dette er hvordan disse nettadressene vises på søkemotorresultatsiden (SERP):
En måte å løse problemet med robots.txt-blokkering er ved å passordbeskytte filen(e) på serveren din.
Alternativt kan du slette sidene fra robots.txt eller bruke følgende metatag for å blokkere
dem:
Gamle nettadresser
Hvis du har opprettet nytt innhold eller et nytt nettsted og brukt et “noindex”-direktiv i robots.txt for å sikre at det ikke blir indeksert, eller nylig registrert deg for GSC, er det to alternativer for å fikse blokkeringen av robots.txt utgave:
- Gi Google tid til å fjerne de gamle nettadressene fra indeksen
- 301 omdirigerer de gamle URL-ene til de nåværende
I det første tilfellet dropper Google til slutt nettadresser fra indeksen hvis alt de gjør er å returnere 404-er (som betyr at sidene ikke eksisterer). Det er ikke tilrådelig å bruke plugins for å omdirigere 404-ene. Programtilleggene kan forårsake problemer som kan føre til at GSC sender deg advarselen “blokkert av robots.txt”.
Virtuelle robots.txt-filer
Det er en mulighet for å få varsling selv om du ikke har en robots.txt-fil. Dette er fordi CMS (Customer Management Systems)-baserte nettsteder, for eksempel WordPress, har virtuelle robots.txt-filer. Plugin-moduler kan også inneholde robots.txt-filer. Dette kan være de som forårsaker problemer på nettstedet ditt.
Disse virtuelle robots.txt-filene må overskrives av din egen robots.txt-fil. Sørg for at robots.txt inneholder et direktiv som lar alle søkemotorroboter gjennomsøke nettstedet ditt. Dette er den eneste måten de kan fortelle nettadressene å indeksere eller ikke.
Her er direktivet som lar alle roboter gjennomsøke nettstedet ditt:
Bruker agent: *
Ikke tillat: /
Det betyr “ikke tillat ingenting”.
For å konkludere
Vi har sett på “Indeksert, men blokkert av robots.txt-advarselen”, hva det betyr, hvordan man identifiserer de berørte sidene eller nettadressene, samt årsaken bak advarselen. Vi har også sett på hvordan vi fikser det. Merk at advarselen ikke tilsvarer en feil på nettstedet ditt. Hvis du imidlertid ikke fikser det, kan det føre til at de viktigste sidene dine ikke blir indeksert, noe som ikke er bra for brukeropplevelsen.