/ 25.04.2017

Google Crawl Budget – Ultimative Guide Til Prioriteret Indeksering

Af Sasa Kovacevic Kategori: SEO

I gamle dage slog Google søgemaskinen Altavista fordi, Google blev bedre til at vise mere relevante søgeresultater og crawle internettet hurtigere. Selv om det har været almindelig kendt siden 2009, at Google kun indekserer en vis del af internettet, er det først i en blogpost af Garry Illes på Webmaster Central Blog fra januar 2017, at de rent faktisk kommer med en officiel udmelding om, at de arbejder med et crawl budget for deres Googlebot.

Hvad er et crawl budget?

Googles crawl budget angiver, hvor meget tid og hvordan Googlebot crawler din hjemmeside ved hvert besøg. Hvis ikke du hjælper Google med at prioritere dine vigtigste URL’er (core business), vil du med stor sandsynlighed opleve at:

Google ikke nødvendigvis crawler alle dine URL’er
Google ikke nødvendigvis besøger dine vigtigste URL’er først
Google ikke nødvendigvis besøger dine vigtigste URL’er hyppigst

SEO optimering er blevet holistisk. Men det giver absolut ingen mening at bruge lige meget tid på alle URL’er, da deres værdi er forskellig. Core-business URL’er (de URL’er du tjener penge på) er vigtigere end 404-URL’er, 302-URL’er, 500-URL’er osv.

Det ved Googlebot ikke med mindre du hjælper Googlebot med at forstå, hvad der er core-business for din forretning!

Google bruger ikke ”crawl budget” som en egentlig term internt. Men den måde Google prioriterer, hvilke sider Googlebot skal koncentrere sig om at crawle ved hvert besøg, kan godt betegnes som en form for crawl budget for det enkelte website. For i dag er internettet så stort, at Google ikke har kapacitet til at crawle alle sites helt i bund ved hvert besøg.

Er sitet meget stort, er det først og fremmest websitets mest populære sider og de sider som disse linker til, samt områder som blogsektionen, webshoppen eller andre nemt identificerbare sektioner, der bliver opprioriteret at få crawlet. Derved sikrer Google, at Googlebot får crawlet det vigtigste indhold ved hvert besøg.

Hvorfor skal du bekymre dig om crawl budget?

Så har du en meget stor webshop eller en meget stor hjemmeside, foretager Google en prioritering af, hvilke områder af websitet som skal crawles. Det betyder i praksis, at du kan risikere, at der er sider på websitet, som aldrig bruger indekseret af Google og derfor ikke kan findes ved en søgning – uanset hvor godt et SEO-arbejde, I har udført!

Derfor er det en god ide at optimere jeres webshop eller hjemmeside, så I er sikre på, at I får crawlet de sider på sitet, der er vigtigst for jeres forretning ved hvert besøg af Googlebot.

Små hjemmesider har ikke noget at frygte

Som sådan er crawl budgettet ikke noget, du skal bekymre dig om, før din hjemmeside er vokset til en vis størrelse. Så almindelige webshops, firma- og andre hjemmesider med kun nogle få hundrede sider har altså intet at frygte. Her bliver samtlige sider crawlet ved hvert besøg.

Men du skal være opmærksom på, at det er det samlede antal elementer, Googlebot kan crawle på dit website, som definerer størrelsen af dit site. Det vil sige at crawl-budgettet bliver beregnet på baggrund af alle crawl-bare filer på jeres webserver – ikke bare de html-sider, der udgør jeres indhold. Således tæller billede-, PDF-, CSS- og andre filtyper også med.

Så har du mange forskellige filer liggende i de crawl-bare mapper på hjemmesidens webserver, ryger du hurtigt op på en websitestørrelse, der bliver tildelt et crawl budget – og er din webserver meget sløv, kan du derfor nemt risikere, at Google vælger at give sitet et strammere crawl budget, der ikke er stort nok til, at de kan nå at indeksere alle siderne på sitet.

Dit sites crawl budget er ikke en indekseringsparameter

Google medtager ikke størrelsen af jeres websites crawl budget, når de enkelte siders placeringer i søgeresultaterne skal beregnes – eller forholder sig til det på anden måde i den forbindelse.

Så selv om Google godt kunne vælge at tage et højt crawl budget som en indikation for, at jeres website har indhold af høj kvalitet og er i teknisk god stand, indgår crawlbudgettet ikke i nogle af deres algoritmer – endnu i hvert fald.

Hvordan bestemmer Google dit crawl budget?

Crawl budgettet defineres individuelt for hver enkelt website på nettet, som Googlebot besøger. Det som bestemmer størrelsen på crawlbudgettet er enten

Svartiden på webserveren
Den gennemgangshastighed I har sat i Google Search Console

Svartiden på webserveren

Når Googlebot ankommer til jeres website, er det især svartiden på de første sider, Googlebot besøger, som definerer crawl budgettets størrelse ved det pågældende besøg. Rammer Googlebot jeres site på et tidspunkt, hvor der ikke er så mange andre besøgende, er webserveren ikke så belastet. I sådanne tilfælde crawler Googlebot flere sider ved dette besøg. Rammer Googlebot omvendt sitet på et travlt tidspunkt, nedsættes antallet af sider i crawl budgettet for det pågældende besøg.

: Brug Pingdom Tools til at finde request tiden for din server.

Google har nemlig opdraget Googlebot til at forstyrre andre brugere så lidt som muligt. Så vurderer Googlebot, at deres besøg får indflydelse på andre brugeres oplevelse af hjemmesiden, skærer den ned på det antal sider, den gennemgår ved det pågældende besøg. Så har I en langsom webserver, risikerer I nemmere, at Google ikke får crawlet alle siderne.

Gennemgangshastigheden i Google Search Console

En anden faktor som er med til at begrænse crawl budgettet, er størrelsen på den gennemgangshastighed, I har defineret i sitets Google Search Console. Den bestemmer, hvor mange anmodninger Googlebot må sende i sekundet til din webserver, når den crawler jeres website.

: Hvis du logger ind i Search Console, vil du kunne under indstillinger finde Crawlhastigheden

Her er standardindstillingen sat sådan, at Google selv bestemmer gennemgangshastigheden baseret på webserverens øjeblikkelige performance. Kun hvis det giver problemer for jeres webserver, bør du skrue ned for gennemgangshastigheden – og er det nødvendigt, bør du se det som en midlertidig foranstaltning, til I har fået mere kraft på webserveren. For ellers risikerer I som allerede nævnt, at måske endog store dele af jeres hjemmeside ikke bliver crawlet.

Så hvis det er nødvendigt at ændre gennemgangshastigheden fra standardindstillingerne, skal I have gjort noget ved jeres webserver – NU!

Hvilke parametre har en negativ effekt på crawl budgettet?

Men udover serverhastighed og sitets omfang, bruger Google også en lang række andre parametre til at bestemme crawl budgettet med. Hver enkelt parameter kan have forskellig indflydelse på, hvor meget crawl budget Google tillægger dit site.

F.eks. nævner Google selv, at disse parametre kan have negativ indflydelse på dit websites crawlbudget:

Store og meget komplekse menu- og navigationsstrukturer
Sitemaps med et stort antal undersider i hver gren
Brug af sessionsidentifikatorer i URL’en
Mange sider med duplicate indhold eller indhold af dårlig kvalitet
Sider som linker til sider med tyndt eller intet indhold at indeksere
Sider med soft errors
Hackede sider eller sider som redirect’er til sider med dubiøst indhold

Hvordan udvælger Google, hvad der skal medtages i crawl budgettet

Baseret på de ovenstående parametre, beslutter Google sig for, hvor mange sider der er tid til at crawle ved hvert besøg på jeres hjemmeside.

Hvilke sider der bliver crawlet ved hvert besøg, bestemmer Google ud fra disse parametre:

Hvilke sider eller områder på sitet, som er mest populære
Hvilke indekserede sider det er længe siden, Google har besøgt sidst
Hvor meget der er flyttet rundt på indholdet på sitet, siden sidste besøg

Det vil altså sige, at det eneste der kan få Google til at indeksere andet end de mest populære sider og de sider, de linker til, er, hvis der er nogle allerede kendte sider, som ikke er blevet besøgt længe eller I har omorganiseret sitet så meget, at det er nødvendigt at crawle det på ny. I sidstnævnte tilfælde kan det ligefrem udløse ekstra crawl budget, så sitet kan blev indekseret ordentligt.

Sådan finder du ud af, hvilke sider Google crawler på jeres website

Vil du have et overblik over, hvilke sider Google crawler ved hvert besøg, skal du have fat i logfilerne fra webserveren. De kan oftest hentes via det administrative brugerinterface på webserveren eller direkte for en bestemt mappe blandt serverens systemfiler. Hvor du finder logfilerne, afhænger helt af, hvilken webserver du anvender.

Er du ikke en haj til at hive logfiler ud af webserveren og bruger du WordPress, kan du også bruge f.eks. pluginet WordFence til at få overblik over, hvilke sider på jeres website, der bliver besøgt af Googlebot. Det gør du ved at gå ind på Live Traffic og så filtrere visningen, så den kun viser Google Crawlers.

: Begrænser du visningen af Live Traffic i WordPress-pluginet WordFence, er det nemt at se, hvordan Googlebot bruger crawl budgettet på jeres hjemmeside.

Hvor meget spild er der i jeres crawl budget?

Via logfilerne får du et godt overblik over, hvilke sider Googlebot rent faktisk besøger. Nærstuderer du de enkelte URL’er i listen, opdager du hurtigt, at Googlebot besøger meget andet end websiderne på serveren.

Således vil du typisk opdage, at Googlebot udover siderne i jeres sitemap, også indekserer:

Gamle billeder og andre elementer, der ikke anvendes på nogle af siderne længere, men ikke er slettet
Gamle URL-adresser, der ikke eksisterer længere på siden og som ikke er blevet redirectet
Alternative udgaver af de enkelte websider, f.eks. AMP- og andre mobilversioner
Statiske ressourcer som billedfiler, .pdf-filer, read-me tekstfiler og andre elementer, der ligger i de crawlbare mapper på webserveren
Tags-, kategorisider og andre sider oprettet af jeres CMS-system

Der er med andre ord masser af crawlbudget, der går til spilde på at indeksere sider, filer og andre elementer, som ikke giver jer nogen reel værdi i søgeresultaterne.

Udregn jeres websites crawl ratio

Vil du have et indtryk af, hvor stor en procentdel af jeres hjemmeside, som Google crawler ved hvert besøg – kaldet sitets crawl ratio – kan du enten forsøge at beregne det ved hjælp af logfilerne eller bruge Crawlstatistikken på hjemmesidens Google Search Console konto. Du finder statistikken under Crawl – Crawlstatistik.

Her finder du oplysninger om, hvor mange webadresser, Googlebot crawler pr. besøg, hvor mange kilobyte data de downloader og hvor meget tid, der anvendes på hver webadresse.

I statistikken omtales den enkelte webadresse som en side. Men det kan lige så godt være et billede, en tekstfil eller noget andet, der ligger i de crawl-bare mapper på jeres webserver, som Googlebot har brugt tid på at indeksere. For alt hvad der har kan tilgås med en tilgængelig webadresse, bliver indekseret.

Så når du skal vurdere hvor stort crawl ratio jeres website har, skal du altså dividerer de angivne værdier for antal crawlede webadresser med det samlede antal filer i de mapper, som I har givet Google adgang til at indeksere på serveren. Den ratio skal helst være så høj som mulig.

For hver enkelt parameter i Crawlstatistikken angiver Google samtidig tre værdier: Den højeste, gennemsnits- og den laveste værdi. Forskellen på de tre fortæller dig noget om, hvor stor forskel Google oplever på jeres webservers performance, når de besøger hjemmesiden.

Samtidig fortæller afstanden mellem de tre værdier noget om webserverens generelle performanceniveau. Ligger gennemsnittet tættest på den laveste værdi, er serveren generelt ikke så hurtig. Men ligger gennemsnittet tættest på den højeste værdi, har den en god performance.

Crawl ratio varierer efter hvilken type website I har

For at sikre at Google får anvendt sit crawl budget mest optimalt på jeres website, har de prioriteret, hvilket indhold der tildeles mest crawl ratio. Samtidig er der også forskel på prioriteringen af jeres crawl ratio, alt efter hvilken type website I har.

Hvordan denne prioritering er opstillet, holder Google for sig selv. Men baseret på den statistik, vi har indsamlet her hos Obsidian Digital, har vi et godt bud.

Indholdsbaserede sites

På et indholdsbaseret website ser crawlingen oftes sådan her ud:

Artikler og andet indhold af enten aktuel eller blivende værdi – f.eks. udgivet på sitets blog
Faste udgivelser som f.eks. podcasts, videoer m.v.
Oftest besøgte statiske sider på hjemmesiden
Andet indhold der ikke opdateres jævnligt

Webshops

På en webshop er prioriteringen naturligvis noget anderledes. Den ser oftest sådan her ud:

Produkter på webshoppen
Kategorisider på webshoppen
Artikler og andet indhold udgivet på sitets blog eller lignende
Faste udgivelser som f.eks. podcasts, videoer m.v.
Oftest besøgte statiske sider på webshoppen
Andet indhold der ikke opdateres jævnligt

Husk på, at udover de faktiske sider med den pågældende type indhold, indekseres også alle elementer og sider, som hver enkelt side i kategorien indeholder. Så crawl budgettet kan hurtigt få ben at gå på.

Sådan forbedrer udbyttet af dit websites crawlbudget

Som sådan kan du ikke ændre på dit websites crawl-budget selv. Men du kan gøre en masse for at forbedre størrelsen af det og forøge chancerne for, at Googlebot får indekseret de sider, som giver jer brugbar trafik.

Det gør du ved at foretage en række optimeringer på hjemmesiden og specielt på den måde indholdet er organiseret på webserveren. Nogle af tingene har du måske allerede optimeret i forbindelse med dit almindelige tekniske SEO-arbejde. Men når du skal optimere udbyttet af crawl budgettet på dit website og dermed forbedre sitets crawl ratio, skal du oftest skrue endnu mere på de tekniske detaljer på webserveren.

Generelt kan du optimere brugen af dit websites crawl-budget ved at:

Optimere svartiderne på webserveren
Optimere svaretiderne på hver enkelt webside
Minimere Googlebots adgang til mapperne på webserveren
Fjerne unødvendige og ikke længere anvendte elementer fra de mapper, Googlebot har adgang til
Opbygge en mere flad struktur på websitet
Bruge intern linkbuilding til at forøge sandsynligheden for, at Google crawler jeres vigtigste sider

Lad os se nærmere på de forskellige optimeringsmuligheder.

Optimér svartiderne på webserveren

Skal du forbedre størrelsen på crawl-budgettet, handler det i første omgang om, at optimere svartiderne på jeres webserver. Det sker primært ved at øge processorkraften, hastighed og mængden af hukommelse på webserveren. Jo kraftigere webserveren er, jo mindre er risikoen for, at du får langsommere svartider.

Optimér svartiderne på hver enkelt webside

Et andet vigtigt sted du kan optimere på, for at øge størrelsen på jeres websites crawlbudget, er ved at optimere den kode der anvendes på siderne. Det gælder både kvaliteten af koden og den måde den er organiseret på. Jo mere du kan samle koden til de enkelte sider og jo færre filer, der skal bruges, jo færre elementer har Google at crawle.

Så i stedet for f.eks. at have CSS eller Javascripts liggende i mange små filer, bør I får programmørerne til at samle dem i større filer. Af samme grund kan det også være en fordel at bruge et caching-plugin, der genererer færdig HTML-sider af alle siderne på websitet.

Samtidig skal I huske at få weboptimeret billeder og andre elementer, der indgår på de enkelte websider på hjemmesiden. Derved kan alle sidens komponenter hurtigere indlæses og det tager kortere tid at indeksere hver enkelt af elementerne.

Minimér adgangen til de mest relevante mapper

Det er også en god ide at se på, hvilke mapper på webserveren, som I giver Googlebot adgang til at indeksere. Er der nogle af de mapper, Googlebot har adgang til i dag, som det kan være ligegyldigt at få indekseret?

Så få tilpasset sidens robots.txt, så du sikrer dig, at Google kun anvender crawl budget på de mapper, der bidrager til jeres websites placeringer i søgemaskinerne. Det vil som oftest være rodmappen og mappen med billeder og andre grafiske elementer.

Få fjernet unødvendige elementer fra de mapper, som bliver crawlet

Tilsvarende bør I gennemgå de mapper, der bliver crawlet af Googlebot og vurdere, hvilke filer det rent faktisk er hensigtsmæssigt, at Google bruger tid på at indeksere.

Som vi allerede har været inde på, kan du få meget god viden ud af de logfiler, du kan finde på webserveren til dette arbejde. De giver dig et indtryk af, hvor stor en del af jeres website, der bliver crawlet og hvor stor en del af jeres crawlbudget, der bliver spildt på at indeksere ligegyldige elementer.

Denne viden kan I bruge til at flytte ligegyldige filer væk fra de mapper som Googlebot crawler på jeres webserver. Kan statiske elementer som PDF-filer, der ligger til download eller filer med forskellige kodeelementer flyttes til mapper, der ikke bliver indekseret, sparer det på jeres websites crawlbudget.

Samtidig bør du få slettet alle de filer, som indeholder elementer, der ikke anvendes længere på nogle af siderne. På samme måde bør du også trimme mængden af standardformater, som nye billeder bliver oprettet i af jeres CMS-system. Mange af dem bruges nemlig aldrig, men hvert eneste billede bliver indekseret af Google.

Derved sørger du for, at Google kan crawle flere relevante elementer på hjemmesiden ved hvert besøg. Så på den måde får du udvidet jeres crawl ratio og dermed udnyttet crawlbudgettet bedre.

Opbyg en mere flad struktur på sitet

Når Google anvender sit crawl budget på jeres website, bruger de sitemappet til at prioritere crawlet med. Det vil sige, at Googlebot starter fra startsiden og besøger de enkelte undersider og de sider de linker til efter tur. Men for at spare tid og udnytte crawl ratio bedst muligt, skæres de dybest liggende sider oftest fra. Det gør de, fordi Google som udgangspunkt går ud fra, at de sider der ligger i bunden af sitemappet er mindst vigtige.

Så er jeres hjemmeside opdelt i få og meget store og komplekse sektioner, øger I risikoen for, at en stor del af sitemappet aldrig bliver indekseret – og derfor ikke trækker trafik til jeres hjemmeside.

Derfor er det en god ide at bygge en mere flad struktur på hjemmesiden, som indeholder væsentlig færre undersider og har en meget fladere struktur. Derved ændrer I prioriteringen af indholdet set med Googles øjne og begrænser samtidig antallet af sider, som ligger i risikozonen for aldrig at blive indekseret.

Forøg sandsynligheden for at de vigtige sider bliver crawlet med intern linkbuilding

Vil du forsøge sandsynligheden for, at jeres vigtigste sider eller de dybestliggende sider i sitemappet bliver crawlet, kan I øge den interne linkbuilding til dem. Derved øger I chancerne for, at Googlebot møder dem i gennemgangen af websitet.

Så ved f.eks. målrettet at linke fra højt- til lavtplacerede sider i sitemappet, øger I chancerne for også at få indekseret de sider, der ligger nederst i sitemappet. På samme måde kan I bruge den interne linkbuilding til at øge vigtigheden af at få en bestemt side indekseret, ved at linke til den fra indholdet på de øvrige sider – ganske som du normalt ville gøre i forbindelse med det almindelige on-page SEO-arbejde.

Her kan det også være en god ide at øge den interne linkbuilding fra de mest populære sider på jeres hjemmeside. De bliver nemlig med garanti indekseret ved hvert besøg af Googlebot eller som minimum med regelmæssige mellemrum, for at sikre, at Google altid har opdaterede informationer om dem.

Så kan du se ud fra logfilerne, at der er bestemte sider, som aldrig er blevet indekseret, kan et internt link til dem fra de mest populære sider sørge for, at også de uindekserede sider kommer med i søgeresultaterne.

Derfor kan det betale sig at optimere jeres crawlbudget

Nu har du forhåbentlig fået en bedre forståelse for, hvad Googles crawl budget indebærer for jeres hjemmeside, samt nogle værktøjer til, hvordan du sikrer, at du får mest muligt af jeres hjemmeside indekseret af Google.

Som sagt skal jeres hjemmeside eller webshop have en vis størrelse, før crawl budgettet begynder at have betydning. Men netop fordi det er antallet af elementer i de crawl-bare mapper på webserveren – altså alle elementer med en webadresse – der afgør, hvornår Google opretter et crawlbudget for jeres website, kan det få betydning for jeres website meget før, end I regner med.

Hos Obsidian Digital har vi arbejdet målrettet med at optimere crawl budgettet for nogle af Danmarks største hjemmesider. Det er stadig meget work in progress, men vores første erfaringer mere end understreger, at det er en faktor, det kan betale sig at optimere for.

For de enkelte websites crawl ratio optimeres betydeligt ved at bruge de teknikker, vi har omtalt i denne artikel. Det giver flere indgange til sitet i søgeresultaterne, hvilket igen genererer mere trafik og større chancer for at sælge noget. Samtidig synes det også at have en positiv virkning på hjemmesidens crawl frequence – altså hvor tit Google crawler websitet og hvor stort et crawl budget sitet tildeles ved hvert besøg af Googlebot.

Så vil du toptune din investering i jeres hjemmeside eller have mere omsætning ud af jeres webshop, er det crawlbudgettet du skal til at arbejde med – hvis altså du allerede har fået optimeret alle sitets andre SEO-faktorer.

Sasa Kovacevic er co-founder og partner hos Obsidian Digital. Min tilgang til forretning er pragmatisk, og der er altid fokus på områder, som giver mest bang-for-the-buck.

Sasa Kovacevic

Partner

+45 60 15 71 21sak@obsidian.dk

Du er altid velkommen til at skrive eller ringe for en uforpligtende snak:

Kontakt os Ring på 60 73 60 60, skriv på obsidian@obsidian.dk eller udfyld formularen forneden