Deze week is er een intern document bij Google gelekt dat eindelijk inzicht geeft in het algoritme van Google. Het belangrijkste is dat we on track zijn met wat je leert in mijn SEO-cursus: SEO als een Pro.
Het gelekte document is gekopieerd, hier online gezet en gebruikt als bron voor de content op deze pagina: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html
Website structuur is het belangrijkste
De term hiervoor is topical authority met pillar en clusterpagina’s. Deze linken intern met een zo gevarieerd mogelijk aantal ankerteksten die relevant zijn aan de pagina waar je naartoe linkt (dus niet enkel dezelfde woorden linken, maar gebruik meerdere woorden en/of zinnen die beschrijvend zijn voor de doelpagina).
Wat Google gezegd heeft, is niet altijd waar geweest
Door je te vertellen wat ik heb gelezen, zul je tot de conclusie komen dat de woordvoerders van Google, zo noem ik ze maar even, niet altijd even eerlijk zijn geweest. Er is o.a. door Gary en John vaak genoeg gezegd dat backlinks geen rankingfactor zijn. De gelekte informatie toont echter dat backlinks wel degelijk een rankingfactor zijn. Niet alleen externe links, maar ook interne links. Zo zou er ook niets bestaan als een Domein Autoriteit of kliks naar een URL. Uhuh! Hier ga je straks anders over denken.
Natuurlijk zullen er een hoop mensen zeggen ‘dit wisten we toch al?’. Ja, maar een bevestiging is altijd leuk toch? Wat opvalt, is dat er wel gesproken wordt over wat wel werkt in je ranking en wat niet, maar dat we helaas geen concrete formules hebben o.i.d. We weten dus waar we op moeten letten, maar niet hoeveel procent iets precies meeweegt of hoe het algoritme rekent.
Ik wil je wel meegeven dat ik wat sceptisch ben over de gelekte informatie. Veel klinkt logisch, Google heeft op dit moment (29 mei 2024) nog niets bevestigd of ontkend en je kunt jezelf altijd afvragen of dit expres is vrijgegeven met een bepaalde intentie of dat het echt per ongeluk op straat is gekomen. Niets wat er is vrijgegeven, is namelijk schadelijk voor Google en heeft een overlap met de SEO-richtlijnen die je openbaar bij Google kunt vinden.
De belangrijkste SEO-factoren uit de gelekte Google algoritme ‘document’
Nu ga ik je niet vervelen met alle 14.000 rankingsfactoren, want deze kun je hier vinden, maar ik zal de belangrijkste items voor je opsommen:
Google heeft aangegeven dat ze websites in de volgende categorieën segmenteren:
- Nieuwe website
- Persoonlijke/Kleine blog
- Webshops
- Video websites
- YMYL (Your Money Your Life)
Domein en Website Autoriteit
Nu weten we het zeker. Google heeft een autoriteitssysteem om te bepalen of een website belangrijk genoeg is. Wat we nu ook weten, is dat Google hier de Chrome-browser in betrekt om je website te bekijken en te meten. Zo kijken ze wie waarop klikt en hoe er over je website wordt genavigeerd. Deze data wordt meegenomen in je website autoriteit. Blijf dus kwalitatieve backlinks verzamelen naar je domeinnaam en relevante pagina’s op je website.
Voor wie het leuk vindt, dit is de link naar de video waar John M. dit tegenspreekt >>
Pagina kwaliteit
Om de kwaliteit van je pagina te bepalen, gebruikt Google een LLM (Large Language Model), oftewel AI. Je website wordt in stukjes gebroken, zodat het stukje bij beetje geanalyseerd en geclassificeerd kan worden. Deze kwaliteitsscore noemt Google: pageQuality (PQ).
Maakt je pagina gebruik van formulieren, afbeeldingen, video’s, unieke informatie en ga je diep in op de informatie die je geeft, inclusief eventuele bronnen om te ondersteunen, dan krijgt je pagina een hogere score.
NavBoost
Wat het meeste opvalt in de documenten is NavBoost. Daarbij wordt gekeken hoeveel inkomende links en uitgaande links een pagina heeft, welke ankerteksten hier gebruikt worden (zijn ze divers en relevant) en wordt er op geklikt? Deze kliksignalen geven aan dat de kliks op links naar een pagina op je website wel degelijk van invloed zijn op je rankings.
Ze gaan er zelfs tot in de details op in door onderscheid te maken in het type klik. Van goede kliks naar slechte kliks, eerste kliks, laatste kliks en segmenteert deze weer op basis van land en apparaattype.
Chrome data wordt gebruikt voor je rankings
We hadden het kunnen weten. Chrome, de gratis browser van Google, gebruikt zijn data om de websites die worden bezocht te evalueren. Naast dat Google Analytics hier ook voor gebruikt wordt, maken ze gebruik van Chrome. Handig voor als een website geen Google Analytics gebruikt natuurlijk! Zo houdt Chrome o.a. bij wat je doet op een pagina. Welke pagina je bezoekt en waar je op klikt.
Update je content
We wisten het al. Update je content zo vaak als nodig is om relevant te blijven. Bijgewerkte content scoort hoger, want een nieuwe datum moet betekenen dat het relevanter is. Als je zelf een artikel online leest, dan heb je ook liever dat het recent is i.p.v. 2 jaar geleden.
Rankings worden opnieuw beoordeeld met het Twiddlersysteem
Twiddlers zijn functies die de zoekposities aanpassen na het hoofdzoekalgoritme van Google. Ze werken zoals filters in WordPress en kunnen de score en zoekposities van pagina’s veranderen. Ze zorgen ervoor dat de zoekresultaten meer divers zijn door bepaalde soorten resultaten te beperken, zoals maximaal drie kookrecepten per zoekresultatenpagina van Google.
Functies met “Boost” in hun naam, zoals NavBoost en QualityBoost, gebruiken waarschijnlijk het Twiddler-systeem.
Google segmenteert oude en nieuwe content op 3 verschillende opslag types in zijn index:
- Flash Schijven: Deze opslag is het snelste. Hier wordt de meest up-to-date content in opgeslagen.
- SSD Schijven: Hier komt content op te staan die een tijd terug is bijgewerkt.
- HDD Schijven: Hier komt content op dat nooit wordt bijgewerkt.
Google heeft niet per se een tijd genoemd om te bepalen wat oud en nieuw is, maar wel dat ze maximaal 20 versies van je pagina bewaren. Iedere crawl zou één versie moeten zijn. Je zou dus kunnen zeggen dat als je de content van je pagina bijwerkt, wacht op een crawl (dit zie je in Google Search Console), weer bijwerkt, wacht op een crawl en dat 20 keer doet, je content altijd up-to-date is volgens Google en daardoor de kans groter is dat je goed rankt (als je content goed is).
Leuk weetje: De naam van deze index heet intern “Alexandria”. Daarnaast hebben ze ook nog SegIndexer die documenten opslaat in verschillende niveaus en TeraGoogle voor de langetermijnopslag. Het kan zijn dat dit weer verwijst naar de opslagmethodes.
Vertrouwen en zelfverzekerde content
Google toont het liefst alleen content waarvan het de echtheid vertrouwt. Anders zou niemand de zoekmachine nog willen gebruiken als de antwoorden niet kloppen. Ze zitten er met AI de laatste tijd nog wel eens naast, maar de intentie is goed.
Hoe weet Google dan of je te vertrouwen bent? Door bij alle content die je plaatst de auteur te vermelden. Alle pagina’s op je website worden namelijk gescand en er wordt bijgehouden wie de auteur is. Al deze content bij elkaar wordt bekeken om te bepalen waar jij verstand van hebt. Door op je auteurspagina zelf (waar je op uitkomt als je op de naam van de auteur klikt) kun je je socialmedia-kanalen vermelden. Als linkjes en in je SEO-schema (hierover straks meer). Zo kan Google ook daar weer kijken en je autoriteit bepalen. Gastblogs van gerenommeerde auteurs zijn dus een fantastisch idee, als je het auteursprofiel maar niet vergeet!
Entiteiten
Ook hier was al het een en ander over bekend. We hebben het vaak over relevantie als het gaat om zoekwoorden gebruik. Wat we vaak doen, is zoekwoorden groeperen als schoenen, hardloopschoenen, herenschoenen, damesschoenen, etc. We zijn geneigd om alle woorden met het woord schoenen te kiezen voor onze content. Op zich is dat goed, vooral blijven doen, maar door gebruik te maken van entiteiten die horen bij een schoen kun je veel dieper gaan met je content en de juiste connecties maken tussen de woorden. Voorbeeld entiteiten van een schoen zijn bijvoorbeeld het materiaal, zoals leer, textiel, rubber, suède. Of onderdelen van een schoen zoals de zool, veters of een hak. Je kunt er nog dieper in gaan door het te hebben over de productie, wie de schoenen gebruiken, kleur, functie, onderhoud (waterdichtspray), etc.
Domeinnaam
Google kijkt naar de registratiedatum van je domeinnaam. Hoe nieuwer je domeinnaam is, hoe langer het duurt voordat deze rankt. Het lijkt ook te kijken naar de laatst gewijzigde datum. Wijzigt de domeinnaam van eigenaar en daarmee de content, dan lijk je opnieuw te starten met je autoriteit. Dit verklaart waarom de eerste 4 maanden vaak wat lastig zijn om te groeien.
Tip: Ga je over van een oude domeinnaam, dan loont het om deze met een 301 redirect door te sturen. Daarnaast zul je beide domeinnamen als property moeten toevoegen aan je Google Search Console. Hiermee laat je zien dat jij de eigenaar bent van de websites en kun je een interne verhuizing van de domeinnaam in gang zetten binnen Google Search Console. Dit versnelt je rankings.
Zoekwoord gebruiken in je domeinnaam
Maak je gebruik van een EMD (Exact Match Domain) waar je direct je zoekwoord in verwerkt, dan moet je er echt voor zorgen dat je je content ook 100% niched op dat zoekwoord. Zodra je hierbuiten gaat, rank je slechter. Heb je een domeinnaam met de naam ‘beste laptops’, dan moet je hier geen software op verkopen, want dat is geen laptop, ook al lijkt het relevant.
Een mooi voorbeeld van hoe het wel moet, is urencalculator.nl. Een simpele pagina met 1 doel: uren calculeren. Niets meer, niets minder.
Sandbox is geen mythe meer
Hoe vaak hebben we het niet gehoord ‘er is geen sandbox’. Een sandbox is een apart stukje op de servers van Google waar je ingezet wordt als Google je website nog te jong vindt voor de grote wereld. Het wil dat je eerst opgroeit in de zandbak, voordat je mag volgroeien en zeggenschap krijgt. Google zegt zelf geen sandbox te hebben. Misschien is het waar, want ze noemen het volgens de documenten ‘hostAge‘. Is je domeinnaam jong, dan ga je waarschijnlijk eerst naar kindercrèche om te spelen in de zandbak.
Wat zorgt er nu voor dat je gaat ranken?
Deze informatie is echt goud waard. Ik som de rankingsfactoren voor je op:
- Artikel bijwerken triggert de re-ranking procedure.
- Link kliks triggeren de re-ranking procedure. Meer kliks zorgen ervoor dat de doelpagina opnieuw wordt beoordeeld, want wat is er ineens zo interessant?
- (Interne)links van nieuwere pagina’s werken beter.
- De kracht van een backlink wordt (mede) bepaald door de autoriteit die Google geeft aan de root URL van de backlink.
- Contentlengte kent een limiet in de ogen van Google wat betreft het aantal woorden dat het ‘leest’ op een pagina. Zet daarom je belangrijkste zoekwoorden zo hoog mogelijk op de pagina.
- Dikgedrukte teksten zijn belangrijk. Dus je zoekwoorden af en toe dikgedrukt maken werkt (net als een koptekst).
- Weinig content kan nog steeds ranken, mits deze uniek en relevant is.
- Metatitel en H1-titel. Verwerk je primaire zoekwoord in je metatitel en je H1-koptekst. Dit is nu officieus bevestigd.
Wat zorgt ervoor dat je minder goed gaat ranken?
Ook niet geheel onbelangrijk en daarom som ik ze voor je op:
- Slechte navigatie: Zorg dat relevante artikelen maximaal 3 kliks van elkaar zijn verwijderd.
- Locatie: Als Google je pagina koppelt aan een locatie, dan zul je minder goed gevonden worden op andere locaties.
- Niet relevante ankertekst: Is je ankertekst niet relevant aan de pagina waar je naartoe linkt, dan rank je lager.
- Engagement: Klikt je bezoeker niet door, dan rank je lager.
- Opvulteksten die puur gebruikt worden om op te vullen, maar niets nuttigs zeggen, werken niet mee.
- Te veel advertenties op een pagina ranken je lager.
- Te veel zoekwoorden in een paragraaf om te voldoen aan SEO, werkt niet mee.
Verwijder niet relevante content of maak het relevant
Nog even over die drie kliks. Dit is een rule of thumb die ik en andere experts hanteren en werkt vaak goed. Dit betekent ook dat als je een pagina hebt met 0 vertoningen en 0 kliks in Google Search Console, je deze content het beste kunt verwijderen van je website als je deze niet goed in kunt zetten. Vaak is deze content dan niet relevant genoeg aan je website. Vind je echt dat deze content relevant is voor je website? Zorg er dan voor dat je er een topical cluster omheen bouwt. Maak het onderdeel van een cluster met pagina’s en wijs een van de pagina’s aan als belangrijkste pagina (pillar page).
Hoe wordt bepaald of mijn content relevant is?
Eerder heb ik het gehad over dat Google je content opdeelt in stukken en segmenteert. Hierbij wordt het ‘gewicht’ van je pagina bepaald. Met andere woorden: hoe zwaar is je pagina als we kijken naar de relevantie. Hoeveel relevantie weegt er mee in de ranking score?
Zorg ervoor dat alle content op de pagina relevant is aan het hoofdonderwerp. Wees duidelijk, precies en schrijf vol zelfvertrouwen, want jij bent de expert. Wijk niet te ver af van het hoofdonderwerp. Wijk je af, maak hier dan een clusterpagina voor en verwijs ernaar met een interne link.
SEO Schema’s (JSON-LD)
Het meest tijdrovende en tot nu onverklaarbare fenomeen van SEO. De XML-schema’s die zoekmachines precies vertellen hoe de data op je website gesegmenteerd is. Zo kan Google beter begrijpen waar de pagina over gaat. Bijvoorbeeld je pagina’s over je auteur, muziek, video, recept, podcast, blog, etc.
Door hier de relevante entiteiten in te verwerken zoals ze genoemd worden in bijvoorbeeld WikiData en de bijbehorende KG ID / KG MID te gebruiken, geef je Google alles wat het nodig heeft om je content te begrijpen.
Wat moet ik nu doen om hoger in Google te komen?
Het antwoord op deze vraag heb je denk ik vaker voorbij zien komen. Zorg dat je je opstelt als een autoriteit in je vakgebied en laat dit zien op je website door relevante semantische content te plaatsen. Je zult alles op het digitale papier moeten zetten als je het wereldwijde web wilt vertellen wat je kan en weet. Zo word jij de autoriteit. De truc daarbij is om van de woorden gebruik te maken die je doelgroep gebruikt, net als in offline marketing.
Doe dus een gedegen zoekwoordenonderzoek. Plan je content, schrijf je content en maak je interne links met zoveel mogelijk diverse ankerteksten die relevant zijn aan de pagina waar je naartoe linkt.
Begrippenlijst
Met deze begrippenlijst wil ik het artikel afsluiten. Dit vind ik de belangrijkste begrippen uit het gelekte Google-document waarvan (redelijk) duidelijk is wat het betekent.
- Confidence verwijst naar de mate van zekerheid of betrouwbaarheid waarmee een zoekmachine bepaalt dat een webpagina relevant is voor een specifieke zoekopdracht. Een hogere confidence-score betekent dat de zoekmachine sterk overtuigd is van de relevantie en kwaliteit van de pagina voor de zoekopdracht.
- DocLevelSpamScore is een meting die zoekmachines gebruiken om te beoordelen hoe spammy een individuele webpagina is. Deze score helpt bij het identificeren en devalueren van pagina’s die gebruikmaken van manipulatieve of slechte SEO-praktijken, zoals keyword stuffing, verborgen tekst, en onnatuurlijke linkpatronen.
- ExactMatchDomain Demotion is een update van Google die de ranking van websites met exacte zoekwoord-domeinnamen verlaagt als de inhoud van lage kwaliteit is. Het doel is om te voorkomen dat dergelijke domeinen hoog scoren alleen vanwege hun naam, zonder waardevolle en relevante inhoud te bieden.
- LowQuality verwijst naar webpagina’s met inhoud die als onvoldoende wordt beschouwd door zoekmachines vanwege dunne content, duplicatie, slechte gebruikerservaring, of lage autoriteit. Deze pagina’s krijgen vaak lagere zoekresultaten, wat leidt tot minder organisch verkeer.
- LowQuality verwijst naar webpagina’s met weinig waardevolle of originele inhoud, slechte gebruikerservaring, en gebrek aan autoriteit. Dergelijke pagina’s worden door zoekmachines lager gerangschikt, wat resulteert in minder organisch verkeer.
- NavBoost is een term die verwijst naar een mechanisme in zoekalgoritmen dat bepaalde webpagina’s of websites een hogere ranking geeft op basis van hun navigatiestructuur. Dit kan bijvoorbeeld gebeuren als een website een goed georganiseerde en gebruiksvriendelijke navigatie heeft, waardoor gebruikers gemakkelijk de gewenste informatie kunnen vinden. Een NavBoost helpt zoekmachines te bepalen welke websites een betere gebruikerservaring bieden en dus hogere zoekresultaten verdienen.
- NsrConfidence (Neural Semantic Retrieval) is een meting die zoekmachines gebruiken om de waarschijnlijkheid te bepalen dat een bepaalde zoekresultaatpagina niet voldoet aan de behoeften van de gebruiker. Een lage NsrConfidence-score geeft aan dat de pagina waarschijnlijk relevante en nuttige informatie biedt, terwijl een hoge score suggereert dat de pagina mogelijk niet nuttig en niet relevant is voor de zoekopdracht van de zoeker.
- OnSiteProminence verwijst naar de mate van zichtbaarheid en belangrijkheid van een specifieke pagina binnen een website en meet de relevantie van een document op een website. Dit wordt berekend door gesimuleerd verkeer vanaf de homepage en veel aangeklikte pagina’s te verspreiden, waarbij de interne linkscores worden geëvalueerd. Hogere OnSiteProminence kan bijdragen aan betere zoekmachine-rankings en een verbeterde gebruikerservaring.
- PandaDemotion is een algoritme-update van Google die de ranking van websites verlaagt als ze lage kwaliteit, dunne of duplicaat content bevatten. Het doel is om zoekresultaten te verbeteren door alleen hoogwaardige, relevante inhoud hoger te laten scoren.
- PageRank_NS Deze PageRank methode verwijst waarschijnlijk door de toevoeging van NS naar Neural Search of misschien ook Neural Semantic, een geavanceerde versie van het oorspronkelijke PageRank-algoritme dat niet alleen rekening houdt met inkomende links via een recursieve berekening en een dempingsfactor, maar ook de context en semantiek van inhoud begrijpt. Deze benadering omvat factoren zoals broncredibiliteit, inhoudsactualiteit, gebruikersinteracties, entiteitsmatching en semantische analyse om de relevantie van een pagina te beoordelen, voorbij traditionele linkanalyse.
- PageRankWeight is een gewicht dat wordt opgeslagen in linkmaps voor PageRank-berekeningen. Het bepaalt de invloed van een anker op de PageRank-score van de doelpagina, waarbij deze gewichten de uiteindelijke rangschikking in de zoekresultaten beïnvloeden.
- pgData (Page Data) verwijst naar de specifieke informatie en statistieken die zoekmachines verzamelen en analyseren voor een individuele webpagina. Dit kan onder andere de inhoud, metadata, gebruikersgedrag, inkomende en uitgaande links, laadtijden, en andere relevante factoren omvatten die de kwaliteit en relevantie van de pagina bepalen voor zoekresultaten.
- Score verwijst naar een numerieke waarde die door een zoekmachine wordt toegekend aan een webpagina om de relevantie en kwaliteit ervan te beoordelen vergeleken met een specifieke zoekopdracht. Deze score is gebaseerd op zowel volume-gerelateerde factoren als kunstmatige scores voor entiteiten, en helpt bij het rangschikken van pagina’s in de zoekresultaten, waarbij hogere scores meestal leiden tot een hogere positie.
- SourceType geeft aan hoe goed de bronpagina van een inkomende link is. Dit is niet precies hetzelfde als het indexniveau van die pagina. In het indexeringsproces worden links gemarkeerd als TYPE_HIGH_QUALITY (van basispagina’s), TYPE_MEDIUM_QUALITY (van pagina’s van gemiddelde kwaliteit), en TYPE_LOW_QUALITY (van pagina’s met weinig inhoud).
- TextConfidence is een maatstaf die zoekmachines gebruiken om de betrouwbaarheid en kwaliteit van de inhoud op een webpagina te beoordelen. Een hoge TextConfidence-score betekent dat de inhoud waarschijnlijk accuraat, relevant en betrouwbaar is voor gebruikers.
- TitleMatches verwijst naar het aantal keren dat de titel van een webpagina overeenkomt met de zoekwoorden die een gebruiker invoert in een zoekmachine. Een hogere mate van overeenstemming tussen de titel en de zoekwoorden kan bijdragen aan een betere rangschikking in de zoekresultaten, omdat het aangeeft dat de inhoud van de pagina relevant is voor de zoekopdracht.
- TotalClicks verwijst naar het totale aantal keren dat een link naar een webpagina is aangeklikt door gebruikers in de zoekresultaten. Een hoger aantal totale klikken kan een indicatie zijn van de populariteit en relevantie van de pagina voor zoekopdrachten.
- UrlMatches verwijst naar het aantal keren dat de URL van een webpagina overeenkomt met de zoekwoorden die een gebruiker invoert in een zoekmachine. Een hogere mate van overeenstemming tussen de URL en de zoekwoorden kan bijdragen aan een betere rangschikking in de zoekresultaten, omdat het suggereert dat de pagina relevant is voor de zoekopdracht.