Drie lagen van AI search visibility: ophalen, lezen, kiezen

Rob Hoeijmakers schreef onlangs over caching en hoe AI-tools hem hielpen om "iets te begrijpen waar hij al dertig jaar omheen werkte." Zijn technische stuk over infrastructuur bevatte een opvallende observatie: "het publiek was al veranderd."

Sitebezoekers zijn niet langer overwegend menselijke browsers. Een toenemend deel bestaat uit machines — crawlers van OpenAI, Anthropic, Perplexity en Amazon. Hoeijmakers concludeerde dat caching functioneert als "infrastructuur voor machine-lezers." In een vervolg merkte hij op: "Op een willekeurige dag zijn mensen een minderheid."

Die observatie klopt en verdient onderzoek. Wie zijn deze machine-lezers precies? Wat doen ze op jouw site? En het belangrijkste: hoe meet je of wat ze lezen terugkomt in hun antwoorden?

De afgelopen maanden is een drielagenframework ontwikkeld dat deze vragen structureert: retrieval, reading, selection. Niet voor elegantie, maar omdat practitioners consistent op de verkeerde laag werken of er een overslaan.

Laag 1: Retrieval — Ophalen

De eerste laag gaat over bereikbaarheid. Kunnen AI-bots jouw site daadwerkelijk ontdekken en ophalen? Dit is grotendeels gevestigd SEO-territorium, al zijn de spelers veranderd.

Je robots.txt moet de juiste crawlers toestaan: GPTBot, ClaudeBot, OAI-SearchBot, PerplexityBot, Amazonbot. Elk heeft eigen user-agent strings en respecteert instructies — anders dan veel scraping-bots. Ze checken robots.txt en sitemap.xml eerst. Serverlogs tonen dat dit de meest gecrawlde paden zijn, wat aangeeft dat deze systemen prioriteit geven aan juiste procedures.

llms.txt is een opkomende standaard die functioneert als een gestructureerd visitekaartje voor AI-systemen. Dit tekstbestand in de root vat key content, diensten en contactinfo samen in machine-parseerbaar formaat. Het vult sitemaps aan, specifiek gericht op hoe LLM's informatie verwerken.

Caching hoort hier ook. Hoeijmakers' punt is precies: cachestrategieën die alleen menselijke browsers targeten, missen het merendeel van je publiek. AI-crawlers doen herhaalde requests. Solide caching zorgt voor snelle, consistente responses zonder onnodige serverbelasting.

Basisinfrastructuur telt: server-uptime, response headers, TLS-certificaten, redirect-chains. Een 301 die redirect naar een 302 die naar de uiteindelijke content wijst, vereist drie crawlerverzoeken in plaats van één. Vermenigvuldigd over duizenden pagina's verspilt dit onvervangbaar crawlbudget.

Voor de meeste sites is laag 1 goed gedocumenteerd. Er bestaan handleidingen voor robots.txt-configuratie, llms.txt-implementatie, en checklists. Het probleem is niet informatietekort — het is dat de discussie hier typisch stopt.

Bots kunnen nu naar binnen. Wat gebeurt er daarna?

Laag 2: Reading — Lezen

Deze laag krijgt onvoldoende aandacht. We weten dat AI-bots onze sites bezoeken — serverlogs bevestigen dit. Maar wat ze doen bij aankomst, hoe ze content verwerken, wat ze extraheren of negeren, blijft ondoorzichtig voor de meeste site-eigenaren.

Laten we precies zijn over wat "lezen" betekent voor AI-bots. Er bestaan twee fundamenteel verschillende types.

Ten eerste: pre-training crawlers. GPTBot, ClaudeBot, Google-Extended. Deze oogsten webdata voor toekomstige modeltraining. Het lezen van vandaag wordt het model van morgen. Je controleert verwerking niet direct, maar je beïnvloedt wat gevonden wordt. Gestructureerde, feitelijke, goed gemarkeerde content verwerkt schoner dan ongestructureerde lappen tekst.

Ten tweede: real-time retrieval bots. ChatGPT-User, OAI-SearchBot, Perplexity-User. Deze fetchen content wanneer gebruikers vragen stellen. Als iemand "wat is AI search visibility" typt in ChatGPT en het model raadpleegt actuele bronnen, stuurt het requests naar relevante pagina's. Wat het vindt, bepaalt deels het antwoord aan de gebruiker. Dit is real-time. Dit is meetbaar. Dit is waar laag 2 concreet wordt.

Een consistent patroon: de meest gecrawlde content gaat over AI search zelf. Artikelen over llms.txt, AI-crawlers, structured data, sitemaps, glossarytermen.

Dit is geen toeval — het is zelfbewijzend. Ze schrijven over AI search, dus AI-bots crawlen het. Ze schrijven over hoe machines content verwerken, dus machines verwerken die content het meest. Het bevestigt exact wat laag 2 meet: bots crawlen wat ze begrijpen.

Gestructureerde, expliciete content met duidelijke koppen, definitiezinnen en semantische markup parset makkelijker voor machines dan creatieve copy die leunt op context en impliciete referenties. "Core Web Vitals meten drie metrics: LCP, INP en CLS" is direct bruikbaar voor retrievalsystemen. "De snelheid van je site is enorm belangrijk en je moet er iets aan doen" bevat geen extraheerbare feiten voor machines.

Dit heeft directe contentstrategie-consequenties. Het gaat niet alleen om wat je schrijft, maar hoe je het structureert. Logisch geneste HTML-hiërarchie. Schema.org-markup die machines een feitenlaag boven proza geeft. Openingszinnen per sectie die functioneren als standalone antwoorden. Vergelijkingstabellen die extractie-ready zijn zonder volledige pagina-comprehensie.

De essentie van laag 2: als je niet kunt zien wat AI-bots lezen, weet je niet of laag 1 werkt. Kun je laag 3 niet sturen. Optimaliseer je blind.

Het verschil tussen "bots bezoeken mijn site" en "ik weet wat bots op mijn site lezen" is het verschil tussen vermoeden en strategie.

Laag 3: Selection — Kiezen

Niet alle gelezen content komt terug in antwoorden. Dat is de frustratie van AI search visibility: je kunt excellent zijn op lagen 1 en 2, perfect bereikbaar met duidelijke structuur, en toch niet geciteerd worden. Wat bepaalt wat AI-engines selecteren om te citeren?

Dit is het lastigste, minst transparante deel. Geen serverlogs onthullen de interne weging wanneer modellen beslissen welke bronnen te citeren. Maar er zijn patronen, steeds consistenter naarmate er meer gemeten wordt.

Domain authority speelt een rol, al anders dan bij Google. Sites die frequent geciteerd worden in trainingsdata, backlinks hebben van erkende bronnen, en consistent feitelijke content publiceren, krijgen hogere betrouwbaarheidsscores van retrievalsystemen. Het is geen directe "authority scoring" zoals traditionele SEO, maar het mechanisme loopt parallel: externe validatie leidt tot vertrouwen.

Expertise-signalen wegen zwaar. Content met specifieke feiten, concrete cijfers, broncitaties, erkende nuances krijgt meer citaties dan gegeneraliseerde content. Onderzoek naar Generative Engine Optimization toonde dat technieken als het toevoegen van statistieken en citaties AI-antwoord-zichtbaarheid met tot 40% kunnen verhogen — dat is niet subtiel.

Versheid telt, vooral voor retrieval-bots. Recent gepubliceerde pagina's krijgen voorrang boven ondateerde of jarenlang onveranderde content met gelijke relevantie. Logisch: modellen proberen actuele informatie te geven, en publicatiedatums bieden cruciale signalen.

Onderscheidendheid is misschien het meest onderschat. Wanneer tien sites dezelfde informatie op dezelfde manier verwoorden, heeft het model geen reden jou boven anderen te citeren. Content die uniek perspectief biedt, eigen data presenteert, nieuwe frameworks introduceert, valt op in retrievalresultaten. Generieke "wat is AI search visibility"-content krijgt minder citaties dan specifieke observaties vanuit originele data. Modellen hebben voldoende generieke definities; ze zoeken bronnen die waarde toevoegen.

Multi-source corroboratie telt ook. Meerdere onafhankelijke bronnen die identieke feitelijke claims maken, verhogen modelvertrouwen. Dit betekent feitelijke content schrijven die aansluit bij expertconsensus, terwijl je eigen data, perspectief en toepassing toevoegt.

Laag 3 meten doe je met prompt-testing. Stel bedrijfsrelevante vragen aan ChatGPT, Claude, Perplexity. Noteer wie genoemd wordt, in welke volgorde, met welke taal. Voor een Utrechtse hypotheekadviseur: test "beste hypotheekadviseur Utrecht" over drie systemen, noteer wie verschijnt en met welke beschrijving. Herhaal voor "hypotheek voor zzp'er," "annuïteiten- vs. lineaire hypotheek," en elke vraag die klanten stellen. Dit is handmatig, arbeidsintensief werk — maar directe meting van wat werkt.

Laag 3 hangt af van lagen 1 en 2. Geen technische bereikbaarheid, geen lezen. Geen leesbaarheid, geen selectie. Geen selectie, geen zichtbaarheid in AI-antwoorden, ongeacht hoe goed je content is.

Origineel gepubliceerd op hiveminds.nl

Wil je weten hoe jouw site scoort op deze drie lagen? Start met een gratis Snapshot.

Start gratis Snapshot