De race om generatieve kunstmatige intelligentie (AI) in bedrijfsomgevingen uit te rollen, betreedt een nieuwe fase. Het is niet langer voldoende om copilots, assistenten of geautomatiseerde workflows te implementeren: nu moet bewezen worden dat deze systemen betrouwbaar zijn, zich gedragen zoals verwacht en dat hun antwoorden te auditen zijn. In dit kader voorspelt Gartner dat de groeiende aandacht voor verklarbare AI, bekend als XAI (eXplainable AI), ertoe zal leiden dat de investeringen in observatie van grote taalmodellen (LLM’s) in 2028 zullen uitkomen op 50% van de GenAI-deployments, tegen 15% op dit moment.
Deze voorspelling weerspiegelt een ingrijpende verandering in hoe bedrijven AI benaderen. Tijdens de eerste adoptiegolf lag de focus op het testen van capaciteiten, pilots lanceren en productiviteitsverbeteringen meten. Nu, naarmate deze systemen gaan handelen in meer gevoelige omgevingen, verschuift de aandacht naar vertrouwen: waarom geeft een model een bepaald antwoord, op basis van welke data, welke biases het mogelijk bevat, hoe zich het gedrag ontwikkelt, en in hoeverre het veilig kan blijven worden gebruikt in productieomgevingen.
Gartner definieert verklaarbare AI als een verzameling vaardigheden waarmee een model beschreven kan worden, de sterke en zwakke punten duidelijk worden gemaakt, het gedrag voorspeld kan worden en mogelijke biases geïdentificeerd kunnen worden. Observatie van LLM’s beperkt zich niet tot het meten van responsetijden of resourcegebruik, maar omvat ook metrics die specifiek zijn voor deze systemen, zoals hallucineringen, modelherkomst, tokengebruik, biases en de feitelijke kwaliteit van antwoorden.
Van experimenten naar daadwerkelijk beheer in productie
De waarschuwing van het adviesbureau wijst op een steeds duidelijker zichtbaar probleem binnen bedrijven: AI komt sneller naar de zakelijke omgeving dan dat er adequate bewakingmechanismen ontwikkeld worden. Wanneer een model wordt gebruikt voor het samenvatten van interne rapporten, het ondersteunen van medewerkers of het automatiseren van laag-risicotaakjes, kunnen fouten acceptabel blijven. Maar zodra het ingezet wordt in kritieke processen zoals klantenservice, documentanalyse, interne advisering of het genereren van gevoelige content, maakt het gebrek aan traceerbaarheid een operationeel, reputatie- en regelgevingsrisico.
Daarom stelt Gartner dat zonder een solide basis van XAI en observatie, veel GenAI-initiatieven beperkt zullen blijven tot lage-risico, interne of makkelijk verifieerbare taken. Dit zou het daadwerkelijke rendement op investering aanzienlijk beperken. Economisch gezien voorspelt het bedrijf dat de wereldwijde markt voor GenAI-modellen in 2026 meer dan 25 miljard dollar zal bedragen en in 2029 zal groeien tot 75 miljard dollar. Als de uitgaven aan modellen en toepassingen aan dat tempo doorzetten, zal ook de druk toenemen om te controleren hoe ze functioneren.
Hier begint men al marktbreed resultaten te zien. Gartner heeft zelfs een speciale categorie voor AI-evaluatie- en observatieplatformen geïntroduceerd: AEOP’s (AI Evaluation and Observation Platforms). Deze tools richten zich op het beheren van de niet-deterministische aard van deze systemen en het omzetten van metrics, traces en evaluaties in een continu verbeteringsproces. Dit is een teken van volwassenheid: de bedrijfsdiscussie verschuift van “welk model gebruiken” naar “hoe het te monitoren, te evalueren en te besturen”.
Regulering zet eveneens druk
De behoefte aan uitleg en toezicht op AI is niet alleen een technische uitdaging. Het wordt ook gedreven door nieuwe regelgeving en governance die zich aan het consolidiseren is, met name in Europa. De Europese Commissie herinnert op haar officiële AI Act-pagina dat de nieuwe regelgeving transparantieverplichtingen introduceert voor bepaalde systemen en modellen, waarvan een substantieel deel vanaf augustus 2026 van kracht wordt. Voorafgaand daaraan, vanaf augustus 2025, gelden al verplichtingen voor algemene modellen.
Deze evolutionaire regelgeving versterkt de stelling van Gartner: bedrijfs-AI moet meer zijn dan enkel performant of efficiënt. Het moet verdedigbaar zijn. In de praktijk betekent dit dat organisaties moeten kunnen onderbouwen waarom een systeem een bepaald antwoord gaf, welke controls het doorliep, welke grenzen er zijn gesteld en hoe men heeft bevestigd dat het gedrag met de tijd goed blijft.
Het gaat niet alleen om het geruststellen van toezichthouders of auditors. Het betreft ook intern management. Juridische teams, compliance-verantwoordelijken, operationele afdelingen, SRE’s (Site Reliability Engineering) en beveiligingsteams zullen een gemeenschappelijke taal moeten spreken met data- en AI-teams. Dit vereist nieuwe tools, processen en metrics.
Verandering in prioriteiten binnen het bedrijf
Wat Gartner’s voorspelling bijzonder maakt, is dat het debat verschuift van snelheid naar de kwaliteit van de antwoorden. De adviesfirma benadrukt dat traditionele observabiliteit vooral gericht was op snelheid en kosten, maar dat de prioriteit nu verschuift naar feitelijke nauwkeurigheid, logische correctheid en zelfs de neiging van sommige modellen om tevredenstellende of bevooroordeelde antwoorden te geven. Met andere woorden, AI wordt niet meer alleen beoordeeld op responstijd, maar op betrouwbaarheid en vertrouwen.
Deze aanpak is ook in lijn met het werk van het Amerikaanse NIST. Het instituut beschrijft in haar risicomanagementkader voor AI dat een van de kern-doelstellingen is het verbeteren van de integratie van vertrouwen in het ontwerp, de ontwikkeling, het gebruik en de evaluatie van AI-systemen. In 2024 publiceerde het NIST bovendien een specifiek profiel voor generatieve AI om organisaties te helpen de risico’s van deze technologieën te identificeren en mitigerende maatregelen te ontwikkelen.
Al deze ontwikkelingen leiden tot eenzelfde conclusie: de tweede fase van bedrijfs-AI zal niet alleen afhangen van krachtigere modellen, maar vooral van robuustere mechanismen om ze te begrijpen en te bewaken. Gartner’s voorspelling garandeert niet dat alle bedrijven dit niveau in 2028 zullen bereiken, maar duidt wel op de richting van de markt. Die richting sluit aan bij de toenemende regulering, beveiligingsvereisten, governance en operationele praktijken.
Veelgestelde vragen
Wat betekent observabiliteit van LLM’s binnen een organisatie?
Het betreft de mogelijkheid om het gedrag van een taalmodel in productie te monitoren en te analyseren, niet alleen qua technische prestaties, maar ook op gebieden zoals hallucineringen, biases, tokengebruik, modelderivatie en de kwaliteit van antwoorden.
Wat is verklaarbare AI (XAI) en waarom is het belangrijk?
Verschillende technieken en capaciteiten die helpen begrijpen waarom een model bepaald reageert, wat haar limieten zijn en welke risico’s er zijn. Cruciaal voor audits, naleving, beveiliging en zakelijke besluitvorming.
Waarom verwacht Gartner dat de investering in deze technologieën zal toenemen?
Omdat organisaties voortgaan van het testen van GenAI in gecontroleerde omgevingen naar het inzetten ervan in echte processen, waar het niet voldoende is dat systemen slechts functioneren: ze moeten ook traceerbaar, beheersbaar en verdedigbaar zijn ten opzichte van risico’s, fouten en regelgeving.
Hoe verhoudt dit zich tot de Europese AI Act?
De AI Act introduceert transparantie- en governanceverplichtingen voor bepaalde AI-systemen en -modellen. Dit motiveert veel organisaties om middelen voor toezicht, uitleg en continue controle op hun AI-implementaties te versterken.
bron: gartner
