New Relic presenteert monitoring voor apps binnen ChatGPT en belooft de “zwarte doos” van INGEBOUWDE AI te openen

New Relic wil dat bedrijven niet langer “blind” vliegen wanneer ze hun diensten integreren binnen ChatGPT. Het bedrijf, gespecialiseerd in observability en applicatie-monitoring, heeft een nieuwe functionaliteit aangekondigd gericht op apps die draaien binnen de conversatie-interface, met als doel inzicht te bieden in prestatie, betrouwbaarheid en gebruikerservaring in een omgeving waarin — volgens de leverancier zelf — traditionele tools vaak tekortschieten.

Deze aanpak komt op een moment dat steeds meer engineeringteams ChatGPT gebruiken als kanaal voor acquisitie en conversie: niet alleen om vragen te beantwoorden, maar om de gebruiker te sturen naar concrete acties (zoals kopen, reserveren, een demo aanvragen of een proces afronden). Het probleem, stelt New Relic, is dat wanneer een applicatie “leeft” binnen ChatGPT, deze in een soort “blinde vlek” kan terechtkomen: een ervaring die ingebed is in de conversatie, waarbij de ontwikkelaar niet langer de controle heeft over de container en de telemetrie niet hetzelfde is als bij een “normale” browser.

De “blinde vlek” van het i-frame en veiligheidsbeperkingen

New Relic wijst op een veelvoorkomend technisch patroon: apps gerenderd binnen een i-frame in de chat. In dergelijke gevallen kan het developmentteam belangrijke signalen missen voor het optimaliseren van gebruikerservaring en conversie, zoals onvoorziene layout-shifts, knoppen die eruitzien als klikbaar maar niet reageren, of gebruikers die de app verlaten zonder duidelijke reden.

Daarnaast komen meestal beveiligingsmaatregelen zoals complexe security headers, Content Security Policy (CSP), sandbox-regels voor i-frames en client-side opslagbeperkingen om de hoek kijken. Samen kunnen deze restricties het lastig maken voor standaard frontend-monitoring tools om betrouwbare of vergelijkbare data te verzamelen.

Bovendien introduceert New Relic een specifiek aandachtspunt voor AI-gegenereerde of -gemedieerde ervaringen: de uiteindelijke interface kan beïnvloed worden door ‘programmeerlijk vreemde’ gedragingen, zoals UI-elementen die er correct uitzien maar niet functioneren, teksten die door de AI gegenereerd worden en layouts verstoren, of referenties die door de AI als citaten worden getoond terwijl de backend die data niet daadwerkelijk levert.

Van “klassieke” observability naar metrics voor AI-ervaringen

De kernboodschap is duidelijk: als ChatGPT een nieuw venster wordt, zijn ervaring-gerelateerde storingen niet meer alleen technische issues; ze worden barrière’s in het verkoopproces. Daarom benadrukt New Relic dat je vóór het oplossen van bijvoorbeeld ‘hallucinaties’ of tekstfouten, deze moet detecteren en meten met de juiste precisie.

In hun aankondiging stelt New Relic dat hun browser agent nu al in staat is relevante telemetrie te verzamelen, zelfs binnen ingebedde contexten. Ze wijzen op signals zoals laadtijd en connectiviteit binnen het i-frame, scriptfouten of syntaxerrors door dynamische responses, en gebeurtenissen uit de browserconsole.

De innovatie richt zich niet alleen op “prestatie”, maar ook op hoe de gebruiker met de app binnen ChatGPT interacteert. Ze adviseren het instrumenteren van “waarde-acties” (bijvoorbeeld klikken op “koop nu”, formulier invullen, een belangrijke stap voltooien). Door die gegevens te koppelen aan interactiecijfers kunnen teams dashboards bouwen die renderingkwaliteit koppelen aan bounce rates of conversies, en indicatoren monitoren zoals een AI Render Success Rate of “prompt-to-action” metrics.

Welke metrics worden precies gemeten? Frustratie, visuele stabiliteit en end-to-end traceerbaarheid

Dit aanbod maakt onderdeel uit van de platformoplossing Intelligent Observability van New Relic en bestaat uit vier kernblokken:

  • Detectie van gebruikersfrustratie: signalen zoals rage clicks, klikken op foutieve elementen of ‘dode’ klikken helpen om knelpunten te identificeren waar de gebruiker probeert verder te gaan, maar de interface niet reageert.
  • Monitoring van visuele onstabiliteit: de focus ligt op Cumulative Layout Shift (CLS), een cruciale maat voor visuele stabiliteit binnen het i-frame. Bij dynamische content-injectie of streaming kunnen onverwachte verschuivingen frustratie en interaction-fouten veroorzaken.
  • Cross-origin insights: inzicht in gedrag wanneer de applicatie geen controle heeft over de bovenliggende pagina (top-level), wat vaak het geval is bij ingesloten ervaringen.
  • End-to-end traceerbaarheid: koppeling tussen de gebruikersinteractie binnen het i-frame en backend-diensten, om de volledige transactie of gebruikerstraject te reconstrueren.

Het idee is te verschuiven van alleen meten of de app snel laadt, naar meten of hij gedraagt zoals verwacht wanneer AI betrokken is in het renderproces, de tekst of de uiteindelijke samenstelling.

Beschikbaarheid en eerste stappen

Volgens New Relic is deze monitoringcapaciteit voor apps binnen ChatGPT al beschikbaar via hun platform. Een typische implementatie bestaat uit het installeren van de nieuwste versie van de browser agent, waarde-acties definiëren (belangrijke interacties) en vervolgens aangepaste events instrumenteren om resultaten te analyseren en dashboards op te zetten.

De onderliggende boodschap is dat New Relic probeert een groeiend marktsegment te veroveren: observability van ‘derden-gehoste’ ervaringen, zoals deze binnen ChatGPT, waarbij UX afhankelijk is van eigen code, containerbeleid en gegenereerde contentpresentation.


Veelgestelde vragen

Wat houdt “monitoring voor apps binnen ChatGPT” precies in?

Het draait om het instrumenteren en meten van prestatie en gebruikerservaring van apps die binnen ChatGPT embedded draaien (bijvoorbeeld in een i-frame), terwijl de ontwikkelaar niet de controle heeft over de bovenliggende container.

Waarom bemoeilijkt een i-frame de traditionele monitoring?

Omdat de app niet de “eigenaar” is van de bovenliggende window (top-level), en onderworpen kan zijn aan beveiligingspolicies (zoals CSP, sandbox) en opslag- of telemetriebeperkingen, waardoor inzicht in fouten, interacties en UX-metrics beperkt wordt.

Wat is CLS en waarom is het relevant bij AI-gegenereerde content?

CLS (Cumulative Layout Shift) meet visuele stabiliteit door het aantal onverwachte verschuivingen in layout te kwantificeren. Bij dynamische content wordt de layout beïnvloed door injecties of streaming, wat gebruiker-frustratie en misclicks kan veroorzaken.

Wat moet een bedrijf meten als ze via ChatGPT willen verkopen?

Naast Latency en fouten, is het belangrijk om “waarde-acties” te definiëren (zoals belangrijke klikken, formulier invullingen, conversies) en deze te relateren aan renderkwaliteit, visuele stabiliteit en frictie (zoals dode klikken of verlaten van het proces).

Scroll naar boven