Claude Opus 4.8 versterkt de race voor AI-agenten die zelfstandig kunnen programmeren

Anthropic heeft Claude Opus 4.8 gelanceerd, een nieuwe versie van haar meest geavanceerde model die zich rechtstreeks richt op het domein waar momenteel veel competitie plaatsvindt in kunstmatige intelligentie: agents die langer kunnen werken, gereedschappen kunnen gebruiken, code kunnen reviewen, met terminals kunnen opereren en complexe taken kunnen voltooien met minder menselijke supervisie.

Het bedrijf presenteert Opus 4.8 als een verbetering ten opzichte van Opus 4.7, niet als een volledige doorbraak. Maar de aard van de opvallende ontwikkelingen geeft duidelijk aan waar de markt naartoe beweegt. De strijd wordt niet langer uitsluitend gewonnen op basis van gesprekreacties, algemeen redeneren of tekstgeneratie. Het wordt steeds belangrijker of een model context kan behouden tijdens lange sessies, eigen fouten kan detecteren, verduidelijking kan vragen als een taak niet goed is gedefinieerd, en echte workflows kan uitvoeren in ontwikkelomgevingen, financiële analyses, onderzoek of computergebruik.

Meer focus op agentprogramma’s en toolgebruik

Volgens de door Anthropic gepubliceerde gegevens presteert Claude Opus 4.8 beter dan Opus 4.7 op de meeste door het bedrijf gepresenteerde benchmarks. Bij SWE-Bench Pro, een test gericht op agentprogramma’s, behaalt het model 69,2 %, tegenover 64,3 % voor Opus 4.7. Bij OSWorld-Verified, gericht op agentmatig gebruik van de computer, scoort het 83,4 %, iets boven de 82,9 % van de vorige versie.

Het presteert ook beter op GDPval-AA, een beoordeling van kennistaken, waar Anthropic 1.890 punten toekent, versus 1.753 voor Opus 4.7. In Finance Agent v2, dat zich richt op financieel agentgebruik, stijgt het naar 53,9 %, boven de 51,5 % van zijn voorganger.

De technische analyse is interessant omdat Anthropic niet enkel een model verkoopt dat ‘slimmer’ is in abstracto. Ze versterkt Claude als een werkbare component voor omgevingen waar AI met externe tools moet samenwerken, informatie moet controleren, taken moet uitvoeren en langere ketens van redenering moet ondersteunen. Met andere woorden, het soort gebruik dat steeds vaker wordt getest in softwareontwikkeling, technische ondersteuning, interne automatisering, documentanalyse en operationele processen.

Door Anthropic gepubliceerde benchmarkOpus 4.8Opus 4.7GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro69,2 %64,3 %58,6 %54,2 %
Terminal-Bench 2.174,6 %66,1 %78,2 %70,3 %
Humanity’s Last Exam, zonder tools49,8 %46,9 %41,4 %44,4 %
Humanity’s Last Exam, met tools57,9 %54,7 %52,2 %51,4 %
OSWorld-Verified83,4 %82,9 %78,7 %76,2 %
GDPval-AA1.8901.7531.7691.314
Finance Agent v253,9 %51,5 %51,8 %43,0 %

Het is belangrijk de resultaten te nuanceren. De cijfers komen van Anthropic en moeten worden geïnterpreteerd als gegevens verstrekt door de leverancier zelf. Bovendien voorspellen benchmarks niet altijd het daadwerkelijke gedrag in zakelijke repositories, oude codebases, onvolledige documentatie of systemen met beperkte permissies. Desalniettemin laat de vergelijking wel een duidelijke trend zien: Opus 4.8 presteert beter dan Opus 4.7 in bijna alle genoemde gebieden en concurreert direct met GPT-5.5 en Gemini 3.1 Pro op agentgebaseerde taken.

Het enige gebied waar het niet leidt, is Terminal-Bench 2.1. In die test toont GPT-5.5 een score van 78,2 %, boven de 74,6 % van Opus 4.8. Voor ontwikkelaars en technische teams is dat een belangrijke nuance: het nieuwe Anthropic-model lijkt sterk in programmawerking, computergebruik, toolredenering en kenniswerk, maar heeft niet in alle categorieën de voorkeur.

Claude Code versterkt met dynamic workflows

De update wordt vergezeld door een belangrijke innovatie voor Claude Code: dynamic workflows. Deze functie, momenteel in onderzoeks-preview voor Enterprise-, Team- en Max-abonnementen, stelt Claude in staat grote taken te plannen en honderden subagents parallel binnen één sessie te activeren. Vervolgens controleert het systeem de resultaten voordat het de gebruiker informeert.

Dit sluit aan bij een duidelijke trend in door AI ondersteunde ontwikkeling. De eerste tools richtten zich op het voltooien van regels, genereren van functies of uitleg geven van codefragmenten. De volgende fase richt zich op bredere taken: migraties, refactorings, afhankelijkheidsanalyses, het herzien van grote codebases, API-updates of gecoördineerde wijzigingen in meerdere services.

Anthropic geeft als voorbeeld grootschalige migraties binnen repositories met honderdduizenden regels code, waarbij de bestaande test-suite als referentie wordt gebruikt. In de praktijk betekent dit een andere werkwijze: ontwikkelaars vragen niet meer slechts een specifieke oplossing, maar kunnen een langdurig proces uitbesteden met planning, gedistribueerde uitvoering en verificatie.

Voor een goede werking in echte omgevingen is het niet alleen belangrijk dat de gegenereerde code correct is. Het gaat ook om weten wanneer iets niet moet worden aangeraakt, wanneer extra context nodig is, hoe afhankelijkheden tussen diensten moeten worden beheerd, interpretatie van testfouten en het voorkomen van grootschalige, moeilijk te controleren wijzigingen. Daarom legt Anthropic zo nadruk op het verbeteren van het ‘criterium’ van het model.

Eerlijkheid wordt een productfunctie

Een opvallend aspect van de aankondiging is dat Anthropic eerlijkheid beschouwt als een technologische verbetering. Het bedrijf stelt dat Opus 4.8 meer geneigd is onzekerheden te erkennen en minder snel aangeeft dat het vooruitgang boekt als de bewijsvoering dat niet ondersteunt. In eigen evaluaties zegt het model vier keer minder vaak fouten te laten passeren zonder er commentaar op te geven, vergeleken met Opus 4.7.

Dit punt lijkt misschien minder spectaculair dan verbeteringen in benchmarks, maar heeft in de praktijk meer impact dan op het eerste gezicht lijkt. In programmeren kan een model dat een foutieve oplossing met vertrouwen presenteert uren debugging veroorzaken. In financiën of juridische analyses kan een ongefundeerde bewering gevaarlijk zijn. Bij technische operaties kan een te zelfverzekerde agent onherroepelijke veranderingen doorvoeren.

De verbetering van eerlijkheid sluit aan bij een groeiende behoefte in bedrijfs-AI: traceerbaarheid en controle. Bedrijven willen niet enkel snelle antwoorden, maar ook assistenten die limieten kunnen uitleggen, twijfels kunnen aangeven, context kunnen bewaren en problemen niet verbergen. In agentprocessen, waarbij het model gereedschappen kan gebruiken en tussenbeslissingen neemt, wordt het herkennen van onzekerheid een essentiële veiligheidsmaatregel en niet slechts stylelement.

Effortcontroles en API-aanpassingen

Anthropic introduceert ook effortcontrole in claude.ai en Claude Cowork. De gebruiker kan aangeven hoeveel interne inspanning het model moet besteden aan een taak. Bij hogere niveaus denkt Claude grondiger na en gebruikt meer tokens. Bij lagere niveaus reageert het sneller en verbruikt het minder limieten.

Opus 4.8 gebruikt standaard een hoog inspanningsniveau, dat volgens Anthropic de beste balans biedt tussen kwaliteit en gebruikerservaring. Voor moeilijke taken of lange, asynchrone workflows wordt aanbevolen om hogere niveaus zoals “extra” of “max” te gebruiken. Dit soort controle wordt steeds gangbaarder in geavanceerde modellen, omdat niet alle taken dezelfde rekenkosten rechtvaardigen.

In de API Messages voegt Anthropic een belangrijke verbetering toe: nu kunnen systeeminstructies worden opgenomen binnen de berichtenarray. Hiermee kan tijdens een taak instructies worden aangepast zonder de promptcache te breken of de wijziging als een gebruikersbericht te laten registreren. Bij lange agent-sessies kan dit bijvoorbeeld worden gebruikt om permissies, tokenbubs, context of beveiligingsinstructies te wijzigen terwijl de agent blijft werken.

Hoewel het een technische wijziging is, heeft het duidelijke implicaties. Agents zijn geen eenvoudige lineaire conversaties. Ze moeten hun context kunnen aanpassen, restricties kunnen wijzigen, nieuwe signalen uit de omgeving kunnen ontvangen en instructies kunnen bijwerken zonder de hele stroom te herstarten. Deze verbetering brengt de API dichter bij meer complexe orkestratiescenario’s.

Prijs en beschikbaarheid

Claude Opus 4.8 is nu beschikbaar op claude.ai, Claude Code en via de API van Anthropic onder de identificatie claude-opus-4-8. De reguliere prijs blijft gelijk aan die van Opus 4.7: 5 dollar per miljoen tokens input en 25 dollar per miljoen tokens output. De snelle modus kost 10 dollar per miljoen tokens input en 50 dollar per miljoen tokens output, en Anthropic beweert dat dit nu driemaal zo goedkoop is als eerdere modellen van dit type.

Het bedrijf werkt ook aan modellen met vergelijkbare capaciteiten als Opus, maar tegen lagere kosten. Dit is een belangrijke ontwikkeling voor bedrijven die agenten willen schalen zonder het budget te overschrijden. Daarnaast noemt Anthropic een nieuwe klasse modellen boven Opus, gerelateerd aan het Glasswing-project en Claude Mythos Preview, dat momenteel beperkt wordt ingezet voor cybersecurity. Volgens het bedrijf vereisen deze modellen extra waarborgen voordat ze voor algemeen gebruik beschikbaar worden gesteld.

Opus 4.8 verandert niet losstaand de markt van AI, maar bevestigt wel een richting. De volgende fase wordt niet uitsluitend gedomineerd door modellen die beter kunnen converseren, maar door systemen die in staat zijn om langer door te werken, gereedschappen te coördineren, limieten te herkennen en verifieerbare resultaten te leveren. In die race wil Anthropic dat Claude minder een conversatie-assistent is, en meer een technische partner die binnen echte workflows kan functioneren.

claude opus 4 8 comparative

Veelgestelde vragen

Wat is Claude Opus 4.8?
Claude Opus 4.8 is de nieuwe versie van het Opus-model van Anthropic, gericht op programmeren, geavanceerd redeneren, gebruik van tools en lange agenttaken.

Wat zijn de belangrijkste verbeteringen ten opzichte van Opus 4.7?
Volgens Anthropic presteert het model beter op verschillende benchmarks voor programmeren, redeneren, computergebruik en financieel onderzoek, en is het betrouwbaarder in het herkennen van fouten en onzekerheden.

Wat zijn de dynamic workflows van Claude Code?
Dit zijn functies in preview die Claude in staat stellen grote taken te plannen, meerdere subagents parallel te laten werken en resultaten te verifiëren voordat het antwoord wordt gegeven.

Hoeveel kost Claude Opus 4.8?
De standaardprijs bedraagt 5 dollar per miljoen tokens input en 25 dollar per miljoen tokens output. In de snelle modus is dat 10 dollar per miljoen tokens input en 50 dollar per miljoen tokens output.

Scroll naar boven