Sakana AI heeft Fugu geïntroduceerd, een familie van orkestratiemodellen die een van de meest intrigerende discussies in de huidige Artificiële Intelligentie-heropend: zal de sprong in prestaties komen van het blijven trainen van steeds grotere monolithische modellen, of door het coördineren van meerdere gespecialiseerde modellen via slimmere multiacteursystemen?
Deze aanpak is niet nieuw voor technische teams die al werken met LangGraph, CrewAI, AutoGen, MCP, code-agents, validators, externe tools en RAG-workflows. Wat opvallend is, is dat Sakana AI deze intuïtie heeft vertaald naar een technisch rapport met meetbare resultaten. Fugu-Ultra, hun variant gericht op maximale kwaliteit, behaalt 73,7% op SWE-Bench Pro, boven de 69,2% die aan Claude Opus 4.8 wordt toegeschreven in dezelfde tabel van het rapport. Ook behaalt het 82,1% op Terminal Bench 2.1, tegenover 78,2% van GPT-5.5 en 74,6% van Opus 4.8.
De onderliggende boodschap is krachtig: Fugu is niet bedoeld als “nog een grote taalmodel”, dat alleen concurreert op omvang. Het is een model dat getraind is om te beslissen welke agent moet ingrijpen, hoe taken verdeeld moeten worden, welke outputs gecontroleerd moeten worden en wanneer een definitief antwoord gesynthetiseerd wordt. Kunstmatige Intelligentie lijkt steeds minder op één groot brein en steeds meer op een gedistribueerd systeem van specialisten.
Een orkestrator aan de grens van modellen
Het rapport van Sakana AI definieert Fugu als een familie van orkestrators die de capaciteiten van een team van LLM-agents benutten en versterken. De gebruiker interageert met Fugu alsof het één enkel model is, maar onder de motorkap kan het systeem taken routeren, delegeren en coördineren tussen verschillende werkende modellen. In de initiële versie omvat de pool modellen zoals Claude Opus 4.8, GPT-5.5 en Gemini 3.1 Pro.
Er zijn twee hoofdversies. Fugu is ontworpen voor interactieve toepassingen met lage latentie: het selecteert per invoer één model, zodat de responstijd vergelijkbaar is met een directe oproep naar een grensmodel. Fugu-Ultra daarentegen, prioriteert kwaliteit en kan workflows met meerdere agents uitvoeren, wat wel meer latency en complexiteit met zich meebrengt.
| Systeem | Benadering | Hoofdvoordeel | Operationele kosten |
|---|---|---|---|
| Fugu | Routering naar één enkel agent | Laagste latency en dynamische selectie van de beste agent | Vergelijkbaar met een directe oproep, met orkestratielast |
| Fugu-Ultra | Multi-agent workflows met meerdere stappen | Hogere kwaliteit voor complexe taken | Meer oproepen, meer latency en hogere kosten |
| Monolithisch model | Één model beantwoordt alles | Eenvoud in gebruik en implementatie | Kan duur of minder effectief zijn bij gespecialiseerde taken |
| Handmatige multi-agent | Workflows ontworpen door ontwikkelaar | Fijnmazige controle over het proces | Meer engineering, onderhoud en falenpunten |
De technische difference is significant. Fugu beperkt zich niet tot usvoting tussen modellen of hetzelfde vraagstuk naar meerdere systemen sturen. In de low-latency variant gebruikt het een lichtgewicht module voor selectie gebaseerd op interne statussen van de orkestrator om de meest geschikte werker te kiezen. In Fugu-Ultra worden workflows gegenereerd in natuurlijke taal: de taak wordt opgesplitst, subtaken toegewezen, responses van verschillende agents bekeken en de synthese van het resultaat bepaald.
Benchmarks vertellen een deel van het verhaal
De gepubliceerde resultaten zijn indrukwekkend, maar moeten met voorzichtigheid geïnterpreteerd worden. Sakana AI vergelijkt Fugu en Fugu-Ultra met grensmodellen via benchmarks zoals SWE-Bench Pro, Terminal Bench 2.1, LiveCodeBench Pro, GPQA Diamond, CharXiv Reasoning en Humanity’s Last Exam. In verschillende tests overtreft Fugu-Ultra de individuele modellen die als ‘werkers’ worden gebruikt.
Op SWE-Bench Pro behaalt Fugu-Ultra 73,7%, vergeleken met 69,2% voor Claude Opus 4.8, 58,6% voor GPT-5.5 en 54,2% voor Gemini 3.1. Op Terminal Bench 2.1 scoort Fugu-Ultra 82,1%, terwijl Fugu zelf 80,2% behaalt. Bij GPQA Diamond staat beide varianten op 95,5%, boven Opus 4.8, GPT-5.5 en Gemini 3.1 volgens het rapport.
| Benchmark | Fugu-Ultra | Fugu | Claude Opus 4.8 | Gemini 3.1 | GPT-5.5 |
|---|---|---|---|---|---|
| SWE-Bench Pro | 73,7 | 59,0 | 69,2 | 54,2 | 58,6 |
| Terminal Bench 2.1 | 82,1 | 80,2 | 74,6 | 70,3 | 78,2 |
| LiveCodeBench Pro | 90,8 | 87,8 | 84,8 | 82,9 | 88,4 |
| GPQA Diamond | 95,5 | 95,5 | 92,0 | 94,3 | 93,6 |
| CharXiv Reasoning | 86,6 | 85,1 | 84,2 | 83,3 | 84,1 |
| Humanity’s Last Exam | 50,0 | 47,2 | 49,8 | 44,4 | 41,4 |
De kern is niet dat een “klein Japans model” zomaar Claude of GPT heeft verslagen. Fugu-Ultra behaalt die resultaten juist doordat het krachtige modellen gebruikt als onderdelen van een groter systeem. De vooruitgang ligt in de coördinatie: het kiezen van de juiste specialist, het afwisselen van modellen tijdens een taak en cross-validatie wanneer dat nodig is.
Het rapport bevat interessante voorbeelden. Bij programmeertaken kan Fugu GPT-5.5 gebruiken als bouwblok en Claude Opus 4.8 inschakelen bij kritische foutopsporingsmomenten. Voor wetenschappelijke problemen kan het meer vertrouwen op Gemini voor domeinspecifieke kennis en GPT voor wiskundige berekeningen. Die domeinspecifieke aanpassing ziet Sakana AI als een nieuwe weg voor schaalvergroting.
Het doembeeld van gesloten modellen
Het succes van Fugu roept een ongemakkelijke vraag op: hoeveel van de prestaties van grote gesloten modellen komt echt uit het basismodel en hoeveel uit de omringende systeemlaag?
Er zijn geen publieke bewijzen dat Claude Mythos, Fable 5, GPT-5.5 of andere gesloten modellen precies functioneren zoals Fugu onder de motorkap. Daar van uitgaan zou verder gaan dan de beschikbare bewijzen. Maar het is wel redelijk te veronderstellen dat moderne grensmodellen niet meer simpelweg worden gebruikt door ‘slechts’ een enkele oproep. In producten als Claude Code, Codex of geavanceerde agentsystemen hangt de prestatie af van tools, geheugen, commando-uitvoering, contextherstel, validators, interne prompts en feedbacklussen.
Fugu maakt een systeemarchitectuur zichtbaar die veel bedrijven al vermoedden: de praktische capaciteiten van een LLM hangen niet alleen af van de gewichten zelf, maar van het complete systeem waarin het opereert. Het rapport spreekt hierover van ‘agentic scaffolds’, rusten die een autoregressief model om tot een agent die kan plannen, tools gebruiken, zijn werk herzien en signalen uit de omgeving benut.
Voor gesloten systemen is een eenvoudige interface nog praktisch vanwege zakelijke redenen. Klanten willen vaak gewoon een antwoord, zonder zich druk te maken over of er meerdere modellen, routing, geheugen, of verifiers achter zitten. Maar voor ontwikkelaars, bedrijven en overheden wordt die ondoorzichtigheid steeds lastiger omdat het van invloed is op kosten, veiligheid, afhankelijkheid van de leverancier en reproduceerbaarheid.
Wat betekent dit voor de AI-markt?
Fugu wijst in een zeer relevante richting voor de technologiemarkt: prestaties hangen niet meer uitsluitend af van het vergroten van training. Het kan ook komen uit het beter samenstellen van bestaande capaciteiten. Dit heeft technische, economische en geopolitieke implicaties.
De eerste consequentie is modulariteit. Een systeem kan nieuwe werker-modellen integreren naarmate ze ontstaan, providers uitsluiten vanwege privacy of compliance, lokale modellen prioriteren voor gevoelige data en premium-modellen alleen inzetten wanneer de taak dat rechtvaardigt. Sakana AI benadrukt dat orkestratie het mogelijk maakt om pools van agents te configureren volgens gebruiker-, provider-, privacy- en compliance-vereisten.
De tweede is efficiëntie. Als een eenvoudige taak door een goedkoper model kan worden opgelost, waarom altijd het duurste model gebruiken? Voor kritische subtaken kan het juiste specialistmodel worden ingezet op het juiste moment. In een economie waarin kosten per token en latency belangrijk zijn, kan die dynamische selectie een sterk voordeel opleveren.
De derde is toegankelijkheid. Het trainen van grote grensmodellen kost enorme middelen. Het ontwerpen van een goede orkestratielaag is ook uitdagend, maar kan voor bedrijven die al met meerdere modellen, interne tools en eigen data werken, toegankelijker zijn. Niet iedereen zal een Fugu-Ultra kunnen bouwen, maar velen kunnen architecturen ontwerpen gebaseerd op die logica.
De vierde is complexiteit. Multi-agent systemen zijn geen magie. Ze brengen latency, tokenverbruik, traceringproblemen, foutbeheer, tegenstrijdigheden tussen agents en afhankelijkheid van meerdere leveranciers met zich mee. Een slechte orkestrator kan de output slechter maken, niet verbeteren. Fugu’s kracht ligt in het trainen van die coördinatie, niet in het willekeurig koppelen van agents.
De strijd tussen monolithische modellen en agentenbanten zal niet één winnend paradigmale worden. Soms blijft een goede individuele model voldoende. In andere gevallen maakt de samenwerking van specialisten het verschil. In software, wetenschap, onderzoek, cybersecurity, CAD, langetermijnanalyses en workflows met tools lijkt de tweede weg steeds aantrekkelijker te worden.
Sakana AI heeft niet bewezen dat grote gesloten modellen verouderd zijn. Wat het wel laat zien, is dat de ‘eenheid’ niet meer per se de minimale concurrerende component hoeft te zijn. De nieuwe eenheid kan het systeem zelf zijn. En in dat systeem wegen routing, geheugen, rollen, tools en verificatie net zo zwaar als de omvang van het LLM.
Veelgestelde vragen
Wat is Fugu van Sakana AI?
Fugu is een familie van orkestratiemodellen die verschillende grensmodellen voor taal kunnen coördineren bij het oplossen van taken. Gebruikers bedienen het alsof het één enkel model is, maar intern kunnen ze antwoorden selecteren, combineren en verifiëren van diverse agents.
Overtreft Fugu echt Claude Opus 4.8?
In sommige benchmarks uit het technische rapport overtreft Fugu-Ultra Claude Opus 4.8, vooral op SWE-Bench Pro en Terminal Bench 2.1. Maar dat gebeurt als een multiacteur-orkestratiesysteem, niet als een enkel model.
Gebruikt Fugu Mythos of Fable 5 onder de motorkap?
Nee. Het rapport geeft aan dat Fable 5 en Mythos Preview niet deel uitmaken van de agentenpool van Fugu omdat ze niet publiek toegankelijk zijn.
Wat betekent dit voor bedrijven die AI in productie gebruiken?
Het betekent dat ze betere resultaten kunnen behalen door gespecialiseerde modellen, tools, validators en routers te combineren, in plaats van altijd afhankelijk te zijn van één premium-model. De sleutel is een goede architectuur en het meten van prestatie, kosten en latency.
Bronnen:
Sakana AI, Sakana Fugu Technical Report, arXiv:2606.21228v1.
