Nieuw onderzoek betwijfelt de effectiviteit van AI-coderingstools bij ervaren ontwikkelaars

Onderzoek onthult 19% stijging in ontwikkeltijd door gebruik van AI-tools

In een verrassende wending binnen het huidige landschap van kunstmatige intelligentie in programmeren, heeft een recent onderzoek de veelgeprezen belofte van een verhoogde productiviteit door AI-coderingstools in twijfel getrokken. Het onderzoek, uitgevoerd door de onafhankelijke onderzoeksgroep METR (Model Evaluation & Threat Research), concludeert dat deze tools in bepaalde echte omgevingen de voortgang kunnen vertragen in plaats van versnellen.

Een proef met echte omstandigheden en ervaren ontwikkelaars

In de studie werden 16 hooggekwalificeerde ontwikkelaars geanalyseerd die regelmatig bijdragen aan enkele van de meest populaire open-sourceprojecten ter wereld. Deze ontwikkelaars hadden gemiddeld 5 jaar ervaring en meer dan 1.500 commits per deelnemer. Ze voltooiden echte taken binnen hun eigen repositories, zowel met als zonder gebruik van kunstmatige intelligentie-tools zoals Cursor Pro, Claude 3.5 en Claude 3.7 van Anthropic.

Voorafgaand aan het onderzoek geloofden de ontwikkelaars dat AI hen zou helpen de implementatietijd met 24% te verlagen. Echter, de gegevens toonden het tegendeel aan: de ontwikkelaars besteedden gemiddeld 19% meer tijd aan hun taken wanneer ze AI-tools gebruikten. Deze uitkomst ontkracht niet alleen hun verwachtingen, maar ook die van AI- en economie-experts, die eerdere productiviteitsverbeteringen tot wel 39% hadden ingeschat.

Hoe kan AI de ontwikkeling vertragen?

De studie heeft aangetoond dat ontwikkelaars meer tijd besteedden aan interactie met de tools dan aan programmeren: het schrijven van prompts, wachten op antwoorden, evalueren van suggesties en corrigeren van gegenereerde code. Vaak vereiste de door AI geleverde code uitgebreide revisie of moest deze zelfs worden afgekeurd. Minder dan 44% van de gegenereerde code werd zonder belangrijke aanpassingen geaccepteerd, en ongeveer 9% van de totale tijd werd uitsluitend besteed aan het opruimen van foutieve resultaten.

Bovendien gaven de deelnemers aan dat de door AI gegenereerde suggesties vaak leken te ontbreken aan de impliciete kennis die nodig is om effectief te werken in grote en complexe repositories. “De AI begrijpt de kortere wegen, interne conventies of historische compromissen van het project niet,” merkte een van de ontwikkelaars op.

Een fenomeen gelinkt aan de context

De auteurs hebben verschillende factoren geïdentificeerd die dit resultaat verklaren:

  • Bekendheid met de code: Hoe meer een ontwikkelaar bekend was met zijn eigen repository, hoe minder nuttig de AI bleek te zijn.
  • Complexiteit van de omgeving: Repositories met meer dan een miljoen regels code en hoge kwaliteitsnormen vormden een uitdaging voor AI-modellen.
  • Onrealistische verwachtingen: Zelfs na het voltooien van hun taken bleven de ontwikkelaars geloven dat de AI hun werkelijke tijd had verminderd, ondanks de tegenstrijdige gegevens.

Hoewel deze resultaten de waarde van AI in andere omstandigheden niet ongeldig maken, erkent de studie dat in nieuwe projecten, minder gedefinieerde taken of in handen van minder ervaren ontwikkelaars, de voordelen van dergelijke tools duidelijker zichtbaar kunnen zijn.

En de toekomst?

De onderzoekers benadrukken dat hun experiment zich afspeelde tussen februari en juni 2025 en dat recente vooruitgangen in basismodellen het landschap in de komende maanden kunnen veranderen. Ook wijzen ze op de mogelijkheid dat beter prompting, specifiekere training per domein of het gebruik van autonome agenten deze trends kunnen ombuigen.

Er zijn al opmerkelijke vooruitgangen waargenomen: modellen zoals Claude 3.7 hebben aangetoond in staat te zijn om centrale functionaliteiten van sommige repositories uit de studie op te lossen. Toch vertonen ze nog steeds tekortkomingen, zoals het niet naleven van stijlregels, onvolledige documentatie of onvoldoende tests.

Conclusie: minder mythes, meer bewijs

Het onderzoek van METR maakt duidelijk dat de opwinding rond AI niet mag leiden tot een gebrek aan rigoureuze empirische evaluatie. AI-coderingstools zijn geen universele wonderoplossingen. Ze functioneren beter in bepaalde contexten dan in andere, en hun gebruik vereist volwassenheid, onderscheidingsvermogen en een diepgaande kennis van de werkomgeving.

Verre van deze technologieën te diskwalificeren, nodigt het onderzoek uit tot reflectie: voor echte verbeteringen in productiviteit zijn niet alleen geavanceerdere modellen nodig, maar ook slimmere en realistischere integratiestrategieën. Kunstmatige intelligentie vervangt de ervaring nog niet—al is dat misschien in de toekomst mogelijk.

Scroll naar boven