Leren met de copiloot ingeschakeld: Anthropic waarschuwt voor een daling van 17% in begrip bij gebruik van AI

La carrera por “programar más rápido” con asistentes de Inteligencia Artificial está dejando una sombra incómoda sobre la mesa: ¿qué ocurre con las habilidades cuando el objetivo no es producir, sino aprender? Un nuevo estudio de Anthropic —la compañía detrás de Claude— apunta a un compromiso que muchas empresas intuían, pero pocas habían medido en un experimento controlado: la asistencia de IA puede acelerar ligeramente el trabajo… a costa de entender menos lo que se está construyendo.

El estudio se basa en un ensayo controlado aleatorizado con 52 ingenieros de software (en su mayoría perfiles junior) que debían aprender una librería nueva de Python: Trio, centrada en programación asíncrona. La mitad realizó las tareas con un asistente de IA integrado en el entorno; la otra mitad, sin IA. Tras completar ejercicios guiados, todos pasaron un test de comprensión diseñado para medir competencias críticas en una era de código cada vez más asistido: depuración, lectura de código y comprensión conceptual.

El resultado principal que destaca el propio estudio es claro: el grupo con IA obtuvo un 17 % menos de “maestría”. Y ese descenso no vino acompañado de una ganancia de velocidad que justificase el costo.

Resultados: casi el mismo tiempo, mucha menor comprensión

Según Anthropic, quienes usaron IA terminaron unos 2 minutos antes de media, pero la diferencia no fue estadísticamente significativa. En cambio, la brecha en el test sí lo fue: el grupo con IA promedió un 50 %, frente al 67 % del grupo que programó “a mano”. En otras palabras: más dependencia de la herramienta no significó más aprendizaje, y el aumento de productividad no compensó la pérdida en comprensión.

Lo más relevante, además, no solo está en la puntuación global. La mayor diferencia apareció en debugging, justo la habilidad que, en teoría, debería convertirse en la “banda protectora” cuando alguna parte del código lo sugiere o lo genera una IA. Si el profesional no identifica con rapidez cuándo el código es incorrecto y por qué, el costo se paga después: revisiones superficiales, fallos en producción, problemas de seguridad y un mantenimiento más caro.

Tabla rápida del experimento

IndicadorGrupo con IAGrupo sin IA
Participantes52 (divididos en dos grupos)52 (divididos en dos grupos)
Tiempo de finalización~2 minutos más rápido (sin diferencia estadística)
Puntuación media en el test50 %67 %
Mayor brechaDepuración (debugging)Mejor rendimiento en debugging

La clave no es “usar IA”, sino cómo se usa

El estudio no concluye que la IA sea intrínsecamente perjudicial. Lo que sostiene es más específico: el modo de interacción marca la diferencia entre “aprender con IA” y “delegar el pensamiento en la IA”.

Para analizarlo, los investigadores revisaron grabaciones y clasificaron patrones de uso. Un hallazgo llamativo es el tiempo dedicado a “conversar” con la herramienta: algunos participantes emplearon hasta 11 minutos —cerca de un tercio del tiempo disponible— redactando hasta 15 consultas. Ese dato ayuda a entender por qué el “impulso” de productividad no fue tan grande: cuando el objetivo es aprender algo nuevo, la IA puede convertirse en un canal adicional de fricción, no en un atajo.

Anthropic identificó seis patrones de uso, tres asociados a resultados bajos y otros tres a puntuaciones altas. Los que peor salieron comparten un elemento: sustituir el razonamiento propio por generación o depuración delegada.

Patrones asociados a bajo rendimiento (delegación):

  • Delegación total: pedir el código final y limitarse a integrarlo.
  • Dependencia progresiva: comenzar preguntando poco y terminar cediendo todo el trabajo.
  • Depuración delegada: usar a la IA para verificar o arreglar en lugar de entender el error.

Patrones asociados a mejor rendimiento (IA como apoyo cognitivo):

  • Generar y después entender: solicitar código, pero después exigir explicación, revisión y comprobación propia.
  • Generar + explicar: pedir soluciones con razonamiento detallado.
  • Consulta conceptual: preguntar por conceptos y escribir el código con ese marco mental, aceptando “atascos” y errores como parte del proceso de aprendizaje.

La lectura entre líneas resulta significativa para cualquier equipo técnico: si el asistente se usa como sustituto, se aprende menos; si se emplea como tutor, el aprendizaje se mantiene mejor, aunque tal vez no sea el método más rápido.

Por qué esto preocupa a las empresas: la supervisión humana se vuelve más costosa

La industria está entrando en una fase donde el reto ya no es “escribir líneas de código”, sino supervisar sistemas. En ese contexto, la degradación de habilidades como la depuración no es anecdótica: es un problema de gobernanza técnica. Si los perfiles en formación aprenden a “cerrar tareas” sin comprenderlas, el riesgo es doble:

  1. A corto plazo, aumenta la probabilidad de errores no detectados (especialmente en trabajos con dependencias complejas, concurrencia o seguridad).
  2. A medio plazo, se debilita el pipeline que transforma juniors en seniors capaces de liderar arquitectura, respuesta a incidentes y revisiones exigentes.

El estudio de Anthropic no cuantifica el impacto en empleo, pero el debate se conecta con una tendencia más amplia que sí aparece en investigaciones de mercado laboral. Un informe del Stanford Digital Economy Lab observa que, tras la adopción masiva de herramientas de IA generativa, los trabajadores de 22 a 25 años en ocupaciones más expuestas a la automatización muestran una caída relativa del 13 % en empleo (según análisis con datos en EE. UU.). Esto no prueba causalidad directa ni explica completamente el fenómeno, pero refuerza la preocupación: si disminuye la contratación inicial y, además, aprender con IA se gestiona mal, el sistema puede quedarse sin cantera.

Recomendaciones prácticas: IA en “modo aprendizaje” no es IA en “modo producción”

Para el entorno técnico, el valor del estudio reside en su traducción operativa. Varias prácticas emergen como “mínimo viable” para evitar que la herramienta reemplace la capacitación:

  • Separar políticas según el contexto: cuando se aprende una librería o framework nuevo, priorizar preguntas conceptuales y explicaciones; cuando se realiza trabajo repetitivo conocido, permitir una generación más directa.
  • Regla de oro en revisiones: si se pega código generado, exigir una explicación breve del flujo, supuestos y posibles fallos. No como castigo, sino como control de calidad.
  • Entrenar depuración sin ayuda: reservar sesiones o tareas donde la depuración se realice sin asistente, igual que se practican simulacros de incidentes.
  • Fomentar “errores útiles”: el grupo sin IA cometió más errores, pero ese coste parece estar relacionado con mayor aprendizaje: corregir errores propios refuerza la comprensión.

Anthropic lo resume con un mensaje poco habitual en el marketing de copilotos: la productividad no es un atajo hacia la competencia, especialmente cuando se trata de adquirir habilidades nuevas.


Preguntas frecuentes

¿Significa esto que los asistentes de IA hacen “peores” a los programadores?
No necesariamente. El estudio sugiere que el impacto depende del uso: delegar la solución tiende a reducir la comprensión; usar la IA para preguntar y entender puede conservar el aprendizaje.

¿Por qué la depuración (debugging) es el área más afectada?
Porque depurar requiere construir un modelo mental del sistema y validar hipótesis. Si la IA asume ese rol, el cerebro entrena menos esa capacidad, justo la más necesaria para supervisar código asistido.

¿Qué política sencilla puede implementar una empresa mañana mismo?
Definir un “modo aprendizaje” (IA como tutor: explicaciones, preguntas conceptuales) y un “modo producción” (IA como acelerador en tareas conocidas), además de exigir explicación del código en revisiones cuando se utilice generación automática.

¿Este resultado aplica a cualquier situación de programación con IA?
El estudio mide aprendizaje a corto plazo con una librería concreta (Trio) y una muestra limitada. Es una señal sólida, pero no una sentencia universal: el efecto puede variar según experiencia, tipo de tarea y disciplina del equipo.

vía: anthropic

Scroll naar boven