Diseño de evaluaciones

¿Siguen sirviendo las pruebas de código si las personas candidatas usan asistentes de IA?

ClarityHire Team(Editorial)2026-05-074 min read

La pregunta que se hace cualquier responsable de contratación

Si una persona candidata puede pegar cualquier pregunta de prueba estándar en un LLM y obtener una respuesta casi perfecta, ¿qué mide en realidad la evaluación? Para los tests algorítmicos al estilo LeetCode, la respuesta honesta es: poca cosa.

Pero eso no significa que las pruebas de código hayan muerto. Significa que un estilo concreto de prueba ha muerto. Los estilos que sobreviven —y se vuelven más valiosos, no menos— son distintos.

Lo que sigue funcionando

1. Depuración en directo sobre código desconocido

Se da una base de código pequeña y rota a la persona candidata para que encuentre y corrija el bug. Los LLM ayudan menos de lo que la gente cree porque el bug está en la interacción entre archivos concretos y la persona tiene que leer el código, no generarlo. Las herramientas aceleran a quien ya es buena ingeniera y no compensan a quien es débil.

2. Take-home con sesión de defensa

Una tarea take-home de 90 minutos produce un artefacto. Una defensa oral de 30 minutos verifica que la candidatura sabe razonar sobre él. Juntas, mantienen alta señal incluso si la IA ayudó con el artefacto, porque la defensa pone a prueba el juicio sobre el trabajo, y eso la IA no se lo puede transferir a la persona candidata.

Es el patrón dominante que aparece en los equipos que se han adaptado bien: no pelear contra la IA en el artefacto, evaluarla en la explicación.

3. Diseño de sistemas

Los LLM responden a las preguntas de diseño de sistemas con la forma de una respuesta, pero pierden de manera consistente la articulación de concesiones, el razonamiento sobre modos de fallo y la conciencia de costes que aporta una persona ingeniera con experiencia. Una ronda de diseño de sistemas anclada en rúbrica y con repreguntas activas mantiene mucha señal.

4. Pair programming sobre una tarea real

Trabajo colaborativo en tiempo real. Lo que se evalúa es la comunicación, la integración del feedback y el juicio. La asistencia de IA en directo está bien: la señal está en lo que se hace con ella.

Lo que dejó de funcionar

1. Preguntas algorítmicas estilo LeetCode

Si la pregunta se resuelve pegándola en ChatGPT, estás filtrando por quién tiene acceso a ChatGPT. Retírala.

2. Take-homes sin defensa

La evaluación de puro artefacto es irrecuperable. O añades una defensa o dejas de usar take-homes para decisiones de alto impacto.

3. Trivia tipo MCQ

«¿Cuál es la complejidad temporal de X?» respondida en aislamiento. Fácil de buscar, fácil de IA, no mide juicio. Úsala solo como filtro de fase de cribado para detectar carencias claras de fundamentos, no como señal decisional.

Qué añadir

Señales de integridad de proceso

Para los take-homes, captura patrones de tecleo y de iteración de edición. ClarityHire lo hace por defecto. No clasifica como bueno o malo: pone de relieve patrones inconsistentes con código escrito a mano para que la persona revisora pueda indagar en la defensa.

Defensa oral

Convierte la defendibilidad en parte de cada evaluación. La candidatura que sabe usar herramientas de IA con eficacia y explicar su propio trabajo es la que quieres. La que ha pegado sin entender suspende la defensa oral, independientemente de cómo se vea el artefacto.

Problemas realistas

Aléjate de los acertijos y acércate a los problemas que se parecen al trabajo real. Los problemas reales tienen ambigüedad, contexto, concesiones. Los asistentes de IA son más útiles en problemas bien especificados y menos útiles en los ambiguos: justo la asimetría que te interesa.

El marco más amplio

Las pruebas de código nunca fueron pensadas para medir «¿sabes escribir código sin ayuda?». Estaban pensadas para predecir el desempeño en el puesto. En 2026, el desempeño incluye usar bien los asistentes de IA. Una evaluación que pretende que esos asistentes no existen mide lo que no toca.

La evaluación correcta en 2026 mide: ¿sabes producir trabajo, sabes explicar tu trabajo, sabes reconocer cuándo la IA se equivoca, sabes manejar la ambigüedad? Lo primero es parcialmente automatizable. Lo otro tres no lo son.

Conserva las evaluaciones. Rediséñalas. La señal sigue ahí, solo que en otros sitios.

prueba de códigoiallmdiseño de evaluaciones