Calificación con IA en evaluaciones tipo ensayo: dónde ayuda y dónde perjudica
Lo que los LLM califican bien
Los LLM modernos son sorprendentemente buenos en:
- Verificación de cobertura de la rúbrica. «¿Respondió la persona candidata a las cinco preguntas?» Es trivial responder.
- Calidad superficial. Gramática, estructura, extensión, evidencia citada: todo se puntúa con fiabilidad.
- Consistencia entre entregas. A diferencia de una persona evaluadora ante la entrega n.º 50, el criterio del LLM en la entrega n.º 500 es el mismo que en la n.º 1.
- Observaciones de primera lectura. Identificar fortalezas o debilidades destacables para que una persona revisora las confirme.
Para estas tareas, la calificación con LLM reduce de forma fiable el tiempo de revisión entre un 60 y un 80 %, sin pérdida de imparcialidad cuando se combina con la supervisión humana.
Lo que los LLM califican mal
- Profundidad de dominio. Un LLM que lee un ensayo de ingeniería de sistemas sénior no puede determinar con fiabilidad si las decisiones arquitectónicas fueron correctas. Producirá tonterías que suenan convincentes.
- Originalidad e intuición. Los LLM sobrerrecompensan las respuestas genéricas pero bien redactadas y subvaloran las respuestas concisas con criterio.
- Tono y juicio. «¿Esta persona candidata es excesivamente segura o decidida en el grado correcto?» Las personas captan esto; los LLM no.
- Cualquier elemento donde pueda filtrarse la identidad de la persona candidata. Currículums, nombres y afiliaciones universitarias sesgan de forma medible los juicios del LLM.
El patrón que funciona
- La IA como primera pasada. El LLM produce puntuaciones provisionales por cada dimensión de la rúbrica y una lista de observaciones. Anonimiza la entrada antes.
- La persona como quien decide. Una persona revisora lee el trabajo de la candidatura, la salida de la IA y confirma o anula. Se la obliga a implicarse en lugar de limitarse a estampar el sello, porque la rúbrica tiene anclas que exigen evidencia.
- Auditoría periódica. Muestrea un porcentaje de los casos anulados por humanos cada mes. Si se anula al LLM en una dirección sistemática (por ejemplo, puntúa con dureza a las personas candidatas júnior), ajusta el prompt.
Qué no hacer nunca
- Rechazar automáticamente con base únicamente en la puntuación de la IA.
- Mostrar la puntuación de la IA a la persona revisora primero. Que puntúe de forma independiente y luego comparen. El anclaje cognitivo es real.
- Usar calificación con IA en evaluaciones donde el enunciado permita una variación extrema, como tareas creativas abiertas. Ahí, la varianza echa por tierra el propósito.
El servicio de calificación de ClarityHire implementa este patrón de forma predeterminada para ensayos y entregas tipo take-home. La persona revisora ve la rúbrica, el trabajo de la candidatura y la salida de la IA en paralelo, y se le exige una anulación explícita para enviar la puntuación final.