Diseño de evaluaciones

Evaluaciones técnicas para data scientists que no son solo trivia SQL

ClarityHire Team(Editorial)2026-05-073 min read

Qué significa "data scientist" en tu empresa

Antes de diseñar la evaluación, nombra el rol con honestidad. La etiqueta cubre trabajos salvajemente diferentes:

DS analítica. SQL, dashboards, análisis de experimentos, comunicación con stakeholders.
DS ML. Entrenamiento de modelos, feature engineering, evaluación, a veces productionización.
DS de investigación. Modelado novedoso, rigor estadístico, trabajo de calidad publicable.

Un solo test no puede medir las tres. Decidir cuál es esta contratación es la primera decisión.

Formas de evaluación por sabor de rol

DS analítica

Dales un dataset desordenado (CSV, ~10MB, intencionalmente con duplicados, nulls y un mismatch de definición sutil en una columna). Pregunta tres cosas de negocio de ambigüedad creciente:

Concreto: "¿Cuál es la tasa de retención a 7 días?"
Ligeramente ambiguo: "¿Ha cambiado la retención desde que se lanzó la feature X?"
Abierto: "¿Qué en estos datos debería saber el equipo de producto?"

Puntúa: corrección SQL/Python en Q1, razonamiento estadístico en Q2, juicio y comunicación en Q3.

DS ML

Dataset tabular con un target. 90 minutos. Entorno notebook.

Puntúa: elecciones de feature engineering, metodología de evaluación de modelos (no la métrica final — cómo evaluaron), conciencia de leakage y overfitting, comunicación de trade-offs en un writeup corto.

La métrica no importa. Una candidata que saca 0.82 AUC con cross-validation limpia gana a una que saca 0.91 filtrando el target a través de una feature.

DS de investigación

Una revisión de paper corto o propuesta técnica. O una crítica metodológica de un análisis defectuoso. Testea rigor y habilidad de lectura, ambas más importantes que el coding para este sabor.

Calificar sin sesgo

Anonimiza. Siempre. Nombres, escuelas, empleadores previos — quítalos antes de la revisión.

Usa calificación anclada en rúbrica. El servicio de calificación de ClarityHire hace primer pase con rúbrica usando un LLM, anonimizado; los revisores ven el score IA más el trabajo y sobreescriben con razón. Para envíos DS específicamente, esto saca a la luz cosas como cross-validation faltante o splits train/test impropios que el revisor puede verificar rápido.

Qué nunca hacer

Preguntas de SQL en pizarra. El medio cambia la habilidad — muchas analistas geniales no pueden escribir joins de memoria pero los escriben fluidos contra una BD real.
"Implementa gradient descent desde cero". Testea memorización de un ejercicio de pregrado, no skill laboral.
Take-homes de más de 3 horas para etapa de cribado. Estás pagando con ancho de pipeline.

Empareja con una entrevista

Cualquiera sea la evaluación, sigue con una discusión de 45 minutos sobre el envío. El walkthrough atrapa casi todos los problemas de integridad que la evaluación sola se pierde, y la rúbrica para la discusión (probando profundidad en sus elecciones) es directa.

data scienceevaluación técnicasqlentrevista ml

Evaluaciones técnicas para data scientists que no son solo trivia SQL

Qué significa "data scientist" en tu empresa

Formas de evaluación por sabor de rol

DS analítica

DS ML

DS de investigación

Calificar sin sesgo

Qué nunca hacer

Empareja con una entrevista

Artículos relacionados

Entrevista estructurada vs prueba de muestra de trabajo: ¿cuál predice mejor el desempeño?

Validez y justicia en tests de ciberseguridad: construir evaluaciones que funcionan y escalan

Preguntas de ejemplo para test de inteligencia emocional: escenarios puntuados explicados