Evaluaciones técnicas para data scientists que no son solo trivia SQL
Qué significa "data scientist" en tu empresa
Antes de diseñar la evaluación, nombra el rol con honestidad. La etiqueta cubre trabajos salvajemente diferentes:
- DS analítica. SQL, dashboards, análisis de experimentos, comunicación con stakeholders.
- DS ML. Entrenamiento de modelos, feature engineering, evaluación, a veces productionización.
- DS de investigación. Modelado novedoso, rigor estadístico, trabajo de calidad publicable.
Un solo test no puede medir las tres. Decidir cuál es esta contratación es la primera decisión.
Formas de evaluación por sabor de rol
DS analítica
Dales un dataset desordenado (CSV, ~10MB, intencionalmente con duplicados, nulls y un mismatch de definición sutil en una columna). Pregunta tres cosas de negocio de ambigüedad creciente:
- Concreto: "¿Cuál es la tasa de retención a 7 días?"
- Ligeramente ambiguo: "¿Ha cambiado la retención desde que se lanzó la feature X?"
- Abierto: "¿Qué en estos datos debería saber el equipo de producto?"
Puntúa: corrección SQL/Python en Q1, razonamiento estadístico en Q2, juicio y comunicación en Q3.
DS ML
Dataset tabular con un target. 90 minutos. Entorno notebook.
Puntúa: elecciones de feature engineering, metodología de evaluación de modelos (no la métrica final — cómo evaluaron), conciencia de leakage y overfitting, comunicación de trade-offs en un writeup corto.
La métrica no importa. Una candidata que saca 0.82 AUC con cross-validation limpia gana a una que saca 0.91 filtrando el target a través de una feature.
DS de investigación
Una revisión de paper corto o propuesta técnica. O una crítica metodológica de un análisis defectuoso. Testea rigor y habilidad de lectura, ambas más importantes que el coding para este sabor.
Calificar sin sesgo
Anonimiza. Siempre. Nombres, escuelas, empleadores previos — quítalos antes de la revisión.
Usa calificación anclada en rúbrica. El servicio de calificación de ClarityHire hace primer pase con rúbrica usando un LLM, anonimizado; los revisores ven el score IA más el trabajo y sobreescriben con razón. Para envíos DS específicamente, esto saca a la luz cosas como cross-validation faltante o splits train/test impropios que el revisor puede verificar rápido.
Qué nunca hacer
- Preguntas de SQL en pizarra. El medio cambia la habilidad — muchas analistas geniales no pueden escribir joins de memoria pero los escriben fluidos contra una BD real.
- "Implementa gradient descent desde cero". Testea memorización de un ejercicio de pregrado, no skill laboral.
- Take-homes de más de 3 horas para etapa de cribado. Estás pagando con ancho de pipeline.
Empareja con una entrevista
Cualquiera sea la evaluación, sigue con una discusión de 45 minutos sobre el envío. El walkthrough atrapa casi todos los problemas de integridad que la evaluación sola se pierde, y la rúbrica para la discusión (probando profundidad en sus elecciones) es directa.