I test di codice servono ancora se le candidate hanno assistenti IA?
La domanda che si fa ogni hiring lead
Se una candidata può incollare qualunque domanda standard di un test di codice in un LLM e ottenere una risposta quasi perfetta, cosa misura davvero la prova? Per i test algoritmici in stile LeetCode, la risposta onesta è: non molto.
Ma questo non significa che i test di codice siano morti. Significa che un certo stile di test di codice è morto. Gli stili che sopravvivono — e diventano più preziosi, non meno — sono diversi.
Cosa funziona ancora
1. Debug in diretta su codice sconosciuto
Alla candidata viene data una piccola codebase rotta e le si chiede di trovare e sistemare il bug. Gli LLM aiutano meno di quanto si pensi perché il bug sta nell'interazione tra file specifici e la candidata deve leggere il codice, non generarlo. Gli strumenti accelerano i bravi engineer e non compensano quelli deboli.
2. Take-home con sessione di discussione
Una take-home da 90 minuti produce un artefatto. Una discussione da 30 minuti verifica che la candidata sappia ragionarci. Insieme restano ad alto segnale anche se l'IA ha aiutato sull'artefatto — perché la discussione testa il giudizio sul lavoro, e l'IA non può trasferirlo alla candidata.
È lo schema dominante nei team che si sono adattati bene: non combattere l'IA sull'artefatto, testarla sulla spiegazione.
3. Progettazione di sistemi
Gli LLM rispondono alle domande di system design nella forma di una risposta ma mancano sistematicamente l'articolazione dei trade-off, il ragionamento sui modi di guasto e la consapevolezza dei costi che portano gli engineer esperti. Un round di system design ancorato a una rubrica con interventi attivi della persona intervistatrice resta ad alto segnale.
4. Pair programming su un'attività reale
Lavoro collaborativo in tempo reale. Si valutano comunicazione, integrazione del feedback e giudizio. L'assistenza IA in diretta è ok — il segnale è cosa ne fa la candidata.
Cosa ha smesso di funzionare
1. Domande algoritmiche tipo LeetCode
Se la domanda si risolve incollandola in ChatGPT, stai filtrando in base a chi ha accesso a ChatGPT. Vanno in pensione.
2. Take-home senza discussione
La pura valutazione dell'artefatto è irrecuperabile. O aggiungi una discussione, oppure smetti di usare take-home per decisioni rilevanti.
3. Trivia in MCQ
«Qual è la complessità temporale di X» risposta isolatamente. Facile da cercare, facile da IA, non misura il giudizio. Usala solo come filtro di pre-screening per lacune chiare di fondamenti, non come segnale decisionale.
Cosa aggiungere
Segnali di integrità basati sulla traccia di processo
Per le take-home, cattura i pattern di battitura e di iterazione delle modifiche. ClarityHire lo fa di default. Non classifica come buono o cattivo — fa emergere pattern incoerenti con codice scritto a mano in modo che la revisora possa indagare nella discussione.
Difesa orale
Rendi la difendibilità parte di ogni valutazione. La candidata che sa usare bene gli strumenti IA e spiegare il proprio lavoro è quella che vuoi. Chi ha incollato senza capire fallisce la difesa orale a prescindere da come appare l'artefatto.
Problemi realistici
Allontanati dai rompicapo e avvicinati a problemi che assomiglino al lavoro. I problemi reali hanno ambiguità, contesto, trade-off. Gli assistenti IA sono più utili sui problemi ben specificati e meno su quelli ambigui — esattamente l'asimmetria che ti serve.
La cornice più ampia
I test di codice non sono mai stati pensati per misurare «sai scrivere codice senza aiuto». Erano pensati per prevedere la performance lavorativa. Nel 2026, la performance lavorativa include l'uso efficace degli assistenti IA. Una prova che finge che quegli assistenti non esistano misura la cosa sbagliata.
La prova giusta nel 2026 misura: sai produrre lavoro, sai spiegare il tuo lavoro, sai riconoscere quando l'IA sbaglia, sai gestire l'ambiguità. La prima è in parte automatizzabile. Le altre tre no.
Tieni le prove. Riprogettale. Il segnale c'è ancora — è in posti diversi.