Valutazione con IA delle prove tipo saggio: dove aiuta e dove fa danni
Cosa valutano bene gli LLM
Gli LLM moderni sono sorprendentemente bravi in:
- Verifiche di copertura della rubrica. «La candidata ha risposto a tutte e cinque le domande?» Risposta banale.
- Qualità di superficie. Grammatica, struttura, lunghezza, evidenze citate — tutto valutabile in modo affidabile.
- Coerenza tra le consegne. A differenza di un revisore umano alla consegna n. 50, il metro dell'LLM alla consegna n. 500 è lo stesso della n. 1.
- Osservazioni di prima lettura. Mettere in luce punti di forza o debolezze notevoli che un revisore umano dovrà confermare.
Per questi compiti la valutazione con LLM riduce in modo affidabile i tempi di revisione del 60–80 %, senza perdita di equità se accoppiata a una supervisione umana.
Cosa valutano male gli LLM
- Profondità di dominio. Un LLM che legge un saggio di systems engineering senior non può stabilire con certezza se le scelte architetturali siano corrette. Produrrà sciocchezze che suonano sicure.
- Originalità e intuizione. Gli LLM sopravvalutano le risposte fluenti e generiche e sottovalutano quelle concise e penetranti.
- Tono e giudizio. «La candidata è troppo sicura di sé o adeguatamente decisa?» Gli umani lo colgono; gli LLM no.
- Qualunque elemento dal quale possa filtrare l'identità della candidata. Curriculum, nomi e affiliazioni universitarie distorcono in modo misurabile i giudizi degli LLM.
Lo schema che funziona
- IA come prima passata. L'LLM produce voti provvisori per ciascuna dimensione della rubrica e una lista di osservazioni. Anonimizza l'input prima.
- L'umano come decisore. Un revisore legge il lavoro della candidata, l'output dell'IA, e conferma o sovrascrive. È costretto a impegnarsi anziché timbrare a vuoto perché la rubrica contiene ancore che richiedono evidenze.
- Audit periodico. Ogni mese campiona una percentuale di casi sovrascritti dagli umani. Se l'LLM viene sovrascritto in modo sistematico in una direzione (per esempio, valuta con eccessiva durezza i profili junior), ritocca il prompt.
Cosa non fare mai
- Rifiuto automatico basato solo sul punteggio dell'IA.
- Mostrare il punteggio dell'IA al revisore umano per primo. Fagli dare un voto in autonomia e poi confrontate. L'effetto ancora è reale.
- Usare la valutazione con IA su prove il cui enunciato consente una variabilità estrema — compiti creativi aperti. Lì la varianza vanifica lo scopo.
Il servizio di valutazione di ClarityHire implementa questo schema per impostazione predefinita per saggi e consegne in modalità take-home. Il revisore vede la rubrica, il lavoro della candidata e l'output dell'IA affiancati, e per inviare il voto finale è obbligatorio sovrascrivere esplicitamente.