“L’uomo è come un albero.

Se ti metti di fronte a un albero e lo guardi incessantemente per vedere se cresce e

di quanto sia cresciuto, non vedrai nulla.

Ma curalo in ogni momento, liberalo dal superfluo e tienilo pulito…

ed esso, a tempo debito, comincerà a crescere.

Lo stesso vale anche per l’uomo: l’unica cosa che gli serve è superare lacci e

impedimenti, e non mancherà di svilupparsi e crescere.

Ma è sbagliato esaminarlo in continuazione per scoprire quanto sia cresciuto.”

(M. Buber, Racconti chassidici. I dieci gradini della saggezza. Ed. Red, Como 1997, p.63)

Una riflessione sulla valutazione degli studenti si impone oggi per contribuire a una comprensione approfondita opportuna in una stagione di turbolenze. Pur riconoscendo la rilevanza dei problemi di trasparenza e di leggibilità delle forme in cui si esprimono le valutazioni degli studenti, aspetti indispensabili ma non sufficienti, è necessario un ritorno non tanto alle formule del passato, quanto ai fondamentali per la qualità del processo valutativo di cui la validità e l’attendibilità sono categorie fondamentali. Di fronte all’acceso dibattito e alle proposte alternative in campo alcuni riferimenti di base possono essere ancore di salvezza per un ragionevole approccio nella ricerca continua di miglioramento. Senza dimenticare il suggerimento di Martin Buber in esergo.

Rivisitare una questione che non tramonta

Molti temi educativi dominano per anni, animano il dibattito e ispirano interventi di riforma. Altri hanno vita meno lunga e si esauriscono dopo un breve periodo, altri ancora seguono l’andamento dei cicli di vita delle innovazioni tecnologiche[1]. La configurazione dei cambiamenti è varia. In alcuni casi si lanciano sfide solo parzialmente raccolte, in altri si realizzano nicchie di scuole o di insegnanti, in altri ancora si alimentano prospettive visionarie. Non sempre le ipotesi promettenti si trasformano in scelte operative capaci di incidere a livello generale.

Nel caso della valutazione, dal mettere i voti al ricorso a test standardizzati di massa, il paesaggio è diverso: la questione ritorna a conferma di una instabilità delle soluzioni di volta in volta adottate[2]. Fanno eccezione alcune costanti, come l’esame di Stato nel nostro Paese, l’Abitur in Germania o il Baccaleauréat in Francia, mentre l’espansione delle prove standardizzate di massa ha messo radici nonostante la valanga di critiche sollevate. Anche il sistema, peraltro, degli A levels, con una storia di 40 anni nel Regno Unito, è messo in discussione dall’attuale governo inglese[3].

Non mancano ragioni per questa volubilità. Le promesse delle prove standardizzate per ponderare la qualità dei sistemi scolastici non sono state del tutto mantenute. Dopo più di venti anni di Indagini PISA abbiamo strumenti per confronti tra paesi. Ridotte sono, tuttavia, le evidenze di significativi miglioramenti nelle performance degli studenti. Si legge sulle pagine dell’OECD: “Trend analysis of PISA results reveals a decades-long decline that began well before the pandemic”[4]. In molti sistemi scolastici prevalgono modelli di stagnazione dei livelli di performance con oscillazioni nel tempo di peso limitato. Le attese di sistemi di valutazione come strumenti di miglioramento della qualità sono state così ridimensionate[5].

In un’epoca in cui si è particolarmente sensibili nella scelta delle alternative in ragione delle probabilità di successo corroborate da evidenze scientifiche, la carenza di ricerca sull’impatto delle diverse formule di valutazione degli studenti indebolisce le opzioni in campo. L’elaborazione spesso si concentra sulle formule e sulle opzioni formali non potendo mettere in campo le risultanze di indagini. Tendono così a prevalere opinioni diffuse, al più orientate verso le soluzioni che appaiono più promettenti.[6] È quasi inevitabile la loro volubilità negli anni e ineliminabili diventano le controversie tra le fazioni in campo nell’arena di policy.

Il ritorno alle modalità di valutazione di ieri, oltre alla sfumatura nostalgica, conferma che il cambiamento non è unidirezionale. Riflette l’esperienza degli adulti, denuncia le inadeguatezze delle formule più recenti e fa leva su un’opinione approssimativa sui processi coinvolti nel valutare gli studenti.

Riscoprire i fondamentali al di là delle controversie

Un’ondata di dibattiti, di confronti e di controversie si è recentemente riaperta sulla valutazione a scuola con la contrapposizione tra i sostenitori di soluzioni diverse. In questo ambito, particolare rilievo hanno avuto i problemi di leggibilità, di trasparenza, di chiarezza e di comprensione, esigenze indiscutibili ma non sufficienti. Poco rilievo è stato dato ai criteri di validità e di affidabilità delle valutazioni, due parametri fondamentali per la qualità dei processi di accertamento.

L’area della valutazione scolastica, il tradizionale mettere i voti o formulare giudizi è un settore del tutto particolare: sopravvivono prassi della tradizione superate e riscoperte in una successione di ondate in contrasto tra di loro. L’irruzione delle valutazioni standardizzate ha arricchito, o affollato, l’intera area senza alcuna sostituzione ma con un equilibrio raggiunto nel tempo. Il rispolvero del passato, inoltre, appare come una via percorribile, mentre si rintracciano le vie alternative della “scuola senza i voti” nei decenni trascorsi come negli anni più recenti[7]. Anche il testing vede contrapporsi posizioni opposte tra chi ne denuncia i limiti se non i danni e chi ritiene ancora timido l’approccio. Nel 2018, ad esempio, per migliorare il capitale umano la World Bank considera necessaria un’espansione della valutazione degli studenti concludendo che “there is too little measurement of learning, not too much” (p. 17).[8]

La valutazione è generale nelle scuole: ai due estremi di un continuum dagli interventi degli insegnanti alle prove standardizzate di massa. Le prime servono da orientamento per chi insegna e forniscono un feedback agli studenti e ai loro genitori, ma le informazioni che ne derivano sono difficili da comparare tra docenti, tra classi parallele o tra scuole. Senza dubbio sono parte del rapporto con gli studenti in apprendimento. Se non c’è una standardizzazione, tuttavia, non è possibile monitorare la performance della scuola.

Affrontare un contesto in divenire

Il contesto è oggi molto diverso dal passato: soprattutto la diffusione e l’istituzionalizzazione delle prove standardizzate, la successione di periodiche somministrazioni di test e prove di competenze hanno modificato in profondità lo scenario producendo nuove informazioni, influenzando direttamente e indirettamente il lavoro degli insegnanti e affollando il settore con il rischio di accrescerne la frammentazione. Ricorrono discussioni sulla pubblicità delle votazioni personali e sull’utilizzo dei risultati individuali del testing a fronte di una situazione senza precedenti in termini di base dati valutativi, nuovo terreno aperto al learning analitics, ma anche emergente sfida alla discrezionalità professionale del docente.

Alle procedure “carta e penna” consegnateci dalla tradizione si sono affiancate altre metodologie: maggior frequenza di soluzione con supporto tecnologico, possibilità inedite di focalizzazione sul singolo studente e sul suo percorso scolastico, enfasi su nuovi paradigmi (growth models, whole child approach …).

Ragionare sulla valutazione non può esaurirsi sulla proponibilità o sul consenso rispetto ai modelli di formalizzazione. Occorre riprendere in mano le questioni di fondo. I problemi di validità e di affidabilità[9] sono comuni, seppur in forme diverse, ai docenti alle prese con le verifiche e ai tecnici delle prove standardizzate[10]. La variabilità di valutazioni tra classi, tra le discipline e tra le scuole è un’esperienza comune, come la geo-referenzialità degli esiti degli esami[11]. Il netto contrasto tra valutazioni interne e analisi esterne di performance[12] e i comportamenti non omogenei dei valutatori[13] rimangono criticità irrisolte. Nodi che la trasparenza formale o la leggibilità linguistica dei giudizi valutativi non risolvono se non parzialmente.

Alla radice, i criteri di validità e di attendibilità rimangono fondamentali pur nella varietà di contesti e di tendenze in corso[14]. Sono categorie che rimangono costanti nel tempo attraversando stagioni successive. Come sono di riferimento nella costruzione di testi di apprendimento, così possono essere utilizzate per esaminare e discutere della qualità delle valutazioni scolastiche interne o per ponderare la qualità degli accertamenti in sede di esame di Stato.

Migliorare la validità

La validità è un tratto fondamentale della qualità. Quando una valutazione, a prescindere dalla sua formulazione o dal veicolo linguistico utilizzato, si rivela valida? Ci sono alcuni pilastri della validità che può essere interessante esaminare con cura. Il fatto che sia un termine ricorrente, non significa che sia immediatamente chiaro e che non richieda precisazioni.

Una prima comune accezione identifica la validità con la conformità alle norme: un punteggio d’esame viene considerato valido se la procedura è quella che le regolazioni prescrivono. L’enfasi sulla regolarità delle procedure salvaguarda la discrezionalità tecnica del docente ma non esaurisce la questione. Pur all’origine di contenziosi e azioni di contrasto questa accezione è del tutto parziale, pur se rilevante.

Secondo una nozione più pertinente ai compiti educativi il concetto di validità si riferisce, su un piano generale, alla corrispondenza tra ciò che si valuta e ciò che si intende valutare. Così la verifica di competenze specifiche o proprie di un ambito disciplinare deve fornire informazioni appropriate per lo scopo che ci si prefigge. Se devo valutare le competenze in storia dell’arte non valuto le abilità nella pittura del candidato; così la conoscenza della letteratura non corrisponde alle capacità di scrittura poetica dello studente. Per quanto sembri ovvio, nel campo dell’educazione non tutto è misurabile e accertabile come può avvenire in altri campi e non sono infrequenti le distanze tra il modo in cui si procede, necessariamente concreto e operativo, e le finalità di apprendimento che si perseguono.

Le informazioni fornite con la valutazione, inoltre, devono essere appropriate agli scopi perseguiti ed essere utilizzate in questa prospettiva. L’obiettivo formativo non può che prevalere, mentre la classificazione o la compilazione di gerarchie appare non congruente, oltre che fonte di possibile discriminazione e di demotivazione. Questa esigenza di base deve essere soddisfatta sia dalla valutazione formativa che dalla valutazione sommativa, dalla valutazione autentica e dalle metodologie attive. Lo scopo della valutazione e la stessa concezione della scuola, hanno subito una storica trasformazione con il prevalere, alternativo a funzioni selettive, dell’obiettivo di portare il maggior numero possibile di studenti a raggiungere i traguardi attesi. Le attese della società e della sua economia non sono per quote di personale esperto, quanto piuttosto di livelli generali di competenze elevate.

Gli esperti parlano di “construct validity” in quanto “volta a riconoscere se i traguardi formativi messi a fuoco dalla valutazione siano quelli cruciali”. Esternamente valida è una valutazione che può essere generalizzata ad altri contesti. La validità decisionale riguarda, invece, “l’utilità delle informazioni raccolte in rapporto alla gestione del processo formativo” mentre la validità predittiva sottolinea la possibilità che le informazioni valutative anticipino i probabili risultati in rapporto a futuri traguardi formativi.[15]

Un approccio ragionevole alla validità parte, comunque, dalla premessa che non esiste una valutazione valida in sé bensì una valutazione valida rispetto allo scopo che ci si prefigge.

Curare l’attendibilità

Riferita alla “costanza della valutazione indipendentemente dalle condizioni contestuali”[16] è l’affidabilità di un accertamento: una procedura da cui derivano risultati consistenti nel tempo a parità di situazioni ambientali e a prescindere dal soggetto che l’adotta. Il criterio tende a ridurre l’impatto di variabili soggettive relative al valutare o a fattori contestuali. L’attendibilità è la condizione perché siano proponibili delle comparazioni tra risultati, anche nel tempo.

In questa direzione le difficoltà sono numerose e particolarmente rilevanti: riguardano sia il ricorso a prove strutturate sia le valutazioni degli insegnanti relative agli studenti. Mentre nel caso del testing le procedure sono generalmente accurate, per gli interventi degli insegnanti le difficoltà sono decisamente impegnative. La familiarità con i contenuti affrontati in un processo valutativo può variare sensibilmente da un insegnante a un altro, da un ambito disciplinare a un altro, rendendo approssimativo il confronto tra giudizi, o voti, espressi da valutatori diversi. L’articolazione della pratica valutativa, soprattutto la scelta degli indicatori e delle tecniche di osservazione e di sintesi, possono essere del tutto disomogenee con il risultato di una improponibile paragonabilità degli esiti. Questo è uno degli scogli più difficili da evitare nella valutazione scolastica.

Distorsioni, difficili da controllare o da regolare, derivano anche dal peso di variabili immateriali legate alla personalità degli insegnanti, ai loro orientamenti professionali, alle propensioni rispetto all’interazione con gli studenti. Non è senza impatto è la soggettività di quanto si vuole valutare, in parte contenibile con appropriate soluzioni. Le condizioni, inoltre, in cui gli studenti vengono valutati non sono sempre riproducibili e comparabili.

Occorre tener conto che un certo grado di inaffidabilità è difficilmente superabile, ma si può migliorare soprattutto in termini di convergenza tra i valutatori e di coerenza delle valutazioni nel tempo. I suggerimenti sono numerosi e derivano dalle pratiche migliori: esplicitare chiaramente gli obiettivi, condurre osservazioni sistematiche, descrivere il percorso seguito, confrontarsi con i colleghi, mettere a confronto risultati di metodi e tecniche diverse, curare la comunicazione. In un contesto frammentato tra valutazioni interne, testing standard esterni e prove per gli esami formali è, comunque, indispensabile non disperdere il valore aggiunto che rappresenta la valutazione da parte dell’insegnante.

Mantenere la rotta nelle turbolenze

Non c’è probabilmente tema più frequentato, dibattuto e controverso della valutazione degli studenti. Ha occupato anche recentemente la discussione, le decisioni e l’opinione pubblica. D’altra parte “valutare gli studenti” da sempre è parte integrante della scuola e del suo funzionamento, testimonianza di continuità e di sameness[17] ma anche di ricorrente travaglio. Stabilizzata come parte integrante della stessa grammatica della scuola interessa studenti, docenti, genitori, amministratori e policy makers le cui posizioni e strategie non sono necessariamente allineate. Dopo decenni di irruzione nel campo di organismi internazionali come l’OECD e l’IEA la valutazione delle performance degli studenti è diventata una questione globale. Si potrebbe dire che il valutare affonda le proprie radici antropologiche nella stessa società[18]. Per questa ragione il cambiamento è complesso non può che essere incrementale.

Le riflessioni e i suggerimenti proposti sono comuni tra chi lavora in classe e chi studia senza pregiudizi. Trattandosi di un campo aperto, senza perimetro rigido e impenetrabile, con alto valore simbolico e con forte esposizione ai venti delle turbolenze politiche, l’avere qualche riferimento di base è una garanzia per mantenere la rotta.

Schivare nodi sostanziali e concentrare l’attenzione su formule transeunti sono rischi da evitare per non inaridire la comprensione dei processi di apprendimento e le pratiche valutative. Il ritorno ai fondamentali non è resuscitare modi e forme di ieri, bensì andare alle radici di un agire in educazione quanto mai rilevante, spesso incompiuto per la sua intrinseca e ineliminabile complessità.

[1] Cfr. www.gartner.com.

[2] G. Benvenuto, Mettere i voti a scuola, Carocci Editore, Roma 2003.

[3] DfE, A world-class education system: The Advanced British Standard, Londra, 4 ottobre 2023.

[4] OECD Education GPS, 2024.

[5] Utilizzando i dati PISA relativi a 59 paesi per il periodo 2000-2015 alcuni ricercatori hanno recentemente analizzato l’impatto del testing sulla performance degli studenti nei vari paesi. Le conclusioni indicano che nei sistemi a performance bassa o media il ricorso a test standard è associato ad un miglioramento degli studenti mentre nei paesi ad elevata performance l’espansione del testing non è altrettanto benefico (A. B. Bergbauer, E. A. Hanushek e Woessmann, “Testing”, Journal of Human Resources, 59, 2 (2024): 349-388).

[6] Nell’analisi dei processi di innovazione nel campo dell’educazione si distinguono le ipotesi supportate da procedure metodologicamente robuste e campioni statisticamente rappresentativi, le ipotesi che si basano su singoli casi analizzati in modo corretto e sistematico ma senza una rappresentatività generale e le ipotesi che lanciano idee o metodi promettenti, che cioè appaiono plausibili tenendo conto di quanto si conosce sui processi di cambiamento ma senza una validazione empirica.

[7] Nella storia della scuola italiana si ricorda la celebre vicenda del maestro Alberto Manzi oggetto di misure disciplinari per non avere ‘messo i voti’ ai propri alunni. Si veda anche il recente movimento delle “scuola senza voti”.

[8] World Bank, World Development Report 2018: Learning to Realize Education’s Promise. World Bank, Washington 2018, p.17.

[9] Per una messa in discussione di questi due “concetti cardine del sapere docimologico” si veda M. Castoldi, Valutare e certificare le competenze, Carocci Editore, Roma 2016, pp. 266-270.

[10] Educational Testing Services, ETS Standards for Quality and Fairness, 2014 (ww.ets.org).

[11] Nel 2023 a fronte di una percentuale nazionale del 2,7% di studenti con il massimo dei voti con lode, alcune regioni registrano valori decisamente più elevati (5,6% per la Puglia e la Calabria, 4,7% per l’Umbria, 4,2% per il Molise e la Sicilia (https://www.miur.gov.it/-/scuola-disponibili-i-dati-sugli-esiti-degli-scrutini-e-degli-esami-di-stato-del-primo-e-del-secondo-ciclo-di-istruzione).

[12] MEF-MIUR, Quaderno bianco sulla scuola, Roma 2007.

[13] IPRASE, Scuola che vai voti che trovi, IPRASE, Trento 1993.

[14] Per le nuove tendenze cfr. D.T. Conley, The Promise and Practice of Next Generation Assessment, Harvard University Press, Cambridge (Mass.) 2018.

[15] M.Castoldi, op. cit. 2016, p.267ss.

[16] M. Castoldi, op. cit. 2016, p.267, p.267ss.

[17] Cfr. https://larrycuban.wordpress.com/2024/05/15/the-sameness-of-teaching/.

[18] Per un’analisi storica e antropologica dei processi di valutazione nella società cfr. F.A. Hanson, Testing Testing. Social Consequences of the Examined Life, University of California Press, London 1993.

Validità e attendibilità: due parametri di qualità della valutazione degli studenti

Rivisitare una questione che non tramonta

Riscoprire i fondamentali al di là delle controversie

Affrontare un contesto in divenire

Migliorare la validità

Curare l’attendibilità

Mantenere la rotta nelle turbolenze

À la une

Food for tought

Sullo scaffale

Strumenti

Policy analysis

Temi