I Large Language Model sono capaci di valutare i compiti scritti degli studenti?

uno studio pilota in Università

Daniele Agostini Università di Trento

DOI: https://doi.org/10.6093/2284-0184/10671

Parole chiave: Large Language Models (LLMs), valutazione assistita dall'ia, tecnologie per la valutazione, intelligenza artificiale per l’educazione, rubriche di valutazione, istruzione superiore, valutazione degli studenti, compiti autentici, valutazione accademica, tecnologie educative

Abstract

La rapida adozione di modelli linguistici di grandi dimensioni (LLM) come ChatGPT nell'istruzione superiore solleva domande critiche sulle loro capacità valutative. Questo studio pilota esplora la capacità degli LLM attuali nel supportare i docenti universitari nella valutazione dei lavori scritti degli studenti, utilizzando rubriche, anche per compiti aperti. Cinque prominenti LLM (ChatGPT-3.5, ChatGPT-4, Claude 2, Bing Chat, Bard) più un outsider (OpenChat 3.5) hanno valutato 21 progetti di gruppo anonimi di un corso di specializzazione nell’insegnamento utilizzando una rubrica a 5 criteri. I loro punteggi sono stati confrontati con due valutatori umani esperti attraverso analisi statistiche. I risultati hanno rilevato che Claude 2 e ChatGPT-4 hanno raggiunto la più alta concordanza complessiva con i valutatori umani, sebbene il modello open-source OpenChat 3.5 abbia avuto buone prestazioni, al di sopra della sua categoria. La concordanza è variata a seconda dei criteri di valutazione; l'assegnazione dei punteggi da parte degli LLM si è allineata più strettamente su obiettivi di base, divergendo su compiti complessi come i metodi di valutazione e la progettazione dell’intervento didattico. Gli LLM attuali mostrano potenzialità nel supportare la valutazione del docente ma mancano di capacità di assegnazione autonoma dei punteggi, specialmente per criteri sofisticati della rubrica. Ulteriori ricerche dovrebbero affinare le tecniche di prompting e specializzare i modelli, avvicinandosi a una valutazione assistita piuttosto che autonoma da parte dell’AI. Le principali limitazioni di questo studio sono le modeste dimensioni del campione e l’unica disciplina esplorata. Questo studio fornisce prove iniziali delle possibilità e delle sfide che presenta il supporto alla valutazione da parte degli LLM nell'istruzione superiore.

Downloads

Download data is not yet available.

Pubblicato

2024-01-16

Fascicolo

V. 11 (2024): RTH - Education & Philosophy

Sezione

Bio-Education & Cognition

This work is licensed under a Creative Commons Attribution 4.0 International License.

Gli autori che pubblicano su questa rivista accettano le seguenti condizioni:

Gli autori mantengono i diritti sulla loro opera e cedono alla rivista il diritto di prima pubblicazione dell'opera, contemporaneamente licenziata sotto una Licenza Creative Commons - Attribuzione che permette ad altri di condividere l'opera indicando la paternità intellettuale e la prima pubblicazione su questa rivista.

Gli autori possono aderire ad altri accordi di licenza non esclusiva per la distribuzione della versione dell'opera pubblicata (es. depositarla in un archivio istituzionale o pubblicarla in una monografia), a patto di indicare che la prima pubblicazione è avvenuta su questa rivista.

Gli autori possono diffondere la loro opera online (es. in repository istituzionali o nel loro sito web) prima e durante il processo di submission, poiché può portare a scambi produttivi e aumentare le citazioni dell'opera pubblicata (Vedi The Effect of Open Access).