I Large Language Model sono capaci di valutare i compiti scritti degli studenti?

uno studio pilota in Università

  • Daniele Agostini Università di Trento
Parole chiave: Large Language Models (LLMs), valutazione assistita dall'ia, tecnologie per la valutazione, intelligenza artificiale per l’educazione, rubriche di valutazione, istruzione superiore, valutazione degli studenti, compiti autentici, valutazione accademica, tecnologie educative

Abstract

La rapida adozione di modelli linguistici di grandi dimensioni (LLM) come ChatGPT nell'istruzione superiore solleva domande critiche sulle loro capacità valutative. Questo studio pilota esplora la capacità degli LLM attuali nel supportare i docenti universitari nella valutazione dei lavori scritti degli studenti, utilizzando rubriche, anche per compiti aperti. Cinque prominenti LLM (ChatGPT-3.5, ChatGPT-4, Claude 2, Bing Chat, Bard) più un outsider (OpenChat 3.5) hanno valutato 21 progetti di gruppo anonimi di un corso di specializzazione nell’insegnamento utilizzando una rubrica a 5 criteri. I loro punteggi sono stati confrontati con due valutatori umani esperti attraverso analisi statistiche. I risultati hanno rilevato che Claude 2 e ChatGPT-4 hanno raggiunto la più alta concordanza complessiva con i valutatori umani, sebbene il modello open-source OpenChat 3.5 abbia avuto buone prestazioni, al di sopra della sua categoria. La concordanza è variata a seconda dei criteri di valutazione; l'assegnazione dei punteggi da parte degli LLM si è allineata più strettamente su obiettivi di base, divergendo su compiti complessi come i metodi di valutazione e la progettazione dell’intervento didattico. Gli LLM attuali mostrano potenzialità nel supportare la valutazione del docente ma mancano di capacità di assegnazione autonoma dei punteggi, specialmente per criteri sofisticati della rubrica. Ulteriori ricerche dovrebbero affinare le tecniche di prompting e specializzare i modelli, avvicinandosi a una valutazione assistita piuttosto che autonoma da parte dell’AI. Le principali limitazioni di questo studio sono le modeste dimensioni del campione e l’unica disciplina esplorata. Questo studio fornisce prove iniziali delle possibilità e delle sfide che presenta il supporto alla valutazione da parte degli LLM nell'istruzione superiore.

Downloads

Download data is not yet available.
Pubblicato
2024-01-16
Sezione
Bio-Education & Cognition