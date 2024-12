Secondo questa ricerca i migliori modelli di intelligenza artificiale dimostrano disturbi cognitivi simili ai sintomi precoci della demenza quando valutati con il test MoCA. Questi risultati sottolineano i limiti dell’intelligenza artificiale nelle applicazioni cliniche, in particolare nei compiti che richiedono capacità visive ed esecutive

Secondo uno studio pubblicato da BMJ (1), quasi tutti i principali modelli linguistici di grandi dimensioni, o “chatbot”, mostrano segni di lieve deterioramento cognitivo quando testati utilizzando valutazioni comunemente impiegate per rilevare la demenza precoce.

Lo studio ha anche scoperto che le versioni precedenti di questi chatbot, proprio come i pazienti umani che invecchiano, hanno ottenuto risultati peggiori nei test. Gli autori suggeriscono che questi risultati “sfidano l’ipotesi secondo cui l’intelligenza artificiale presto sostituirà i medici umani”.

Progressi e speculazioni sull'intelligenza artificiale

I recenti progressi nel campo dell’intelligenza artificiale hanno suscitato entusiasmo e preoccupazione sulla possibilità che i chatbot possano superare i medici umani nelle attività mediche.

Mentre ricerche precedenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) eccellono in vari compiti diagnostici medici, la loro potenziale vulnerabilità ai disturbi cognitivi di tipo umano, come il declino cognitivo, è rimasta in gran parte inesplorata, fino ad ora.

Valutazione delle capacità cognitive dell'intelligenza artificiale

Per colmare questa lacuna di conoscenza, i ricercatori hanno valutato le capacità cognitive dei principali LLM disponibili al pubblico: ChatGPT versioni 4 e 4o (sviluppato da OpenAI), Claude 3.5 “Sonnet” (sviluppato da Anthropic) e Gemini versioni 1 e 1.5 (sviluppato da Alphabet) – utilizzando il test Montreal Cognitive Assessment (MoCA).

Il test MoCA è ampiamente utilizzato per rilevare il deterioramento cognitivo e i primi segni di demenza, solitamente negli anziani. Attraverso una serie di brevi compiti e domande, valuta le abilità tra cui attenzione, memoria, linguaggio, abilità visuospaziali e funzioni esecutive. Il punteggio massimo è di 30 punti, con un punteggio pari o superiore a 26 generalmente considerato normale.

Prestazioni dell'intelligenza artificiale nei test cognitivi

Le istruzioni fornite ai LLM per ciascun compito erano le stesse fornite ai pazienti umani. Il punteggio ha seguito le linee guida ufficiali ed è stato valutato da un neurologo praticante.

ChatGPT 4o ha ottenuto il punteggio più alto nel test MoCA (26 su 30), seguito da ChatGPT 4 e Claude (25 su 30), con Gemini 1.0 che ha ottenuto il punteggio più basso (16 su 30).

Sfide nelle funzioni visive ed esecutive

Tutti i chatbot hanno mostrato scarse prestazioni nelle abilità visuospaziali e nei compiti esecutivi, come il compito di creare tracce (collegare numeri e lettere cerchiati in ordine crescente) e il test di disegno dell’orologio (disegnare un quadrante di orologio che mostra un’ora specifica). I modelli Gemini hanno fallito nel compito di richiamo ritardato (ricordare una sequenza di cinque parole).

La maggior parte degli altri compiti, tra cui denominazione, attenzione, linguaggio e astrazione, sono stati eseguiti bene da tutti i chatbot.

Tuttavia, in ulteriori test visuospaziali, i chatbot non sono stati in grado di mostrare empatia o interpretare accuratamente scene visive complesse. Solo ChatGPT 4o è riuscito nella fase incongruente del test Stroop, che utilizza combinazioni di nomi di colori e colori di carattere per misurare come l'interferenza influisce sul tempo di reazione.

Implicazioni per l'intelligenza artificiale in contesti clinici

Questi sono risultati osservativi e gli autori riconoscono le differenze essenziali tra il cervello umano e i grandi modelli linguistici.

Tuttavia, sottolineano che il fallimento uniforme di tutti i grandi modelli linguistici nei compiti che richiedono l’astrazione visiva e la funzione esecutiva evidenzia una significativa area di debolezza che potrebbe impedirne l’uso in contesti clinici.

Pertanto, concludono: “Non solo è improbabile che i neurologi vengano sostituiti presto da grandi modelli linguistici, ma i nostri risultati suggeriscono che potrebbero presto trovarsi a trattare nuovi pazienti virtuali – modelli di intelligenza artificiale che presentano deterioramento cognitivo”.

Riferimenti:

(1) Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis

Descrizione foto: Uno studio pubblicato sul BMJ rivela che i principali modelli linguistici di grandi dimensioni mostrano segni di lieve deterioramento cognitivo quando sottoposti a test tipicamente utilizzati per il rilevamento precoce della demenza. - Credit: SciTechDaily.com.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Digital Dementia? AI Shows Surprising Signs of Cognitive Decline