Le profonde reti neurali dell'intelligenza artificiale

Gli scienziati hanno scoperto che un'architettura ricorrente aiuta sia l'intelligenza artificiale che il nostro cervello a riconoscere meglio gli oggetti

Il laboratorio DiCarlo rileva che un'architettura ricorrente aiuta sia l'intelligenza artificiale che il nostro cervello a identificare meglio gli oggetti.

La capacità di ogni persona nel riconoscere oggetti è notevole. Se si vede una tazza sotto un'illuminazione insolita o da direzioni inaspettate, ci sono buone probabilità che il proprio cervello continui a calcolare che si tratta di una tazza. Tale riconoscimento preciso dell'oggetto è un 'santo graal' per gli sviluppatori di intelligenza artificiale, come gli scienziati che si occupano di migliorare la navigazione delle auto con guida autonoma.

Anche se la modellazione del riconoscimento degli oggetti principali nella corteccia visiva ha rivoluzionato i sistemi di riconoscimento visivo artificiale, gli attuali sistemi di apprendimento profondo sono semplificati e non riescono a distinguere alcuni oggetti la cui identificazione risulta essere molto intuitiva sia per i primati che per gli umani.

Nelle scoperte pubblicate su Nature Neuroscience, l'investigatore dell'Istituto McGovern James DiCarlo (1), assieme ai suoi colleghi, ha identificato prove che il feedback migliora il riconoscimento di oggetti difficili da riconoscere nel cervello dei primati e che l'aggiunta di circuiti di feedback migliora anche le prestazioni dei sistemi di reti neurali artificiali utilizzati per la visione di applicazioni.

Le reti neurali convoluzionali (2) profonde (DCNN) sono attualmente i modelli di maggior successo per il riconoscimento accurato di oggetti in tempi rapidi (meno di 100 millisecondi) e hanno un'architettura generale ispirata al flusso visivo delle regioni corticali che progressivamente costruiscono una rappresentazione accessibile e raffinata di oggetti visualizzati. La maggior parte dei DCNN sono tuttavia semplici rispetto al flusso del primate.

“Per un lungo periodo eravamo lontani da una comprensione basata su modelli. Così il nostro programma è iniziato in questa ricerca modellando il riconoscimento visivo come un processo feedforward”, spiega l'autore senior James DiCarlo, che è anche a capo del Dipartimento “Cervello e Scienze cognitive” del MIT (MIT Department of Brain and Cognitive Sciences) (3) e co-leader di ricerca nel Centro per Cervelli, Menti e Macchine (CBMM) (The Center for Brains, Minds & Machines). (4) “Tuttavia, sappiamo che ci sono connessioni anatomiche ricorrenti nelle regioni del cervello legate al riconoscimento degli oggetti”.

Pensa ai DCNN feedforward e alla porzione del sistema visivo che tenta per la prima volta di catturare oggetti, come una linea della metropolitana che scorre avanti attraverso una serie di stazioni. Le reti cerebrali supplementari e ricorrenti sono invece come le strade poste in superficie, interconnesse e non unidirezionali. Poiché ci vogliono solo 200 millisecondi perché il cervello riconosca un oggetto in modo abbastanza preciso, non è chiaro se queste interconnessioni ricorrenti nel cervello abbiano avuto alcun ruolo nel riconoscimento degli oggetti di base. Forse quelle connessioni ricorrenti sono disponibili solo per mantenere il sistema visivo in sintonia per lunghi periodi di tempo. Ad esempio, le grondaie delle strade aiutano a liberare lentamente l'acqua e la spazzatura, ma non sono strettamente necessarie per spostare rapidamente le persone da una parte all'altra della città. DiCarlo, insieme all'autore principale e al postdoc CBMM Kohitij Kar, (5) si è proposto di verificare se un ruolo sottile delle operazioni ricorrenti nel riconoscimento rapido degli oggetti visivi fosse trascurato.

Riconoscimento stimolante

Gli autori hanno, per prima cosa, dovuto identificare oggetti che sono stati decifrati banalmente dal cervello dei primati, ma risultano impegnativi per i sistemi artificiali. Piuttosto che cercare di indovinare perché l'apprendimento approfondito stava avendo problemi nel riconoscere un oggetto (è dovuto al disordine nell'immagine? Un'ombra fuorviante?), Gli autori hanno adottato un approccio imparziale che si è rivelato critico.

Gli autori hanno presentato il sistema di apprendimento profondo. Essi hanno sottoposto la visioni di particolari immagini sia alle scimmie che agli esseri umani. Si è accertato che i primati potevano facilmente riconoscere gli oggetti contenuti nelle immagini, ma un DCNN feedforward ha incontrato problemi. Nel momento in cui hanno aggiunto un'elaborazione periodica appropriata a questi DCNNs, il riconoscimento degli oggetti nelle immagini di prova per gli umani si è improvvisamente semplificato.

Tempi di lavorazione

Il dottor Kohitij Kar ha utilizzato metodi di registrazione neurale, con precisione spaziale e temporale molto elevata, per determinare se queste immagini fossero davvero così banali per i primati. Sorprendentemente, si è scoperto che sebbene le particolari immagini inizialmente risultano essere facilmente interpretabili per il cervello umano, in realtà comportano un tempo di elaborazione neurale extra (circa altri 30 millisecondi). Questo meccanismo suggerisce che nel nostro cervello si innescano anche cicli ricorrenti.

La dottoressa Diane M. Beck, (6) professore di psicologia e co-presidente nell'ambito dei sistemi intelligenti presso il Beckman Institute (ella non è una autrice dello studio), spiega ulteriormente: “Poiché le reti convoluzionali profondamente feedforward sono attualmente ottimali nel predire l'attività cerebrale dei primati: sollevano interrogativi sul ruolo delle connessioni di feedback nel cervello dei primati. Questo studio mostra che le connessioni di feedback hanno probabilmente un importante ruolo nel riconoscimento degli oggetti.”

Cosa significa questo per un'auto a guida autonoma? Dimostra che le architetture di apprendimento profondo, coinvolte nel riconoscimento degli oggetti, necessitano di componenti ricorrenti se devono corrispondere al cervello dei primati e indicano anche come rendere operativa questa procedura per la prossima generazione di macchine intelligenti.

Il dottor Kohitij Kar spiega: “I modelli ricorrenti offrono previsioni sull'attività neurale e sul comportamento nel tempo, Ora potremmo essere in grado di modellare attività più coinvolte. Forse un giorno i sistemi non solo riconosceranno un oggetto, come una persona, ma eseguiranno anche compiti cognitivi che il cervello umano gestisce così facilmente, come la comprensione delle emozioni di altre persone.”

Questo lavoro è stato sostenuto dall'Office of Naval Research e dal Center for Brains, Minds and Machines attraverso la National Science Foundation.

Riferimenti:

(1) James DiCarlo

(2) Rete neurale convoluzionale

(3) MIT Department of Brain and Cognitive Sciences

(4) The Center for Brains, Minds & Machines

(5) Kohitij Kar

(6) Diane M. Beck

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: For better deep neural network vision, just add feedback (loops)