Migliorata la visione periferica nei modelli di IA


 Migliorata la visione periferica nei modelli di IA

I ricercatori migliorano la visione periferica nei modelli di intelligenza artificiale consentendo ai modelli di avere una visione del mondo come gli esseri umani

La visione periferica consente agli esseri umani di vedere forme che non sono direttamente nel nostro campo visivo, anche se con meno dettagli. Questa capacità amplia il nostro campo visivo e può essere utile in molte situazioni, come rilevare un veicolo che si avvicina lateralmente alla nostra auto.

A differenza degli esseri umani, l’intelligenza artificiale non ha visione periferica. Dotare i modelli di visione artificiale di questa capacità potrebbe aiutarli a rilevare i pericoli in avvicinamento in modo più efficace o a prevedere se un conducente umano noterebbe un oggetto in arrivo.

Facendo un passo in questa direzione, i ricercatori del MIT hanno sviluppato un set di dati di immagini che consente loro di simulare la visione periferica nei modelli di apprendimento automatico. Hanno scoperto che l’addestramento dei modelli con questo set di dati ha migliorato la capacità dei modelli di rilevare oggetti nella periferia visiva, sebbene i modelli avessero comunque prestazioni peggiori rispetto agli esseri umani.

I risultati hanno anche rivelato che, a differenza degli esseri umani, né la dimensione degli oggetti né la quantità di confusione visiva in una scena hanno avuto un forte impatto sulle prestazioni dell’intelligenza artificiale.

«C’è qualcosa di fondamentale qui. Abbiamo testato tanti modelli diversi e, anche quando li addestriamo, migliorano leggermente ma non sono del tutto come gli umani. Quindi la domanda è: cosa manca in questi modelli?» dice la dottoressa Vasha DuTell (1), post dottorato e coautrice di un articolo che descrive dettagliatamente questo studio (2).

Rispondere a questa domanda potrebbe aiutare i ricercatori a costruire modelli di apprendimento automatico in grado di vedere il mondo più come fanno gli esseri umani. Oltre a migliorare la sicurezza del conducente, tali modelli potrebbero essere utilizzati per sviluppare display più facili da visualizzare per le persone.

Inoltre, una comprensione più approfondita della visione periferica nei modelli di intelligenza artificiale potrebbe aiutare i ricercatori a prevedere meglio il comportamento umano, aggiunge l’autrice principale Anne Harrington MEng ’23.

«Modellare la visione periferica, se riusciamo davvero a catturare l'essenza di ciò che è rappresentato nella periferia, può aiutarci a comprendere le caratteristiche di una scena visiva che fanno muovere i nostri occhi per raccogliere maggiori informazioni», spiega la ricercatrice.

I loro coautori includono Mark T. Hamilton (3), uno studente laureato in ingegneria elettrica e informatica; Ayush Tewari (4), un postdoc; Simon Stent, responsabile della ricerca presso il Toyota Research Institute; e gli autori senior William T. Freeman (5), professore di ingegneria elettrica e informatica Thomas e Gerd Perkins e membro del Laboratorio di informatica e intelligenza artificiale (CSAIL); e la dottoressa Ruth Rosenholtz (6), ricercatrice principale presso il Dipartimento di Scienze del cervello e cognitive e membro del CSAIL.

«Ogni volta che un essere umano interagisce con una macchina – un’auto, un robot, un’interfaccia utente – è estremamente importante capire cosa può vedere quella persona. La visione periferica gioca un ruolo fondamentale in questa comprensione», afferma la dottoressa Rosenholtz.

Simulazione della visione periferica

Estendi il braccio davanti a te e alza il pollice: la piccola area attorno all'unghia del pollice è vista dalla fovea, la piccola depressione al centro della retina che fornisce la visione più nitida. Tutto il resto che puoi vedere è nella tua periferia visiva. La tua corteccia visiva rappresenta una scena con meno dettagli e affidabilità mentre si allontana da quel punto di messa a fuoco nitido.

Molti approcci esistenti per modellare la visione periferica nell’intelligenza artificiale rappresentano questo deterioramento dei dettagli sfocando i bordi delle immagini, ma la perdita di informazioni che si verifica nel nervo ottico e nella corteccia visiva è molto più complessa.

Per un approccio più accurato, i ricercatori del MIT hanno iniziato con una tecnica utilizzata per modellare la visione periferica negli esseri umani. Conosciuto come modello di piastrellatura delle texture, questo metodo trasforma le immagini per rappresentare la perdita di informazioni visive di un essere umano.

Hanno modificato questo modello in modo che potesse trasformare le immagini in modo simile, ma in un modo più flessibile che non richiede di sapere in anticipo dove la persona o l'intelligenza artificiale punteranno gli occhi.

«Ciò ci ha permesso di modellare fedelmente la visione periferica nello stesso modo in cui viene fatto nella ricerca sulla visione umana», afferma Harrington.

I ricercatori hanno utilizzato questa tecnica modificata per generare un enorme set di dati di immagini trasformate che appaiono più materiche in alcune aree, per rappresentare la perdita di dettaglio che si verifica quando un essere umano guarda più in profondità.

Quindi hanno utilizzato il set di dati per addestrare diversi modelli di visione artificiale e hanno confrontato le loro prestazioni con quelle degli esseri umani in un compito di rilevamento di oggetti.

«Ci siamo impegnati con somma accuratezza per impostare l’esperimento in modo da poterlo testare anche nei modelli di apprendimento automatico. Non volevamo dover riqualificare i modelli per un compito relativo ai giocattoli che non erano destinati a svolgere», afferma la ricercatrice.

Prestazione peculiare

Agli esseri umani e ai modelli sono state mostrate coppie di immagini trasformate che erano identiche, tranne per il fatto che un'immagine aveva un oggetto target situato nella periferia. Quindi, a ciascun partecipante è stato chiesto di scegliere l'immagine con l'oggetto target.

«Una cosa che ci ha davvero sorpreso è stata la bravura delle persone nel rilevare oggetti nella loro periferia. Abbiamo esaminato almeno 10 diversi set di immagini che erano semplicemente troppo facili. Continuavamo a dover utilizzare oggetti sempre più piccoli», aggiunge Harrington.

I ricercatori hanno scoperto che l’addestramento dei modelli da zero con il loro set di dati ha portato ai maggiori incrementi delle prestazioni, migliorando la loro capacità di rilevare e riconoscere gli oggetti. La messa a punto di un modello con il proprio set di dati, un processo che prevede la modifica di un modello pre-addestrato in modo che possa eseguire una nuova attività, ha prodotto miglioramenti prestazionali minori.

Ma in ogni caso, le macchine non erano brave quanto gli esseri umani, ed erano particolarmente pessime nel rilevare oggetti nella periferia più lontana. Anche le loro prestazioni non seguivano gli stessi schemi degli umani.

«Ciò potrebbe suggerire che i modelli non utilizzano il contesto nello stesso modo in cui gli esseri umani svolgono queste attività di rilevamento. La strategia dei modelli potrebbe essere diversa», afferma Harrington.

I ricercatori intendono continuare a esplorare queste differenze, con l’obiettivo di trovare un modello in grado di prevedere le prestazioni umane nella periferia visiva. Ciò potrebbe consentire ai sistemi di intelligenza artificiale di avvisare i conducenti di pericoli che potrebbero non vedere, ad esempio. Sperano anche di ispirare altri ricercatori a condurre ulteriori studi sulla visione artificiale con il loro set di dati disponibile al pubblico.

«Questo lavoro è importante perché contribuisce a farci comprendere che la visione umana alla periferia non dovrebbe essere considerata solo una visione impoverita a causa dei limiti nel numero di fotorecettori di cui disponiamo, ma piuttosto una rappresentazione ottimizzata per consentirci di svolgere compiti di reale -conseguenza mondiale», afferma il dottor Justin Gardner (7), professore associato presso il Dipartimento di Psicologia della Stanford University, che non è stato coinvolto in questo lavoro. «Inoltre, il lavoro mostra che i modelli di rete neurale, nonostante i loro progressi negli ultimi anni, non sono in grado di eguagliare le prestazioni umane in questo senso, il che dovrebbe portare a ulteriori ricerche sull’intelligenza artificiale per imparare dalle neuroscienze della visione umana. Questa ricerca futura sarà aiutata in modo significativo dal database di immagini fornite dagli autori per imitare la visione umana periferica».

Questo lavoro è supportato, in parte, dal Toyota Research Institute e dalla MIT CSAIL METEOR Fellowship.

Riferimenti:

(1) Vasha DuTell

(2) COCO-PERIPH: BRIDGING THE GAP BETWEEN HUMAN AND MACHINE PERCEPTION IN THE PERIPHERY

(3) Mark T. Hamilton

(4) Ayush Tewari

(5) William T. Freeman

(6) Ruth Rosenholtz

(7) Justin Gardner

Descrizione foto: Un set di dati di immagini trasformate può essere utilizzato per simulare efficacemente la visione periferica in un modello di apprendimento automatico, migliorando le prestazioni di questi modelli nel rilevamento e nel riconoscimento di oggetti che si trovano di lato o nell'angolo di una scena. - Credit: Notizie del MIT; iStock.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Researchers enhance peripheral vision in AI models