Creato un sistema che converte i segnali cerebrali in parole


Creato un sistema che converte i segnali cerebrali in parole

Monitorando le attività cerebrali, la tecnologia può ricostruire le parole che una persona ascolta con una chiarezza senza precedenti

La ricostruzione dello stimolo uditivo è una tecnica che trova la migliore approssimazione dello stimolo acustico dell'attività neurale evocata. La ricostruzione del parlato dalla corteccia uditiva umana crea la possibilità per una neuroprotesi vocale di stabilire una comunicazione diretta con il cervello ed è stato dimostrato che è possibile sia in condizioni palesi che nascoste. Tuttavia, la bassa qualità del parlato ricostruito ha fortemente limitato l'utilità di questo metodo per le applicazioni di interfaccia cervello-computer (brain-computer interface - BCI). Per far avanzare lo stato dell’arte delle neuroprotesi vocali, gli scienziati hanno combinato i recenti progressi nell’apprendimento profondo con le ultime innovazioni nelle tecnologie di sintesi vocale per ricostruire il parlato intelligibile a partire dalla corteccia uditiva umana.

I neuroingegneri della Columbia University di New York hanno creato un sistema che traduce il pensiero in un linguaggio comprensibile e riconoscibile. Monitorando l'attività cerebrale, la tecnologia può ricostruire le parole che una persona ascolta con una chiarezza senza precedenti.

Questa scoperta descritta su Nature, (1) che sfrutta la potenza dei sintetizzatori vocali e dell'intelligenza artificiale, potrebbe conferire ai computer la possibilità di comunicare direttamente con il cervello. Inoltre, pone le basi per aiutare le persone che non riescono parlare, come i pazienti con sclerosi laterale amiotrofica (SLA) o tutti i soggetti che si riprendono da un ictus, a riconquistare la capacità di comunicare con il mondo esterno.

«Le nostre voci ci aiutano a connetterci con i nostri amici, familiari e il mondo che ci circonda, ed è per questo che perdere il potere della propria voce, a causa di lesioni o malattie, è così devastante», spiega il dottor Nima Mesgarani, (2) PhD, l'autore senior del giornale e investigatore principale all'Istituto di Brain Behaviour della Mortimer B. Zuckerman della Columbia University. (3) «Con lo studio di oggi, disponiamo di una potenziale soluzione per ripristinare quel potere. Abbiamo dimostrato che, con la giusta tecnologia, i pensieri di queste persone potrebbero essere decodificati e compresi da qualsiasi ascoltatore».

Decenni di ricerche hanno dimostrato che quando le persone parlano - o addirittura immaginano di parlare - nel loro cervello si manifestano modelli rilevatori di attività. Un distinto (ma riconoscibile) schema di segnali emerge anche quando ascoltiamo qualcuno che parla o immaginiamo di ascoltare. Gli esperti, cercando di registrare e decodificare questi modelli, vedono un futuro in cui i pensieri non devono rimanere nascosti all'interno del cervello, ma invece potrebbero essere tradotti in un discorso verbale a volontà.

Realizzare questa impresa è stato difficile. I primi tentativi di decodificare i segnali cerebrali (4) del Dottor Nima Mesgarani e altri colleghi si sono concentrati su semplici modelli computerizzati preposti ad analizzare gli spettrogrammi, che sono rappresentazioni visive delle frequenze del suono. Tuttavia, siccome questo approccio non è riuscito a produrre qualcosa che assomigliava a un linguaggio intelligibile, il dottor Mesgarani e il suo team, con il contributo del dottor Hassan Akbari, primo autore del documento, si sono rivolti invece a un vocoder, un algoritmo informatico in grado di sintetizzare il parlato dopo aver creato una matrice basata su registrazioni di persone che parlano.

«Questa è la stessa tecnologia utilizzata da Amazon Echo e Apple Siri per dare risposte verbali alle nostre domande», spiega il dottor Mesgarani, che è anche professore associato di ingegneria elettrica presso la Columbia Engineering. (5)

Per predisporre il vocoder ad interpretare l'attività cerebrale, il Dottor Nima Mesgarani ha collaborato con il dottor Ashesh Dinesh Mehta, MD, PhD, (6) neurochirurgo presso il Northwell Health Physician Partners Neuroscience Institute e coautore del lavoro di oggi. Il dottor Ashesh Dinesh Mehta cura i pazienti con epilessia, alcuni dei quali devono essere sottoposti a regolari interventi chirurgici.

Il dottor Mesgarani dichiara: «Lavorando con il Dottor Mehta, abbiamo chiesto ai pazienti con epilessia, già sottoposti a chirurgia cerebrale, di ascoltare le frasi pronunciate da diverse persone, in fase di misurazione dei modelli di attività cerebrale. Questi modelli neurali hanno testato il vocoder».

Successivamente, i ricercatori hanno chiesto ai medesimi pazienti di ascoltare i suoni provenienti dagli altoparlanti che riproducevano cifre da 0 a 9, mentre registravano segnali cerebrali che potevano quindi essere codificati attraverso il vocoder. Il suono prodotto dal vocoder, in risposta a quei segnali, è stato analizzato e ripulito dalle reti neurali, un tipo di intelligenza artificiale che imita la struttura dei neuroni nel cervello biologico.

Il risultato finale era una voce dal suono robotico che esprimeva una sequenza di numeri. Per testare l'accuratezza della registrazione, il team del Dottor Nima Mesgarani ha invitato le persone ad ascoltare la registrazione e segnalare ciò che hanno sentito.

Il dottor Nima Mesgarani ha detto: «Abbiamo scoperto che le persone potevano capire e ripetere i suoni circa il 75% delle volte, un risultato che è ben al di sopra e al di là di ogni precedente tentativo. Il miglioramento dell'intelligibilità è stato particolarmente evidente confrontando le nuove registrazioni con i precedenti tentativi basati su spettrogrammi. Il vocoder sensibile e le potenti reti neurali rappresentavano i suoni che i pazienti avevano originariamente ascoltato con sorprendente accuratezza».

Mesgarani e il suo team hanno in programma di testare parole e frasi più complicate e vogliono eseguire gli stessi test sui segnali cerebrali emessi quando una persona parla o immagina di parlare. In definitiva, sperano che il loro sistema possa far parte di un impianto, simile a quelli indossati da alcuni pazienti affetti da epilessia, che traduca i pensieri di chi lo indossa direttamente in parole.

Il dottor Nima Mesgarani puntualizza: In questo scenario, se chi lo indossa pensa: «ho bisogno di un bicchiere d'acqua», il nostro sistema potrebbe immagazzinare i segnali cerebrali generati da quel pensiero per poi trasformarli in un discorso verbale sintetizzato. Questo sarebbe un punto di svolta: darebbe a chiunque abbia perso la capacità di parlare, sia per infortunio che per malattia, la possibilità di connettersi al mondo che li circonda».

Questa ricerca è stata sostenuta dal National Institutes of Health (DC014279), dal Pew Charitable Trusts e dall'istituto Pew Biomedical Scholars Program.

Riferimenti:

(1) Towards reconstructing intelligible speech from the human auditory cortex

(2) Nima Mesgarani

(3) Zuckerman Institute

(4) Reconstructing speech from human auditory cortex

(5) Electrical Engineering

(6) Ashesh Dinesh Mehta, MD, PhD

Descrizione foto: Il dottor Nima Mesgarani. - Credit: John Abbott.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Columbia Engineers Translate Brain Signals Directly into Speech