Occhiali dotati di intelligenza artificiale leggono il parlato silenzioso


Occhiali dotati di intelligenza artificiale leggono il parlato silenzioso

I ricercatori della Cornell University hanno sviluppato un'interfaccia di riconoscimento vocale silenziosa che utilizza il rilevamento acustico e l'intelligenza artificiale per riconoscere continuamente fino a 31 comandi non vocali, basati sui movimenti delle labbra e della bocca.

L'interfaccia indossabile a basso consumo, chiamata EchoSpeech, richiede solo pochi minuti di dati di addestramento dell'utente prima che riconosca i comandi e possa essere eseguita su uno smartphone.

Ruidong Zhang (1), studente di dottorato in scienze dell'informazione, è l'autore principale di “EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, che sarà presentato alla Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) questo mese ad Amburgo, in Germania.

«Per le persone che non possono vocalizzare il suono, questa tecnologia vocale silenziosa potrebbe essere un eccellente input per un sintetizzatore vocale. Potrebbe restituire ai pazienti la loro voce», ha detto Zhang.

Nella sua forma attuale, EchoSpeech potrebbe essere utilizzato per comunicare con altri tramite smartphone in luoghi in cui parlare è scomodo o inappropriato, come un ristorante rumoroso o una biblioteca tranquilla. L'interfaccia vocale silenziosa può anche essere abbinata a uno stilo e utilizzata con software di progettazione come CAD, eliminando del tutto la necessità di tastiera e mouse.

Dotati di un paio di microfoni e altoparlanti più piccoli delle gomme da matita, gli occhiali EchoSpeech diventano un sistema sonar indossabile basato sull'intelligenza artificiale, che invia e riceve onde sonore attraverso il viso e rileva i movimenti della bocca. Un algoritmo di deep learning analizza quindi questi profili di eco in tempo reale, con una precisione di circa il 95%.

Il dottor Cheng Zhang (2), assistente professore di scienze dell'informazione e direttore del laboratorio Smart Computer Interfaces for Future Interactions (SciFi) della Cornell, dice: «Stiamo spostando il sonar sul corpo. Siamo molto entusiasti di questo sistema perché spinge davvero avanti il campo in termini di prestazioni e privacy. È piccolo, a basso consumo e sensibile alla privacy, tutte caratteristiche importanti per l'implementazione di nuove tecnologie indossabili nel mondo reale».

«La maggior parte della tecnologia nel riconoscimento vocale silenzioso è limitata a un insieme selezionato di comandi predeterminati e richiede all'utente di affrontare o indossare una fotocamera, il che non è né pratico né fattibile. Ci sono anche grandi problemi di privacy che riguardano le telecamere indossabili, sia per l'utente che per coloro con cui l'utente interagisce», ha affermato Cheng Zhang.

«La tecnologia di rilevamento acustico come EchoSpeech elimina la necessità di videocamere indossabili. E poiché i dati audio sono molto più piccoli dei dati immagine o video, richiedono meno larghezza di banda per l'elaborazione e possono essere trasmessi a uno smartphone tramite Bluetooth in tempo reale. E poiché i dati vengono elaborati localmente sul tuo smartphone invece di essere caricati sul cloud, le informazioni sensibili alla privacy non lasciano mai il tuo controllo», ha affermato François Guimbretière (3), professore di scienze dell'informazione.

Riferimenti:

(1) Ruidong Zhang

(2) Cheng Zhang

(3) François Guimbretière

Descrizione foto: Ruidong Zhang, uno studente di dottorato nel campo delle scienze dell'informazione, indossa gli occhiali EchoSpeech. - Credit: Cornell University.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: AI-equipped eyeglasses can read silent speech