Audeo insegna a suonare all'intelligenza artificiale


Audeo insegna a suonare all'intelligenza artificiale

Utilizzato l'apprendimento automatico per attuare un sistema, chiamato Audeo, che crea audio da esecuzioni silenziose di pianoforte.

Chiunque sia stato a un concerto sa che accade qualcosa di magico tra gli artisti e i loro strumenti. Trasforma la musica dall'essere solo “note su una pagina” a un'esperienza soddisfacente.

Un team dell'Università di Washington si è chiesto se l'intelligenza artificiale potesse ricreare quel piacere usando solo segnali visivi: un video silenzioso e dall'alto verso il basso di qualcuno che suona il piano. I ricercatori hanno utilizzato l'apprendimento automatico per creare un sistema, chiamato Audeo, (1) che crea audio da esecuzioni silenziose di pianoforte. Quando il gruppo ha testato la musica creata da Audeo con app di riconoscimento musicale, come SoundHound, le app hanno identificato correttamente il brano che Audeo ha suonato circa l'86% delle volte. Per confronto, queste app hanno identificato il pezzo nelle tracce audio dai video di origine il 93% delle volte.

I ricercatori hanno presentato Audeo lo scorso mese di dicembre 2020 alla conferenza NeurIPS 2020. (2)

Il dottor Eli Shlizerman, (3) assistente professore nei dipartimenti di matematica applicata e ingegneria elettrica e informatica, spiega: «In passato si riteneva impossibile creare musica che suonasse come se potesse essere suonata in un'esibizione musicale. Un algoritmo deve individuare i segnali, o “caratteristiche”, nei fotogrammi video che sono correlati alla generazione di musica e deve “immaginare” il suono che si verifica tra i fotogrammi video. Richiede un sistema che sia sia preciso e fantasioso. Il fatto che abbiamo ottenuto musica che suonava abbastanza bene è stata una sorpresa».

Audeo utilizza una serie di passaggi per decodificare ciò che accade nel video e poi tradurlo in musica. Innanzitutto, deve rilevare quali tasti vengono premuti in ciascun fotogramma video per creare un diagramma nel tempo. Quindi ha bisogno di tradurre quel diagramma in qualcosa che un sintetizzatore musicale riconoscerebbe effettivamente come un suono che emetterebbe un pianoforte. Questo secondo passaggio pulisce i dati e aggiunge ulteriori informazioni, come la forza con cui viene premuto ogni tasto e per quanto tempo.

«Se provassimo a sintetizzare la musica fin dal primo passo, troveremmo la qualità della musica insoddisfacente», ha detto Shlizerman. «Il secondo passo è come il modo in cui un insegnante esamina la musica di uno studente compositore e aiuta a migliorarla».

I ricercatori hanno addestrato e testato il sistema utilizzando i video di YouTube del pianista Paul Barton. (4) La formazione consisteva in circa 172.000 fotogrammi video di Barton che suonava musica di noti compositori classici, come Bach e Mozart. Quindi hanno testato Audeo con quasi 19.000 fotogrammi di Barton che suonava musica diversa da questi compositori e altri, come Scott Joplin. (5)

Una volta che Audeo ha generato una trascrizione della musica, è il momento di darla a un sintetizzatore che possa tradurla in suono. Ogni sintetizzatore renderà la musica un po' diversa - questo è simile alla modifica dell'impostazione “strumento” su una tastiera elettrica. Per questo studio, i ricercatori hanno utilizzato due diversi sintetizzatori.

«Fluidsynth produce suoni di pianoforte sintetizzatore che conosciamo. Questi hanno una melodia in qualche modo meccanica ma piuttosto accurato», spiega Shlizerman. «Abbiamo anche usato PerfNet, un nuovo sintetizzatore AI che genera musica più ricca ed espressiva. Ma genera anche più rumore».

Audeo è stato addestrato e testato solo sui video per pianoforte di Paul Barton. Sono necessarie ricerche future per vedere quanto bene potrebbe trascrivere la musica per qualsiasi musicista o pianoforte, ha detto Shlizerman.

«L'obiettivo di questo studio era vedere se l'intelligenza artificiale poteva generare musica che veniva suonata da un pianista in una registrazione video, anche se non intendevamo replicare Paul Barton perché è un tale virtuoso», spiega Shlizerman. «Ci auguriamo che il nostro studio consenta nuovi modi di interagire con la musica. Ad esempio, un'applicazione futura è che Audeo può essere esteso a un pianoforte virtuale con una telecamera che registra solo le mani di una persona. Inoltre, posizionando una telecamera sopra un vero pianoforte, Audeo potrebbe potenzialmente aiutare in nuovi modi di insegnare agli studenti a suonare».

Kun Su e Xiulong Liu, entrambi studenti di dottorato in ingegneria elettrica e informatica, sono coautori di questo documento. Questa ricerca è stata finanziata dal Washington Research Foundation Innovation Fund, nonché dai dipartimenti di matematica applicata e ingegneria elettrica e informatica.

Riferimenti:

(1) Audeo

(2) Audeo: Audio Generation for a Silent Performance Video

(3) Eli Shlizerman

(4) Paul Barton

(5) Scott Joplin

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: ‘Audeo’ teaches artificial intelligence to play the piano