I rilevatori deepfake possono essere bypassati


I rilevatori deepfake possono essere bypassati

I sistemi progettati per rilevare i deepfake - video che manipolano filmati di vita reale tramite l'intelligenza artificiale - possono essere ingannati.

Questa è la teoria degli scienziati informatici descritta per la prima volta alla conferenza WACV 2021 che si è svolta online dal 5 al 9 gennaio 2021.

I ricercatori hanno dimostrato che i rilevatori possono essere bypassati inserendo input chiamati 'esempi contraddittori' in ogni fotogramma video. Gli esempi del contraddittorio sono input leggermente manipolati che fanno sì che i sistemi di intelligenza artificiale come i modelli di apprendimento automatico commettano un errore. Inoltre, il team ha dimostrato che l'attacco funziona ancora dopo la compressione dei video.

«Il nostro lavoro mostra che gli attacchi ai rilevatori deepfake potrebbero essere una minaccia nel mondo reale», ha affermato la signora Shehzeen Samarah Hussain, (1) dottoressa in ingegneria informatica dell'Università di San Diego. studente e primo coautore dell'articolo WACV. «Ancora più allarmante, dimostriamo che è possibile creare deepfake avversari robusti anche quando un avversario potrebbe non essere a conoscenza del funzionamento interno del modello di apprendimento automatico utilizzato dal rilevatore».

In deepfakes, il volto di un soggetto viene modificato per creare filmati realistici in modo convincente di eventi che non sono mai realmente accaduti. Di conseguenza, i tipici rilevatori di deepfake si concentrano sul viso nei video: prima monitorandolo e quindi trasmettendo i dati del viso ritagliati a una rete neurale che determina se è reale o falso. Ad esempio, l'ammiccamento degli occhi non viene riprodotto bene nei deepfake, quindi i rilevatori si concentrano sui movimenti degli occhi come un modo per prendere quella decisione. I rilevatori Deepfake all'avanguardia si affidano a modelli di apprendimento automatico per identificare i video falsi.

L'ampia diffusione di video falsi attraverso le piattaforme di social media ha sollevato preoccupazioni significative in tutto il mondo, ostacolando in particolare la credibilità dei media digitali, sottolineano i ricercatori. «Se gli aggressori hanno una certa conoscenza del sistema di rilevamento, possono progettare input per colpire i punti ciechi del rilevatore e aggirarlo», ha detto il dottor Paarth Neekhara, (2) l'altro primo coautore dell'articolo e studente di informatica della UC San Diego.

I ricercatori hanno creato un esempio contraddittorio per ogni volto in un fotogramma video. Ma mentre le operazioni standard come la compressione e il ridimensionamento del video di solito rimuovono gli esempi contraddittori da un'immagine, questi esempi sono progettati per resistere a questi processi. L'algoritmo di attacco lo fa stimando su una serie di trasformazioni di input come il modello classifica le immagini come reali o false. Da lì, utilizza questa stima per trasformare le immagini in modo tale che l'immagine del contraddittorio rimanga efficace anche dopo la compressione e la decompressione.

La versione modificata del viso viene quindi inserita in tutti i fotogrammi video. Il processo viene quindi ripetuto per tutti i fotogrammi del video per creare un video deepfake. L'attacco può essere applicato anche su rilevatori che operano su interi fotogrammi video invece che sui ritagli di faccia.

Il team ha rifiutato di rilasciare il codice in modo che non venisse utilizzato da parti ostili.

Alta percentuale di successo

I ricercatori hanno testato i loro attacchi in due scenari: uno in cui gli aggressori hanno accesso completo al modello del rilevatore, inclusa la pipeline di estrazione del volto e l'architettura e i parametri del modello di classificazione; e uno in cui gli aggressori possono solo interrogare il modello di apprendimento della macchina per capire le probabilità che un frame venga classificato come reale o falso. Nel primo scenario, la percentuale di successo dell'attacco è superiore al 99% per i video non compressi. Per i video compressi, era dell'84,96%. Nel secondo scenario, la percentuale di successo era dell'86,43% per i video non compressi e del 78,33% per i video compressi. Questo è il primo lavoro che dimostra attacchi riusciti contro rivelatori deepfake all'avanguardia.

«Per utilizzare questi rilevatori deepfake nella pratica, sosteniamo che è essenziale valutarli contro un avversario adattivo che è consapevole di queste difese e sta intenzionalmente cercando di sventare queste difese», scrivono i ricercatori. «Dimostriamo che gli attuali metodi all'avanguardia per il rilevamento deepfake possono essere facilmente aggirati se l'avversario ha una conoscenza completa o anche parziale del rilevatore».

Per migliorare i rilevatori, i ricercatori raccomandano un approccio simile a quello che è noto come addestramento dell'avversario: durante l'addestramento, un avversario adattivo continua a generare nuovi deepfake che possono aggirare l'attuale rivelatore allo stato dell'arte; e il rilevatore continua a migliorare per rilevare i nuovi deepfake.

Riferimenti:

(1) Charles Lee Powell Foundation (Shehzeen Samarah Hussain)

(2) Paarth Neekhara

Descrizione foto: XceptionNet, un rilevatore di falsi profondi, etichetta come reale un video di contraddittorio creato dai ricercatori. - Credit: University of California San Diego.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Deepfake Detectors can be Defeated, Computer Scientists Show for the First Time