La voce che avete sentito non è quella di una speaker professionista: è una voce sintetica. È già un risultato notevole, ma di sistemi di sintesi vocale realistici quasi indistinguibili dalle voci umane ce ne sono tanti.
Però questo, realizzato dalla società britannica Synthesia, è un po’ speciale. Infatti oltre alla voce c’è anche un video, altrettanto sintetico, nel quale l’attrice virtuale recita le parole con movimenti labiali corrispondenti al testo.
Piccolo test di Synthesia https://t.co/S4GwP65VrX #productivity #video
— Paolo Attivissimo (@disinformatico) December 2, 2021
Se non fosse per quell’intonazione decisamente robotica del finale, vi sareste accorti della finzione?
L’idea dell’azienda britannica è molto semplice e anche un po’ inquietante per chiunque faccia lo speaker professionista: offrire un modo rapido ed economico per aggiungere al proprio sito dei video professionali in cui delle persone danno istruzioni o forniscono informazioni. Non occorre incaricare un’agenzia, trovare gli attori che parlino correttamente le varie lingue, attivare uno studio e registrare gli attori, con tutti i tempi e i costi che ne derivano.
Il procedimento è estremamente semplice e flessibile, e può essere provato gratuitamente. Si va al sito, Synthesia.io, si clicca su Create a free AI video, si immette il testo (in una qualsiasi di oltre 40 lingue, riconosciute automaticamente, con un limite massimo di 200 caratteri) e poi si clicca su Continue.
Nel giro di pochi minuti, durante i quali il testo che avete immesso viene vagliato per verificare che non sia offensivo o inadatto, secondo le regole etiche del servizio, il video è pronto per l’uso.
La versione a pagamento è molto più flessibile, con un ampio assortimento di attori virtuali maschili e femminili e molte opzioni di personalizzazione dei formati e dei contenuti, con sfondi su misura e integrazione di presentazioni PowerPoint. Si possono anche creare avatar personalizzati. Ê una sorta di deepfake commerciale, ma con alcune restrizioni: l’azienda non crea video simulati di persone senza la loro autorizzazione esplicita. Altrimenti sarebbe troppo facile prendere una celebrità o un politico e fargli dire qualunque sconcezza con un labiale molto credibile.
La rapidità di esecuzione e i prezzi (30 dollari al mese per dieci video nell’account base) sono impossibili da eguagliare con degli speaker reali.
Se non fosse per la gestualità limitata e per qualche papera occasionale nell’intonazione o nella sintesi di alcune parole, probabilmente molti attori che campano grazie ai video di comunicazione aziendale sarebbero angosciati di restare disoccupati. Probabilmente questo servizio toglierà loro una parte del lavoro, ma resterà quella più complessa e personalizzata. Nessuno di questi attori virtuali, per ora, può infatti interagire con un prodotto da promuovere o da dimostrare.
La strada per arrivare agli avatar umani indistinguibili dalla realtà è ancora lunga, ma dobbiamo cominciare a chiederci se quell’uomo o quella donna che ci stanno facendo un tutorial perfetto online sono reali o simulati, e allenarci a riconoscere gli indizi che rivelano la sintesi.
Commenti
Posta un commento