“Now and Then” dei Beatles: la Voce di John Lennon è da considerare Autentica o Sintetica?

I Beatles hanno rilasciato pochi giorni fa una nuova canzone, Now and Then. È surreale che i Beatles escano con un brano nel 2023, ma grazie al machine learning è possibile. Lasciando da parte la bellezza del brano in sé e il suo valore emotivo, rimane la questione tecnica e quasi filosofica di decidere se lo si possa considerare “autentico”, e più in generale cosa voglia dire oggi questa parola.

Questo è il video ufficiale della canzone:

John Lennon aveva registrato una demo della propria voce, mentre cantava questo brano, su una semplice audiocassetta, nel 1977, accompagnandosi al pianoforte. La voce di Lennon era in buona parte coperta dal pianoforte ed era impossibile filtrare o separare il pianoforte per recuperare solo la voce e poi completare la canzone registrando oggi gli strumenti e le voci di accompagnamento.

Così i Beatles ancora in vita (Paul McCartney e Ringo Starr; Lennon fu ucciso nel 1980 e George Harrison è morto di malattia nel 2001) hanno deciso di usare la tecnica di ricostruzione e separazione delle tracce audio usata da Peter Jackson con grande successo per il documentario Get Back, in cui le sessioni dei Beatles sono state restaurate isolando i singoli strumenti (esempio) e le singole voci e l’immagine è stata ripulita e ribilanciata nei colori.

I dettagli tecnici del procedimento di demixing sono scarsi, e per ora non ho trovato documentazione tecnica, ma da quel che ho capito, invece di filtrare o elaborare in qualche modo l’audio della voce di John Lennon, come era avvenuto per Free as a Bird (altro brano dei Beatles, uscito nel 1995, in cui è stata usata la voce di Lennon presa da un nastro demo), per Now and Then la voce di Lennon è stata ricostruita completamente usando il machine learning: semplificando, hanno dato in pasto al software (chiamato MAL e gestito da Emile de la Ray, Hunter Jackson e Tyrone Frost) moltissimi campioni di alta qualità della voce di Lennon e poi hanno ordinato al software di usare l’audio registrato da Lennon sulla cassetta come riferimento per generare i suoni vocali corrispondenti in alta qualità, attingendo ai campioni forniti.

Il procedimento è descritto in questo video che spiega la genesi di Now and Then: l’audio originale di Lennon è ascoltabile brevemente a 3:04, 4:10, 4:46; a 7:08 si sente la voce ricostruita, prima dell’aggiunta dell’accompagnamento musicale usato per il brano finale.

Ovviamente il procedimento è parecchio più complesso di come l’ho riassunto qui, ma il principio di base è questo. Ma se ho capito bene ed effettivamente tutti i suoni originali sono stati sostituiti da suoni analoghi di migliore qualità, si può ancora parlare di voce autentica di John Lennon?

Il risultato, all’ascolto, è indiscutibilmente notevolissimo. Ma mi sembra che questa tecnica rischi di sconfinare nel deepfake se non addirittura nel falso. In questo caso è stata usata come riferimento una registrazione di Lennon che cantava effettivamente quella canzone; ma quanto sono accurati i campioni che sostituiscono gli originali? E cosa impedisce di usare questa tecnica per far cantare a Lennon qualunque altro brano? 

Mi sembra che ci sia una differenza tecnica e di principio fondamentale fra ripulire ed elaborare una voce esistente, effettivamente registrata, e sostituirne ogni singolo suono con un altro preso da un campionario, anche se si tratta di campioni della voce del cantante originale. 

Per fare un paragone, è come se si decidesse di restaurare il Colosseo usando materiali dello stesso tipo degli originali, con tecniche di costruzione identiche a quelle originali, per ridare all’edificio l’aspetto che aveva prima di cadere in rovina. Sarebbe ancora un edificio autentico? È il paradosso della nave di Teseo in versione musicale.

L’intelligenza artificiale, di cui il machine learning è una branca, sta cambiando il modo in cui pensiamo a concetti fondamentali come vero e falso, autentico e sintetico. Credo sia importante fermarci a riflettere se è questo il tipo di cambiamento che vogliamo, e come vogliamo dirigerlo. 

Commenti