Metadata musicali: così proteggiamo i diritti dall’IA generativa

5 luglio 2023

Nell’era digitale abbiamo visto come i metadata hanno assunto un valore determinante nell’economia del settore musicale. Le informazioni di base, ovvero i dati sugli autori, artisti, titolo brano, album, produttori e editori, sono solo gli elementi più visibili. Dietro queste informazioni si nascondono altri elementi determinanti quali lingua, mood, bpm.

L’importanza dei metadata per il copyright

Ovviamente la parte più rilevante è quella legata all’informazione sui diritti, che consente di attribuire i corretti copyright ai vari soggetti coinvolti, in un mercato fatto di miliardi di transazioni quotidiani generate dagli stream dei consumatori di musica a livello globale.

Per i titolari dei diritti è fondamentale dotarsi non solo dei codici identificativi necessari per una ripartizione analitica, come l’ISRC, rilasciato in Italia da FIMI (federazione industria musicale italiana) ma anche tenere costantemente aggiornati i data base delle società di gestione collettiva, dei DSP e di tutti gli utilizzatori che devono comunicare i dati necessari a riconoscere e ripartire i proventi generati dai brani musicali in tutto il pianeta. Spesso vi sono decine di versioni di una registrazione, anche in più lingue o realizzate in periodi diversi della carriera di un artista. Collaborazioni o featuring, versioni remix, live, ecc.

L’assenza di una gestione adeguata dei metadata è causa di mancati pagamenti, della generazione di black box presso le collecting, ovvero denari che rappresentano gli irripartibili o i non riconosciuti e che disperdono risorse invece di attribuirli agli effettivi aventi diritto.

Lo scambio di informazioni tra società di gestione e l’aggiornamento dei data base consentono poi alle piattaforme online di individuare a livello globale le registrazioni musicali necessarie per ripartire i compensi in proporzione agli utilizzi.

L’individuazione dei corretti metadata

L’individuazione dei corretti metadata nasce già nella fase creativa dove vengono inseriti i vari soggetti che hanno contribuito alla registrazione a tutti i livelli ma anche altri utili elementi che consentono alle macchine che sviluppano gli algoritmi, oggi sempre più importanti nella musica online, di essere adeguatamente addestrate ad esempio a processare quelle informazioni necessarie per il processo di raccomandazione. Maggiori sono i dati presenti nella registrazione, con alto livello di accuratezza e maggiori saranno le possibilità che tale brano venga suggerito o finisca in determinate playlist o ovviamente maggiori saranno le possibilità che questo brano generi revenue.

La protezione dei diritti d’autore dagli abusi dell’AI generativa 

Con l’apparire dell’intelligenza artificiale generativa e con l’attività di harvesting che le piattaforme come chatGPT realizzano raccogliendo milioni di brani musicali per addestrare le macchine, scopriamo che anche in tale contesto i metadata potrebbero risultare essenziali nella protezione del copyright perfino dall’impiego di porzioni della registrazione.

Come è noto, uno degli elementi chiave nella protezione dei diritti d’autore dagli abusi dell’AI generativa è la necessità, per lo sviluppatore, di ottenere una licenza preventiva per l’ingestion dei dati finalizzati ad istruire il sistema. Abbiamo visto di recente come siano stati rilevati gravi abusi nell’utilizzo indiscriminato dei contenuti protetti.

In questo contesto vediamo come questo processo si intersechi con la questione del cosiddetto text and data mining (TDM) che è stato oggetto della recente Direttiva copyright dell’UE, la 790/2019.

La rilevanza dei metadata nel Text and Data Mining

Le piattaforme di AI e gli sviluppatori fanno ampio uso di estrazione di dati, come abbiamo visto, e della conseguente manipolazione per adattare tali dati, per esempio una registrazione musicale, alle necessità utili per fornire una soluzione adeguata al corretto prompt.

Va ricordato in proposito che in qualsiasi processo TDM è di fatto necessario “ripulire” il testo e i dati estratti (che in alcuni casi richiede fino all’80% del tempo di estrazione), al fine di rimuovere dati incoerenti, inaffidabili o ridondanti e “normalizzare” i dati in un formato specifico adattato alla relativa applicazione. Ad esempio, quando si normalizza un testo o un brano musicale, si cerca di ridurne la casualità, avvicinandolo a uno “standard” predefinito. Questo aiuta a ridurre la quantità di informazioni diverse che l’AI dovrà gestire e migliorando l’efficienza del processo. Sostanzialmente per essere ingeriti e rielaborati da un sistema di intelligenza artificiale, i dati devono essere copiati, spesso archiviati (almeno temporaneamente) e modificati per essere resi utilizzabili. Se i dati contengono opere protette da diritto d’autore, ciascuna di queste operazioni implica diritti che sono esclusivi dei titolari del diritto d’autore o dei suoi licenziatari e possono costituire violazione del diritto d’autore se eseguite senza una licenza del titolare dei diritti.

Conclusioni 

Torniamo a questo punto alla rilevanza dei metadata. Questi costituiscono una sorta di completo DNA dell’opera che se trattata all’interno di processi di TDM lascerà traccia e sarà così possibile proteggere meglio i diritti, verificare la trasparenza del processo e definire il perimetro dei diritti che devono essere oggetto di autorizzazione e di licenza.

Questo fondamentale strumento di identificazione delle opere dei titolari dei diritti è prevedibile che giocherà un ruolo determinante nei prossimi anni in un contesto dove la creatività umana si troverà a competere o collaborare con l’intelligenza artificiale.