Webscraping e Dataset AI: se il fine è di interesse pubblico non c’è violazione di copyright

“La creazione di un dataset … che può costituire la base per l’addestramento di sistemi di intelligenza artificiale, può certamente essere considerata ricerca scientifica … Sebbene la creazione del dataset in quanto tale possa non essere nell’immediato associata a un incremento di conoscenza, essa costituisce una fase essenziale per l’obiettivo di utilizzarlo per acquisire successivamente la conoscenza in questione” – di Andrea Monti – inizialmente pubblicato su Strategikon – Italian Tech-La Repubblica

Con questo passaggio, la sentenza 310 O 227/23* pronunciata il 27 settembre 2024 dalla Corte regionale di Amburgo stabilisce un precedente fondamentale per lo sviluppo dell’intelligenza artificiale nella UE perché applica anche ai dataset l’articolo 60d della legge tedesca sul diritto d’autore e i diritti connessi.

La creazione di un dataset libero e pubblicamente disponibile è “ricerca scientifica”

Nel dettaglio, questo articolo della legge tedesca sul copyright autorizza l’estrazione di dati dalle riproduzioni di opere protette anche senza il consenso del titolare dei diritti, se il fatto è finalizzato alla ricerca scientifica svolta da soggetti pubblici e da privati che non perseguono scopo di lucro e che rendono pubblicamente disponibili senza limitazioni i risultati della propria attività.

In sintesi, dunque, la base del ragionamento è che la ricerca no profit compiuta nell’interesse pubblico attua un principio solidaristico secondo il quale i diritti proprietari possono essere limitati se i risultati dell’attività sono liberamente condivisi con la collettività.

L’estensione di questo principio di diritto anche ai dataset fornisce un elemento di certezza nelle polemiche sull’uso dei dati estraibili da contenuti di terzi per creare modelli di IA.

La futura legge italiana sull’IA si basa sullo stesso principio, ma per i dati personali

Un aspetto di ulteriore interesse dell’approccio della corte tedesca è la sua straordinaria somiglianza con quello adottato dal disegno di legge sull’intelligenza artificiale attualmente in discussione al Senato italiano. L’articolo 8 del DDL, infatti, stabilisce un principio analogo, anche se in relazione ai dati personali e non a quelli estraibili da opere protette dal diritto d’autore.

Dunque, se la norma italiana verrà approvata, la ricerca medico-scientifica compiuta da enti pubblici e soggetti privati che non perseguono fini di lucro (per esempio, le associazioni dei pazienti) potrà avvantaggiarsi della semplificazione operativa già consentita dal regolamento sulla protezione dei dati. Mentre le aziende che trattano gli stessi dati ma per ottenerne un utile privato rimangono soggette agli obblighi stabiliti dalla legge per attività svolte nell’interesse proprio.

Viene tracciata, in altri termini e nel rispetto della normativa comunitaria, una via da percorrere a due velocità: una più elevata per chi opera nell’interesse comune e una più bassa per chi, pur legittimamente, persegue soltanto il proprio profitto.

Anche le aziende possono fare ricerca no profit ma devono condividere i risultati

Come è oramai chiaro, la differenza fra no profit e for profit è il cardine attorno al quale ruota l’intera decisione tedesca che, sul punto, stabilisce un ulteriore interessante principio: l’attività no profit può essere svolta anche da un soggetto commerciale, purché i risultati della ricerca siano messa a disposizione in modo non discriminatorio dell’intera collettività. Scrivono, testualmente, i giudici: “La questione se la ricerca abbia o meno finalità non commerciali dipende esclusivamente dalla natura specifica dell’attività scientifica, mentre sono irrilevanti l’organizzazione e il finanziamento dell’istituzione in cui viene svolta la ricerca (considerando 42 della direttiva 29/2001). … Che il dataset —come sostiene il ricorrente — venga utilizzato anche da aziende commerciali per la formazione o l’ulteriore sviluppo dei loro sistemi di intelligenza artificiale è irrilevante perché la ricerca delle aziende commerciali è pur sempre ricerca —anche se non come tale ai sensi della legge federale tedesca sulla protezione dei dati.”

Il web scraping non è, di per sé, vietato

Una terza parte molto interessante della sentenza tedesca riguarda la liceità del web scraping anche su contenuti per i quali non si possiede una licenza.

Ritiene la corte che, sempre nei limiti della finalità di ricerca no profit, i diritti di proprietà intellettuale non vengono lesi dalla semplice compilazione di un dataset perché non è automaticamente certo che su quel dataset si potrà costruire qualcosa di funzionante, né si può sapere quali contenuti potranno essere effettivamente generati.

Anche in questo caso, vista la delicatezza della questione è opportuno citare testualmente il passo della decisione: “si sostiene inoltre che l’AI web scraping riguarda il contenuto intellettuale delle opere utilizzate per scopi di formazione e, in ultima analisi, la creazione di prodotti concorrenti identici o simili (a quelli del titolare dei diritti, nda)…, secondo la Camera, questa argomentazione non distingue in modo sufficientemente rigoroso tra: .. la creazione di un dataset … il successivo addestramento della rete neurale con questo dataset e … il successivo utilizzo dell’IA addestrata allo scopo di creare nuovi contenuti di immagini. Quest’ultima funzionalità potrebbe già essere l’obiettivo quando viene creato il dataset. Tuttavia, al momento della sua costruzione, non è possibile prevedere quanto successo avrà il secondo passaggio (il training del modello), né quali contenuti specifici possono essere generati dall’IA addestrata nel terzo passaggio (nell’applicazione dell’IA).”

Conclusioni

Il futuro europeo delle tecnologie basate sull’IA è compromesso da una condizione di stallo fra i (tanti) soggetti che possiedono i dati e i (pochi) soggetti privati che dispongono delle tecnologie per trasformarli in valore.

I primi non intendono cedere gratuitamente dati e informazioni, mentre i secondi pretendono di appropriarsi gratuitamente di ciò che serve loro per i propri scopi.

È come se gli abitanti di un villaggio possedessero individualmente delle materie prime che acquistano valore solo se messe in comune e che però non sono in grado di sfruttare; mentre dall’altro lato c’è chi possiede gli strumenti per trarre profitto da quelle materie prime, ma che non vuole condividere con chi le produce i risultati della loro trasformazione.

Se l’approccio tedesco si consolidasse e si diffondesse, forse lo stallo sarebbe superabile valorizzando di più il ruolo dell’interesse comune in un contesto geoeconomico e geopolitico dove questo tema non è più da tempo al centro delle agende.

*La traduzione dal tedesco non è ufficiale

Possibly Related Posts: