Scandalo ChatGpt sui dati personali? L’ennesima conferma che la rete libera è un’illusione

L’ultimo “scandalo” su OpenAI (ricercatori di Google avrebbero trovato il modo di ottenere risposte che rendono disponibili i dati “grezzi” usati per addestrare il modelli della serie GPT) ha invariabilmente riportato alla ribalta le questioni relative alla “tutela della privacy”, al diritto d’autore e via discorrendo. Altrettanto invariabilmente, questi temi sono trattati ignorando alcuni evidenti presupposti che rendono poco rilevante la polemica e denunciano, ancora una volta, le conseguenze dell’economia basata sul “gratis”, sul “capitalismo della solitudine”, sull’inerzia delle autorità di controllo di Andrea Monti – Inizialmente pubblicato su Strategikon – un blog La Repubblica-Italian Tech

Partiamo da una constatazione del tutto neutra: le informazioni utilizzate per costruire i dataset per l’AI sono pubbliche, cioè rese disponibili dai diretti interessati nella forma di articoli, saggi, post, stories e tutto ciò che accompagna il desiderio spasmodico di avere i famosi “quindici minuti di celebrità” preconizzati (parrebbe) da Andy Wharol.

Fatta questa premessa, possiamo iniziare ad invischiarci nella melassa di complessi ragionamenti giuridici per ricordare che la pubblicazione di un contenuto non lo rende immediatamente riutilizzabile per qualsiasi altro scopo diverso dalla semplice fruizione individuale. Accade, per esempio con gli articoli di giornale che usano, a questo scopo, il tag “riproduzione riservata” o —in una certa misura— per i propri dati personali che ciascuno rende disponibili online (e per i quali, in realtà, non sussiste un divieto assoluto al riutilizzo).

Il passo successivo è avventurarci in un intricato sentiero di interpretazione delle norme, per capire se siamo di fronte, come pure sostengono alcuni (interessati) operatori del settore, a una forma di “uso libero” (che non richiede, cioè, autorizzazione) o se il bilanciamento degli interessi in gioco nei trattamenti posti in essere per creare un dataset penda a favore delle aziende o dei privati.

Per trovare una via d’uscita potremmo chiederci perché fino ad ora non ci siamo lamentati (noi, ma nemmeno le autorità per la protezione dei dati personali) dei motori di ricerca i cui crawler fanno da sempre le stesse cose di quelli delle AI company.

Ma per avere una risposta dovremmo prendere atto che in materia di AI, a livello internazionale, non c’è unanimità sul considerare vietato by default usare dati disponibili online. Per esempio, fin dal 2017 il Giappone —che è una delle superpotenze dell’AI— ha introdotto una modifica normativa al Copyright Act che rende lecita la raccolta di dati online per addestrare modelli AI . Considerato che fra Tokyo e i Paesi UE è stato firmato un accordo di libero scambio che include anche una decisione di adeguatezza della normativa giapponese in materia di dati personali sarà importante capire se l’approccio al diritto d’autore verrà esteso anche a quello sulla protezione dei dati personali e con quali conseguenze.

Mentre cerchiamo di orientarci in una crescente complessità (questa sì, artificiale), il fatto tuttavia rimane: parafrasando Metastasio, dati dalla rete fuggiti, più richiamar non vale. Questo significa che al momento non c’è alcun rimedio giuridico effettivamente praticabile che consenta concretamente di ottenere la cancellazione dei propri dati o contenuti inseriti in un dataset e raccolti all’insaputa di cittadini, imprese e istituzioni o di ottenere un equo indennizzo per il loro uso da parte di Big Tech e startup. Ancora una volta: astrattamente si possono ipotizzare ingiunzioni legali, class-action e, forse, indagini penali; ma contro chi? In che tempi? A quali costi ma, soprattutto, con quali esiti? Basta guardare la geopolitica e la geoeconomia del high-tech per capire che le grandi affermazioni di diritto sono destinate a rimanere macchie d’inchiostro su fogli di carta chiusi in un cassetto.

È chiaro che la —forse— unica misura realmente efficace per impedire il sacco dei nostri dati sarebbe smettere di renderli disponibili. Tutto, in altri termini, dovrebbe finire dietro paywall o “circoli chiusi” e ciascuno dovrebbe decidere se, cosa, quanto e come rendere pubblico, assumendosi la responsabilità della scelta (responsabilità che, detto per inciso, è personale e individuale e non può ricadere su chi mette a disposizione strumenti di comunicazione, come invece è larvatamente intuibile dagli obiettivi dell’indagine promossa dal Garante dei dati personali).

Se questa considerazione è corretta, non ha che una conseguenza: l’ennesima conferma della fine dell’illusione romantica di una rete “libera” nella quale far circolare liberamente le informazioni.

Information want to be free ci dicevamo quando da ragazzini ci cullavamo nell’utopia dell’inesistente “ciberspazio” in attesa del handshake di un modem a 2400 baud. Ma oggi l’illusione si è smaterializzata ed è chiaro che l’informazione non è (e non è mai stata) free né in termini di costi, né in termini di disponibilità.

L’unica cosa che rimane da capire —oggi— è chi paga il conto, con quale valuta, e su quali coordinate bancarie o cryptowallet.

Possibly Related Posts: