La Proprietà Intellettuale Dell'IA Generativa

Qualche giorno fa OpenAI ha ufficializzato le sue API per chatGPT e per Whisper[fn]Whisper è un servizio text-to-speech per tradurre in testo i comandi vocali degli utenti[/fn]. Questo significa che è possibile integrare queste tecnologie di intelligenza artificiale generativa in app e servizi.

Una enorme possibilità per creare nuovi prodotti prima impossibili da realizzare. Nessuna azienda di medie-piccole dimensioni avrebbe potuto creare la sua personale intelligenza artificiale generativa.

Ma resta un problema: di chi è legalmente il materiale generato dall’intelligenza artificiale? La risposta è di nessuno. Neanche dell’azienda che integra la tecnologia.

Indice dei contenuti

Il problema dei diritti sui contenuti generati da chatGPT

L’intelligenza artificiale è generativa, significa che è essa stessa a generare il contenuto. Essendo una AI, non può essere un’entità giuridica. Non essendo un’entità giuridica significa che non possiede nessun diritto. Quindi anche se un’azienda usa una AI generativa, non possiede alcun diritto sul contenuto generato.

Questo deve essere considerato sempre. Sono molte le persone che stanno trovando utile velocizzare lo sviluppo di contenuti, come libri, canzoni, fumetti e così via, utilizzando chatGPT. Potrebbero non avere la possibilità di difendere la propria opera da copie, non essendo il testo generato dall’AI coperto da nessuna possibilità dello scudo del copyright.

Forse l’unica scappatoia sarebbe utilizzare l’intelligenza generativa addestrandola solo e soltanto con i propri contenuti. Bisognerebbe prendere il modello utilizzato per il machine learning e dare in pasto al proprio chatbot personale solo i propri contenuti.

In quel caso potremmo essere certi che il contenuto generato, avendo come fonte solo contenuti sui quali abbiamo dei diritti, siano essi stessi coperti da diritti, in quanto l’AI ha solo disposto quel contenuto in ordine diverso.

Il caso Zarya of the Dawn

proprietà intellettuale dell'IA — Zarya of the Dawn

Qualche tempo fa Kris Kashtanova aveva lavorato a un fumetto: Zarya of the Dawn. Il fumettista newyorkese aveva lavorato alla storia, creato il layout del fumetto, scelto i soggetti e molto altro.

Anzichè lavorare in prima persona, o con il supporto di un artista dedicato, alla realizzazione delle tavole, Kris ha preferito usare il tool generativo di immagini Midjourney. Il risultato è stato un fumetto pronto per la vendita.

Prima di iniziare la diffusione, però, Kris ha provato a registrare il tutto all’ufficio brevetti americano, per coprire l’opera con il copyright. Con sua sorpresa, la richiesta gli è stata rifiutata.

Le tavole erano state generate da una AI, quindi non era possibile coprirle con il copyright. Terzi potrebbero copiare le tavole del fumetto cambiando solo il testo, creando una storia nuova, senza temere cause legali.

ChatGPT sta usando i tuoi testi

Bisogna anche sottolineare che chatGPT, come anche alcuni tool di generazione delle immagini, non è stato addestrato interamente da contenuti privi di diritti, quindi in qualche modo sono nati potenzialmente piratando contenti di altri.

Per la legge dei grandi numeri è impossibile pensare che i miliardi di testi, libri, pagine web, articoli di giornale utilizzati da OpenAI per addestrare chatGPT siano tutti completamente da fonti prive di copyright.

Quindi in qualche modo creare un’intelligenza artificiale in grado di generare contenuti privi di copyright è stato possibile usando contenuti con copyright. È un po’ come essere di fronte un macchinario in grado di trasformare i testi coperti da diritti in testi privi di diritti.

È un dato di fatto di cui potremmo essere felici o arrabbiati. Felici se tanto non abbiamo mai prodotto nulla e ci serve testo gratuito di cui nessuno può romperci le scatole con richieste di soldi per i diritti. Arrabbiati se abbiamo investito tempo e denaro per generare contenuti che poi qualcuno ha usato per alimentare la macchina spara testi gratuiti.

Come evitare che chatGPT usi il tuo contenuto

Esiste un modo per evitare che questo continui? La risposta è si. ChatGPT non si alimenta manualmente. Non va a leggere le pagine una a una aprendo i singoli siti. Usa dei bot.

Se avete un sito web, un blog, e volete che i vostri contenuti non siano usati per alimentare e addestrare chatGPT o le altre intelligenze artificiali che nasceranno nei prossimi anni, basta fermare i bot che vanno a leggere i contenuti che avete scritto.

Per esempio OpenAI usa come fonte WebText2. Questi prende i contenuti come dataset e li trasporta nel modello di apprendimento. Inoltre si usa il CCBot (Common Crawl Bot).

Quindi per evitare che OpenAI utilizzi i vostri dati, basta inserire questi bot nel file robots.txt del vostro sito, per bloccarne l’accesso.

Se vi state chiedendo se ho applicato questo sistema al mio sito la risposta è no. Per me l’informazione deve essere liquida e se può essere utile per generare altra informazione va bene. Di certo mi dà un po’ fastidio il fatto che poi per usare chatGPT Plus debba anche pagare dei soldi. Visto che probabilmente i miei contenuti hanno aiutato il progetto, non sarebbe male poterlo usare gratis come scambio di favori.

Come bloccare i bot con il file robots.txt

Nell’era digitale, i bot sono diventati una parte comune della nostra esperienza online. Dai crawler dei motori di ricerca ai bot maligni, questi programmi automatici possono creare scompiglio in un sito web se non vengono gestiti correttamente. Fortunatamente, esistono modi per controllare il loro accesso al vostro sito web e uno dei metodi più efficaci è l’utilizzo del file robots.txt.

Il file robots.txt è un semplice file di testo che indica ai bot quali pagine del vostro sito web possono o non possono scorrere. Bloccando determinate pagine, si può impedire ai bot di accedere a informazioni sensibili, come le credenziali di accesso, o di sovraccaricare il server di richieste.

Per bloccare un bot utilizzando il file robots.txt, è necessario innanzitutto identificare il suo user-agent (il nome che identifica il bot). Una volta ottenuta questa informazione, è possibile aggiungerla al file utilizzando il comando “Disallow”. Ad esempio, se si desidera bloccare il crawling di una pagina specifica da parte di Googlebot, è necessario aggiungere la seguente riga al file robots.txt: “User-Agent: Googlebot Disallow: /page-to-block/”.

È importante notare che il file robots.txt non è infallibile e alcuni bot possono ignorarlo. Inoltre, alcuni bot potrebbero non identificarsi con un user-agent, rendendo difficile bloccarli con questo metodo. Si tratta comunque di uno strumento prezioso per gestire l’accesso dei bot al vostro sito web e dovrebbe essere utilizzato insieme ad altre misure di sicurezza.

In conclusione

La tecnologia di intelligenza artificiale generativa può essere una risorsa incredibilmente potente per le aziende e gli individui che cercano di creare contenuti in modo più efficiente. Tuttavia, è importante considerare il problema dei diritti sui contenuti generati dall’intelligenza artificiale e prendere le misure necessarie per proteggere la propria proprietà intellettuale.

Se si desidera evitare che chatGPT utilizzi i propri contenuti, è possibile bloccare i bot utilizzando il file robots.txt.

Come proteggere i tuoi contenuti dall’uso di chatGPT