robot creano immagini e raccontano barzellette

Intelligenza artificiale che crea immagini e racconta barzellette

  • Pubblicato
  • Aggiornato
  • 5 minuti di lettura

5 cose da sapere sulla prossima generazione di intelligenza artificiale

Se hai visto le foto di una teiera a forma di avocado o hai letto un articolo ben scritto che vira su tangenti leggermente strane, potresti essere stato esposto a una nuova tendenza nell’intelligenza artificiale (IA).

I sistemi di apprendimento automatico chiamati DALL-EGPT e PaLM stanno facendo colpo con la loro incredibile capacità di generare lavoro creativo.

Questi sistemi sono noti come “modelli di base“. Quindi, come funziona questo nuovo approccio all’IA? E sarà la fine della creatività umana e l’inizio di un falso incubo?

1. Cosa sono i modelli di fondazione?

I modelli di base funzionano addestrando un unico enorme sistema su grandi quantità di dati generali, quindi adattando il sistema a nuovi problemi. I modelli precedenti tendevano a ricominciare da zero per ogni nuovo problema.

DALL-E 2, ad esempio, è stato addestrato per abbinare le immagini (come la foto di un gatto domestico) con la didascalia (“Mr. Fuzzyboots il gatto soriano si sta rilassando al sole”) scansionando centinaia di milioni di esempi. Una volta addestrato, questo modello sa che aspetto hanno i gatti (e altre cose) nelle immagini.

Ma il modello può essere utilizzato anche per molte altre interessanti attività di intelligenza artificiale, come la generazione di nuove immagini da una didascalia (“Mostrami un koala che schiaccia una palla da basket”) o la modifica di immagini sulla base di istruzioni scritte (“Fai sembrare che questa scimmia stia pagando le tasse”).

2. Come funzionano?

I modelli di base funzionano su “reti neurali profonde“, che sono vagamente ispirate da come funziona il cervello. Questi implicano una matematica sofisticata e un’enorme quantità di potenza di calcolo, ma si riducono a un tipo molto sofisticato di pattern matching.

Ad esempio, osservando milioni di immagini di esempio, una rete neurale profonda può associare la parola “gatto” a modelli di pixel che spesso compaiono nelle immagini di gatti, come macchie morbide, sfocate e pelose. Più esempi vede il modello (più dati viene mostrato) e più grande è il modello (più “strati” o “profondità” ha), più complessi possono essere questi modelli e correlazioni.

I modelli di base sono, in un certo senso, solo un’estensione del paradigma del “deep learning” che ha dominato la ricerca sull’IA negli ultimi dieci anni. Tuttavia, mostrano comportamenti non programmati o “emergenti” che possono essere sia sorprendenti che nuovi.

Ad esempio, il modello linguistico PaLM di Google sembra essere in grado di produrre spiegazioni per metafore e battute complicate. Questo va oltre la semplice imitazione dei tipi di dati originariamente addestrati per l’elaborazione.

Un utente che interagisce con il modello linguistico PaLM digitando domande.  Il sistema di intelligenza artificiale risponde digitando le risposte.
Il modello linguistico PaLM può rispondere a domande complicate. Google AI

3. L’accesso è limitato, per ora

È difficile pensare alla portata di questi sistemi di intelligenza artificiale. PaLM ha 540 miliardi di parametri, il che significa che anche se tutti sul pianeta memorizzassero 50 numeri, non avremmo comunque memoria sufficiente per riprodurre il modello.

I modelli sono così enormi che la loro formazione richiede enormi quantità di risorse computazionali e di altro tipo. Una stima stimava il costo della formazione del modello linguistico GPT-3 di OpenAI a circa 5 milioni di dollari.

Di conseguenza, al momento solo grandi aziende tecnologiche come OpenAI, Google e Baidu possono permettersi di costruire modelli di base. Queste aziende limitano chi può accedere ai sistemi, il che ha senso dal punto di vista economico.

Le restrizioni sull’utilizzo possono darci un po’ di conforto, questi sistemi non verranno utilizzati per scopi nefasti (come la generazione di notizie false o contenuti diffamatori) a breve. Ma questo significa anche che i ricercatori indipendenti non sono in grado di interrogare questi sistemi e condividere i risultati in modo aperto e responsabile. Quindi non conosciamo ancora tutte le implicazioni del loro utilizzo.

4. Cosa significheranno questi modelli per le industrie “creative”?

Altri modelli di fondazione saranno prodotti nei prossimi anni. I modelli più piccoli sono già stati pubblicati in forme open-source, le aziende tecnologiche stanno iniziando a sperimentare la concessione di licenze e la commercializzazione di questi strumenti e i ricercatori di intelligenza artificiale stanno lavorando duramente per rendere la tecnologia più efficiente e accessibile.

La notevole creatività mostrata da modelli come PaLM e DALL-E 2 dimostra che i lavori professionali creativi potrebbero essere influenzati da questa tecnologia prima di quanto inizialmente previsto.

La saggezza tradizionale diceva sempre che i robot avrebbero sostituito prima i lavori dei “colletti blu“. Il lavoro da “colletti bianchi” doveva essere relativamente al sicuro dall’automazione, in particolare il lavoro professionale che richiedeva creatività e formazione.

I modelli di intelligenza artificiale di deep learning mostrano già un’accuratezza sovrumana in attività come la revisione dei raggi X e il rilevamento della degenerazione maculare delle condizioni oculari. I modelli di fondazione potrebbero presto fornire creatività a buon mercato e “abbastanza buona” in campi come la pubblicità, il copywriting, le immagini stock o il design grafico.

Il futuro del lavoro professionale e creativo potrebbe apparire un po’ diverso da quello che ci aspettavamo.

5. Cosa significa per prove legali, notizie e media

I modelli di fondazione influenzeranno inevitabilmente la legge in aree come la proprietà intellettuale e le prove, perché non saremo in grado di presumere che il contenuto creativo sia il risultato dell’attività umana.

Dovremo anche affrontare la sfida della disinformazione generata da questi sistemi. Stiamo già affrontando enormi problemi con la disinformazione, ma i modelli di fondazione sono pronti a potenziare queste sfide.

Tempo per prepararsi

Come ricercatori che studiano gli effetti dell’IA sulla società, pensiamo che i modelli di base porteranno enormi trasformazioni. Sono strettamente controllati (per ora), quindi probabilmente abbiamo un po’ di tempo per capire le loro implicazioni prima che diventino un grosso problema.

Il genio non è ancora uscito dalla lampada, ma i modelli di fondazione sono una lampada molto grande e dentro c’è un genio molto intelligente.

Autore

Aaron J. Snoswell, Dan HunterQueensland University of Technology