Cos'è Sora? Un nuovo strumento di intelligenza artificiale

Alla fine della scorsa settimana, OpenAI ha annunciato un nuovo sistema di intelligenza artificiale generativa denominato Sora, . Sebbene Sora non sia ancora disponibile al pubblico, l’alta qualità dei risultati campione pubblicati finora ha provocato reazioni sia eccitate che preoccupate.

I video di esempio pubblicati da OpenAI, che secondo la società sono stati creati direttamente da Sora senza modifiche, mostrano risultati da suggerimenti come “video fotorealistico in primo piano di due navi pirata che combattono tra loro mentre navigano all’interno di una tazza di caffè” e “filmati storici della California durante la corsa all’oro”.

A prima vista, è spesso difficile dire che siano generati dall’intelligenza artificiale, a causa dell’alta qualità dei video, delle texture, della dinamica delle scene, dei movimenti della telecamera e di un buon livello di coerenza.

L’amministratore delegato di OpenAI Sam Altman ha anche pubblicato alcuni video su X (ex Twitter) generati in risposta ai suggerimenti suggeriti dagli utenti, per dimostrare le capacità di Sora.

Come funziona Sora?

Sora combina le caratteristiche degli strumenti di generazione di testo e immagini in quello che viene chiamato un “modello di trasformatore di diffusione”.

I trasformatori sono un tipo di rete neurale introdotta per la prima volta da Google nel 2017. Sono conosciuti soprattutto per il loro utilizzo in modelli linguistici di grandi dimensioni come ChatGPT e Google Gemini.

I modelli di diffusione, d’altra parte, sono il fondamento di molti generatori di immagini AI. Funzionano iniziando con un rumore casuale e procedendo verso un’immagine “pulita” che si adatta a un prompt di input.

Da una sequenza di tali immagini è possibile realizzare un video. Tuttavia, in un video, la coerenza tra i fotogrammi sono essenziali.

Sora utilizza l’architettura del trasformatore per gestire il modo in cui i frame si relazionano tra loro. Mentre i trasformatori sono stati inizialmente progettati per trovare modelli nei token che rappresentano il testo, Sora utilizza invece token che rappresentano piccole porzioni di spazio e tempo.

In testa al gruppo

Sora non è il primo modello da testo a video. I modelli precedenti includono Emu di Meta, Gen-2 di Runway, Stable Video Diffusion di Stability AI e recentemente Lumiere di Google.

Lumiere, pubblicato solo poche settimane fa, affermava di produrre video migliori rispetto ai suoi predecessori. Ma Sora sembra essere più potente di Lumiere almeno per alcuni aspetti.

Sora può generare video con una risoluzione fino a 1920 × 1080 pixel e in diverse proporzioni, mentre Lumiere è limitato a 512 × 512 pixel. I video di Lumiere durano circa 5 secondi, mentre Sora realizza video fino a 60 secondi.

Lumiere non può realizzare video composti da più inquadrature, mentre Sora sì. Secondo quanto riferito, Sora, come altri modelli, è anche in grado di eseguire attività di editing video come creare video da immagini o altri video, combinare elementi di diversi video ed estendere i video nel tempo.

Entrambi i modelli generano video ampiamente realistici, ma possono soffrire di allucinazioni. I video di Lumiere potrebbero essere riconosciuti più facilmente come generati dall’intelligenza artificiale. I video di Sora sembrano più dinamici, con più interazioni tra gli elementi.

Tuttavia, in molti dei video di esempio le incongruenze diventano evidenti dopo un attento esame.

Applicazioni promettenti

I contenuti video vengono attualmente prodotti filmando il mondo reale o utilizzando effetti speciali, entrambi i quali possono essere costosi e richiedere molto tempo. Se Sora diventasse disponibile a un prezzo ragionevole, le persone potrebbero iniziare a utilizzarlo come software di prototipazione per visualizzare idee a un costo molto inferiore.

Sulla base di ciò che sappiamo delle capacità di Sora, potrebbe anche essere utilizzato per creare brevi video per alcune applicazioni nel campo dell’intrattenimento, della pubblicità e dell’istruzione.

Il documento tecnico di OpenAI su Sora è intitolato “Modelli di generazione video come simulatori del mondo”. L’articolo sostiene che versioni più grandi di generatori video come Sora potrebbero essere “capaci simulatori del mondo fisico e digitale e degli oggetti, animali e persone che vivono al loro interno”.

Se ciò è corretto, le versioni future potrebbero avere applicazioni scientifiche per esperimenti fisici, chimici e persino sociali. Ad esempio, si potrebbe essere in grado di testare l’impatto di tsunami di diverse dimensioni su diversi tipi di infrastrutture e sulla salute fisica e mentale delle persone nelle vicinanze.

Raggiungere questo livello di simulazione è molto impegnativo e alcuni esperti affermano che un sistema come Sora è fondamentalmente incapace di farlo.

Un simulatore completo dovrebbe calcolare le reazioni fisiche e chimiche ai livelli più dettagliati dell’universo. Tuttavia, simulare un’approssimazione del mondo e realizzare video realistici per gli occhi umani potrebbe essere una possibilità nei prossimi anni.

Rischi e preoccupazioni etiche

Le principali preoccupazioni riguardo a strumenti come Sora ruotano attorno al loro impatto sociale ed etico. In un mondo già afflitto dalla disinformazione, strumenti come Sora potrebbero peggiorare le cose.

È facile vedere come la capacità di generare video realistici di qualsiasi scena che puoi descrivere possa essere utilizzata per diffondere notizie false convincenti o gettare dubbi su filmati reali. Potrebbe mettere in pericolo le misure di sanità pubblica, essere utilizzato per influenzare le elezioni o addirittura gravare sul sistema giudiziario con potenziali prove false.

I generatori di video possono anche consentire minacce dirette a individui presi di mira, tramite deepfake, in particolare quelli pornografici. Ciò potrebbe avere ripercussioni terribili sulla vita delle persone colpite e delle loro famiglie.

Oltre a queste preoccupazioni, ci sono anche questioni relative al diritto d’autore e alla proprietà intellettuale. Gli strumenti di intelligenza artificiale generativa richiedono grandi quantità di dati per l’addestramento e OpenAI non ha rivelato da dove provengano i dati di addestramento di Sora.

Per questo motivo sono stati criticati anche i grandi modelli linguistici e i generatori di immagini. Negli Stati Uniti, un gruppo di autori famosi ha fatto causa a OpenAI per un potenziale uso improprio dei loro materiali. Il caso sostiene che i grandi modelli linguistici e le aziende che li utilizzano stanno rubando il lavoro degli autori per creare nuovi contenuti.

Non è la prima volta negli ultimi tempi che la tecnologia supera la legge.

Sebbene queste preoccupazioni siano reali, sulla base dell’esperienza passata non ci aspetteremmo che interrompano lo sviluppo della tecnologia di generazione video. OpenAI afferma che sta “adottando diverse importanti misure di sicurezza” prima di rendere Sora disponibile al pubblico, inclusa la collaborazione con esperti di “disinformazione, contenuti che incitano all’odio e pregiudizi” e “la creazione di strumenti per aiutare a rilevare contenuti fuorvianti”.

Fonti

theconversation