Il DNA sarà il futuro dell'archiviazione dei dati?

In un momento in cui produciamo sempre più dati e in cui si pone la questione della loro memorizzazione, i biologi interessati a questo problema si sono rivolti a uno dei “dischi rigidi” più compatti disponibili: l DNA.

Infatti, questa macromolecola presente in tutte le cellule contiene tutte le informazioni necessarie al loro corretto funzionamento e riproduzione, codificate nelle sue quattro basi A, C, G e T. In base a questo principio, non potrebbe contenere dati di origine umana, codificati nelle basi del DNA come sono sotto forma di 0 e 1 in un computer?

Negli ultimi anni, una grande quantità di ricerca si è concentrata sulla possibilità di immagazzinare dati nel DNA, sia in vivo (all’interno delle cellule) che in vitro. Questa soluzione tecnologica sarebbe, secondo i suoi promotori, un modo per far fronte alle difficoltà di archiviazione dei dati che si presenteranno tra qualche anno.

La quantità globale di dati digitali è stata stimata nel 2018 a 33 zettabyte (mille miliardi di miliardi di byte) e raddoppia ogni due o tre anni. La memorizzazione dei dati su hard disk o nastri magnetici richiede quindi sempre più spazio. Richiede quindi sempre maggiori infrastrutture e risorse energetiche. Infine, l’archiviazione convenzionale non è molto duratura, per cui i dati archiviati su CD o nastro magnetico devono essere trasferiti ogni 10 anni circa.

La prima dimostrazione della memorizzazione dei dati nel DNA risale agli anni ’80 con il lavoro di Joe Davis, che aveva poi codificato la rappresentazione di una runa germanica nel genoma di un batterio. Ma gli sviluppi tecnici attorno a questa idea sono decollati solo dall’inizio degli anni 2010.

I tuoi dati in provetta

La memorizzazione dei dati nel DNA in vitro funziona molto spesso come segue: i dati da memorizzare – testi, immagini – vengono convertiti in una sequenza di 0 e 1, che vengono a loro volta trasposti in sequenze di nucleotidi A, C, G e T. La molecola di DNA viene quindi sintetizzata da dispositivi dedicati, che aggiungono i nucleotidi desiderati uno dopo l’altro per formare filamenti di DNA, solitamente lunghi da poche decine a duecento paia di basi – in confronto, i batteri hanno generalmente un genoma di pochi milioni di paia di basi e gli esseri umani 3,2 miliardi di basi per cellula. Informazioni piuttosto voluminose saranno così distribuite su diversi filamenti di DNA, ma saranno ricostituite quando lette. Le molecole possono quindi essere immagazzinate, spesso in una soluzione acquosa. L’accesso alle informazioni avviene mediante sequenziamento e interpretazione delle sequenze ottenute.

Il costo è uno dei principali limiti della conservazione in vitro: la sintesi del DNA, e quindi la scrittura dei dati, è costosa. Per aggirare i costi associati a questa sintesi, vengono esplorati metodi alternativi. Ad esempio, si prevede di utilizzare una codifica basata sulle strutture fisiche del DNA: qui, il ripiegamento o meno del DNA corrisponde quindi a uno 0 o a un 1. Un’altra opzione, la codifica tramite modificazioni epigenetiche: in questo caso, i bit sono codificati grazie alla presenza o assenza di modificazioni chimiche lungo la molecola del DNA, e non attraverso le basi.

Un’altra limitazione al momento è che la fase di sintesi può richiedere molto tempo e soggetta a errori, proprio come la fase di sequenziamento necessaria per leggere i dati. Per compensare eventuali errori, la codifica dei dati deve includere informazioni ridondanti e vengono utilizzati codici di correzione: si tratta di sequenze aggiunte dopo i dati di interesse, che consentono di ricostituire l’informazione in caso di errore o cancellazione durante la scrittura o la lettura. Questi codici di correzione degli errori provengono dal lavoro sulla codifica delle informazioni. Informazioni ridondanti, cioè già presenti nel messaggio, si aggiungono intorno alle informazioni da trasmettere. Ciò consente al sistema che lo decodifica di rilevare e rielaborare gli errori. Uno dei codici di correzione degli errori più utilizzati, il codice Reed-Solomon, è presente anche nei CD e nei codici QR per evitare la perdita di informazioni.

I tuoi dati nei batteri

È anche possibile memorizzare dati in vivo, nel genoma di organismi viventi. Nel 2017, una gif animata è stata codificata nel genoma di un batterio, le basi che costituiscono il codice sono state integrate in un punto specifico del genoma. Una tripletta di nucleotidi è stata quindi codificata per un colore di pixel, consentendo la ricostruzione in 21 livelli di grigio.

Più recentemente, nel 2021, i ricercatori della Columbia University hanno implementato un sistema per trasferire i dati direttamente dal formato digitale all’archiviazione biologica.

In questo nuovo sistema, denominato “registrazione molecolare elettrobiologica”, il formato digitale, composto da 0 e 1, viene espresso come segnale elettrico. Pertanto, per codificare uno 0, non c’è segnale elettrico e una sequenza dal genoma originale del batterio è integrata nel genoma. Per codificare invece un 1, quindi in presenza di un segnale elettrico, si integra nel genoma una sequenza esogena – estranea al genoma del batterio. I ricercatori hanno così codificato il messaggio “ciao mondo” nel genoma del batterio. Se la quantità di dati codificati è ancora esigua, è la prima dimostrazione di scrittura di dati direttamente dal computer su un organismo vivente – una sorta di videoregistratore cellulare, in grado di registrare dati sull’equivalente biologico di un nastro magnetico: il DNA.

Colonie di batteri E. coli in una capsula di Petri. Nathan Reading/Flickr, CC BY-NC-ND

È più difficile manipolare il DNA in vivo che in vitro e, per i metodi di “registrazione molecolare“, la densità dello spazio di archiviazione (qui, la quantità di informazioni per nucleotide) è inferiore, la codifica di uno 0 o di un 1 attualmente richiedono circa 50 nucleotidi. Tuttavia, i dati registrati in vivo hanno il vantaggio di essere facili da copiare, grazie alla divisione cellulare, a differenza dei dati memorizzati in vitro che devono essere replicati mediante PCR, Polymerase Chain Reaction, una tecnica che consente di duplicare grandi numeri. basse quantità di materiale genetico e primer specifici, ormai famoso grazie al suo ruolo nello screening per SARS-Cov-2, ma più costoso delle colture durante le quali le cellule si dividono.

La replicazione del DNA è spesso citata come un problema di conservazione in vivo, poiché è probabile che generi mutazioni che potrebbero danneggiare i dati introducendo errori di codifica; tuttavia gli errori di replicazione del DNA sono più rari in vivo che durante la PCR.

Stoccaggio “freddo”, ma non solo

La memorizzazione dei dati nel DNA sembra essere più adatta per l’archiviazione dei dati cosiddetti “freddi”, vale a dire i dati ai quali l’accesso è poco frequente. Ma sono previste altre applicazioni.

Questo tipo di archiviazione potrebbe essere utilizzato anche in steganografia, ovvero per nascondere un messaggio all’interno di un altro messaggio. Ad esempio, le cellule che immagazzinano il DNA che trasporta informazioni potrebbero essere mescolate con batteri provenienti da un ambiente naturale per aiutare a nascondere le informazioni.

Viene esaminata anche l’autenticazione degli oggetti tramite codici a barre nucleotidici, ad esempio in questo studio, che propone di utilizzare DNA incapsulato in silice e miscelato con oli di oliva in modo che sia possibile verificarne l’autenticità.

Anche se l’archiviazione dei dati nel DNA non è più del tutto fantascienza, ha ancora molta strada da fare prima che diventi mainstream. Il DNA si conserva bene ed è molto compatto, milioni di nucleotidi occupano solo pochi micrometri – avrebbe così una densità di immagazzinamento un milione di volte maggiore di quella dei dischi rigidi. Questi sono i suoi vantaggi rispetto ai metodi di archiviazione tradizionali, come l’archiviazione magnetica (utilizzata nei dischi rigidi) o l’archiviazione ottica (CD e DVD).

Tuttavia, i vari costi coinvolti, in particolare per la scrittura dei dati, sono ancora di diversi ordini di grandezza superiori a quelli dell’archiviazione convenzionale. Anche la velocità di lettura dei dati – spesso, la velocità di sequenziamento del DNA – è un ostacolo da superare, anche se negli ultimi anni sono stati compiuti notevoli progressi in questo campo e ulteriori miglioramenti devono ancora venire, come i metodi di sequenziamento che richiedono un solo Molecola di DNA, dove i metodi convenzionali ne richiedono diversi.

Anche se non è impossibile immaginare, tra qualche decennio, uno scaffale d’archivio pieno di provette contenenti libri sotto forma di DNA, è tuttavia improbabile che tu possa presto guardare il tuo film preferito in un lettore DVD genetico.