Progetto di raccolta dati ENCODE

ENCODE, in piena Encyclopedia of DNA Elements, il progetto di raccolta collaborativa dei dati è iniziato nel 2003 e mirava a inventare tutti gli elementi funzionali del genoma umano. ENCODE è stato concepito dai ricercatori del National Human Genome Research Institute (NHGRI) degli Stati Uniti come un seguito del Progetto genoma umano (HGP; 1990-2003), che aveva prodotto una grande quantità di dati sulla sequenza del DNA ma non aveva coinvolto analisi complete di specifici elementi genomici.

Le informazioni raccolte dagli scienziati di ENCODE sono state concepite come una sorta di guida, facilitando lo studio di componenti del genoma umano che contribuiscono alla funzione di cellule e tessuti e che pertanto hanno implicazioni per la salute e le malattie umane. Ha inoltre fornito importanti spunti per lo studio dell'evoluzione e della genetica umana, generando alla fine dati che non solo suggerivano che vaste regioni del genoma un tempo considerate non funzionali fossero effettivamente importanti dal punto di vista funzionale, ma sfidavano anche il concetto di base di un gene.

La ricerca di elementi funzionali

Gli elementi funzionali del genoma umano, come definito nel progetto ENCODE, includono quei segmenti di DNA che codificano le molecole di RNA attraverso il processo di trascrizione, che legano le proteine regolatorie note come fattori di trascrizione o che possiedono siti di legame per i gruppi metilici, che sono capaci di modificare la struttura della cromatina (le fibre di proteine del DNA compatte che si condensano per formare i cromosomi). Questi elementi appartengono alla rete regolatoria genomica (o regulome), una caratteristica della quale è la produzione di trascrizioni di RNA da geni che trasportano informazioni per la produzione di proteine. Le proteine alla fine danno forma a cellule e tessuti e regolano i processi chimici essenziali per la vita.

Quando l'HGP si concluse nel 2003, tuttavia, non era chiaro quanta parte del genoma umano fosse attivamente trascritta nell'RNA che codificava le proteine e la complessità e la funzione delle trascrizioni dell'RNA non erano state ampiamente esplorate. Allo stesso modo, la rilevanza funzionale di altre caratteristiche genomiche, che vanno dalle relazioni tra l'espressione genica e la modifica delle proteine dell'istone nella cromatina al significato trascrizionale degli pseudogeni (sequenze di DNA relitte che si ritiene siano state rese defunte a causa dell'evoluzione), non era chiara. Di conseguenza, c'era una significativa necessità di un approccio sistematico per identificare e mappare le posizioni degli elementi funzionali e caratterizzare le relazioni fisiche degli elementi nel regulome. Tali obiettivi sono stati abbracciati dagli scienziati di ENCODE e il loro raggiungimento avrebbe dovuto portare a una comprensione più approfondita dei meccanismi che controllano i geni e la loro attività.

Struttura del progetto ENCODE

ENCODE è stato diviso in due fasi: una fase pilota e di sviluppo tecnologico e una fase di produzione. Il componente pilota si è concentrato sulla selezione di una serie di metodi sperimentali e computazionali che i ricercatori di ENCODE potrebbero utilizzare per identificare elementi funzionali all'interno di circa tre miliardi di coppie di basi che compongono il genoma umano. Per facilitare il confronto tra efficacia ed efficienza, sono stati testati metodi diversi sulle stesse regioni target che coprono un totale di 30 milioni di coppie di basi (30 Mb; circa l'1 percento del genoma umano) all'interno di diversi tipi di cellule umane. Tra i metodi esplorati c'erano alcune tecnologie di sequenziamento del DNA di prossima generazione e array di piastrellatura genomica (strumenti per scansionare interi genomi alla ricerca di regioni con determinate caratteristiche) e altri approcci computazionali (come l'analisi della struttura della cromatina). Il perfezionamento di tecnologie in grado di generare dati in modo ad alta produttività (automatizzato) ha costituito la base del componente di sviluppo tecnologico di ENCODE. I metodi identificati come più utili sono stati quindi ridimensionati per l'analisi del genoma completo.

La fase di produzione su larga scala di ENCODE, in cui gli scienziati hanno ampliato la ricerca di elementi funzionali al rimanente 99 percento del genoma umano, è iniziata nel 2007 ed è stata completata nel 2012. Più di 400 scienziati, la maggior parte finanziati dal NHGRI, hanno partecipato a la fase di fondo scala. Questi ricercatori hanno costituito la maggior parte del consorzio ENCODE e le istituzioni con sede negli Stati Uniti in cui hanno svolto le loro ricerche sono state designate come centri di produzione ENCODE. Il consorzio ENCODE, oltre a svolgere il lavoro di creazione di un inventario di elementi funzionali, ha anche sviluppato alcune linee guida di lavoro, come l'uso di linee cellulari designate e strumenti standardizzati di analisi e comunicazione dei dati, che sono stati fondamentali per consentire il confronto di dati generati dai diversi laboratori partecipanti.

I centri di produzione ENCODE sono stati supportati da un Data Coordination Center (DCC), situato presso l'Università della California, a Santa Cruz. Il DCC è stato il principale archivio di dati del progetto, ha fornito ai partecipanti allo studio un portale comune attraverso il quale potevano inviare i loro dati, acquisire metadati associati a esperimenti e set di dati e sviluppare protocolli di standardizzazione e verifica dei dati. Il DCC ha inoltre sviluppato tutorial per aiutare i ricercatori in generale che erano interessati a utilizzare i dati una volta resi pubblici. Successivamente, al progetto è stato aggiunto un Data Analysis Center (DAC) separato, con sede presso la University of Massachusetts Medical School. Il DAC ha contribuito all'analisi integrativa dei dati ENCODE.

L'inventario ENCODE

I primi risultati della fase pilota di ENCODE sono stati pubblicati nel 2007. Sebbene questa fase del progetto riguardasse principalmente l'enumerazione degli elementi funzionali trovati entro i 30 Mb di sequenze target, il processo di identificazione dei modi per integrare e analizzare set di dati ha portato a osservazioni intriganti, in particolare per quanto riguarda la struttura e il comportamento dei geni. Queste prime conclusioni sono state supportate dai dati aggiuntivi generati durante la fase di produzione di ENCODE, i cui risultati sono stati pubblicati nel 2012. I risultati della fase di produzione hanno anche rinnovato il dibattito sul significato funzionale del DNA non codificante.

Ridefinire il gene

I dati ENCODE rilasciati nel 2007 hanno rivelato che il genoma umano è ampiamente coperto dalle trascrizioni dell'RNA, alcune delle quali sono prodotte attraverso lo splicing alternativo (modifica di una trascrizione primaria che porta alla produzione di una proteina diversa da quella codificata normalmente dalla trascrizione). I risultati hanno confermato precedenti rapporti, in cui gli scienziati hanno proposto che il genoma umano sia costituito da vaste reti trascrizionali. L'esistenza di queste reti, tuttavia, ha offuscato le idee tradizionali sui confini tra i geni e le regioni intergeniche (le lacune tra i geni) e ha quindi sfidato il concetto di base del gene come unità di codifica proteica discreta. Il concetto è stato nuovamente messo in discussione nel 2012, quando gli scienziati di ENCODE hanno riferito che fino al 75% del genoma umano potrebbe essere coperto da trascrizioni di RNA primarie. Questa estesa copertura di RNA implicava una significativa sovrapposizione tra geni vicini.

Un ruolo funzionale per il DNA non codificante

I dati della fase di produzione hanno inoltre rivelato che l'80% del genoma umano è biochimicamente funzionale a seguito dell'associazione con le attività dell'RNA o della cromatina. Poiché la maggior parte del genoma umano è costituito da DNA non codificante (quello che un tempo era considerato DNA "spazzatura" da alcuni), i dati suggerivano che queste regioni, che non producono proteine e quindi si presumeva non funzionanti, sono in realtà funzionalmente rilevante. Sebbene i ricercatori esterni al progetto ENCODE abbiano già raggiunto questa stessa conclusione in precedenza, i dati ENCODE ne hanno sottolineato il significato. La ricerca condotta in modo indipendente e nell'ambito di ENCODE ha indicato che le regioni non codificanti possono svolgere un ruolo importante nella regolazione della produzione di proteine e nel mantenimento dell'integrità strutturale del genoma.