Analizzano petabyte di dati e scoprono 100.000 nuovi virus tra cui 9 nuovi coronavirus

Credito: Design_Cells, Shutterstock, ID: 1834393165

Attualmente siamo in una pandemia globale che è in corso da più di due anni. Il virus responsabile è diventato subito uno dei più conosciuti al mondo. Tuttavia esistono tantissimi tipi di virus diversi, addirittura trilioni di tipi secondo stime fatte recentemente da alcuni studi.
Il fatto che i tipi di virus siano numerosissimi e che molti di essi non sono stati mai classificati viene dimostrato ancora una volta da un nuovo studio molto interessante, come spiega un nuovo articolo su Science.

Individuate 100.000 nuove specie di virus

I ricercatori, solo passando al setaccio enormi database di dati genomici raccolti nel corso degli anni, hanno individuato più di 100.000 nuove specie di virus tra cui nove nuovi coronavirus e 300 nuovi virus correlati a quello dell’epatite D. Hanno anche scoperto 250 nuovi virus giganti che infettano i batteri.
Per comprendere la grandezza del lavoro, Science spiega che con questo studio il numero di virus conosciuti che usano l’RNA (al posto del DNA) per la costituzione dei loro geni viene espanso di un ordine di grandezza.

Genomica dei petabyte

Inoltre questi numeri mostrano quanto sappiamo ancora poco riguardo alla diversità dei virus stessi. Infine, come spiega Science, si tratta di uno studio che mostra l’utilità della “genomica dei petabyte”. Si tratta dell’analisi, tramite i computer e gli odierni algoritmi informatici, in particolare quelli legati all’intelligenza artificiale, di masse di dati enormi, misurabili in petabyte (un petabyte è equivalente a 1000 terabyte).

Sequenze di database genomici

In realtà neanche i ricercatori che hanno realizzato lo studio, Artem Babaian e Jeff Taylor, credevano di poter ottenere risultati del genere quando hanno iniziato le analisi. Volevano solo analizzare delle sequenze di database genomici per capire quanti coronavirus potessero essere contenuti al loro interno.
I dati erano inseriti in alcuni database sul cloud, in particolare su quello dei National Institutes of Health statunitensi. Solo questo database contiene 16 petabyte di sequenze genomiche nel suo archivio. Si tratta di sequenze genetiche di varie specie animali, dai pesci fino alle sequenze genetiche dell’intestino umano.

Genomi di circa 132.000 virus a RNA

Collaborando con diversi bioinformatici ed esperti di supercalcolo, i ricercatori sono riusciti a setacciare i dati in un tempo relativamente veloce, molto più di chiunque altro potesse pensare, spiega Babaian.
Si sono poi interessati soprattutto ai virus ad RNA, un grosso gruppo di virus che comprende anche coronavirus e quelli dell’influenza, del morbillo e dell’epatite.
Elaborando milioni di dati al giorno, i ricercatori hanno scoperto i genomi di circa 132.000 virus a RNA. Non sono sequenze genetiche complete, per molti viene descritto solo un gene. Ma è quanto basta per affermare con sicurezza che la maggior parte di essi rappresenta virus mai classificati in precedenza.

Note e approfondimenti

  1. New dangers? Computers uncover 100,000 novel viruses in old genetic data | Science | AAAS

Articoli correlati


Tag

Condividi questo articolo


Data articolo