L’ADN sera le futur de la Data

Andrea Zerial
4 janvier 2021
Performance et Technologies
Aucun commentaire

Depuis 2010, le monde produit plus de données qu’il ne peut en stocker. En 2019 on note un delta de 11 Zettaoctets (1 Zo = 10²¹ octets) entre demande de stockage et données effectivement stockées. De plus, l’obsolescence de nos supports de stockage actuels et leur lourde empreinte carbone posent légitimement question. Il existe pourtant dans la nature une autre forme de stockage de données. Celle-ci qui n’a pas été inventée par l’homme et se perfectionne depuis près de 4 milliards d’années : l’ADN. Le stockage sur ADN va révolutionner le monde de la data.

La Data augmente et les supports stagnent

Depuis les travaux d’Alan Turing dans les années 50 sur l’intelligence artificielle et l’arrivée du Big Data en 1997, ces technologies ont notamment convergé pour donner naissance à la transformation numérique. Les données constituent son carburant et le monde en produit de façon exponentielle. Selon l’institut IDC, en 2025, la Terre comptera 175 Zettaoctets (soit 175×10²¹octets) de Data.

Les problèmes sont multiples. Pour commencer, nous produisons plus de données que nous ne pouvons en stocker. Nos supports sont périssables : 5 ans pour la mémoire flash, 10 ans pour les disque durs et optiques, plus de 15 ans pour les bandes magnétiques. De plus, ils sont extrêmement énergivores : les datacenters consomment notamment 2% de la consommation d’électricité mondiale. Enfin, tous les datacenters réunis absorbent, sur un an, la production de plus de 30 réacteurs nucléaires.

La transformation numérique nécessite une évolution de nos systèmes de stockage.

Le futur viendra du vivant

L’ADN qui contient notre génome ne compte que quatre bases (A, C T, G). De plus, chaque cellule de notre corps contient 6,4 milliards de paires de ces bases. L’ADN est plus durable (plusieurs siècles), moins énergivore et un million de fois plus dense que les supports actuels. Evidemment, son empreinte carbone est quasi nulle.

En 2012, Georges Church d’Harvard réussit à encode sur des brins d’ADN un livre en HTML de 53426 mots, 11 images Jpeg et un programme en Javascript en faisant correspondre le code binaire numérique fait de 0 et de 1 à chaque paire de bases. Les années passent et apportent leur lot d’améliorations. En 2018, Microsoft s’associe avec l’université de Washington pour encoder 200 Mo de données sur ADN. Et espère ainsi offrir une version commerciale du procédé avant 2030. Il faut dire que la totalité des données mondiales actuelles tiendrait sur 73 grammes d’ADN, de quoi révolutionner la technologie des Datacenter qui constituent le cloud.

ADN & Data : le temps et l’argent

En effet, le stockage de la data sur l’ADN porte en lui beaucoup d’espoir mais reste pour le moment inaccessible. Il faut plusieurs semaines pour encoder les données (quel que soit leur volume) et de 24 à 48 heures pour les lire. On est encore loin des performances d’un disque SSD.

Le coût s’avère franchement prohibitif, plus de 1 000 $ le Mo. Ce qui n’est pas complètement délirant quand on le compare au premier disque dur d’IBM, le RAMAC 305. Produit commercialisé en 1957, il coûtait 10 000 $ par Mo et pesait une tonne. Nul doute que les prix devraient rapidement chuter. Si l’essentiel des acteurs de cette technologie émergente sont américains, une équipe française a développé et breveté sa propre technologie de stockage de la data sur l’ADN.

Ces experts de la biologie de synthèse, dirigés par Stéphane Lemaire (Laboratoire de Biologie Computationnelle et Quantitative, CNRS, Sorbonne Université) ont développé une méthode innovante qui devrait accélérer les temps d’écriture/lecture et faire baisser drastiquement les prix grâce, entre autres, à la robotisation (RPA physique et logicielle). Il pourraient bien changer la face du cloud.