Comment stocker des données numériques dans l’ADN [Vidéo]

Publié par

Time : 12 mn 54 / [1/1]

 

Des disquettes aux clés USB, chaque méthode de stockage des données devient finalement obsolète. Et si nous pouvions trouver un moyen de stocker toutes les données du monde pour toujours ? La bioinformaticienne Dina Zielinski partage une solution qui existe depuis quelques milliards d’années : l’ADN.

 


 

 

 

Le projet européen OligoArchive travaille à établir des preuves de concept pour le stockage de données sur de l’ADN synthétique. Un support en théorie inégalé en termes de densité d’information et de longévité, mais qui souffre encore de limitations techniques à surmonter.

 

Deux millions de milliards de milliards de bits d’ici à 2025. L’explosion d’Internet et des réseaux sans fil a entraîné une accumulation extrême de données. « Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune », décrit Marc Antonini, directeur de recherche CNRS au laboratoire d’Informatique, signaux et systèmes de Sophia Antipolis (I3S) [1]. Une véritable crise a lieu, forçant les géants d’Internet à multiplier les data centers, tout en ayant à les implanter dans des zones froides à cause des énormes problèmes de refroidissement qu’ils nécessitent.

 

 

Toutes les données du monde dans une boîte à chaussures

Dans la quête de systèmes de stockage plus adaptés, la chimie et les molécules du vivant intéressent différents chercheurs. Marc Antonini se penche ainsi sur l’ADN, dont un seul gramme peut théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits. Toutes les données du monde tiendraient alors dans une boîte à chaussures.

 


 

« Si on devait réunir toutes nos données actuelles sur des Blu-ray, nous aurions vingt-trois piles de disques allant jusqu’à la Lune. »

 


 

Avec un tel besoin et l’amélioration des techniques de séquençage, l’idée séduit de plus en plus. « L’ADN a l’avantage d’être extrêmement compact et de résister au passage du temps », avance Marc Antonini. « On parvient à séquencer de l’ADN de mammouths vieux de dizaines de milliers d’années, alors que les systèmes sur disque dur doivent être recopiés par sécurité tous les cinq ans, et ceux sur bande magnétique tous les vingt ans. » Des procédés laborieux et énergivores que l’ADN pourrait remplacer.

 

Marc Antonini et son équipe travaillent ainsi sur OligoArchive, un projet de trois ans financé à hauteur de trois millions d’euros par la Commission européenne, qui rassemble l’I3S, l’Institut de pharmacologie moléculaire et cellulaire (IPMC) [2], l’école d’ingénieurs Eurecom, l’Imperial College à Londres (Royaume-Uni) et enfin la start-up irlandaise HelixWorks Technologies Limited. Ensemble, ils visent à obtenir une preuve de concept pour chaque étape du stockage sur ADN : synthétiser et stocker les données, puis être capable de les extraire le plus efficacement possible. Le projet ambitionne de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN pourrait un jour remplacer les technologies actuelles de stockage d’archives sur bandes magnétiques.

 

 

Capsules hermétiques contenant de l’ADN synthétique. Ces capsules peuvent être conservées à température ambiante pendant des décennies, voire davantage. Imagene SA, Evry

 

 

Parmi les principaux écueils à surmonter : le prix. Qu’il soit naturel ou synthétique, l’ADN est composé de séquences de quatre nucléotides, aussi appelés bases. Les systèmes de stockage les utilisent dans un système quaternaire, contrairement au système binaire des ordinateurs. À l’heure actuelle cependant, synthétiser deux cents nucléotides coûte un dollar, sachant qu’encoder une seule image réclame plusieurs milliers de nucléotides. Cela empêche de convertir la masse gigantesque de données à laquelle nous faisons face.

 

 

Des données chaudes et froides 

Plusieurs solutions existent pour contourner le problème, comme déjà de ne pas tout conserver sur ADN. On distingue en effet les données froides des données chaudes. « Les données froides sont celles auxquelles on n’accède que rarement, voire jamais, comme les vieilles photos numérisées accumulées sur le cloud ou des archives administratives », explique Marc Antonini. « Ce stock grandit de 60 % chaque année, alors que les capacités de stockage des systèmes actuels ne s’améliorent que de 20 %, ce qui pousse à construire toujours plus de centres»

 


 

« (Stocker des données froides sur ADN synthétique) serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées. »

 


 

Ces données froides n’ont cependant pas besoin d’être accessibles avec l’immédiateté des éléments utilisés au quotidien. Elles sont ainsi d’excellentes candidates pour des formes alternatives de stockage, comme sur ADN synthétique, car elles demandent moins d’encodages et de décodages successifs. « Ce serait précieux pour le monde du patrimoine culturel, qui pourrait facilement garder plusieurs copies d’archives de films ou de musées », souligne Marc Antonini. « L’incendie du studio Universal en 2008 l’a malheureusement montré, de nombreux masters d’enregistrements ont été définitivement perdus car ils n’avaient pas été dupliqués. »

 

L’équipe d’OligoArchive étudie des solutions pour réduire les coûts : diminuer la quantité de nucléotides nécessaires pour stocker une même quantité d’information. Comme nous l’avons vu, l’ADN se compose de quatre nucléotides différents appelés A, C, G et T. Une première technique simple de codage ADN consiste à leur attribuer chacun deux chiffres binaires : A pour 0 0, C pour 0 1, G pour 1 0 et enfin T pour 1 1. On parle alors de transcodage.

 

 

Contourner les règles du vivant

Cependant, si le code ADN synthétique généré pour représenter une donnée numérique ne contient aucune information génétique compréhensible par le monde du vivant, il reste soumis à certaines de ses règles. Par exemple, si un nucléotide est répété trop de fois de manière ininterrompue, son séquençage va subir un certain nombre d’erreurs. Le transcodage ne permet ni de gérer cela facilement ni de contrôler la longueur, et donc le coût, des séquences ADN générées. Pour pallier ces problèmes, les chercheurs proposent d’intégrer un système de codage directement au niveau de la compression des données numériques. Le challenge consiste à créer des séquences de code ADN capables de contenir, en moyenne, encore plus de données numériques sur un même nombre de nucléotides. Ceci réduirait les coûts de synthèse. L’équipe conçoit également des algorithmes qui corrigent automatiquement les erreurs liées au processus de séquençage du code ADN lors du décodage.

 

 

Images numériques après codage et synthèse sur ADN. À gauche, séquençage et décodage au moyen d’une solution de compression non adaptée ; à droite, séquençage et décodage au moyen de la solution de compression développée par le projet OligoArchive. Laboratoire I3S

 

 

« Lorsque l’on parle au téléphone, les canaux de codage ont parfois des problèmes de bruit qui hachent, voire coupent la communication », prend comme exemple Marc Antonini. « Le bruit introduit par le séquençage de l’ADN produit en quelque sorte le même phénomène. Nous devons donc rendre l’encodage plus robuste et nous travaillons aujourd’hui dans cette direction. Nous aimerions de plus standardiser les systèmes de compression au-delà de notre groupe d’étude, et nous participons pour cela au comité de standardisation international JPEG. » L’équipe se donne trois ans pour apporter ses premières preuves de concept, et ainsi ouvre la voie à un usage concret du stockage sur ADN artificiel.

 


 

Source :

https://oligoarchive.github.io/

https://lejournal.cnrs.fr/articles/des-molecules-pour-stocker-linformation

https://lejournal.cnrs.fr/articles/stockage-de-donnees-les-promesses-de-ladn-synthetique

 

Article :

Martin Koppe, journaliste / CNRS

 

Note :

1.- Unité CNRS/Université Côte d’Azur.

2.- Idem.

 

Vidéo : 

[1] How we can store digital data in DNA | Dina Zielinski – TED / YouTube

 

Photo :

Pour illustration

 

Voir notamment :

IBM – RAMAC 305 [1956] : Le premier disque dur qui pesait son poids ! [Vidéo]

2 commentaires

  1. Ne t’inquiète pas mon ami. A la vitesse à laquelle l’intelligence humaine se miniaturise, une boîte à chaussures pointure 25 sera bientôt suffisante même avec des disquettes…

    J'aime

    1. Please Pat ! Stop, je n’en peux plus et je ne mens pas…. « une boîte à chaussures pointure 25 sera bientôt suffisante même avec des disquettes… » / Mdr !

      J'aime

Votre commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.