De nouveaux virus découverts à l’aide du cloud : la prévention des pandémies s’organise

27 avril 2022 - 12:52,

Tribune

- Erick Jan-Vareschard, AWS France.
La pandémie a créé un chaos mondial en déstabilisant les infrastructures sanitaires et en déréglant l’économie. Les moyens de prévenir une nouvelle pandémie existent aujourd’hui comme le prouve le projet Serratus, une infrastructure de cloud computing open source qui permet la comparaison de séquences à l’échelle du pétaoctet. Grâce à cette dernière, une immense quantité d’informations scientifiques a pu être exploitée à l’aide d’un supercalculateur hébergé dans le cloud et ce, dans un délai limité et à moindre coût.  

Prévenir la prochaine épidémie :  la réponse se trouve dans les données

La technologie a été à la manœuvre pour traiter la pandémie mais elle a échoué à la prévenir. Dès lors que l’on a pu identifier le virus de la COVID, tout s’est accéléré. L’agent pathogène inconnu a été reconstitué en quelques semaines grâce au séquençage haut débit et les tests de dépistage ont été mis au point. Des vaccins ont été créés en un temps record grâce aux techniques d’ARN messager. Mais nous sommes passés à côté du véritable enjeu : éviter cette pandémie en détectant et en identifiant au plus tôt l’agent infectieux en cause. Il est impensable qu’un tel scénario se reproduise. On sait que la plupart des nouvelles maladies contagieuses sont dues à des virus ARN transmis de l’animal à l’homme.  Ebola, MERS, SRAS, Zika, des virus de la grippe et le SARS-CoV-2 résultent de cette transmission inter-espèces. Pour identifier les virus connus et inconnus, les chercheurs disposent de gigantesques bases de données dont la taille ne cesse de croitre. Rien que la « Sequence Read Archive » (SRA) contient des millions de giga-octets de séquençage génétique qui permettraient potentiellement de déceler des centaines de milliers de nouveaux virus. Malgré toutes ses connaissances, nous avons découvert trop tardivement ce coronavirus du fait de notre incapacité à exploiter rapidement ces masses de données. 

Le cloud donne un nouvel élan à l’informatique biologique

Face à la croissance exponentielle des données génomiques, les ordinateurs traditionnels à hautes performances ont montré leurs limites. Cela prendrait plus d’une année pour analyser la base de données SRA avec des coûts prohibitifs. Une équipe internationale de chercheurs a donc eu l’idée d’utiliser la puissance du Cloud AWS pour créer la « plateforme Serratus » en s’associant au Cloud Innovation Centre (CIC) de l'université de Colombie-Britannique au Canada. Ce projet scientifique, conçu en open source, a pour objectif d’identifier et de cataloguer ultra rapidement tous les coronavirus connus et inconnus en réponse à la pandémie COVID-19. Cette plateforme d’alignement de séquençage haut débit devrait radicalement changer l’informatique biologique dans les années à venir en commençant par la virologie. Serratus coche toutes les cases de l’efficacité. L’ensemble du projet n’aura couté que 20 000 euros, et huit semaines auront suffi pour créer un cluster de 22 500 ordinateurs dans une architecture hautement parallélisée. Les résultats sont probants. Serratus a recherché 5,7 millions d'échantillons biologiques collectés dans le monde entier, soit 20 millions de gigaoctets de données, et produit des résultats en seulement 11 jours, alors qu'il aurait fallu plus de 2 000 ans avec un seul ordinateur.

Vers une prévention en temps réel de la prochaine pandémie

La plateforme Serratus a déjà permis la découverte de 132 000 nouveaux virus à ARN et de neuf nouvelles espèces de coronavirus. Avant Serratus, seuls 15 000 virus à ARN étaient connus dans les bases de données publiques. Ces avancées vont contribuer à créer un système de surveillance mondiale puisque la base de données et les séquences, regroupées sous le nom de « Open Virome », peuvent être intégrées à des outils de diagnostics et de recherche. Serratus pourra jouer également un rôle dans la mise au point de vaccins en fournissant des données évolutives enrichies qui permettent de comprendre comment les protéines de surface virales se modifient au fil du temps. Cette connaissance approfondie apportée par le projet Serratus aide à déterminer les origines de la pandémie mais surtout à prévenir la prochaine. Pour y parvenir, il est crucial de stopper la propagation d’un virus le plus tôt possible. Après avoir mis en place tous les outils pour traiter et analyser les données de séquençage, les chercheurs vont donc porter leurs efforts sur la prévention d’une pandémie en temps réel. Cela va se concrétiser par l’automatisation des annotations des données nécessaires pour identifier les virus inconnus.

La pandémie a mis une fois de plus en évidence le rôle essentiel des données dans le monde moderne. L’accumulation de données et leur analyse dans tous les domaines de la biomédecine sont en train de révolutionner la recherche et les soins. L’intelligence artificielle est également de plus en plus présente pour obtenir des analyses et des diagnostics précis. Cela nécessite des puissances de calcul considérables que seul le cloud permet d’obtenir à des coûts raisonnables.


L'auteur

Erick Jan-Vareschard est responsable du Secteur Public pour Amazon Web Services (AWS) en France. Il bénéficie d’une quinzaine d’années d’expérience consacrées à l’accompagnement des acteurs publics dans leur transformation, successivement chez Cisco, Symantec et, depuis 2016, chez AWS.

Avez-vous apprécié ce contenu ?

A lire également.

Lettre d'information.

Ne manquez rien de la e-santé et des systèmes d’informations hospitaliers !

Inscrivez-vous à notre lettre d’information hebdomadaire.

Contact

Nos marques

Logo DSIHLogo Thema Radiologie