Ya es posible ensamblar genomas enteros en un ordenador en cuestión de minutos

Científicos del Instituto Tecnológico de Massachusetts (MIT), en Estados Unidos, y del Instituto Pasteur de Francia han desarrollado una técnica para reconstruir genomas completos, incluido el humano, en un ordenador personal. Esta técnica es unas cien veces más rápida que los actuales enfoques de vanguardia y utiliza una quinta parte de los recursos.

Ya es posible ensamblar genomas enteros en un ordenador en cuestión de minutos

ALERTA 19:35 14/09/21

MADRID, 14 (EUROPA PRESS)

El estudio, publicado en la revista 'Cell Systems', permite una representación más compacta de los datos del genoma inspirada en la forma en que las palabras, en lugar de las letras, ofrecen bloques de construcción condensados para los modelos lingüísticos.

"Podemos ensamblar rápidamente genomas y metagenomas enteros, incluidos los genomas microbianos, en un modesto ordenador portátil --afirma Bonnie Berger, profesora de matemáticas Simons en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y autora del estudio--. Esta capacidad es esencial para evaluar los cambios en el microbioma intestinal ligados a enfermedades e infecciones bacterianas, como la sepsis, de modo que podamos tratarlas más rápidamente y salvar vidas".

Los proyectos de ensamblaje del genoma han recorrido un largo camino desde el Proyecto Genoma Humano, que terminó de ensamblar el primer genoma humano completo en 2003 con un coste de unos 2.700 millones de dólares y más de una década de colaboración internacional. Pero aunque los proyectos de ensamblaje del genoma humano ya no duran años, siguen requiriendo varios días y una enorme potencia informática.

Las tecnologías de secuenciación de tercera generación ofrecen terabytes de secuencias genómicas de alta calidad con decenas de miles de pares de bases, pero el ensamblaje del genoma utilizando una cantidad tan inmensa de datos ha demostrado ser un reto.

Para abordar el ensamblaje del genoma de forma más eficiente que las técnicas actuales, que implican la realización de comparaciones por pares entre todos los pares posibles de lecturas, Berger y sus colegas recurrieron a los modelos de lenguaje.

Partiendo del concepto de grafo de Bruijn, una estructura de datos sencilla y eficaz utilizada para el ensamblaje del genoma, los investigadores desarrollaron un grafo de Bruin con minimizador espacial (mdBG), que utiliza secuencias cortas de nucleótidos llamadas minimizadores en lugar de nucleótidos individuales.

"Nuestros grafos de Bruijn con minimizadores almacenan sólo una pequeña fracción del total de nucleótidos, preservando la estructura general del genoma, lo que les permite ser órdenes de magnitud más eficientes que los grafos de Bruijn clásicos", afirma Berger.

Los investigadores aplicaron su método para ensamblar datos HiFi reales (que tienen una precisión de lectura de una sola molécula casi perfecta) de moscas de la fruta Drosophila melanogaster, así como datos del genoma humano proporcionados por Pacific Biosciences (PacBio).

Cuando evaluaron los genomas resultantes, Berger y sus colegas descubrieron que su software basado en mdBG requería unas 33 veces menos tiempo y 8 veces menos hardware informático de memoria de acceso aleatorio (RAM) que otros ensambladores de genomas. Su software realizó el ensamblaje del genoma para los datos humanos HiFi 81 veces más rápido con un uso de memoria 18 veces menor que el ensamblador Peregrine y 338 veces más rápido con un uso de memoria 19 veces menor que el ensamblador hifiasm.

A continuación, Berger y sus colegas utilizaron su método para construir un índice para una colección de 661.406 genomas bacterianos, la mayor colección de este tipo hasta la fecha. Comprobaron que la novedosa técnica podía buscar genes de resistencia a los antimicrobianos en toda la colección en 13 minutos, un proceso que tardaba 7 horas utilizando la alineación de secuencias estándar.

"Sabíamos que nuestra representación era eficaz, pero no sabíamos que se adaptaría tan bien a los datos reales, después de optimizar el código", afirma Berger.

"La idea general simplemente funciona y no requiere algunos de los pasos de preprocesamiento habitualmente costosos, como la corrección de errores, realizados por la mayoría de los otros métodos de ensamblaje del genoma", señala Rayan Chikhi, investigador y jefe de grupo en el Instituto Pasteur y autor del estudio.

"También podemos manejar datos de secuenciación con tasas de error de hasta el 4% --añade Berger--. Con los secuenciadores de lectura larga con diferentes tasas de error bajando rápidamente de precio, esta capacidad abre la puerta a la democratización del análisis de datos de secuenciación".

Berger señala que, si bien el método funciona mejor actualmente al procesar las lecturas de PacBio HiFi, que se sitúan muy por debajo de una tasa de error del 1%, es posible que pronto sea compatible con las lecturas ultralargas de Oxford Nanopore, que actualmente tienen tasas de error del 5 al 12%, pero que pronto podrían ofrecer lecturas del 4%.

"Prevemos llegar a los científicos de campo para ayudarles a desarrollar sitios de pruebas genómicas rápidas, que vayan más allá de la PCR y las matrices de marcadores, que podrían pasar por alto diferencias importantes entre los genomas", avanza Berger.