DNA de medio millón de individuos secuenciado en Reino Unido
Secuenciación masiva de genomas humanos: en total, se identificaron 1500 millones de variantes, incluyendo SNP, indels y variantes estructurales
La secuenciación completa del genoma, conocida como Whole Genome Sequencing (WGS), constituye una herramienta fundamental para caracterizar la variación genética humana sin las limitaciones de otras tecnologías como los microarreglos de polimorfismos de un solo nucleótido (Single Nucleotide Polymorphisms, SNP) o la secuenciación del exoma (Whole Exome Sequencing, WES). En este estudio, publicado en Nature (2025), se presentan los resultados de la secuenciación de genoma completo de 490.640 individuos del Biobank del Reino Unido (UK Biobank), uno de los mayores proyectos de este tipo en el mundo.
El Biobank del Reino Unido es una cohorte poblacional con información clínica, demográfica y biológica de casi medio millón de personas. La incorporación de datos de secuenciación completa representa un avance clave porque permite estudiar variantes raras y regiones no codificantes, hasta ahora poco exploradas. Estas regiones influyen en la regulación génica y en la susceptibilidad a enfermedades, por lo que su inclusión abre nuevas oportunidades en investigación biomédica, descubrimiento de fármacos y medicina de precisión.
Comparado con la secuenciación del exoma, el genoma completo permitió detectar hasta 40 veces más variantes genéticas, y en relación con los microarreglos imputados, unas 18,8 veces más. En total, se identificaron aproximadamente 1500 millones de variantes, que incluyen SNP (Single Nucleotide Polymorphism), inserciones y deleciones (indels) y variantes estructurales (Structural Variants, SV).
Los participantes fueron clasificados en cinco grandes grupos de ascendencia: europea no finesa (los finlandeses presentan frecuencias alélicas y perfiles genómicos distintos al resto de Europa) (93,5 % de la muestra), africana, judía askenazí, asiática oriental y asiática del sur. Aunque la mayoría pertenece a ascendencia europea, esta base de datos constituye también un recurso sin precedentes para estudiar variación genética en poblaciones no europeas, que suelen estar subrepresentadas en estudios de genómica.
En total se hallaron más de mil millones de SNP y más de 100 millones de indels. La mayoría de las variantes exónicas presentes en WES (Whole Exome Sequencing) también se detectaron en WGS, pero este último método capturó muchas más en regiones no traducidas (Untranslated Regions, UTR), así como en secuencias intergénicas y promotoras.
Respecto a las variantes estructurales, se identificaron 2,7 millones de eventos, entre ellos duplicaciones, inserciones y deleciones de más de 50 pares de bases. Cada individuo porta en promedio más de 13.000 variantes estructurales. Aunque son menos frecuentes que los SNP, afectan grandes segmentos del genoma y tienen consecuencias funcionales significativas, como se observó en genes vinculados a enfermedades metabólicas y oftalmológicas.
Gracias a la profundidad de datos clínicos y fenotípicos disponibles en el Biobank, fue posible realizar estudios de asociación a escala del genoma (Genome-Wide Association Studies, GWAS). Se analizaron más de 760 diagnósticos clínicos codificados y 71 fenotipos cuantitativos.
En total se identificaron más de 33.000 asociaciones significativas, de las cuales cerca del 12 % fueron nuevas y solo pudieron detectarse con WGS. La mayoría de estas correspondieron a variantes raras, confirmando el valor de la secuenciación completa para detectar señales que escapan a otros enfoques.
Un ejemplo ilustrativo es la detección de una variante rara en el gen FOXE3, asociada a cataratas, que no había sido identificada en estudios previos basados en datos imputados. Asimismo, se encontró un polimorfismo común en la región de los genes MRC1 y TMEM236 relacionado con menor riesgo de hipotiroidismo, que había pasado inadvertido en estudios anteriores.
El análisis conjunto de distintas ascendencias permitió detectar variantes específicas de ciertas poblaciones. En individuos africanos se identificaron asociaciones en el gen HBB, responsable de la anemia de células falciformes, cuya frecuencia elevada se explica por el efecto protector frente a malaria. En poblaciones del sur de Asia se observaron variantes relacionadas con talasemia y anemia, mientras que en europeos no fineses se hallaron mutaciones en el mismo gen vinculadas a β-talasemia. Estos hallazgos muestran cómo la selección natural y los factores regionales influyen en la distribución de variantes patológicas.
El estudio identificó miles de variantes con pérdida de función (Loss of Function, LoF), que inactivan genes completos y actúan como equivalentes naturales de los experimentos de knockout. Estos hallazgos permiten anticipar las consecuencias fenotípicas de inhibir un gen, lo cual resulta de gran interés para el diseño de fármacos. En total, se registraron más de 10.000 genes con al menos 100 portadores heterocigotos y más de 1200 genes con tres o más portadores homocigotos.
Una proporción significativa de los individuos porta variantes consideradas accionables por el American College of Medical Genetics and Genomics (ACMG), es decir, mutaciones asociadas a enfermedades graves pero prevenibles o tratables si se detectan a tiempo.
Este trabajo demuestra que la WGS no solo amplía drásticamente el catálogo de variantes conocidas, sino que también permite caracterizar la función de genes poco explorados, descubrir asociaciones fenotípicas inéditas y reducir los sesgos poblacionales que limitaban los estudios genómicos previos.