AlphaFold, la inteligencia artificial de Google, revela la estructura del universo de las proteínas
La estructura de 200 millones de proteínas se encuentra en una base de datos libre, gratuita y de código abierto
La inteligencia artificial permite predecir la estructura 3D de una proteína solo a partir de su secuencia de aminoácidos. Google, a través de su compañía DeepMind, está creando la mayor base de datos de estructuras de proteínas (AlphaFold DB) para compartir libremente este conocimiento científico con el mundo.
AlphaFold, el sistema de inteligencia artificial desarrollado por Google, y el European Molecular Biology Laboratory (EMBL) han predicho la estructura de casi todas las proteínas conocidas; unos 200 millones de moléculas , prácticamente todas las proteínas conocidas del planeta, esenciales para comprender la biología de todos los seres vivos y los mecanismos de algunas de las enfermedades más prevalentes, desde la malaria hasta el Alzhéimer y el cáncer.
Hasta la aparición de este sistema, dilucidar la forma de una sola proteína compuesta por 100 unidades básicas —llamadas aminoácidos podía llevar muchísimos años. Los científicos usaban microscopía electrónica o enormes aceleradores de partículas como el sincrotrón europeo de Grenoble, Francia. En cambio, el algoritmo de Google predice la estructura de cualquier proteína en unos pocos segundos.
Antes de la llegada de esta tecnología, se había conseguido determinar la estructura de unas 200.000 proteínas, una labor que llevó 60 años y la participación de miles de científicos. Esa base de datos ha sido el material de aprendizaje de la inteligencia artificial de Google, que ha buscado patrones válidos que predigan qué forma tendrán las proteínas de las que solo se conoce su secuencia bidimensional.
El acceso a esta nueva base de datos es libre y gratuito y el código informático de su inteligencia artificial es abierto y descargable. Este Google de la vida muestra la secuencia bidimensional de cualquier proteína y un modelo tridimensional que indica el nivel de fiabilidad de la predicción, que tiene un margen de error similar o incluso menor que los métodos convencionales.
Las aplicaciones de esta nueva herramienta son casi infinitas, pues las proteínas están involucradas en cualquier proceso biológico. Una de las aplicaciones más tangibles es el diseño de nuevos fármacos bloqueadores o activadores de proteínas.