Abstracto
El esfuerzo global para secuenciar millones de genomas del SARS-CoV-2 ha proporcionado una visión sin precedentes de la evolución viral. Caracterizar cómo actúa la selección sobre el SARS-CoV-2 es fundamental para desarrollar vacunas y otros tratamientos efectivos y duraderos, pero la escala y la complejidad de los datos de vigilancia genómica hacen que el análisis riguroso sea un desafío. Para enfrentar este desafío, desarrollamos la Selección Bayesiana de Alelos Virales (BVAS), un método probabilístico basado en principios y escalable para inferir los determinantes genéticos de la aptitud viral diferencial y las tasas de crecimiento relativas de los linajes virales, incluidos los linajes emergentes. Después de demostrar la precisión y eficacia de nuestro método a través de la simulación, aplicamos BVAS a 6,9 millones de genomas del SARS-CoV-2. Identificamos numerosas mutaciones que aumentan la aptitud, incluidas mutaciones previamente identificadas en las proteínas Spike y Nucleocapside del SARS-CoV-2, así como mutaciones en proteínas no estructurales cuya contribución a la aptitud está menos bien caracterizada. Además, ampliamos nuestro modelo de referencia para identificar mutaciones cuya aptitud exhibe una fuerte dependencia del estado de vacunación, así como efectos de interacción por pares, es decir, epistasis. Sorprendentemente, ambos análisis apuntan al papel fundamental que desempeña el residuo N501 en la proteína Spike. Nuestro método, que combina la selección de variables bayesianas con una aproximación de difusión en el espacio de frecuencias de alelos, sienta las bases para identificar mutaciones asociadas a la aptitud bajo el supuesto de que la mayoría de los alelos son neutrales.