El algoritmo para predecir la evolución del coronavirus: monitoriza redes sociales y búsquedas en Google

  • El algoritmo podría funcionar "como el termostato de los sistema de aire acondicionado"

  • También integra las búsquedas de los médicos y los datos de movilidad de los teléfonos

Un grupo internacional de científicos ha desarrollado un modelo que podría predecir brotes de coronavirus de que ocurran, a tiempo para aplicar medidas efectivas de contención. En un artículo publicado en arXiv.org, el equipo, encabezado por Mauricio Santillana y Nicole Kogan de la Universidad de Harvard, presentó un algoritmo que registró señales de peligro por lo menos 14 días antes de que el número de casos comenzara a aumentar. El sistema se basa en el monitoreo en tiempo real de Twitter, búsquedas en Google y datos de movilidad de teléfonos móviles, entre otras fuentes.

Según los científicos, el algoritmo podría funcionar “como el termostato de los sistemas de aire acondicionado de calefacción y encargarse de avisar de cuándo es necesario activar o flexibilizar las intervenciones de salud pública”; en otras palabras, permitiría una reactivación más segura y sencilla de las actividades.

“En el área del modelado de enfermedades infecciosas, en la mayoría de los casos se plantean diferentes situaciones con base en suposiciones iniciales”, explicó Santillana, director del Laboratorio de Inteligencia Automática del Hospital Infantil de Boston y profesor asociado de Pediatría y Epidemiología en la Universidad de Harvard. “En este caso, lo que hacemos es observar, sin suponer nada. La diferencia es que nuestros métodos responden a cambios inmediatos en la conducta, los cuales podemos incorporar”. Expertos ajenos a la investigación admiten que este análisis demuestra el valor creciente de los datos obtenidos en tiempo real, como aquellos que ofrecen las redes sociales, para mejorar modelos existentes.

El estudio muestra “que fuentes alternativas de datos de siguiente generación pueden dar alertas tempranas sobre aumentos en la presencia de COVID-19”, aseveró Lauren Ancel Meyers, bióloga y estadística en la Universidad de Texas, campus Austin. “En particular si los números de casos confirmados se quedan rezagados debido a retrasos en la búsqueda de tratamiento y por esperar resultados de pruebas”.

Google Flu Trends, un precedente

El análisis de datos en tiempo real se ha utilizado para calcular el avance de una enfermedad por lo menos desde 2008, cuando algunos ingenieros de Google comenzaron a rastrear las tendencias de búsqueda de palabras como “sentir agotamiento”, “dolor de articulaciones”, “dosis de Tamiflu” entre otras para calcular las visitas al médico debido a la influenza. Pero el algoritmo, conocido como Google Flu Trends, no funcionaba muy bien. Por ejemplo, evaluaciones posteriores revelaron que con mucha frecuencia sobrestimaba las visitas al médico, debido a limitaciones de los datos y la influencia de factores externos como la atención mediática, que puede elevar el número de búsquedas no relacionadas con una enfermedad real.

Desde entonces, los investigadores le han hecho muchos ajustes a este enfoque, como combinar las búsquedas de Google con otro tipo de datos. Algunos equipos de la Universidad de Carnegie-Mellon, University College de Londres y la Universidad de Texas, entre otras, cuentan con modelos que incorporan algún tipo de análisis de datos en tiempo real. “Sabemos que ninguna fuente de datos es útil de manera aislada”, explicó Madhav Marathe, profesor de Informática en la Universidad de Virginia. “La aportación de este nuevo artículo es que cuentan con una buena y amplia variedad de fuentes”.

El equipo de Santillana y Kogan analizó datos en tiempo real de cuatro fuentes además de Google: publicaciones en Twitter relacionadas con la COVID-19 (geoetiquetadas para conocer su localización), búsquedas realizadas por doctores en una plataforma para médicos denominada UpToDate, datos anónimos de movilidad de teléfonos móviles y medidas de los termómetros inteligentes de Kinsa, que registran información en una aplicación. Integró estas fuentes de datos con un sofisticado modelo de predicción desarrollado en la Universidad del Noreste en Estados Unidos, basado en cómo se desplazan e interactúan las personas dentro de las comunidades

Para poner a prueba la capacidad de predicción de las tendencias observadas en las fuentes de datos el equipo observó cómo se correlacionaba cada una de ellas con el número de casos y muertes en marzo y abril, en cada estado de Estados Unidos. En Nueva York, por ejemplo, una tendencia muy pronunciada al alza en publicaciones de Twitter relacionadas con la COVID-19 comenzó más de una semana antes de que el número de casos explotara a mediados de marzo; las búsquedas pertinentes en Google y las mediciones de Kinsa se dispararon varios días antes.

Predicción con 21 días de anticipación

El equipo combinó todas estas fuentes de datos y les asignaron un peso con base en el calibre de su correlación con un posterior aumento en los casos. Este algoritmo “armonizado” fue capaz de predecir brotes con 21 días de anticipación de media, según descubrieron los científicos.

En cuanto al futuro, predice que es probable que Nebraska y Nueva Hampshire experimenten aumentos en el número de casos en las siguientes semanas si no se toman otras medidas, a pesar de que el número de casos en este momento se mantiene estable. “Me parece que podemos esperar alertas por lo menos con una semana de anticipación, siendo conservadores y tomando en cuenta que la epidemia cambia continuamente”, señaló Santillana.

Algunos de sus coautores son científicos de la Universidad de Maryland, en el condado de Baltimore, la Universidad de Stanford y la Universidad de Salzburgo, así como la Universidad del Noreste. Añadió: “No creemos que estos datos vayan a reemplazar la vigilancia tradicional, sino a ofrecerle una especie de confirmación. Es el tipo de información que puede permitirles a los responsables de tomar decisiones decir con más seguridad: ‘No hay que esperar una semana más, actuemos ahora’”.