Publicado en Matemáticas de la vida cotidiana

Ejercicio 5. Artículo: Historia de Google y su algoritmo Pagerank

Como me pasaba con otra asignatura de este máster, la de Inteligencia Artificial, me cuesta bastante seguir el desarrollo matemático que llevan todas las aplicaciones informáticas. Y eso que, en su momento, no tenía excesivos problemas con el cálculo de matrices, allá por el antiguo COU (actual 2º Bachillerato), pero, claro, estamos hablando del siglo pasado, y son muchos años sin haber usado esa parte de las matemáticas.

La conclusión que he sacado de las lecturas de PageRank y el Surfista Aleatorio y Es mi internet y busco como quiero, y repasando las biografías de los creadores de Google Larry Page y Sergey Brin en la Wikipedia, es que el mérito de estos consiste en haber utilizado herramientas existentes al alcance de todos para dar solución a un problema gordo: cómo ordenar una ingente cantidad de información que cada año crecía de forma endiablada. En definitiva, que supieron innovar.

El problema requería de un modelado matemático que asegurara que los algoritmos usados eran correctos y de unas técnicas computacionales adecuadas para obtener una resolución efectiva y eficiente. No hay que olvidar que, cuando hacemos una búsqueda en Google, en milisegundos nos da el resultado tras haber analizado millones de páginas web. Y para conseguirlo, Page y Brin echaron mano del álgebra lineal básica de matrices y resolución de sistemas de ecuaciones (creo recordar que eso era lo que hacía yo en COU), y lo aplicaron para calcular los valores de los grafos que representan las preferencias de los navegadores, que no dejan de ser relaciones binarias entre páginas webs. Otro de los aciertos de su algoritmo es que ha permitido ir mejorándolo a medida que se descubrían sus limitaciones o que cambiaban las características y las necesidades de la red.

Si no he entendido mal, el algoritmo llamado Pagerank que utilizaba Google en sus inicios (y que se llevó por delante al resto de buscadores de la época) para ordenar la relevancia de las webs cuando se hace una búsqueda, se basa, en primer lugar, en un grafo que representa las relaciones entre todas las webs en función de los enlaces que llevan de unas a otras; estas relaciones se ordenan en una tabla, que en matemáticas se denomina matriz, y se les asigna una probabilidad de que sucedan. Supongo que una cuestión importante será acertar con el valor que se dé a esa probabilidad, para ajustarse lo máximo posible a la realidad. A continuación, mediante una serie de pasos utilizando el cálculo matricial se obtiene el peso de cada página web.

En la actualidad, parte de estos cálculos no se conocen, por ejemplo, el cálculo citado de la probabilidad de visita de cada página. Así, entre otras cosas, se evita que sea manipulable por medios externos para posicionar una página artificialmente. Y, en sentido contrario, Google puede modificar los parámetros a voluntad si pagas para estar mejor posicionado. Parece ser que el algoritmo actual es una mezcla de algoritmos, donde el Pagerank original cada vez tiene menos peso. Por otro lado, como he dicho antes, otra de las ventajas que tiene Google es su capacidad de mejora, por ejemplo, adaptándose a las necesidades del cliente: ahora tiene en cuenta las búsquedas anteriores del usuario para darle un resultado de búsqueda personalizado. Es decir, dos personas diferentes que hagan la misma búsqueda obtendrán resultados diferentes. Supongo que todas estas nuevas características llevan consigo el ir aumentando los elementos que forman los algoritmos y, por tanto, su complejidad; y que esto sea técnicamente posible gracias a la creciente capacidad de procesamiento de los ordenadores.

Personalmente me resulta admirable la capacidad de los matemáticos y las matemáticas para representar un problema complejo con todos los elementos que lo componen, junto con las relaciones entre ellos y los factores que les afectan, y asignarle a cada uno de ellos un valor adecuado; posteriormente, ir paso a paso haciendo cálculos y, si hace falta, dando rodeos cuando, aparentemente, se ha llegado a un callejón sin salida, hasta conseguir, finalmente, llegar al objetivo. Quizás sea porque disponen de forma innata de un algoritmo mental que les da la capacidad de abstracción necesaria para hacer unos análisis tan finos.

Publicado en Matemáticas de la vida cotidiana

Ejercicio 4. Futurama y las matemáticas

Si son muchas las alusiones a conceptos científicos en la longeva serie de Los Simpson, son muchas más las que aparecen en Futurama. Esto no es algo que deba sorprender, ya que, por un lado, ambas series fueron creadas por Matt Groening y David X. Cohen, y, por otro, Futurama está ambientada en el futuro y es, por tanto, una serie de ciencia-ficción.

De hecho, en Futurama la ciencia es una parte importante del andamiaje tanto del argumento como de la ambientación, y se presenta en muchos casos a un nivel que normalmente se escapa a los no especialistas en la disciplina científica correspondiente. Y ello fue posible gracias a que en el equipo creativo de la serie había varios licenciados en ciencias, que supieron sortear hábilmente el mandato que les había dado Groening para que “la ciencia nunca superara la comedia”. Como consecuencia de ello, la serie resulta doblemente divertida para todo aquel que atrape todas esas referencias científicas, más o menos escondidas.

Son innumerables esas referencias y en internet hay muchos artículos que las explican. Y de entre todas las disciplinas científicas que aparecen en la serie, quizás merecen una mención especial las correspondientes a las matemáticas, tanto a las puras o académicas como a las aplicadas en otros campos, principalmente la informática. Y es que uno de los guionistas era Ken Keeler, doctor en Matemáticas por la Universidad de Harvard, además de ingeniero eléctrico.

Empezando por las segundas, las relativas a la informática, son numerosas las referencias a los albores de la informática moderna, es decir, a los primeros ordenadores personales: la aparición del número del microprocesador de los primeros Apple en la década de los 70, o juegos de palabras con ordenadores famosos de la década siguiente, como los Sinclair o el Commodore 64. Muchas son también las referencias a lenguajes de programación, como el ochentero Basic (del que llegué a aprender un poco) de los modelos mencionados, o los códigos binario, ASCII, Fortran, etc.

El otro tipo de referencias matemáticas son más difíciles de atrapar para los no iniciados. El 1729, llamado «Número de Hardy-Ramanujan» por ser estos dos matemáticos quienes se dieron cuenta de que es el número más pequeño expresable como la suma de dos cubos de dos maneras diferentes, aparece muchas veces, empezando por ser el número de unidad de Bender; en otro episodio aparece el 87539319, que es el menor número entero que puede ser representado de tres maneras diferentes como la suma de dos cubos positivos. Y, como en Los Simpson, también se hace referencia a las clases de complejidad P y NP.

Pero, sin duda, lo más curioso es que el ya citado Keeler llegó a desarrollar en uno de los capítulos un teorema basado en la teoría de grupos, que ha pasado a ser conocido como el Teorema de Futurama, algo que parece excesivo a su autor, que lo considera una simple demostración matemática, pero que, por otro lado, matemáticos prestigiosos lo llaman Teorema de Keeler.

Referencia

Publicado en Matemáticas de la vida cotidiana

Ejercicio 3. Artículo gripe A

En marzo de 2009 apareció en México la última influenza pandémica, que despertó todas las alarmas por tener unas tasas de mortalidad inusualmente elevadas. El virus fue identificado como influenza A H1N1, con un posible origen en los cerdos.

La enfermedad se propagó rápidamente a Estados Unidos y la Organización Mundial de la Salud orientó a los gobiernos para que prepararan planes para hacerle frente. Su gravedad fue calificada de moderada, con tasas de hospitalización y letalidad bajas, similares a las epidemias estacionales, pero con un alto porcentaje de defunciones en personas jóvenes, probablemente por carecer de la inmunidad que a los nacidos antes de 1950 les proporcionó los restos de la gripe H1N1 de 1918 que todavía circulaban en la primera mitad del siglo XX.

En España la enfermedad apareció la primera semana de octubre y el H1N1 predominó sobre el resto de las cepas del virus de la gripe. Este estudio de 2011 tenía como objetivo, entre otros, calcular el número reproductivo básico de esta onda pandémica de gripe A en España, y para ello utilizó dos métodos: el primero, utilizando la tasa de crecimiento de la incidencia acumulada de gripe durante la fase de crecimiento exponencial, y el segundo mediante el análisis de las fechas de inicio de los síntomas observadas en pares de casos en función de la distribución del tiempo de generación, que es el periodo de tiempo desde el comienzo del estado de infeccioso en una persona hasta el comienzo de ese mismo estado en los casos secundarios producidos por la primera persona

El valor de R0 en la fase de crecimiento de la onda fue de 1,29 (IC95%: 1,25-1,33) estimado con el primer método, y de 1,01 (IC95%: 0,99-1,03) con el segundo método. Como estos cálculos se hicieron cuando ya se habían empezado a tomar medidas sanitarias para frenar la pandemia, los valores obtenidos son más bajos que los estimados para el brote de México. Asimismo, estos valores son similares a los de la gripe estacional y más bajos que los estimados para pandemias anteriores. Los autores son conscientes de las limitaciones de estos métodos y apuntan cómo se podría mejorar el cálculo. Por ejemplo, en el caso de disponer de estudios serológicos para conocer la proporción real de susceptibles, se podría haber calculado el número reproductivo efectivo R = R0 × proporción de susceptibles. Otro ejemplo es, en el caso del primer método, que asume un crecimiento exponencial que puede no ser adecuado.

En esa línea, en este otro artículo consideran que el R0 es insuficiente para describir la dinámica de las enfermedades infecciosas, pero para una población determinada y junto con otros parámetros epidemiológicos, permite conocer mejor el brote epidémico y preparar la respuesta de salud adecuada.

Bibliografía

Publicado en Matemáticas de la vida cotidiana

Tarea 2. Resumen de artículo sobre el uso de las redes sociales para analizar aspectos sociológicos.

Rapid assessment of disaster damage using social media activity Kryvasheyeu et al. Science Advances. 2016; 2 : e1500779 11 March 2016.

Evaluación rápida de daños catastróficos usando la actividad de las redes sociales”

Sandy Oct 25 2012 0320Z.png

En este artículo los autores analizan el uso de Twitter en 50 áreas metropolitanas de Estados Unidos antes, durante y tras el huracán Sandy para ver si existe correlación entre la actividad en esa red y la intensidad del daño ocasionado en cada zona. Su estudio parte de los resultados de trabajos anteriores sobre el uso de diversas redes sociales en situaciones de catástrofe. Por ejemplo, Twitter ha mostrado su utilidad en emergencias por su facilidad para difundir información relevante, mientras que el uso de Flickr muestra cierta correlación con la intensidad del desastre. By NASA, MODIS/ LANCE, HDF File Data processed by Supportstorm – ftp://ladsftp.nascom.nasa.gov/allData/5/MOD021KM/2012/299/, Public Domain, https://commons.wikimedia.org/w/index.php?curid=32030479

Este estudio se ha realizado a diferentes niveles, nacional, estatal, condado y distrito postal, analizando el comportamiento y la respuesta de las comunidades; han geolocalizado los mensajes en los dos estados más afectados (Nueva York y Nueva Jersey) y registrado su distribución y, por último, han comparado la actividad en Twitter por zonas con la evaluación de daños realizada tras el desastre.

Su conclusión es que la actividad en Twitter se relaciona directamente con la proximidad al huracán, y va disminuyendo paulatinamente con la distancia hasta desaparecer a los 1200-1500 km. Asimismo destacan que en las áreas más cercanas al desastre se genera más contenido original y descienden los retuiteos, a la vez que estos tuits generan más interés en las zonas alejadas, donde se incrementa su retuiteo.

By Cyclonebiskit – Created by Cyclonebiskit using WikiProject Tropical cyclones/Tracks. The background image is from NASA. Tracking data is from from the National Hurricane Center.[1], Public Domain, https://commons.wikimedia.org/w/index.php?curid=22384003

En cualquier caso, la correlación observada no es completamente uniforme para todos los eventos, lo que debe ser tenido en cuenta a la hora de desarrollar aplicaciones prácticas. Además, dado que la relación entre la actividad en las redes sociales y los fenómenos de la vida real es indirecta, los posibles cambios en el uso de determinadas plataformas online obligan a ser cautelosos a la hora de desarrollar herramientas predictivas basadas en el análisis de Big Data.

Por todo ello consideran que con la monitorización de las redes sociales a lo largo del tiempo se podrían desarrollar modelos predictivos, una vez que se hayan analizado un número suficiente de eventos de esta naturaleza. Además, en su opinión, esta metodología podría ser útil para describir y cuantificar otros fenómenos naturales, económicos o culturales.

Publicado en Matemáticas de la vida cotidiana

1. Redacción de artículo sobre gráficas

Para realizar esta tarea he elegido la siguiente estadística del INE: Emisiones totales de gases de efecto invernadero a la atmósfera. Esta serie de datos abarca desde 2008 hasta un avance de los datos de 2018, e incluye las emisiones de todos los gases de efecto invernadero expresados en miles de toneladas de CO2 equivalente, realizadas por todas las ramas de actividad económica y por los hogares. Dado que trabajar con todos esos datos desglosados excedería el objetivo de esta tarea, lo he reducido a la emisión anual de la suma de todos los sectores.

Cuando he ido a hacer las gráficas a partir de estos datos, me he encontrado con el primer problema. Siempre he hecho las gráficas de series temporales de izquierda a derecha, es decir, el valor más antiguo a la izquierda y el más reciente a la derecha, y verla así me confunde. Así que mi primer impulso ha sido hacer una tabla nueva para que me salga directamente la gráfica como yo quiero. Pero luego he pensado que nuestro querido excel, que periódicamente, cuando ya lo controlamos medianamente bien, saca una versión nueva y nos cambia las cosas de sitio, quizás dé la posibilidad de hacer la gráfica con los datos en orden inverso a los de la tabla… Y efectivamente, lo tiene. Pero a costa de poner los valores del eje Y a la derecha de la gráfica. En fin…

Para representar estos datos me han parecido adecuada la clásica gráfica de barras porque, hablando de gases de efecto invernadero, nos interesa que, de alguna forma, se visualice la cantidad o el volumen de emisiones, y creo que las barras consiguen crear ese efecto:

Igualmente me parece importante que los valores del eje Y aparezcan desde cero por dos razones. Por un lado, así podemos ver cuánto nos queda por hacer en cuestiones medioambientales; pero, quizás más importante sea el hecho de que, de esta forma podemos ver rápidamente que proporción representan las variaciones anuales, los aumentos o descensos, con respecto al total de emisiones. Si el eje Y partiera, por ejemplo, de 200.000 miles de toneladas equivalentes de CO2, las diferencias anuales darían la idea de ser mayores proporcionalmente.

El resto de los elementos que aparecen en la gráfica son los mínimos imprescindibles para interpretarla adecuadamente, y evita distracciones o información superflua. Por ejemplo, se podía añadir a cada barra el valor de emisión anual, pero no nos aporta nada, es un dato que no vamos a memorizar, ya que lo que nos interesa es ver la tendencia y el grado de variación anual. También se podía haber hecho en 3D o con más colores, pero creo que así queda elegante, a la par que sencilla.

Por último, en cuanto al contenido, destacar la caída en las emisiones de 2008 a 2009, por la crisis, supongo; y la muy ligera tendencia descendente, que quizás tenga que ver con el cumplimiento de los objetivos de reducción de emisiones.