predicción | Rafa Font (eu)

Durante las últimas 8 semanas he recogido datos sobre la actividad en Twitter de las personas candidatas a las #primariasEQUO. Me pregunto si sería posible predecir con ellos el resultado de la primera vuelta, cuya votación se cierra en un par de horas.

He utilizado la herramienta TweetBinder para recoger los datos. TweetBinder analiza los tweets de los últimos 7 días, y por tanto he realizado 8 mediciones semanales de los siguientes datos:

el número total de veces que se menciona el nombre de una candidata
el número de personas que contribuyen a esas menciones
el número medio de tweets relacionados que publica cada persona contribuyente (una forma de medir la interacción)
el número de retweets de estas menciones

Todos los datos recogidos están disponibles en este GoogleDoc para quien quiera verlos y jugar con ellos: “Impacto en Twitter de candidaturas #primariasEQUO“.

Limitaciones

Este pequeño estudio tiene muchas limitaciones que es necesario tener en cuenta.

En principio mi tesis es que el impacto real de una candidatura va a tener su reflejo en Twitter, y que las interacciones en esta red aproximan bien el interés real por los candidatos. Quiero estudiar la correlación entre los resultados en las primarias y la interacción en Twitter, pero no tengo nada claro si es posible derivar algún tipo de causalidad. ¿Twitter influye en el voto real, o viceversa, o ambos? Esa pregunta se me queda grande. Estoy abierto a todo tipo de críticas sean metodológicas, epistemológicas, o de cualquier otro tipo.

Elegí Twitter por la relativa sencillez de uso de TweetBinder. Me hubiese gustado también analizar Facebook, pero no encontré ninguna herramienta similar. Ambas redes tienen idiosincrasias diferentes, no se hace el mismo uso de ellas. Por tanto, no puedo decir nada sobre el impacto de “las redes sociales” en las #primariasEQUO, sino únicamente sobre Twitter. De hecho, centrarse únicamente en Twitter puede hacer que se minusvalore el impacto de Facebook.

Los datos han sido recogidos de forma “casi semanal”, cada domingo. Hay dos excepciones, en la semana 3 que los recogí un lunes, y en la semana 8 que los recojo un viernes porque es cuando se acaban las votaciones. Dado que Tweetbinder recoge los datos de los últimos 7 días (sin poder seleccionar, que yo sepa, únicamente los últimos 5 días), el resultado de no recoger datos a la misma hora el mismo día supone que habrá datos que se pierdan (por ejemplo la actividad del 23 de diciembre no está) y otros que se dupliquen (por ejemplo los días 25 y 26 de enero se cuentan tanto en la semana 7 como en la 8). Con las horas de recogida para algo similar: a veces recuento a las 12, otras a las 23, y unos datos se pierden y otros se duplican.

He ido introduciendo los datos según iba conociendo cuentas de los candidatos en Twitter. Por eso algunos sólo aparecen desde la mitad del estudio, y otros incluso sólo la última semana.

Twitter es una herramienta abierta al público, pero quienes van a votar en las primarias son un grupo limitado de personas (afiliadas, simpatizantes y votantes registradas ex-profeso). Son dos grupos diferentes, y no se puede saber si una interacción en Twitter proviene de una persona que va a votar, o no. Por tanto, una de las principales asunciones de este estudio es que quien genera la interacción con los candidatos es quien tiene un interés por ellos y por votarles, es decir, gente supuestamente registrada como votante.

Otra asunción implícita es que todas las interacciones son positivas. Podrían también ser menciones críticas, pero no tengo forma de saberlo. Por eso se asume cierto efecto “popularidad”, y que quien levante más interés será quien mejores resultados obtenga (que hablen de mi aunque sea mal).

Por último, los candidatos que no usan Twitter no están incluidos en este estudio. No puedo decir con ello que vayan a obtener buenos o malos resultados, sólo que los datos no pueden decir nada sobre ellos.

¿En qué basar una predicción?

Un primer indicador podría ser el número de seguidores. Los candidatos parten de situaciones muy diferentes, desde Reyes Montiel, que arrancaba la campaña con 6.500 seguidores, hasta varios otros que no tenían cuenta de Twitter y empezaron de cero durante la campaña, como por ejemplo Mateo Quirós, que ha llegado hasta 261. Ambos han “ganado” un número de seguidores similar durante la campaña.

De los 4 indicadores que saco de TweetBinder, descartaría el de “media de tweets por contribuyente”. Mide cuantos tweets de media ha publicado un contribuyente en particular en los que se mencione al candidato. Es un buen indicador para saber cual es la calidad de la interacción, y si el candidato está hablando solo o logra involucrar a la gente en los debates. Aunque puede ser muy útil para que un candidato ajuste su campaña, creo que no son tan indicativos respecto a los posibles votos. Por ejemplo, en la semana 1 Rafael Conde tuvo un gran número de menciones (927) pero una interacción baja (1.14). La explicación es que consiguió que un tweet suyo fuese muy retwiteado, pero sin entrar en debate. Un ejemplo diferente sería Carolina López, que en las semanas 5 y 6 tiene también muchas menciones (por encima de 900) pero una interacción muy alta (mayor de 9). En este caso se trata de discusiones muy animadas con mucha gente contestando muchas veces. Ambos casos pueden generar potenciales votantes, pero no tengo nada claro cómo medirlo.

Dado que el número de RTs va incluido en el número total de interacciones, me quedo finalmente con 3 indicadores: el número de seguidores,el número total de interacciones, y el número de contribuyentes.

Otro aspecto a considerar sería en qué marco temporal se hace la predicción. Los datos acumulan 8 semanas, pero las votaciones sólo se han realizado durante los últimos 9 días. Si la gente va decidiendo su voto con antelación, entonces será más relevante un marco temporal amplio. Eso repercutirá en un mejor resultado de quienes tienen el terreno más trabajado, como por ejemplo Inés López-Dóriga que tiene un impacto muy regular a lo largo de todo el estudio. Si el voto se decide en los últimos días, será más relevante saber cómo de frescos llegan los candidatos a la recta final. Por ejemplo, Hontanares Arranz sólo comienza a twittear a mitad del estudio, pero en la última semana ha tenido bastante impacto, escala puestos y se mete en el ajo.

Como ninguna opción parece dar la respuesta por sí misma, probablemente haya que hacer una mezcla entre todas. Los pesos relativos de cada apartado sólo los podremos saber una vez calibrada la balanza, es decir, después de tener los resultados.

Los resultados de las primarias del PVE son coherentes con el impacto en Twitter

Después de tantas limitaciones y problemas, aquí va un ejemplo de que este sistema podría funcionar. Justo tras conocerse los resultados de las primarias del PVE recogí los datos de los cuatro candidatos en Twitter. Fueron votados en este orden: Ska Keller, José Bové , Rebecca Harms y Mónica Frassoni.

Ska Keller

Votos: 11.791.
Impacto en Twitter: 1.316 menciones, 719 contribuyentes, 1,83 tweets/contribuyente, 787 RTs

José Bové

Votos: 11.726
Impacto en Twitter: 1.252 menciones, 799 contribuyentes, 1,56 tweets/contribuyente, 803 RTs

Rebecca Harms

Votos: 8.170
Impacto en Twitter: 953 menciones, 591 contribuyentes, 1,61 tweets/contribuyente, 642 RTs

Monica Frassoni

Votos: 5.851, 573, 359, 1.59, 375
Impacto en Twitter: 573 menciones, 359 contribuyentes, 1,59 tweets/contribuyente, 375 RTs

En este caso se trata de interacciones únicamente durante la última semana (no tengo más datos). Resultan bastante aproximadas al resultado real, con el número de menciones imitando al resultado real, el de RT y contribuyentes un poco menos, y los tweets por persona indicando cosas diferentes, como habíamos visto antes. Hay que tener la precaución de que esto es un único dato y podría ser casualidad, pero parece prometedor.

Predicciones para las #primariasEQUO

Con todo lo anterior, intentaré basar una predicción para el resultado de la primera vuelta de las primarias en los datos recogidos sobre número de menciones, número de personas que contribuyen y número de seguidores, tanto para las últimas 2 semanas (durante las cuales se celebra la votación), como para el global del estudio.

Todos los datos en: “Impacto en Twitter de candidaturas #primariasEQUO“.

Ahí va por tanto una posible conclusión en función de los datos. De los dos hombres que pasarán a la segunda fase, hay dos que están arriba en todos los rankings, Florent Marcellesi, y Joan Groizard, y uno que ha ido creciendo durante la campaña, Guillermo Rodríguez. De las dos mujeres una sería con bastante seguridad Reyes Montiel, y el cuarto lugar sería o bien para Inés López-Dóriga o para Mónica Monteagudo.

¿Tendrá sentido todo esto que he dicho? Lo veremos mañana. Buenas noches, y buena suerte.

Actualización 01/02/14: ¡Bingo! Florent, Guillermo, Reyes e Inés pasan a segunda vuelta. Por la parte de encima de la lista parece que hay bastante correlación entre actividad en Twitter y resultados, mientras que por la parte de abajo, no tanta. Mientras me aclaro con los análisis que hay que hacer, aquí queda disponible el documento con los datos de la votación incorporados por si alguien quiere analizarlos estadísticamente.

Rafa Font (eu)

Equo: colaborar construyendo redes verdes

Archivo de la etiqueta: predicción

¿Puede la actividad de Twitter de las candidatas predecir los resultados de las #primariasEQUO?