Sep18. La fraudulenta cocina del CIS: Cómo, dónde, cuánto y porqué

¿ Ha intentado engañar el CIS en su encuesta de septiembre de 2018?. Si es así… ¿ Dónde, cómo y porqué lo ha hecho?. ¿Cuál hubiera sido el resultado si se hubiera realizado un análisis “normal”?.

Dada la polémica sobre el dato “anómalo” del voto al PSOE, y la consiguiente desconfianza sobre el resto de datos y análisis, este microinforme intenta responder con rigor a la pregunta… ¿cuál hubiera sido el resultado del CIS si el análisis se hubiera hecho “como siempre”?. Anticipamos, que de aplicar el método habitual, el PSOE tendría casi cinco menos, el PP casi tres más, y Podemos uno más. Dicho de otra manera: han aplicado un sistema de cálculo que, rompiendo una tradición de más de veinte años, hace subir al PSOE de forma artificial.

Contexto

Esta evidente y exagerada anomalía en el cálculo, se enmarca dentro de los cambios que ha anunciado el CIS, muchos de ellos con posterioridad a la propia polémica. De todos ellos destacamos tres: Aumentar la periodicidad del voto a cada mes, aumentar la muestra a unos 3.0000 individuos, y cambiar el sistema de cálculo a uno más directo y que no conlleva corrección alguna.

Aunque estos cambios, en sí mismos, son buenos, el hecho de haberse aplicado sin anuncio previo, y correlativos a la mencionada subida anómala del PSOE, siembra la duda de que sólo haya perseguido esto último, además de aumentar la notoriedad de cada encuesta (aún más), en detrimento de los institutos más “modestos”, silenciando mes a mes los datos del resto de medios a costa de llamar la atención y la expectativa sobre el “esperado” dato del CIS. Si además el dato es “polémico”, la notoriedad aún es mayor, y como no pueden contrastarse los resultados porque no hay elecciones cerca, podrían acabar “haciendo cualquier cosa”, como así pensamos que ha sido esta vez.

Pongamos el microscopio: ¿ Qué ha pasado en realidad?

El punto de partida: la intención directa de voto

Es sabido que la pregunta “bruta” a partir de la cual se estima el voto, tiene una formulación similar a la siguiente: “Si mañana hubiera elecciones… ¿ a qué partido votaría?”. La pregunta puede variar, pero no nos despistemos, su validez y fiablidad no cambia, ya que no existe una pregunta perfecta y todas sus variaciones tienen siempre ventajas e inconvenientes que al final llegan a compensarse.

De cualquier manera, las respuestas a esta pregunta, llamada “intención directa de voto” no puede usarse como estimación ni pronóstico, porque conlleva ciertos niveles de incertidumbre, entre las cuales destacan un elevado número de “no sabe / no contesta” (genéricamente llamados indecisos, aunque muchos de ellos no lo sean), y una abstención declarada siempre más baja que la real (históricamente, se sabe que la abstención real suele ser entre 2 y tres veces la declarada en las encuestas). En la pregunta que ha hecho el CIS, ambos niveles de incertidumbre, son, respectivamente, del 23% y 12%, valores habituales en encuestas domiciliares «face to face».

La necesidad de introducir correcciones

Para soslayar ambos sesgos, todos, absolutamente todos los institutos con un cierto sentido del rigor, utilizamos unos coeficientes correctores (modelos), propios de cada uno, en base a tres parámetros principales:

El equilibraje de la muestra (corregir pequeñas desviaciones para que la muestra “represente” lo mejor posible el universo de los electores en variables como sexo, edad, situación laboral, profesión, nivel educativo, etc)
Las desviaciones en el recuerdo de voto (es decir, medir las discrepancias entre lo que la gente dice que votó, con lo que realmente votó)
La imputación de indecisos según hipótesis, por ejemplo si los indecisos son en realidad abstencionistas, votantes tardíos, volátiles, switchers, etc.
La corrección manual de datos “absurdos”, o ajustes por coherencia histórica (por ejemplo ERC no puede tener más de un 3,5% de voto, o Bildu no puede estar por encima del PNV, o la suma de la izquierda no puede dar más del 47%, y así).

Estas cuatro correcciones (y alguna más), introducidas en un modelo dando mayor o menor peso a unas u a otras, son la base de las estimaciones de voto en base a prospectiva. No aplicarlos hacen absolutamente inútil la intención directa, pero aplicarlos con habilidad y siempre comparando el éxito o fracaso de anteriores coeficientes con la realidad, es lo que diferencia a los buenos de los malos institutos de investigación.

El caso concreto del recuerdo de voto

Corregir sólo por recuerdo de voto, suele dar resultados satisfactorios, ya que absorbe el resto de correcciones. De hecho, es la forma más rápida, menos comprometida, más transparente, y la que siempre, siempre, ha utilizado el CIS. Es cierto que tiene una tradición (bastante discutible) de incluir en el modelo pequeñas correcciones en base a la simpatía política de los indecisos, pero no suele mejorar la estimación más allá de unas décimas, y sinceramente, alguien debería decirles que simpatizar por un partido no implica votarle, y que esas décimas empeoran más que mejoran la estimación.

Pues bien, para hallar los coeficientes correctores según recuerdo de voto no hay más que comparar lo que dicen los encuestados que hicieron en las anteriores elecciones, con lo que realmente ocurrió, extrayendo unos coeficientes que podemos llamar de discrepancia o «ratio de corrección».

Así que si comparamos estos los datos de recuero de voto del CIS, con los que realmente ocurrieron en junio de 2016, obtenemos (tabla de la izquierda) la columna de las desviaciones y los ratios.

¿ qué conclusión se saca?. Pues la obvia es la enorme diferencia de 19 puntos en la abstención. Esta diferencia no obstante es hasta cierto punto normal y esperada, pues de igual manera que la gente «miente» diciendo que votará cuando luego no lo hace, también miente diciendo que votó cuando realmente no lo hizo. Lo que ya no es tan normal es la diferencia de casi 6 puntos en el PSOE, que si bien suele ocurrir que los partidos que gobiernan tienen un recuerdo excesivo, obliga, más que nunca, a corregirlo, pues no hacerlo sería dar por bueno un dato que no lo es. El CIS no lo ha hecho.

A la hora de aplicar estas correcciones por recuerdo de voto, los buenos analistas no lo hacen de manera lineal partido a partido, sino que se aplica en cada uno de los cruces recuerdo de voto x intención de voto, de tal manera que pueda hacerse “cirugía” en partidos pequeños, observando por ejemplo la fidelidad de voto y fugas de unos partidos a otros. Es lo que se llama la matriz de transferencia de voto. Aplicado este microanálisis a los propios del CIS, la matriz de transferencia “real”, “rigurosa”, “de detalle” (sobre censo), hubiera sido la siguiente:

¿ Qué hacemos con los indecisos?. El CIS directamente los quita.

Un último paso, que parece ser que tampoco ha hecho el CIS, es imputar (asignar) la gran cantidad de indecisos a algún partido. Se trata de una actividad complicada, pues hay que acudir a información indirecta (desde luego alejada del concepto simpatía) para hacerlo con cierta validez predictiva. En Sociometrica usamos la media de tres hipótesis de

impu

tación basadas en probabilidad de abstención,pero cada instituto tiene su método.

Todo ello se resume en la tabla siguiente donde puede compararse la “cocina normal” (lo que hibiera salido de aplicarse las correcciones por recuerdo de voto, osea, lo de siempre) con lo que ha publicado el CIS realmente .

Osea el CIS ha publicado:

un voto al PSOE de casi 5 puntos más
Un voto al PP de casi 3 puntos menos
Un voto al ECP de algo más de un punto

¿ Qué dicen otras encuestas?

Pues de haberse aplicado la “cocina normal”, hubiera coincidido precisamente con la “media” de las ultimas encuestas publicadas y que coinciden en fecha con el campo del CIS.

Conclusiones

El CIS ha jugado a “politizar” los datos. No hacía falta modificar nada, y al hacerlo ha creado desconfianza
Concretamente da la sensación que ha escogido un sistema de cálculo que falto de rigor, beneficiaba al PSOE y perjudicaba al PP
Es cierto que el CIS, en la página anterior a la estimación, avisa oportunamente que “Los datos de “intención de voto” son datos directos de opinión y no suponen ni proporcionan por sí mismos ninguna proyección de hipotéticos resultados electorales. En este anexo se recogen los resultados de aplicar exactamente un modelo de estimación a partir de los datos directos de intención de voto proporcionados por la encuesta. El procedimiento aplicado efectúa la imputación de “simpatía a partidos” como posible opción de voto para aquellos entrevistados y entrevistadas que han afirmado indecisión (opciones de “no sabe” o “no contesta”) o intención de abstención (continuando con el sistema de imputación habitual en el CIS para estimar voto+simpatía). Implica una doble presunción: de movilización y de decisión”. Lo que les faculta para literalmente “publicar lo que les venga en gana”.
Sin embargo, lo que vemos que ha hecho, que es proyectar el voto sin corregir, eliminando sin más a los abstencionistas y a los indecisos, lo que no sólo va en contra de lo declarado cuando habla de “aplicar un modelo de estimación”, sino que es un sistema absolutamente sesgado y falto del minimo rigor.
Si realmente hubieran querido dar más transparencia o rigor, hubiera bastando con dar los datos brutos y no estimar nada.

Recomendaciones

Dado que las estimaciones de voto están en el ámbito de la prospectiva, y por lo tanto en el tanteo, sujeto a multitud de variables no controladas por el modelo de encuesta, el CIS debería:

O publicar los datos brutos, sin estimaciones, y que cada medio o cada universidad, o cada experto saque sus futuribles, o
Que haga público el sistema de cálculo y pueda ser debatido en términos científicos