El truco del "saldo opinión" de Roy Campos

En días pasados Consulta Mitofsky presentó un reporte sobre el estudio "Así van... México: Los preliminares rumbo al 2012" correspondiente a Febrero del 2010. Éste, es una entrega más de un seguimiento periódico de las preferencias electorales respecto a partidos políticos y posicionamiento de políticos "populares" y posibles candidatos a la presidencia de la república en la contienda del 2012. En el sitio web de dicha casa encuestadora puede obtenerse el reporte técnico de este estudio que enseguida analizamos. Este reporte señala haber utilizado una muestra de 3,000 mexicanos mayores de 18 años con credencial para votar residentes en el territorio nacional en viviendasparticulares.

Iremos por partes; primero analizaremos los resultados presentados en dicho reporte y posteriormente la validez de éstos, de acuerdo a la información obtenida del mismo reporte.

En una primera revisión del reporte técnico de este estudio podemos observar que los resultados son presentados de tal manera que claramente se favorece a la figura de Peña Nieto; y por el contrario a AMLO lo hace ver (de manera artificial) como la figura política más conocida pero con menos aceptación. Más adelante explicamos el por qué de esta observación.

- Mitofsky efectúa una estimación de la "Identidad Partidista" de la población mexicana. Una primera duda que surge es ¿qué define por Identidad Partidista?, ¿cómo obtuvieron dicha información?, i.e. ¿se trató de preguntas de opción múltiple, pregunta abierta, etcétera? Una siguiente pregunta para la casa encuestadora sería, respecto a las gráficas de identidad partidista a lo largo del tiempo, ¿con qué información fueron construidas éstas?, ¿se trata de un panel (mismos individuos a lo largo del tiempo)?, ¿son fotografías de distintos periodos (i.e. corte transversal). En algún momento de las conclusiones de lo analizado menciona " A partir del 2001 el perredismo inicia una tendencia decreciente...".Para sustentar lo anterior presenta dos gráficos: en el primero muestra el seguimiento trimestral de la "Identidad Partidista" desde Feb/06 hasta Feb/10; en el segundo muestra el seguimiento anual desde Feb/03 hasta Feb/10. En ninguno de ellos es posible ver la estimación de los puntos de "Identidad partidista" del PRD en 2001 ni en 2002. En el segundo gráfico se observa que el PRD presentaba 8.9 puntos en Feb/03 de "Identidad Partidista" y en Feb/10 11.2 puntos (esto es evidentemente una tendencia no-decreciente). Una sugerencia pertinente para la casa encuestadora sería poner a disposición el gráfico con los datos completos, es decir, los resultados de la estimación de "Identidad Partidista", que a decir de la conclusión de la encuestadora, viene efectuando desde el año 2001.

- Mitofsky estima el "Rechazo Partidista" de la población en Febrero del 2010. Por la manera en que son presentados los resultados, interpretamos (no se especifica otra cosa) que se permite al encuestado mencionar los nombres que desee de partidos políticos que rechaza (podríamos afirmar que casi seguramente será más de uno), SIN tomar en cuenta el orden en que son mencionados. Los resultados son presentados en una tabla que muestra puntos de rechazo por partido por menciones y NO por lugar de mención. De esta manera afirma que "Cuando vemos los rechazos para los 3 principales partidos al inicio de cada año desde 2004 vemos como el PRD pasó de ser el menos al más rechazado a partir de 2007".Si bien, esta aseveración está sustentada en la estimación de puntos de "Rechazo partidista" basada en las menciones del PRD como el partido por el que nunca votaría, no hay manera de saber el lugar de mención que ocupó.

Respecto a las estimaciones de la "Identidad Partidista" y "Rechazo partidista", en la ficha metodológica, correspondiente a las encuestas levantadas objeto del presente estudio, NO se menciona que se haya entrevistado a personas previamente encuestadas en otro estudio por lo que se asume que es una encuesta de corte transversal, es decir, en un momento en el tiempo. Por consiguiente, las comparaciones que se hacen a lo largo del tiempo deben tomarse con extremada precaución, no es correcto hablar de tendencias pues no es una serie de tiempo.

- Consulta Mitofsky analiza la popularidad y aceptación de probables candidatos a la Presidencia de la república en una sección que llama "Popularidades Comparadas". En esta ocasión se informa que dejaron al ciudadano una primera selección y preguntaron quién le gustaría fuera el próximo Presidente de México. Es de destacar que los resultados muestran que los políticos presidenciables (según la población) más conocidos son: AMLO (94.3 puntos), Peña Nieto (85.9 puntos), Beatriz Paredes (70.8 puntos), Ebrard (69.5 puntos) y Creel (56.4), los restantes se presentan debajo de 40 puntos.

Para esta entrega, la casa encuestadora estima la opinión que tiene la población de los presidenciablesclasificándola como: positiva, negativa, regular y sin opinión. Además construye la variable "Saldo opinión", generada por la diferencia de la estimación de puntos de opiniones positivas y negativas de cada personaje SIN tomar en cuenta a la opinión regular. Bajo la construcción de esta variable se hace ver que AMLO presenta el "saldo opinión" más bajo con -21.2 puntos mientras que Peña Nieto el más alto con 34.4 puntos. Es de notarse la afirmación de la casa encuestadora: "... sólo 4 de los 14 presentan saldos positivos de opinión, destacando Peña Nieto (+34); Fidel Herrera (+10); Marcelo Ebrard (+4) y Beatriz Paredes (+2)".Es decir, en base a esta variable, Peña Nieto y Fidel Herrera presentan más aceptación que AMLO por más de 50 y 30 puntos, respectivamente. Consideramos que al construir una variable llamada "Saldo de opinión" que sólo considera a las opciones "Positiva" y "negativa" SIN tomar en cuenta a las restantes opciones: "sin opinión" y "regular", ésta no debe de tomarse como un indicativo de aceptaciónde los personajes en la población.

Así entonces, a partir de la información presentada lo único que es posible concluir respecto a "Popularidades comparadas" en Febrero del 2010 es que AMLO es el personaje de la política presidenciable más conocido por encima de Peña Nieto por casi 10 puntos.

- Mitofsky también efectúa una simulación de elección presidencial con candidatos. La casa encuestadora enfrenta a los encuestados ante una elección presidencial con candidatos, quienes hoy encabezan las preferencias de los simpatizantes de los 3 principales partidos. En este ejercicio los posibles candidatos son Creel por el PAN, AMLO por el PRD y Peña Nieto por el PRI. De los resultados mostrados se concluye que "Si hoy se enfrentaran Santiago Creel como candidato del PAN, Enrique Peña Nieto del PRI y Andrés Manuel López Obrador por parte del PRD, habría una amplia ventaja en las preferencias hacia Peña Nieto con 53% muy arriba del 14% de Creel y del 13% de López Obrador".

Ahora bien, ¿son confiables los resultados de "México: los preliminares rumbo al 2012"? Cuando se tiene una población de interés de la cual se extrae una muestra, para posteriormente inferir sobre dicha población a partir de la información que provee la muestra, se debe de tomar en cuenta en todo momento el diseño de muestreo. Es decir, en la extracción de la muestra, en la estimación de los parámetros de interés y en el análisis de los resultados.

Si no se considera el diseño de muestreo en todas las etapas mencionadas se puede llegar a conclusiones equivocadas sobre la población que se intenta inferir, pues las características de la muestra pueden ser completamente diferentes de las características de la población objetivo.

De acuerdo a la Metodología del Tracking Poll Roy Campos, no es claro que se haya tomado en cuenta en todo momento el diseño de muestreo. La información reportada es:

Población sujeta a estudio

: Mexicanos mayores de 18 años con credencial para votar residentes en el territorio nacional en viviendas particulares.

Esquema de selección de muestra: Utilizando como marco de muestreo el listado de secciones electorales en el país y de sus resultados oficiales de la elección federal de diputados en 2009, se tomaron en cada uno de los meses de manera sistemática y aleatoria con probabilidad proporcional a su tamaño (PPT) 100 secciones electorales en todo el territorio nacional, en cada sección se escogieron dos manzanas (o grupo de viviendas en caso de áreas rurales), en cada una de las manzanas cinco viviendas y en cada vivienda un mexicano mayor de edad con credencial para votar vigente.

Método de Estimación de los resultados: Los resultados presentados no son frecuencias simples, sino estimaciones basadas en la utilización de factores de expansión, calculados como el inverso de la probabilidad de selección de cada individuo en la muestra y corrección por no-respuesta en cada sección seleccionada en muestra.

El tamaño de muestra a utilizar resulta uno de los temas claves en muestreo, si lo que se quiere medir tiene mucha variabilidad se necesitará un tamaño de muestra mayor que si hay homogeneidad. En la metodología no se especifica cómo se calculó el tamaño de muestra, por lo tanto no se puede saber cuál fue el nivel de confianza prefijado, si se tomó en cuenta la tasa de no respuesta máxima esperada, o peor aún, si se tomó en cuenta el efecto de diseño (definido como el cociente de la varianza en la estimación del diseño utilizado entre la varianza obtenida considerando un muestreo aleatorio simple para un mismo tamaño de muestra)dado que no es un muestreo aleatorio simple. Todo esto influye en el tamaño de la muestra para obtener resultados confiables.

En cuanto a la probabilidad de inclusión de cada individuo en la muestra, no se especifica cómo fue calculada, sólo menciona que el factor de expansión es el inverso de dicha probabilidad. Es de suma importancia saber cómo fueron calculadas las probabilidades de inclusión pues para que sean las adecuadas deben de tomar en cuenta el diseño de muestreo. En este caso se menciona que las 100 secciones electorales se extrajeron mediante PPT, pero ¿qué hay de las manzanas, de las viviendas y de la unidad última de selección que es el individuo? Tampoco se menciona cómo se llevo a cabo la corrección por no respuesta. Toda esta información es de vital importancia para saber si los resultados son confiables, pues los errores muestrales podrían estar sub-estimados.

En el esquema de selección de muestra no se señala que se hayan tomado en cuenta las regiones del país (Norte, Bajío, Centro y Sur) en el diseño de muestreo (podrían haberse contemplado mediante estratificación, lo cual tendría que ser incluido en el diseño de muestreo y en las probabilidades de inclusión). Sólo se especifica que " se tomaron en cada uno de los meses 100 secciones electorales en todo el territorio nacional", lo que implica que los resultados son sólo representativos a nivel nacional y no por regiones. Conforme a lo anterior todos los resultados presentados a nivel regional carecen de validez estadística.

Dado que en los reportes técnicos que presentan la mayoría de casas encuestadoras no se describen con detalle los criterios matemático-estadísticos que emplearon para efectuar sus estimaciones, invitamos (no sólo a Consulta Mitofsky) sino a todas las empresas encuestadoras a dar formalidad a la información que se presenta en una encuesta. Esto, ayudaría a la no-descalificación de los resultados que se presentan.