Metodología de la

ENCPD-2023

La ENCPD-2023 se aplicó mediante encuestas virtuales y muestreo pos-estratificado donde las y los ciudadanos participaron de manera abierta a través de preguntas cerradas. La encuesta fue levantada entre el 28 de octubre y el 28 de noviembre del 2022. El levantamiento de la información de la encuesta en línea se realizó con ayuda de la empresa Soluciones NEU S.A. se C. V. Para obtener una muestra representativa de 2063 casos hubo más de 1.6 millones personas alcanzadas y casi 60 mil interacciones, siendo la tasa de interacción de 5.32%.

Los encuestados interactuaron desde todas las entidades de la República Mexicana, siendo la Ciudad de México, Guadalajara, Puebla y Monterrey los principales lugares donde la mayor parte de los encuestados dijeron residir. Asimismo, lxs ciudadanxs que en su mayoría respondieron la encuesta fueron mujeres con edades que van desde los 18 a 25 años.

La forma de recolección de datos no tiene restricción alguna. Las encuestas online reclutan las respuestas a través de anuncios publicitarios en redes sociales y en Google Ads, para que aparezcan en varios sitios web. Esto busca garantizar la aleatoriedad de las respuestas, ya que los anuncios aparecen a millones de personas en el territorio que se desea estudiar.

La investigación busca estudiar la cultura política de los mexicanos en relación con la ideología que profesan y en el marco de su comportamiento electoral.

En términos metodológicos, un primer paso consiste en analizar la estructura demográfica, social, económica y política de la encuesta frente a la estructura poblacional real mexicana. A través de técnicas de postestratificación se puede obtener resultados que, al ser aleatoria la muestra, serían representativos de la opinión pública mexicana. Finalmente, se calculan los indicadores.

A continuación, se describe las fases empleadas en la metodología.

Fase 1. Estructura de la muestra versus estructura poblacional

El primer paso de la metodología fue comparar la estructura de la muestra: es decir, quién participó en la encuesta. Tal estructura fue comparada con los datos oficiales de la estructura real de la ciudadanía mexicana.

Las variables usadas para la comparación y sus fuentes fueron:

Variable	Fuente
Género	INEGI
Edad	INEGI
Entidad Federativa (población)	INEGI
Zona	INEGI
Votación electoral 2018	INE
Estructura educativa	INEGI

Los datos del INEGI provienen de la fuente del Censo 2020: https://www.inegi.org.mx/contenidos/programas/ccpv/2020/doc/Censo2020_Principales_resultados_EUM.pdf

A excepción de los cuestionarios enviados por e-mail o SMS, las encuestas on-line no dependen de listas de direcciones y números de teléfono, evitando así el sesgo en el caso de usar datos desactualizados y terminar seleccionando siempre las mismas personas.

Si se quiere representatividad de la muestra, los encuestados son invitados al azar a responder a la encuesta en línea durante su navegación habitual en Google, redes sociales u otros portales online. En el caso de esta encuesta se priorizó las respuestas a través de Google Ads.

El perfil demográfico del encuestado fue rellenado por él mismo en profundidad. No se utilizaron filtros previos de selección de encuestados en base a sus características.

La muestra total reclutada fue de 2063 casos, con margen de error: +/- 3%.

Fase 2. Creación de los pesos postestratificados

Los datos fueron segmentados por un algoritmo calibrado cuidadosamente en función de la estructura poblacional mexicana (postestratificación).

La representatividad digital-nacional de la encuesta se logró mediante la asignación de pesos muestrales que balancean los sesgos entre los encuestados, una vez reunidos los cuestionarios completos. Dichos pesos muestrales se asignaron mediante un algoritmo de raking. El raking es un proceso de ponderación iterativa, por la que a cada demandado se le asigna un peso que refleja su sub- o sobrerrepresentación frente al perfil objetivo de la muestra global. En cada etapa de raking, los pesos están calibrados para que conjuntamente converjan cada vez más hacia el perfil de la población general.

Para el raking, se utiliza un conjunto de variables clave para garantizar la representatividad. Las variables usadas son las mencionadas en la fase 1. Con el fin de evitar distorsiones por casos aislados, los pesos extremos son atenuados dentro de algunos límites específicos. Los procedimientos de raking aseguran que, una vez que se haya atribuido el peso final a cada encuestado, el perfil global de la muestra ajustada por peso asemeje al perfil de la población digital nacional.

Es posible formular el problema de ponderación como un método de optimización con restricciones donde el objetivo es que los pesos estén lo más cerca posible de 1 y donde la restricción es que los targets seleccionados (objetivos) coincidan.

Matemáticamente se puede expresar de la siguiente forma:

Argmin G(x) S.t. XT w=T

G^w (x)=x(log(x)−1)+1

donde G(x) es la función de clasificación que busca que los pesos estén cerca de 1; w es el vector de pesos; T es el vector de objetivos (en números absolutos, no en porcentajes) y X es (numRespondents×numTargets) la matriz de respuestas. La matriz X es binaria donde las celdas se llenan con un '1' si el encuestado pertenece a la categoría objetivo y '0' en caso contrario. Dicho de otra forma, esto quiere decir que se busca optimizar los pesos para que estén lo más cerca posible de 1 mientras se satisfacen las restricciones objetivo.

Se programó un algoritmo capaz de excluir todas las respuestas incompletas o que violen las reglas de confiabilidad de los datos, en función de las preguntas de control, errores de tipeo y/o que excedan las tres desviaciones estándar en la distribución normal de la función.

Fase 3. Construcción de indicadores sintéticos

Luego de estimar los pesos de cada encuestado, para que la muestra fuera representativa de la población, se construyeron los indicadores sintéticos de cada pregunta. Las diferentes preguntas fueron estudiadas a través de cruzarlas con variables socioeconómicas y con la autodeclaración ideológica.