Análisis de Volatilidad de Voto

Un análisis inferencial para descubrir los factores clave que explican por qué un votante cambia su voto, basado en datos del CIS.

Metodología del Análisis

El objetivo de este proyecto no es predecir quién cambiará su voto, sino entender por qué lo hacen. Para ello, seguimos un proceso estructurado en tres fases clave, desde la preparación de los datos brutos hasta la interpretación de modelos de Machine Learning.

1

Fase 1: ETL (Extracción, Transformación y Carga)

El Desafío: Datos en Bruto

Partimos de un fichero de datos del CIS (`3518_etiq.csv`) que, si bien es muy rico, no está listo para el análisis. Las columnas tienen nombres largos, los valores son texto (ej: "1. Izquierda") y hay respuestas como "N.S." (No Sabe) o "N.C." (No Contesta) que debemos gestionar.

Nuestra Solución: Un Proceso de Limpieza Sistemático

  • Creación de la Variable Objetivo (`Y_CambioVoto`): Este es el paso más crucial. Creamos una nueva columna que vale 1 si el `recuerdo_voto` de 2023 es diferente a la `intencion_voto` actual (votante "volátil"), y 0 si son iguales (votante "leal"). Esta es la variable que queremos explicar.
  • Limpieza de Predictores: Convertimos variables de texto a números. Por ejemplo, la escala ideológica se extrae como un número del 1 al 10, y la percepción económica se mapea a una escala numérica (1 = Muy mala, 5 = Muy buena).
  • Codificación One-Hot: Para la `situacion_laboral`, que no tiene un orden intrínseco, creamos columnas separadas para cada categoría (ej: `sl_Trabajando`, `sl_Parado/a`, etc.). Esto permite al modelo tratar cada situación laboral como un factor independiente.
  • Manejo de Nulos: Eliminamos las filas donde los encuestados no respondieron a preguntas clave, asegurando que el modelo solo aprenda de datos completos y fiables.

Resultado: Un fichero `3518_modelo.csv` perfectamente estructurado, con 2,339 filas de votantes válidos y 12 características numéricas listas para ser analizadas.

2

Fase 2: EDA (Análisis Exploratorio de Datos)

Primeras Pistas: ¿Quiénes son los votantes leales y los volátiles?

Antes de modelar, "escuchamos" a los datos. Comparamos el perfil promedio de los dos grupos y visualizamos las diferencias más notables.

Boxplot de Ideología

Observación: Los votantes volátiles (1) tienden a tener una distribución ideológica más centrada y amplia que los leales (0), que se concentran más en los extremos.

Boxplot de Situación Económica

Observación: La moda de la percepción económica es ligeramente inferior en el grupo de votantes volátiles, sugiriendo una posible conexión entre insatisfacción económica y cambio de voto.

3

Fase 3: Modelado para Inferencia

La Pregunta Final: ¿Qué Variables son Realmente Importantes?

El EDA nos da pistas, pero para cuantificar la importancia de cada factor, recurrimos a modelos de Machine Learning. Es importante destacar que no los usamos para predecir, sino como una herramienta de inferencia estadística para medir el impacto de cada variable.

Entrenamos dos modelos con este propósito:

1
Regresión Logística

Un modelo clásico que nos da "coeficientes". Nos dice la dirección (positiva o negativa) y la fuerza del impacto de cada variable.

2
Random Forest

Un modelo más robusto y moderno que es excelente para calcular la "importancia de variables" (Gini Importance). Nos dice qué variables utilizó más el modelo.

La Conclusión: Ranking de Importancia de Variables

El modelo Random Forest nos proporciona la respuesta más clara y fiable. El siguiente gráfico ordena todas las variables analizadas según su poder para explicar el cambio de voto.

Gráfico de Importancia de Variables
Interpretación de los Resultados:

Ideología (`ideologia_num`)

Es, con diferencia, el factor más determinante. La auto-ubicación ideológica de una persona es el principal predictor de si se mantendrá leal a su voto anterior.

Situación Económica Personal (`sit_econ_num`)

El segundo factor en importancia. Confirma la intuición del EDA: cómo una persona valora su propia economía es un factor muy relevante en su comportamiento electoral.

Situación Laboral

Variables como ser estudiante, estar jubilado o trabajando también tienen un peso significativo, aunque menor que los dos factores principales. Esto sugiere que la etapa vital y la situación profesional influyen en la estabilidad del voto.