Escalado de Variables en Machine Learning: Una Perspectiva desde la Economía

Introducción

Cuando trabajamos con datos reales, especialmente en economía, nos encontramos con un problema fundamental: las variables están en distintas escalas. No es lo mismo trabajar con precios en euros, metros cuadrados o número de habitaciones.

Los modelos de machine learning no entienden estas unidades. Para ellos, un valor más grande es simplemente “más importante”. Esto puede sesgar completamente los resultados.

Por eso, el escalado de variables no es un paso opcional: es una parte crítica del pipeline de datos.


Normalización vs Estandarización

Existen dos técnicas clásicas de escalado:

Normalización (Min-Max)

La normalización transforma los datos a un rango fijo, normalmente entre 0 y 1.

Esto es útil en modelos basados en distancia como KNN o redes neuronales. Sin embargo, tiene un problema importante: es extremadamente sensible a los outliers.

Un solo valor extremo puede “aplastar” el resto de la distribución.


Estandarización (Standard Scaling)

La estandarización transforma los datos para que tengan media 0 y desviación estándar 1.

A diferencia de la normalización, no depende directamente de los valores mínimo y máximo, lo que la hace más estable en muchos contextos.

Además, mantiene la estructura relativa de los datos, lo que la hace más adecuada en modelos econométricos.


El problema de los outliers en economía

En muchos contextos de machine learning, los outliers se consideran ruido.

Pero en economía, esto no es así.

Los valores extremos suelen representar fenómenos reales:

  • grandes fortunas
  • crisis financieras
  • shocks de precios

Eliminar estos datos puede ser conceptualmente incorrecto.

El reto, por tanto, no es eliminarlos, sino evitar que dominen el modelo.


Alternativas robustas

Winsorización

La winsorización consiste en reemplazar los valores extremos por percentiles (por ejemplo, P5 y P95).

De esta forma:

  • no se eliminan datos
  • se reduce el impacto de los extremos

Es una técnica ampliamente utilizada en finanzas y análisis económico.

Sin embargo, tiene un coste: se pierde información sobre la magnitud exacta de los valores extremos.


Transformación logarítmica

La transformación logarítmica es una de las herramientas más utilizadas en economía.

Permite:

  • reducir la asimetría de la distribución
  • trabajar con cambios porcentuales
  • mantener interpretabilidad económica

Es especialmente útil en variables como ingresos, precios o ventas.


Quantile Transformer

El Quantile Transformer transforma los datos en función de su posición relativa (ranking).

Puede convertir cualquier distribución en una distribución uniforme o normal.

Desde el punto de vista de machine learning, es una técnica muy potente:

  • elimina la asimetría
  • reduce el impacto de outliers

Sin embargo, tiene un problema crítico en economía: rompe la interpretabilidad.

Los valores dejan de tener significado económico directo. Ya no se puede interpretar un coeficiente en términos de euros, ingresos o precios.


El trade-off clave: robustez vs interpretabilidad

En este punto aparece una decisión fundamental:

  • Técnicas como Quantile Transformer priorizan la robustez
  • Técnicas como log-transform priorizan la interpretabilidad

En economía, esta segunda suele ser más importante.


Pipeline recomendado en economía aplicada

Una estrategia equilibrada sería:

  1. Análisis de cuantiles (EDA)
  2. Transformación logarítmica en variables sesgadas
  3. Winsorización ligera si hay outliers extremos
  4. Estandarización del dataset

Este enfoque permite:

  • mantener interpretabilidad
  • reducir el impacto de outliers
  • mejorar el rendimiento del modelo

El escalado de variables no es solo una cuestión técnica, sino también conceptual.

En economía, los datos extremos importan. No debemos eliminarlos sin más, sino tratarlos con cuidado.

Elegir la técnica adecuada implica entender no solo el modelo, sino también el significado económico de los datos.

En muchos casos, la combinación de log-transform, winsorización y estandarización ofrece el mejor equilibrio entre robustez e interpretabilidad.


Si trabajas con datos económicos, recuerda:

No se trata solo de hacer que el modelo funcione mejor, sino de que sus resultados sigan teniendo sentido.

Deja un comentario

Soy Silvia

Bienvenido/a a El taller de datos, mi acogedor rincón en internet dedicado a todo lo relacionado con mi aprendizaje de este mundo analítico. Aquí te invito a acompañarme en un viaje de creatividad, artesanía y todo hecho a mano con un toque de amor. ¡Vamos a ponernos creativos!