Introducción

Cuando trabajamos con datos reales, especialmente en economía, nos encontramos con un problema fundamental: las variables están en distintas escalas. No es lo mismo trabajar con precios en euros, metros cuadrados o número de habitaciones.

Los modelos de machine learning no entienden estas unidades. Para ellos, un valor más grande es simplemente “más importante”. Esto puede sesgar completamente los resultados.

Por eso, el escalado de variables no es un paso opcional: es una parte crítica del pipeline de datos.

Normalización vs Estandarización

Existen dos técnicas clásicas de escalado:

Normalización (Min-Max)

La normalización transforma los datos a un rango fijo, normalmente entre 0 y 1.

Esto es útil en modelos basados en distancia como KNN o redes neuronales. Sin embargo, tiene un problema importante: es extremadamente sensible a los outliers.

Un solo valor extremo puede “aplastar” el resto de la distribución.

Estandarización (Standard Scaling)

La estandarización transforma los datos para que tengan media 0 y desviación estándar 1.

A diferencia de la normalización, no depende directamente de los valores mínimo y máximo, lo que la hace más estable en muchos contextos.

Además, mantiene la estructura relativa de los datos, lo que la hace más adecuada en modelos econométricos.

El problema de los outliers en economía

En muchos contextos de machine learning, los outliers se consideran ruido.

Pero en economía, esto no es así.

Los valores extremos suelen representar fenómenos reales:

grandes fortunas
crisis financieras
shocks de precios

Eliminar estos datos puede ser conceptualmente incorrecto.

El reto, por tanto, no es eliminarlos, sino evitar que dominen el modelo.

Alternativas robustas

Winsorización

La winsorización consiste en reemplazar los valores extremos por percentiles (por ejemplo, P5 y P95).

De esta forma:

no se eliminan datos
se reduce el impacto de los extremos

Es una técnica ampliamente utilizada en finanzas y análisis económico.

Sin embargo, tiene un coste: se pierde información sobre la magnitud exacta de los valores extremos.

Transformación logarítmica

La transformación logarítmica es una de las herramientas más utilizadas en economía.

Permite:

reducir la asimetría de la distribución
trabajar con cambios porcentuales
mantener interpretabilidad económica

Es especialmente útil en variables como ingresos, precios o ventas.

Quantile Transformer

El Quantile Transformer transforma los datos en función de su posición relativa (ranking).

Puede convertir cualquier distribución en una distribución uniforme o normal.

Desde el punto de vista de machine learning, es una técnica muy potente:

elimina la asimetría
reduce el impacto de outliers

Sin embargo, tiene un problema crítico en economía: rompe la interpretabilidad.

Los valores dejan de tener significado económico directo. Ya no se puede interpretar un coeficiente en términos de euros, ingresos o precios.

El trade-off clave: robustez vs interpretabilidad

En este punto aparece una decisión fundamental:

Técnicas como Quantile Transformer priorizan la robustez
Técnicas como log-transform priorizan la interpretabilidad

En economía, esta segunda suele ser más importante.

Pipeline recomendado en economía aplicada

Una estrategia equilibrada sería:

Análisis de cuantiles (EDA)
Transformación logarítmica en variables sesgadas
Winsorización ligera si hay outliers extremos
Estandarización del dataset

Este enfoque permite:

mantener interpretabilidad
reducir el impacto de outliers
mejorar el rendimiento del modelo

El escalado de variables no es solo una cuestión técnica, sino también conceptual.

En economía, los datos extremos importan. No debemos eliminarlos sin más, sino tratarlos con cuidado.

Elegir la técnica adecuada implica entender no solo el modelo, sino también el significado económico de los datos.

En muchos casos, la combinación de log-transform, winsorización y estandarización ofrece el mejor equilibrio entre robustez e interpretabilidad.

Si trabajas con datos económicos, recuerda:

No se trata solo de hacer que el modelo funcione mejor, sino de que sus resultados sigan teniendo sentido.

El taller de datos

Escalado de Variables en Machine Learning: Una Perspectiva desde la Economía

Introducción