Árboles de decisión: qué son y cuál es su uso en Big Data

Los árboles de decisión son un algoritmo de aprendizaje automático que se utiliza en la ciencia de datos para procesar grandes volúmenes datos y solventar problemas.

Los árboles de decisión son algoritmos estadísticos o técnicas de machine learning que nos permiten la construcción de modelos predictivos de analítica de datos para el Big Data basados en su clasificación según ciertas características o propiedades, o en la regresión mediante la relación entre distintas variables para predecir el valor de otra.

En los modelos de clasificación queremos predecir el valor de una variable mediante la clasificación de la información en función de otras variables (tipo, pertenencia a un grupo…). Por ejemplo, queremos pronosticar qué personas comprarán un determinado producto, clasificando entre clientes y no clientes, o qué marcas de portátiles comprará cada persona mediante la clasificación entre las distintas marcas. Los valores a predecir son predefinidos, es decir, los resultados están definidos en un conjunto de posibles valores.

En los modelos de regresión se intenta predecir el valor de una variable en función de otras variables que son independientes entre sí. Por ejemplo, queremos predecir el precio de venta del terreno en función de variables como su localización, superficie, distancia a la playa, etc. El posible resultado no forma parte de un conjunto predefinido, sino que puede tomar cualquier posible valor.

El árbol de decisión es una estructura que está formada por ramas y nodos de distintos tipos:

Los nodos internos representan cada una de las características o propiedades a considerar para tomar una decisión.
Las ramas representan la decisión en función de una determinada condición (p. ej. probabilidad de ocurrencia).
Los nodos finales representan el resultado de la decisión.

¿Para qué se utilizan los árboles de decisión?

Los árboles de decisión se emplean generalmente en Big Data para predecir la probabilidad de conseguir un determinado resultado en base a ciertas condiciones (incertidumbre). Ejemplos típicos de la utilización de este tipo de algoritmos son:

Hacer estimaciones de las primas de seguros a cobrar a los asegurados.
Predecir si se le debe ofrecer un determinado producto a una persona.

Ejemplo de construcción

Para realizar la predicción de si un banco debe ofrecer préstamos de hasta 10.000 euros a sus clientes en una campaña de marketing, lo primero es determinar los distintos tipos de clientes que tiene. Para simplificarlo vamos a considerar que tiene clientes premium y normales.

A continuación, se construye el árbol de decisión de la siguiente manera:

Los clientes premium son aquellos que tienen depósitos superiores a los 100.000 euros y/o ingresos superiores a los 2.000 euros al mes en el banco y los clientes normales el resto.
En el caso de los clientes premium si tienen hipotecas o préstamos sin amortizar superiores al 50% de sus depósitos y/o gastos mensuales superiores al 60% de sus ingresos no se le ofrecerá el préstamo, en caso inverso sí.
Si el cliente es del tipo normal, consideraremos dos factores distintos:
- Si el cliente tiene algún impago no se le ofrecerá el préstamo.
- Si el cliente está al día en sus pagos, sus ingresos son superiores a 1.000 euros al mes y sus gastos inferiores al 40% se le ofrecerá el préstamo, en caso contrario no.

Con el árbol de decisión obtenemos una solución al problema de si debemos ofrecer un préstamo a un determinado cliente o no. En muchas ocasiones, hay incertidumbre en cada una de las posibles decisiones y no tenemos valores definidos y que se puedan obtener de manera fiable. Por ejemplo, cuando trabajamos con probabilidades, es por lo que se utilizan determinados criterios de decisión bajo incertidumbre:

MAXIMAX o criterio optimista: se escoge la opción que da el mejor resultado final.
MAXIMIN o criterio pesimista: se selecciona el camino que da el peor resultado posible.
Frustración mínima: se clasifican los posibles caminos y se calcula la diferencia entre el resultado de cada camino y el mayor posible para cada situación, optando por la que minimice el resultado.

Los árboles de decisión son algoritmos fácilmente entendibles y que funcionan bien en modelos analíticos basados en clasificación o regresión para obtener resultados a un problema. Son una técnica o algoritmo de machine learning ampliamente utilizado para trabajar con el Big Data, especialmente en el caso de campañas o estrategias de marketing.