martes, 16 de mayo de 2017

Minería de Datos en Psicología: Introducción al algoritmo C5

El procedimiento de análisis secuencial C5, destinado a crear árboles de decisión (conjunto de reglas), fué desarrollado por Quinlan (Chambers, & Dinsmore, 2014). Facilitando la interpretación de las decisiones, así como la comprensión de las reglas usadas, a la vez que reduce el número de variables independientes en los modelos explicativos (Pérez, 2011).

Este algoritmo es el resultado de la actualización de algoritmos ID3 y C4.5 (Quinlan & Kaufmann, 1993). Se caracteriza por dividir en subconjuntos, cada vez más pequeños, los datos de partida. Consiguiendo con esta estrategia elaborar reglas de extracción adecuadas a la hora de predecir de forma óptima un objetivo (Quinlan, 2014). Para ello se sirve de índices como "Gain Ratio" (razón entre la ganancia de información y la ganancia intrínseca) que es una modificación destinada a reducir el sesgo de la ganancia de información.

A la hora de evaluar el grado de información se usa la formulación de la entropía siguiente:
H(S )=−pd*log2(pd) − pm*log2(pm)
donde...
S: Conjunto de muestras
pd: proporción de casos en la clase d
pm: proporción de casos en la clase m

Por ejemplo, para un caso con 5 elementos, con dos niveles que contengan 2 y 3 casos respectivamente....
H(caso=nivel1)=− 2/5*log2(2/5) − 3/5* log2(3/5) =0.971

El algoritmo ofrece la ventaja de poder trabajar con muestras tanto reducidas como grandes, a la hora de formar los distintos grupos de clasificación. Además de utilizar la técnica de refuerzo (Boosting). Siendo, por otra parte, problemático en el sobre-ajuste de modelos y la creación de árboles muy extensos.

En el procedimiento implementado en SPSS puede generar dos tipos de modelos, uno en forma de árbol de decisión (descripción sencilla de las divisiones que se han encontrado en los datos), donde los nodos finales (hojas) describen un subconjunto de datos. El segundo tipo de modelos se expresa en forma de conjunto de reglas que intentan realizar pronósticos de registros individuales. Estas reglas, se derivan de los árboles de decisión, son una simplificación de la información recogida en los mismos.  La diferencia más importante entre las dos soluciones, es que las reglas pueden aplicarse a más de un registro específico. Cuando esto ocurre, a cada una de ellas se le asigna una ponderación basada en la "confianza" asociada a dicha regla. El resultado final se obtiene por la combinación de los votos

En nuestro caso, como ejemplo ilustrativo, hemos utilizado los árboles de decisión con el fin de descubrir reglas en el conjunto de datos del abandono de estudiantes en la universidad. Para ello usamos el software IBM SPSS Modeler 18.0, sin dividir la base de datos en los grupos de formación, prueba y validación (aconsejable ya en etapas de investigación mas rigurosas).


Referencias.
*Chambers, M.  & Dinsmore, T. W. (2014). Advanced analytics methodologies: Driving business value with analytics . Pearson Education .
*Pérez, C. (2011). Técnicas de segmentación. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial.
*Quinlan, J.R. &  Kaufmann,C.A.M. (1993). C4.5: Programs for Machine Learning. 1st Edn., Revised, Morgan Kaufmann,
*Quinlan, J. R. (2014). C4. 5: Programs for machine learning . Elsevier .