martes, 16 de mayo de 2017

Minería de Datos en Psicología: Introducción al algoritmo C5

El procedimiento de análisis secuencial C5, destinado a crear árboles de decisión (conjunto de reglas), fué desarrollado por Quinlan (Chambers, & Dinsmore, 2014). Facilitando la interpretación de las decisiones, así como la comprensión de las reglas usadas, a la vez que reduce el número de variables independientes en los modelos explicativos (Pérez, 2011).

Este algoritmo es el resultado de la actualización de algoritmos ID3 y C4.5 (Quinlan & Kaufmann, 1993). Se caracteriza por dividir en subconjuntos, cada vez más pequeños, los datos de partida. Consiguiendo con esta estrategia elaborar reglas de extracción adecuadas a la hora de predecir de forma óptima un objetivo (Quinlan, 2014). Para ello se sirve de índices como "Gain Ratio" (razón entre la ganancia de información y la ganancia intrínseca) que es una modificación destinada a reducir el sesgo de la ganancia de información.