miércoles, 6 de julio de 2016

Procedimiento DETECTANOMALY en SPSS 24

El proceso de análisis de datos que describimos "Detectanomaly", se puede encontrar en distintas versiones del SPSS, en nuestro caso corresponde con la versión 24. Este procedimiento permite identificar los valores "anómalos", buscando para ellos los casos atípicos basados sobre las desviaciones de casos similares y de las razones para tales desviaciones. 

Este recurso, se puede verificar tanto sobre variables originales o mediante la creación de nuevas variables (transformación de las existentes en la base de datos). Y una vez que hayan identificado los casos inusuales, se puede examinar más a fondo estos casos y determinar si se deben incluir en nuestros análisis. Para este caso hemos usado la base de datos correspondiente a las elecciones al parlamento español, celebradas en junio de 2016, con objeto de averiguar si existen patrones anómalos interesantes en el comportamiento del voto (Parsons, 1998; Tung, 2016).

El procedimiento se puede definir de forma interactiva o bien en forma de sintaxis. En nuestro ejemplo hemos elegido la segunda posibilidad de programación, donde indicamos las variables que van a formar parte del análisis (transformadas), resultado de computar la diferencia del comportamiento del voto en las elecciones de diciembre de 2015 frente a las elecciones de junio en 2016.

Y a continuación escribimos la instrucción para analizar los casos anómalos correspondientes al comportamiento del voto por municipios....
DETECTANOMALY 
  /VARIABLES SCALE=diftotal difabs difnul difbla ID=Municipio 
  /PRINT ANOMALYLIST NORMS ANOMALYSUMMARY REASONSUMMARY CPS 
  /HANDLEMISSING APPLY=NO 
  /CRITERIA PCTANOMALOUSCASES=5 ANOMALYCUTPOINT=2 MINNUMPEERS=1 MAXNUMPEERS=15 NUMREASONS=1.

Resumen de procesamiento de casos:
ID de homólogo: Identifica el grupo al cual pertenece el caso, basándose en las las similitudes de las variables de entrada. 
En el ejemplo analizado podemos comprobar que se distinguen dos clusters (homólogos), el primero formado por 3291 municipios y el segundo por 4926.

Lista de índices de casos con anomalías:
-Índice de anomalía: indicador que refiere la atipicidad del caso respecto a su grupo de homólogos. El incremento de este valor referencia mayor grado de atipicidad del caso evaluado. 
Para el ejemplo contemplado encontramos que el primer municipio con anomalía mas acusada asociada al valor 17,714, mientras el segundo es de 17,195 y el tercero 16,525.

Lista de ID de los homólogos de casos con anomalías:
-Tamaño de homólogo: Número de casos que forman parte del grupo identificado como similar.
-Porcentaje de tamaño de homólogo: es el valor porcentual de los casos válidos englobados dentro del grupo. 
Los municipios se encuadran dentro del tamaño de los homólogos. Así el primer caso encaja dentro del cluster 1 que contiene 3291 casos (40,1% de los municipios).

Lista de motivos de casos con anomalías: 
-Variable de razón: Indica que variable o variables tienen mayor peso en el grado de atipicidad del caso. 
-Impacto de variable: Grado proporcional de la variable en la diferencia del caso respecto a su grupo de homólogos. 
-Valor de la variable: Cantidad de la variable en el modelo. 
-Norma de la variable: Cantidad normal de la variable en el grupo de homólogos.
En los datos anteriores podemos visualizar que la diferencia de votos brutos es lo que determina la anomalía de este municipio (0,804 de impacto), donde 71,54 se distancia bastante de 1,9741 que es el promedio de la variable dentro del cluster al que pertenece el municipio.

Finalmente es posible comprobar de forma global los resultados de las anomalías detectadas en la base de datos, donde es posible visualizar de forma rápida y sencilla, aquellas variables que tienen mas peso en las discrepancias de los casos (en este caso los municipios). 
Resumen del análisis
Finalmente, para un lectura más detallada de los algoritmos utilizados se puede consultar el manual correspondiente de IBM para la versión SPSS 24 (IBM, 2016).

Referencias.
*IBM Corp. Released 2016. IBM SPSS Statistics 24 Algorithms. Armonk, NY: IBM Corp. (URL:ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/24.0/en/client/Manuals/IBM_SPSS_Statistics_Algorithms.pdf )
*Parsons, T. (1998), El Sistema Social. Madrid: Alianza Editorial.
*Tung,K. (2016). Mining Event Sequences from Social Media for Election Prediction. En Wang,T. y  Chen,A.L.P. (Eds.) Advances in Data Mining. Applications and Theoretical Aspects.  Switzerland: Springer International Publishing.