domingo, 3 de noviembre de 2019

Concordancia entre observadores: Kappa de Fleiss en SPSS 26

El estadístico kappa de Fleiss (Fleiss et al., 2003) indica el grado de acuerdo entre tres o más observadores/evaluadores,  sobre una variable en escala categórica, siendo una generalización de la prueba π de Scott (1955) y una de las alternativas más conveniente entre todas las pruebas del mismo tipo (Gwet, 2014). Por otra parte, indicar que es tan importante calcular el acuerdo global, como los acuerdos individuales en cada nivel de la variable estudiada. 

El estadístico puede variar de -1 a +1, donde el valor negativo (κ) indica que el acuerdo entre los  evaluadores fue menor que el acuerdo esperado por casualidad. Con -1 estamos indicando que no hubo acuerdo en nada de lo observado, mientras 0 indica que el acuerdo no es mejor que el azar, y los valores mayores que 0 representan un acuerdo cada vez mayor para los evaluadores, hasta un valor máximo de +1 , lo que indica un acuerdo perfecto.

Es importante señalar ahora, que el acuerdo no significa que su decisión sea correcta (por ejemplo, los psicólogos podrían estar diagnosticando erróneamente a los pacientes en problemas de aprendizaje,  quizás haciendo demasiada incidencia en pequeñas alteraciones en las tareas a que son sometidos los pacientes). 

Procedimiento en SPSS para realizar un análisis de la kappa de Fleiss.

En el primer ejemplo, veremos un caso simulado de una directora de un centro escolar que intenta determinar si los profesores concuerdan a la hora de clasificar a los alumnos en una tarea académica concreta. Suponiendo que son 3 profesores ante una tarea de matemáticas. Y asumiendo que los 3 profesores "seleccionados al azar" son evaluadores no únicos y los "alumnos "son los objetivos que se evalúan. Estos 3 profesores deben decidir si el alumno "necesita recuperar " (1), "apoyo complementario" (2) o "no necesita recuperar" (3), es decir, "repetir", "seguimiento" y "no repetir son las tres modalidades de la variable evaluación en matemáticas.
Este proceso se repitió para 10 alumnos seleccionados al azar.

Ya introducidos los datos en la base toma la siguiente forma:

Después  pulsaremos secuencialmente:
Analizar->Escala->Análisis de fiabilidad

...lo cual nos permitira completar las opciones de análisis como podemos ver a continuación:

Una vez ejecutado, obtendremos en primer lugar la siguiente tabla de resultados:

...donde podemos identificar tanto el valor de acuerdo global (Kappa=0,5818815) como el intervalo de confianza para el 95% (0,5735369-0,5902261). Esto podemos interpretarlo como una proporción de acuerdo por encima del acuerdo casual.

Como no existen reglas generales para evaluar el grado de concordancia obtenido, en nuestro ejemplo kappa= de 0,5818815, cada investigador suele usar distintos criterios. Nosotros nos apoyaremos en el trabajo de Landis y Koch (1977), basado en la interpretación en la Kappa de Cohen
<0,20: concordancia pobre/ 0,21-0,40: concordancia justa/ 0,41-0.60: concordancia moderada
0,61-0,80: concordancia buena/ 0,81-1,00: concordancia muy buena
Es decir, en nuestro ejemplo el grado de acuerdo de los profesores es moderado.

Es importante resaltar, antes de proseguir, que debido a que la importancia estadística del kappa de Fleiss es relativa, es siempre mas relevante en este procedimiento informar del intervalo de confianza al 95%.

También podemos observar en la tabla anterior que la kappa de Fleiss es estadísticamente significativo (diferente de 0 en la población, donde En nuestro ejemplo, Z= 4,3726368 (p = 0,0000123) , cumpliendo ampliamente el nuevo criterio de Benjamin et al. (2017), ya que los estadísticos cumplen p <.005, aunque no el criterio cuántico de 5 sigmas (p<0,0000005).

A continuación, siempre deberemos proceder a evaluar el nivel de acuerdo de los profesores en cada modalidad (categoría de la variable). Estos resultados kappa individuales en nuestro ejemplo son:

Estos kappas individuales indican que los profesores están más de acuerdo al categorizar el comportamiento del individuo como normal (no necesita recuperar = 1) o fracaso escolar (necesita recuperar la asignatura = 3), pero mucho menos de acuerdo sobre a quién debe clasificarse como alumnos que necesitan apoyo (seguimiento = 2).

Por último indicar, que la probabilidad condicional es la frecuencia relativa de cada modalidad entre el total de modalidades usadas en las observaciones. Por ejemplo para la primera resulta de 11/30, para la segunda es 6/30, mientras la tercera 13/30. Es un indicador de la tendencia a la hora de clasificar a los alumnos, en este caso en la categoría 3 (necesita recuperar = 0,4333333).

En el segundo ejemplo, que veremos a continuación, son datos reales de un Tribunal de Fin de Grado de la Universidad de Oviedo, constituido por tres profesores que evalúan a 7 alumnos. Y donde las notas numéricas han sido recodificadas a 3 categorías (Aprobado, Notable, Sobresaliente).

La tabla de resultados global nos da:

..Identificando tanto el valor de acuerdo global (Kappa=0,250) como el intervalo de confianza para el 95% (0,2399712-0,2600288), que podemos interpretarlo, como en el caso anterior, como una proporción de acuerdo por encima del acuerdo casual. En este segundo ejemplo el grado de acuerdo es justo siguiendo el criterio de Landis y Koch (1977).

Sin embargo, en este caso podemos contemplar en la tabla anterior que la kappa de Fleiss ahora no es estadísticamente significativa (Z= 1,5631648p = 0,1180138). 

A continuación, a la hora de proceder a evaluar el nivel de acuerdo de los profesores en cada modalidad (categoría de la variable), obtenemos los datos:
En los kappas individuales anteriores indican que los profesores están más de acuerdo al categorizar el nivel de notable (2) o Sobresaliente (3), pero desacuerdo sobre a quién debe clasificarse como alumnos con un nivel de aprobado (1). No obstante como en el caso de la kappa global, al no ser significativo estadísticamente, las valoraciones de este tipo deben ser tomadas con mucha reserva.

Por último indicar, que la probabilidad condicional nos indica que la mayoría de las valoraciones recayeron en notable, seguido de aprobado y finalmente sobresaliente.

Referencias
*Benjamin, D. J., Berger, J., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, July 22). Redefine statistical significance. Retrieved from psyarxiv.com/mky9j
*Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical methods for rates and proportions (3rd ed.). Hoboken, NJ: Wiley.
*Gwet, K. L. (2014). Handbook of inter-rater reliability (4th ed.). Gaithersburg, MD: Advanced Analytics.
*Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159-174.
*Scott, W. (1955). Reliability of content analysis: The case of nominal scale coding. Public Opinion Quarterly, 19(3), 321-325.