martes, 28 de agosto de 2018

Transformación entre percentiles y puntuaciones z en SPSS

Los estadísticos clásicos de posición en el campo de las Ciencias del Comportamiento, como es el percentil (Galton, 1885),  aún siguen siendo una herramienta que frecuente vemos en la literatura actual. Siendo útil tener siempre herramientas informáticas que nos apoyen en la labor de trabajo e investigación.

De todas ellas veremos en este breve ejemplo, la forma de obtener la puntuación Z o percentil a partir del otro valor. Es decir, cómo teniendo una Z podemos obtener la equivalente del percentil, o bien, dado un percentil averiguar el valor Z correspondiente. Y para ello usaremos el paquete estadístico SPSS.

lunes, 25 de junio de 2018

Visualización de datos en escalas likert (SPSS: jitter plot)

Cuando deseamos representar la relación en una nube de puntos, y las variables están en escala ordinal, con valores enteros, como son los ítems de una escala likert, vemos que es muy difícil ver realmente como se asocian los puntos en el espacio. Una forma de resolver este problema lo vamos a ver a continuación, y se conoce como efecto “jitter”, consistente en restar o sumar una pequeña cantidad arbitraria a la posición del punto en el espacio. De tal forma que si redondeamos los nuevos datos, estos deberán volver a los valores originales.

Esta pequeña alteración, que funciona como un modificador visual de la colisión de datos,  en el SPSS 25 se resuelve por sintaxis.

martes, 5 de septiembre de 2017

Modificando la valoración de los grados de significación (p)

Como es bien conocido, los grados de significación son objeto de controversia desde hace tiempo, sobre todo a partir de trabajos críticos como el de Vul (2009). Se ha intentado bien corregir la problemática con el uso de algoritmos modificados, por ejemplo en R (Herrero et al., 2011), e incluso eliminarlo (Newcombe, 2013), pero su uso tan extendido en el campo de las publicaciones científicas ha resistido hasta ahora todos los intentos de eliminación o modificación de una forma generalizada (Wasserstein & Lazar, 2016).

Ahora un grupo de investigadores, de distintos campos científicos, han planteado en la revista Nature Human Behavior alterar el criterio de significación estadística para un resultado del valor p clásico (Preprint en PsyArXiv http://osf.io/preprints/psyarxiv/mky9j; Benjamin et al.,2017). La nueva propuesta sugiere modificar el 0,05 por el 0,005. Entre las ventajas que podrá contener el cambio de criterio se encuentra mejorar la reproducción de los trabajos de investigación, disminuyendo los falsos positivos que se dan en este momento por usar el criterio del p<0,05. De esta forma, la línea propuesta hará que solo aquellos resultados con valores de p inferiores a 0,005 pasarán a ser considerados estadísticamente significativos. 

domingo, 13 de agosto de 2017

Tamaño del efecto: F de Cohen

IBM SPSS no resuelve directamente la f o la d de Cohen, no obstante es posible deducir los estadísticos a partir de Eta^2.
Para ello deberemos tener en cuenta:
eta^2 = f^2 / ( 1 + f^2 )
f^2 = eta^2 / ( 1 - eta^2 )
...donde
f^2 es el cuadrado del tamaño del efecto, y eta^2 es eta^2 parcial obtenido por el SPSS.
(Cohen, 1988; pg. 281)

martes, 16 de mayo de 2017

Minería de Datos en Psicología: Introducción al algoritmo C5

El procedimiento de análisis secuencial C5, destinado a crear árboles de decisión (conjunto de reglas), fué desarrollado por Quinlan (Chambers, & Dinsmore, 2014). Facilitando la interpretación de las decisiones, así como la comprensión de las reglas usadas, a la vez que reduce el número de variables independientes en los modelos explicativos (Pérez, 2011).

Este algoritmo es el resultado de la actualización de algoritmos ID3 y C4.5 (Quinlan & Kaufmann, 1993). Se caracteriza por dividir en subconjuntos, cada vez más pequeños, los datos de partida. Consiguiendo con esta estrategia elaborar reglas de extracción adecuadas a la hora de predecir de forma óptima un objetivo (Quinlan, 2014). Para ello se sirve de índices como "Gain Ratio" (razón entre la ganancia de información y la ganancia intrínseca) que es una modificación destinada a reducir el sesgo de la ganancia de información.

A la hora de evaluar el grado de información se usa la formulación de la entropía siguiente:
H(S )=−pd*log2(pd) − pm*log2(pm)
donde...
S: Conjunto de muestras
pd: proporción de casos en la clase d
pm: proporción de casos en la clase m

Por ejemplo, para un caso con 5 elementos, con dos niveles que contengan 2 y 3 casos respectivamente....
H(caso=nivel1)=− 2/5*log2(2/5) − 3/5* log2(3/5) =0.971

El algoritmo ofrece la ventaja de poder trabajar con muestras tanto reducidas como grandes, a la hora de formar los distintos grupos de clasificación. Además de utilizar la técnica de refuerzo (Boosting). Siendo, por otra parte, problemático en el sobre-ajuste de modelos y la creación de árboles muy extensos.

En el procedimiento implementado en SPSS puede generar dos tipos de modelos, uno en forma de árbol de decisión (descripción sencilla de las divisiones que se han encontrado en los datos), donde los nodos finales (hojas) describen un subconjunto de datos. El segundo tipo de modelos se expresa en forma de conjunto de reglas que intentan realizar pronósticos de registros individuales. Estas reglas, se derivan de los árboles de decisión, son una simplificación de la información recogida en los mismos.  La diferencia más importante entre las dos soluciones, es que las reglas pueden aplicarse a más de un registro específico. Cuando esto ocurre, a cada una de ellas se le asigna una ponderación basada en la "confianza" asociada a dicha regla. El resultado final se obtiene por la combinación de los votos

En nuestro caso, como ejemplo ilustrativo, hemos utilizado los árboles de decisión con el fin de descubrir reglas en el conjunto de datos del abandono de estudiantes en la universidad. Para ello usamos el software IBM SPSS Modeler 18.0, sin dividir la base de datos en los grupos de formación, prueba y validación (aconsejable ya en etapas de investigación mas rigurosas).


Referencias.
*Chambers, M.  & Dinsmore, T. W. (2014). Advanced analytics methodologies: Driving business value with analytics . Pearson Education .
*Pérez, C. (2011). Técnicas de segmentación. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial.
*Quinlan, J.R. &  Kaufmann,C.A.M. (1993). C4.5: Programs for Machine Learning. 1st Edn., Revised, Morgan Kaufmann,
*Quinlan, J. R. (2014). C4. 5: Programs for machine learning . Elsevier .

domingo, 13 de noviembre de 2016

Procedimiento de correlaciones heterogéneas en SPSS 24

En ciertas situaciones la naturaleza de las variables no permite el uso de la correlación de Pearson, o sus algoritmos asociados. Para este tipo de situaciones el SPSS 24 (IBM Corp., 2016) contempla módulos integrados en R como el que vamos a describir en esta entrada brevemente.

Este procedimiento extendido de las correlaciones heterogéneas requiere, además del modulo IBM SPSS Statistics, los complementos de integración para R como para Python.

miércoles, 6 de julio de 2016

Procedimiento DETECTANOMALY en SPSS 24

El proceso de análisis de datos que describimos "Detectanomaly", se puede encontrar en distintas versiones del SPSS, en nuestro caso corresponde con la versión 24. Este procedimiento permite identificar los valores "anómalos", buscando para ellos los casos atípicos basados sobre las desviaciones de casos similares y de las razones para tales desviaciones. 

Este recurso, se puede verificar tanto sobre variables originales o mediante la creación de nuevas variables (transformación de las existentes en la base de datos). Y una vez que hayan identificado los casos inusuales, se puede examinar más a fondo estos casos y determinar si se deben incluir en nuestros análisis. Para este caso hemos usado la base de datos correspondiente a las elecciones al parlamento español, celebradas en junio de 2016, con objeto de averiguar si existen patrones anómalos interesantes en el comportamiento del voto (Parsons, 1998; Tung, 2016).

viernes, 11 de marzo de 2016

Grado de significación (p). Revisión ASA

Desde hace tiempo, se ha venido señalando que los valores de p son, en el mejor de los casos, un estadístico con bajo valor informativo sobre la investigación realizada, y muchas veces engañoso. Y sobre todo a raíz de artículo de E.Vul (2009), este concepto del grado de significación (pruebas p), ha sido objeto de críticas generalizadas. Se han intentado corregir sus resultados más contradictorios, como podemos observar en distintas librerías implementadas por ejemplo en R (Herrero et al., 2011), e incluso eliminarlo (Newcombe, 2013), pero la gran aceptación que tiene en el campo de las publicaciones científicas ha resistido hasta ahora todos los intentos.

sábado, 9 de enero de 2016

La replicación de los estudios en Psicología:Uso del programa R

En el proceso de obtención del conocimiento científico, son importantes los mecanismos que replican los experimentos en el campo de la Psicología. El fundamento es que otros investigadores deben de poder ser capaces de repetir los resultados de los estudios publicados. 

Dentro de esta filosofía encontramos el proyecto de B.Nosek (Open Science Collaboration, 2015), destinado a facilitar la replicación de los resultados de 100 estudios publicados en revistas de Psicología, repitiéndose los estudios tal como se describen en los documentos seleccionados, y analizando los datos recogidos. Con el fin de maximizar la reproductibilidad y precisión, los análisis de todos los estudios duplicados fueron repetidos por otros analistas independientes del primer equipo de ejecución, usando para ello el lenguaje de programación R, con un formato estandarizado. 

lunes, 4 de enero de 2016

Control del sistema en Windows 10: Opciones avanzadas

Cuando se desea controlar un ordenador de forma precisa, bajo el sistema operativo Windows 10, accediendo a los ajustes de personalización, ocultos normalmente al usuario normal, una forma rápida y sencilla es tecleando el siguiente procedimiento:

*Se crea una nueva carpeta y como nombre tecleamos el código: 
ID.{ED7BA470-8E54-465E-825C-99712043E01C} 

El resultado es que automáticamente accedemos a una carpeta que modifica el icono por defecto, y añade la etiqueta que hemos prefijado de nuestra identidad (ID), que frecuentemente suele aparecer en Internet como "Modo dios" o "GodMode", pero admite cualquier etiqueta que prefiera el usuario. 
Al final con un sola pulsación de ratón, obtenemos un acceso sencillo a toda una serie de opciones avanzadas de configuración, agrupadas en una pantalla.