lunes, 22 de diciembre de 2014

Parsimonia científica

El principio de cautela, a la hora de interpretar los resultados, no siempre es contemplado en el trabajo científico, sufriendo muchas veces las publicaciones de claras exageraciones o distorsiones. Este hecho ha llevado en las últimas décadas, con la proliferación de las publicaciones, a un deterioro del conocimiento científico.
En los últimos tiempos una serie de investigaciones, intentan racionalizar el proceso de difusión científica, y entre ellas cabe citar el trabajo de Sumner et al. (2014). 
Muy recomendable en la biblioteca del moderno investigador.

Referencias.
Sumner,P.;Vivian-Griffiths;S.; Boivin,J.; Williams,A.;Venetis,C.A.; Davies,A.; Ogden,J.; Whelan,J.; Hughes,B.; Dalton,B.; Boy,F. and Chambers,C.D. (2014). The association between exaggeration in health related science news and academic press releases: retrospective observational study. BMJ,349:g7015. doi: http://dx.doi.org/10.1136/bmj.g7015 (Acceso 22 Diciembre de 2014).

martes, 14 de octubre de 2014

Análisis de Datos Simbólicos: librería ISDA.R

Si se requiere usar una aproximación numérica a un problema matemático, y se exige precisión, los datos se suele asumir, que deben representarse por intervalos. Ya que cualquier dato incorpora un error en la entrada:
 Dato = modelo + error 
En el análisis clásico de datos, una variable en cada individuo, observación o unidad solo puede tomar un valor. Mientras que en el ADS [Análisis de Datos Simbólicos (Bock & Diday, 2000)] una variable puede ser un intervalo de números reales (valorada por intervalos). Son un caso particular de los datos simbólicos...
 X = [Xi,Xs] ={Xi <= X <= Xs}
Una librería en R, muy aconsejable para introducirse en este nuevo tipo de análisis, es ISDA.R

Referencias 
Bock,H.-H. & Diday,E. (eds.) (2000). Analysis of Symbolic Data. Berlin,Germany: Springer-Berlag.

martes, 1 de julio de 2014

Inteligencia Artificial y Entropía

La entropía puede ser definida como la cantidad de ‘microestados’ posibles para un ‘macroestado’ de un sistema. A la hora de cuantificar el proceso podemos calcularlo de muchas formas. Por ejemplo:
* H = k log(N), donde N es el número de microestados (equiprobables).
* H = -1*Suma (Pi log(Pi)), siendo Pi la probabilidad del microestado i-ésimo.
* H = Suma (mi*vi), donde mi y vi son la masa y velocidad de cada partícula.

Todas son equivalentes entre sí y se elige en cada caso dependiendo de los datos que disponemos en cada caso.

El concepto de "entropía a futuro" (Wissner-Gross & Freer, 2013) es cuando hacemos corresponder a la entropía en el espacio de todos los posibles futuros alcanzables (microestados), desde un estado inicial (macroestado), y asumiendo un segmento temporal (t) hacia ese futuro. El objetivo, de la programación por el método Monte Carlo de este tipo de metaheurísticos, es dar la apariencia de inteligencia en los sistemas.

Una conferencia más desarrollada, de lo que estamos describiendo, lo podemos visualizar en el siguiente vídeo en Youtube:
https://www.youtube.com/watch?v=aY7KWrWPB18


Referencias.
Wissner-Gross,A.D. & Freer,C.E. (2013).Causal Entropic Forces, Physical Review Letters, 110: 168702, 19 Apr. (formato pdf)

miércoles, 25 de junio de 2014

Simulación en R: Matrices de correlaciones

Brevemente presentamos un procedimiento de simulación en R, que tiene como objetivo la generación de números pseudoaleatorios relacionados de acuerdo a un patrón fijado de antemano por el investigador. 
Posteriormente se presenta de forma gráfica la estructura alcanzada.
----
Procedimiento general de simulación:
library(psych)
library(MASS)
PatCorr <- matrix(c(1, 0.8, -0.4, 0.2,
                   0.8, 1,   0.15, 0.3,
                  -0.4, 0.15,   1, 0.1,  
                   0.2, 0.3, 0.1,   1),nrow=4)

M <- mvrnorm(5000, mu=rep(0,4), Sigma = PatCorr,empirical = TRUE)
---
Procedimiento de resultados:
head(M)  
pairs.panels(M)
---
Obteniéndose en este caso simulado...
            [,1]        [,2]       [,3]        [,4]
[1,]  0.04508237  0.13164350 -0.4929757  0.37310566
[2,]  1.07220292  0.67510691 -0.9520928 -1.01714666
[3,]  0.41117075  0.38988280 -0.6533527 -0.21138061
[4,] -0.05390150 -0.04880109  0.1695599 -0.05594154
[5,] -0.54652194  0.32840506  0.7111292 -0.18216643
[6,] -1.23544943 -1.51118618 -1.0223330  0.92505704
....

En caso de ajustar el valor de p para múltiples contrastes usaremos el procedimiento:
datos<-as.data.frame(M)

corr.test(datos, y = NULL, 
use = "pairwise",method="pearson",adjust="holm",alpha=.05)

lunes, 5 de mayo de 2014

Intermail (BITNET-EARN)

El desarrollo militar de la red INTERNET nos ha dejado documentos interesantes, a los cuales podemos acceder una vez desclasificados. Un ejemplo de lo comentado es este informe (formato pdf), sobre la estructura de lo que en su momento se conocía como Intermail:


jueves, 10 de abril de 2014

Fusion Tables en Google

Fusion Tables, es un servicio en la nube de Google, destinado a la gestión de datos. Estos, se almacenan en varias tablas que los usuarios de Internet pueden tanto ver y/o descargar (Halevy y Shapley,2009). Es una herramienta importante para la investigación y la representación de datos (Gonzalez et at., 2010; Gupta et al., 2013), sobre todo en aquellas disciplinas que usan técnicas SIG.


El servicio web proporciona un medio para visualizar los datos  gráficos clásicos, como son los circulares, los diagramas de barras o dispersión y líneas de tiempo; así como mapas geográficos basados en Google Maps. Estos, además de usar coordenadas (latitud,longitud), también pueden utilizar directamente la información de las direcciones postales (calle, número, localidad).  
Por otra parte, además de hacer mapas con posiciones de cada georeferencia, también puede realizarse "mapas de calor" (densidad de posiciones). 

Finalmente, señalaremos que los datos pueden ser exportados a otros formatos de archivo, posibilitando de esta forma su tratamiento por otro tipo de herramientas en Proceso de Datos.



Referencias
*Halevy,A. and Shapley,R.(2009). Google Fusion Tables. Google.
*Gonzalez,H.;  Halevy,A.;  Jensen,C.S.;  Langen,A.; Madhavan,J.; Shapley,R. y Shen,W. (2010). Google Fusion Tables: Data Management, Integration and Collaboration in the Cloud. SoCC'10. ACM.
*Gupta,N.; Halevy,A.Y.; Harb,B.; Lam,H.; Lee,H.; Madhavan,J.; Wu,F. y Yu,C. (2013). Recent progress towards an ecosystem of structured data on the Web. IEEE 29th International Conference on Data Engineering (ICDE), Actas pp. 5-8.

miércoles, 12 de febrero de 2014

Otra investigación sobre p

La controversia sobre el uso del grado de significación no cede, y no es raro encontrar  trabajos que refutan su uso en el campo científico. En esta línea, el último artículo que encontramos es el correspondiente a Regina Nuzzo, titulado "Scientific method: Statistical errors. P values, the 'gold standard' of statistical validity, are not as reliable as many scientists assume."
(Nature 506, 150–152 13 February 2014) doi:10.1038/506150a
URL: http://www.nature.com/news/scientific-method-statistical-errors-1.14700?WT.mc_id=FBK_NPG_1402_NatureNews