1.- Indica que tipo de análisis o que pruebas estadísticas utilizarías y si fuera necesario algún tipo de prueba adicional para llevar a cabo el análisis. Formula la hipótesis a contrastar de acuerdo con las hipótesis seleccionadas
a.- Se efectúa un estudio de seguimiento a 1018 sujetos atendidos en una clínica de obesidad. Se mide el Indice de Masa Corporal(IMC) y el perfil lipídico. Al cabo de 12 meses se evalúa de nuevo el IMC y el colesterol estando interesados en cuantficar la disminución de ambos parámetros
Disponemos de dos variables cuantitativas medidas en dos momentos distintos. Se quiere analizar si los valores pre y post sufren algún cambio, para ello debemos: en primer lugar evaluar la normalidad de las variables. En caso de que se ajusten a una distribución normal, miramos la homegeneidad de las variables y realizamos un test t de Student para muestras apareadas. En el caso de que no sigan una distribución normal, realizaremos el test no paramétrico de wilcoxon para muestras apareadas.
b.- Se analizan un grupo de variables inmunologica(leucocitos totales, linfocitos B, natural Killer, etc) en una muestra de 102 hombres y 147 mujeres mayores de 65 años. Se está interesado en ver la existencia de diferencias por sexo.
Disponemos de distintas variables cuantitativas (leucocitos,linfocitos, etc. ) y una variable cualitativa, sexo. Queremos ver si existen diferencias de las variables cuantitativas según el sexo, para ello debemos: en primer lugar evaluar la normalidad de las variables. En caso de que se ajusten a una distribución normal, miramos la homegeneidad de las variables y realizamos un test t de Student. En el caso de que no sigan una distribución normal, realizaremos el test no paramétrico U de Mann-Whitnney.
c.- La supervivencia de los pacientes con cardiopatía isquémica se asocia al valor de la fracción de eyección(FE). Se desea comparar los resultados obtenidos en 125 pacientes mediante la fracción de eyección isotópica en la asignación de sujetos a grupos de alto y bajo riesgo con la asignación obtenida a partir de la FE angiográfica. Plantea el análisis.
Disponemos de dos variables cualitativas, queremos ver si existe relación entre el riesgo y la clasificación según FE angiográfica, para ello debemos: en primer lugar realizamos una tabla de frecuencias, en el caso de obtener en alguna celda un valor inferior a 0.05 realizamos un test exacto de Fisher, en caso contrario un test Chi Cuadrado.
Este ejercicio consta de diversas partes en un intento de simular lo que se lleva a cabo en un estudio real. Se ha simplicado para hacerlo más practicable por lo que no hace falta que os agobiéis si algo no os cuadre del todo. De lo que se trata es que veamos como aplicar las distintas técnicas que hemos estudiado, de forma integral, en un problema de análisis de datos.
La demora entre el comienzo de los síntomas y el ingreso hospitalario es un factor que determina la mortalidad del infarto agudo de miocardio (IAM). Se estudian 426 sujetos que acuden al servicio de urgencias de 5 hospitales por dolor torácico , recogiendo el tiempo entre los primeros síntomas y la llegada al hospital y una serie de variables sociodemográficas. Se está interesado en estimar el retraso prehospitalario y determinar las variables asociadas.
Los datos los podéis encontrar en los ficheros de Stata demora.dta, de Excel demora.xls y de texto plano separado por comas demora.csv
dat <- read.csv("demora.csv")
dat$noche <- factor(dat$noche, 0:1, c("Dia", "Noche"))
dat$noche <- relevel(dat$noche,ref = "Noche")
Se está interesado en conocer la relación entre la demora y la aparición nocturna del síntoma.
Realizamos gráficos y test de normalidad Shapiro Wilks.
qqnorm(dat$demora)
qqline(dat$demora)
shapiro.test(dat$demora)
##
## Shapiro-Wilk normality test
##
## data: dat$demora
## W = 0.55371, p-value < 2.2e-16
Con un p-valor inferior a 0.05 concluimos que los datos no se ajustan a una distribución normal. Indica el procedimiento de análisis. En primer lugar, debemos realizar un análisis gráfico.
Dado que los datos no se ajustan a una distribución normal, las pruebas que usemos deberán ser no paramétricas.
t.test(dat$demora ~dat$noche)
##
## Welch Two Sample t-test
##
## data: dat$demora by dat$noche
## t = 4.7841, df = 104.89, p-value = 5.641e-06
## alternative hypothesis: true difference in means between group Noche and group Dia is not equal to 0
## 95 percent confidence interval:
## 313.873 758.213
## sample estimates:
## mean in group Noche mean in group Dia
## 780.3061 244.2632
wilcox.test(dat$demora ~dat$noche)
##
## Wilcoxon rank sum test with continuity correction
##
## data: dat$demora by dat$noche
## W = 18301, p-value = 4.49e-06
## alternative hypothesis: true location shift is not equal to 0
De forma teórica (y basandonos en no normalidad) escogeriamos el test U de Mann-Withney. Usemos el test paramétrico o no paramétrico llegamos a la misma conclusión.
Se está interesado en conocer la relación entre la demora y la intensidad del dolor.
Dado que los datos no se ajustan a una distribución normal, las pruebas que usemos deberán ser no paramétricas.
dat$dolor <- as.factor(dat$dolor)
anova_dd<- aov(dat$demora~dat$dolor)
TukeyHSD(anova_dd)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = dat$demora ~ dat$dolor)
##
## $`dat$dolor`
## diff lwr upr p adj
## 1-0 138.9528 -29.37121 307.2769 0.1283225
## 2-0 488.2228 207.21414 769.2314 0.0001569
## 2-1 349.2699 64.49825 634.0416 0.0114741
plot(TukeyHSD(anova_dd))
kruskal.test(dat$demora~dat$dolor)
##
## Kruskal-Wallis rank sum test
##
## data: dat$demora by dat$dolor
## Kruskal-Wallis chi-squared = 20.238, df = 2, p-value = 4.031e-05
Se esta interesado en estudiar la relación entre el nivel de dolor y la aparición nocturna de los sintomas. Indica el procedimiento de análisis.
Realizamos una tabla de frecuencias para ver como se distribuyen los datos y si en alguna de las celdas tenemos un valor inferior a 5, si es así realizamos un test exacto de Fisher, en caso contrario un test chi cuadrado para evaluar independencia entre variables. Ejecuta dicho análisis e interpreta los resultados.
gmodels::CrossTable(dat$dolor, dat$noche, prop.c = F,prop.r = F,chisq = F,prop.chisq = F)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 426
##
##
## | dat$noche
## dat$dolor | Noche | Dia | Row Total |
## -------------|-----------|-----------|-----------|
## 0 | 68 | 137 | 205 |
## | 0.160 | 0.322 | |
## -------------|-----------|-----------|-----------|
## 1 | 59 | 124 | 183 |
## | 0.138 | 0.291 | |
## -------------|-----------|-----------|-----------|
## 2 | 14 | 24 | 38 |
## | 0.033 | 0.056 | |
## -------------|-----------|-----------|-----------|
## Column Total | 141 | 285 | 426 |
## -------------|-----------|-----------|-----------|
##
##
Como ningún valor de la tabla es inferior a 5 realizamos un test chi-cuadrado.
chisq.test(table(dat$dolor, dat$noche))
##
## Pearson's Chi-squared test
##
## data: table(dat$dolor, dat$noche)
## X-squared = 0.30183, df = 2, p-value = 0.8599
Con los resultados del test, p.valor superior a 0.05, no podemos rechazar la hipotesis nu- la,consideramos que noche y dolor son independientes.
# fisher.test(table(dat$dolor, dat$noche))