Ciencia que describe y realiza inferencias sobre el mundo desde una muestra de datos
Ciencia que proporciona metodologías para recolectar organizar, resumir, presentar y analizar datos y hacer inferencias a partir de ellos.
Ramas de la estadística
Estadística descriptiva: Organiza y describe las características de un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas.
Los parámetros estadísticos usados son las medidas de tendencia central y de variabilidad, y los gráficos de barras, de tortas y el histograma.
Estadística inferencial:
Obtiene conclusiones de la población partiendo de una muestra, por medio de diferentes métodos, como las puebas de hipótesis, pronósticos de futuras observaciones, correlaciones y modelos de asociación entre variables.
Población: Conjunto de elementos sobre los que queremos hacer afirmaciones
Muestra: Conjunto de personas o cosas que se consideran representativos del grupo al que pertenecen, con la finalidad de estudiar o determinar las características del grupo.
Parámetro: Valor descriptivo de la población
Estadístico: Valor descriptivo para una muestra
Base de datos: Colección de información organizada, de tal modo que sea fácilmente accesible, gestionada y actualizada
Almacenamiento de bases de datos
Las bases de datos Surgen de la necesidad de almacenar la información a través de la historia
-La cultura inca que escribian en un sistema de cuerdas anudadas.
 
Puntos atípicos
Edad media: Códice Formato de libro, Se compone de pergaminos plegados, cosidos y encuadernados.
El papel reemplazó progresivamente al pergamino, una herramienta más barata que permitió una difusión mas amplia, en la época moderna el códice fue hecho en papel
Films
Almacenamiento digital: bytes, tarjetas perforadas, CDs y memorias Actualmente es posible almacenar digitalmente en un disco compacto por ejemplo los datos que cabrian en miles de carpetas archivadas
Nube: Se puede guardar y compartir un volumen de archivos ilimitados, asi como acceder a ellos desde cualquier dispositivo con acceso a internet
A lo largo de la historia se ha buscado el sistema más pequeño físicamente con mayor capacidad de almacenamiento
 
Discos duros en la nube
Punto atípico o outlier Son observaciones extremas, alejadas hacia valores muy grandes o pequeños comparadas con el resto de valores. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de las muestras establecidas. Se pueden detectar con un análisis descriptivo, mediante diagramas de dispersión, boxplot o histograma.
 
Puntos atípicos
Característica o condición que puede tomar diferentes valores en una muestra. Ejm:
Tipos de variables
Actividad
Clasifique las siguiente variables según sea el caso
| variable | tipo de variable | clasificación | niveles | 
|---|---|---|---|
| Color de ojos | Cualitativa | Nominal | verde, azul,cafe | 
| Edad | |||
| velocidad | |||
| Estado civil | |||
| Color de la piel | |||
| Color del cabello | |||
| Marcas de carro | |||
| Número de hijos de una familia | |||
| Número de mensajes enviados por whatsap un dia | |||
| Número de estudiantes conectados a clase | |||
| Días de la semana | 
Son 3 valores que resumen y representan la información contenida en un conjunto de datos. Las tres medidas son la media, la mediana y la moda.

Es el valor que más se repite, si no hay datos que se repiten se dice que no hay moda. Si dos datos se repiten con la misma frecuencia se dice que los datos son bimodales.
Valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores, la fórmula con la que se estima es:
Media Muestral
\[\bar x=\frac{\sum_{i=1}^{n}x_i}{n}\]
Media poblacional
\[\hat \mu =\frac{\sum_{i=1}^{n}x_i}{N}\]
Donde \(x_i\) corresponde a cada observación
N es el tamaño poblacional
n es el tamaño muestral
Según el teorema de límite central cuando n>30 se considera poblacional
Es un valor que se encuentra en la mitad de los datos, cuando estos están ordenados
\[M_e=\frac{X_{\frac{n}{2}}+X_{\frac{n}{2}+1}}{2}\]
\[M_e=X_\frac{_{n+1}}{2}\]
Ejemplo
Se tienen las edades de una muestra de estudiantes de estadística básica compuesta por hombres y mujeres
| Hombre | 20 | 22 | 26 | 20 | 26 | 19 | 20 | 21 | 26 | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Mujer | 20 | 20 | 31 | 26 | 23 | 42 | 23 | 20 | 24 | 25 | 24 | 27 | 22 | 
Estime la media por género, la moda y la mediana.
Video medidas de tendencia central
La media es un buen indicador de tendencia central, pero no da una evidencia real acerca de los datos.
Las medidas de variabilidad determinan el grado de acercamiento o distanciamiento de los valores de una distribución frente a su promedio de localización.
Entre más grande sea el grado de variación, menor uniformidad tendrán los datos (sinónimo de heterogeneidad) y por lo tanto menor confiabilidad del promedio de tendencia central o localización por haber sido obtenido de datos dispersos (Mendoza et al, 2002).
Si este valor es pequeño (respecto a la unidad de medida) entonces hay una gran uniformidad entre los datos(Mendoza et al, 2002).
Cuando es cero quiere decir que todos los datos son iguales.
Es la diferencia entre el valor máximo y el valor mínimo
Rango= valor max - valor mínimo
Esta medida ignora la manera en que los datos están distribuidos

indica qué tan dispersos están los datos con respecto a la media

Caso poblacional
Varianza
\[\sigma^2=\frac{\sum_{i=1}^n(x_i-\mu)^2}{N}\] Desviación estándar
\[\sigma=\sqrt{\frac{\sum_{i=1}^n(x_i-\mu)^2}{N}}\] Caso muestral
Varianza \[S^2=\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1}\] Desviación estándar \[S=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1}}\] Pasos para estimar la desviación estándar
Encuentre la media
Encuentre la desviación de cada uno de los valores con respecto a la media.
Eleve cada valor obtenido al cuadrado
Halle la suma de cada uno de los cuadrados
Divida la suma de los cuadrados por el número de ítems
Encuentre la raíz cuadrada de la varianza
Medidas de variabilidad
Diferencia en medidas entre la población y la muestra
| Medida | Población | Muestra | 
|---|---|---|
| Tamaño | N | n | 
| Media | \(\mu\) | \(\bar x\) | 
| Varianza | \(\sigma^2\) | \(S^2\) | 
| Desviación estándar | \(\sigma\) | S | 
Comparemos

Cómo estimar la media, la desviación estandar en la calculadora
Es una medida de la dispersión relativa de un conjunto de datos, la cual relaciona la desviación típica de una muestra y su media.
Se expresa en términos porcentuales, la fórmula con la que se estima es: \[CV=\frac{S}{\bar x}*100\]
No depende de las unidades de medición, por lo que sirve para comparar la variabilidad de dos conjuntos de datos, siempre que sus medias sean positivas.
Ejemplo
Se tienen las edades de una muestra de estudiantes de estadística básica compuesta por hombres y mujeres
| Hombre | 20 | 22 | 26 | 20 | 26 | 19 | 20 | 21 | 26 | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Mujer | 20 | 20 | 31 | 26 | 23 | 42 | 23 | 20 | 24 | 25 | 24 | 27 | 22 | 
Estime las medidas de variación y el coeficiente de variación.
Es apropiada cuando en un conjunto de datos, cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación (peso) para luego sumarlos
\[\bar X=\sum_{i=1}^{n}x_i*w_i\]
Donde \(X_i\) es cada una de las observaciones, \(W_i\) es la ponderación de cada uno de ellos.
\[\sum_{i=1}^n w_i=1\]
Ejemplo
Se tienen las siguientes notas de un estudiante
| Peso(%) | 25 | 15 | 35 | 10 | 15 | total | 
|---|---|---|---|---|---|---|
| Nota | 4 | 3 | 2 | 1 | 4 | |
| Ponderación | 1 | 
¿Cuál es la nota total obtenida en la materia?
Si faltara la última nota,¿Cuanto tendría que sacar para ganar la asignatura?
Son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles.
Son tres valores que distribuyen la serie de datos ordenada, en cuatro tramos iguales, en los que cada uno de ellos se concentra el 25% de los resultados.

La fórmula con la que se estima está dada por:
\[Q_k=X_{(k \frac{n+1}{4})}\] con k=1,2,3
Rango intercuartilico IQR Se define como la diferencia entre el tercer cuartil y el primer cuartil, es decir:
\[IRQ=Q_3-Q_1\]
The Interquartile Range (or IQR)
Son 9 valores que distribuyen la serie de datos ordenada, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
La fórmula con la que se estima está dada por:
\[D_k=X_{(k \frac{n+1}{10})}\] con k=1,2,3…9
Divide un conjunto de datos ordenados en 100 partes iguales, es decir hay 99 percentiles.
\[P_k=X_{(k \frac{n+1}{100})}\] con k=1,2,3…99
El boxplot es una herramienta de análisis que resalta las principales características de un conjunto de datos, los números usados para construirlo son:

Cada sección contiene el 25% de los datos. La caja muestra la mitad de los datos, es decir el 50% de ellos, contiene la información entre el 3 cuartil y el primer cuartil.
Sirve para realizar comparaciones de una variable cuantitativa, en relación a los niveles de una variable cualitativa.
Es posible observar la dispersión de cada caja, mientras mas larga, más dispersión.
Permite observar puntos atípicos,los cuales no están contenidos dentro de la caja, ni en sus bigotes.
Ejemplo en R
La siguiente información fue reportada en la revista Motor Trend de EE.UU, en el año 1974. contiene el consumo de combustible y 10 aspectos del diseño y rendimiento para 32 automóviles (modelos 1973–74).
A continuación se ilustra un resumen del número de cilindros que cada uno de los automoviles mostró
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000## [1] 20.09062## [1] 6.026948## # A tibble: 3 x 2
##     cyl  mean
##   <dbl> <dbl>
## 1     4  26.7
## 2     6  19.7
## 3     8  15.1
Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad Nacional de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2001065/. Licencia: Creative Commons BY-NC-ND.
R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.