<div id="top">
<!-- <div style="background-image: url(https://www.emtmadrid.es/getattachment/da3be644-cb9d-44db-8011-e3f40f1c5c34); opacity: 0.2"/> -->
<img src="https://www.gmv.com/sites/default/files/content/image/2021/11/03/115/gmv_rgbredblack.png" alt="GMV Logo" style="width: 200px">
<img src="https://www.upm.es/sfs/Rectorado/Gabinete%20del%20Rector/Logos/UPM/CEI/LOGOTIPO%20leyenda%20color%20JPG%20p.png" alt="UPM Logo" style="float: right; width: 200px">
<h1><b>QA: Informo dataset üö¶</b></h1>
<h5 style="text-align: right">INESDATA-MOV</h5>
</div>

# An√°lisis de calidad
Este cuaderno analiza la calidad del dataset proveniente de la fuente de datos de Informaci√≥n de Movilidad de Madrid ([Informo](https://informo.madrid.es/informo/tmadrid)). La calidad del mismo se validar√° teniendo en cuenta los siguientes aspectos:
* An√°lisis de las variables
* Conversiones de tipos de datos
* Checks de calidad del dato
* An√°lisis Exploratorio de los datos (EDA)

La **calidad del dato** se refiere a la medida en que los datos son adecuados para su uso, por lo que es esencial para garantizar la confiabilidad y utilidad de los datos en diversas aplicaciones y contextos. As√≠, en este notebook se evaluar√°n tambi√©n las cinco dimensiones de la calidad del dato:
1. **Unicidad**: Ausencia de duplicados o registros repetidos en un conjunto de datos. Los datos son √∫nicos cuando cada registro o entidad en el conjunto de datos es √∫nico y no hay duplicados presentes.
2. **Exactitud**: Los datos exactos son libres de errores y representan con precisi√≥n la realidad que est√°n destinados a describir. Esto implica que los datos deben ser correctos y confiables para su uso en an√°lisis y toma de decisiones.
3. **Completitud**: Los datos completos contienen toda la informaci√≥n necesaria para el an√°lisis y no tienen valores faltantes o nulos que puedan afectar la interpretaci√≥n o validez de los resultados.
4. **Consistencia**: Los datos consistentes mantienen el mismo formato, estructura y significado en todas las instancias, lo que facilita su comparaci√≥n y an√°lisis sin ambig√ºedad.
5. **Validez**: Medida en que los datos son precisos y representan con exactitud la realidad que est√°n destinados a describir. 

<div class="admonition info">
<p class="admonition-title">Nota</p>
<p>
Este dataset ha sido creado ejecutando el comando <code>create</code> del paquete de Python <a href="https://github.com/oeg-upm/inesdata-mov-data-generation"><code>inesdata_mov_datasets</code></a>.<br>
Para poder ejecutar este comando es necesario haber ejecutado antes el comando <code>extract</code>, que realiza la extracci√≥n de datos de la API de Informo y los almacena en Minio. El comando <code>create</code> se encargar√≠a de descargar dichos datos y unirlos todos en un √∫nico dataset.
</p>
</div>

In [1]:
%matplotlib inline

In [2]:
import os
import re
from datetime import datetime

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from ydata_profiling import ProfileReport

sns.set_palette("deep")
import warnings

warnings.filterwarnings("ignore")

In [3]:
ROOT_PATH = os.path.dirname(os.path.dirname(os.path.abspath(os.getcwd())))
DATA_PATH = os.path.join(ROOT_PATH, "data", "processed")
INFORMO_DATA_PATH = os.path.join(DATA_PATH, "informo")

**Cada fila de este dataset representa el estado del tr√°fico de Madrid, en una determinada zona (medida por un dispositivo concreto), para una fecha y hora concretos.**

<div class="admonition warning">
<p class="admonition-title">-</p>
<p>
Vamos a analizar la calidad del dataset generado solamente para el d√≠a 13 de marzo, en el futuro dispondremos de m√°s d√≠as.
</p>
</div>

In [4]:
df = pd.read_csv(
    os.path.join(INFORMO_DATA_PATH, "2024", "03", "13", "informo_20240313.csv"),
    parse_dates=["date", "datetime"],
)
df

Unnamed: 0,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,st_x,st_y,velocidad,datetime,date
0,6711,,,3840,30,105,1.0,,N,,442306196584557,448161571687789,37.0,2024-03-13 07:55:08,2024-03-13
1,10112,Arturo Soria - Pablo Vidal - Vicente Muzas,4604002.0,740,4,29,1.0,2438.0,N,3203.0,44397201821329,447898647739102,,2024-03-13 07:55:08,2024-03-13
2,6038,Torrelaguna - Arturo Baldasano-Jos√© Silva,4627002.0,380,2,28,1.0,1390.0,N,3246.0,443981955537857,447845145254494,,2024-03-13 07:55:08,2024-03-13
3,6039,Torrelaguna - Av. Ram√≥n y Cajal-Acceso M30,4628002.0,840,6,24,0.0,3000.0,N,3215.0,443984139107713,447827730226478,,2024-03-13 07:55:08,2024-03-13
4,6040,Torrelaguna - Sorzano-Acceso M30,4628001.0,520,5,31,1.0,2000.0,N,3215.0,444079304201131,447802660397703,,2024-03-13 07:55:08,2024-03-13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853109,10031,Narc√≠s Monturiol N-S - Sangenjo-Av. Ilustraci√≥n,4304002.0,20,0,2,0.0,775.0,N,314.0,440656756311705,448179323972478,,2024-03-13 22:50:11,2024-03-13
853110,10463,Av. Ilustraci√≥n O-E (Azobispo Morcillo - Nudo ...,,700,1,14,0.0,4420.0,N,314.0,440789229442877,44817341912437,,2024-03-13 22:50:11,2024-03-13
853111,3421,Bravo Murillo E-O - Pl.Castilla-Conde Serrallo,6201004.0,480,1,16,0.0,2900.0,N,304.0,441453970035479,447967562306307,,2024-03-13 22:50:11,2024-03-13
853112,3423,Lateral P¬∫ Castellana N-S - Pl.Castilla-Rosari...,6003012.0,280,2,8,0.0,3200.0,N,301.0,441493761559993,447935276508833,,2024-03-13 22:50:11,2024-03-13


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853114 entries, 0 to 853113
Data columns (total 15 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   idelem          853114 non-null  int64         
 1   descripcion     801383 non-null  object        
 2   accesoAsociado  714568 non-null  float64       
 3   intensidad      853114 non-null  int64         
 4   ocupacion       853114 non-null  int64         
 5   carga           853114 non-null  int64         
 6   nivelServicio   852760 non-null  float64       
 7   intensidadSat   801383 non-null  float64       
 8   error           851431 non-null  object        
 9   subarea         801383 non-null  float64       
 10  st_x            853114 non-null  object        
 11  st_y            853114 non-null  object        
 12  velocidad       51731 non-null   float64       
 13  datetime        853114 non-null  datetime64[ns]
 14  date            853114 non-null  dat

In [6]:
df.columns

Index(['idelem', 'descripcion', 'accesoAsociado', 'intensidad', 'ocupacion',
       'carga', 'nivelServicio', 'intensidadSat', 'error', 'subarea', 'st_x',
       'st_y', 'velocidad', 'datetime', 'date'],
      dtype='object')

De acuerdo con la documentaci√≥n obtenemos la siguiente informaci√≥n para la variable `nivelServicio`:

- Fluido = 0
- Lento = 1
- Retenciones = 2
- Congesti√≥n = 3
- Sin datos = -1




## Conversiones de tipos

In [7]:
num_cols = list(df.select_dtypes(include=np.number).columns)
cat_cols = list(df.select_dtypes(include=["object"]).columns)
date_cols = list(df.select_dtypes(exclude=[np.number, "object"]).columns)

print(f"Numeric cols: {num_cols}")
print(f"Categoric cols: {cat_cols}")
print(f"Date cols: {date_cols}")

Numeric cols: ['idelem', 'accesoAsociado', 'intensidad', 'ocupacion', 'carga', 'nivelServicio', 'intensidadSat', 'subarea', 'velocidad']
Categoric cols: ['descripcion', 'error', 'st_x', 'st_y']
Date cols: ['datetime', 'date']


In [8]:
# Convert nivelServicio, subarea and idelem to categoric
df["nivelServicio"] = df["nivelServicio"].astype("str")
df["idelem"] = df["idelem"].astype("str")
df["subarea"] = df["subarea"].astype("str")

## QA checks ‚úÖ

### Unicidad
Como hemos comentado anteriormente, **cada fila de este dataset representa el estado del tr√°fico de Madrid, en una determinada zona (medida por un dispositivo concreto), para una fecha y hora concretos.** Por tanto, las claves primarias de este dataset se conformar√°n teniendo en cuenta dichos atributos:

In [9]:
df['idelem'].nunique()

4766

In [10]:
df['datetime'].nunique()

179

In [11]:

#  Create dataset primary key
df.insert(0, "PK", "")
df["PK"] = (
    df["datetime"].astype(str)
    + "_I"
    + df["idelem"].astype(str)
    + "_S"
    + df['subarea'].astype(str)
)
df.head()

Unnamed: 0,PK,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,st_x,st_y,velocidad,datetime,date
0,2024-03-13 07:55:08_I6711_Snan,6711,,,3840,30,105,1.0,,N,,442306196584557,448161571687789,37.0,2024-03-13 07:55:08,2024-03-13
1,2024-03-13 07:55:08_I10112_S3203.0,10112,Arturo Soria - Pablo Vidal - Vicente Muzas,4604002.0,740,4,29,1.0,2438.0,N,3203.0,44397201821329,447898647739102,,2024-03-13 07:55:08,2024-03-13
2,2024-03-13 07:55:08_I6038_S3246.0,6038,Torrelaguna - Arturo Baldasano-Jos√© Silva,4627002.0,380,2,28,1.0,1390.0,N,3246.0,443981955537857,447845145254494,,2024-03-13 07:55:08,2024-03-13
3,2024-03-13 07:55:08_I6039_S3215.0,6039,Torrelaguna - Av. Ram√≥n y Cajal-Acceso M30,4628002.0,840,6,24,0.0,3000.0,N,3215.0,443984139107713,447827730226478,,2024-03-13 07:55:08,2024-03-13
4,2024-03-13 07:55:08_I6040_S3215.0,6040,Torrelaguna - Sorzano-Acceso M30,4628001.0,520,5,31,1.0,2000.0,N,3215.0,444079304201131,447802660397703,,2024-03-13 07:55:08,2024-03-13


In [12]:
print("PK/Unique identifier check")
if df["PK"].nunique() == df.shape[0]:
    print("‚úÖ PK is unique")
    # As we passed the PK quality check, we can set this PK as dataframe index
    df.set_index("PK", inplace=True)
else:
    print("‚ùå PK is not unique")
    display(df[df["PK"].duplicated()][["idelem", "datetime"]])

PK/Unique identifier check


‚úÖ PK is unique


Por tanto para esta `PK` queda perfectamente idetificado el tr√°fico en un identificador concreto a una fecha concreta.

### Exactitud y Completitud
En primer lugar comprobaremos que para cada hora tenemos el mismo n√∫mero de datos:

A continuaci√≥n comprobaremos los valores nulos para cada variable

In [13]:
for col in df.columns:
    print(f"{col}: {df[col].isnull().sum()}/{df.shape[0]} valores nulos")

idelem: 0/853114 valores nulos
descripcion: 51731/853114 valores nulos
accesoAsociado: 138546/853114 valores nulos
intensidad: 0/853114 valores nulos
ocupacion: 0/853114 valores nulos
carga: 0/853114 valores nulos
nivelServicio: 0/853114 valores nulos
intensidadSat: 51731/853114 valores nulos
error: 1683/853114 valores nulos
subarea: 0/853114 valores nulos
st_x: 0/853114 valores nulos
st_y: 0/853114 valores nulos
velocidad: 801383/853114 valores nulos
datetime: 0/853114 valores nulos
date: 0/853114 valores nulos


La variable `velocidad` posee un 93% de valores nulos, por lo cual no nos va a aportar apenas informaci√≥n. Por tanto, decidimos eliminarla.

In [14]:
df.drop(columns="velocidad", inplace=True)

Veamos si los valores nulos de `descripcion` coinciden con los valores nulos de `subarea`.

In [15]:
descr_null_pk = df[df['descripcion'].isnull()].index
subarea_null_pk = df[df['subarea']=='nan'].index

In [16]:
if (descr_null_pk == subarea_null_pk).all():
    print('Los valores nulos coinciden en ambas columnas')
    
else:
    print('Hay valores incompletos')

Los valores nulos coinciden en ambas columnas


Por tanto, eliminaremos estos valores 

In [17]:
df=df[df['descripcion'].notnull()]

In [18]:
for col in df.columns:
    print(f"{col}: {df[col].isnull().sum()}/{df.shape[0]} valores nulos")

idelem: 0/801383 valores nulos
descripcion: 0/801383 valores nulos
accesoAsociado: 86815/801383 valores nulos
intensidad: 0/801383 valores nulos
ocupacion: 0/801383 valores nulos
carga: 0/801383 valores nulos
nivelServicio: 0/801383 valores nulos
intensidadSat: 0/801383 valores nulos
error: 0/801383 valores nulos
subarea: 0/801383 valores nulos
st_x: 0/801383 valores nulos
st_y: 0/801383 valores nulos
datetime: 0/801383 valores nulos
date: 0/801383 valores nulos


De esta forma no tenemos ning√∫n valor nulo

## PROFILING üìë

In [19]:
profile = ProfileReport(
    df,
    title="üö¶ INFORMO QA",
    dataset={
        "description": "INFORMO - Estado del tr√°fico",
        "url": "https://informo.madrid.es/informo/tmadrid/pm.xml",
    },
    variables={
        "descriptions": {
            "PK": "Identificador √∫nico (Primary Key) del dataset, compuesto por <datetime>_<idelem>",
            "date": "Fecha de la petici√≥n a la API",
            "datetime": "Fecha y hora de la petici√≥n a la API",
            "idelem": "Identificador del punto de medida. Permite su posicionamiento sobre plano e identificaci√≥n del vial y sentido de la circulaci√≥n",
            "descripcion": "Denominaci√≥n del punto de medida",
            "accesoAsociado": "C√≥digo de control relacionado con el control semaf√≥rico para la modificaci√≥n de los tiempos",
            "intensidad": "Intensidad de n√∫mero de veh√≠culos por hora. Un valor negativo implica la ausencia de datos",
            "ocupacion": "Porcentaje de tiempo que est√° un detector de tr√°fico ocupado por un veh√≠culo",
            "carga": "Par√°metro de carga del vial. Representa una estimaci√≥n del grado",
            "nivelServicio": "Par√°metro calculado en funci√≥n de la velocidad y la ocupaci√≥n",
            "intensidadSat": "Intensidad de saturaci√≥n de la v√≠a en veh/hora",
            "error": "C√≥digo de control de la validez de los datos del punto de medida",
            "subarea": "Identificador de la sub√°rea de explotaci√≥n de tr√°fico a la que pertenece el punto de medida",
            "st_x": "Coordenada X UTM del centroide que representa al punto de medida en el fichero georreferenciado",
            "st_y": "Coordenada Y UTM del centroide que representa al punto de medida en el fichero georreferenciado",
            "velocidad": "Velocidad medida",
        }
    },
    interactions=None,
    explorative=True,
    dark_mode=True,
)
profile.to_file(os.path.join(ROOT_PATH, "docs", "qa", "informo_report.html"))
# profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]