{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<p style=\"font-family: Arial; font-size:1.75em;color:#2462C0; font-style:bold\">\n",
    "Case Study: Air Quality Dataset </p>\n",
    "<br>This notebook uses a dataset from the UC Irvine website. We will describe the dataset further as we explore with it using *pandas*. \n",
    "\n",
    "## Download the Dataset\n",
    "\n",
    "Please note that **you will need to download the dataset** from the UC Irvine Machine Learning Dataset Repository. \n",
    "\n",
    "You can find the data at http://archive.ics.uci.edu/ml/machine-learning-databases/00360/. Please unzip the file at a filepath of your choice. \n",
    "\n",
    "Here are instructions on how to unzip a file in Windows: https://support.microsoft.com/en-us/help/14200/windows-compress-uncompress-zip-files. \n",
    "For Macs, simply double-click on the file. \n",
    "\n",
    "\n",
    "\n",
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<p style=\"font-family: Arial; font-size:1.75em;color:#2462C0; font-style:bold\">\n",
    "Use Pandas to Read the Dataset<br>\n",
    "</p>\n",
    "<br>\n",
    "In this notebook, we will be using a CSV file:\n",
    "* **AirQualityUCI.csv :** \n",
    "\n",
    "The dataset contains over 9000 measurements of air quality taken over a year. \n",
    "\n",
    "The following are the measures taken: \n",
    "Date\tTime\tCO(GT)\tPT08.S1(CO)\tNMHC(GT)\tC6H6(GT)\tPT08.S2(NMHC)\tNOx(GT)\tPT08.S3(NOx)\tNO2(GT)\tPT08.S4(NO2)\tPT08.S5(O3)\tT\tRH\tAH\n",
    "\n",
    "\n",
    "\n",
    "Using the *read_csv* function in pandas, we will transfer this information into our code. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "# import pandas and load data\n",
    "import pandas as pd\n",
    "\n",
    "filepath = './AirQualityUCI.csv'\n",
    "airquality = pd.read_csv(filepath,sep=',',delimiter=';')\n",
    "\n",
    "airquality = pd.read_csv('AirQualityUCI.csv',sep=',',delimiter=';')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "      <th>Unnamed: 15</th>\n",
       "      <th>Unnamed: 16</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>18.00.00</td>\n",
       "      <td>2,6</td>\n",
       "      <td>1360.0</td>\n",
       "      <td>150.0</td>\n",
       "      <td>11,9</td>\n",
       "      <td>1046.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>1056.0</td>\n",
       "      <td>113.0</td>\n",
       "      <td>1692.0</td>\n",
       "      <td>1268.0</td>\n",
       "      <td>13,6</td>\n",
       "      <td>48,9</td>\n",
       "      <td>0,7578</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>19.00.00</td>\n",
       "      <td>2</td>\n",
       "      <td>1292.0</td>\n",
       "      <td>112.0</td>\n",
       "      <td>9,4</td>\n",
       "      <td>955.0</td>\n",
       "      <td>103.0</td>\n",
       "      <td>1174.0</td>\n",
       "      <td>92.0</td>\n",
       "      <td>1559.0</td>\n",
       "      <td>972.0</td>\n",
       "      <td>13,3</td>\n",
       "      <td>47,7</td>\n",
       "      <td>0,7255</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>20.00.00</td>\n",
       "      <td>2,2</td>\n",
       "      <td>1402.0</td>\n",
       "      <td>88.0</td>\n",
       "      <td>9,0</td>\n",
       "      <td>939.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1140.0</td>\n",
       "      <td>114.0</td>\n",
       "      <td>1555.0</td>\n",
       "      <td>1074.0</td>\n",
       "      <td>11,9</td>\n",
       "      <td>54,0</td>\n",
       "      <td>0,7502</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>21.00.00</td>\n",
       "      <td>2,2</td>\n",
       "      <td>1376.0</td>\n",
       "      <td>80.0</td>\n",
       "      <td>9,2</td>\n",
       "      <td>948.0</td>\n",
       "      <td>172.0</td>\n",
       "      <td>1092.0</td>\n",
       "      <td>122.0</td>\n",
       "      <td>1584.0</td>\n",
       "      <td>1203.0</td>\n",
       "      <td>11,0</td>\n",
       "      <td>60,0</td>\n",
       "      <td>0,7867</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>22.00.00</td>\n",
       "      <td>1,6</td>\n",
       "      <td>1272.0</td>\n",
       "      <td>51.0</td>\n",
       "      <td>6,5</td>\n",
       "      <td>836.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1205.0</td>\n",
       "      <td>116.0</td>\n",
       "      <td>1490.0</td>\n",
       "      <td>1110.0</td>\n",
       "      <td>11,2</td>\n",
       "      <td>59,6</td>\n",
       "      <td>0,7888</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         Date      Time CO(GT)  PT08.S1(CO)  NMHC(GT) C6H6(GT)  PT08.S2(NMHC)  \\\n",
       "0  10/03/2004  18.00.00    2,6       1360.0     150.0     11,9         1046.0   \n",
       "1  10/03/2004  19.00.00      2       1292.0     112.0      9,4          955.0   \n",
       "2  10/03/2004  20.00.00    2,2       1402.0      88.0      9,0          939.0   \n",
       "3  10/03/2004  21.00.00    2,2       1376.0      80.0      9,2          948.0   \n",
       "4  10/03/2004  22.00.00    1,6       1272.0      51.0      6,5          836.0   \n",
       "\n",
       "   NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)     T    RH  \\\n",
       "0    166.0        1056.0    113.0        1692.0       1268.0  13,6  48,9   \n",
       "1    103.0        1174.0     92.0        1559.0        972.0  13,3  47,7   \n",
       "2    131.0        1140.0    114.0        1555.0       1074.0  11,9  54,0   \n",
       "3    172.0        1092.0    122.0        1584.0       1203.0  11,0  60,0   \n",
       "4    131.0        1205.0    116.0        1490.0       1110.0  11,2  59,6   \n",
       "\n",
       "       AH  Unnamed: 15  Unnamed: 16  \n",
       "0  0,7578          NaN          NaN  \n",
       "1  0,7255          NaN          NaN  \n",
       "2  0,7502          NaN          NaN  \n",
       "3  0,7867          NaN          NaN  \n",
       "4  0,7888          NaN          NaN  "
      ]
     },
     "execution_count": 26,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Now that we have the dataset we will start to get a feeling for its layout\n",
    "airquality.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Our dataset is loaded and looks ok, but it looks like there's some cleaning that needs to be done. Notice how the last two columns are unnamed and how the C6H6(GT) and T columns have values with commas. In this case, the commas are <i>not</i> delimiters but are instead subsitutes for decimal points. However, the following code block shows why Python is really useful. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "      <th>Unnamed: 15</th>\n",
       "      <th>Unnamed: 16</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>18.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>6.0</td>\n",
       "      <td>1360.0</td>\n",
       "      <td>150.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>1046.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>1056.0</td>\n",
       "      <td>113.0</td>\n",
       "      <td>1692.0</td>\n",
       "      <td>1268.0</td>\n",
       "      <td>13.0</td>\n",
       "      <td>6.0</td>\n",
       "      <td>48.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>19.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>1292.0</td>\n",
       "      <td>112.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>955.0</td>\n",
       "      <td>103.0</td>\n",
       "      <td>1174.0</td>\n",
       "      <td>92.0</td>\n",
       "      <td>1559.0</td>\n",
       "      <td>972.0</td>\n",
       "      <td>13.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>47.0</td>\n",
       "      <td>7.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>20.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>1402.0</td>\n",
       "      <td>88.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>939.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1140.0</td>\n",
       "      <td>114.0</td>\n",
       "      <td>1555.0</td>\n",
       "      <td>1074.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>54.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>21.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>1376.0</td>\n",
       "      <td>80.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>948.0</td>\n",
       "      <td>172.0</td>\n",
       "      <td>1092.0</td>\n",
       "      <td>122.0</td>\n",
       "      <td>1584.0</td>\n",
       "      <td>1203.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>60.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>22.00.00</td>\n",
       "      <td>1.0</td>\n",
       "      <td>6.0</td>\n",
       "      <td>1272.0</td>\n",
       "      <td>51.0</td>\n",
       "      <td>6.0</td>\n",
       "      <td>5.0</td>\n",
       "      <td>836.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1205.0</td>\n",
       "      <td>116.0</td>\n",
       "      <td>1490.0</td>\n",
       "      <td>1110.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>59.0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         Date      Time  CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  \\\n",
       "0  10/03/2004  18.00.00     2.0          6.0    1360.0     150.0   \n",
       "1  10/03/2004  19.00.00     2.0       1292.0     112.0       9.0   \n",
       "2  10/03/2004  20.00.00     2.0          2.0    1402.0      88.0   \n",
       "3  10/03/2004  21.00.00     2.0          2.0    1376.0      80.0   \n",
       "4  10/03/2004  22.00.00     1.0          6.0    1272.0      51.0   \n",
       "\n",
       "   PT08.S2(NMHC)  NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \\\n",
       "0           11.0      9.0        1046.0    166.0        1056.0        113.0   \n",
       "1            4.0    955.0         103.0   1174.0          92.0       1559.0   \n",
       "2            9.0      0.0         939.0    131.0        1140.0        114.0   \n",
       "3            9.0      2.0         948.0    172.0        1092.0        122.0   \n",
       "4            6.0      5.0         836.0    131.0        1205.0        116.0   \n",
       "\n",
       "        T      RH    AH  Unnamed: 15  Unnamed: 16  \n",
       "0  1692.0  1268.0  13.0          6.0         48.0  \n",
       "1   972.0    13.0   3.0         47.0          7.0  \n",
       "2  1555.0  1074.0  11.0          9.0         54.0  \n",
       "3  1584.0  1203.0  11.0          0.0         60.0  \n",
       "4  1490.0  1110.0  11.0          2.0         59.0  "
      ]
     },
     "execution_count": 27,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality_comma = pd.read_csv(filepath, delimiter=';|,',engine='python',index_col=False)\n",
    "airquality_comma.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We've made our data a lot more usable in just one line of code. Some pointers:\n",
    "- the delimiter parameter in read_csv is capable of taking a \"regex\", which allows you to, in this case, insert a boolean expression for which characters are delimiters (the semicolon OR the comma) \n",
    "- the 'python' engine parameter enables us to use a **regular expression** delimiter\n",
    "- index_col is set to False because our first line of column names does not terminate in a delimiter. \n",
    "\n",
    "We're not going to use airquality_comma because we know that the comma is not a delimiter, but we've figured out how to manipulate delimiters somewhat in the event that it was. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "del (airquality_comma)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "You might still be wondering how to fix the issue with the commas for decimals. It turns out it's just one more parameter in read_csv. We'll also delete the last two columns pandas has interpreted, because they contain no information. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>18.00.00</td>\n",
       "      <td>2.6</td>\n",
       "      <td>1360.0</td>\n",
       "      <td>150.0</td>\n",
       "      <td>11.9</td>\n",
       "      <td>1046.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>1056.0</td>\n",
       "      <td>113.0</td>\n",
       "      <td>1692.0</td>\n",
       "      <td>1268.0</td>\n",
       "      <td>13.6</td>\n",
       "      <td>48.9</td>\n",
       "      <td>0.7578</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>19.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>1292.0</td>\n",
       "      <td>112.0</td>\n",
       "      <td>9.4</td>\n",
       "      <td>955.0</td>\n",
       "      <td>103.0</td>\n",
       "      <td>1174.0</td>\n",
       "      <td>92.0</td>\n",
       "      <td>1559.0</td>\n",
       "      <td>972.0</td>\n",
       "      <td>13.3</td>\n",
       "      <td>47.7</td>\n",
       "      <td>0.7255</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>20.00.00</td>\n",
       "      <td>2.2</td>\n",
       "      <td>1402.0</td>\n",
       "      <td>88.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>939.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1140.0</td>\n",
       "      <td>114.0</td>\n",
       "      <td>1555.0</td>\n",
       "      <td>1074.0</td>\n",
       "      <td>11.9</td>\n",
       "      <td>54.0</td>\n",
       "      <td>0.7502</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>21.00.00</td>\n",
       "      <td>2.2</td>\n",
       "      <td>1376.0</td>\n",
       "      <td>80.0</td>\n",
       "      <td>9.2</td>\n",
       "      <td>948.0</td>\n",
       "      <td>172.0</td>\n",
       "      <td>1092.0</td>\n",
       "      <td>122.0</td>\n",
       "      <td>1584.0</td>\n",
       "      <td>1203.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>60.0</td>\n",
       "      <td>0.7867</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>22.00.00</td>\n",
       "      <td>1.6</td>\n",
       "      <td>1272.0</td>\n",
       "      <td>51.0</td>\n",
       "      <td>6.5</td>\n",
       "      <td>836.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1205.0</td>\n",
       "      <td>116.0</td>\n",
       "      <td>1490.0</td>\n",
       "      <td>1110.0</td>\n",
       "      <td>11.2</td>\n",
       "      <td>59.6</td>\n",
       "      <td>0.7888</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         Date      Time  CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  \\\n",
       "0  10/03/2004  18.00.00     2.6       1360.0     150.0      11.9   \n",
       "1  10/03/2004  19.00.00     2.0       1292.0     112.0       9.4   \n",
       "2  10/03/2004  20.00.00     2.2       1402.0      88.0       9.0   \n",
       "3  10/03/2004  21.00.00     2.2       1376.0      80.0       9.2   \n",
       "4  10/03/2004  22.00.00     1.6       1272.0      51.0       6.5   \n",
       "\n",
       "   PT08.S2(NMHC)  NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \\\n",
       "0         1046.0    166.0        1056.0    113.0        1692.0       1268.0   \n",
       "1          955.0    103.0        1174.0     92.0        1559.0        972.0   \n",
       "2          939.0    131.0        1140.0    114.0        1555.0       1074.0   \n",
       "3          948.0    172.0        1092.0    122.0        1584.0       1203.0   \n",
       "4          836.0    131.0        1205.0    116.0        1490.0       1110.0   \n",
       "\n",
       "      T    RH      AH  \n",
       "0  13.6  48.9  0.7578  \n",
       "1  13.3  47.7  0.7255  \n",
       "2  11.9  54.0  0.7502  \n",
       "3  11.0  60.0  0.7867  \n",
       "4  11.2  59.6  0.7888  "
      ]
     },
     "execution_count": 29,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality = pd.read_csv(filepath,sep=',',delimiter=';',decimal=',')\n",
    "del (airquality['Unnamed: 15'])\n",
    "airquality.pop('Unnamed: 16') #There are a couple ways to get rid of the columns\n",
    "airquality.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1 style=\"font-size:2em;color:#2467C0\">Data Structures </h1>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1 style=\"font-size:1.5em;color:#2467C0\">Series</h1>\n",
    "\n",
    "Next, let's observe how pandas interprets our data as Series and DataFrame objects, and how we can leverage that to get information about the data. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 32,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "pandas.core.series.Series"
      ]
     },
     "execution_count": 32,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#Extract 0th row: notice that it is in fact a Series\n",
    "\n",
    "row_0 = airquality.iloc[0]\n",
    "type(row_0)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Date             10/03/2004\n",
      "Time               18.00.00\n",
      "CO(GT)                  2.6\n",
      "PT08.S1(CO)            1360\n",
      "NMHC(GT)                150\n",
      "C6H6(GT)               11.9\n",
      "PT08.S2(NMHC)          1046\n",
      "NOx(GT)                 166\n",
      "PT08.S3(NOx)           1056\n",
      "NO2(GT)                 113\n",
      "PT08.S4(NO2)           1692\n",
      "PT08.S5(O3)            1268\n",
      "T                      13.6\n",
      "RH                     48.9\n",
      "AH                   0.7578\n",
      "Name: 0, dtype: object\n"
     ]
    }
   ],
   "source": [
    "print(row_0)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Index(['Date', 'Time', 'CO(GT)', 'PT08.S1(CO)', 'NMHC(GT)', 'C6H6(GT)',\n",
       "       'PT08.S2(NMHC)', 'NOx(GT)', 'PT08.S3(NOx)', 'NO2(GT)', 'PT08.S4(NO2)',\n",
       "       'PT08.S5(O3)', 'T', 'RH', 'AH'],\n",
       "      dtype='object')"
      ]
     },
     "execution_count": 34,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "row_0.index"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'18.00.00'"
      ]
     },
     "execution_count": 35,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# value of 'Time' in row_0\n",
    "row_0['Time']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "True"
      ]
     },
     "execution_count": 36,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# is 'RH' in row_0?\n",
    "'RH' in row_0"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0"
      ]
     },
     "execution_count": 37,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# how can we reference row_0?\n",
    "row_0.name"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 38,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'first_row'"
      ]
     },
     "execution_count": 38,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# let's change the name of row_0\n",
    "row_0 = row_0.rename('first_row')\n",
    "row_0.name"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1 style=\"font-size:1.5em;color:#2467C0\">DataFrames </h1>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 39,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>18.00.00</td>\n",
       "      <td>2.6</td>\n",
       "      <td>1360.0</td>\n",
       "      <td>150.0</td>\n",
       "      <td>11.9</td>\n",
       "      <td>1046.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>1056.0</td>\n",
       "      <td>113.0</td>\n",
       "      <td>1692.0</td>\n",
       "      <td>1268.0</td>\n",
       "      <td>13.6</td>\n",
       "      <td>48.9</td>\n",
       "      <td>0.7578</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>19.00.00</td>\n",
       "      <td>2.0</td>\n",
       "      <td>1292.0</td>\n",
       "      <td>112.0</td>\n",
       "      <td>9.4</td>\n",
       "      <td>955.0</td>\n",
       "      <td>103.0</td>\n",
       "      <td>1174.0</td>\n",
       "      <td>92.0</td>\n",
       "      <td>1559.0</td>\n",
       "      <td>972.0</td>\n",
       "      <td>13.3</td>\n",
       "      <td>47.7</td>\n",
       "      <td>0.7255</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>20.00.00</td>\n",
       "      <td>2.2</td>\n",
       "      <td>1402.0</td>\n",
       "      <td>88.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>939.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1140.0</td>\n",
       "      <td>114.0</td>\n",
       "      <td>1555.0</td>\n",
       "      <td>1074.0</td>\n",
       "      <td>11.9</td>\n",
       "      <td>54.0</td>\n",
       "      <td>0.7502</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>21.00.00</td>\n",
       "      <td>2.2</td>\n",
       "      <td>1376.0</td>\n",
       "      <td>80.0</td>\n",
       "      <td>9.2</td>\n",
       "      <td>948.0</td>\n",
       "      <td>172.0</td>\n",
       "      <td>1092.0</td>\n",
       "      <td>122.0</td>\n",
       "      <td>1584.0</td>\n",
       "      <td>1203.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>60.0</td>\n",
       "      <td>0.7867</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>22.00.00</td>\n",
       "      <td>1.6</td>\n",
       "      <td>1272.0</td>\n",
       "      <td>51.0</td>\n",
       "      <td>6.5</td>\n",
       "      <td>836.0</td>\n",
       "      <td>131.0</td>\n",
       "      <td>1205.0</td>\n",
       "      <td>116.0</td>\n",
       "      <td>1490.0</td>\n",
       "      <td>1110.0</td>\n",
       "      <td>11.2</td>\n",
       "      <td>59.6</td>\n",
       "      <td>0.7888</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         Date      Time  CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  \\\n",
       "0  10/03/2004  18.00.00     2.6       1360.0     150.0      11.9   \n",
       "1  10/03/2004  19.00.00     2.0       1292.0     112.0       9.4   \n",
       "2  10/03/2004  20.00.00     2.2       1402.0      88.0       9.0   \n",
       "3  10/03/2004  21.00.00     2.2       1376.0      80.0       9.2   \n",
       "4  10/03/2004  22.00.00     1.6       1272.0      51.0       6.5   \n",
       "\n",
       "   PT08.S2(NMHC)  NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \\\n",
       "0         1046.0    166.0        1056.0    113.0        1692.0       1268.0   \n",
       "1          955.0    103.0        1174.0     92.0        1559.0        972.0   \n",
       "2          939.0    131.0        1140.0    114.0        1555.0       1074.0   \n",
       "3          948.0    172.0        1092.0    122.0        1584.0       1203.0   \n",
       "4          836.0    131.0        1205.0    116.0        1490.0       1110.0   \n",
       "\n",
       "      T    RH      AH  \n",
       "0  13.6  48.9  0.7578  \n",
       "1  13.3  47.7  0.7255  \n",
       "2  11.9  54.0  0.7502  \n",
       "3  11.0  60.0  0.7867  \n",
       "4  11.2  59.6  0.7888  "
      ]
     },
     "execution_count": 39,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Let's take a look at our dataset again\n",
    "airquality.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 40,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "RangeIndex(start=0, stop=9471, step=1)"
      ]
     },
     "execution_count": 40,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.index"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 41,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Index(['Date', 'Time', 'CO(GT)', 'PT08.S1(CO)', 'NMHC(GT)', 'C6H6(GT)',\n",
       "       'PT08.S2(NMHC)', 'NOx(GT)', 'PT08.S3(NOx)', 'NO2(GT)', 'PT08.S4(NO2)',\n",
       "       'PT08.S5(O3)', 'T', 'RH', 'AH'],\n",
       "      dtype='object')"
      ]
     },
     "execution_count": 41,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.columns"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 42,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>Time</th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>10/03/2004</td>\n",
       "      <td>18.00.00</td>\n",
       "      <td>2.6</td>\n",
       "      <td>1360.0</td>\n",
       "      <td>150.0</td>\n",
       "      <td>11.9</td>\n",
       "      <td>1046.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>1056.0</td>\n",
       "      <td>113.0</td>\n",
       "      <td>1692.0</td>\n",
       "      <td>1268.0</td>\n",
       "      <td>13.6</td>\n",
       "      <td>48.9</td>\n",
       "      <td>0.7578</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>11/03/2004</td>\n",
       "      <td>05.00.00</td>\n",
       "      <td>0.7</td>\n",
       "      <td>1066.0</td>\n",
       "      <td>8.0</td>\n",
       "      <td>1.1</td>\n",
       "      <td>512.0</td>\n",
       "      <td>16.0</td>\n",
       "      <td>1918.0</td>\n",
       "      <td>28.0</td>\n",
       "      <td>1182.0</td>\n",
       "      <td>422.0</td>\n",
       "      <td>11.0</td>\n",
       "      <td>56.2</td>\n",
       "      <td>0.7366</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2000</th>\n",
       "      <td>02/06/2004</td>\n",
       "      <td>02.00.00</td>\n",
       "      <td>-200.0</td>\n",
       "      <td>887.0</td>\n",
       "      <td>-200.0</td>\n",
       "      <td>4.9</td>\n",
       "      <td>758.0</td>\n",
       "      <td>43.0</td>\n",
       "      <td>1094.0</td>\n",
       "      <td>38.0</td>\n",
       "      <td>1622.0</td>\n",
       "      <td>804.0</td>\n",
       "      <td>19.1</td>\n",
       "      <td>69.0</td>\n",
       "      <td>1.5043</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "            Date      Time  CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  \\\n",
       "0     10/03/2004  18.00.00     2.6       1360.0     150.0      11.9   \n",
       "11    11/03/2004  05.00.00     0.7       1066.0       8.0       1.1   \n",
       "2000  02/06/2004  02.00.00  -200.0        887.0    -200.0       4.9   \n",
       "\n",
       "      PT08.S2(NMHC)  NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  \\\n",
       "0            1046.0    166.0        1056.0    113.0        1692.0   \n",
       "11            512.0     16.0        1918.0     28.0        1182.0   \n",
       "2000          758.0     43.0        1094.0     38.0        1622.0   \n",
       "\n",
       "      PT08.S5(O3)     T    RH      AH  \n",
       "0          1268.0  13.6  48.9  0.7578  \n",
       "11          422.0  11.0  56.2  0.7366  \n",
       "2000        804.0  19.1  69.0  1.5043  "
      ]
     },
     "execution_count": 42,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Extract row 0, 11, 2000 from DataFrame\n",
    "\n",
    "airquality.iloc[ [0,11,2000] ]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1 style=\"font-size:2em;color:#2467C0\">Descriptive Statistics</h1>\n",
    "\n",
    "Pandas also provides some basic quantitative functions to understand our data. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 43,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "count    9357.000000\n",
       "mean       58.148873\n",
       "std       126.940455\n",
       "min      -200.000000\n",
       "25%        53.000000\n",
       "50%        96.000000\n",
       "75%       133.000000\n",
       "max       340.000000\n",
       "Name: NO2(GT), dtype: float64"
      ]
     },
     "execution_count": 43,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['NO2(GT)'].describe()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 44,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>count</th>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "      <td>9357.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>mean</th>\n",
       "      <td>-34.207524</td>\n",
       "      <td>1048.990061</td>\n",
       "      <td>-159.090093</td>\n",
       "      <td>1.865683</td>\n",
       "      <td>894.595276</td>\n",
       "      <td>168.616971</td>\n",
       "      <td>794.990168</td>\n",
       "      <td>58.148873</td>\n",
       "      <td>1391.479641</td>\n",
       "      <td>975.072032</td>\n",
       "      <td>9.778305</td>\n",
       "      <td>39.485380</td>\n",
       "      <td>-6.837604</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>std</th>\n",
       "      <td>77.657170</td>\n",
       "      <td>329.832710</td>\n",
       "      <td>139.789093</td>\n",
       "      <td>41.380206</td>\n",
       "      <td>342.333252</td>\n",
       "      <td>257.433866</td>\n",
       "      <td>321.993552</td>\n",
       "      <td>126.940455</td>\n",
       "      <td>467.210125</td>\n",
       "      <td>456.938184</td>\n",
       "      <td>43.203623</td>\n",
       "      <td>51.216145</td>\n",
       "      <td>38.976670</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>min</th>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25%</th>\n",
       "      <td>0.600000</td>\n",
       "      <td>921.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>4.000000</td>\n",
       "      <td>711.000000</td>\n",
       "      <td>50.000000</td>\n",
       "      <td>637.000000</td>\n",
       "      <td>53.000000</td>\n",
       "      <td>1185.000000</td>\n",
       "      <td>700.000000</td>\n",
       "      <td>10.900000</td>\n",
       "      <td>34.100000</td>\n",
       "      <td>0.692300</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>50%</th>\n",
       "      <td>1.500000</td>\n",
       "      <td>1053.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>7.900000</td>\n",
       "      <td>895.000000</td>\n",
       "      <td>141.000000</td>\n",
       "      <td>794.000000</td>\n",
       "      <td>96.000000</td>\n",
       "      <td>1446.000000</td>\n",
       "      <td>942.000000</td>\n",
       "      <td>17.200000</td>\n",
       "      <td>48.600000</td>\n",
       "      <td>0.976800</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>75%</th>\n",
       "      <td>2.600000</td>\n",
       "      <td>1221.000000</td>\n",
       "      <td>-200.000000</td>\n",
       "      <td>13.600000</td>\n",
       "      <td>1105.000000</td>\n",
       "      <td>284.000000</td>\n",
       "      <td>960.000000</td>\n",
       "      <td>133.000000</td>\n",
       "      <td>1662.000000</td>\n",
       "      <td>1255.000000</td>\n",
       "      <td>24.100000</td>\n",
       "      <td>61.900000</td>\n",
       "      <td>1.296200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>max</th>\n",
       "      <td>11.900000</td>\n",
       "      <td>2040.000000</td>\n",
       "      <td>1189.000000</td>\n",
       "      <td>63.700000</td>\n",
       "      <td>2214.000000</td>\n",
       "      <td>1479.000000</td>\n",
       "      <td>2683.000000</td>\n",
       "      <td>340.000000</td>\n",
       "      <td>2775.000000</td>\n",
       "      <td>2523.000000</td>\n",
       "      <td>44.600000</td>\n",
       "      <td>88.700000</td>\n",
       "      <td>2.231000</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "            CO(GT)  PT08.S1(CO)     NMHC(GT)     C6H6(GT)  PT08.S2(NMHC)  \\\n",
       "count  9357.000000  9357.000000  9357.000000  9357.000000    9357.000000   \n",
       "mean    -34.207524  1048.990061  -159.090093     1.865683     894.595276   \n",
       "std      77.657170   329.832710   139.789093    41.380206     342.333252   \n",
       "min    -200.000000  -200.000000  -200.000000  -200.000000    -200.000000   \n",
       "25%       0.600000   921.000000  -200.000000     4.000000     711.000000   \n",
       "50%       1.500000  1053.000000  -200.000000     7.900000     895.000000   \n",
       "75%       2.600000  1221.000000  -200.000000    13.600000    1105.000000   \n",
       "max      11.900000  2040.000000  1189.000000    63.700000    2214.000000   \n",
       "\n",
       "           NOx(GT)  PT08.S3(NOx)      NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \\\n",
       "count  9357.000000   9357.000000  9357.000000   9357.000000  9357.000000   \n",
       "mean    168.616971    794.990168    58.148873   1391.479641   975.072032   \n",
       "std     257.433866    321.993552   126.940455    467.210125   456.938184   \n",
       "min    -200.000000   -200.000000  -200.000000   -200.000000  -200.000000   \n",
       "25%      50.000000    637.000000    53.000000   1185.000000   700.000000   \n",
       "50%     141.000000    794.000000    96.000000   1446.000000   942.000000   \n",
       "75%     284.000000    960.000000   133.000000   1662.000000  1255.000000   \n",
       "max    1479.000000   2683.000000   340.000000   2775.000000  2523.000000   \n",
       "\n",
       "                 T           RH           AH  \n",
       "count  9357.000000  9357.000000  9357.000000  \n",
       "mean      9.778305    39.485380    -6.837604  \n",
       "std      43.203623    51.216145    38.976670  \n",
       "min    -200.000000  -200.000000  -200.000000  \n",
       "25%      10.900000    34.100000     0.692300  \n",
       "50%      17.200000    48.600000     0.976800  \n",
       "75%      24.100000    61.900000     1.296200  \n",
       "max      44.600000    88.700000     2.231000  "
      ]
     },
     "execution_count": 44,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.describe()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "-159.09009297851875"
      ]
     },
     "execution_count": 45,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['NMHC(GT)'].mean()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "CO(GT)            -34.207524\n",
       "PT08.S1(CO)      1048.990061\n",
       "NMHC(GT)         -159.090093\n",
       "C6H6(GT)            1.865683\n",
       "PT08.S2(NMHC)     894.595276\n",
       "NOx(GT)           168.616971\n",
       "PT08.S3(NOx)      794.990168\n",
       "NO2(GT)            58.148873\n",
       "PT08.S4(NO2)     1391.479641\n",
       "PT08.S5(O3)       975.072032\n",
       "T                   9.778305\n",
       "RH                 39.485380\n",
       "AH                 -6.837604\n",
       "dtype: float64"
      ]
     },
     "execution_count": 46,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.mean()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 47,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "-200.0"
      ]
     },
     "execution_count": 47,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['C6H6(GT)'].min()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 48,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "1479.0"
      ]
     },
     "execution_count": 48,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['NOx(GT)'].max()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 49,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "257.43386629107437"
      ]
     },
     "execution_count": 49,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['NOx(GT)'].std()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 50,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0   -200.0\n",
       "dtype: float64"
      ]
     },
     "execution_count": 50,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality['T'].mode()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>CO(GT)</th>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <th>NOx(GT)</th>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <th>NO2(GT)</th>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <th>T</th>\n",
       "      <th>RH</th>\n",
       "      <th>AH</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>CO(GT)</th>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.041411</td>\n",
       "      <td>0.128351</td>\n",
       "      <td>-0.031378</td>\n",
       "      <td>0.029926</td>\n",
       "      <td>0.526451</td>\n",
       "      <td>-0.089981</td>\n",
       "      <td>0.671127</td>\n",
       "      <td>-0.073724</td>\n",
       "      <td>0.080310</td>\n",
       "      <td>-0.068939</td>\n",
       "      <td>-0.048227</td>\n",
       "      <td>-0.045892</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>PT08.S1(CO)</th>\n",
       "      <td>0.041411</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.170007</td>\n",
       "      <td>0.852687</td>\n",
       "      <td>0.933102</td>\n",
       "      <td>0.277993</td>\n",
       "      <td>0.087019</td>\n",
       "      <td>0.154030</td>\n",
       "      <td>0.845149</td>\n",
       "      <td>0.892434</td>\n",
       "      <td>0.754844</td>\n",
       "      <td>0.745375</td>\n",
       "      <td>0.764903</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>NMHC(GT)</th>\n",
       "      <td>0.128351</td>\n",
       "      <td>0.170007</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.037323</td>\n",
       "      <td>0.110104</td>\n",
       "      <td>-0.004427</td>\n",
       "      <td>0.048821</td>\n",
       "      <td>0.103307</td>\n",
       "      <td>0.162680</td>\n",
       "      <td>0.101185</td>\n",
       "      <td>-0.000009</td>\n",
       "      <td>0.008284</td>\n",
       "      <td>0.012500</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>C6H6(GT)</th>\n",
       "      <td>-0.031378</td>\n",
       "      <td>0.852687</td>\n",
       "      <td>0.037323</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.767433</td>\n",
       "      <td>-0.001174</td>\n",
       "      <td>0.512193</td>\n",
       "      <td>-0.010992</td>\n",
       "      <td>0.774673</td>\n",
       "      <td>0.641334</td>\n",
       "      <td>0.971375</td>\n",
       "      <td>0.925062</td>\n",
       "      <td>0.984555</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>PT08.S2(NMHC)</th>\n",
       "      <td>0.029926</td>\n",
       "      <td>0.933102</td>\n",
       "      <td>0.110104</td>\n",
       "      <td>0.767433</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.331272</td>\n",
       "      <td>-0.073667</td>\n",
       "      <td>0.176488</td>\n",
       "      <td>0.874782</td>\n",
       "      <td>0.909905</td>\n",
       "      <td>0.669025</td>\n",
       "      <td>0.585803</td>\n",
       "      <td>0.646572</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>NOx(GT)</th>\n",
       "      <td>0.526451</td>\n",
       "      <td>0.277993</td>\n",
       "      <td>-0.004427</td>\n",
       "      <td>-0.001174</td>\n",
       "      <td>0.331272</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>-0.436084</td>\n",
       "      <td>0.817139</td>\n",
       "      <td>0.035546</td>\n",
       "      <td>0.461889</td>\n",
       "      <td>-0.138452</td>\n",
       "      <td>-0.053009</td>\n",
       "      <td>-0.095847</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>PT08.S3(NOx)</th>\n",
       "      <td>-0.089981</td>\n",
       "      <td>0.087019</td>\n",
       "      <td>0.048821</td>\n",
       "      <td>0.512193</td>\n",
       "      <td>-0.073667</td>\n",
       "      <td>-0.436084</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>-0.256232</td>\n",
       "      <td>0.122734</td>\n",
       "      <td>-0.208865</td>\n",
       "      <td>0.588111</td>\n",
       "      <td>0.573549</td>\n",
       "      <td>0.621618</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>NO2(GT)</th>\n",
       "      <td>0.671127</td>\n",
       "      <td>0.154030</td>\n",
       "      <td>0.103307</td>\n",
       "      <td>-0.010992</td>\n",
       "      <td>0.176488</td>\n",
       "      <td>0.817139</td>\n",
       "      <td>-0.256232</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>-0.022174</td>\n",
       "      <td>0.253439</td>\n",
       "      <td>-0.084104</td>\n",
       "      <td>-0.081305</td>\n",
       "      <td>-0.060440</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>PT08.S4(NO2)</th>\n",
       "      <td>-0.073724</td>\n",
       "      <td>0.845149</td>\n",
       "      <td>0.162680</td>\n",
       "      <td>0.774673</td>\n",
       "      <td>0.874782</td>\n",
       "      <td>0.035546</td>\n",
       "      <td>0.122734</td>\n",
       "      <td>-0.022174</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.723690</td>\n",
       "      <td>0.755060</td>\n",
       "      <td>0.640707</td>\n",
       "      <td>0.691913</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>PT08.S5(O3)</th>\n",
       "      <td>0.080310</td>\n",
       "      <td>0.892434</td>\n",
       "      <td>0.101185</td>\n",
       "      <td>0.641334</td>\n",
       "      <td>0.909905</td>\n",
       "      <td>0.461889</td>\n",
       "      <td>-0.208865</td>\n",
       "      <td>0.253439</td>\n",
       "      <td>0.723690</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.503700</td>\n",
       "      <td>0.524955</td>\n",
       "      <td>0.519467</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>T</th>\n",
       "      <td>-0.068939</td>\n",
       "      <td>0.754844</td>\n",
       "      <td>-0.000009</td>\n",
       "      <td>0.971375</td>\n",
       "      <td>0.669025</td>\n",
       "      <td>-0.138452</td>\n",
       "      <td>0.588111</td>\n",
       "      <td>-0.084104</td>\n",
       "      <td>0.755060</td>\n",
       "      <td>0.503700</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.885911</td>\n",
       "      <td>0.981001</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>RH</th>\n",
       "      <td>-0.048227</td>\n",
       "      <td>0.745375</td>\n",
       "      <td>0.008284</td>\n",
       "      <td>0.925062</td>\n",
       "      <td>0.585803</td>\n",
       "      <td>-0.053009</td>\n",
       "      <td>0.573549</td>\n",
       "      <td>-0.081305</td>\n",
       "      <td>0.640707</td>\n",
       "      <td>0.524955</td>\n",
       "      <td>0.885911</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.943995</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>AH</th>\n",
       "      <td>-0.045892</td>\n",
       "      <td>0.764903</td>\n",
       "      <td>0.012500</td>\n",
       "      <td>0.984555</td>\n",
       "      <td>0.646572</td>\n",
       "      <td>-0.095847</td>\n",
       "      <td>0.621618</td>\n",
       "      <td>-0.060440</td>\n",
       "      <td>0.691913</td>\n",
       "      <td>0.519467</td>\n",
       "      <td>0.981001</td>\n",
       "      <td>0.943995</td>\n",
       "      <td>1.000000</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                 CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  PT08.S2(NMHC)  \\\n",
       "CO(GT)         1.000000     0.041411  0.128351 -0.031378       0.029926   \n",
       "PT08.S1(CO)    0.041411     1.000000  0.170007  0.852687       0.933102   \n",
       "NMHC(GT)       0.128351     0.170007  1.000000  0.037323       0.110104   \n",
       "C6H6(GT)      -0.031378     0.852687  0.037323  1.000000       0.767433   \n",
       "PT08.S2(NMHC)  0.029926     0.933102  0.110104  0.767433       1.000000   \n",
       "NOx(GT)        0.526451     0.277993 -0.004427 -0.001174       0.331272   \n",
       "PT08.S3(NOx)  -0.089981     0.087019  0.048821  0.512193      -0.073667   \n",
       "NO2(GT)        0.671127     0.154030  0.103307 -0.010992       0.176488   \n",
       "PT08.S4(NO2)  -0.073724     0.845149  0.162680  0.774673       0.874782   \n",
       "PT08.S5(O3)    0.080310     0.892434  0.101185  0.641334       0.909905   \n",
       "T             -0.068939     0.754844 -0.000009  0.971375       0.669025   \n",
       "RH            -0.048227     0.745375  0.008284  0.925062       0.585803   \n",
       "AH            -0.045892     0.764903  0.012500  0.984555       0.646572   \n",
       "\n",
       "                NOx(GT)  PT08.S3(NOx)   NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \\\n",
       "CO(GT)         0.526451     -0.089981  0.671127     -0.073724     0.080310   \n",
       "PT08.S1(CO)    0.277993      0.087019  0.154030      0.845149     0.892434   \n",
       "NMHC(GT)      -0.004427      0.048821  0.103307      0.162680     0.101185   \n",
       "C6H6(GT)      -0.001174      0.512193 -0.010992      0.774673     0.641334   \n",
       "PT08.S2(NMHC)  0.331272     -0.073667  0.176488      0.874782     0.909905   \n",
       "NOx(GT)        1.000000     -0.436084  0.817139      0.035546     0.461889   \n",
       "PT08.S3(NOx)  -0.436084      1.000000 -0.256232      0.122734    -0.208865   \n",
       "NO2(GT)        0.817139     -0.256232  1.000000     -0.022174     0.253439   \n",
       "PT08.S4(NO2)   0.035546      0.122734 -0.022174      1.000000     0.723690   \n",
       "PT08.S5(O3)    0.461889     -0.208865  0.253439      0.723690     1.000000   \n",
       "T             -0.138452      0.588111 -0.084104      0.755060     0.503700   \n",
       "RH            -0.053009      0.573549 -0.081305      0.640707     0.524955   \n",
       "AH            -0.095847      0.621618 -0.060440      0.691913     0.519467   \n",
       "\n",
       "                      T        RH        AH  \n",
       "CO(GT)        -0.068939 -0.048227 -0.045892  \n",
       "PT08.S1(CO)    0.754844  0.745375  0.764903  \n",
       "NMHC(GT)      -0.000009  0.008284  0.012500  \n",
       "C6H6(GT)       0.971375  0.925062  0.984555  \n",
       "PT08.S2(NMHC)  0.669025  0.585803  0.646572  \n",
       "NOx(GT)       -0.138452 -0.053009 -0.095847  \n",
       "PT08.S3(NOx)   0.588111  0.573549  0.621618  \n",
       "NO2(GT)       -0.084104 -0.081305 -0.060440  \n",
       "PT08.S4(NO2)   0.755060  0.640707  0.691913  \n",
       "PT08.S5(O3)    0.503700  0.524955  0.519467  \n",
       "T              1.000000  0.885911  0.981001  \n",
       "RH             0.885911  1.000000  0.943995  \n",
       "AH             0.981001  0.943995  1.000000  "
      ]
     },
     "execution_count": 51,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.corr()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We can also filter information conditionally. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 53,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0       False\n",
      "1       False\n",
      "2       False\n",
      "3       False\n",
      "4       False\n",
      "5       False\n",
      "6       False\n",
      "7       False\n",
      "8       False\n",
      "9       False\n",
      "10      False\n",
      "11      False\n",
      "12      False\n",
      "13      False\n",
      "14      False\n",
      "15      False\n",
      "16      False\n",
      "17      False\n",
      "18      False\n",
      "19      False\n",
      "20      False\n",
      "21      False\n",
      "22      False\n",
      "23      False\n",
      "24       True\n",
      "25       True\n",
      "26       True\n",
      "27       True\n",
      "28      False\n",
      "29      False\n",
      "        ...  \n",
      "9441    False\n",
      "9442    False\n",
      "9443    False\n",
      "9444    False\n",
      "9445    False\n",
      "9446    False\n",
      "9447    False\n",
      "9448    False\n",
      "9449    False\n",
      "9450    False\n",
      "9451    False\n",
      "9452    False\n",
      "9453    False\n",
      "9454    False\n",
      "9455    False\n",
      "9456    False\n",
      "9457    False\n",
      "9458    False\n",
      "9459    False\n",
      "9460    False\n",
      "9461    False\n",
      "9462    False\n",
      "9463    False\n",
      "9464    False\n",
      "9465    False\n",
      "9466    False\n",
      "9467    False\n",
      "9468    False\n",
      "9469    False\n",
      "9470    False\n",
      "Name: CO(GT), Length: 9471, dtype: bool\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "True"
      ]
     },
     "execution_count": 53,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filter_1 = airquality['CO(GT)'] > 3.0\n",
    "print(filter_1)\n",
    "filter_1.any()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "False"
      ]
     },
     "execution_count": 54,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filter_2 = airquality['CO(GT)'] > 3.0\n",
    "filter_2.all()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1 style=\"font-size:2em;color:#2467C0\">Handling Missing Data</h1>\n",
    "\n",
    "If you looked at the numbers, you may have noticed that a lot of them were -200.0. That doesn't seem like a reasonable pollutant concentration, so perhaps the creators of the dataset intended that to be a NULL value. Assuming this is the case, let's fill all Null values to be -200.0. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(9471, 15)"
      ]
     },
     "execution_count": 55,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 56,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Date             True\n",
       "Time             True\n",
       "CO(GT)           True\n",
       "PT08.S1(CO)      True\n",
       "NMHC(GT)         True\n",
       "C6H6(GT)         True\n",
       "PT08.S2(NMHC)    True\n",
       "NOx(GT)          True\n",
       "PT08.S3(NOx)     True\n",
       "NO2(GT)          True\n",
       "PT08.S4(NO2)     True\n",
       "PT08.S5(O3)      True\n",
       "T                True\n",
       "RH               True\n",
       "AH               True\n",
       "dtype: bool"
      ]
     },
     "execution_count": 56,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#Check if there are Null values in each row\n",
    "airquality.isnull().any()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 57,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "airquality_filled = airquality.fillna(value=-200.0)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Date             False\n",
       "Time             False\n",
       "CO(GT)           False\n",
       "PT08.S1(CO)      False\n",
       "NMHC(GT)         False\n",
       "C6H6(GT)         False\n",
       "PT08.S2(NMHC)    False\n",
       "NOx(GT)          False\n",
       "PT08.S3(NOx)     False\n",
       "NO2(GT)          False\n",
       "PT08.S4(NO2)     False\n",
       "PT08.S5(O3)      False\n",
       "T                False\n",
       "RH               False\n",
       "AH               False\n",
       "dtype: bool"
      ]
     },
     "execution_count": 58,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality_filled.isnull().any()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The NULL values are gone, and now our data is consistent. We can use rows which have some NULL columns if we want by using airquality_filled, where the NULL values are replaced with the value -200.0. However, we can get rid all samples with NULL columns in the original DataFrame if we want to use only complete observations. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 59,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "airquality = airquality.dropna()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 60,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Date             False\n",
       "Time             False\n",
       "CO(GT)           False\n",
       "PT08.S1(CO)      False\n",
       "NMHC(GT)         False\n",
       "C6H6(GT)         False\n",
       "PT08.S2(NMHC)    False\n",
       "NOx(GT)          False\n",
       "PT08.S3(NOx)     False\n",
       "NO2(GT)          False\n",
       "PT08.S4(NO2)     False\n",
       "PT08.S5(O3)      False\n",
       "T                False\n",
       "RH               False\n",
       "AH               False\n",
       "dtype: bool"
      ]
     },
     "execution_count": 60,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.isnull().any()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 61,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(9357, 15)"
      ]
     },
     "execution_count": 61,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "airquality.shape"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Thats nice! No NULL rows! Any observation with a NULL value has been removed. Because of this, the number of rows as been reduced."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.1"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}