{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Scikit-Learn Train-Test Split"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "This notebook explains how to generate a train-test split from `scikit-learn` to allow validation of machine learning models with out of sample data.\n",
    "\n",
    "This notebook will use hourly weather data for multiple weather stations (`origin`) for flights from New York airports in 2013.  "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Packages"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "This tutorial uses:\n",
    "* [pandas](https://pandas.pydata.org/docs/)\n",
    "* [statsmodels](https://www.statsmodels.org/stable/index.html)\n",
    "    * [statsmodels.api](https://www.statsmodels.org/stable/api.html#statsmodels-api)\n",
    "* [scikit-learn](https://scikit-learn.org/stable/)\n",
    "    * [sklearn.model_selection](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import statsmodels.api as sm\n",
    "import pandas as pd\n",
    "from sklearn.model_selection import train_test_split"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Reading the data"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The data is from `rdatasets` imported using the Python package `statsmodels`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 26115 entries, 0 to 26114\n",
      "Data columns (total 15 columns):\n",
      " #   Column      Non-Null Count  Dtype  \n",
      "---  ------      --------------  -----  \n",
      " 0   origin      26115 non-null  object \n",
      " 1   year        26115 non-null  int64  \n",
      " 2   month       26115 non-null  int64  \n",
      " 3   day         26115 non-null  int64  \n",
      " 4   hour        26115 non-null  int64  \n",
      " 5   temp        26114 non-null  float64\n",
      " 6   dewp        26114 non-null  float64\n",
      " 7   humid       26114 non-null  float64\n",
      " 8   wind_dir    25655 non-null  float64\n",
      " 9   wind_speed  26111 non-null  float64\n",
      " 10  wind_gust   5337 non-null   float64\n",
      " 11  precip      26115 non-null  float64\n",
      " 12  pressure    23386 non-null  float64\n",
      " 13  visib       26115 non-null  float64\n",
      " 14  time_hour   26115 non-null  object \n",
      "dtypes: float64(9), int64(4), object(2)\n",
      "memory usage: 3.0+ MB\n"
     ]
    }
   ],
   "source": [
    "df = sm.datasets.get_rdataset('weather', 'nycflights13').data\n",
    "df.info()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array(['EWR', 'JFK', 'LGA'], dtype=object)"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.origin.unique()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Fix dates"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**time_hour** contains the hour of the observation as a string. Convert it to a datetime as **observation_time**.  **year**, **month**, **day** and **hour** are duplicates and can be dropped from the dataframe."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>origin</th>\n",
       "      <th>temp</th>\n",
       "      <th>dewp</th>\n",
       "      <th>humid</th>\n",
       "      <th>wind_dir</th>\n",
       "      <th>wind_speed</th>\n",
       "      <th>wind_gust</th>\n",
       "      <th>precip</th>\n",
       "      <th>pressure</th>\n",
       "      <th>visib</th>\n",
       "      <th>observation_time</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>EWR</td>\n",
       "      <td>39.02</td>\n",
       "      <td>26.06</td>\n",
       "      <td>59.37</td>\n",
       "      <td>270.0</td>\n",
       "      <td>10.35702</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1012.0</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-01 01:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>EWR</td>\n",
       "      <td>39.02</td>\n",
       "      <td>26.96</td>\n",
       "      <td>61.63</td>\n",
       "      <td>250.0</td>\n",
       "      <td>8.05546</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1012.3</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-01 02:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>EWR</td>\n",
       "      <td>39.02</td>\n",
       "      <td>28.04</td>\n",
       "      <td>64.43</td>\n",
       "      <td>240.0</td>\n",
       "      <td>11.50780</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1012.5</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-01 03:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>EWR</td>\n",
       "      <td>39.92</td>\n",
       "      <td>28.04</td>\n",
       "      <td>62.21</td>\n",
       "      <td>250.0</td>\n",
       "      <td>12.65858</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1012.2</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-01 04:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>EWR</td>\n",
       "      <td>39.02</td>\n",
       "      <td>28.04</td>\n",
       "      <td>64.43</td>\n",
       "      <td>260.0</td>\n",
       "      <td>12.65858</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1011.9</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-01 05:00:00</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "  origin   temp   dewp  humid  wind_dir  wind_speed  wind_gust  precip  \\\n",
       "0    EWR  39.02  26.06  59.37     270.0    10.35702        NaN     0.0   \n",
       "1    EWR  39.02  26.96  61.63     250.0     8.05546        NaN     0.0   \n",
       "2    EWR  39.02  28.04  64.43     240.0    11.50780        NaN     0.0   \n",
       "3    EWR  39.92  28.04  62.21     250.0    12.65858        NaN     0.0   \n",
       "4    EWR  39.02  28.04  64.43     260.0    12.65858        NaN     0.0   \n",
       "\n",
       "   pressure  visib    observation_time  \n",
       "0    1012.0   10.0 2013-01-01 01:00:00  \n",
       "1    1012.3   10.0 2013-01-01 02:00:00  \n",
       "2    1012.5   10.0 2013-01-01 03:00:00  \n",
       "3    1012.2   10.0 2013-01-01 04:00:00  \n",
       "4    1011.9   10.0 2013-01-01 05:00:00  "
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['observation_time'] = pd.to_datetime(df.time_hour)\n",
    "df.drop(columns=['year', 'month', 'day', 'hour', 'time_hour'], inplace=True)\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Train-test splitting"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>origin</th>\n",
       "      <th>temp</th>\n",
       "      <th>dewp</th>\n",
       "      <th>humid</th>\n",
       "      <th>wind_dir</th>\n",
       "      <th>wind_speed</th>\n",
       "      <th>wind_gust</th>\n",
       "      <th>precip</th>\n",
       "      <th>pressure</th>\n",
       "      <th>visib</th>\n",
       "      <th>observation_time</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>9030</th>\n",
       "      <td>JFK</td>\n",
       "      <td>53.06</td>\n",
       "      <td>33.98</td>\n",
       "      <td>48.16</td>\n",
       "      <td>340.0</td>\n",
       "      <td>9.20624</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1021.6</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-14 17:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22499</th>\n",
       "      <td>LGA</td>\n",
       "      <td>75.92</td>\n",
       "      <td>64.94</td>\n",
       "      <td>68.78</td>\n",
       "      <td>180.0</td>\n",
       "      <td>10.35702</td>\n",
       "      <td>18.41248</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1014.3</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-08-01 09:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6287</th>\n",
       "      <td>EWR</td>\n",
       "      <td>78.08</td>\n",
       "      <td>55.94</td>\n",
       "      <td>46.49</td>\n",
       "      <td>160.0</td>\n",
       "      <td>8.05546</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1017.0</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-09-20 13:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15793</th>\n",
       "      <td>JFK</td>\n",
       "      <td>48.02</td>\n",
       "      <td>33.98</td>\n",
       "      <td>58.07</td>\n",
       "      <td>310.0</td>\n",
       "      <td>13.80936</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1007.6</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-10-23 22:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11971</th>\n",
       "      <td>JFK</td>\n",
       "      <td>64.94</td>\n",
       "      <td>39.92</td>\n",
       "      <td>39.79</td>\n",
       "      <td>300.0</td>\n",
       "      <td>10.35702</td>\n",
       "      <td>21.86482</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1018.3</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-05-17 10:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3598</th>\n",
       "      <td>EWR</td>\n",
       "      <td>73.94</td>\n",
       "      <td>64.94</td>\n",
       "      <td>73.49</td>\n",
       "      <td>220.0</td>\n",
       "      <td>6.90468</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1019.0</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-05-31 04:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4973</th>\n",
       "      <td>EWR</td>\n",
       "      <td>80.96</td>\n",
       "      <td>62.96</td>\n",
       "      <td>54.35</td>\n",
       "      <td>170.0</td>\n",
       "      <td>11.50780</td>\n",
       "      <td>19.56326</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1016.6</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-07-27 13:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6147</th>\n",
       "      <td>EWR</td>\n",
       "      <td>64.94</td>\n",
       "      <td>46.04</td>\n",
       "      <td>50.32</td>\n",
       "      <td>290.0</td>\n",
       "      <td>16.11092</td>\n",
       "      <td>21.86482</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1017.3</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-09-14 17:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15586</th>\n",
       "      <td>JFK</td>\n",
       "      <td>53.06</td>\n",
       "      <td>51.08</td>\n",
       "      <td>92.96</td>\n",
       "      <td>40.0</td>\n",
       "      <td>3.45234</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1023.8</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-10-15 07:00:00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9050</th>\n",
       "      <td>JFK</td>\n",
       "      <td>39.02</td>\n",
       "      <td>24.98</td>\n",
       "      <td>56.77</td>\n",
       "      <td>350.0</td>\n",
       "      <td>9.20624</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1025.3</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2013-01-15 13:00:00</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>20892 rows × 11 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "      origin   temp   dewp  humid  wind_dir  wind_speed  wind_gust  precip  \\\n",
       "9030     JFK  53.06  33.98  48.16     340.0     9.20624        NaN     0.0   \n",
       "22499    LGA  75.92  64.94  68.78     180.0    10.35702   18.41248     0.0   \n",
       "6287     EWR  78.08  55.94  46.49     160.0     8.05546        NaN     0.0   \n",
       "15793    JFK  48.02  33.98  58.07     310.0    13.80936        NaN     0.0   \n",
       "11971    JFK  64.94  39.92  39.79     300.0    10.35702   21.86482     0.0   \n",
       "...      ...    ...    ...    ...       ...         ...        ...     ...   \n",
       "3598     EWR  73.94  64.94  73.49     220.0     6.90468        NaN     0.0   \n",
       "4973     EWR  80.96  62.96  54.35     170.0    11.50780   19.56326     0.0   \n",
       "6147     EWR  64.94  46.04  50.32     290.0    16.11092   21.86482     0.0   \n",
       "15586    JFK  53.06  51.08  92.96      40.0     3.45234        NaN     0.0   \n",
       "9050     JFK  39.02  24.98  56.77     350.0     9.20624        NaN     0.0   \n",
       "\n",
       "       pressure  visib    observation_time  \n",
       "9030     1021.6   10.0 2013-01-14 17:00:00  \n",
       "22499    1014.3   10.0 2013-08-01 09:00:00  \n",
       "6287     1017.0   10.0 2013-09-20 13:00:00  \n",
       "15793    1007.6   10.0 2013-10-23 22:00:00  \n",
       "11971    1018.3   10.0 2013-05-17 10:00:00  \n",
       "...         ...    ...                 ...  \n",
       "3598     1019.0   10.0 2013-05-31 04:00:00  \n",
       "4973     1016.6   10.0 2013-07-27 13:00:00  \n",
       "6147     1017.3   10.0 2013-09-14 17:00:00  \n",
       "15586    1023.8   10.0 2013-10-15 07:00:00  \n",
       "9050     1025.3   10.0 2013-01-15 13:00:00  \n",
       "\n",
       "[20892 rows x 11 columns]"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "train_df, test_df = train_test_split(df, test_size=.2)\n",
    "train_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Train: ['JFK' 'LGA' 'EWR']\n",
      "Test: ['LGA' 'JFK' 'EWR']\n",
      "Train: 2013-01-01 01:00:00 2013-12-30 18:00:00\n",
      "Test: 2013-01-01 02:00:00 2013-12-30 18:00:00\n"
     ]
    }
   ],
   "source": [
    "print(\"Train:\", train_df.origin.unique())\n",
    "print(\"Test:\", test_df.origin.unique())\n",
    "print(\"Train:\", train_df.observation_time.min(), train_df.observation_time.max())\n",
    "print(\"Test:\", test_df.observation_time.min(), test_df.observation_time.max())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}