{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# This notebook does the following:\n",
    "1. Load Criteo Terabyte Click Logs Day 15 as Dask cuDF\n",
    "2. Process and format data\n",
    "3. Train a random forest model using GPUs by leveraging cuML\n",
    "4. Perform prediction & calculate accuracy"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# install necessary libraries\n",
    "\n",
    "#!pip install dask_cudf\n",
    "#!pip install dask_ml\n",
    "#!pip install cuml --upgrade\n",
    "\n",
    "import cuml"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# read data as Dask df\n",
    "\n",
    "from dask.distributed import Client, progress, wait\n",
    "import dask.dataframe as dd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "client = Client()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "client\n",
    "workers = client.has_what().keys()\n",
    "n_workers = len(workers)\n",
    "n_streams = 8 # Performance optimization"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Refer to Dask Dataframe API documentation for various data processing operations:\n",
    "https://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe\n",
    "Note that we are udin"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "import dask_cudf\n",
    "import numpy as np\n",
    "import cudf\n",
    "\n",
    "file = '/data/day_15' \n",
    "header = ['col'+str(i) for i in range (1,41)] #note that according to criteo, the first column in the dataset is Click Through (CT). Consist of 40 columns \n",
    "gdf_original = dask_cudf.read_csv(file, delimiter='\\t', names=header) "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<table style=\"border: 2px solid white;\">\n",
       "<tr>\n",
       "<td style=\"vertical-align: top; border: 0px solid white\">\n",
       "<h3 style=\"text-align: left;\">Client</h3>\n",
       "<ul style=\"text-align: left; list-style: none; margin: 0; padding: 0;\">\n",
       "  <li><b>Scheduler: </b>tcp://rapidsai-scheduler:8786</li>\n",
       "  <li><b>Dashboard: </b><a href='/proxy/rapidsai-scheduler:8787/status' target='_blank'>/proxy/rapidsai-scheduler:8787/status</a></li>\n",
       "</ul>\n",
       "</td>\n",
       "<td style=\"vertical-align: top; border: 0px solid white\">\n",
       "<h3 style=\"text-align: left;\">Cluster</h3>\n",
       "<ul style=\"text-align: left; list-style:none; margin: 0; padding: 0;\">\n",
       "  <li><b>Workers: </b>3</li>\n",
       "  <li><b>Cores: </b>3</li>\n",
       "  <li><b>Memory: </b>354.39 GB</li>\n",
       "</ul>\n",
       "</td>\n",
       "</tr>\n",
       "</table>"
      ],
      "text/plain": [
       "<Client: 'tcp://172.17.1.196:8786' processes=3 threads=3, memory=354.39 GB>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "client"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'tcp://172.17.1.221:35641': None,\n",
       " 'tcp://172.17.1.232:46093': None,\n",
       " 'tcp://172.17.2.23:35103': None}"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "client.run(cudf.set_allocator, \"managed\")  # Uses managed memory instead of \"default\""
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>col1</th>\n",
       "      <th>col2</th>\n",
       "      <th>col3</th>\n",
       "      <th>col4</th>\n",
       "      <th>col5</th>\n",
       "      <th>col6</th>\n",
       "      <th>col7</th>\n",
       "      <th>col8</th>\n",
       "      <th>col9</th>\n",
       "      <th>col10</th>\n",
       "      <th>...</th>\n",
       "      <th>col31</th>\n",
       "      <th>col32</th>\n",
       "      <th>col33</th>\n",
       "      <th>col34</th>\n",
       "      <th>col35</th>\n",
       "      <th>col36</th>\n",
       "      <th>col37</th>\n",
       "      <th>col38</th>\n",
       "      <th>col39</th>\n",
       "      <th>col40</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>3</td>\n",
       "      <td>1</td>\n",
       "      <td>...</td>\n",
       "      <td>1f7fc70b</td>\n",
       "      <td>b8170bba</td>\n",
       "      <td>9512c20b</td>\n",
       "      <td>31a9f3b3</td>\n",
       "      <td>228aee9b</td>\n",
       "      <td>b74c6548</td>\n",
       "      <td>59f9dd38</td>\n",
       "      <td>165fbf32</td>\n",
       "      <td>0b3c06d0</td>\n",
       "      <td>2ccea557</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0</td>\n",
       "      <td>12.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1</td>\n",
       "      <td>3</td>\n",
       "      <td>...</td>\n",
       "      <td>d20856aa</td>\n",
       "      <td>b6bc86c5</td>\n",
       "      <td>108a0699</td>\n",
       "      <td>e7ef7c20</td>\n",
       "      <td>113b1789</td>\n",
       "      <td>670bb82a</td>\n",
       "      <td>0c427c16</td>\n",
       "      <td>fc6fc912</td>\n",
       "      <td>991321ea</td>\n",
       "      <td>2997ef88</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>66.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>753da5f3</td>\n",
       "      <td>b8170bba</td>\n",
       "      <td>9512c20b</td>\n",
       "      <td>1a0af648</td>\n",
       "      <td>13b96cbc</td>\n",
       "      <td>3f2bae22</td>\n",
       "      <td>209c86ee</td>\n",
       "      <td>165fbf32</td>\n",
       "      <td>ff654802</td>\n",
       "      <td>2ccea557</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>...</td>\n",
       "      <td>1f7fc70b</td>\n",
       "      <td>b8170bba</td>\n",
       "      <td>7a7178b2</td>\n",
       "      <td>0da1444b</td>\n",
       "      <td>cf12754e</td>\n",
       "      <td>af22e988</td>\n",
       "      <td>c483d0dd</td>\n",
       "      <td>75350c8a</td>\n",
       "      <td>57e36578</td>\n",
       "      <td>ed10571d</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>4.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>7.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>59</td>\n",
       "      <td>4</td>\n",
       "      <td>...</td>\n",
       "      <td>d20856aa</td>\n",
       "      <td>a1eb1511</td>\n",
       "      <td>9512c20b</td>\n",
       "      <td>44fa1260</td>\n",
       "      <td>c59d0ef0</td>\n",
       "      <td>c41079d6</td>\n",
       "      <td>38d2af52</td>\n",
       "      <td>37dcf7a2</td>\n",
       "      <td>ff654802</td>\n",
       "      <td>b757e957</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5 rows × 40 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "   col1  col2   col3  col4  col5  col6  col7  col8  col9  col10  ...  \\\n",
       "0     0   2.0    9.0  <NA>   1.0  <NA>   0.0   0.0     3      1  ...   \n",
       "1     0  12.0  166.0   3.0   3.0  <NA>   1.0   0.0     1      3  ...   \n",
       "2     0   1.0   66.0  <NA>  <NA>  <NA>  <NA>  <NA>     2      0  ...   \n",
       "3     0   1.0   <NA>  <NA>  <NA>  <NA>  <NA>  <NA>     2      1  ...   \n",
       "4     0   2.0   <NA>   4.0   4.0  <NA>   7.0   0.0    59      4  ...   \n",
       "\n",
       "      col31     col32     col33     col34     col35     col36     col37  \\\n",
       "0  1f7fc70b  b8170bba  9512c20b  31a9f3b3  228aee9b  b74c6548  59f9dd38   \n",
       "1  d20856aa  b6bc86c5  108a0699  e7ef7c20  113b1789  670bb82a  0c427c16   \n",
       "2  753da5f3  b8170bba  9512c20b  1a0af648  13b96cbc  3f2bae22  209c86ee   \n",
       "3  1f7fc70b  b8170bba  7a7178b2  0da1444b  cf12754e  af22e988  c483d0dd   \n",
       "4  d20856aa  a1eb1511  9512c20b  44fa1260  c59d0ef0  c41079d6  38d2af52   \n",
       "\n",
       "      col38     col39     col40  \n",
       "0  165fbf32  0b3c06d0  2ccea557  \n",
       "1  fc6fc912  991321ea  2997ef88  \n",
       "2  165fbf32  ff654802  2ccea557  \n",
       "3  75350c8a  57e36578  ed10571d  \n",
       "4  37dcf7a2  ff654802  b757e957  \n",
       "\n",
       "[5 rows x 40 columns]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "gdf_original.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "col1       int64\n",
       "col2     float64\n",
       "col3     float64\n",
       "col4     float64\n",
       "col5     float64\n",
       "col6     float64\n",
       "col7     float64\n",
       "col8     float64\n",
       "col9       int64\n",
       "col10      int64\n",
       "col11    float64\n",
       "col12    float64\n",
       "col13    float64\n",
       "col14    float64\n",
       "dtype: object"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "gdf_sliced = gdf_original.iloc[:, 0:14]\n",
    "# gdf_sliced_small = gdf_sliced.sample(frac=0.1)\n",
    "gdf_sliced_small = gdf_sliced\n",
    "gdf_sliced.dtypes"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>col1</th>\n",
       "      <th>col2</th>\n",
       "      <th>col3</th>\n",
       "      <th>col4</th>\n",
       "      <th>col5</th>\n",
       "      <th>col6</th>\n",
       "      <th>col7</th>\n",
       "      <th>col8</th>\n",
       "      <th>col9</th>\n",
       "      <th>col10</th>\n",
       "      <th>col11</th>\n",
       "      <th>col12</th>\n",
       "      <th>col13</th>\n",
       "      <th>col14</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>9.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>3</td>\n",
       "      <td>1</td>\n",
       "      <td>0.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1036.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0</td>\n",
       "      <td>12.0</td>\n",
       "      <td>166.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1</td>\n",
       "      <td>3</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>28.0</td>\n",
       "      <td>3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>66.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>1211.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>8.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>4.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>7.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>59</td>\n",
       "      <td>4</td>\n",
       "      <td>1.0</td>\n",
       "      <td>&lt;NA&gt;</td>\n",
       "      <td>378.0</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   col1  col2   col3  col4  col5  col6  col7  col8  col9  col10 col11 col12  \\\n",
       "0     0   2.0    9.0  <NA>   1.0  <NA>   0.0   0.0     3      1   0.0  <NA>   \n",
       "1     0  12.0  166.0   3.0   3.0  <NA>   1.0   0.0     1      3   1.0  <NA>   \n",
       "2     0   1.0   66.0  <NA>  <NA>  <NA>  <NA>  <NA>     2      0  <NA>  <NA>   \n",
       "3     0   1.0   <NA>  <NA>  <NA>  <NA>  <NA>  <NA>     2      1  <NA>  <NA>   \n",
       "4     0   2.0   <NA>   4.0   4.0  <NA>   7.0   0.0    59      4   1.0  <NA>   \n",
       "\n",
       "    col13 col14  \n",
       "0  1036.0  <NA>  \n",
       "1    28.0   3.0  \n",
       "2  1211.0  <NA>  \n",
       "3     8.0  <NA>  \n",
       "4   378.0   4.0  "
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "gdf_sliced_small.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "from cuml.dask.ensemble import RandomForestClassifier as cumlDaskRF\n",
    "from cuml.dask.common import utils as dask_utils"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Refer to Official Dask Documentation for Best Practices on repartitioning your Dask Dataframe:\n",
    "https://docs.dask.org/en/latest/dataframe-best-practices.html#repartition-to-reduce-overhead"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "# You should aim for partitions that have around 100MB of data each.\n",
    "gdf_sliced_small = gdf_sliced_small.astype(np.float32).repartition(npartitions=450) \n",
    "\n",
    "# gdf = gdf.persist()  # if on a distributed system"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "gdf_sliced_small = gdf_sliced_small.fillna(0)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "col1     float32\n",
       "col2     float32\n",
       "col3     float32\n",
       "col4     float32\n",
       "col5     float32\n",
       "col6     float32\n",
       "col7     float32\n",
       "col8     float32\n",
       "col9     float32\n",
       "col10    float32\n",
       "col11    float32\n",
       "col12    float32\n",
       "col13    float32\n",
       "col14    float32\n",
       "dtype: object"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "gdf_sliced_small.dtypes"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<dask_cudf.Series | 2508 tasks | 450 npartitions>"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# split data into training and Y\n",
    "Y = gdf_sliced_small.pop('col1') # first column is binary (click or not)\n",
    "Y = Y.astype(np.int32)\n",
    "Y"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "CPU times: user 4.1 s, sys: 825 ms, total: 4.92 s\n",
      "Wall time: 50min 46s\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "<cuml.dask.ensemble.randomforestclassifier.RandomForestClassifier at 0x7fbb7a88a250>"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "%%time\n",
    "\n",
    "# Random Forest building parameters\n",
    "n_streams = 8 # optimization\n",
    "max_depth = 10\n",
    "n_bins = 16\n",
    "n_trees = 10\n",
    "\n",
    "cuml_model = cumlDaskRF(max_depth=max_depth, n_estimators=n_trees, n_bins=n_bins, n_streams=n_streams, verbose=True, client=client)\n",
    "\n",
    "cuml_model.fit(gdf_sliced_small, Y)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><strong>Dask DataFrame Structure:</strong></div>\n",
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>col2</th>\n",
       "      <th>col3</th>\n",
       "      <th>col4</th>\n",
       "      <th>col5</th>\n",
       "      <th>col6</th>\n",
       "      <th>col7</th>\n",
       "      <th>col8</th>\n",
       "      <th>col9</th>\n",
       "      <th>col10</th>\n",
       "      <th>col11</th>\n",
       "      <th>col12</th>\n",
       "      <th>col13</th>\n",
       "      <th>col14</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>npartitions=450</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "      <td>float32</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>\n",
       "<div>Dask Name: drop_by_shallow_copy, 2235 tasks</div>"
      ],
      "text/plain": [
       "<dask_cudf.DataFrame | 2235 tasks | 450 npartitions>"
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# split data into gdf_test and test_y for testing set\n",
    "gdf_test = gdf_original.loc['0':'6000']\n",
    "gdf_test = gdf_test.iloc[:, 0:14]\n",
    "gdf_test = gdf_test.astype(np.float32).repartition(npartitions=450)\n",
    "gdf_test = gdf_test.fillna(0)\n",
    "test_y = gdf_test.pop('col1') # first column is binary (click or not)\n",
    "test_y = test_y.astype(np.int32)\n",
    "gdf_test"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%%time\n",
    "\n",
    "# Model prediction\n",
    "pred_df = cuml_model.predict(gdf_sliced_small)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# converting from Dask cuDF Series to NumPy array\n",
    "pred_df = pred_df.compute().to_array()\n",
    "pred_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# converting from Dask cuDF Series to NumPy array\n",
    "Y = Y.compute().to_array()\n",
    "Y"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn import metrics\n",
    "# Model Accuracy\n",
    "print(\"Accuracy:\",metrics.accuracy_score(Y, pred_df))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}