{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "fdfcf286",
   "metadata": {},
   "source": [
    "# PyCaret Fugue Integration\n",
    "\n",
    "[Fugue](https://github.com/fugue-project/fugue) is a low-code unified interface for different computing frameworks such as Spark, Dask and Pandas. PyCaret is using Fugue to support distributed computing scenarios.\n",
    "\n",
    "# Hello World\n",
    "\n",
    "# Classification\n",
    "\n",
    "Let's start with the most standard example, the code is exactly the same as the local version, there is no magic."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "398b0e09",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_47828_row17_col1, #T_47828_row44_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_47828_\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_47828_row0_col0\" class=\"data row0 col0\" >session_id</td>\n",
       "      <td id=\"T_47828_row0_col1\" class=\"data row0 col1\" >5517</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_47828_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_47828_row1_col1\" class=\"data row1 col1\" >Purchase</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_47828_row2_col0\" class=\"data row2 col0\" >Target Type</td>\n",
       "      <td id=\"T_47828_row2_col1\" class=\"data row2 col1\" >Binary</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_47828_row3_col0\" class=\"data row3 col0\" >Label Encoded</td>\n",
       "      <td id=\"T_47828_row3_col1\" class=\"data row3 col1\" >CH: 0, MM: 1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_47828_row4_col0\" class=\"data row4 col0\" >Original Data</td>\n",
       "      <td id=\"T_47828_row4_col1\" class=\"data row4 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_47828_row5_col0\" class=\"data row5 col0\" >Missing Values</td>\n",
       "      <td id=\"T_47828_row5_col1\" class=\"data row5 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_47828_row6_col0\" class=\"data row6 col0\" >Numeric Features</td>\n",
       "      <td id=\"T_47828_row6_col1\" class=\"data row6 col1\" >13</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_47828_row7_col0\" class=\"data row7 col0\" >Categorical Features</td>\n",
       "      <td id=\"T_47828_row7_col1\" class=\"data row7 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_47828_row8_col0\" class=\"data row8 col0\" >Ordinal Features</td>\n",
       "      <td id=\"T_47828_row8_col1\" class=\"data row8 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_47828_row9_col0\" class=\"data row9 col0\" >High Cardinality Features</td>\n",
       "      <td id=\"T_47828_row9_col1\" class=\"data row9 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_47828_row10_col0\" class=\"data row10 col0\" >High Cardinality Method</td>\n",
       "      <td id=\"T_47828_row10_col1\" class=\"data row10 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_47828_row11_col0\" class=\"data row11 col0\" >Transformed Train Set</td>\n",
       "      <td id=\"T_47828_row11_col1\" class=\"data row11 col1\" >(748, 17)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_47828_row12_col0\" class=\"data row12 col0\" >Transformed Test Set</td>\n",
       "      <td id=\"T_47828_row12_col1\" class=\"data row12 col1\" >(322, 17)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_47828_row13_col0\" class=\"data row13 col0\" >Shuffle Train-Test</td>\n",
       "      <td id=\"T_47828_row13_col1\" class=\"data row13 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_47828_row14_col0\" class=\"data row14 col0\" >Stratify Train-Test</td>\n",
       "      <td id=\"T_47828_row14_col1\" class=\"data row14 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_47828_row15_col0\" class=\"data row15 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_47828_row15_col1\" class=\"data row15 col1\" >StratifiedKFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_47828_row16_col0\" class=\"data row16 col0\" >Fold Number</td>\n",
       "      <td id=\"T_47828_row16_col1\" class=\"data row16 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_47828_row17_col0\" class=\"data row17 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_47828_row17_col1\" class=\"data row17 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_47828_row18_col0\" class=\"data row18 col0\" >Use GPU</td>\n",
       "      <td id=\"T_47828_row18_col1\" class=\"data row18 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_47828_row19_col0\" class=\"data row19 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_47828_row19_col1\" class=\"data row19 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_47828_row20_col0\" class=\"data row20 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_47828_row20_col1\" class=\"data row20 col1\" >clf-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_47828_row21_col0\" class=\"data row21 col0\" >USI</td>\n",
       "      <td id=\"T_47828_row21_col1\" class=\"data row21 col1\" >b06e</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_47828_row22_col0\" class=\"data row22 col0\" >Imputation Type</td>\n",
       "      <td id=\"T_47828_row22_col1\" class=\"data row22 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_47828_row23_col0\" class=\"data row23 col0\" >Iterative Imputation Iteration</td>\n",
       "      <td id=\"T_47828_row23_col1\" class=\"data row23 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row24\" class=\"row_heading level0 row24\" >24</th>\n",
       "      <td id=\"T_47828_row24_col0\" class=\"data row24 col0\" >Numeric Imputer</td>\n",
       "      <td id=\"T_47828_row24_col1\" class=\"data row24 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row25\" class=\"row_heading level0 row25\" >25</th>\n",
       "      <td id=\"T_47828_row25_col0\" class=\"data row25 col0\" >Iterative Imputation Numeric Model</td>\n",
       "      <td id=\"T_47828_row25_col1\" class=\"data row25 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row26\" class=\"row_heading level0 row26\" >26</th>\n",
       "      <td id=\"T_47828_row26_col0\" class=\"data row26 col0\" >Categorical Imputer</td>\n",
       "      <td id=\"T_47828_row26_col1\" class=\"data row26 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row27\" class=\"row_heading level0 row27\" >27</th>\n",
       "      <td id=\"T_47828_row27_col0\" class=\"data row27 col0\" >Iterative Imputation Categorical Model</td>\n",
       "      <td id=\"T_47828_row27_col1\" class=\"data row27 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row28\" class=\"row_heading level0 row28\" >28</th>\n",
       "      <td id=\"T_47828_row28_col0\" class=\"data row28 col0\" >Unknown Categoricals Handling</td>\n",
       "      <td id=\"T_47828_row28_col1\" class=\"data row28 col1\" >least_frequent</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row29\" class=\"row_heading level0 row29\" >29</th>\n",
       "      <td id=\"T_47828_row29_col0\" class=\"data row29 col0\" >Normalize</td>\n",
       "      <td id=\"T_47828_row29_col1\" class=\"data row29 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row30\" class=\"row_heading level0 row30\" >30</th>\n",
       "      <td id=\"T_47828_row30_col0\" class=\"data row30 col0\" >Normalize Method</td>\n",
       "      <td id=\"T_47828_row30_col1\" class=\"data row30 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row31\" class=\"row_heading level0 row31\" >31</th>\n",
       "      <td id=\"T_47828_row31_col0\" class=\"data row31 col0\" >Transformation</td>\n",
       "      <td id=\"T_47828_row31_col1\" class=\"data row31 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row32\" class=\"row_heading level0 row32\" >32</th>\n",
       "      <td id=\"T_47828_row32_col0\" class=\"data row32 col0\" >Transformation Method</td>\n",
       "      <td id=\"T_47828_row32_col1\" class=\"data row32 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row33\" class=\"row_heading level0 row33\" >33</th>\n",
       "      <td id=\"T_47828_row33_col0\" class=\"data row33 col0\" >PCA</td>\n",
       "      <td id=\"T_47828_row33_col1\" class=\"data row33 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row34\" class=\"row_heading level0 row34\" >34</th>\n",
       "      <td id=\"T_47828_row34_col0\" class=\"data row34 col0\" >PCA Method</td>\n",
       "      <td id=\"T_47828_row34_col1\" class=\"data row34 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row35\" class=\"row_heading level0 row35\" >35</th>\n",
       "      <td id=\"T_47828_row35_col0\" class=\"data row35 col0\" >PCA Components</td>\n",
       "      <td id=\"T_47828_row35_col1\" class=\"data row35 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row36\" class=\"row_heading level0 row36\" >36</th>\n",
       "      <td id=\"T_47828_row36_col0\" class=\"data row36 col0\" >Ignore Low Variance</td>\n",
       "      <td id=\"T_47828_row36_col1\" class=\"data row36 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row37\" class=\"row_heading level0 row37\" >37</th>\n",
       "      <td id=\"T_47828_row37_col0\" class=\"data row37 col0\" >Combine Rare Levels</td>\n",
       "      <td id=\"T_47828_row37_col1\" class=\"data row37 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row38\" class=\"row_heading level0 row38\" >38</th>\n",
       "      <td id=\"T_47828_row38_col0\" class=\"data row38 col0\" >Rare Level Threshold</td>\n",
       "      <td id=\"T_47828_row38_col1\" class=\"data row38 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row39\" class=\"row_heading level0 row39\" >39</th>\n",
       "      <td id=\"T_47828_row39_col0\" class=\"data row39 col0\" >Numeric Binning</td>\n",
       "      <td id=\"T_47828_row39_col1\" class=\"data row39 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row40\" class=\"row_heading level0 row40\" >40</th>\n",
       "      <td id=\"T_47828_row40_col0\" class=\"data row40 col0\" >Remove Outliers</td>\n",
       "      <td id=\"T_47828_row40_col1\" class=\"data row40 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row41\" class=\"row_heading level0 row41\" >41</th>\n",
       "      <td id=\"T_47828_row41_col0\" class=\"data row41 col0\" >Outliers Threshold</td>\n",
       "      <td id=\"T_47828_row41_col1\" class=\"data row41 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row42\" class=\"row_heading level0 row42\" >42</th>\n",
       "      <td id=\"T_47828_row42_col0\" class=\"data row42 col0\" >Remove Multicollinearity</td>\n",
       "      <td id=\"T_47828_row42_col1\" class=\"data row42 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row43\" class=\"row_heading level0 row43\" >43</th>\n",
       "      <td id=\"T_47828_row43_col0\" class=\"data row43 col0\" >Multicollinearity Threshold</td>\n",
       "      <td id=\"T_47828_row43_col1\" class=\"data row43 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row44\" class=\"row_heading level0 row44\" >44</th>\n",
       "      <td id=\"T_47828_row44_col0\" class=\"data row44 col0\" >Remove Perfect Collinearity</td>\n",
       "      <td id=\"T_47828_row44_col1\" class=\"data row44 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row45\" class=\"row_heading level0 row45\" >45</th>\n",
       "      <td id=\"T_47828_row45_col0\" class=\"data row45 col0\" >Clustering</td>\n",
       "      <td id=\"T_47828_row45_col1\" class=\"data row45 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row46\" class=\"row_heading level0 row46\" >46</th>\n",
       "      <td id=\"T_47828_row46_col0\" class=\"data row46 col0\" >Clustering Iteration</td>\n",
       "      <td id=\"T_47828_row46_col1\" class=\"data row46 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row47\" class=\"row_heading level0 row47\" >47</th>\n",
       "      <td id=\"T_47828_row47_col0\" class=\"data row47 col0\" >Polynomial Features</td>\n",
       "      <td id=\"T_47828_row47_col1\" class=\"data row47 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row48\" class=\"row_heading level0 row48\" >48</th>\n",
       "      <td id=\"T_47828_row48_col0\" class=\"data row48 col0\" >Polynomial Degree</td>\n",
       "      <td id=\"T_47828_row48_col1\" class=\"data row48 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row49\" class=\"row_heading level0 row49\" >49</th>\n",
       "      <td id=\"T_47828_row49_col0\" class=\"data row49 col0\" >Trignometry Features</td>\n",
       "      <td id=\"T_47828_row49_col1\" class=\"data row49 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row50\" class=\"row_heading level0 row50\" >50</th>\n",
       "      <td id=\"T_47828_row50_col0\" class=\"data row50 col0\" >Polynomial Threshold</td>\n",
       "      <td id=\"T_47828_row50_col1\" class=\"data row50 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row51\" class=\"row_heading level0 row51\" >51</th>\n",
       "      <td id=\"T_47828_row51_col0\" class=\"data row51 col0\" >Group Features</td>\n",
       "      <td id=\"T_47828_row51_col1\" class=\"data row51 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row52\" class=\"row_heading level0 row52\" >52</th>\n",
       "      <td id=\"T_47828_row52_col0\" class=\"data row52 col0\" >Feature Selection</td>\n",
       "      <td id=\"T_47828_row52_col1\" class=\"data row52 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row53\" class=\"row_heading level0 row53\" >53</th>\n",
       "      <td id=\"T_47828_row53_col0\" class=\"data row53 col0\" >Feature Selection Method</td>\n",
       "      <td id=\"T_47828_row53_col1\" class=\"data row53 col1\" >classic</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row54\" class=\"row_heading level0 row54\" >54</th>\n",
       "      <td id=\"T_47828_row54_col0\" class=\"data row54 col0\" >Features Selection Threshold</td>\n",
       "      <td id=\"T_47828_row54_col1\" class=\"data row54 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row55\" class=\"row_heading level0 row55\" >55</th>\n",
       "      <td id=\"T_47828_row55_col0\" class=\"data row55 col0\" >Feature Interaction</td>\n",
       "      <td id=\"T_47828_row55_col1\" class=\"data row55 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row56\" class=\"row_heading level0 row56\" >56</th>\n",
       "      <td id=\"T_47828_row56_col0\" class=\"data row56 col0\" >Feature Ratio</td>\n",
       "      <td id=\"T_47828_row56_col1\" class=\"data row56 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row57\" class=\"row_heading level0 row57\" >57</th>\n",
       "      <td id=\"T_47828_row57_col0\" class=\"data row57 col0\" >Interaction Threshold</td>\n",
       "      <td id=\"T_47828_row57_col1\" class=\"data row57 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row58\" class=\"row_heading level0 row58\" >58</th>\n",
       "      <td id=\"T_47828_row58_col0\" class=\"data row58 col0\" >Fix Imbalance</td>\n",
       "      <td id=\"T_47828_row58_col1\" class=\"data row58 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_47828_level0_row59\" class=\"row_heading level0 row59\" >59</th>\n",
       "      <td id=\"T_47828_row59_col0\" class=\"data row59 col0\" >Fix Imbalance Method</td>\n",
       "      <td id=\"T_47828_row59_col1\" class=\"data row59 col1\" >SMOTE</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7efc22d3e940>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.classification import *\n",
    "\n",
    "setup(data=get_data(\"juice\"), target = 'Purchase', n_jobs=1)\n",
    "\n",
    "test_models = models().index.tolist()[:5]"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "37b1957a",
   "metadata": {},
   "source": [
    "`compare_model` is also exactly the same if you don't want to use a distributed system"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "c8cc5a40",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_1f349_ th {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_1f349_row0_col0, #T_1f349_row0_col3, #T_1f349_row1_col0, #T_1f349_row1_col1, #T_1f349_row1_col2, #T_1f349_row1_col4, #T_1f349_row1_col5, #T_1f349_row1_col6, #T_1f349_row1_col7, #T_1f349_row2_col0, #T_1f349_row2_col1, #T_1f349_row2_col2, #T_1f349_row2_col3, #T_1f349_row2_col4, #T_1f349_row2_col5, #T_1f349_row2_col6, #T_1f349_row2_col7, #T_1f349_row3_col0, #T_1f349_row3_col1, #T_1f349_row3_col2, #T_1f349_row3_col3, #T_1f349_row3_col4, #T_1f349_row3_col5, #T_1f349_row3_col6, #T_1f349_row3_col7, #T_1f349_row4_col0, #T_1f349_row4_col1, #T_1f349_row4_col2, #T_1f349_row4_col3, #T_1f349_row4_col4, #T_1f349_row4_col5, #T_1f349_row4_col6, #T_1f349_row4_col7 {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_1f349_row0_col1, #T_1f349_row0_col2, #T_1f349_row0_col4, #T_1f349_row0_col5, #T_1f349_row0_col6, #T_1f349_row0_col7, #T_1f349_row1_col3 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "}\n",
       "#T_1f349_row0_col8, #T_1f349_row2_col8, #T_1f349_row3_col8, #T_1f349_row4_col8 {\n",
       "  text-align: left;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "#T_1f349_row1_col8 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_1f349_\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th class=\"col_heading level0 col0\" >Model</th>\n",
       "      <th class=\"col_heading level0 col1\" >Accuracy</th>\n",
       "      <th class=\"col_heading level0 col2\" >AUC</th>\n",
       "      <th class=\"col_heading level0 col3\" >Recall</th>\n",
       "      <th class=\"col_heading level0 col4\" >Prec.</th>\n",
       "      <th class=\"col_heading level0 col5\" >F1</th>\n",
       "      <th class=\"col_heading level0 col6\" >Kappa</th>\n",
       "      <th class=\"col_heading level0 col7\" >MCC</th>\n",
       "      <th class=\"col_heading level0 col8\" >TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_1f349_level0_row0\" class=\"row_heading level0 row0\" >lr</th>\n",
       "      <td id=\"T_1f349_row0_col0\" class=\"data row0 col0\" >Logistic Regression</td>\n",
       "      <td id=\"T_1f349_row0_col1\" class=\"data row0 col1\" >0.8395</td>\n",
       "      <td id=\"T_1f349_row0_col2\" class=\"data row0 col2\" >0.8982</td>\n",
       "      <td id=\"T_1f349_row0_col3\" class=\"data row0 col3\" >0.7399</td>\n",
       "      <td id=\"T_1f349_row0_col4\" class=\"data row0 col4\" >0.8363</td>\n",
       "      <td id=\"T_1f349_row0_col5\" class=\"data row0 col5\" >0.7833</td>\n",
       "      <td id=\"T_1f349_row0_col6\" class=\"data row0 col6\" >0.6565</td>\n",
       "      <td id=\"T_1f349_row0_col7\" class=\"data row0 col7\" >0.6614</td>\n",
       "      <td id=\"T_1f349_row0_col8\" class=\"data row0 col8\" >0.1390</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_1f349_level0_row1\" class=\"row_heading level0 row1\" >nb</th>\n",
       "      <td id=\"T_1f349_row1_col0\" class=\"data row1 col0\" >Naive Bayes</td>\n",
       "      <td id=\"T_1f349_row1_col1\" class=\"data row1 col1\" >0.7646</td>\n",
       "      <td id=\"T_1f349_row1_col2\" class=\"data row1 col2\" >0.8387</td>\n",
       "      <td id=\"T_1f349_row1_col3\" class=\"data row1 col3\" >0.7846</td>\n",
       "      <td id=\"T_1f349_row1_col4\" class=\"data row1 col4\" >0.6776</td>\n",
       "      <td id=\"T_1f349_row1_col5\" class=\"data row1 col5\" >0.7244</td>\n",
       "      <td id=\"T_1f349_row1_col6\" class=\"data row1 col6\" >0.5219</td>\n",
       "      <td id=\"T_1f349_row1_col7\" class=\"data row1 col7\" >0.5291</td>\n",
       "      <td id=\"T_1f349_row1_col8\" class=\"data row1 col8\" >0.0080</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_1f349_level0_row2\" class=\"row_heading level0 row2\" >dt</th>\n",
       "      <td id=\"T_1f349_row2_col0\" class=\"data row2 col0\" >Decision Tree Classifier</td>\n",
       "      <td id=\"T_1f349_row2_col1\" class=\"data row2 col1\" >0.7487</td>\n",
       "      <td id=\"T_1f349_row2_col2\" class=\"data row2 col2\" >0.7420</td>\n",
       "      <td id=\"T_1f349_row2_col3\" class=\"data row2 col3\" >0.6848</td>\n",
       "      <td id=\"T_1f349_row2_col4\" class=\"data row2 col4\" >0.6796</td>\n",
       "      <td id=\"T_1f349_row2_col5\" class=\"data row2 col5\" >0.6799</td>\n",
       "      <td id=\"T_1f349_row2_col6\" class=\"data row2 col6\" >0.4734</td>\n",
       "      <td id=\"T_1f349_row2_col7\" class=\"data row2 col7\" >0.4757</td>\n",
       "      <td id=\"T_1f349_row2_col8\" class=\"data row2 col8\" >0.0100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_1f349_level0_row3\" class=\"row_heading level0 row3\" >knn</th>\n",
       "      <td id=\"T_1f349_row3_col0\" class=\"data row3 col0\" >K Neighbors Classifier</td>\n",
       "      <td id=\"T_1f349_row3_col1\" class=\"data row3 col1\" >0.7085</td>\n",
       "      <td id=\"T_1f349_row3_col2\" class=\"data row3 col2\" >0.7508</td>\n",
       "      <td id=\"T_1f349_row3_col3\" class=\"data row3 col3\" >0.5820</td>\n",
       "      <td id=\"T_1f349_row3_col4\" class=\"data row3 col4\" >0.6417</td>\n",
       "      <td id=\"T_1f349_row3_col5\" class=\"data row3 col5\" >0.6075</td>\n",
       "      <td id=\"T_1f349_row3_col6\" class=\"data row3 col6\" >0.3770</td>\n",
       "      <td id=\"T_1f349_row3_col7\" class=\"data row3 col7\" >0.3802</td>\n",
       "      <td id=\"T_1f349_row3_col8\" class=\"data row3 col8\" >0.0110</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_1f349_level0_row4\" class=\"row_heading level0 row4\" >svm</th>\n",
       "      <td id=\"T_1f349_row4_col0\" class=\"data row4 col0\" >SVM - Linear Kernel</td>\n",
       "      <td id=\"T_1f349_row4_col1\" class=\"data row4 col1\" >0.5578</td>\n",
       "      <td id=\"T_1f349_row4_col2\" class=\"data row4 col2\" >0.0000</td>\n",
       "      <td id=\"T_1f349_row4_col3\" class=\"data row4 col3\" >0.6138</td>\n",
       "      <td id=\"T_1f349_row4_col4\" class=\"data row4 col4\" >0.4659</td>\n",
       "      <td id=\"T_1f349_row4_col5\" class=\"data row4 col5\" >0.4345</td>\n",
       "      <td id=\"T_1f349_row4_col6\" class=\"data row4 col6\" >0.1344</td>\n",
       "      <td id=\"T_1f349_row4_col7\" class=\"data row4 col7\" >0.1648</td>\n",
       "      <td id=\"T_1f349_row4_col8\" class=\"data row4 col8\" >0.0100</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7efccfeb1400>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=5517, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " GaussianNB(priors=None, var_smoothing=1e-09)]"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "86aa67d8",
   "metadata": {},
   "source": [
    "Now let's make it distributed, as a toy case, on dask. The only thing changed is an additional parameter `parallel_backend`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "e7e649ce",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=5517, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " GaussianNB(priors=None, var_smoothing=1e-09)]"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "3953dc74",
   "metadata": {},
   "source": [
    "In order to use Spark as the execution engine, you must have access to a Spark cluster, and you must have a `SparkSession`, let's initialize a local Spark session"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "998bd694",
   "metadata": {},
   "outputs": [],
   "source": [
    "from pyspark.sql import SparkSession\n",
    "\n",
    "spark = SparkSession.builder.getOrCreate()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0f5d91d6",
   "metadata": {},
   "source": [
    "Now just change `parallel_backend` to this session object, you make it run on Spark. You must understand this is a toy case. In the real situation, you need to have a SparkSession pointing to a real Spark cluster to enjoy the power of Spark"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "87834c91",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "                                                                                \r"
     ]
    },
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=4418, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " GaussianNB(priors=None, var_smoothing=1e-09)]"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(spark))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c490458a",
   "metadata": {},
   "source": [
    "In the end, you can `pull` to get the metrics table"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "f74ca178",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8276</td>\n",
       "      <td>0.8905</td>\n",
       "      <td>0.7420</td>\n",
       "      <td>0.8141</td>\n",
       "      <td>0.7732</td>\n",
       "      <td>0.6351</td>\n",
       "      <td>0.6401</td>\n",
       "      <td>0.384</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7674</td>\n",
       "      <td>0.8394</td>\n",
       "      <td>0.7674</td>\n",
       "      <td>0.6757</td>\n",
       "      <td>0.7174</td>\n",
       "      <td>0.5213</td>\n",
       "      <td>0.5258</td>\n",
       "      <td>0.015</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7594</td>\n",
       "      <td>0.7549</td>\n",
       "      <td>0.6970</td>\n",
       "      <td>0.6897</td>\n",
       "      <td>0.6911</td>\n",
       "      <td>0.4946</td>\n",
       "      <td>0.4967</td>\n",
       "      <td>0.040</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7285</td>\n",
       "      <td>0.7716</td>\n",
       "      <td>0.6052</td>\n",
       "      <td>0.6750</td>\n",
       "      <td>0.6367</td>\n",
       "      <td>0.4214</td>\n",
       "      <td>0.4239</td>\n",
       "      <td>0.012</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5162</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.5655</td>\n",
       "      <td>0.2674</td>\n",
       "      <td>0.3505</td>\n",
       "      <td>0.0500</td>\n",
       "      <td>0.0576</td>\n",
       "      <td>0.020</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "lr        Logistic Regression    0.8276  0.8905  0.7420  0.8141  0.7732   \n",
       "nb                Naive Bayes    0.7674  0.8394  0.7674  0.6757  0.7174   \n",
       "dt   Decision Tree Classifier    0.7594  0.7549  0.6970  0.6897  0.6911   \n",
       "knn    K Neighbors Classifier    0.7285  0.7716  0.6052  0.6750  0.6367   \n",
       "svm       SVM - Linear Kernel    0.5162  0.0000  0.5655  0.2674  0.3505   \n",
       "\n",
       "      Kappa     MCC  TT (Sec)  \n",
       "lr   0.6351  0.6401     0.384  \n",
       "nb   0.5213  0.5258     0.015  \n",
       "dt   0.4946  0.4967     0.040  \n",
       "knn  0.4214  0.4239     0.012  \n",
       "svm  0.0500  0.0576     0.020  "
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "76a1c5be",
   "metadata": {},
   "source": [
    "# Regression\n",
    "\n",
    "It's follows the same pattern as classification."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "917c6ac4",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_c083c_row15_col1, #T_c083c_row42_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_c083c_\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_c083c_row0_col0\" class=\"data row0 col0\" >session_id</td>\n",
       "      <td id=\"T_c083c_row0_col1\" class=\"data row0 col1\" >4045</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_c083c_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_c083c_row1_col1\" class=\"data row1 col1\" >charges</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_c083c_row2_col0\" class=\"data row2 col0\" >Original Data</td>\n",
       "      <td id=\"T_c083c_row2_col1\" class=\"data row2 col1\" >(1338, 7)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_c083c_row3_col0\" class=\"data row3 col0\" >Missing Values</td>\n",
       "      <td id=\"T_c083c_row3_col1\" class=\"data row3 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_c083c_row4_col0\" class=\"data row4 col0\" >Numeric Features</td>\n",
       "      <td id=\"T_c083c_row4_col1\" class=\"data row4 col1\" >2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_c083c_row5_col0\" class=\"data row5 col0\" >Categorical Features</td>\n",
       "      <td id=\"T_c083c_row5_col1\" class=\"data row5 col1\" >4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_c083c_row6_col0\" class=\"data row6 col0\" >Ordinal Features</td>\n",
       "      <td id=\"T_c083c_row6_col1\" class=\"data row6 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_c083c_row7_col0\" class=\"data row7 col0\" >High Cardinality Features</td>\n",
       "      <td id=\"T_c083c_row7_col1\" class=\"data row7 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_c083c_row8_col0\" class=\"data row8 col0\" >High Cardinality Method</td>\n",
       "      <td id=\"T_c083c_row8_col1\" class=\"data row8 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_c083c_row9_col0\" class=\"data row9 col0\" >Transformed Train Set</td>\n",
       "      <td id=\"T_c083c_row9_col1\" class=\"data row9 col1\" >(936, 14)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_c083c_row10_col0\" class=\"data row10 col0\" >Transformed Test Set</td>\n",
       "      <td id=\"T_c083c_row10_col1\" class=\"data row10 col1\" >(402, 14)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_c083c_row11_col0\" class=\"data row11 col0\" >Shuffle Train-Test</td>\n",
       "      <td id=\"T_c083c_row11_col1\" class=\"data row11 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_c083c_row12_col0\" class=\"data row12 col0\" >Stratify Train-Test</td>\n",
       "      <td id=\"T_c083c_row12_col1\" class=\"data row12 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_c083c_row13_col0\" class=\"data row13 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_c083c_row13_col1\" class=\"data row13 col1\" >KFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_c083c_row14_col0\" class=\"data row14 col0\" >Fold Number</td>\n",
       "      <td id=\"T_c083c_row14_col1\" class=\"data row14 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_c083c_row15_col0\" class=\"data row15 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_c083c_row15_col1\" class=\"data row15 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_c083c_row16_col0\" class=\"data row16 col0\" >Use GPU</td>\n",
       "      <td id=\"T_c083c_row16_col1\" class=\"data row16 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_c083c_row17_col0\" class=\"data row17 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_c083c_row17_col1\" class=\"data row17 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_c083c_row18_col0\" class=\"data row18 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_c083c_row18_col1\" class=\"data row18 col1\" >reg-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_c083c_row19_col0\" class=\"data row19 col0\" >USI</td>\n",
       "      <td id=\"T_c083c_row19_col1\" class=\"data row19 col1\" >d080</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_c083c_row20_col0\" class=\"data row20 col0\" >Imputation Type</td>\n",
       "      <td id=\"T_c083c_row20_col1\" class=\"data row20 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_c083c_row21_col0\" class=\"data row21 col0\" >Iterative Imputation Iteration</td>\n",
       "      <td id=\"T_c083c_row21_col1\" class=\"data row21 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_c083c_row22_col0\" class=\"data row22 col0\" >Numeric Imputer</td>\n",
       "      <td id=\"T_c083c_row22_col1\" class=\"data row22 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_c083c_row23_col0\" class=\"data row23 col0\" >Iterative Imputation Numeric Model</td>\n",
       "      <td id=\"T_c083c_row23_col1\" class=\"data row23 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row24\" class=\"row_heading level0 row24\" >24</th>\n",
       "      <td id=\"T_c083c_row24_col0\" class=\"data row24 col0\" >Categorical Imputer</td>\n",
       "      <td id=\"T_c083c_row24_col1\" class=\"data row24 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row25\" class=\"row_heading level0 row25\" >25</th>\n",
       "      <td id=\"T_c083c_row25_col0\" class=\"data row25 col0\" >Iterative Imputation Categorical Model</td>\n",
       "      <td id=\"T_c083c_row25_col1\" class=\"data row25 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row26\" class=\"row_heading level0 row26\" >26</th>\n",
       "      <td id=\"T_c083c_row26_col0\" class=\"data row26 col0\" >Unknown Categoricals Handling</td>\n",
       "      <td id=\"T_c083c_row26_col1\" class=\"data row26 col1\" >least_frequent</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row27\" class=\"row_heading level0 row27\" >27</th>\n",
       "      <td id=\"T_c083c_row27_col0\" class=\"data row27 col0\" >Normalize</td>\n",
       "      <td id=\"T_c083c_row27_col1\" class=\"data row27 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row28\" class=\"row_heading level0 row28\" >28</th>\n",
       "      <td id=\"T_c083c_row28_col0\" class=\"data row28 col0\" >Normalize Method</td>\n",
       "      <td id=\"T_c083c_row28_col1\" class=\"data row28 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row29\" class=\"row_heading level0 row29\" >29</th>\n",
       "      <td id=\"T_c083c_row29_col0\" class=\"data row29 col0\" >Transformation</td>\n",
       "      <td id=\"T_c083c_row29_col1\" class=\"data row29 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row30\" class=\"row_heading level0 row30\" >30</th>\n",
       "      <td id=\"T_c083c_row30_col0\" class=\"data row30 col0\" >Transformation Method</td>\n",
       "      <td id=\"T_c083c_row30_col1\" class=\"data row30 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row31\" class=\"row_heading level0 row31\" >31</th>\n",
       "      <td id=\"T_c083c_row31_col0\" class=\"data row31 col0\" >PCA</td>\n",
       "      <td id=\"T_c083c_row31_col1\" class=\"data row31 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row32\" class=\"row_heading level0 row32\" >32</th>\n",
       "      <td id=\"T_c083c_row32_col0\" class=\"data row32 col0\" >PCA Method</td>\n",
       "      <td id=\"T_c083c_row32_col1\" class=\"data row32 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row33\" class=\"row_heading level0 row33\" >33</th>\n",
       "      <td id=\"T_c083c_row33_col0\" class=\"data row33 col0\" >PCA Components</td>\n",
       "      <td id=\"T_c083c_row33_col1\" class=\"data row33 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row34\" class=\"row_heading level0 row34\" >34</th>\n",
       "      <td id=\"T_c083c_row34_col0\" class=\"data row34 col0\" >Ignore Low Variance</td>\n",
       "      <td id=\"T_c083c_row34_col1\" class=\"data row34 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row35\" class=\"row_heading level0 row35\" >35</th>\n",
       "      <td id=\"T_c083c_row35_col0\" class=\"data row35 col0\" >Combine Rare Levels</td>\n",
       "      <td id=\"T_c083c_row35_col1\" class=\"data row35 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row36\" class=\"row_heading level0 row36\" >36</th>\n",
       "      <td id=\"T_c083c_row36_col0\" class=\"data row36 col0\" >Rare Level Threshold</td>\n",
       "      <td id=\"T_c083c_row36_col1\" class=\"data row36 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row37\" class=\"row_heading level0 row37\" >37</th>\n",
       "      <td id=\"T_c083c_row37_col0\" class=\"data row37 col0\" >Numeric Binning</td>\n",
       "      <td id=\"T_c083c_row37_col1\" class=\"data row37 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row38\" class=\"row_heading level0 row38\" >38</th>\n",
       "      <td id=\"T_c083c_row38_col0\" class=\"data row38 col0\" >Remove Outliers</td>\n",
       "      <td id=\"T_c083c_row38_col1\" class=\"data row38 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row39\" class=\"row_heading level0 row39\" >39</th>\n",
       "      <td id=\"T_c083c_row39_col0\" class=\"data row39 col0\" >Outliers Threshold</td>\n",
       "      <td id=\"T_c083c_row39_col1\" class=\"data row39 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row40\" class=\"row_heading level0 row40\" >40</th>\n",
       "      <td id=\"T_c083c_row40_col0\" class=\"data row40 col0\" >Remove Multicollinearity</td>\n",
       "      <td id=\"T_c083c_row40_col1\" class=\"data row40 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row41\" class=\"row_heading level0 row41\" >41</th>\n",
       "      <td id=\"T_c083c_row41_col0\" class=\"data row41 col0\" >Multicollinearity Threshold</td>\n",
       "      <td id=\"T_c083c_row41_col1\" class=\"data row41 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row42\" class=\"row_heading level0 row42\" >42</th>\n",
       "      <td id=\"T_c083c_row42_col0\" class=\"data row42 col0\" >Remove Perfect Collinearity</td>\n",
       "      <td id=\"T_c083c_row42_col1\" class=\"data row42 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row43\" class=\"row_heading level0 row43\" >43</th>\n",
       "      <td id=\"T_c083c_row43_col0\" class=\"data row43 col0\" >Clustering</td>\n",
       "      <td id=\"T_c083c_row43_col1\" class=\"data row43 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row44\" class=\"row_heading level0 row44\" >44</th>\n",
       "      <td id=\"T_c083c_row44_col0\" class=\"data row44 col0\" >Clustering Iteration</td>\n",
       "      <td id=\"T_c083c_row44_col1\" class=\"data row44 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row45\" class=\"row_heading level0 row45\" >45</th>\n",
       "      <td id=\"T_c083c_row45_col0\" class=\"data row45 col0\" >Polynomial Features</td>\n",
       "      <td id=\"T_c083c_row45_col1\" class=\"data row45 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row46\" class=\"row_heading level0 row46\" >46</th>\n",
       "      <td id=\"T_c083c_row46_col0\" class=\"data row46 col0\" >Polynomial Degree</td>\n",
       "      <td id=\"T_c083c_row46_col1\" class=\"data row46 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row47\" class=\"row_heading level0 row47\" >47</th>\n",
       "      <td id=\"T_c083c_row47_col0\" class=\"data row47 col0\" >Trignometry Features</td>\n",
       "      <td id=\"T_c083c_row47_col1\" class=\"data row47 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row48\" class=\"row_heading level0 row48\" >48</th>\n",
       "      <td id=\"T_c083c_row48_col0\" class=\"data row48 col0\" >Polynomial Threshold</td>\n",
       "      <td id=\"T_c083c_row48_col1\" class=\"data row48 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row49\" class=\"row_heading level0 row49\" >49</th>\n",
       "      <td id=\"T_c083c_row49_col0\" class=\"data row49 col0\" >Group Features</td>\n",
       "      <td id=\"T_c083c_row49_col1\" class=\"data row49 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row50\" class=\"row_heading level0 row50\" >50</th>\n",
       "      <td id=\"T_c083c_row50_col0\" class=\"data row50 col0\" >Feature Selection</td>\n",
       "      <td id=\"T_c083c_row50_col1\" class=\"data row50 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row51\" class=\"row_heading level0 row51\" >51</th>\n",
       "      <td id=\"T_c083c_row51_col0\" class=\"data row51 col0\" >Feature Selection Method</td>\n",
       "      <td id=\"T_c083c_row51_col1\" class=\"data row51 col1\" >classic</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row52\" class=\"row_heading level0 row52\" >52</th>\n",
       "      <td id=\"T_c083c_row52_col0\" class=\"data row52 col0\" >Features Selection Threshold</td>\n",
       "      <td id=\"T_c083c_row52_col1\" class=\"data row52 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row53\" class=\"row_heading level0 row53\" >53</th>\n",
       "      <td id=\"T_c083c_row53_col0\" class=\"data row53 col0\" >Feature Interaction</td>\n",
       "      <td id=\"T_c083c_row53_col1\" class=\"data row53 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row54\" class=\"row_heading level0 row54\" >54</th>\n",
       "      <td id=\"T_c083c_row54_col0\" class=\"data row54 col0\" >Feature Ratio</td>\n",
       "      <td id=\"T_c083c_row54_col1\" class=\"data row54 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row55\" class=\"row_heading level0 row55\" >55</th>\n",
       "      <td id=\"T_c083c_row55_col0\" class=\"data row55 col0\" >Interaction Threshold</td>\n",
       "      <td id=\"T_c083c_row55_col1\" class=\"data row55 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row56\" class=\"row_heading level0 row56\" >56</th>\n",
       "      <td id=\"T_c083c_row56_col0\" class=\"data row56 col0\" >Transform Target</td>\n",
       "      <td id=\"T_c083c_row56_col1\" class=\"data row56 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_c083c_level0_row57\" class=\"row_heading level0 row57\" >57</th>\n",
       "      <td id=\"T_c083c_row57_col0\" class=\"data row57 col0\" >Transform Target Method</td>\n",
       "      <td id=\"T_c083c_row57_col1\" class=\"data row57 col1\" >box-cox</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7efc778ced60>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.regression import *\n",
    "\n",
    "setup(data=get_data(\"insurance\"), target = 'charges', n_jobs=1)\n",
    "\n",
    "test_models = models().index.tolist()[:5]"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4356758c",
   "metadata": {},
   "source": [
    "`compare_model` is also exactly the same if you don't want to use a distributed system"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "id": "bf87f67b",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_aacfa_ th {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_aacfa_row0_col0, #T_aacfa_row0_col2, #T_aacfa_row0_col3, #T_aacfa_row0_col5, #T_aacfa_row1_col0, #T_aacfa_row1_col1, #T_aacfa_row1_col6, #T_aacfa_row2_col0, #T_aacfa_row2_col1, #T_aacfa_row2_col2, #T_aacfa_row2_col3, #T_aacfa_row2_col4, #T_aacfa_row2_col5, #T_aacfa_row3_col0, #T_aacfa_row3_col1, #T_aacfa_row3_col2, #T_aacfa_row3_col3, #T_aacfa_row3_col4, #T_aacfa_row3_col5, #T_aacfa_row3_col6, #T_aacfa_row4_col0, #T_aacfa_row4_col1, #T_aacfa_row4_col2, #T_aacfa_row4_col3, #T_aacfa_row4_col4, #T_aacfa_row4_col5, #T_aacfa_row4_col6 {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_aacfa_row0_col1, #T_aacfa_row0_col4, #T_aacfa_row0_col6, #T_aacfa_row1_col2, #T_aacfa_row1_col3, #T_aacfa_row1_col4, #T_aacfa_row1_col5, #T_aacfa_row2_col6 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "}\n",
       "#T_aacfa_row0_col7, #T_aacfa_row1_col7, #T_aacfa_row3_col7, #T_aacfa_row4_col7 {\n",
       "  text-align: left;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "#T_aacfa_row2_col7 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_aacfa_\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th class=\"col_heading level0 col0\" >Model</th>\n",
       "      <th class=\"col_heading level0 col1\" >MAE</th>\n",
       "      <th class=\"col_heading level0 col2\" >MSE</th>\n",
       "      <th class=\"col_heading level0 col3\" >RMSE</th>\n",
       "      <th class=\"col_heading level0 col4\" >R2</th>\n",
       "      <th class=\"col_heading level0 col5\" >RMSLE</th>\n",
       "      <th class=\"col_heading level0 col6\" >MAPE</th>\n",
       "      <th class=\"col_heading level0 col7\" >TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_aacfa_level0_row0\" class=\"row_heading level0 row0\" >lasso</th>\n",
       "      <td id=\"T_aacfa_row0_col0\" class=\"data row0 col0\" >Lasso Regression</td>\n",
       "      <td id=\"T_aacfa_row0_col1\" class=\"data row0 col1\" >4121.9556</td>\n",
       "      <td id=\"T_aacfa_row0_col2\" class=\"data row0 col2\" >36109634.6000</td>\n",
       "      <td id=\"T_aacfa_row0_col3\" class=\"data row0 col3\" >5980.6114</td>\n",
       "      <td id=\"T_aacfa_row0_col4\" class=\"data row0 col4\" >0.7376</td>\n",
       "      <td id=\"T_aacfa_row0_col5\" class=\"data row0 col5\" >0.5463</td>\n",
       "      <td id=\"T_aacfa_row0_col6\" class=\"data row0 col6\" >0.4243</td>\n",
       "      <td id=\"T_aacfa_row0_col7\" class=\"data row0 col7\" >0.0130</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_aacfa_level0_row1\" class=\"row_heading level0 row1\" >ridge</th>\n",
       "      <td id=\"T_aacfa_row1_col0\" class=\"data row1 col0\" >Ridge Regression</td>\n",
       "      <td id=\"T_aacfa_row1_col1\" class=\"data row1 col1\" >4134.4132</td>\n",
       "      <td id=\"T_aacfa_row1_col2\" class=\"data row1 col2\" >36105753.4000</td>\n",
       "      <td id=\"T_aacfa_row1_col3\" class=\"data row1 col3\" >5980.2880</td>\n",
       "      <td id=\"T_aacfa_row1_col4\" class=\"data row1 col4\" >0.7376</td>\n",
       "      <td id=\"T_aacfa_row1_col5\" class=\"data row1 col5\" >0.5453</td>\n",
       "      <td id=\"T_aacfa_row1_col6\" class=\"data row1 col6\" >0.4268</td>\n",
       "      <td id=\"T_aacfa_row1_col7\" class=\"data row1 col7\" >0.0120</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_aacfa_level0_row2\" class=\"row_heading level0 row2\" >lr</th>\n",
       "      <td id=\"T_aacfa_row2_col0\" class=\"data row2 col0\" >Linear Regression</td>\n",
       "      <td id=\"T_aacfa_row2_col1\" class=\"data row2 col1\" >4122.6497</td>\n",
       "      <td id=\"T_aacfa_row2_col2\" class=\"data row2 col2\" >36115891.4000</td>\n",
       "      <td id=\"T_aacfa_row2_col3\" class=\"data row2 col3\" >5981.1752</td>\n",
       "      <td id=\"T_aacfa_row2_col4\" class=\"data row2 col4\" >0.7375</td>\n",
       "      <td id=\"T_aacfa_row2_col5\" class=\"data row2 col5\" >0.5472</td>\n",
       "      <td id=\"T_aacfa_row2_col6\" class=\"data row2 col6\" >0.4243</td>\n",
       "      <td id=\"T_aacfa_row2_col7\" class=\"data row2 col7\" >0.0080</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_aacfa_level0_row3\" class=\"row_heading level0 row3\" >en</th>\n",
       "      <td id=\"T_aacfa_row3_col0\" class=\"data row3 col0\" >Elastic Net</td>\n",
       "      <td id=\"T_aacfa_row3_col1\" class=\"data row3 col1\" >7122.3933</td>\n",
       "      <td id=\"T_aacfa_row3_col2\" class=\"data row3 col2\" >87174564.0000</td>\n",
       "      <td id=\"T_aacfa_row3_col3\" class=\"data row3 col3\" >9313.8934</td>\n",
       "      <td id=\"T_aacfa_row3_col4\" class=\"data row3 col4\" >0.3674</td>\n",
       "      <td id=\"T_aacfa_row3_col5\" class=\"data row3 col5\" >0.7421</td>\n",
       "      <td id=\"T_aacfa_row3_col6\" class=\"data row3 col6\" >0.9344</td>\n",
       "      <td id=\"T_aacfa_row3_col7\" class=\"data row3 col7\" >0.0100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_aacfa_level0_row4\" class=\"row_heading level0 row4\" >lar</th>\n",
       "      <td id=\"T_aacfa_row4_col0\" class=\"data row4 col0\" >Least Angle Regression</td>\n",
       "      <td id=\"T_aacfa_row4_col1\" class=\"data row4 col1\" >7305.2647</td>\n",
       "      <td id=\"T_aacfa_row4_col2\" class=\"data row4 col2\" >1287737542.0774</td>\n",
       "      <td id=\"T_aacfa_row4_col3\" class=\"data row4 col3\" >16591.0408</td>\n",
       "      <td id=\"T_aacfa_row4_col4\" class=\"data row4 col4\" >-9.7522</td>\n",
       "      <td id=\"T_aacfa_row4_col5\" class=\"data row4 col5\" >0.6450</td>\n",
       "      <td id=\"T_aacfa_row4_col6\" class=\"data row4 col6\" >0.8588</td>\n",
       "      <td id=\"T_aacfa_row4_col7\" class=\"data row4 col7\" >0.0120</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7efc22d77550>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,\n",
       "       normalize=False, positive=False, precompute=False, random_state=4045,\n",
       "       selection='cyclic', tol=0.0001, warm_start=False),\n",
       " Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,\n",
       "       normalize=False, random_state=4045, solver='auto', tol=0.001)]"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8cc73849",
   "metadata": {},
   "source": [
    "Now let's make it distributed, as a toy case, on dask. The only thing changed is an additional parameter `parallel_backend`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "ee333586",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,\n",
       "       normalize=False, positive=False, precompute=False, random_state=4045,\n",
       "       selection='cyclic', tol=0.0001, warm_start=False),\n",
       " Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,\n",
       "       normalize=False, random_state=4045, solver='auto', tol=0.001)]"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "38ad1ddb",
   "metadata": {},
   "source": [
    "In order to use Spark as the execution engine, you must have access to a Spark cluster, and you must have a `SparkSession`, let's initialize a local Spark session"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "8221c7c3",
   "metadata": {},
   "outputs": [],
   "source": [
    "from pyspark.sql import SparkSession\n",
    "\n",
    "spark = SparkSession.builder.getOrCreate()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "1ad84f4b",
   "metadata": {},
   "source": [
    "Now just change `parallel_backend` to this session object, you make it run on Spark. You must understand this is a toy case. In the real situation, you need to have a SparkSession pointing to a real Spark cluster to enjoy the power of Spark"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "2ce39e6d",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "                                                                                \r"
     ]
    },
    {
     "data": {
      "text/plain": [
       "[Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,\n",
       "       normalize=False, positive=False, precompute=False, random_state=7138,\n",
       "       selection='cyclic', tol=0.0001, warm_start=False),\n",
       " LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)]"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(spark))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "789fd969",
   "metadata": {},
   "source": [
    "In the end, you can `pull` to get the metrics table"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "ecdd02a4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MAE</th>\n",
       "      <th>MSE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>R2</th>\n",
       "      <th>RMSLE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lasso</th>\n",
       "      <td>Lasso Regression</td>\n",
       "      <td>4240.9847</td>\n",
       "      <td>3.703576e+07</td>\n",
       "      <td>6063.9052</td>\n",
       "      <td>0.7478</td>\n",
       "      <td>0.5959</td>\n",
       "      <td>0.4329</td>\n",
       "      <td>0.015</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Linear Regression</td>\n",
       "      <td>4211.7614</td>\n",
       "      <td>3.722926e+07</td>\n",
       "      <td>6058.1708</td>\n",
       "      <td>0.7400</td>\n",
       "      <td>0.5822</td>\n",
       "      <td>0.4211</td>\n",
       "      <td>0.021</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lar</th>\n",
       "      <td>Least Angle Regression</td>\n",
       "      <td>4403.0912</td>\n",
       "      <td>3.944249e+07</td>\n",
       "      <td>6243.0943</td>\n",
       "      <td>0.7317</td>\n",
       "      <td>0.5758</td>\n",
       "      <td>0.4289</td>\n",
       "      <td>0.020</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Regression</td>\n",
       "      <td>4152.4058</td>\n",
       "      <td>3.682102e+07</td>\n",
       "      <td>6037.5101</td>\n",
       "      <td>0.7142</td>\n",
       "      <td>0.5722</td>\n",
       "      <td>0.4263</td>\n",
       "      <td>0.018</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>en</th>\n",
       "      <td>Elastic Net</td>\n",
       "      <td>7406.3822</td>\n",
       "      <td>9.128549e+07</td>\n",
       "      <td>9497.0126</td>\n",
       "      <td>0.3646</td>\n",
       "      <td>0.7475</td>\n",
       "      <td>0.9472</td>\n",
       "      <td>0.030</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model        MAE           MSE       RMSE      R2  \\\n",
       "lasso        Lasso Regression  4240.9847  3.703576e+07  6063.9052  0.7478   \n",
       "lr          Linear Regression  4211.7614  3.722926e+07  6058.1708  0.7400   \n",
       "lar    Least Angle Regression  4403.0912  3.944249e+07  6243.0943  0.7317   \n",
       "ridge        Ridge Regression  4152.4058  3.682102e+07  6037.5101  0.7142   \n",
       "en                Elastic Net  7406.3822  9.128549e+07  9497.0126  0.3646   \n",
       "\n",
       "        RMSLE    MAPE  TT (Sec)  \n",
       "lasso  0.5959  0.4329     0.015  \n",
       "lr     0.5822  0.4211     0.021  \n",
       "lar    0.5758  0.4289     0.020  \n",
       "ridge  0.5722  0.4263     0.018  \n",
       "en     0.7475  0.9472     0.030  "
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c910b81c",
   "metadata": {},
   "source": [
    "As you see, the results from the distributed versions can be different from your local versions. In the next section, we will show how to make them identical.\n",
    "\n",
    "# A more practical case\n",
    "\n",
    "The above examples are pure toys, to make things work perfectly in a distributed system you must be careful about a few things\n",
    "\n",
    "# Use a lambda instead of a dataframe in setup\n",
    "\n",
    "If you directly provide a dataframe in `setup`, this dataset will need to be sent to all worker nodes. If the dataframe is 1G, you have 100 workers, then it is possible your dirver machine will need to send out up to 100G data (depending on specific framework's implementation), then this data transfer becomes a bottleneck itself. Instead, if you provide a lambda function, it doesn't change the local compute scenario, but the driver will only send the function reference to workers, and each worker will be responsible to load the data by themselves, so there is no heavy traffic on the driver side.\n",
    "\n",
    "# Be deterministic\n",
    "\n",
    "You should always use `session_id` to make the distributed compute deterministic, otherwise, for the exactly same logic you could get drastically different selection for each run.\n",
    "\n",
    "# Set n_jobs\n",
    "\n",
    "It is important to be explicit on n_jobs when you want to run something distributedly, so it will not overuse the local/remote resources. This can also avoid resrouce contention, and make the compute faster."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "id": "1d76ddae",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_4d1d1_row17_col1, #T_4d1d1_row44_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_4d1d1_\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_4d1d1_row0_col0\" class=\"data row0 col0\" >session_id</td>\n",
       "      <td id=\"T_4d1d1_row0_col1\" class=\"data row0 col1\" >0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_4d1d1_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_4d1d1_row1_col1\" class=\"data row1 col1\" >Purchase</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_4d1d1_row2_col0\" class=\"data row2 col0\" >Target Type</td>\n",
       "      <td id=\"T_4d1d1_row2_col1\" class=\"data row2 col1\" >Binary</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_4d1d1_row3_col0\" class=\"data row3 col0\" >Label Encoded</td>\n",
       "      <td id=\"T_4d1d1_row3_col1\" class=\"data row3 col1\" >CH: 0, MM: 1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_4d1d1_row4_col0\" class=\"data row4 col0\" >Original Data</td>\n",
       "      <td id=\"T_4d1d1_row4_col1\" class=\"data row4 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_4d1d1_row5_col0\" class=\"data row5 col0\" >Missing Values</td>\n",
       "      <td id=\"T_4d1d1_row5_col1\" class=\"data row5 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_4d1d1_row6_col0\" class=\"data row6 col0\" >Numeric Features</td>\n",
       "      <td id=\"T_4d1d1_row6_col1\" class=\"data row6 col1\" >13</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_4d1d1_row7_col0\" class=\"data row7 col0\" >Categorical Features</td>\n",
       "      <td id=\"T_4d1d1_row7_col1\" class=\"data row7 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_4d1d1_row8_col0\" class=\"data row8 col0\" >Ordinal Features</td>\n",
       "      <td id=\"T_4d1d1_row8_col1\" class=\"data row8 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_4d1d1_row9_col0\" class=\"data row9 col0\" >High Cardinality Features</td>\n",
       "      <td id=\"T_4d1d1_row9_col1\" class=\"data row9 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_4d1d1_row10_col0\" class=\"data row10 col0\" >High Cardinality Method</td>\n",
       "      <td id=\"T_4d1d1_row10_col1\" class=\"data row10 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_4d1d1_row11_col0\" class=\"data row11 col0\" >Transformed Train Set</td>\n",
       "      <td id=\"T_4d1d1_row11_col1\" class=\"data row11 col1\" >(748, 17)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_4d1d1_row12_col0\" class=\"data row12 col0\" >Transformed Test Set</td>\n",
       "      <td id=\"T_4d1d1_row12_col1\" class=\"data row12 col1\" >(322, 17)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_4d1d1_row13_col0\" class=\"data row13 col0\" >Shuffle Train-Test</td>\n",
       "      <td id=\"T_4d1d1_row13_col1\" class=\"data row13 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_4d1d1_row14_col0\" class=\"data row14 col0\" >Stratify Train-Test</td>\n",
       "      <td id=\"T_4d1d1_row14_col1\" class=\"data row14 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_4d1d1_row15_col0\" class=\"data row15 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_4d1d1_row15_col1\" class=\"data row15 col1\" >StratifiedKFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_4d1d1_row16_col0\" class=\"data row16 col0\" >Fold Number</td>\n",
       "      <td id=\"T_4d1d1_row16_col1\" class=\"data row16 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_4d1d1_row17_col0\" class=\"data row17 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_4d1d1_row17_col1\" class=\"data row17 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_4d1d1_row18_col0\" class=\"data row18 col0\" >Use GPU</td>\n",
       "      <td id=\"T_4d1d1_row18_col1\" class=\"data row18 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_4d1d1_row19_col0\" class=\"data row19 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_4d1d1_row19_col1\" class=\"data row19 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_4d1d1_row20_col0\" class=\"data row20 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_4d1d1_row20_col1\" class=\"data row20 col1\" >clf-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_4d1d1_row21_col0\" class=\"data row21 col0\" >USI</td>\n",
       "      <td id=\"T_4d1d1_row21_col1\" class=\"data row21 col1\" >cc4a</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_4d1d1_row22_col0\" class=\"data row22 col0\" >Imputation Type</td>\n",
       "      <td id=\"T_4d1d1_row22_col1\" class=\"data row22 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_4d1d1_row23_col0\" class=\"data row23 col0\" >Iterative Imputation Iteration</td>\n",
       "      <td id=\"T_4d1d1_row23_col1\" class=\"data row23 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row24\" class=\"row_heading level0 row24\" >24</th>\n",
       "      <td id=\"T_4d1d1_row24_col0\" class=\"data row24 col0\" >Numeric Imputer</td>\n",
       "      <td id=\"T_4d1d1_row24_col1\" class=\"data row24 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row25\" class=\"row_heading level0 row25\" >25</th>\n",
       "      <td id=\"T_4d1d1_row25_col0\" class=\"data row25 col0\" >Iterative Imputation Numeric Model</td>\n",
       "      <td id=\"T_4d1d1_row25_col1\" class=\"data row25 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row26\" class=\"row_heading level0 row26\" >26</th>\n",
       "      <td id=\"T_4d1d1_row26_col0\" class=\"data row26 col0\" >Categorical Imputer</td>\n",
       "      <td id=\"T_4d1d1_row26_col1\" class=\"data row26 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row27\" class=\"row_heading level0 row27\" >27</th>\n",
       "      <td id=\"T_4d1d1_row27_col0\" class=\"data row27 col0\" >Iterative Imputation Categorical Model</td>\n",
       "      <td id=\"T_4d1d1_row27_col1\" class=\"data row27 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row28\" class=\"row_heading level0 row28\" >28</th>\n",
       "      <td id=\"T_4d1d1_row28_col0\" class=\"data row28 col0\" >Unknown Categoricals Handling</td>\n",
       "      <td id=\"T_4d1d1_row28_col1\" class=\"data row28 col1\" >least_frequent</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row29\" class=\"row_heading level0 row29\" >29</th>\n",
       "      <td id=\"T_4d1d1_row29_col0\" class=\"data row29 col0\" >Normalize</td>\n",
       "      <td id=\"T_4d1d1_row29_col1\" class=\"data row29 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row30\" class=\"row_heading level0 row30\" >30</th>\n",
       "      <td id=\"T_4d1d1_row30_col0\" class=\"data row30 col0\" >Normalize Method</td>\n",
       "      <td id=\"T_4d1d1_row30_col1\" class=\"data row30 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row31\" class=\"row_heading level0 row31\" >31</th>\n",
       "      <td id=\"T_4d1d1_row31_col0\" class=\"data row31 col0\" >Transformation</td>\n",
       "      <td id=\"T_4d1d1_row31_col1\" class=\"data row31 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row32\" class=\"row_heading level0 row32\" >32</th>\n",
       "      <td id=\"T_4d1d1_row32_col0\" class=\"data row32 col0\" >Transformation Method</td>\n",
       "      <td id=\"T_4d1d1_row32_col1\" class=\"data row32 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row33\" class=\"row_heading level0 row33\" >33</th>\n",
       "      <td id=\"T_4d1d1_row33_col0\" class=\"data row33 col0\" >PCA</td>\n",
       "      <td id=\"T_4d1d1_row33_col1\" class=\"data row33 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row34\" class=\"row_heading level0 row34\" >34</th>\n",
       "      <td id=\"T_4d1d1_row34_col0\" class=\"data row34 col0\" >PCA Method</td>\n",
       "      <td id=\"T_4d1d1_row34_col1\" class=\"data row34 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row35\" class=\"row_heading level0 row35\" >35</th>\n",
       "      <td id=\"T_4d1d1_row35_col0\" class=\"data row35 col0\" >PCA Components</td>\n",
       "      <td id=\"T_4d1d1_row35_col1\" class=\"data row35 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row36\" class=\"row_heading level0 row36\" >36</th>\n",
       "      <td id=\"T_4d1d1_row36_col0\" class=\"data row36 col0\" >Ignore Low Variance</td>\n",
       "      <td id=\"T_4d1d1_row36_col1\" class=\"data row36 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row37\" class=\"row_heading level0 row37\" >37</th>\n",
       "      <td id=\"T_4d1d1_row37_col0\" class=\"data row37 col0\" >Combine Rare Levels</td>\n",
       "      <td id=\"T_4d1d1_row37_col1\" class=\"data row37 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row38\" class=\"row_heading level0 row38\" >38</th>\n",
       "      <td id=\"T_4d1d1_row38_col0\" class=\"data row38 col0\" >Rare Level Threshold</td>\n",
       "      <td id=\"T_4d1d1_row38_col1\" class=\"data row38 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row39\" class=\"row_heading level0 row39\" >39</th>\n",
       "      <td id=\"T_4d1d1_row39_col0\" class=\"data row39 col0\" >Numeric Binning</td>\n",
       "      <td id=\"T_4d1d1_row39_col1\" class=\"data row39 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row40\" class=\"row_heading level0 row40\" >40</th>\n",
       "      <td id=\"T_4d1d1_row40_col0\" class=\"data row40 col0\" >Remove Outliers</td>\n",
       "      <td id=\"T_4d1d1_row40_col1\" class=\"data row40 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row41\" class=\"row_heading level0 row41\" >41</th>\n",
       "      <td id=\"T_4d1d1_row41_col0\" class=\"data row41 col0\" >Outliers Threshold</td>\n",
       "      <td id=\"T_4d1d1_row41_col1\" class=\"data row41 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row42\" class=\"row_heading level0 row42\" >42</th>\n",
       "      <td id=\"T_4d1d1_row42_col0\" class=\"data row42 col0\" >Remove Multicollinearity</td>\n",
       "      <td id=\"T_4d1d1_row42_col1\" class=\"data row42 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row43\" class=\"row_heading level0 row43\" >43</th>\n",
       "      <td id=\"T_4d1d1_row43_col0\" class=\"data row43 col0\" >Multicollinearity Threshold</td>\n",
       "      <td id=\"T_4d1d1_row43_col1\" class=\"data row43 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row44\" class=\"row_heading level0 row44\" >44</th>\n",
       "      <td id=\"T_4d1d1_row44_col0\" class=\"data row44 col0\" >Remove Perfect Collinearity</td>\n",
       "      <td id=\"T_4d1d1_row44_col1\" class=\"data row44 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row45\" class=\"row_heading level0 row45\" >45</th>\n",
       "      <td id=\"T_4d1d1_row45_col0\" class=\"data row45 col0\" >Clustering</td>\n",
       "      <td id=\"T_4d1d1_row45_col1\" class=\"data row45 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row46\" class=\"row_heading level0 row46\" >46</th>\n",
       "      <td id=\"T_4d1d1_row46_col0\" class=\"data row46 col0\" >Clustering Iteration</td>\n",
       "      <td id=\"T_4d1d1_row46_col1\" class=\"data row46 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row47\" class=\"row_heading level0 row47\" >47</th>\n",
       "      <td id=\"T_4d1d1_row47_col0\" class=\"data row47 col0\" >Polynomial Features</td>\n",
       "      <td id=\"T_4d1d1_row47_col1\" class=\"data row47 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row48\" class=\"row_heading level0 row48\" >48</th>\n",
       "      <td id=\"T_4d1d1_row48_col0\" class=\"data row48 col0\" >Polynomial Degree</td>\n",
       "      <td id=\"T_4d1d1_row48_col1\" class=\"data row48 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row49\" class=\"row_heading level0 row49\" >49</th>\n",
       "      <td id=\"T_4d1d1_row49_col0\" class=\"data row49 col0\" >Trignometry Features</td>\n",
       "      <td id=\"T_4d1d1_row49_col1\" class=\"data row49 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row50\" class=\"row_heading level0 row50\" >50</th>\n",
       "      <td id=\"T_4d1d1_row50_col0\" class=\"data row50 col0\" >Polynomial Threshold</td>\n",
       "      <td id=\"T_4d1d1_row50_col1\" class=\"data row50 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row51\" class=\"row_heading level0 row51\" >51</th>\n",
       "      <td id=\"T_4d1d1_row51_col0\" class=\"data row51 col0\" >Group Features</td>\n",
       "      <td id=\"T_4d1d1_row51_col1\" class=\"data row51 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row52\" class=\"row_heading level0 row52\" >52</th>\n",
       "      <td id=\"T_4d1d1_row52_col0\" class=\"data row52 col0\" >Feature Selection</td>\n",
       "      <td id=\"T_4d1d1_row52_col1\" class=\"data row52 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row53\" class=\"row_heading level0 row53\" >53</th>\n",
       "      <td id=\"T_4d1d1_row53_col0\" class=\"data row53 col0\" >Feature Selection Method</td>\n",
       "      <td id=\"T_4d1d1_row53_col1\" class=\"data row53 col1\" >classic</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row54\" class=\"row_heading level0 row54\" >54</th>\n",
       "      <td id=\"T_4d1d1_row54_col0\" class=\"data row54 col0\" >Features Selection Threshold</td>\n",
       "      <td id=\"T_4d1d1_row54_col1\" class=\"data row54 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row55\" class=\"row_heading level0 row55\" >55</th>\n",
       "      <td id=\"T_4d1d1_row55_col0\" class=\"data row55 col0\" >Feature Interaction</td>\n",
       "      <td id=\"T_4d1d1_row55_col1\" class=\"data row55 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row56\" class=\"row_heading level0 row56\" >56</th>\n",
       "      <td id=\"T_4d1d1_row56_col0\" class=\"data row56 col0\" >Feature Ratio</td>\n",
       "      <td id=\"T_4d1d1_row56_col1\" class=\"data row56 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row57\" class=\"row_heading level0 row57\" >57</th>\n",
       "      <td id=\"T_4d1d1_row57_col0\" class=\"data row57 col0\" >Interaction Threshold</td>\n",
       "      <td id=\"T_4d1d1_row57_col1\" class=\"data row57 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row58\" class=\"row_heading level0 row58\" >58</th>\n",
       "      <td id=\"T_4d1d1_row58_col0\" class=\"data row58 col0\" >Fix Imbalance</td>\n",
       "      <td id=\"T_4d1d1_row58_col1\" class=\"data row58 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_4d1d1_level0_row59\" class=\"row_heading level0 row59\" >59</th>\n",
       "      <td id=\"T_4d1d1_row59_col0\" class=\"data row59 col0\" >Fix Imbalance Method</td>\n",
       "      <td id=\"T_4d1d1_row59_col1\" class=\"data row59 col1\" >SMOTE</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7efc22caafd0>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.classification import *\n",
    "\n",
    "setup(data=lambda: get_data(\"juice\", verbose=False, profile=False), target = 'Purchase', session_id=0, n_jobs=1);"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2fc80912",
   "metadata": {},
   "source": [
    "# Set the appropriate batch_size\n",
    "\n",
    "`batch_size` parameter helps adjust between load balence and overhead. For each batch, setup will be called only once. So\n",
    "\n",
    "| Choice |Load Balance|Overhead|Best Scenario|\n",
    "|---|---|---|---|\n",
    "|Smaller batch size|Better|Worse|`training time >> data loading time` or `models ~= workers`|\n",
    "|Larger batch size|Worse|Better|`training time << data loading time` or `models >> workers`|\n",
    "\n",
    "The default value is set to `1`, meaning we want the best load balance.\n",
    "\n",
    "# Display progress\n",
    "\n",
    "In development, you can enable visual effect by `display_remote=True`, but meanwhile you must also enable [Fugue Callback](https://fugue-tutorials.readthedocs.io/tutorials/advanced/rpc.html) so that the driver can monitor worker progress. But it is recommended to turn off display in production."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "id": "9775c4f4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "7c88aa829a914e658437a5732dfb497d",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "IntProgress(value=0, description='Processing: ', max=16)"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lda</th>\n",
       "      <td>Linear Discriminant Analysis</td>\n",
       "      <td>0.8328</td>\n",
       "      <td>0.8949</td>\n",
       "      <td>0.7585</td>\n",
       "      <td>0.7985</td>\n",
       "      <td>0.7735</td>\n",
       "      <td>0.6416</td>\n",
       "      <td>0.6464</td>\n",
       "      <td>0.016</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8275</td>\n",
       "      <td>0.8964</td>\n",
       "      <td>0.7265</td>\n",
       "      <td>0.8105</td>\n",
       "      <td>0.7589</td>\n",
       "      <td>0.6260</td>\n",
       "      <td>0.6344</td>\n",
       "      <td>0.185</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Classifier</td>\n",
       "      <td>0.8275</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.7479</td>\n",
       "      <td>0.7971</td>\n",
       "      <td>0.7654</td>\n",
       "      <td>0.6299</td>\n",
       "      <td>0.6366</td>\n",
       "      <td>0.011</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>catboost</th>\n",
       "      <td>CatBoost Classifier</td>\n",
       "      <td>0.8221</td>\n",
       "      <td>0.8967</td>\n",
       "      <td>0.7585</td>\n",
       "      <td>0.7755</td>\n",
       "      <td>0.7624</td>\n",
       "      <td>0.6209</td>\n",
       "      <td>0.6254</td>\n",
       "      <td>0.779</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>gbc</th>\n",
       "      <td>Gradient Boosting Classifier</td>\n",
       "      <td>0.8195</td>\n",
       "      <td>0.8855</td>\n",
       "      <td>0.7510</td>\n",
       "      <td>0.7760</td>\n",
       "      <td>0.7594</td>\n",
       "      <td>0.6154</td>\n",
       "      <td>0.6193</td>\n",
       "      <td>0.113</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>rf</th>\n",
       "      <td>Random Forest Classifier</td>\n",
       "      <td>0.8048</td>\n",
       "      <td>0.8792</td>\n",
       "      <td>0.7408</td>\n",
       "      <td>0.7483</td>\n",
       "      <td>0.7397</td>\n",
       "      <td>0.5843</td>\n",
       "      <td>0.5889</td>\n",
       "      <td>0.171</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ada</th>\n",
       "      <td>Ada Boost Classifier</td>\n",
       "      <td>0.8021</td>\n",
       "      <td>0.8668</td>\n",
       "      <td>0.7014</td>\n",
       "      <td>0.7639</td>\n",
       "      <td>0.7275</td>\n",
       "      <td>0.5729</td>\n",
       "      <td>0.5776</td>\n",
       "      <td>0.090</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lightgbm</th>\n",
       "      <td>Light Gradient Boosting Machine</td>\n",
       "      <td>0.7994</td>\n",
       "      <td>0.8775</td>\n",
       "      <td>0.7299</td>\n",
       "      <td>0.7444</td>\n",
       "      <td>0.7331</td>\n",
       "      <td>0.5730</td>\n",
       "      <td>0.5768</td>\n",
       "      <td>0.051</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>xgboost</th>\n",
       "      <td>Extreme Gradient Boosting</td>\n",
       "      <td>0.7941</td>\n",
       "      <td>0.8729</td>\n",
       "      <td>0.7228</td>\n",
       "      <td>0.7353</td>\n",
       "      <td>0.7248</td>\n",
       "      <td>0.5609</td>\n",
       "      <td>0.5649</td>\n",
       "      <td>0.258</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>et</th>\n",
       "      <td>Extra Trees Classifier</td>\n",
       "      <td>0.7820</td>\n",
       "      <td>0.8509</td>\n",
       "      <td>0.7122</td>\n",
       "      <td>0.7214</td>\n",
       "      <td>0.7101</td>\n",
       "      <td>0.5365</td>\n",
       "      <td>0.5428</td>\n",
       "      <td>0.148</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7778</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.7047</td>\n",
       "      <td>0.7098</td>\n",
       "      <td>0.7048</td>\n",
       "      <td>0.5270</td>\n",
       "      <td>0.5294</td>\n",
       "      <td>0.009</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7674</td>\n",
       "      <td>0.8340</td>\n",
       "      <td>0.7369</td>\n",
       "      <td>0.6776</td>\n",
       "      <td>0.7031</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5173</td>\n",
       "      <td>0.008</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7073</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.5447</td>\n",
       "      <td>0.6275</td>\n",
       "      <td>0.5792</td>\n",
       "      <td>0.3579</td>\n",
       "      <td>0.3627</td>\n",
       "      <td>0.011</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.6403</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.1107</td>\n",
       "      <td>0.1439</td>\n",
       "      <td>0.1047</td>\n",
       "      <td>0.0688</td>\n",
       "      <td>0.0820</td>\n",
       "      <td>0.010</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dummy</th>\n",
       "      <td>Dummy Classifier</td>\n",
       "      <td>0.6243</td>\n",
       "      <td>0.5000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.005</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>qda</th>\n",
       "      <td>Quadratic Discriminant Analysis</td>\n",
       "      <td>0.5853</td>\n",
       "      <td>0.5676</td>\n",
       "      <td>0.4395</td>\n",
       "      <td>0.3236</td>\n",
       "      <td>0.3474</td>\n",
       "      <td>0.1035</td>\n",
       "      <td>0.1171</td>\n",
       "      <td>0.008</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                    Model  Accuracy     AUC  Recall   Prec.  \\\n",
       "lda          Linear Discriminant Analysis    0.8328  0.8949  0.7585  0.7985   \n",
       "lr                    Logistic Regression    0.8275  0.8964  0.7265  0.8105   \n",
       "ridge                    Ridge Classifier    0.8275  0.0000  0.7479  0.7971   \n",
       "catboost              CatBoost Classifier    0.8221  0.8967  0.7585  0.7755   \n",
       "gbc          Gradient Boosting Classifier    0.8195  0.8855  0.7510  0.7760   \n",
       "rf               Random Forest Classifier    0.8048  0.8792  0.7408  0.7483   \n",
       "ada                  Ada Boost Classifier    0.8021  0.8668  0.7014  0.7639   \n",
       "lightgbm  Light Gradient Boosting Machine    0.7994  0.8775  0.7299  0.7444   \n",
       "xgboost         Extreme Gradient Boosting    0.7941  0.8729  0.7228  0.7353   \n",
       "et                 Extra Trees Classifier    0.7820  0.8509  0.7122  0.7214   \n",
       "dt               Decision Tree Classifier    0.7778  0.7646  0.7047  0.7098   \n",
       "nb                            Naive Bayes    0.7674  0.8340  0.7369  0.6776   \n",
       "knn                K Neighbors Classifier    0.7073  0.7646  0.5447  0.6275   \n",
       "svm                   SVM - Linear Kernel    0.6403  0.0000  0.1107  0.1439   \n",
       "dummy                    Dummy Classifier    0.6243  0.5000  0.0000  0.0000   \n",
       "qda       Quadratic Discriminant Analysis    0.5853  0.5676  0.4395  0.3236   \n",
       "\n",
       "              F1   Kappa     MCC  TT (Sec)  \n",
       "lda       0.7735  0.6416  0.6464     0.016  \n",
       "lr        0.7589  0.6260  0.6344     0.185  \n",
       "ridge     0.7654  0.6299  0.6366     0.011  \n",
       "catboost  0.7624  0.6209  0.6254     0.779  \n",
       "gbc       0.7594  0.6154  0.6193     0.113  \n",
       "rf        0.7397  0.5843  0.5889     0.171  \n",
       "ada       0.7275  0.5729  0.5776     0.090  \n",
       "lightgbm  0.7331  0.5730  0.5768     0.051  \n",
       "xgboost   0.7248  0.5609  0.5649     0.258  \n",
       "et        0.7101  0.5365  0.5428     0.148  \n",
       "dt        0.7048  0.5270  0.5294     0.009  \n",
       "nb        0.7031  0.5129  0.5173     0.008  \n",
       "knn       0.5792  0.3579  0.3627     0.011  \n",
       "svm       0.1047  0.0688  0.0820     0.010  \n",
       "dummy     0.0000  0.0000  0.0000     0.005  \n",
       "qda       0.3474  0.1035  0.1171     0.008  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[LinearDiscriminantAnalysis(n_components=None, priors=None, shrinkage=None,\n",
       "                            solver='svd', store_covariance=False, tol=0.0001),\n",
       " LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=0, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False)]"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fconf = {\n",
    "    \"fugue.rpc.server\": \"fugue.rpc.flask.FlaskRPCServer\",  # keep this value\n",
    "    \"fugue.rpc.flask_server.host\": \"0.0.0.0\",  # the driver ip address workers can access\n",
    "    \"fugue.rpc.flask_server.port\": \"3333\",  # the open port on the dirver\n",
    "    \"fugue.rpc.flask_server.timeout\": \"2 sec\",  # the timeout for worker to talk to driver\n",
    "}\n",
    "\n",
    "be = FugueBackend(\"dask\", fconf, display_remote=True, batch_size=3, top_only=False)\n",
    "compare_models(n_select=2, parallel=be)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d697e56c",
   "metadata": {},
   "source": [
    "# Custom Metrics\n",
    "\n",
    "You can add custom metrics like before. But in order to make the scorer distributable, it must be serializable. A common function should be fine, but if inside the function, it is using some global variables that are not serializable (for example an `RLock` object), it can cause issues. So try to make the custom function independent from global variables."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "2614b869",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Name                                                             DUMMY\n",
       "Display Name                                                     DUMMY\n",
       "Score Function                <function score_dummy at 0x7efc2af16e50>\n",
       "Scorer               make_scorer(score_dummy, needs_proba=True, err...\n",
       "Target                                                      pred_proba\n",
       "Args                                                                {}\n",
       "Greater is Better                                                 True\n",
       "Multiclass                                                        True\n",
       "Custom                                                            True\n",
       "Name: mydummy, dtype: object"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "def score_dummy(y_true, y_prob, axis=0):\n",
    "    return 0.0\n",
    "\n",
    "add_metric(id = 'mydummy',\n",
    "               name = 'DUMMY',\n",
    "               score_func = score_dummy,\n",
    "               target = 'pred_proba',\n",
    "               greater_is_better = True,\n",
    "              )"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7ccaa531",
   "metadata": {},
   "source": [
    "Adding a function in a class instance is also ok, but make sure all member variables in the class are serializable."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "id": "83576a2d",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "                                                                                \r"
     ]
    },
    {
     "data": {
      "text/plain": [
       "[GaussianNB(priors=None, var_smoothing=1e-09),\n",
       " KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',\n",
       "                      metric_params=None, n_jobs=1, n_neighbors=5, p=2,\n",
       "                      weights='uniform')]"
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test_models = models().index.tolist()[:5]\n",
    "compare_models(include=test_models, n_select=2, sort=\"DUMMY\", parallel=FugueBackend(spark))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "id": "04d5e7c9",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7674</td>\n",
       "      <td>0.8340</td>\n",
       "      <td>0.7369</td>\n",
       "      <td>0.6776</td>\n",
       "      <td>0.7031</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5173</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.015</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7073</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.5447</td>\n",
       "      <td>0.6275</td>\n",
       "      <td>0.5792</td>\n",
       "      <td>0.3579</td>\n",
       "      <td>0.3627</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.032</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.6403</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.1107</td>\n",
       "      <td>0.1439</td>\n",
       "      <td>0.1047</td>\n",
       "      <td>0.0688</td>\n",
       "      <td>0.0820</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.011</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8275</td>\n",
       "      <td>0.8964</td>\n",
       "      <td>0.7265</td>\n",
       "      <td>0.8105</td>\n",
       "      <td>0.7589</td>\n",
       "      <td>0.6260</td>\n",
       "      <td>0.6344</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.433</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7778</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.7047</td>\n",
       "      <td>0.7098</td>\n",
       "      <td>0.7048</td>\n",
       "      <td>0.5270</td>\n",
       "      <td>0.5294</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.020</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "nb                Naive Bayes    0.7674  0.8340  0.7369  0.6776  0.7031   \n",
       "knn    K Neighbors Classifier    0.7073  0.7646  0.5447  0.6275  0.5792   \n",
       "svm       SVM - Linear Kernel    0.6403  0.0000  0.1107  0.1439  0.1047   \n",
       "lr        Logistic Regression    0.8275  0.8964  0.7265  0.8105  0.7589   \n",
       "dt   Decision Tree Classifier    0.7778  0.7646  0.7047  0.7098  0.7048   \n",
       "\n",
       "      Kappa     MCC  DUMMY  TT (Sec)  \n",
       "nb   0.5129  0.5173    0.0     0.015  \n",
       "knn  0.3579  0.3627    0.0     0.032  \n",
       "svm  0.0688  0.0820    0.0     0.011  \n",
       "lr   0.6260  0.6344    0.0     0.433  \n",
       "dt   0.5270  0.5294    0.0     0.020  "
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "id": "8f1d99c5",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Name                                                            DUMMY2\n",
       "Display Name                                                    DUMMY2\n",
       "Score Function       <bound method Scores.score_dummy2 of <__main__...\n",
       "Scorer               make_scorer(score_dummy2, needs_proba=True, er...\n",
       "Target                                                      pred_proba\n",
       "Args                                                                {}\n",
       "Greater is Better                                                 True\n",
       "Multiclass                                                        True\n",
       "Custom                                                            True\n",
       "Name: mydummy2, dtype: object"
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "class Scores:\n",
    "    def score_dummy2(self, y_true, y_prob, axis=0):\n",
    "        return 1.0\n",
    "    \n",
    "scores = Scores()\n",
    "\n",
    "add_metric(id = 'mydummy2',\n",
    "               name = 'DUMMY2',\n",
    "               score_func = scores.score_dummy2,\n",
    "               target = 'pred_proba',\n",
    "               greater_is_better = True,\n",
    "              )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "id": "a7a63648",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',\n",
       "                      metric_params=None, n_jobs=1, n_neighbors=5, p=2,\n",
       "                      weights='uniform'),\n",
       " DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_impurity_split=None,\n",
       "                        min_samples_leaf=1, min_samples_split=2,\n",
       "                        min_weight_fraction_leaf=0.0, presort='deprecated',\n",
       "                        random_state=0, splitter='best')]"
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, sort=\"DUMMY2\", parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "id": "ee4e174b",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>DUMMY2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7073</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.5447</td>\n",
       "      <td>0.6275</td>\n",
       "      <td>0.5792</td>\n",
       "      <td>0.3579</td>\n",
       "      <td>0.3627</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.011</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7778</td>\n",
       "      <td>0.7646</td>\n",
       "      <td>0.7047</td>\n",
       "      <td>0.7098</td>\n",
       "      <td>0.7048</td>\n",
       "      <td>0.5270</td>\n",
       "      <td>0.5294</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.010</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7674</td>\n",
       "      <td>0.8340</td>\n",
       "      <td>0.7369</td>\n",
       "      <td>0.6776</td>\n",
       "      <td>0.7031</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5173</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.008</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8275</td>\n",
       "      <td>0.8964</td>\n",
       "      <td>0.7265</td>\n",
       "      <td>0.8105</td>\n",
       "      <td>0.7589</td>\n",
       "      <td>0.6260</td>\n",
       "      <td>0.6344</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.192</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.6403</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.1107</td>\n",
       "      <td>0.1439</td>\n",
       "      <td>0.1047</td>\n",
       "      <td>0.0688</td>\n",
       "      <td>0.0820</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.011</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "knn    K Neighbors Classifier    0.7073  0.7646  0.5447  0.6275  0.5792   \n",
       "dt   Decision Tree Classifier    0.7778  0.7646  0.7047  0.7098  0.7048   \n",
       "nb                Naive Bayes    0.7674  0.8340  0.7369  0.6776  0.7031   \n",
       "lr        Logistic Regression    0.8275  0.8964  0.7265  0.8105  0.7589   \n",
       "svm       SVM - Linear Kernel    0.6403  0.0000  0.1107  0.1439  0.1047   \n",
       "\n",
       "      Kappa     MCC  DUMMY  DUMMY2  TT (Sec)  \n",
       "knn  0.3579  0.3627    0.0     1.0     0.011  \n",
       "dt   0.5270  0.5294    0.0     1.0     0.010  \n",
       "nb   0.5129  0.5173    0.0     1.0     0.008  \n",
       "lr   0.6260  0.6344    0.0     1.0     0.192  \n",
       "svm  0.0688  0.0820    0.0     0.0     0.011  "
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c7e34629",
   "metadata": {},
   "source": [
    "# Notes\n",
    "\n",
    "# Spark settings\n",
    "\n",
    "It is highly recommended to have only 1 worker on each Spark executor, so the worker can fully utilize all cpus (set `spark.task.cpus`). Also when you do this you should explicitly set `n_jobs` in `setup` to the number of cpus of each executor.\n",
    "\n",
    "```python\n",
    "executor_cores = 4\n",
    "\n",
    "spark = SparkSession.builder.config(\"spark.task.cpus\", executor_cores).config(\"spark.executor.cores\", executor_cores).getOrCreate()\n",
    "\n",
    "setup(data=get_data(\"juice\", verbose=False, profile=False), target = 'Purchase', session_id=0, n_jobs=executor_cores)\n",
    "\n",
    "compare_models(n_select=2, parallel=FugueBackend(spark))\n",
    "```\n",
    "\n",
    "# Databricks\n",
    "\n",
    "On Databricks, `spark` is the magic variable representing a SparkSession. But there is no difference to use. You do the exactly same thing as before:\n",
    "\n",
    "```python\n",
    "compare_models(parallel=FugueBackend(spark))\n",
    "```\n",
    "\n",
    "But Databricks, the visualization is difficult, so it may be a good idea to do two things:\n",
    "\n",
    "* Set `verbose` to False in `setup`\n",
    "* Set `display_remote` to False in `FugueBackend`\n",
    "\n",
    "# Dask\n",
    "\n",
    "Dask has fake distributed modes such as the default (multi-thread) and multi-process modes. The default mode will just work fine (but they are actually running sequentially), and multi-process doesn't work for PyCaret for now because it messes up with PyCaret's global variables. On the other hand, any Spark execution mode will just work fine.\n",
    "\n",
    "# Local Parallelization\n",
    "\n",
    "For practical use where you try non-trivial data and models, local parallelization (The eaiest way is to use local Dask as backend as shown above) normally doesn't have performance advantage. Because it's very easy to overload the CPUS on training, increasing the contention of resources. The value of local parallelization is to verify the code and give you confidence that the distributed environment will provide the expected result with much shorter time.\n",
    "\n",
    "# How to develop \n",
    "\n",
    "Distributed systems are powerful but you must follow some good practices to use them:\n",
    "\n",
    "1. **From small to large:** initially, you must start with a small set of data, for example in `compare_model` limit the models you want to try to a small number of cheap models, and when you verify they work, you can change to a larger model collection.\n",
    "2. **From local to distributed:** you should follow this sequence: verify small data locally then verify small data distributedly and then verify large data distributedly. The current design makes the transition seamless. You can do these sequentially: `parallel=None` -> `parallel=FugueBackend()` -> `parallel=FugueBackend(spark)`. In the second step, you can replace with a local SparkSession or local dask."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "ee7d43a6",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}