{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "fdfcf286",
   "metadata": {},
   "source": [
    "# PyCaret Fugue Integration\n",
    "\n",
    "[Fugue](https://github.com/fugue-project/fugue) is a low-code unified interface for different computing frameworks such as Spark, Dask and Pandas. PyCaret is using Fugue to support distributed computing scenarios.\n",
    "\n",
    "# Hello World\n",
    "\n",
    "# Classification\n",
    "\n",
    "Let's start with the most standard example, the code is exactly the same as the local version, there is no magic."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "398b0e09",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_cd5ab_row11_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_cd5ab\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_cd5ab_level0_col0\" class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th id=\"T_cd5ab_level0_col1\" class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_cd5ab_row0_col0\" class=\"data row0 col0\" >Session id</td>\n",
       "      <td id=\"T_cd5ab_row0_col1\" class=\"data row0 col1\" >4292</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_cd5ab_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_cd5ab_row1_col1\" class=\"data row1 col1\" >Purchase</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_cd5ab_row2_col0\" class=\"data row2 col0\" >Target type</td>\n",
       "      <td id=\"T_cd5ab_row2_col1\" class=\"data row2 col1\" >Binary</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_cd5ab_row3_col0\" class=\"data row3 col0\" >Target mapping</td>\n",
       "      <td id=\"T_cd5ab_row3_col1\" class=\"data row3 col1\" >CH: 0, MM: 1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_cd5ab_row4_col0\" class=\"data row4 col0\" >Original data shape</td>\n",
       "      <td id=\"T_cd5ab_row4_col1\" class=\"data row4 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_cd5ab_row5_col0\" class=\"data row5 col0\" >Transformed data shape</td>\n",
       "      <td id=\"T_cd5ab_row5_col1\" class=\"data row5 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_cd5ab_row6_col0\" class=\"data row6 col0\" >Transformed train set shape</td>\n",
       "      <td id=\"T_cd5ab_row6_col1\" class=\"data row6 col1\" >(748, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_cd5ab_row7_col0\" class=\"data row7 col0\" >Transformed test set shape</td>\n",
       "      <td id=\"T_cd5ab_row7_col1\" class=\"data row7 col1\" >(322, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_cd5ab_row8_col0\" class=\"data row8 col0\" >Ordinal features</td>\n",
       "      <td id=\"T_cd5ab_row8_col1\" class=\"data row8 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_cd5ab_row9_col0\" class=\"data row9 col0\" >Numeric features</td>\n",
       "      <td id=\"T_cd5ab_row9_col1\" class=\"data row9 col1\" >17</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_cd5ab_row10_col0\" class=\"data row10 col0\" >Categorical features</td>\n",
       "      <td id=\"T_cd5ab_row10_col1\" class=\"data row10 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_cd5ab_row11_col0\" class=\"data row11 col0\" >Preprocess</td>\n",
       "      <td id=\"T_cd5ab_row11_col1\" class=\"data row11 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_cd5ab_row12_col0\" class=\"data row12 col0\" >Imputation type</td>\n",
       "      <td id=\"T_cd5ab_row12_col1\" class=\"data row12 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_cd5ab_row13_col0\" class=\"data row13 col0\" >Numeric imputation</td>\n",
       "      <td id=\"T_cd5ab_row13_col1\" class=\"data row13 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_cd5ab_row14_col0\" class=\"data row14 col0\" >Categorical imputation</td>\n",
       "      <td id=\"T_cd5ab_row14_col1\" class=\"data row14 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_cd5ab_row15_col0\" class=\"data row15 col0\" >Maximum one-hot encoding</td>\n",
       "      <td id=\"T_cd5ab_row15_col1\" class=\"data row15 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_cd5ab_row16_col0\" class=\"data row16 col0\" >Encoding method</td>\n",
       "      <td id=\"T_cd5ab_row16_col1\" class=\"data row16 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_cd5ab_row17_col0\" class=\"data row17 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_cd5ab_row17_col1\" class=\"data row17 col1\" >StratifiedKFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_cd5ab_row18_col0\" class=\"data row18 col0\" >Fold Number</td>\n",
       "      <td id=\"T_cd5ab_row18_col1\" class=\"data row18 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_cd5ab_row19_col0\" class=\"data row19 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_cd5ab_row19_col1\" class=\"data row19 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_cd5ab_row20_col0\" class=\"data row20 col0\" >Use GPU</td>\n",
       "      <td id=\"T_cd5ab_row20_col1\" class=\"data row20 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_cd5ab_row21_col0\" class=\"data row21 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_cd5ab_row21_col1\" class=\"data row21 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_cd5ab_row22_col0\" class=\"data row22 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_cd5ab_row22_col1\" class=\"data row22 col1\" >clf-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_cd5ab_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_cd5ab_row23_col0\" class=\"data row23 col0\" >USI</td>\n",
       "      <td id=\"T_cd5ab_row23_col1\" class=\"data row23 col1\" >9c46</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7ff01509cf70>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.classification import *\n",
    "\n",
    "setup(data=get_data(\"juice\", verbose=False), target = 'Purchase', n_jobs=1)\n",
    "\n",
    "test_models = models().index.tolist()[:5]"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "37b1957a",
   "metadata": {},
   "source": [
    "`compare_model` is also exactly the same if you don't want to use a distributed system"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "c8cc5a40",
   "metadata": {},
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_a98cc th {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_a98cc_row0_col0, #T_a98cc_row0_col3, #T_a98cc_row1_col0, #T_a98cc_row1_col1, #T_a98cc_row1_col2, #T_a98cc_row1_col3, #T_a98cc_row1_col4, #T_a98cc_row1_col5, #T_a98cc_row1_col6, #T_a98cc_row1_col7, #T_a98cc_row2_col0, #T_a98cc_row2_col1, #T_a98cc_row2_col2, #T_a98cc_row2_col4, #T_a98cc_row2_col5, #T_a98cc_row2_col6, #T_a98cc_row2_col7, #T_a98cc_row3_col0, #T_a98cc_row3_col1, #T_a98cc_row3_col2, #T_a98cc_row3_col3, #T_a98cc_row3_col4, #T_a98cc_row3_col5, #T_a98cc_row3_col6, #T_a98cc_row3_col7, #T_a98cc_row4_col0, #T_a98cc_row4_col1, #T_a98cc_row4_col2, #T_a98cc_row4_col3, #T_a98cc_row4_col4, #T_a98cc_row4_col5, #T_a98cc_row4_col6, #T_a98cc_row4_col7 {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_a98cc_row0_col1, #T_a98cc_row0_col2, #T_a98cc_row0_col4, #T_a98cc_row0_col5, #T_a98cc_row0_col6, #T_a98cc_row0_col7, #T_a98cc_row2_col3 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "}\n",
       "#T_a98cc_row0_col8, #T_a98cc_row1_col8, #T_a98cc_row2_col8, #T_a98cc_row3_col8 {\n",
       "  text-align: left;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "#T_a98cc_row4_col8 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_a98cc\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_a98cc_level0_col0\" class=\"col_heading level0 col0\" >Model</th>\n",
       "      <th id=\"T_a98cc_level0_col1\" class=\"col_heading level0 col1\" >Accuracy</th>\n",
       "      <th id=\"T_a98cc_level0_col2\" class=\"col_heading level0 col2\" >AUC</th>\n",
       "      <th id=\"T_a98cc_level0_col3\" class=\"col_heading level0 col3\" >Recall</th>\n",
       "      <th id=\"T_a98cc_level0_col4\" class=\"col_heading level0 col4\" >Prec.</th>\n",
       "      <th id=\"T_a98cc_level0_col5\" class=\"col_heading level0 col5\" >F1</th>\n",
       "      <th id=\"T_a98cc_level0_col6\" class=\"col_heading level0 col6\" >Kappa</th>\n",
       "      <th id=\"T_a98cc_level0_col7\" class=\"col_heading level0 col7\" >MCC</th>\n",
       "      <th id=\"T_a98cc_level0_col8\" class=\"col_heading level0 col8\" >TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_a98cc_level0_row0\" class=\"row_heading level0 row0\" >lr</th>\n",
       "      <td id=\"T_a98cc_row0_col0\" class=\"data row0 col0\" >Logistic Regression</td>\n",
       "      <td id=\"T_a98cc_row0_col1\" class=\"data row0 col1\" >0.8330</td>\n",
       "      <td id=\"T_a98cc_row0_col2\" class=\"data row0 col2\" >0.8975</td>\n",
       "      <td id=\"T_a98cc_row0_col3\" class=\"data row0 col3\" >0.7532</td>\n",
       "      <td id=\"T_a98cc_row0_col4\" class=\"data row0 col4\" >0.8097</td>\n",
       "      <td id=\"T_a98cc_row0_col5\" class=\"data row0 col5\" >0.7791</td>\n",
       "      <td id=\"T_a98cc_row0_col6\" class=\"data row0 col6\" >0.6451</td>\n",
       "      <td id=\"T_a98cc_row0_col7\" class=\"data row0 col7\" >0.6475</td>\n",
       "      <td id=\"T_a98cc_row0_col8\" class=\"data row0 col8\" >0.3270</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a98cc_level0_row1\" class=\"row_heading level0 row1\" >dt</th>\n",
       "      <td id=\"T_a98cc_row1_col0\" class=\"data row1 col0\" >Decision Tree Classifier</td>\n",
       "      <td id=\"T_a98cc_row1_col1\" class=\"data row1 col1\" >0.7715</td>\n",
       "      <td id=\"T_a98cc_row1_col2\" class=\"data row1 col2\" >0.7625</td>\n",
       "      <td id=\"T_a98cc_row1_col3\" class=\"data row1 col3\" >0.7224</td>\n",
       "      <td id=\"T_a98cc_row1_col4\" class=\"data row1 col4\" >0.7058</td>\n",
       "      <td id=\"T_a98cc_row1_col5\" class=\"data row1 col5\" >0.7106</td>\n",
       "      <td id=\"T_a98cc_row1_col6\" class=\"data row1 col6\" >0.5224</td>\n",
       "      <td id=\"T_a98cc_row1_col7\" class=\"data row1 col7\" >0.5256</td>\n",
       "      <td id=\"T_a98cc_row1_col8\" class=\"data row1 col8\" >0.0780</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a98cc_level0_row2\" class=\"row_heading level0 row2\" >nb</th>\n",
       "      <td id=\"T_a98cc_row2_col0\" class=\"data row2 col0\" >Naive Bayes</td>\n",
       "      <td id=\"T_a98cc_row2_col1\" class=\"data row2 col1\" >0.7608</td>\n",
       "      <td id=\"T_a98cc_row2_col2\" class=\"data row2 col2\" >0.8337</td>\n",
       "      <td id=\"T_a98cc_row2_col3\" class=\"data row2 col3\" >0.7802</td>\n",
       "      <td id=\"T_a98cc_row2_col4\" class=\"data row2 col4\" >0.6693</td>\n",
       "      <td id=\"T_a98cc_row2_col5\" class=\"data row2 col5\" >0.7179</td>\n",
       "      <td id=\"T_a98cc_row2_col6\" class=\"data row2 col6\" >0.5129</td>\n",
       "      <td id=\"T_a98cc_row2_col7\" class=\"data row2 col7\" >0.5206</td>\n",
       "      <td id=\"T_a98cc_row2_col8\" class=\"data row2 col8\" >0.0780</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a98cc_level0_row3\" class=\"row_heading level0 row3\" >knn</th>\n",
       "      <td id=\"T_a98cc_row3_col0\" class=\"data row3 col0\" >K Neighbors Classifier</td>\n",
       "      <td id=\"T_a98cc_row3_col1\" class=\"data row3 col1\" >0.7594</td>\n",
       "      <td id=\"T_a98cc_row3_col2\" class=\"data row3 col2\" >0.7989</td>\n",
       "      <td id=\"T_a98cc_row3_col3\" class=\"data row3 col3\" >0.6093</td>\n",
       "      <td id=\"T_a98cc_row3_col4\" class=\"data row3 col4\" >0.7323</td>\n",
       "      <td id=\"T_a98cc_row3_col5\" class=\"data row3 col5\" >0.6620</td>\n",
       "      <td id=\"T_a98cc_row3_col6\" class=\"data row3 col6\" >0.4782</td>\n",
       "      <td id=\"T_a98cc_row3_col7\" class=\"data row3 col7\" >0.4856</td>\n",
       "      <td id=\"T_a98cc_row3_col8\" class=\"data row3 col8\" >0.1080</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_a98cc_level0_row4\" class=\"row_heading level0 row4\" >svm</th>\n",
       "      <td id=\"T_a98cc_row4_col0\" class=\"data row4 col0\" >SVM - Linear Kernel</td>\n",
       "      <td id=\"T_a98cc_row4_col1\" class=\"data row4 col1\" >0.4881</td>\n",
       "      <td id=\"T_a98cc_row4_col2\" class=\"data row4 col2\" >0.0000</td>\n",
       "      <td id=\"T_a98cc_row4_col3\" class=\"data row4 col3\" >0.7590</td>\n",
       "      <td id=\"T_a98cc_row4_col4\" class=\"data row4 col4\" >0.3346</td>\n",
       "      <td id=\"T_a98cc_row4_col5\" class=\"data row4 col5\" >0.4628</td>\n",
       "      <td id=\"T_a98cc_row4_col6\" class=\"data row4 col6\" >0.0615</td>\n",
       "      <td id=\"T_a98cc_row4_col7\" class=\"data row4 col7\" >0.1061</td>\n",
       "      <td id=\"T_a98cc_row4_col8\" class=\"data row4 col8\" >0.0590</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7ff06c6e4e80>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing:   0%|          | 0/26 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=4292, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_samples_leaf=1,\n",
       "                        min_samples_split=2, min_weight_fraction_leaf=0.0,\n",
       "                        random_state=4292, splitter='best')]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "86aa67d8",
   "metadata": {},
   "source": [
    "Now let's make it distributed, as a toy case, on dask. The only thing changed is an additional parameter `parallel_backend`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "e7e649ce",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8330</td>\n",
       "      <td>0.8975</td>\n",
       "      <td>0.7532</td>\n",
       "      <td>0.8097</td>\n",
       "      <td>0.7791</td>\n",
       "      <td>0.6451</td>\n",
       "      <td>0.6475</td>\n",
       "      <td>0.214</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7715</td>\n",
       "      <td>0.7625</td>\n",
       "      <td>0.7224</td>\n",
       "      <td>0.7058</td>\n",
       "      <td>0.7106</td>\n",
       "      <td>0.5224</td>\n",
       "      <td>0.5256</td>\n",
       "      <td>0.078</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7608</td>\n",
       "      <td>0.8337</td>\n",
       "      <td>0.7802</td>\n",
       "      <td>0.6693</td>\n",
       "      <td>0.7179</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5206</td>\n",
       "      <td>0.209</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7594</td>\n",
       "      <td>0.7989</td>\n",
       "      <td>0.6093</td>\n",
       "      <td>0.7323</td>\n",
       "      <td>0.6620</td>\n",
       "      <td>0.4782</td>\n",
       "      <td>0.4856</td>\n",
       "      <td>0.134</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.4881</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.7590</td>\n",
       "      <td>0.3346</td>\n",
       "      <td>0.4628</td>\n",
       "      <td>0.0615</td>\n",
       "      <td>0.1061</td>\n",
       "      <td>0.058</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "lr        Logistic Regression    0.8330  0.8975  0.7532  0.8097  0.7791   \n",
       "dt   Decision Tree Classifier    0.7715  0.7625  0.7224  0.7058  0.7106   \n",
       "nb                Naive Bayes    0.7608  0.8337  0.7802  0.6693  0.7179   \n",
       "knn    K Neighbors Classifier    0.7594  0.7989  0.6093  0.7323  0.6620   \n",
       "svm       SVM - Linear Kernel    0.4881  0.0000  0.7590  0.3346  0.4628   \n",
       "\n",
       "      Kappa     MCC  TT (Sec)  \n",
       "lr   0.6451  0.6475     0.214  \n",
       "dt   0.5224  0.5256     0.078  \n",
       "nb   0.5129  0.5206     0.209  \n",
       "knn  0.4782  0.4856     0.134  \n",
       "svm  0.0615  0.1061     0.058  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=4292, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_samples_leaf=1,\n",
       "                        min_samples_split=2, min_weight_fraction_leaf=0.0,\n",
       "                        random_state=4292, splitter='best')]"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "3953dc74",
   "metadata": {},
   "source": [
    "In order to use Spark as the execution engine, you must have access to a Spark cluster, and you must have a `SparkSession`, let's initialize a local Spark session"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "998bd694",
   "metadata": {},
   "outputs": [],
   "source": [
    "from pyspark.sql import SparkSession\n",
    "\n",
    "spark = SparkSession.builder.getOrCreate()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0f5d91d6",
   "metadata": {},
   "source": [
    "Now just change `parallel_backend` to this session object, you make it run on Spark. You must understand this is a toy case. In the real situation, you need to have a SparkSession pointing to a real Spark cluster to enjoy the power of Spark"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "87834c91",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8330</td>\n",
       "      <td>0.8975</td>\n",
       "      <td>0.7532</td>\n",
       "      <td>0.8097</td>\n",
       "      <td>0.7791</td>\n",
       "      <td>0.6451</td>\n",
       "      <td>0.6475</td>\n",
       "      <td>0.678</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7715</td>\n",
       "      <td>0.7625</td>\n",
       "      <td>0.7224</td>\n",
       "      <td>0.7058</td>\n",
       "      <td>0.7106</td>\n",
       "      <td>0.5224</td>\n",
       "      <td>0.5256</td>\n",
       "      <td>0.208</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7608</td>\n",
       "      <td>0.8337</td>\n",
       "      <td>0.7802</td>\n",
       "      <td>0.6693</td>\n",
       "      <td>0.7179</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5206</td>\n",
       "      <td>0.213</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7594</td>\n",
       "      <td>0.7989</td>\n",
       "      <td>0.6093</td>\n",
       "      <td>0.7323</td>\n",
       "      <td>0.6620</td>\n",
       "      <td>0.4782</td>\n",
       "      <td>0.4856</td>\n",
       "      <td>0.573</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.4881</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.7590</td>\n",
       "      <td>0.3346</td>\n",
       "      <td>0.4628</td>\n",
       "      <td>0.0615</td>\n",
       "      <td>0.1061</td>\n",
       "      <td>0.059</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "lr        Logistic Regression    0.8330  0.8975  0.7532  0.8097  0.7791   \n",
       "dt   Decision Tree Classifier    0.7715  0.7625  0.7224  0.7058  0.7106   \n",
       "nb                Naive Bayes    0.7608  0.8337  0.7802  0.6693  0.7179   \n",
       "knn    K Neighbors Classifier    0.7594  0.7989  0.6093  0.7323  0.6620   \n",
       "svm       SVM - Linear Kernel    0.4881  0.0000  0.7590  0.3346  0.4628   \n",
       "\n",
       "      Kappa     MCC  TT (Sec)  \n",
       "lr   0.6451  0.6475     0.678  \n",
       "dt   0.5224  0.5256     0.208  \n",
       "nb   0.5129  0.5206     0.213  \n",
       "knn  0.4782  0.4856     0.573  \n",
       "svm  0.0615  0.1061     0.059  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=4292, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False),\n",
       " DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_samples_leaf=1,\n",
       "                        min_samples_split=2, min_weight_fraction_leaf=0.0,\n",
       "                        random_state=4292, splitter='best')]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, parallel=FugueBackend(spark))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c490458a",
   "metadata": {},
   "source": [
    "In the end, you can `pull` to get the metrics table"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "f74ca178",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8330</td>\n",
       "      <td>0.8975</td>\n",
       "      <td>0.7532</td>\n",
       "      <td>0.8097</td>\n",
       "      <td>0.7791</td>\n",
       "      <td>0.6451</td>\n",
       "      <td>0.6475</td>\n",
       "      <td>0.678</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7715</td>\n",
       "      <td>0.7625</td>\n",
       "      <td>0.7224</td>\n",
       "      <td>0.7058</td>\n",
       "      <td>0.7106</td>\n",
       "      <td>0.5224</td>\n",
       "      <td>0.5256</td>\n",
       "      <td>0.208</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7608</td>\n",
       "      <td>0.8337</td>\n",
       "      <td>0.7802</td>\n",
       "      <td>0.6693</td>\n",
       "      <td>0.7179</td>\n",
       "      <td>0.5129</td>\n",
       "      <td>0.5206</td>\n",
       "      <td>0.213</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7594</td>\n",
       "      <td>0.7989</td>\n",
       "      <td>0.6093</td>\n",
       "      <td>0.7323</td>\n",
       "      <td>0.6620</td>\n",
       "      <td>0.4782</td>\n",
       "      <td>0.4856</td>\n",
       "      <td>0.573</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.4881</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.7590</td>\n",
       "      <td>0.3346</td>\n",
       "      <td>0.4628</td>\n",
       "      <td>0.0615</td>\n",
       "      <td>0.1061</td>\n",
       "      <td>0.059</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "lr        Logistic Regression    0.8330  0.8975  0.7532  0.8097  0.7791   \n",
       "dt   Decision Tree Classifier    0.7715  0.7625  0.7224  0.7058  0.7106   \n",
       "nb                Naive Bayes    0.7608  0.8337  0.7802  0.6693  0.7179   \n",
       "knn    K Neighbors Classifier    0.7594  0.7989  0.6093  0.7323  0.6620   \n",
       "svm       SVM - Linear Kernel    0.4881  0.0000  0.7590  0.3346  0.4628   \n",
       "\n",
       "      Kappa     MCC  TT (Sec)  \n",
       "lr   0.6451  0.6475     0.678  \n",
       "dt   0.5224  0.5256     0.208  \n",
       "nb   0.5129  0.5206     0.213  \n",
       "knn  0.4782  0.4856     0.573  \n",
       "svm  0.0615  0.1061     0.059  "
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "76a1c5be",
   "metadata": {},
   "source": [
    "# Regression\n",
    "\n",
    "It follows the same pattern as classification."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "917c6ac4",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_8d4fd_row9_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_8d4fd\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_8d4fd_level0_col0\" class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th id=\"T_8d4fd_level0_col1\" class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_8d4fd_row0_col0\" class=\"data row0 col0\" >Session id</td>\n",
       "      <td id=\"T_8d4fd_row0_col1\" class=\"data row0 col1\" >3514</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_8d4fd_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_8d4fd_row1_col1\" class=\"data row1 col1\" >charges</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_8d4fd_row2_col0\" class=\"data row2 col0\" >Target type</td>\n",
       "      <td id=\"T_8d4fd_row2_col1\" class=\"data row2 col1\" >Regression</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_8d4fd_row3_col0\" class=\"data row3 col0\" >Data shape</td>\n",
       "      <td id=\"T_8d4fd_row3_col1\" class=\"data row3 col1\" >(1338, 10)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_8d4fd_row4_col0\" class=\"data row4 col0\" >Train data shape</td>\n",
       "      <td id=\"T_8d4fd_row4_col1\" class=\"data row4 col1\" >(936, 10)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_8d4fd_row5_col0\" class=\"data row5 col0\" >Test data shape</td>\n",
       "      <td id=\"T_8d4fd_row5_col1\" class=\"data row5 col1\" >(402, 10)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_8d4fd_row6_col0\" class=\"data row6 col0\" >Ordinal features</td>\n",
       "      <td id=\"T_8d4fd_row6_col1\" class=\"data row6 col1\" >2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_8d4fd_row7_col0\" class=\"data row7 col0\" >Numeric features</td>\n",
       "      <td id=\"T_8d4fd_row7_col1\" class=\"data row7 col1\" >3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_8d4fd_row8_col0\" class=\"data row8 col0\" >Categorical features</td>\n",
       "      <td id=\"T_8d4fd_row8_col1\" class=\"data row8 col1\" >3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_8d4fd_row9_col0\" class=\"data row9 col0\" >Preprocess</td>\n",
       "      <td id=\"T_8d4fd_row9_col1\" class=\"data row9 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_8d4fd_row10_col0\" class=\"data row10 col0\" >Imputation type</td>\n",
       "      <td id=\"T_8d4fd_row10_col1\" class=\"data row10 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_8d4fd_row11_col0\" class=\"data row11 col0\" >Numeric imputation</td>\n",
       "      <td id=\"T_8d4fd_row11_col1\" class=\"data row11 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_8d4fd_row12_col0\" class=\"data row12 col0\" >Categorical imputation</td>\n",
       "      <td id=\"T_8d4fd_row12_col1\" class=\"data row12 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_8d4fd_row13_col0\" class=\"data row13 col0\" >Maximum one-hot encoding</td>\n",
       "      <td id=\"T_8d4fd_row13_col1\" class=\"data row13 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_8d4fd_row14_col0\" class=\"data row14 col0\" >Encoding method</td>\n",
       "      <td id=\"T_8d4fd_row14_col1\" class=\"data row14 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_8d4fd_row15_col0\" class=\"data row15 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_8d4fd_row15_col1\" class=\"data row15 col1\" >KFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_8d4fd_row16_col0\" class=\"data row16 col0\" >Fold Number</td>\n",
       "      <td id=\"T_8d4fd_row16_col1\" class=\"data row16 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_8d4fd_row17_col0\" class=\"data row17 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_8d4fd_row17_col1\" class=\"data row17 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_8d4fd_row18_col0\" class=\"data row18 col0\" >Use GPU</td>\n",
       "      <td id=\"T_8d4fd_row18_col1\" class=\"data row18 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_8d4fd_row19_col0\" class=\"data row19 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_8d4fd_row19_col1\" class=\"data row19 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_8d4fd_row20_col0\" class=\"data row20 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_8d4fd_row20_col1\" class=\"data row20 col1\" >reg-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_8d4fd_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_8d4fd_row21_col0\" class=\"data row21 col0\" >USI</td>\n",
       "      <td id=\"T_8d4fd_row21_col1\" class=\"data row21 col1\" >478f</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f5dd874a250>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.regression import *\n",
    "\n",
    "setup(data=get_data(\"insurance\", verbose=False), target = 'charges', n_jobs=1)\n",
    "\n",
    "test_models = models().index.tolist()[:5]"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4356758c",
   "metadata": {},
   "source": [
    "`compare_model` is also exactly the same if you don't want to use a distributed system"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "bf87f67b",
   "metadata": {},
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_be80c th {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_be80c_row0_col0, #T_be80c_row0_col4, #T_be80c_row0_col5, #T_be80c_row1_col0, #T_be80c_row1_col1, #T_be80c_row1_col2, #T_be80c_row1_col3, #T_be80c_row1_col4, #T_be80c_row1_col5, #T_be80c_row1_col6, #T_be80c_row2_col0, #T_be80c_row2_col1, #T_be80c_row2_col2, #T_be80c_row2_col3, #T_be80c_row2_col4, #T_be80c_row2_col5, #T_be80c_row2_col6, #T_be80c_row3_col0, #T_be80c_row3_col1, #T_be80c_row3_col2, #T_be80c_row3_col3, #T_be80c_row3_col6, #T_be80c_row4_col0, #T_be80c_row4_col1, #T_be80c_row4_col2, #T_be80c_row4_col3, #T_be80c_row4_col4, #T_be80c_row4_col5, #T_be80c_row4_col6 {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_be80c_row0_col1, #T_be80c_row0_col2, #T_be80c_row0_col3, #T_be80c_row0_col6, #T_be80c_row3_col4, #T_be80c_row3_col5 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "}\n",
       "#T_be80c_row0_col7, #T_be80c_row4_col7 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "#T_be80c_row1_col7, #T_be80c_row2_col7, #T_be80c_row3_col7 {\n",
       "  text-align: left;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_be80c\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_be80c_level0_col0\" class=\"col_heading level0 col0\" >Model</th>\n",
       "      <th id=\"T_be80c_level0_col1\" class=\"col_heading level0 col1\" >MAE</th>\n",
       "      <th id=\"T_be80c_level0_col2\" class=\"col_heading level0 col2\" >MSE</th>\n",
       "      <th id=\"T_be80c_level0_col3\" class=\"col_heading level0 col3\" >RMSE</th>\n",
       "      <th id=\"T_be80c_level0_col4\" class=\"col_heading level0 col4\" >R2</th>\n",
       "      <th id=\"T_be80c_level0_col5\" class=\"col_heading level0 col5\" >RMSLE</th>\n",
       "      <th id=\"T_be80c_level0_col6\" class=\"col_heading level0 col6\" >MAPE</th>\n",
       "      <th id=\"T_be80c_level0_col7\" class=\"col_heading level0 col7\" >TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_be80c_level0_row0\" class=\"row_heading level0 row0\" >lar</th>\n",
       "      <td id=\"T_be80c_row0_col0\" class=\"data row0 col0\" >Least Angle Regression</td>\n",
       "      <td id=\"T_be80c_row0_col1\" class=\"data row0 col1\" >4215.3750</td>\n",
       "      <td id=\"T_be80c_row0_col2\" class=\"data row0 col2\" >36942784.9091</td>\n",
       "      <td id=\"T_be80c_row0_col3\" class=\"data row0 col3\" >6056.6512</td>\n",
       "      <td id=\"T_be80c_row0_col4\" class=\"data row0 col4\" >0.7412</td>\n",
       "      <td id=\"T_be80c_row0_col5\" class=\"data row0 col5\" >0.5944</td>\n",
       "      <td id=\"T_be80c_row0_col6\" class=\"data row0 col6\" >0.4301</td>\n",
       "      <td id=\"T_be80c_row0_col7\" class=\"data row0 col7\" >0.0540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_be80c_level0_row1\" class=\"row_heading level0 row1\" >lr</th>\n",
       "      <td id=\"T_be80c_row1_col0\" class=\"data row1 col0\" >Linear Regression</td>\n",
       "      <td id=\"T_be80c_row1_col1\" class=\"data row1 col1\" >4216.0692</td>\n",
       "      <td id=\"T_be80c_row1_col2\" class=\"data row1 col2\" >36946939.1774</td>\n",
       "      <td id=\"T_be80c_row1_col3\" class=\"data row1 col3\" >6057.0115</td>\n",
       "      <td id=\"T_be80c_row1_col4\" class=\"data row1 col4\" >0.7412</td>\n",
       "      <td id=\"T_be80c_row1_col5\" class=\"data row1 col5\" >0.5956</td>\n",
       "      <td id=\"T_be80c_row1_col6\" class=\"data row1 col6\" >0.4303</td>\n",
       "      <td id=\"T_be80c_row1_col7\" class=\"data row1 col7\" >0.1540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_be80c_level0_row2\" class=\"row_heading level0 row2\" >lasso</th>\n",
       "      <td id=\"T_be80c_row2_col0\" class=\"data row2 col0\" >Lasso Regression</td>\n",
       "      <td id=\"T_be80c_row2_col1\" class=\"data row2 col1\" >4216.0766</td>\n",
       "      <td id=\"T_be80c_row2_col2\" class=\"data row2 col2\" >36944721.4684</td>\n",
       "      <td id=\"T_be80c_row2_col3\" class=\"data row2 col3\" >6056.8051</td>\n",
       "      <td id=\"T_be80c_row2_col4\" class=\"data row2 col4\" >0.7412</td>\n",
       "      <td id=\"T_be80c_row2_col5\" class=\"data row2 col5\" >0.5943</td>\n",
       "      <td id=\"T_be80c_row2_col6\" class=\"data row2 col6\" >0.4303</td>\n",
       "      <td id=\"T_be80c_row2_col7\" class=\"data row2 col7\" >0.0590</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_be80c_level0_row3\" class=\"row_heading level0 row3\" >ridge</th>\n",
       "      <td id=\"T_be80c_row3_col0\" class=\"data row3 col0\" >Ridge Regression</td>\n",
       "      <td id=\"T_be80c_row3_col1\" class=\"data row3 col1\" >4226.7264</td>\n",
       "      <td id=\"T_be80c_row3_col2\" class=\"data row3 col2\" >36949983.8412</td>\n",
       "      <td id=\"T_be80c_row3_col3\" class=\"data row3 col3\" >6057.1250</td>\n",
       "      <td id=\"T_be80c_row3_col4\" class=\"data row3 col4\" >0.7413</td>\n",
       "      <td id=\"T_be80c_row3_col5\" class=\"data row3 col5\" >0.5923</td>\n",
       "      <td id=\"T_be80c_row3_col6\" class=\"data row3 col6\" >0.4319</td>\n",
       "      <td id=\"T_be80c_row3_col7\" class=\"data row3 col7\" >0.0550</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_be80c_level0_row4\" class=\"row_heading level0 row4\" >en</th>\n",
       "      <td id=\"T_be80c_row4_col0\" class=\"data row4 col0\" >Elastic Net</td>\n",
       "      <td id=\"T_be80c_row4_col1\" class=\"data row4 col1\" >7260.0035</td>\n",
       "      <td id=\"T_be80c_row4_col2\" class=\"data row4 col2\" >90321787.1218</td>\n",
       "      <td id=\"T_be80c_row4_col3\" class=\"data row4 col3\" >9448.8041</td>\n",
       "      <td id=\"T_be80c_row4_col4\" class=\"data row4 col4\" >0.3861</td>\n",
       "      <td id=\"T_be80c_row4_col5\" class=\"data row4 col5\" >0.7217</td>\n",
       "      <td id=\"T_be80c_row4_col6\" class=\"data row4 col6\" >0.8981</td>\n",
       "      <td id=\"T_be80c_row4_col7\" class=\"data row4 col7\" >0.0540</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f5dec4add60>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing:   0%|          | 0/26 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[Lars(copy_X=True, eps=2.220446049250313e-16, fit_intercept=True, fit_path=True,\n",
       "      jitter=None, n_nonzero_coefs=500, normalize='deprecated',\n",
       "      precompute='auto', random_state=3514, verbose=False),\n",
       " LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1,\n",
       "                  normalize='deprecated', positive=False)]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, sort=\"MAE\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8cc73849",
   "metadata": {},
   "source": [
    "Now let's make it distributed, as a toy case, on dask. The only thing changed is an additional parameter `parallel_backend`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "ee333586",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MAE</th>\n",
       "      <th>MSE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>R2</th>\n",
       "      <th>RMSLE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lar</th>\n",
       "      <td>Least Angle Regression</td>\n",
       "      <td>4215.3750</td>\n",
       "      <td>3.694278e+07</td>\n",
       "      <td>6056.6512</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5944</td>\n",
       "      <td>0.4301</td>\n",
       "      <td>0.055</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Linear Regression</td>\n",
       "      <td>4216.0692</td>\n",
       "      <td>3.694694e+07</td>\n",
       "      <td>6057.0115</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5956</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.054</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lasso</th>\n",
       "      <td>Lasso Regression</td>\n",
       "      <td>4216.0766</td>\n",
       "      <td>3.694472e+07</td>\n",
       "      <td>6056.8051</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5943</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.056</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Regression</td>\n",
       "      <td>4226.7264</td>\n",
       "      <td>3.694998e+07</td>\n",
       "      <td>6057.1250</td>\n",
       "      <td>0.7413</td>\n",
       "      <td>0.5923</td>\n",
       "      <td>0.4319</td>\n",
       "      <td>0.111</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>en</th>\n",
       "      <td>Elastic Net</td>\n",
       "      <td>7260.0035</td>\n",
       "      <td>9.032179e+07</td>\n",
       "      <td>9448.8041</td>\n",
       "      <td>0.3861</td>\n",
       "      <td>0.7217</td>\n",
       "      <td>0.8981</td>\n",
       "      <td>0.236</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model        MAE           MSE       RMSE      R2  \\\n",
       "lar    Least Angle Regression  4215.3750  3.694278e+07  6056.6512  0.7412   \n",
       "lr          Linear Regression  4216.0692  3.694694e+07  6057.0115  0.7412   \n",
       "lasso        Lasso Regression  4216.0766  3.694472e+07  6056.8051  0.7412   \n",
       "ridge        Ridge Regression  4226.7264  3.694998e+07  6057.1250  0.7413   \n",
       "en                Elastic Net  7260.0035  9.032179e+07  9448.8041  0.3861   \n",
       "\n",
       "        RMSLE    MAPE  TT (Sec)  \n",
       "lar    0.5944  0.4301     0.055  \n",
       "lr     0.5956  0.4303     0.054  \n",
       "lasso  0.5943  0.4303     0.056  \n",
       "ridge  0.5923  0.4319     0.111  \n",
       "en     0.7217  0.8981     0.236  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[Lars(copy_X=True, eps=2.220446049250313e-16, fit_intercept=True, fit_path=True,\n",
       "      jitter=None, n_nonzero_coefs=500, normalize='deprecated',\n",
       "      precompute='auto', random_state=3514, verbose=False),\n",
       " LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1,\n",
       "                  normalize='deprecated', positive=False)]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "compare_models(include=test_models, n_select=2, sort=\"MAE\", parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "38ad1ddb",
   "metadata": {},
   "source": [
    "In order to use Spark as the execution engine, you must have access to a Spark cluster, and you must have a `SparkSession`, let's initialize a local Spark session"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "8221c7c3",
   "metadata": {},
   "outputs": [],
   "source": [
    "from pyspark.sql import SparkSession\n",
    "\n",
    "spark = SparkSession.builder.getOrCreate()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "1ad84f4b",
   "metadata": {},
   "source": [
    "Now just change `parallel_backend` to this session object, you make it run on Spark. You must understand this is a toy case. In the real situation, you need to have a SparkSession pointing to a real Spark cluster to enjoy the power of Spark"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "id": "2ce39e6d",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MAE</th>\n",
       "      <th>MSE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>R2</th>\n",
       "      <th>RMSLE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lar</th>\n",
       "      <td>Least Angle Regression</td>\n",
       "      <td>4215.3750</td>\n",
       "      <td>3.694278e+07</td>\n",
       "      <td>6056.6512</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5944</td>\n",
       "      <td>0.4301</td>\n",
       "      <td>0.098</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Linear Regression</td>\n",
       "      <td>4216.0692</td>\n",
       "      <td>3.694694e+07</td>\n",
       "      <td>6057.0115</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5956</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lasso</th>\n",
       "      <td>Lasso Regression</td>\n",
       "      <td>4216.0766</td>\n",
       "      <td>3.694472e+07</td>\n",
       "      <td>6056.8051</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5943</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.094</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Regression</td>\n",
       "      <td>4226.7264</td>\n",
       "      <td>3.694998e+07</td>\n",
       "      <td>6057.1250</td>\n",
       "      <td>0.7413</td>\n",
       "      <td>0.5923</td>\n",
       "      <td>0.4319</td>\n",
       "      <td>0.053</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>en</th>\n",
       "      <td>Elastic Net</td>\n",
       "      <td>7260.0035</td>\n",
       "      <td>9.032179e+07</td>\n",
       "      <td>9448.8041</td>\n",
       "      <td>0.3861</td>\n",
       "      <td>0.7217</td>\n",
       "      <td>0.8981</td>\n",
       "      <td>0.092</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model        MAE           MSE       RMSE      R2  \\\n",
       "lar    Least Angle Regression  4215.3750  3.694278e+07  6056.6512  0.7412   \n",
       "lr          Linear Regression  4216.0692  3.694694e+07  6057.0115  0.7412   \n",
       "lasso        Lasso Regression  4216.0766  3.694472e+07  6056.8051  0.7412   \n",
       "ridge        Ridge Regression  4226.7264  3.694998e+07  6057.1250  0.7413   \n",
       "en                Elastic Net  7260.0035  9.032179e+07  9448.8041  0.3861   \n",
       "\n",
       "        RMSLE    MAPE  TT (Sec)  \n",
       "lar    0.5944  0.4301     0.098  \n",
       "lr     0.5956  0.4303     0.100  \n",
       "lasso  0.5943  0.4303     0.094  \n",
       "ridge  0.5923  0.4319     0.053  \n",
       "en     0.7217  0.8981     0.092  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[Lars(copy_X=True, eps=2.220446049250313e-16, fit_intercept=True, fit_path=True,\n",
       "      jitter=None, n_nonzero_coefs=500, normalize='deprecated',\n",
       "      precompute='auto', random_state=3514, verbose=False),\n",
       " LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1,\n",
       "                  normalize='deprecated', positive=False)]"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, sort=\"MAE\", parallel=FugueBackend(spark))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "789fd969",
   "metadata": {},
   "source": [
    "In the end, you can `pull` to get the metrics table"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "ecdd02a4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MAE</th>\n",
       "      <th>MSE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>R2</th>\n",
       "      <th>RMSLE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>lar</th>\n",
       "      <td>Least Angle Regression</td>\n",
       "      <td>4215.3750</td>\n",
       "      <td>3.694278e+07</td>\n",
       "      <td>6056.6512</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5944</td>\n",
       "      <td>0.4301</td>\n",
       "      <td>0.098</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Linear Regression</td>\n",
       "      <td>4216.0692</td>\n",
       "      <td>3.694694e+07</td>\n",
       "      <td>6057.0115</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5956</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lasso</th>\n",
       "      <td>Lasso Regression</td>\n",
       "      <td>4216.0766</td>\n",
       "      <td>3.694472e+07</td>\n",
       "      <td>6056.8051</td>\n",
       "      <td>0.7412</td>\n",
       "      <td>0.5943</td>\n",
       "      <td>0.4303</td>\n",
       "      <td>0.094</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Regression</td>\n",
       "      <td>4226.7264</td>\n",
       "      <td>3.694998e+07</td>\n",
       "      <td>6057.1250</td>\n",
       "      <td>0.7413</td>\n",
       "      <td>0.5923</td>\n",
       "      <td>0.4319</td>\n",
       "      <td>0.053</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>en</th>\n",
       "      <td>Elastic Net</td>\n",
       "      <td>7260.0035</td>\n",
       "      <td>9.032179e+07</td>\n",
       "      <td>9448.8041</td>\n",
       "      <td>0.3861</td>\n",
       "      <td>0.7217</td>\n",
       "      <td>0.8981</td>\n",
       "      <td>0.092</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model        MAE           MSE       RMSE      R2  \\\n",
       "lar    Least Angle Regression  4215.3750  3.694278e+07  6056.6512  0.7412   \n",
       "lr          Linear Regression  4216.0692  3.694694e+07  6057.0115  0.7412   \n",
       "lasso        Lasso Regression  4216.0766  3.694472e+07  6056.8051  0.7412   \n",
       "ridge        Ridge Regression  4226.7264  3.694998e+07  6057.1250  0.7413   \n",
       "en                Elastic Net  7260.0035  9.032179e+07  9448.8041  0.3861   \n",
       "\n",
       "        RMSLE    MAPE  TT (Sec)  \n",
       "lar    0.5944  0.4301     0.098  \n",
       "lr     0.5956  0.4303     0.100  \n",
       "lasso  0.5943  0.4303     0.094  \n",
       "ridge  0.5923  0.4319     0.053  \n",
       "en     0.7217  0.8981     0.092  "
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "981a9c79",
   "metadata": {},
   "source": [
    "As you see, the results from the distributed versions can be different from your local versions. In the later sections, we will show how to make them identical.\n",
    "\n",
    "# Time Series\n",
    "\n",
    "It follows the same pattern as classification.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "ac63eb2e",
   "metadata": {},
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_b2f3e_row13_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_b2f3e\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_b2f3e_level0_col0\" class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th id=\"T_b2f3e_level0_col1\" class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_b2f3e_row0_col0\" class=\"data row0 col0\" >session_id</td>\n",
       "      <td id=\"T_b2f3e_row0_col1\" class=\"data row0 col1\" >42</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_b2f3e_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_b2f3e_row1_col1\" class=\"data row1 col1\" >Number of airline passengers</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_b2f3e_row2_col0\" class=\"data row2 col0\" >Approach</td>\n",
       "      <td id=\"T_b2f3e_row2_col1\" class=\"data row2 col1\" >Univariate</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_b2f3e_row3_col0\" class=\"data row3 col0\" >Exogenous Variables</td>\n",
       "      <td id=\"T_b2f3e_row3_col1\" class=\"data row3 col1\" >Not Present</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_b2f3e_row4_col0\" class=\"data row4 col0\" >Original data shape</td>\n",
       "      <td id=\"T_b2f3e_row4_col1\" class=\"data row4 col1\" >(144, 1)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_b2f3e_row5_col0\" class=\"data row5 col0\" >Transformed data shape</td>\n",
       "      <td id=\"T_b2f3e_row5_col1\" class=\"data row5 col1\" >(144, 1)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_b2f3e_row6_col0\" class=\"data row6 col0\" >Transformed train set shape</td>\n",
       "      <td id=\"T_b2f3e_row6_col1\" class=\"data row6 col1\" >(132, 1)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_b2f3e_row7_col0\" class=\"data row7 col0\" >Transformed test set shape</td>\n",
       "      <td id=\"T_b2f3e_row7_col1\" class=\"data row7 col1\" >(12, 1)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_b2f3e_row8_col0\" class=\"data row8 col0\" >Rows with missing values</td>\n",
       "      <td id=\"T_b2f3e_row8_col1\" class=\"data row8 col1\" >0.0%</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_b2f3e_row9_col0\" class=\"data row9 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_b2f3e_row9_col1\" class=\"data row9 col1\" >ExpandingWindowSplitter</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_b2f3e_row10_col0\" class=\"data row10 col0\" >Fold Number</td>\n",
       "      <td id=\"T_b2f3e_row10_col1\" class=\"data row10 col1\" >3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_b2f3e_row11_col0\" class=\"data row11 col0\" >Enforce Prediction Interval</td>\n",
       "      <td id=\"T_b2f3e_row11_col1\" class=\"data row11 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_b2f3e_row12_col0\" class=\"data row12 col0\" >Seasonal Period(s) Tested</td>\n",
       "      <td id=\"T_b2f3e_row12_col1\" class=\"data row12 col1\" >12</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_b2f3e_row13_col0\" class=\"data row13 col0\" >Seasonality Present</td>\n",
       "      <td id=\"T_b2f3e_row13_col1\" class=\"data row13 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_b2f3e_row14_col0\" class=\"data row14 col0\" >Seasonalities Detected</td>\n",
       "      <td id=\"T_b2f3e_row14_col1\" class=\"data row14 col1\" >[12]</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_b2f3e_row15_col0\" class=\"data row15 col0\" >Primary Seasonality</td>\n",
       "      <td id=\"T_b2f3e_row15_col1\" class=\"data row15 col1\" >12</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_b2f3e_row16_col0\" class=\"data row16 col0\" >Target Strictly Positive</td>\n",
       "      <td id=\"T_b2f3e_row16_col1\" class=\"data row16 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_b2f3e_row17_col0\" class=\"data row17 col0\" >Target White Noise</td>\n",
       "      <td id=\"T_b2f3e_row17_col1\" class=\"data row17 col1\" >No</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_b2f3e_row18_col0\" class=\"data row18 col0\" >Recommended d</td>\n",
       "      <td id=\"T_b2f3e_row18_col1\" class=\"data row18 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_b2f3e_row19_col0\" class=\"data row19 col0\" >Recommended Seasonal D</td>\n",
       "      <td id=\"T_b2f3e_row19_col1\" class=\"data row19 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_b2f3e_row20_col0\" class=\"data row20 col0\" >Preprocess</td>\n",
       "      <td id=\"T_b2f3e_row20_col1\" class=\"data row20 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_b2f3e_row21_col0\" class=\"data row21 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_b2f3e_row21_col1\" class=\"data row21 col1\" >-1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_b2f3e_row22_col0\" class=\"data row22 col0\" >Use GPU</td>\n",
       "      <td id=\"T_b2f3e_row22_col1\" class=\"data row22 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_b2f3e_row23_col0\" class=\"data row23 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_b2f3e_row23_col1\" class=\"data row23 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row24\" class=\"row_heading level0 row24\" >24</th>\n",
       "      <td id=\"T_b2f3e_row24_col0\" class=\"data row24 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_b2f3e_row24_col1\" class=\"data row24 col1\" >ts-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b2f3e_level0_row25\" class=\"row_heading level0 row25\" >25</th>\n",
       "      <td id=\"T_b2f3e_row25_col0\" class=\"data row25 col0\" >USI</td>\n",
       "      <td id=\"T_b2f3e_row25_col1\" class=\"data row25 col1\" >49cf</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f5e048f7dc0>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.time_series import *\n",
    "\n",
    "exp = TSForecastingExperiment()\n",
    "exp.setup(data=get_data('airline', verbose=False), fh=12, fold=3, fig_kwargs={'renderer': 'notebook'}, session_id=42)\n",
    "\n",
    "test_models = exp.models().index.tolist()[:5]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "cbb457fe",
   "metadata": {},
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_5ee1e th {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_5ee1e_row0_col0, #T_5ee1e_row1_col0, #T_5ee1e_row1_col1, #T_5ee1e_row1_col2, #T_5ee1e_row1_col3, #T_5ee1e_row1_col4, #T_5ee1e_row1_col5, #T_5ee1e_row1_col6, #T_5ee1e_row1_col7, #T_5ee1e_row2_col0, #T_5ee1e_row2_col1, #T_5ee1e_row2_col2, #T_5ee1e_row2_col3, #T_5ee1e_row2_col4, #T_5ee1e_row2_col5, #T_5ee1e_row2_col6, #T_5ee1e_row2_col7, #T_5ee1e_row3_col0, #T_5ee1e_row3_col1, #T_5ee1e_row3_col2, #T_5ee1e_row3_col3, #T_5ee1e_row3_col4, #T_5ee1e_row3_col5, #T_5ee1e_row3_col6, #T_5ee1e_row3_col7, #T_5ee1e_row4_col0, #T_5ee1e_row4_col1, #T_5ee1e_row4_col2, #T_5ee1e_row4_col3, #T_5ee1e_row4_col4, #T_5ee1e_row4_col5, #T_5ee1e_row4_col6, #T_5ee1e_row4_col7 {\n",
       "  text-align: left;\n",
       "}\n",
       "#T_5ee1e_row0_col1, #T_5ee1e_row0_col2, #T_5ee1e_row0_col3, #T_5ee1e_row0_col4, #T_5ee1e_row0_col5, #T_5ee1e_row0_col6, #T_5ee1e_row0_col7 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "}\n",
       "#T_5ee1e_row0_col8, #T_5ee1e_row1_col8, #T_5ee1e_row3_col8, #T_5ee1e_row4_col8 {\n",
       "  text-align: left;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "#T_5ee1e_row2_col8 {\n",
       "  text-align: left;\n",
       "  background-color: yellow;\n",
       "  background-color: lightgrey;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_5ee1e\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_5ee1e_level0_col0\" class=\"col_heading level0 col0\" >Model</th>\n",
       "      <th id=\"T_5ee1e_level0_col1\" class=\"col_heading level0 col1\" >MASE</th>\n",
       "      <th id=\"T_5ee1e_level0_col2\" class=\"col_heading level0 col2\" >RMSSE</th>\n",
       "      <th id=\"T_5ee1e_level0_col3\" class=\"col_heading level0 col3\" >MAE</th>\n",
       "      <th id=\"T_5ee1e_level0_col4\" class=\"col_heading level0 col4\" >RMSE</th>\n",
       "      <th id=\"T_5ee1e_level0_col5\" class=\"col_heading level0 col5\" >MAPE</th>\n",
       "      <th id=\"T_5ee1e_level0_col6\" class=\"col_heading level0 col6\" >SMAPE</th>\n",
       "      <th id=\"T_5ee1e_level0_col7\" class=\"col_heading level0 col7\" >R2</th>\n",
       "      <th id=\"T_5ee1e_level0_col8\" class=\"col_heading level0 col8\" >TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_5ee1e_level0_row0\" class=\"row_heading level0 row0\" >arima</th>\n",
       "      <td id=\"T_5ee1e_row0_col0\" class=\"data row0 col0\" >ARIMA</td>\n",
       "      <td id=\"T_5ee1e_row0_col1\" class=\"data row0 col1\" >0.6830</td>\n",
       "      <td id=\"T_5ee1e_row0_col2\" class=\"data row0 col2\" >0.6735</td>\n",
       "      <td id=\"T_5ee1e_row0_col3\" class=\"data row0 col3\" >20.0069</td>\n",
       "      <td id=\"T_5ee1e_row0_col4\" class=\"data row0 col4\" >22.2199</td>\n",
       "      <td id=\"T_5ee1e_row0_col5\" class=\"data row0 col5\" >0.0501</td>\n",
       "      <td id=\"T_5ee1e_row0_col6\" class=\"data row0 col6\" >0.0507</td>\n",
       "      <td id=\"T_5ee1e_row0_col7\" class=\"data row0 col7\" >0.8677</td>\n",
       "      <td id=\"T_5ee1e_row0_col8\" class=\"data row0 col8\" >0.3200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5ee1e_level0_row1\" class=\"row_heading level0 row1\" >snaive</th>\n",
       "      <td id=\"T_5ee1e_row1_col0\" class=\"data row1 col0\" >Seasonal Naive Forecaster</td>\n",
       "      <td id=\"T_5ee1e_row1_col1\" class=\"data row1 col1\" >1.1479</td>\n",
       "      <td id=\"T_5ee1e_row1_col2\" class=\"data row1 col2\" >1.0945</td>\n",
       "      <td id=\"T_5ee1e_row1_col3\" class=\"data row1 col3\" >33.3611</td>\n",
       "      <td id=\"T_5ee1e_row1_col4\" class=\"data row1 col4\" >35.9139</td>\n",
       "      <td id=\"T_5ee1e_row1_col5\" class=\"data row1 col5\" >0.0832</td>\n",
       "      <td id=\"T_5ee1e_row1_col6\" class=\"data row1 col6\" >0.0879</td>\n",
       "      <td id=\"T_5ee1e_row1_col7\" class=\"data row1 col7\" >0.6072</td>\n",
       "      <td id=\"T_5ee1e_row1_col8\" class=\"data row1 col8\" >0.0200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5ee1e_level0_row2\" class=\"row_heading level0 row2\" >polytrend</th>\n",
       "      <td id=\"T_5ee1e_row2_col0\" class=\"data row2 col0\" >Polynomial Trend Forecaster</td>\n",
       "      <td id=\"T_5ee1e_row2_col1\" class=\"data row2 col1\" >1.6523</td>\n",
       "      <td id=\"T_5ee1e_row2_col2\" class=\"data row2 col2\" >1.9202</td>\n",
       "      <td id=\"T_5ee1e_row2_col3\" class=\"data row2 col3\" >48.6301</td>\n",
       "      <td id=\"T_5ee1e_row2_col4\" class=\"data row2 col4\" >63.4299</td>\n",
       "      <td id=\"T_5ee1e_row2_col5\" class=\"data row2 col5\" >0.1170</td>\n",
       "      <td id=\"T_5ee1e_row2_col6\" class=\"data row2 col6\" >0.1216</td>\n",
       "      <td id=\"T_5ee1e_row2_col7\" class=\"data row2 col7\" >-0.0784</td>\n",
       "      <td id=\"T_5ee1e_row2_col8\" class=\"data row2 col8\" >0.0167</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5ee1e_level0_row3\" class=\"row_heading level0 row3\" >naive</th>\n",
       "      <td id=\"T_5ee1e_row3_col0\" class=\"data row3 col0\" >Naive Forecaster</td>\n",
       "      <td id=\"T_5ee1e_row3_col1\" class=\"data row3 col1\" >2.3599</td>\n",
       "      <td id=\"T_5ee1e_row3_col2\" class=\"data row3 col2\" >2.7612</td>\n",
       "      <td id=\"T_5ee1e_row3_col3\" class=\"data row3 col3\" >69.0278</td>\n",
       "      <td id=\"T_5ee1e_row3_col4\" class=\"data row3 col4\" >91.0322</td>\n",
       "      <td id=\"T_5ee1e_row3_col5\" class=\"data row3 col5\" >0.1569</td>\n",
       "      <td id=\"T_5ee1e_row3_col6\" class=\"data row3 col6\" >0.1792</td>\n",
       "      <td id=\"T_5ee1e_row3_col7\" class=\"data row3 col7\" >-1.2216</td>\n",
       "      <td id=\"T_5ee1e_row3_col8\" class=\"data row3 col8\" >1.0600</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5ee1e_level0_row4\" class=\"row_heading level0 row4\" >grand_means</th>\n",
       "      <td id=\"T_5ee1e_row4_col0\" class=\"data row4 col0\" >Grand Means Forecaster</td>\n",
       "      <td id=\"T_5ee1e_row4_col1\" class=\"data row4 col1\" >5.5306</td>\n",
       "      <td id=\"T_5ee1e_row4_col2\" class=\"data row4 col2\" >5.2596</td>\n",
       "      <td id=\"T_5ee1e_row4_col3\" class=\"data row4 col3\" >162.4117</td>\n",
       "      <td id=\"T_5ee1e_row4_col4\" class=\"data row4 col4\" >173.6492</td>\n",
       "      <td id=\"T_5ee1e_row4_col5\" class=\"data row4 col5\" >0.4000</td>\n",
       "      <td id=\"T_5ee1e_row4_col6\" class=\"data row4 col6\" >0.5075</td>\n",
       "      <td id=\"T_5ee1e_row4_col7\" class=\"data row4 col7\" >-7.0462</td>\n",
       "      <td id=\"T_5ee1e_row4_col8\" class=\"data row4 col8\" >1.2700</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f5dd86b7400>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing:   0%|          | 0/27 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[ARIMA(maxiter=50, method='lbfgs', order=(1, 0, 0), out_of_sample_size=0,\n",
       "       scoring='mse', scoring_args=None, seasonal_order=(0, 1, 0, 12),\n",
       "       start_params=None, suppress_warnings=False, trend=None,\n",
       "       with_intercept=True),\n",
       " NaiveForecaster(sp=12, strategy='last', window_length=None),\n",
       " PolynomialTrendForecaster(degree=1, regressor=None, with_intercept=True)]"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "best_baseline_models = exp.compare_models(include=test_models, n_select=3)\n",
    "best_baseline_models"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "d99c5131",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MASE</th>\n",
       "      <th>RMSSE</th>\n",
       "      <th>MAE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>SMAPE</th>\n",
       "      <th>R2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>arima</th>\n",
       "      <td>ARIMA</td>\n",
       "      <td>0.683</td>\n",
       "      <td>0.6735</td>\n",
       "      <td>20.0069</td>\n",
       "      <td>22.2199</td>\n",
       "      <td>0.0501</td>\n",
       "      <td>0.0507</td>\n",
       "      <td>0.8677</td>\n",
       "      <td>0.1267</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>snaive</th>\n",
       "      <td>Seasonal Naive Forecaster</td>\n",
       "      <td>1.1479</td>\n",
       "      <td>1.0945</td>\n",
       "      <td>33.3611</td>\n",
       "      <td>35.9139</td>\n",
       "      <td>0.0832</td>\n",
       "      <td>0.0879</td>\n",
       "      <td>0.6072</td>\n",
       "      <td>0.0367</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>polytrend</th>\n",
       "      <td>Polynomial Trend Forecaster</td>\n",
       "      <td>1.6523</td>\n",
       "      <td>1.9202</td>\n",
       "      <td>48.6301</td>\n",
       "      <td>63.4299</td>\n",
       "      <td>0.117</td>\n",
       "      <td>0.1216</td>\n",
       "      <td>-0.0784</td>\n",
       "      <td>0.0133</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>naive</th>\n",
       "      <td>Naive Forecaster</td>\n",
       "      <td>2.3599</td>\n",
       "      <td>2.7612</td>\n",
       "      <td>69.0278</td>\n",
       "      <td>91.0322</td>\n",
       "      <td>0.1569</td>\n",
       "      <td>0.1792</td>\n",
       "      <td>-1.2216</td>\n",
       "      <td>0.0200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>grand_means</th>\n",
       "      <td>Grand Means Forecaster</td>\n",
       "      <td>5.5306</td>\n",
       "      <td>5.2596</td>\n",
       "      <td>162.4117</td>\n",
       "      <td>173.6492</td>\n",
       "      <td>0.4</td>\n",
       "      <td>0.5075</td>\n",
       "      <td>-7.0462</td>\n",
       "      <td>0.0233</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                   Model    MASE   RMSSE       MAE      RMSE  \\\n",
       "arima                              ARIMA   0.683  0.6735   20.0069   22.2199   \n",
       "snaive         Seasonal Naive Forecaster  1.1479  1.0945   33.3611   35.9139   \n",
       "polytrend    Polynomial Trend Forecaster  1.6523  1.9202   48.6301   63.4299   \n",
       "naive                   Naive Forecaster  2.3599  2.7612   69.0278   91.0322   \n",
       "grand_means       Grand Means Forecaster  5.5306  5.2596  162.4117  173.6492   \n",
       "\n",
       "               MAPE   SMAPE      R2  TT (Sec)  \n",
       "arima        0.0501  0.0507  0.8677    0.1267  \n",
       "snaive       0.0832  0.0879  0.6072    0.0367  \n",
       "polytrend     0.117  0.1216 -0.0784    0.0133  \n",
       "naive        0.1569  0.1792 -1.2216    0.0200  \n",
       "grand_means     0.4  0.5075 -7.0462    0.0233  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[ARIMA(maxiter=50, method='lbfgs', order=(1, 0, 0), out_of_sample_size=0,\n",
       "       scoring='mse', scoring_args=None, seasonal_order=(0, 1, 0, 12),\n",
       "       start_params=None, suppress_warnings=False, trend=None,\n",
       "       with_intercept=True),\n",
       " NaiveForecaster(sp=12, strategy='last', window_length=None),\n",
       " PolynomialTrendForecaster(degree=1, regressor=None, with_intercept=True)]"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "best_baseline_models = exp.compare_models(include=test_models, n_select=3, parallel=FugueBackend(\"dask\"))\n",
    "best_baseline_models"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "id": "45e191f9",
   "metadata": {},
   "outputs": [],
   "source": [
    "from pyspark.sql import SparkSession\n",
    "\n",
    "spark = SparkSession.builder.getOrCreate()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "id": "ed579ca3",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MASE</th>\n",
       "      <th>RMSSE</th>\n",
       "      <th>MAE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>SMAPE</th>\n",
       "      <th>R2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>naive</th>\n",
       "      <td>Naive Forecaster</td>\n",
       "      <td>2.3599</td>\n",
       "      <td>2.7612</td>\n",
       "      <td>69.0278</td>\n",
       "      <td>91.0322</td>\n",
       "      <td>0.1569</td>\n",
       "      <td>0.1792</td>\n",
       "      <td>-1.2216</td>\n",
       "      <td>2.5600</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>grand_means</th>\n",
       "      <td>Grand Means Forecaster</td>\n",
       "      <td>5.5306</td>\n",
       "      <td>5.2596</td>\n",
       "      <td>162.4117</td>\n",
       "      <td>173.6492</td>\n",
       "      <td>0.4</td>\n",
       "      <td>0.5075</td>\n",
       "      <td>-7.0462</td>\n",
       "      <td>2.5267</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                              Model    MASE   RMSSE       MAE      RMSE  \\\n",
       "naive              Naive Forecaster  2.3599  2.7612   69.0278   91.0322   \n",
       "grand_means  Grand Means Forecaster  5.5306  5.2596  162.4117  173.6492   \n",
       "\n",
       "               MAPE   SMAPE      R2  TT (Sec)  \n",
       "naive        0.1569  0.1792 -1.2216    2.5600  \n",
       "grand_means     0.4  0.5075 -7.0462    2.5267  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[NaiveForecaster(sp=1, strategy='last', window_length=None),\n",
       " NaiveForecaster(sp=1, strategy='mean', window_length=None)]"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "best_baseline_models = exp.compare_models(include=test_models[:2], n_select=3, parallel=FugueBackend(spark))\n",
    "best_baseline_models"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "3eb73043",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>MASE</th>\n",
       "      <th>RMSSE</th>\n",
       "      <th>MAE</th>\n",
       "      <th>RMSE</th>\n",
       "      <th>MAPE</th>\n",
       "      <th>SMAPE</th>\n",
       "      <th>R2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>naive</th>\n",
       "      <td>Naive Forecaster</td>\n",
       "      <td>2.3599</td>\n",
       "      <td>2.7612</td>\n",
       "      <td>69.0278</td>\n",
       "      <td>91.0322</td>\n",
       "      <td>0.1569</td>\n",
       "      <td>0.1792</td>\n",
       "      <td>-1.2216</td>\n",
       "      <td>2.5600</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>grand_means</th>\n",
       "      <td>Grand Means Forecaster</td>\n",
       "      <td>5.5306</td>\n",
       "      <td>5.2596</td>\n",
       "      <td>162.4117</td>\n",
       "      <td>173.6492</td>\n",
       "      <td>0.4</td>\n",
       "      <td>0.5075</td>\n",
       "      <td>-7.0462</td>\n",
       "      <td>2.5267</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                              Model    MASE   RMSSE       MAE      RMSE  \\\n",
       "naive              Naive Forecaster  2.3599  2.7612   69.0278   91.0322   \n",
       "grand_means  Grand Means Forecaster  5.5306  5.2596  162.4117  173.6492   \n",
       "\n",
       "               MAPE   SMAPE      R2  TT (Sec)  \n",
       "naive        0.1569  0.1792 -1.2216    2.5600  \n",
       "grand_means     0.4  0.5075 -7.0462    2.5267  "
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "exp.pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c910b81c",
   "metadata": {},
   "source": [
    "# A more practical case\n",
    "\n",
    "The above examples are pure toys, to make things work perfectly in a distributed system you must be careful about a few things\n",
    "\n",
    "# Use a lambda instead of a dataframe in setup\n",
    "\n",
    "If you directly provide a dataframe in `setup`, this dataset will need to be sent to all worker nodes. If the dataframe is 1G, you have 100 workers, then it is possible your dirver machine will need to send out up to 100G data (depending on specific framework's implementation), then this data transfer becomes a bottleneck itself. Instead, if you provide a lambda function, it doesn't change the local compute scenario, but the driver will only send the function reference to workers, and each worker will be responsible to load the data by themselves, so there is no heavy traffic on the driver side.\n",
    "\n",
    "# Be deterministic\n",
    "\n",
    "You should always use `session_id` to make the distributed compute deterministic.\n",
    "\n",
    "# Set n_jobs\n",
    "\n",
    "It is important to be explicit on n_jobs when you want to run something distributedly, so it will not overuse the local/remote resources. This can also avoid resrouce contention, and make the compute faster."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "1d76ddae",
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "#T_833a0_row11_col1 {\n",
       "  background-color: lightgreen;\n",
       "}\n",
       "</style>\n",
       "<table id=\"T_833a0\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_833a0_level0_col0\" class=\"col_heading level0 col0\" >Description</th>\n",
       "      <th id=\"T_833a0_level0_col1\" class=\"col_heading level0 col1\" >Value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row0\" class=\"row_heading level0 row0\" >0</th>\n",
       "      <td id=\"T_833a0_row0_col0\" class=\"data row0 col0\" >Session id</td>\n",
       "      <td id=\"T_833a0_row0_col1\" class=\"data row0 col1\" >0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row1\" class=\"row_heading level0 row1\" >1</th>\n",
       "      <td id=\"T_833a0_row1_col0\" class=\"data row1 col0\" >Target</td>\n",
       "      <td id=\"T_833a0_row1_col1\" class=\"data row1 col1\" >Purchase</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
       "      <td id=\"T_833a0_row2_col0\" class=\"data row2 col0\" >Target type</td>\n",
       "      <td id=\"T_833a0_row2_col1\" class=\"data row2 col1\" >Binary</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row3\" class=\"row_heading level0 row3\" >3</th>\n",
       "      <td id=\"T_833a0_row3_col0\" class=\"data row3 col0\" >Target mapping</td>\n",
       "      <td id=\"T_833a0_row3_col1\" class=\"data row3 col1\" >CH: 0, MM: 1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row4\" class=\"row_heading level0 row4\" >4</th>\n",
       "      <td id=\"T_833a0_row4_col0\" class=\"data row4 col0\" >Original data shape</td>\n",
       "      <td id=\"T_833a0_row4_col1\" class=\"data row4 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row5\" class=\"row_heading level0 row5\" >5</th>\n",
       "      <td id=\"T_833a0_row5_col0\" class=\"data row5 col0\" >Transformed data shape</td>\n",
       "      <td id=\"T_833a0_row5_col1\" class=\"data row5 col1\" >(1070, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row6\" class=\"row_heading level0 row6\" >6</th>\n",
       "      <td id=\"T_833a0_row6_col0\" class=\"data row6 col0\" >Transformed train set shape</td>\n",
       "      <td id=\"T_833a0_row6_col1\" class=\"data row6 col1\" >(748, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row7\" class=\"row_heading level0 row7\" >7</th>\n",
       "      <td id=\"T_833a0_row7_col0\" class=\"data row7 col0\" >Transformed test set shape</td>\n",
       "      <td id=\"T_833a0_row7_col1\" class=\"data row7 col1\" >(322, 19)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row8\" class=\"row_heading level0 row8\" >8</th>\n",
       "      <td id=\"T_833a0_row8_col0\" class=\"data row8 col0\" >Ordinal features</td>\n",
       "      <td id=\"T_833a0_row8_col1\" class=\"data row8 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row9\" class=\"row_heading level0 row9\" >9</th>\n",
       "      <td id=\"T_833a0_row9_col0\" class=\"data row9 col0\" >Numeric features</td>\n",
       "      <td id=\"T_833a0_row9_col1\" class=\"data row9 col1\" >17</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row10\" class=\"row_heading level0 row10\" >10</th>\n",
       "      <td id=\"T_833a0_row10_col0\" class=\"data row10 col0\" >Categorical features</td>\n",
       "      <td id=\"T_833a0_row10_col1\" class=\"data row10 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row11\" class=\"row_heading level0 row11\" >11</th>\n",
       "      <td id=\"T_833a0_row11_col0\" class=\"data row11 col0\" >Preprocess</td>\n",
       "      <td id=\"T_833a0_row11_col1\" class=\"data row11 col1\" >True</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row12\" class=\"row_heading level0 row12\" >12</th>\n",
       "      <td id=\"T_833a0_row12_col0\" class=\"data row12 col0\" >Imputation type</td>\n",
       "      <td id=\"T_833a0_row12_col1\" class=\"data row12 col1\" >simple</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row13\" class=\"row_heading level0 row13\" >13</th>\n",
       "      <td id=\"T_833a0_row13_col0\" class=\"data row13 col0\" >Numeric imputation</td>\n",
       "      <td id=\"T_833a0_row13_col1\" class=\"data row13 col1\" >mean</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row14\" class=\"row_heading level0 row14\" >14</th>\n",
       "      <td id=\"T_833a0_row14_col0\" class=\"data row14 col0\" >Categorical imputation</td>\n",
       "      <td id=\"T_833a0_row14_col1\" class=\"data row14 col1\" >constant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row15\" class=\"row_heading level0 row15\" >15</th>\n",
       "      <td id=\"T_833a0_row15_col0\" class=\"data row15 col0\" >Maximum one-hot encoding</td>\n",
       "      <td id=\"T_833a0_row15_col1\" class=\"data row15 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row16\" class=\"row_heading level0 row16\" >16</th>\n",
       "      <td id=\"T_833a0_row16_col0\" class=\"data row16 col0\" >Encoding method</td>\n",
       "      <td id=\"T_833a0_row16_col1\" class=\"data row16 col1\" >None</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row17\" class=\"row_heading level0 row17\" >17</th>\n",
       "      <td id=\"T_833a0_row17_col0\" class=\"data row17 col0\" >Fold Generator</td>\n",
       "      <td id=\"T_833a0_row17_col1\" class=\"data row17 col1\" >StratifiedKFold</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
       "      <td id=\"T_833a0_row18_col0\" class=\"data row18 col0\" >Fold Number</td>\n",
       "      <td id=\"T_833a0_row18_col1\" class=\"data row18 col1\" >10</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row19\" class=\"row_heading level0 row19\" >19</th>\n",
       "      <td id=\"T_833a0_row19_col0\" class=\"data row19 col0\" >CPU Jobs</td>\n",
       "      <td id=\"T_833a0_row19_col1\" class=\"data row19 col1\" >1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row20\" class=\"row_heading level0 row20\" >20</th>\n",
       "      <td id=\"T_833a0_row20_col0\" class=\"data row20 col0\" >Use GPU</td>\n",
       "      <td id=\"T_833a0_row20_col1\" class=\"data row20 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row21\" class=\"row_heading level0 row21\" >21</th>\n",
       "      <td id=\"T_833a0_row21_col0\" class=\"data row21 col0\" >Log Experiment</td>\n",
       "      <td id=\"T_833a0_row21_col1\" class=\"data row21 col1\" >False</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row22\" class=\"row_heading level0 row22\" >22</th>\n",
       "      <td id=\"T_833a0_row22_col0\" class=\"data row22 col0\" >Experiment Name</td>\n",
       "      <td id=\"T_833a0_row22_col1\" class=\"data row22 col1\" >clf-default-name</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_833a0_level0_row23\" class=\"row_heading level0 row23\" >23</th>\n",
       "      <td id=\"T_833a0_row23_col0\" class=\"data row23 col0\" >USI</td>\n",
       "      <td id=\"T_833a0_row23_col1\" class=\"data row23 col1\" >ae18</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x7f8ab2633ac0>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from pycaret.datasets import get_data\n",
    "from pycaret.classification import *\n",
    "\n",
    "setup(data_func=lambda: get_data(\"juice\", verbose=False, profile=False), target = 'Purchase', session_id=0, n_jobs=1);"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2fc80912",
   "metadata": {},
   "source": [
    "# Set the appropriate batch_size\n",
    "\n",
    "`batch_size` parameter helps adjust between load balence and overhead. For each batch, setup will be called only once. So\n",
    "\n",
    "| Choice |Load Balance|Overhead|Best Scenario|\n",
    "|---|---|---|---|\n",
    "|Smaller batch size|Better|Worse|`training time >> data loading time` or `models ~= workers`|\n",
    "|Larger batch size|Worse|Better|`training time << data loading time` or `models >> workers`|\n",
    "\n",
    "The default value is set to `1`, meaning we want the best load balance.\n",
    "\n",
    "# Display progress\n",
    "\n",
    "In development, you can enable visual effect by `display_remote=True`, but meanwhile you must also enable [Fugue Callback](https://fugue-tutorials.readthedocs.io/tutorials/advanced/rpc.html) so that the driver can monitor worker progress. But it is recommended to turn off display in production."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "9775c4f4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>DUMMY2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>ridge</th>\n",
       "      <td>Ridge Classifier</td>\n",
       "      <td>0.8383</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.7802</td>\n",
       "      <td>0.8085</td>\n",
       "      <td>0.7896</td>\n",
       "      <td>0.6585</td>\n",
       "      <td>0.6637</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.099</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lda</th>\n",
       "      <td>Linear Discriminant Analysis</td>\n",
       "      <td>0.8329</td>\n",
       "      <td>0.8986</td>\n",
       "      <td>0.7701</td>\n",
       "      <td>0.8044</td>\n",
       "      <td>0.7824</td>\n",
       "      <td>0.6472</td>\n",
       "      <td>0.6522</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.132</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8303</td>\n",
       "      <td>0.8959</td>\n",
       "      <td>0.7530</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.7748</td>\n",
       "      <td>0.6391</td>\n",
       "      <td>0.6433</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.271</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>gbc</th>\n",
       "      <td>Gradient Boosting Classifier</td>\n",
       "      <td>0.8195</td>\n",
       "      <td>0.8982</td>\n",
       "      <td>0.7562</td>\n",
       "      <td>0.7870</td>\n",
       "      <td>0.7656</td>\n",
       "      <td>0.6193</td>\n",
       "      <td>0.6260</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.263</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lightgbm</th>\n",
       "      <td>Light Gradient Boosting Machine</td>\n",
       "      <td>0.8047</td>\n",
       "      <td>0.8828</td>\n",
       "      <td>0.7492</td>\n",
       "      <td>0.7585</td>\n",
       "      <td>0.7482</td>\n",
       "      <td>0.5893</td>\n",
       "      <td>0.5950</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.128</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>ada</th>\n",
       "      <td>Ada Boost Classifier</td>\n",
       "      <td>0.7968</td>\n",
       "      <td>0.8789</td>\n",
       "      <td>0.7326</td>\n",
       "      <td>0.7499</td>\n",
       "      <td>0.7388</td>\n",
       "      <td>0.5727</td>\n",
       "      <td>0.5751</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.178</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>rf</th>\n",
       "      <td>Random Forest Classifier</td>\n",
       "      <td>0.7955</td>\n",
       "      <td>0.8731</td>\n",
       "      <td>0.7256</td>\n",
       "      <td>0.7500</td>\n",
       "      <td>0.7338</td>\n",
       "      <td>0.5682</td>\n",
       "      <td>0.5727</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.243</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7795</td>\n",
       "      <td>0.7711</td>\n",
       "      <td>0.7328</td>\n",
       "      <td>0.7168</td>\n",
       "      <td>0.7201</td>\n",
       "      <td>0.5389</td>\n",
       "      <td>0.5441</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.082</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>et</th>\n",
       "      <td>Extra Trees Classifier</td>\n",
       "      <td>0.7714</td>\n",
       "      <td>0.8479</td>\n",
       "      <td>0.6951</td>\n",
       "      <td>0.7213</td>\n",
       "      <td>0.7038</td>\n",
       "      <td>0.5183</td>\n",
       "      <td>0.5225</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.214</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7621</td>\n",
       "      <td>0.8255</td>\n",
       "      <td>0.7255</td>\n",
       "      <td>0.6825</td>\n",
       "      <td>0.7009</td>\n",
       "      <td>0.5039</td>\n",
       "      <td>0.5074</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.080</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7528</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.6231</td>\n",
       "      <td>0.7208</td>\n",
       "      <td>0.6642</td>\n",
       "      <td>0.4703</td>\n",
       "      <td>0.4770</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.083</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>qda</th>\n",
       "      <td>Quadratic Discriminant Analysis</td>\n",
       "      <td>0.6510</td>\n",
       "      <td>0.6349</td>\n",
       "      <td>0.4546</td>\n",
       "      <td>0.7617</td>\n",
       "      <td>0.4426</td>\n",
       "      <td>0.2377</td>\n",
       "      <td>0.3086</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.077</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>dummy</th>\n",
       "      <td>Dummy Classifier</td>\n",
       "      <td>0.6096</td>\n",
       "      <td>0.5000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.072</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5677</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.2690</td>\n",
       "      <td>0.2077</td>\n",
       "      <td>0.1901</td>\n",
       "      <td>0.0290</td>\n",
       "      <td>0.0396</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.201</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                    Model  Accuracy     AUC  Recall   Prec.  \\\n",
       "ridge                    Ridge Classifier    0.8383  0.0000  0.7802  0.8085   \n",
       "lda          Linear Discriminant Analysis    0.8329  0.8986  0.7701  0.8044   \n",
       "lr                    Logistic Regression    0.8303  0.8959  0.7530  0.8053   \n",
       "gbc          Gradient Boosting Classifier    0.8195  0.8982  0.7562  0.7870   \n",
       "lightgbm  Light Gradient Boosting Machine    0.8047  0.8828  0.7492  0.7585   \n",
       "ada                  Ada Boost Classifier    0.7968  0.8789  0.7326  0.7499   \n",
       "rf               Random Forest Classifier    0.7955  0.8731  0.7256  0.7500   \n",
       "dt               Decision Tree Classifier    0.7795  0.7711  0.7328  0.7168   \n",
       "et                 Extra Trees Classifier    0.7714  0.8479  0.6951  0.7213   \n",
       "nb                            Naive Bayes    0.7621  0.8255  0.7255  0.6825   \n",
       "knn                K Neighbors Classifier    0.7528  0.8053  0.6231  0.7208   \n",
       "qda       Quadratic Discriminant Analysis    0.6510  0.6349  0.4546  0.7617   \n",
       "dummy                    Dummy Classifier    0.6096  0.5000  0.0000  0.0000   \n",
       "svm                   SVM - Linear Kernel    0.5677  0.0000  0.2690  0.2077   \n",
       "\n",
       "              F1   Kappa     MCC  DUMMY  DUMMY2  TT (Sec)  \n",
       "ridge     0.7896  0.6585  0.6637    0.0     0.0     0.099  \n",
       "lda       0.7824  0.6472  0.6522    0.0     1.0     0.132  \n",
       "lr        0.7748  0.6391  0.6433    0.0     1.0     0.271  \n",
       "gbc       0.7656  0.6193  0.6260    0.0     1.0     0.263  \n",
       "lightgbm  0.7482  0.5893  0.5950    0.0     1.0     0.128  \n",
       "ada       0.7388  0.5727  0.5751    0.0     1.0     0.178  \n",
       "rf        0.7338  0.5682  0.5727    0.0     1.0     0.243  \n",
       "dt        0.7201  0.5389  0.5441    0.0     1.0     0.082  \n",
       "et        0.7038  0.5183  0.5225    0.0     1.0     0.214  \n",
       "nb        0.7009  0.5039  0.5074    0.0     1.0     0.080  \n",
       "knn       0.6642  0.4703  0.4770    0.0     1.0     0.083  \n",
       "qda       0.4426  0.2377  0.3086    0.0     1.0     0.077  \n",
       "dummy     0.0000  0.0000  0.0000    0.0     1.0     0.072  \n",
       "svm       0.1901  0.0290  0.0396    0.0     0.0     0.201  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing:   0%|          | 0/14 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[RidgeClassifier(alpha=1.0, class_weight=None, copy_X=True, fit_intercept=True,\n",
       "                 max_iter=None, normalize='deprecated', positive=False,\n",
       "                 random_state=0, solver='auto', tol=0.001),\n",
       " LinearDiscriminantAnalysis(covariance_estimator=None, n_components=None,\n",
       "                            priors=None, shrinkage=None, solver='svd',\n",
       "                            store_covariance=False, tol=0.0001)]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from pycaret.parallel import FugueBackend\n",
    "\n",
    "fconf = {\n",
    "    \"fugue.rpc.server\": \"fugue.rpc.flask.FlaskRPCServer\",  # keep this value\n",
    "    \"fugue.rpc.flask_server.host\": \"0.0.0.0\",  # the driver ip address workers can access\n",
    "    \"fugue.rpc.flask_server.port\": \"3333\",  # the open port on the dirver\n",
    "    \"fugue.rpc.flask_server.timeout\": \"2 sec\",  # the timeout for worker to talk to driver\n",
    "}\n",
    "\n",
    "be = FugueBackend(\"dask\", fconf, display_remote=True, batch_size=3, top_only=False)\n",
    "compare_models(n_select=2, parallel=be)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d697e56c",
   "metadata": {},
   "source": [
    "# Custom Metrics\n",
    "\n",
    "You can add custom metrics like before. But in order to make the scorer distributable, it must be serializable. A common function should be fine, but if inside the function, it is using some global variables that are not serializable (for example an `RLock` object), it can cause issues. So try to make the custom function independent from global variables."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "2614b869",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Name                                                             DUMMY\n",
       "Display Name                                                     DUMMY\n",
       "Score Function                <function score_dummy at 0x7f8aa0dc0ca0>\n",
       "Scorer               make_scorer(score_dummy, greater_is_better=False)\n",
       "Target                                                            pred\n",
       "Args                                                                {}\n",
       "Greater is Better                                                False\n",
       "Multiclass                                                        True\n",
       "Custom                                                            True\n",
       "Name: mydummy, dtype: object"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "def score_dummy(y_true, y_pred, axis=0):\n",
    "    return 0.0\n",
    "\n",
    "add_metric(id = 'mydummy',\n",
    "               name = 'DUMMY',\n",
    "               score_func = score_dummy,\n",
    "               target = 'pred',\n",
    "               greater_is_better = False,\n",
    "              )"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7ccaa531",
   "metadata": {},
   "source": [
    "Adding a function in a class instance is also ok, but make sure all member variables in the class are serializable."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "83576a2d",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7795</td>\n",
       "      <td>0.7711</td>\n",
       "      <td>0.7328</td>\n",
       "      <td>0.7168</td>\n",
       "      <td>0.7201</td>\n",
       "      <td>0.5389</td>\n",
       "      <td>0.5441</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.240</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8303</td>\n",
       "      <td>0.8959</td>\n",
       "      <td>0.7530</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.7748</td>\n",
       "      <td>0.6391</td>\n",
       "      <td>0.6433</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.306</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7621</td>\n",
       "      <td>0.8255</td>\n",
       "      <td>0.7255</td>\n",
       "      <td>0.6825</td>\n",
       "      <td>0.7009</td>\n",
       "      <td>0.5039</td>\n",
       "      <td>0.5074</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.130</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7528</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.6231</td>\n",
       "      <td>0.7208</td>\n",
       "      <td>0.6642</td>\n",
       "      <td>0.4703</td>\n",
       "      <td>0.4770</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.097</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5677</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.2690</td>\n",
       "      <td>0.2077</td>\n",
       "      <td>0.1901</td>\n",
       "      <td>0.0290</td>\n",
       "      <td>0.0396</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.102</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "dt   Decision Tree Classifier    0.7795  0.7711  0.7328  0.7168  0.7201   \n",
       "lr        Logistic Regression    0.8303  0.8959  0.7530  0.8053  0.7748   \n",
       "nb                Naive Bayes    0.7621  0.8255  0.7255  0.6825  0.7009   \n",
       "knn    K Neighbors Classifier    0.7528  0.8053  0.6231  0.7208  0.6642   \n",
       "svm       SVM - Linear Kernel    0.5677  0.0000  0.2690  0.2077  0.1901   \n",
       "\n",
       "      Kappa     MCC  DUMMY  TT (Sec)  \n",
       "dt   0.5389  0.5441    0.0     0.240  \n",
       "lr   0.6391  0.6433    0.0     0.306  \n",
       "nb   0.5039  0.5074    0.0     0.130  \n",
       "knn  0.4703  0.4770    0.0     0.097  \n",
       "svm  0.0290  0.0396    0.0     0.102  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_samples_leaf=1,\n",
       "                        min_samples_split=2, min_weight_fraction_leaf=0.0,\n",
       "                        random_state=0, splitter='best'),\n",
       " LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=0, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False)]"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test_models = models().index.tolist()[:5]\n",
    "compare_models(include=test_models, n_select=2, sort=\"DUMMY\", parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "04d5e7c9",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7795</td>\n",
       "      <td>0.7711</td>\n",
       "      <td>0.7328</td>\n",
       "      <td>0.7168</td>\n",
       "      <td>0.7201</td>\n",
       "      <td>0.5389</td>\n",
       "      <td>0.5441</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.240</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8303</td>\n",
       "      <td>0.8959</td>\n",
       "      <td>0.7530</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.7748</td>\n",
       "      <td>0.6391</td>\n",
       "      <td>0.6433</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.306</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7621</td>\n",
       "      <td>0.8255</td>\n",
       "      <td>0.7255</td>\n",
       "      <td>0.6825</td>\n",
       "      <td>0.7009</td>\n",
       "      <td>0.5039</td>\n",
       "      <td>0.5074</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.130</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7528</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.6231</td>\n",
       "      <td>0.7208</td>\n",
       "      <td>0.6642</td>\n",
       "      <td>0.4703</td>\n",
       "      <td>0.4770</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.097</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5677</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.2690</td>\n",
       "      <td>0.2077</td>\n",
       "      <td>0.1901</td>\n",
       "      <td>0.0290</td>\n",
       "      <td>0.0396</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.102</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "dt   Decision Tree Classifier    0.7795  0.7711  0.7328  0.7168  0.7201   \n",
       "lr        Logistic Regression    0.8303  0.8959  0.7530  0.8053  0.7748   \n",
       "nb                Naive Bayes    0.7621  0.8255  0.7255  0.6825  0.7009   \n",
       "knn    K Neighbors Classifier    0.7528  0.8053  0.6231  0.7208  0.6642   \n",
       "svm       SVM - Linear Kernel    0.5677  0.0000  0.2690  0.2077  0.1901   \n",
       "\n",
       "      Kappa     MCC  DUMMY  TT (Sec)  \n",
       "dt   0.5389  0.5441    0.0     0.240  \n",
       "lr   0.6391  0.6433    0.0     0.306  \n",
       "nb   0.5039  0.5074    0.0     0.130  \n",
       "knn  0.4703  0.4770    0.0     0.097  \n",
       "svm  0.0290  0.0396    0.0     0.102  "
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "8f1d99c5",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Name                                                            DUMMY2\n",
       "Display Name                                                    DUMMY2\n",
       "Score Function       <bound method Scores.score_dummy2 of <__main__...\n",
       "Scorer               make_scorer(score_dummy2, needs_proba=True, er...\n",
       "Target                                                      pred_proba\n",
       "Args                                                                {}\n",
       "Greater is Better                                                 True\n",
       "Multiclass                                                        True\n",
       "Custom                                                            True\n",
       "Name: mydummy2, dtype: object"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "class Scores:\n",
    "    def score_dummy2(self, y_true, y_prob, axis=0):\n",
    "        return 1.0\n",
    "    \n",
    "scores = Scores()\n",
    "\n",
    "add_metric(id = 'mydummy2',\n",
    "               name = 'DUMMY2',\n",
    "               score_func = scores.score_dummy2,\n",
    "               target = 'pred_proba',\n",
    "               greater_is_better = True,\n",
    "              )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "a7a63648",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>DUMMY2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7795</td>\n",
       "      <td>0.7711</td>\n",
       "      <td>0.7328</td>\n",
       "      <td>0.7168</td>\n",
       "      <td>0.7201</td>\n",
       "      <td>0.5389</td>\n",
       "      <td>0.5441</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.237</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8303</td>\n",
       "      <td>0.8959</td>\n",
       "      <td>0.7530</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.7748</td>\n",
       "      <td>0.6391</td>\n",
       "      <td>0.6433</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.399</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7621</td>\n",
       "      <td>0.8255</td>\n",
       "      <td>0.7255</td>\n",
       "      <td>0.6825</td>\n",
       "      <td>0.7009</td>\n",
       "      <td>0.5039</td>\n",
       "      <td>0.5074</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.077</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7528</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.6231</td>\n",
       "      <td>0.7208</td>\n",
       "      <td>0.6642</td>\n",
       "      <td>0.4703</td>\n",
       "      <td>0.4770</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.082</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5677</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.2690</td>\n",
       "      <td>0.2077</td>\n",
       "      <td>0.1901</td>\n",
       "      <td>0.0290</td>\n",
       "      <td>0.0396</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.104</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "dt   Decision Tree Classifier    0.7795  0.7711  0.7328  0.7168  0.7201   \n",
       "lr        Logistic Regression    0.8303  0.8959  0.7530  0.8053  0.7748   \n",
       "nb                Naive Bayes    0.7621  0.8255  0.7255  0.6825  0.7009   \n",
       "knn    K Neighbors Classifier    0.7528  0.8053  0.6231  0.7208  0.6642   \n",
       "svm       SVM - Linear Kernel    0.5677  0.0000  0.2690  0.2077  0.1901   \n",
       "\n",
       "      Kappa     MCC  DUMMY  DUMMY2  TT (Sec)  \n",
       "dt   0.5389  0.5441    0.0     1.0     0.237  \n",
       "lr   0.6391  0.6433    0.0     1.0     0.399  \n",
       "nb   0.5039  0.5074    0.0     1.0     0.077  \n",
       "knn  0.4703  0.4770    0.0     1.0     0.082  \n",
       "svm  0.0290  0.0396    0.0     0.0     0.104  "
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {},
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "[DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',\n",
       "                        max_depth=None, max_features=None, max_leaf_nodes=None,\n",
       "                        min_impurity_decrease=0.0, min_samples_leaf=1,\n",
       "                        min_samples_split=2, min_weight_fraction_leaf=0.0,\n",
       "                        random_state=0, splitter='best'),\n",
       " LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "                    intercept_scaling=1, l1_ratio=None, max_iter=1000,\n",
       "                    multi_class='auto', n_jobs=None, penalty='l2',\n",
       "                    random_state=0, solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                    warm_start=False)]"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "compare_models(include=test_models, n_select=2, sort=\"DUMMY2\", parallel=FugueBackend(\"dask\"))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "ee4e174b",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Model</th>\n",
       "      <th>Accuracy</th>\n",
       "      <th>AUC</th>\n",
       "      <th>Recall</th>\n",
       "      <th>Prec.</th>\n",
       "      <th>F1</th>\n",
       "      <th>Kappa</th>\n",
       "      <th>MCC</th>\n",
       "      <th>DUMMY</th>\n",
       "      <th>DUMMY2</th>\n",
       "      <th>TT (Sec)</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>dt</th>\n",
       "      <td>Decision Tree Classifier</td>\n",
       "      <td>0.7795</td>\n",
       "      <td>0.7711</td>\n",
       "      <td>0.7328</td>\n",
       "      <td>0.7168</td>\n",
       "      <td>0.7201</td>\n",
       "      <td>0.5389</td>\n",
       "      <td>0.5441</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.237</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>lr</th>\n",
       "      <td>Logistic Regression</td>\n",
       "      <td>0.8303</td>\n",
       "      <td>0.8959</td>\n",
       "      <td>0.7530</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.7748</td>\n",
       "      <td>0.6391</td>\n",
       "      <td>0.6433</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.399</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>nb</th>\n",
       "      <td>Naive Bayes</td>\n",
       "      <td>0.7621</td>\n",
       "      <td>0.8255</td>\n",
       "      <td>0.7255</td>\n",
       "      <td>0.6825</td>\n",
       "      <td>0.7009</td>\n",
       "      <td>0.5039</td>\n",
       "      <td>0.5074</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.077</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>knn</th>\n",
       "      <td>K Neighbors Classifier</td>\n",
       "      <td>0.7528</td>\n",
       "      <td>0.8053</td>\n",
       "      <td>0.6231</td>\n",
       "      <td>0.7208</td>\n",
       "      <td>0.6642</td>\n",
       "      <td>0.4703</td>\n",
       "      <td>0.4770</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>0.082</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>svm</th>\n",
       "      <td>SVM - Linear Kernel</td>\n",
       "      <td>0.5677</td>\n",
       "      <td>0.0000</td>\n",
       "      <td>0.2690</td>\n",
       "      <td>0.2077</td>\n",
       "      <td>0.1901</td>\n",
       "      <td>0.0290</td>\n",
       "      <td>0.0396</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.104</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                        Model  Accuracy     AUC  Recall   Prec.      F1  \\\n",
       "dt   Decision Tree Classifier    0.7795  0.7711  0.7328  0.7168  0.7201   \n",
       "lr        Logistic Regression    0.8303  0.8959  0.7530  0.8053  0.7748   \n",
       "nb                Naive Bayes    0.7621  0.8255  0.7255  0.6825  0.7009   \n",
       "knn    K Neighbors Classifier    0.7528  0.8053  0.6231  0.7208  0.6642   \n",
       "svm       SVM - Linear Kernel    0.5677  0.0000  0.2690  0.2077  0.1901   \n",
       "\n",
       "      Kappa     MCC  DUMMY  DUMMY2  TT (Sec)  \n",
       "dt   0.5389  0.5441    0.0     1.0     0.237  \n",
       "lr   0.6391  0.6433    0.0     1.0     0.399  \n",
       "nb   0.5039  0.5074    0.0     1.0     0.077  \n",
       "knn  0.4703  0.4770    0.0     1.0     0.082  \n",
       "svm  0.0290  0.0396    0.0     0.0     0.104  "
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pull()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c7e34629",
   "metadata": {},
   "source": [
    "# Notes\n",
    "\n",
    "# Spark settings\n",
    "\n",
    "It is highly recommended to have only 1 worker on each Spark executor, so the worker can fully utilize all cpus (set `spark.task.cpus`). Also when you do this you should explicitly set `n_jobs` in `setup` to the number of cpus of each executor.\n",
    "\n",
    "```python\n",
    "executor_cores = 4\n",
    "\n",
    "spark = SparkSession.builder.config(\"spark.task.cpus\", executor_cores).config(\"spark.executor.cores\", executor_cores).getOrCreate()\n",
    "\n",
    "setup(data=get_data(\"juice\", verbose=False, profile=False), target = 'Purchase', session_id=0, n_jobs=executor_cores)\n",
    "\n",
    "compare_models(n_select=2, parallel=FugueBackend(spark))\n",
    "```\n",
    "\n",
    "# Databricks\n",
    "\n",
    "On Databricks, `spark` is the magic variable representing a SparkSession. But there is no difference to use. You do the exactly same thing as before:\n",
    "\n",
    "```python\n",
    "compare_models(parallel=FugueBackend(spark))\n",
    "```\n",
    "\n",
    "But Databricks, the visualization is difficult, so it may be a good idea to do two things:\n",
    "\n",
    "* Set `verbose` to False in `setup`\n",
    "* Set `display_remote` to False in `FugueBackend`\n",
    "\n",
    "# Dask\n",
    "\n",
    "Dask has fake distributed modes such as the default (multi-thread) and multi-process modes. The default mode will just work fine (but they are actually running sequentially), and multi-process doesn't work for PyCaret for now because it messes up with PyCaret's global variables. On the other hand, any Spark execution mode will just work fine.\n",
    "\n",
    "# Local Parallelization\n",
    "\n",
    "For practical use where you try non-trivial data and models, local parallelization (The eaiest way is to use local Dask as backend as shown above) normally doesn't have performance advantage. Because it's very easy to overload the CPUS on training, increasing the contention of resources. The value of local parallelization is to verify the code and give you confidence that the distributed environment will provide the expected result with much shorter time.\n",
    "\n",
    "# How to develop \n",
    "\n",
    "Distributed systems are powerful but you must follow some good practices to use them:\n",
    "\n",
    "1. **From small to large:** initially, you must start with a small set of data, for example in `compare_model` limit the models you want to try to a small number of cheap models, and when you verify they work, you can change to a larger model collection.\n",
    "2. **From local to distributed:** you should follow this sequence: verify small data locally then verify small data distributedly and then verify large data distributedly. The current design makes the transition seamless. You can do these sequentially: `parallel=None` -> `parallel=FugueBackend()` -> `parallel=FugueBackend(spark)`. In the second step, you can replace with a local SparkSession or local dask."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "ee7d43a6",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}