{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "[![Open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/justmarkham/scikit-learn-tips/master?filepath=notebooks%2F37_pipeline_diagram.ipynb)\n",
    "\n",
    "[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/justmarkham/scikit-learn-tips/blob/master/notebooks/37_pipeline_diagram.ipynb)\n",
    "\n",
    "# 🤖⚡ scikit-learn tip #37 ([video](https://www.youtube.com/watch?v=_UKYxucD1Io&list=PL5-da3qGB5ID7YYAqireYEew2mWVvgmj6&index=37))\n",
    "\n",
    "New in version 0.23: Create interactive diagrams of Pipelines (and other estimators) in Jupyter!\n",
    "\n",
    "Click on any element to see more details. You can even export the diagram to an HTML file!\n",
    "\n",
    "See example 👇"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "from sklearn.impute import SimpleImputer\n",
    "from sklearn.preprocessing import OneHotEncoder\n",
    "from sklearn.feature_extraction.text import CountVectorizer\n",
    "from sklearn.feature_selection import SelectPercentile, chi2\n",
    "from sklearn.linear_model import LogisticRegression\n",
    "from sklearn.compose import make_column_transformer\n",
    "from sklearn.pipeline import make_pipeline"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.read_csv('http://bit.ly/kaggletrain')\n",
    "X = df[['Parch', 'Fare', 'Embarked', 'Sex', 'Name', 'Age']]\n",
    "y = df['Survived']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "imp_constant = SimpleImputer(strategy='constant')\n",
    "ohe = OneHotEncoder()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "imp_ohe = make_pipeline(imp_constant, ohe)\n",
    "vect = CountVectorizer()\n",
    "imp = SimpleImputer()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# pipeline step 1\n",
    "ct = make_column_transformer(\n",
    "    (imp_ohe, ['Embarked', 'Sex']),\n",
    "    (vect, 'Name'),\n",
    "    (imp, ['Age', 'Fare']),\n",
    "    ('passthrough', ['Parch']))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "# pipeline step 2\n",
    "selection = SelectPercentile(chi2, percentile=50)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "# pipeline step 3\n",
    "logreg = LogisticRegression(solver='liblinear')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "# display estimators as diagrams\n",
    "from sklearn import set_config\n",
    "set_config(display='diagram')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>div.sk-top-container {color: black;background-color: white;}div.sk-toggleable {background-color: white;}label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.2em 0.3em;box-sizing: border-box;text-align: center;}div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}div.sk-estimator {font-family: monospace;background-color: #f0f8ff;margin: 0.25em 0.25em;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;}div.sk-estimator:hover {background-color: #d4ebff;}div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 2em;bottom: 0;left: 50%;}div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;}div.sk-item {z-index: 1;}div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;}div.sk-parallel-item {display: flex;flex-direction: column;position: relative;background-color: white;}div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}div.sk-parallel-item:only-child::after {width: 0;}div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0.2em;box-sizing: border-box;padding-bottom: 0.1em;background-color: white;position: relative;}div.sk-label label {font-family: monospace;font-weight: bold;background-color: white;display: inline-block;line-height: 1.2em;}div.sk-label-container {position: relative;z-index: 2;text-align: center;}div.sk-container {display: inline-block;position: relative;}</style><div class=\"sk-top-container\"><div class=\"sk-container\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"5f5b84f4-7148-436c-b86f-b8ad00d14739\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"5f5b84f4-7148-436c-b86f-b8ad00d14739\">Pipeline</label><div class=\"sk-toggleable__content\"><pre>Pipeline(steps=[('columntransformer',\n",
       "                 ColumnTransformer(transformers=[('pipeline',\n",
       "                                                  Pipeline(steps=[('simpleimputer',\n",
       "                                                                   SimpleImputer(strategy='constant')),\n",
       "                                                                  ('onehotencoder',\n",
       "                                                                   OneHotEncoder())]),\n",
       "                                                  ['Embarked', 'Sex']),\n",
       "                                                 ('countvectorizer',\n",
       "                                                  CountVectorizer(), 'Name'),\n",
       "                                                 ('simpleimputer',\n",
       "                                                  SimpleImputer(),\n",
       "                                                  ['Age', 'Fare']),\n",
       "                                                 ('passthrough', 'passthrough',\n",
       "                                                  ['Parch'])])),\n",
       "                ('selectpercentile',\n",
       "                 SelectPercentile(percentile=50,\n",
       "                                  score_func=<function chi2 at 0x7fed401824c0>)),\n",
       "                ('logisticregression', LogisticRegression(solver='liblinear'))])</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"a6444504-b68c-4c1e-89de-e52e4606684e\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"a6444504-b68c-4c1e-89de-e52e4606684e\">columntransformer: ColumnTransformer</label><div class=\"sk-toggleable__content\"><pre>ColumnTransformer(transformers=[('pipeline',\n",
       "                                 Pipeline(steps=[('simpleimputer',\n",
       "                                                  SimpleImputer(strategy='constant')),\n",
       "                                                 ('onehotencoder',\n",
       "                                                  OneHotEncoder())]),\n",
       "                                 ['Embarked', 'Sex']),\n",
       "                                ('countvectorizer', CountVectorizer(), 'Name'),\n",
       "                                ('simpleimputer', SimpleImputer(),\n",
       "                                 ['Age', 'Fare']),\n",
       "                                ('passthrough', 'passthrough', ['Parch'])])</pre></div></div></div><div class=\"sk-parallel\"><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"7a88d5d7-c71a-4d37-addb-8a5dfa55add8\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"7a88d5d7-c71a-4d37-addb-8a5dfa55add8\">pipeline</label><div class=\"sk-toggleable__content\"><pre>['Embarked', 'Sex']</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"b3a69fea-5ac8-4041-9db6-4c19b4e9329a\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"b3a69fea-5ac8-4041-9db6-4c19b4e9329a\">SimpleImputer</label><div class=\"sk-toggleable__content\"><pre>SimpleImputer(strategy='constant')</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"d37d54c8-306f-4001-9a25-59ca146dc68c\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"d37d54c8-306f-4001-9a25-59ca146dc68c\">OneHotEncoder</label><div class=\"sk-toggleable__content\"><pre>OneHotEncoder()</pre></div></div></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"0cb2c599-704b-4bae-81d9-aa9bba5f3236\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"0cb2c599-704b-4bae-81d9-aa9bba5f3236\">countvectorizer</label><div class=\"sk-toggleable__content\"><pre>Name</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"60a3f8f2-c858-4924-8bad-8b6c6f2e96d7\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"60a3f8f2-c858-4924-8bad-8b6c6f2e96d7\">CountVectorizer</label><div class=\"sk-toggleable__content\"><pre>CountVectorizer()</pre></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"fa8e8d34-a29b-4ed3-9de1-b802e0c3b427\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"fa8e8d34-a29b-4ed3-9de1-b802e0c3b427\">simpleimputer</label><div class=\"sk-toggleable__content\"><pre>['Age', 'Fare']</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"32ca103f-8b0d-4097-910f-753979ad17c0\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"32ca103f-8b0d-4097-910f-753979ad17c0\">SimpleImputer</label><div class=\"sk-toggleable__content\"><pre>SimpleImputer()</pre></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"521e2618-3ebf-46f2-8953-ef851fabaad7\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"521e2618-3ebf-46f2-8953-ef851fabaad7\">passthrough</label><div class=\"sk-toggleable__content\"><pre>['Parch']</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"66cfeb7e-70fe-4124-ac34-a24dcfae7470\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"66cfeb7e-70fe-4124-ac34-a24dcfae7470\">passthrough</label><div class=\"sk-toggleable__content\"><pre>passthrough</pre></div></div></div></div></div></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"c33dd0a8-2905-4b79-922d-541ac62a421d\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"c33dd0a8-2905-4b79-922d-541ac62a421d\">SelectPercentile</label><div class=\"sk-toggleable__content\"><pre>SelectPercentile(percentile=50, score_func=<function chi2 at 0x7fed401824c0>)</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"eb1eacbf-aee6-49f0-8b63-aa08f232b76b\" type=\"checkbox\" ><label class=\"sk-toggleable__label\" for=\"eb1eacbf-aee6-49f0-8b63-aa08f232b76b\">LogisticRegression</label><div class=\"sk-toggleable__content\"><pre>LogisticRegression(solver='liblinear')</pre></div></div></div></div></div></div></div>"
      ],
      "text/plain": [
       "Pipeline(steps=[('columntransformer',\n",
       "                 ColumnTransformer(transformers=[('pipeline',\n",
       "                                                  Pipeline(steps=[('simpleimputer',\n",
       "                                                                   SimpleImputer(strategy='constant')),\n",
       "                                                                  ('onehotencoder',\n",
       "                                                                   OneHotEncoder())]),\n",
       "                                                  ['Embarked', 'Sex']),\n",
       "                                                 ('countvectorizer',\n",
       "                                                  CountVectorizer(), 'Name'),\n",
       "                                                 ('simpleimputer',\n",
       "                                                  SimpleImputer(),\n",
       "                                                  ['Age', 'Fare']),\n",
       "                                                 ('passthrough', 'passthrough',\n",
       "                                                  ['Parch'])])),\n",
       "                ('selectpercentile',\n",
       "                 SelectPercentile(percentile=50,\n",
       "                                  score_func=<function chi2 at 0x7fed401824c0>)),\n",
       "                ('logisticregression', LogisticRegression(solver='liblinear'))])"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pipe = make_pipeline(ct, selection, logreg)\n",
    "pipe"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "# export the diagram to a file\n",
    "from sklearn.utils import estimator_html_repr\n",
    "with open('pipeline.html', 'w') as f:  \n",
    "    f.write(estimator_html_repr(pipe))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Want more tips? [View all tips on GitHub](https://github.com/justmarkham/scikit-learn-tips) or [Sign up to receive 2 tips by email every week](https://scikit-learn.tips) 💌\n",
    "\n",
    "© 2020 [Data School](https://www.dataschool.io). All rights reserved."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}