{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In this notebook, we will explore how to use Python in a streaming and distributed manner\n",
    "\n",
    "## Loading the dataset\n",
    "\n",
    "To simulate streaming data, we will load data into a Pandas dataframe. Then, we will iterate via each `Row` object, which is a dictionary object.\n",
    "\n",
    "`whylogs.DatasetProfile.track` method accepts dictionary of `[feature_name, value]`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import datetime\n",
    "import os.path\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>member_id</th>\n",
       "      <th>loan_amnt</th>\n",
       "      <th>funded_amnt</th>\n",
       "      <th>funded_amnt_inv</th>\n",
       "      <th>term</th>\n",
       "      <th>int_rate</th>\n",
       "      <th>installment</th>\n",
       "      <th>grade</th>\n",
       "      <th>sub_grade</th>\n",
       "      <th>...</th>\n",
       "      <th>hardship_payoff_balance_amount</th>\n",
       "      <th>hardship_last_payment_amount</th>\n",
       "      <th>disbursement_method</th>\n",
       "      <th>debt_settlement_flag</th>\n",
       "      <th>debt_settlement_flag_date</th>\n",
       "      <th>settlement_status</th>\n",
       "      <th>settlement_date</th>\n",
       "      <th>settlement_amount</th>\n",
       "      <th>settlement_percentage</th>\n",
       "      <th>settlement_term</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>10599</th>\n",
       "      <td>96596008</td>\n",
       "      <td>NaN</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>15.99</td>\n",
       "      <td>527.29</td>\n",
       "      <td>C</td>\n",
       "      <td>C5</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10601</th>\n",
       "      <td>96703051</td>\n",
       "      <td>NaN</td>\n",
       "      <td>14575.0</td>\n",
       "      <td>14575.0</td>\n",
       "      <td>14575.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>25.49</td>\n",
       "      <td>583.29</td>\n",
       "      <td>E</td>\n",
       "      <td>E4</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10602</th>\n",
       "      <td>96960509</td>\n",
       "      <td>NaN</td>\n",
       "      <td>5000.0</td>\n",
       "      <td>5000.0</td>\n",
       "      <td>5000.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>8.24</td>\n",
       "      <td>157.24</td>\n",
       "      <td>B</td>\n",
       "      <td>B1</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10603</th>\n",
       "      <td>97463966</td>\n",
       "      <td>NaN</td>\n",
       "      <td>13200.0</td>\n",
       "      <td>13200.0</td>\n",
       "      <td>13200.0</td>\n",
       "      <td>60 months</td>\n",
       "      <td>13.99</td>\n",
       "      <td>307.08</td>\n",
       "      <td>C</td>\n",
       "      <td>C3</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10605</th>\n",
       "      <td>96841832</td>\n",
       "      <td>NaN</td>\n",
       "      <td>9500.0</td>\n",
       "      <td>9500.0</td>\n",
       "      <td>9500.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>8.24</td>\n",
       "      <td>298.75</td>\n",
       "      <td>B</td>\n",
       "      <td>B1</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10914</th>\n",
       "      <td>95617334</td>\n",
       "      <td>NaN</td>\n",
       "      <td>6500.0</td>\n",
       "      <td>6500.0</td>\n",
       "      <td>6250.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>5.32</td>\n",
       "      <td>195.75</td>\n",
       "      <td>A</td>\n",
       "      <td>A1</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10915</th>\n",
       "      <td>95129874</td>\n",
       "      <td>NaN</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>15000.0</td>\n",
       "      <td>60 months</td>\n",
       "      <td>15.99</td>\n",
       "      <td>364.70</td>\n",
       "      <td>C</td>\n",
       "      <td>C5</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10916</th>\n",
       "      <td>96187258</td>\n",
       "      <td>NaN</td>\n",
       "      <td>40000.0</td>\n",
       "      <td>40000.0</td>\n",
       "      <td>40000.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>7.49</td>\n",
       "      <td>1244.07</td>\n",
       "      <td>A</td>\n",
       "      <td>A4</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10917</th>\n",
       "      <td>94469381</td>\n",
       "      <td>NaN</td>\n",
       "      <td>5050.0</td>\n",
       "      <td>5050.0</td>\n",
       "      <td>5050.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>21.49</td>\n",
       "      <td>191.54</td>\n",
       "      <td>D</td>\n",
       "      <td>D5</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10918</th>\n",
       "      <td>94480548</td>\n",
       "      <td>NaN</td>\n",
       "      <td>7350.0</td>\n",
       "      <td>7350.0</td>\n",
       "      <td>7350.0</td>\n",
       "      <td>36 months</td>\n",
       "      <td>12.74</td>\n",
       "      <td>246.74</td>\n",
       "      <td>C</td>\n",
       "      <td>C1</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Cash</td>\n",
       "      <td>N</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>309 rows × 150 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "             id  member_id  loan_amnt  funded_amnt  funded_amnt_inv  \\\n",
       "10599  96596008        NaN    15000.0      15000.0          15000.0   \n",
       "10601  96703051        NaN    14575.0      14575.0          14575.0   \n",
       "10602  96960509        NaN     5000.0       5000.0           5000.0   \n",
       "10603  97463966        NaN    13200.0      13200.0          13200.0   \n",
       "10605  96841832        NaN     9500.0       9500.0           9500.0   \n",
       "...         ...        ...        ...          ...              ...   \n",
       "10914  95617334        NaN     6500.0       6500.0           6250.0   \n",
       "10915  95129874        NaN    15000.0      15000.0          15000.0   \n",
       "10916  96187258        NaN    40000.0      40000.0          40000.0   \n",
       "10917  94469381        NaN     5050.0       5050.0           5050.0   \n",
       "10918  94480548        NaN     7350.0       7350.0           7350.0   \n",
       "\n",
       "             term  int_rate  installment grade sub_grade  ...  \\\n",
       "10599   36 months     15.99       527.29     C        C5  ...   \n",
       "10601   36 months     25.49       583.29     E        E4  ...   \n",
       "10602   36 months      8.24       157.24     B        B1  ...   \n",
       "10603   60 months     13.99       307.08     C        C3  ...   \n",
       "10605   36 months      8.24       298.75     B        B1  ...   \n",
       "...           ...       ...          ...   ...       ...  ...   \n",
       "10914   36 months      5.32       195.75     A        A1  ...   \n",
       "10915   60 months     15.99       364.70     C        C5  ...   \n",
       "10916   36 months      7.49      1244.07     A        A4  ...   \n",
       "10917   36 months     21.49       191.54     D        D5  ...   \n",
       "10918   36 months     12.74       246.74     C        C1  ...   \n",
       "\n",
       "      hardship_payoff_balance_amount hardship_last_payment_amount  \\\n",
       "10599                            NaN                          NaN   \n",
       "10601                            NaN                          NaN   \n",
       "10602                            NaN                          NaN   \n",
       "10603                            NaN                          NaN   \n",
       "10605                            NaN                          NaN   \n",
       "...                              ...                          ...   \n",
       "10914                            NaN                          NaN   \n",
       "10915                            NaN                          NaN   \n",
       "10916                            NaN                          NaN   \n",
       "10917                            NaN                          NaN   \n",
       "10918                            NaN                          NaN   \n",
       "\n",
       "      disbursement_method  debt_settlement_flag debt_settlement_flag_date  \\\n",
       "10599                Cash                     N                       NaN   \n",
       "10601                Cash                     N                       NaN   \n",
       "10602                Cash                     N                       NaN   \n",
       "10603                Cash                     N                       NaN   \n",
       "10605                Cash                     N                       NaN   \n",
       "...                   ...                   ...                       ...   \n",
       "10914                Cash                     N                       NaN   \n",
       "10915                Cash                     N                       NaN   \n",
       "10916                Cash                     N                       NaN   \n",
       "10917                Cash                     N                       NaN   \n",
       "10918                Cash                     N                       NaN   \n",
       "\n",
       "      settlement_status settlement_date settlement_amount  \\\n",
       "10599               NaN             NaN               NaN   \n",
       "10601               NaN             NaN               NaN   \n",
       "10602               NaN             NaN               NaN   \n",
       "10603               NaN             NaN               NaN   \n",
       "10605               NaN             NaN               NaN   \n",
       "...                 ...             ...               ...   \n",
       "10914               NaN             NaN               NaN   \n",
       "10915               NaN             NaN               NaN   \n",
       "10916               NaN             NaN               NaN   \n",
       "10917               NaN             NaN               NaN   \n",
       "10918               NaN             NaN               NaN   \n",
       "\n",
       "      settlement_percentage settlement_term  \n",
       "10599                   NaN             NaN  \n",
       "10601                   NaN             NaN  \n",
       "10602                   NaN             NaN  \n",
       "10603                   NaN             NaN  \n",
       "10605                   NaN             NaN  \n",
       "...                     ...             ...  \n",
       "10914                   NaN             NaN  \n",
       "10915                   NaN             NaN  \n",
       "10916                   NaN             NaN  \n",
       "10917                   NaN             NaN  \n",
       "10918                   NaN             NaN  \n",
       "\n",
       "[309 rows x 150 columns]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data_file = \"lending_club_demo.csv\"\n",
    "full_data = pd.read_csv(data_file)\n",
    "full_data['issue_d'].describe()\n",
    "\n",
    "data = full_data[full_data['issue_d'] == 'Jan-2017']\n",
    "data"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Creating a whylogs session\n",
    "\n",
    "Let's now explore import a function from whylogs that allows us to create a logging session.\n",
    "\n",
    "This session can be connected with multiple writers that output the results of our profiling locally in JSON, a flat CSV, or binary protobuf format as well as writers to an AWS S3 bucket in the cloud. Further writing functionality will be added as well.\n",
    "\n",
    "Let's create a default session below."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "from whylogs import get_or_create_session\n",
    "\n",
    "session = get_or_create_session()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Creating a logger\n",
    "\n",
    "We can create a logger for a specific dataset timestamp. This often represents a window of data or a batch of data.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "logger= session.logger(dataset_name=\"dataset\", dataset_timestamp=datetime.datetime(2020, 9, 22, 0, 0))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Log streaming data\n",
    "We'll stream through the dataframe and call `logger.log`.\n",
    "\n",
    "In practice, you'll call this on individual data points"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "for i, r in data.iterrows():\n",
    "    logger.log(r)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<whylogs.core.datasetprofile.DatasetProfile at 0x7fea48b59e90>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# close the logger to write to dist\n",
    "logger.close()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Another logger\n",
    "We'll create another logger and write data to the new logger, but with a different timestamp"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "with session.logger(dataset_name=\"dataset\", dataset_timestamp=datetime.datetime(2020, 9, 21, 0, 0)) as logger:\n",
    "    for i, r in data.iterrows():\n",
    "        logger.log(r)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Merging data\n",
    "Once data is written to disk, we can then merge the entries together to get a summary view.\n",
    "\n",
    "If you run a distributed systems, this means that you can collect your `whylogs` data into a cloud storage such as S3 and then aggregate them."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "import glob"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['whylogs-output/dataset/dataset_profile/protobuf/datase_profile-1600732800000.bin',\n",
       " 'whylogs-output/dataset/dataset_profile/protobuf/datase_profile-1600646400000.bin']"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "binaries = glob.glob('whylogs-output/dataset/**/*.bin', recursive=True)\n",
    "binaries"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "from whylogs import DatasetProfile\n",
    "# currently, whylogs writer writes non-delimited files\n",
    "profiles = [DatasetProfile.read_protobuf(x, delimited_file=False) for x in binaries]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "from functools import reduce\n",
    "merged = reduce(lambda x, y: x.merge(y), profiles)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Quick check with the merged data\n",
    "We can check the counter to see if the merged data reflect the \"merge\" here"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "First DTI count:  309\n",
      "Second DTI count:  309\n",
      "Merged count:  618\n"
     ]
    }
   ],
   "source": [
    "print(\"First DTI count: \", profiles[0].columns['dti'].counters.count)\n",
    "print(\"Second DTI count: \", profiles[1].columns['dti'].counters.count)\n",
    "print(\"Merged count: \", merged.columns['dti'].counters.count)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "whylogs",
   "language": "python",
   "name": "whylogs"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.7"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}