{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "provenance": []
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "language_info": {
      "name": "python"
    }
  },
  "cells": [
    {
      "cell_type": "code",
      "execution_count": 1,
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "e5-E0-wuljzr",
        "outputId": "3b0248db-8455-4d23-c681-2a4facc0f56e"
      },
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Mounted at /content/gdrive\n"
          ]
        }
      ],
      "source": [
        "# ALL REQUIRED IMPORTS\n",
        "import numpy as np\n",
        "import pandas as pd\n",
        "import seaborn as sns\n",
        "from sklearn.decomposition import PCA\n",
        "from sklearn.preprocessing import StandardScaler\n",
        "from google.colab import drive\n",
        "import matplotlib.pyplot as plt\n",
        "from sklearn.neighbors import KNeighborsClassifier\n",
        "from sklearn.model_selection import train_test_split\n",
        "from sklearn.metrics import confusion_matrix, r2_score, f1_score, accuracy_score, classification_report, roc_auc_score, log_loss\n",
        "from sklearn.metrics import *\n",
        "from sklearn.neighbors import KNeighborsRegressor\n",
        "from sklearn.metrics import mean_squared_error\n",
        "from sklearn.model_selection import StratifiedKFold, GridSearchCV, KFold, cross_val_score\n",
        "from sklearn.pipeline import Pipeline\n",
        "from sklearn.linear_model import *\n",
        "from sklearn.discriminant_analysis import LinearDiscriminantAnalysis\n",
        "from sklearn.svm import SVC\n",
        "from sklearn.ensemble import *\n",
        "from sklearn.tree import DecisionTreeClassifier, plot_tree\n",
        "from sklearn.pipeline import Pipeline\n",
        "from sklearn.preprocessing import StandardScaler\n",
        "from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier\n",
        "from sklearn.decomposition import PCA\n",
        "drive.mount('/content/gdrive')"
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "train_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/train.csv'\n",
        "test_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/test.csv'\n",
        "santa_test = pd.read_csv(test_path)\n",
        "santa = pd.read_csv(train_path)\n",
        "santa.columns"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ehz72TsxlwRW",
        "outputId": "9e443c65-3dab-40ff-b18a-6683686ede78"
      },
      "execution_count": 10,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "Index(['ID', 'var3', 'var15', 'imp_ent_var16_ult1', 'imp_op_var39_comer_ult1',\n",
              "       'imp_op_var39_comer_ult3', 'imp_op_var40_comer_ult1',\n",
              "       'imp_op_var40_comer_ult3', 'imp_op_var40_efect_ult1',\n",
              "       'imp_op_var40_efect_ult3',\n",
              "       ...\n",
              "       'saldo_medio_var33_hace2', 'saldo_medio_var33_hace3',\n",
              "       'saldo_medio_var33_ult1', 'saldo_medio_var33_ult3',\n",
              "       'saldo_medio_var44_hace2', 'saldo_medio_var44_hace3',\n",
              "       'saldo_medio_var44_ult1', 'saldo_medio_var44_ult3', 'var38', 'TARGET'],\n",
              "      dtype='object', length=371)"
            ]
          },
          "metadata": {},
          "execution_count": 10
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "X_train = santa.drop(['TARGET', 'ID'], axis=1)\n",
        "y_train = santa['TARGET']\n",
        "X_test = santa_test.drop('ID', axis = 1)"
      ],
      "metadata": {
        "id": "vbf7kVCWmD1u"
      },
      "execution_count": 17,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "rf = RandomForestClassifier(random_state = 2022)\n",
        "rf.fit(X_train, y_train)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "gZOV97EemTms",
        "outputId": "829c2a11-c132-420e-974b-c4e4089d1992"
      },
      "execution_count": 18,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "RandomForestClassifier(random_state=2022)"
            ]
          },
          "metadata": {},
          "execution_count": 18
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "y_pred_prob = rf.predict_proba(X_test)[:,1]"
      ],
      "metadata": {
        "id": "Pyme5qHhmZai"
      },
      "execution_count": 19,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "submit_path = '/content/gdrive/MyDrive/Datasets/santander-customer-satisfaction/sample_submission.csv'\n",
        "submit = pd.read_csv(submit_path)\n",
        "submit['TARGET'] = y_pred_prob\n",
        "submit.to_csv(submit_path, index=False)"
      ],
      "metadata": {
        "id": "1VRYH_r8nSl6"
      },
      "execution_count": 20,
      "outputs": []
    }
  ]
}