{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# MATH60629\n", "# Semaine \\#2 - Fondamentaux de l'apprentissage automatique - Exos\n", "\n", "Ces exercices portent sur trois aspects importants de l'apprentissage automatique (ML) : \n", "1. la capacité des modèles\n", "2. le biais et la variance d'un estimateur (modèle), ainsi que\n", "3. une courte introduction à la validation. \n", "\n", "Le but de ce notebook est de développer votre intuition à travers une série d'exercices." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "from sklearn import datasets, linear_model\n", "from sklearn.model_selection import cross_val_predict\n", "diabetes = datasets.load_diabetes()\n", "X = diabetes.data[:150]\n", "y = diabetes.target[:150]\n", "lasso = linear_model.Lasso()\n", "y_pred = cross_val_predict(lasso, X, y, cv=3)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(150,)\n" ] } ], "source": [ "print(y_pred.shape)" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "from matplotlib.pyplot import cm\n", "\n", "from sklearn.model_selection import train_test_split\n", "\n", "import warnings\n", "warnings.filterwarnings(\"ignore\")\n", "\n", "# Pour colab.\n", "#!rm -rf 80-629\n", "#!git clone https://github.com/lcharlin/80-629/\n", "#import sys\n", "#sys.path += ['80-629/week2-Fundamentals/']\n", "\n", "# Nous utiliserons plusieurs fonctions du fichier utilities.py pour créer des figures\n", "from utilities import scatter_plot, plot_polynomial_curves, \\\n", " plot_optimal_curve, train_poly_and_see, MSE\n", "%matplotlib inline" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1.1 Capacité d'un modèle\n", "\n", "Intuitivement, la capacité d'un modèle peut être définie comme le nombre de fonctions que ce modèle peut représenter (c.-à-d. obtenir une erreur d'entraînement de 0). Par rapport à un modèle de haute capacité, un modèle de basse capacité peut représenter moins de fonctions.\n", "\n", "Les modèles à plus haute capacité sont en général plus sujets au surentraînement (**overfitting**). Un modèle est en surentraînement s'il y a une grande différence entre l'erreur d'entraînement et l'erreur de test. En d'autres mots, c'est quand le modèle mémorise des propriétés de l'ensemble d'entraînement qui ne sont pas utiles pour généraliser (bien prédire sur l'ensemble de test). \n", "\n", "Intuitivement, si deux modèles obtiennent des résultats similaires en entraînement, celui avec la plus petite capacité généralisera le mieux. Nous préférons donc une explication simple versus une explication plus compliquée (c'est une bonne illustration du [Rasoir d'Ockham](https://fr.wikipedia.org/wiki/Rasoir_d%27Ockham)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.1.1 Génération de données\n", "\n", "Commençons par simuler des données! Dans cette section, chaque observation $y$ est générée par le modèle suivant: \n", "\n", "$$ y = x \\cos(x / \\gamma) + \\epsilon$$\n", "\n", "où $y \\in \\mathbb{R}$ est la cible ou sortie (la variable dépendante qui sera à prédire), $x \\in \\mathbb{R}$ sont les variables indépendantes ou caractéristiques, $\\gamma$ est la période de la fonction cyclique cosinus et $\\epsilon$ est le bruit aléatoire tel que $\\epsilon \\sim \\mathcal{N}(0, \\sigma^2)$ où vous pouvez choisir la valeur de $\\sigma$." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "def data_simulation_(sample_size, scale, period, variance):\n", " \n", " x = np.random.uniform(-scale, scale, sample_size)\n", " x.sort()\n", " noise = np.random.normal(0, variance, sample_size)\n", " y = x * np.cos(x / period) + noise\n", " \n", " return x, y" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lorsque c'est possible, c'est en général une bonne idée de visualiser les données (pour en obtenir une meilleure compréhension). \n", "\n", "**Question**: Variez les paramètres (*variance*, *scale* et *period*) et voyez comment ils changent la figure ci-dessous." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "scrolled": true }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "sample_size = 300\n", "variance = 10 # La variance du bruit Gaussien\n", "scale = 100 # L'étendue\n", "period = 6 # La simulation est basée sur la fonction cosinus (voir la fonction data_simulation)\n", "\n", "x_train, y_train = data_simulation_(int(.7*sample_size), scale, period, \n", " variance)\n", "x_test, y_test = data_simulation_(int(.3*sample_size), scale, period, variance)\n", "\n", "# Cette fonction est dans le fichier utilities.py\n", "plt = scatter_plot(x_train, x_test, y_train, y_test) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.1.2 Obtenir une première intuition visuelle de la capacité du modèle\n", "\n", "Comme vu dans le cours (par exemple diapo 38), plus haute est la capacité du modèle, meilleur le modèle sera sur l'ensemble d'entraînement (attention, encore une fois, ça ne dit rien sur sa capacité à généraliser). Pour l'instant, nous entraînerons un modèle de [régression polynomiale](https://fr.wikipedia.org/wiki/R%C3%A9gression_polynomiale). \n", "L'avantage de ce modèle est que nous pouvons facilement changer sa capacité en augmentant le degré du polynôme $m$:\n", "\n", "$$\\hat{y} = \\sum_{i=1}^m w_i x^i $$\n", " \n", "mais ce n'est pas très important de comprendre les détails du modèle.\n", "\n", "**Questions**: \n", "1. Observez l'effet du degré du polynôme sur sa capacité à prédire les données. \n", "2. À votre avis, vaut-il mieux utiliser un polynôme de degré 20 ou 50?\n", "3. Lesquels de ces polynômes devraient avoir la meilleure erreur de généralisation?\n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Polynomial degree: 0 | MSE train: 1897.8148 | MSE test: 2090.1397\n", "Polynomial degree: 1 | MSE train: 1834.8547 | MSE test: 2035.8692\n", "Polynomial degree: 3 | MSE train: 1640.1539 | MSE test: 1785.4183\n", "Polynomial degree: 5 | MSE train: 1301.8234 | MSE test: 1389.8382\n", "Polynomial degree: 10 | MSE train: 950.7313 | MSE test: 1069.6461\n", "Polynomial degree: 20 | MSE train: 69.1318 | MSE test: 112.8808\n", "Polynomial degree: 40 | MSE train: 62.125 | MSE test: 124.7164\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Entraîner de polynômes de différents degrés: plus le degré est élevé plus la capacité du modèle l'est.\n", "degree = [0, 1, 3, 5, 10, 20, 40] \n", "plot_polynomial_curves(x_train, x_test, y_train, y_test, degree, scale)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.1.3 Taille échantillonnale et capacité du modèle\n", "\n", "Dans la section précédente, nous avons discuté de la capacité du modèle. \n", "\n", "Maintenant, nous étudions comment le modèle varie et performe en fonction de la taille des données d'entraînement (pour référence, voir diapo 40 et figure 5.4 du livre \"Deep Learning\"). \n", "\n", "Nous étudions le modèle de régression polynomiale de degré 3 comparé à celui de degré optimal (c.-à-d. celui qui minimise la MSE sur l'ensemble de test).\n", "\n", "**Question**: Les courbes ci-dessous semblent-elles se comporter raisonnablement?\n" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[0, 1, 3, 5, 10, 20, 40]\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Taille échantillonnale \n", "sample_size = [10, 10**2, 10**3, 10**4, 10**5, 10**6] \n", "variance = 20\n", "\n", "print(degree)\n", "\n", "H_train, H_test, optimal_train, optimal_test, optimal_degree \\\n", " = train_poly_and_see(sample_size, scale, period, variance, degree)\n", "\n", "plot_optimal_curve(optimal_train, optimal_test, H_train, H_test, optimal_degree)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 1.2 Biais et variance des estimateurs\n", "\n", "Nous explorons maintenant quelques propriétés du biais et de la variance de quelques estimateurs bien connus. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Modèles linéaires pour la régression\n", "\n", "Les modèles polynomiaux que nous venons d'utiliser font partie d'une classe de modèles s'appelant modèles linéaires. Ils sont appelés ainsi puisque la variable cible ($y$) est prédite par une combinaison linéaire des caractéristiques ($x$). \n", "\n", "En particulier, c'est une tâche de régression linéaire où le but est de prédire une (ou plus) variable(s) cible(s) continue(s) étant donné les valeurs d'un ensemble de variables indépendantes. \n", "\n", "De plus, nous posons que notre objectif est l'erreur au carré \n", "$$\\sum_{i=0}^n (y_i - \\hat{y}_i)^2$$\n", "\n", "ou mean squared error (MSE) en anglais. \n", "\n", "Nous allons maintenant étudier quelques propriétés de ce modèle et de cette fonction d'erreur.\n", "\n", "Note: Un modèle de régression linéaire appris avec une erreur au carrée est appelé régression des moindres carrés ordinaire (ordinary least square ou OLS en anglais). \n", "\n", "Pour commencer, simulons des données. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.2.1 Simulation de données \n", "\n", "Chaque observation $y$ est générée par le modèle suivant :\n", "\n", "$$ y = \\bf{x}^\\top \\bf{w} + \\epsilon$$\n", "\n", "où $y \\in \\mathbb{R}$ est la sortie, $\\bf{x}$ le vecteur de variables indépendantes, $\\bf{w}$ le vecteur des paramètres et $\\epsilon$ est le bruit gaussien $\\epsilon \\sim \\mathcal{N}(0,11)$." ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "def data_simulation(sample_size, w_0, w_1):\n", " \n", " x = np.random.uniform(-1, 10, sample_size)\n", " x.sort()\n", " noise = np.random.normal(0, 11, sample_size)\n", " y = w_0 + w_1 * x + noise\n", " \n", " return x, y" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous pouvons visualiser les données générées." ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "w_0, w_1 = 2, 3 # Pour des valeurs de w connues\n", "sample_size = 500 # On génére un nombre fixe de données d'entraînement\n", "\n", "X, y = data_simulation(sample_size, w_0, w_1)\n", "X = [np.ones(len(y)), X]\n", "X = np.asarray(X ).T\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, \n", " test_size=0.2, \n", " random_state=0)\n", "scatter_plot(X_train[:, 1], X_test [:, 1], y_train, y_test) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.2.2 Estimateurs OLS\n", "\n", "**Questions**: \n", "1. Étant donné l'expression des moindres carrés donnée à la diapo 31 du cours, complétez le fonction OLS ci-dessous pour obtenir les estimateurs moindres carrés. Pour rappel, ces estimateurs sont définis comme suit (il vous suffit donc d'implémenter cette formule dans la fonction OLS):\n", "\n", "$$ \\hat{\\bf{w}}^{\\text{OLS}} := (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\bf{y}$$\n", "\n", "où $\\bf{X}$ est la matrice de variables indépendantes (en anglais [design matrix](https://en.wikipedia.org/wiki/Design_matrix#:~:text=In%20statistics%2C%20a%20design%20matrix,specific%20values%20for%20that%20object.) et $\\bf{y}$ est le vecteur de sortie.\n", "\n", "2. Calculez les estimateurs associés aux données simulées\n", "\n", "*Note*: N'oubliez pas de calculer l'ordonnée à l'origine $\\bf{w}_0$. Pour ce faire, vous pouvez ajouter une colonne avec seulement des 1 à la matrice de variables indépendantes. (Explications en anglais [ici](https://en.wikipedia.org/wiki/Design_matrix#:~:text=In%20statistics%2C%20a%20design%20matrix,specific%20values%20for%20that%20object.)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "ename": "NameError", "evalue": "name 'X_train' is not defined", "output_type": "error", "traceback": [ "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[0;31mNameError\u001b[0m Traceback (most recent call last)", "\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m\u001b[0m\n\u001b[1;32m 9\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0;34m(\u001b[0m\u001b[0;34m...\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 10\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 11\u001b[0;31m \u001b[0mw_ols\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mOLS\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mX_train\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0my_train\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[0;31mNameError\u001b[0m: name 'X_train' is not defined" ] } ], "source": [ "def OLS(X, y):\n", " \"\"\"\n", " X: matrice de variables indépendantes\n", " y: vecteur des cibles\n", " \n", " return: array of weights\n", " \"\"\"\n", " \n", " A = np.linalg.inv(np.dot(X.T, X))\n", " B = np.dot(X.T, y)\n", "\n", " # À COMPLÉTER : \n", " return (...)\n", "\n", "w_ols = OLS(X_train, y_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Calculez les prédictions sur les ensembles d'entraînement et de test. À partir de ces prédictions, calculez l'erreur MSE. Les résultats vous semblent-ils raisonnables?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Answer**:" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "MSE en entraînement: 26.255209347316768\n", "MSE en test: 25.524953820995712\n" ] } ], "source": [ "# Train set\n", "y_hat_train = ... \n", "\n", "# Test set\n", "y_hat_test = ... \n", "\n", "print('MSE en entraînement: ', MSE(y_hat_train, y_train))\n", "print('MSE en test: ', MSE(y_hat_test, y_test))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 1.2.2.1 Biais de l'estimateur des moindres carrés\n", "\n", "**Question**: Calculez le biais (empirique) des estimateurs." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Biais de w_0: 0.009246856398277714\n", "Biais de w_1: 0.017635938784052563\n" ] } ], "source": [ "bias = ...\n", "\n", "print(\"Biais de w_0: \", bias[0]) # Bias of w_0\n", "print(\"Biais de w_1: \", bias[1]) # Bias of w_1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Ces valeurs sont-elle raisonnables?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question Bonus**: Comment réduire le biais empirique de ces estimateurs?" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [], "source": [ "sample_size = 10**6" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 1.2.2.2 Variance des estimateurs OLS (à sauter si manque de temps)\n", "\n", "Les estimateurs OLS calculés à la section précédente sont en fait des variables aléatoires. Ces estimateurs ont donc une variance. \n", "\n", "Cette variance peut être estimée de plusieurs façons. Nous en introduisons ici deux. La première est une approche empirique utilisant une méthode de Monte Carlo (c.-à-d. par échantillonnage). La seconde, est une approach analytique. \n", "\n", "\n", "#### Méthode Monte Carlo\n", "\n", "Malgré leur nom, les méthodes de Monte Carlo peuvent être relativement simples. Nous allons évaluer la variance de nos estimateurs en 4 étapes faciles. " ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Estimation MC de la variance de l'estimateur de w_0: 8.526898306870222e-05\n", "Estimation MC de la variance de l'estimateur de w_1: 3.127568686703808e-06\n" ] } ], "source": [ "# L'idée est que nous allons réestimer les estimateurs à partir de plusieurs \n", "# jeux de données. \n", "# Chaque jeu de données est tiré de la même distribution (ou du même processus de génération). \n", "# Nous allons ensuite pouvoir trouver la variance empirique des estimateurs.\n", "\n", "mc_estimates = 100 # Nombres d'estimations de Monte Carlo que vous allez utiliser\n", "M = np.zeros((mc_estimates, 2)) # Matrice où conserver les estimateurs\n", "\n", "# Step 1: Boucle for pour chaque estimation.\n", "for k in np.arange(mc_estimates):\n", " \n", " # Step 2: Simulation des données\n", " x, y = data_simulation( int(.8 * sample_size), w_0, w_1)\n", " \n", " X = [np.ones(len(y)), x] \n", " X = np.asarray(X).T\n", " \n", " # Step 3: Estimations OLS\n", " w_ols = OLS(X, y)\n", " M[k, :] = w_ols # On conserve les estimateurs\n", " \n", "# Step 4: On calcule la variance (indice: fonction np.var)\n", "var = np.var(M, axis=0)\n", "print(\"Estimation MC de la variance de l'estimateur de w_0: \", var[0]) # Variance de w_0\n", "print(\"Estimation MC de la variance de l'estimateur de w_1: \",var[1]) # Variance de w_1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Approche Analytique \n", "\n", "Nous pouvons aussi obtenir l'expression de la variance directement. Ceci est pratique dans certains cas où nous ne pouvons utilisez la méthode de Monte Carlo. \n", "\n", "\\begin{align}\n", " \\text{Var}(\\hat{\\bf{w}}^{\\text{OLS}}) \n", " &= \\text{Var}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\bf{y}\\right) && \\text{Definition of the OLS estimators} \\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\text{Var} (\\bf{y})\\left((\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\right)^\\top && \\text{Property of the variance on matrices} \\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\text{Var} (\\bf{y}) \\bf{X}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top && \\text{Property of the transpose} \\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\text{Var}(\\bf{X} \\bf{w} + \\bf{\\epsilon}) \\ \\bf{X}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top && \\text{Modelization of the data}\\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\text{Var}(\\bf{\\epsilon}) \\ \\bf{X}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top && \\text{Property of the variance (only $\\epsilon$ is a random variable)} \\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\bf{I} \\ \\bf{X}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top && \\text{Since $\\epsilon$ is iid}\\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} \\bf{X}^\\top \\bf{X}\\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top \\\\\n", " &= \\left((\\bf{X}^\\top \\bf{X})^{-1} \\right)^\\top \\\\\n", " &= (\\bf{X}^\\top \\bf{X})^{-1} && \\text{Since $\\bf{X}^\\top \\bf{X}$ is symmetric and}\\\\\n", " & && \\text{by property of the matrix inv.}\n", "\\end{align}" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Calculez la variance des estimateurs OLS en utilisant l'expression ci-dessus." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Variance analytique de l'estimé de w_0: 0.006753013933156844\n", "Variance analytique de l'estimé de w_1: 0.00023519713794636034\n" ] } ], "source": [ "# Calcul\n", "var = ... \n", "\n", "print(\"Variance analytique de l'estimé de w_0: \", var[0, 0]) \n", "print(\"Variance analytique de l'estimé de w_1: \",var[1, 1]) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Les résultats analytiques précédents sont-ils raisonnables? " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.2.3 Estimateurs des moindres carrés (OLS) avec régularisation L2\n", "\n", "Comme montré à la diapo 45, on peut ajouter une régularisation L$_2$ sur les paramètres d'un modèle linéaire (voir la section 1.1). \n", "\n", "Le problème est connu sous le nom de (régression d'arête, ridge ou de Tikhonov)\n", "[https://en.wikipedia.org/wiki/Tikhonov_regularization] :\n", "\n", "$$ \\hat{w}^{\\text{ridge}} := (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\bf{y}$$\n", "\n", "où $\\lambda$ est l'hyperparamètre (voir diapos 45 et 46) qui contrôle la capacité du modèle.\n", "\n", "**Question**: Complétez la fonction ridge ci-dessous pour obtenir les estimateurs d'arêtes." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [], "source": [ "def ridge(X, y, lambda_hp):\n", " \n", " A = ...\n", " B = ... \n", " \n", " return np.dot(A, B)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Obtenez les estimateurs d'arête pour différentes valeurs de $\\lambda$. En premier, essayer d'imaginer comment les estimateurs vont changer pour des valeurs de $\\lambda$ suivants: \n", "\n", "1. For $\\lambda = 0$. \n", "2. For $\\lambda = 10^{10}$.\n", "3. Pour des valeurs intermédiaires de $\\lambda$ (entre $0$ et $10^{10}$)? " ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "scrolled": true }, "outputs": [], "source": [ "lambda_hp = 10**3\n", "w_ridge = ridge(X_train, y_train, lambda_hp)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Obtenez des prédictions sur l'ensemble d'entraînement et de test. Ce modèle est-il meilleur que le modèle sans régularisation (OLS)?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "MSE en entraînement: 28.85814500880032\n", "MSE en test: 28.754323122145074\n" ] } ], "source": [ "# Train set\n", "y_hat_train = ... \n", "\n", "# Test set\n", "y_hat_test = ... \n", "\n", "print('MSE en entraînement: ', MSE(y_hat_train, y_train))\n", "print('MSE en test: ', MSE(y_hat_test, y_test))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 1.2.3.1 Biais des estimateurs d'arête\n", "\n", "**Question**: Calculez le biais des estimateurs d'arête." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Biais de w_0: -1.3587023350491831\n", "Biais de w_1: -0.03769655685412143\n" ] } ], "source": [ "bias = ...\n", "\n", "print(\"Biais de w_0: \", bias[0]) # Bias de w_0\n", "print(\"Biais de w_1: \", bias[1]) # Bias de w_1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question**: Comparez le biais des estimateurs d'arête avec les estimateurs OLS. Les différences sont-elles raisonnables?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Réponse**: Les estimateurs d'arête sont biaisés. Leur biais empirique devrait être plus grand que le biais des estimateuers OLS (par contre, leur variance pourrait être plus petite). \n", "\n", "On peut voir plus formellement que les estimateurs d'arête sont biaisés. \n", "\n", "\\begin{align}\n", " \\mathbb{E}[\\hat{\\bf{w}}^{\\text{ridge}}] \n", " &= \\mathbb{E}[(\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\bf{y}] \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\mathbb{E}[\\bf{y}] \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\mathbb{E}[\\bf{X} \\bf{w} + \\bf{\\epsilon}] \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\{ \\mathbb{E}[\\bf{X} \\bf{w}] + \\mathbb{E}[\\bf{\\epsilon}] \\} \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\{ \\bf{X} \\bf{w} + \\bf{O} \\} \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{X}^\\top \\bf{X} \\bf{w} \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I} - \\lambda \\bf{I} ) \\bf{w} \\\\\n", " &= (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I}) \\bf{w} - (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1}\\lambda \\bf{I} \\bf{w} \\\\\n", " &= \\bf{w} - \\lambda (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{w}.\n", "\\end{align}\n", "\n", "Donc, le biais des estimateur d'arête est:\n", "$$ \\text{Bias}(\\hat{\\bf{w}}^{\\text{ridge}}) = - \\lambda (\\bf{X}^\\top \\bf{X} + \\lambda \\bf{I})^{-1} \\bf{w} $$\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Remarque**: Comment choisir la valeur de l'hyperparamètre $\\lambda$? Nous en discutons à la section suivante." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1.3 Validation - Pour trouver de bons hyperparamètres\n", "\n", "La validation est utile pour faire une sélection de modèles ainsi que pour trouver des bons hyperparamètres.\n", "\n", "La première étape de validation consiste à diviser l'ensemble d'entraînement en deux ensembles, un d'entraînement et un de validation (voir diapo 49). \n", "\n", "En python, on peut simplement utiliser la fonction train_test_split de la libraire [Scikit-learn library](https://scikit-learn.org/). (Notez que nous introduirons les différentes fonctionnalités de ces libraires à la semaine 4 du cours.)" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [], "source": [ "X_sub_train, X_validation, y_sub_train, y_validation = \\\n", " train_test_split(X_train, y_train, test_size=0.2, random_state=0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous pouvons maintenant étudier la performance (MSE) de l'estimateur avec régularisation L2 en fonction de la valeur des hyperparamètres. \n", "\n", "Dans ce cas, le seul hyperparamètre est l'importance de la régularisation $\\lambda$.\n" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [], "source": [ "losses_stack_sub_train, losses_stack_train = [], [] \n", "losses_stack_validation, losses_stack_test = [], []\n", "\n", "for lambda_hp in np.arange(0, 100, 1):\n", "\n", " # Apprendre les paramètres (w) avec une valeur de lambda \n", " w_ridge_cv = ridge(X_sub_train, y_sub_train, lambda_hp)\n", " \n", " # Obtenir des prédictions sur l'ensemble d'entraînement et de validation\n", " y_hat_sub_train = np.dot(X_sub_train, w_ridge_cv)\n", " y_hat_validation = np.dot(X_validation, w_ridge_cv)\n", " \n", " # Calculez et conserver les valeurs des erreurs MSE\n", " losses_stack_sub_train.append(MSE(y_sub_train, y_hat_sub_train))\n", " losses_stack_validation.append(MSE(y_validation, y_hat_validation))\n", " \n", " # On obtient la même chose pour nos ensembles d'entraînement et de test initiaux.\n", " w_ridge = ridge(X_train, y_train, lambda_hp)\n", " y_hat_train = np.dot(X_train, w_ridge)\n", " y_hat_test = np.dot(X_test, w_ridge)\n", "\n", " losses_stack_train.append(MSE(y_train, y_hat_train))\n", " losses_stack_test.append(MSE(y_test, y_hat_test))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En fonction des erreurs MSE sur l'ensemble de validation, nous pouvons maintenant sélectionner la meilleure valeur de l'hyperparamètre $\\lambda$. \n", "\n", "Attention: il ne faut jamais sélectionner les valeurs des hyperparamètres à partir de l'ensemble de test. " ] }, { "cell_type": "code", "execution_count": 42, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "La régularisation optimale est de 0\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "cmap = plt.get_cmap(\"tab10\")\n", "\n", "plt.plot(losses_stack_test, label='Test', color=cmap(2))\n", "plt.plot(losses_stack_validation, label='Validation', color=cmap(0))\n", "plt.plot(losses_stack_sub_train, label='Training', color=cmap(1))\n", "\n", "plt.axvline(x=np.argmin(losses_stack_validation), color='red', label='Régularisation optimale')\n", "\n", "plt.xlabel('$\\lambda$ regularization')\n", "plt.ylabel('MSE')\n", "leg = plt.gca().legend(loc='center left', bbox_to_anchor=(1, .8))\n", "leg.get_frame().set_alpha(0)\n", "print('La régularisation optimale est de', np.argmin(losses_stack_validation))\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nous pouvons aussi comparer les erreurs des différents estimateurs sur l'ensemble de test:" ] }, { "cell_type": "code", "execution_count": 39, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "TRAIN: estimateurs OLS: 26.259016856161516\n", "TRAIN: estimateurs Ridge: 26.259016856161516\n", "\n", "TEST: estimateurs OLS: 25.520015082615195\n", "TEST: estimateurs Ridge: 25.520015082615195\n" ] } ], "source": [ "print('TRAIN: estimateurs OLS: ', losses_stack_train[0])\n", "print('TRAIN: estimateurs Ridge: ', losses_stack_train[np.argmin(losses_stack_validation)])\n", "\n", "print('\\nTEST: estimateurs OLS: ', losses_stack_test[0])\n", "print('TEST: estimateurs Ridge: ', losses_stack_test[np.argmin(losses_stack_validation)])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1.4 Remarques finales\n", "\n", "1. Un modèle de plus haute capacité pourra mieux modéliser l'ensemble d'entraînement, mais attention à l'erreur de généralisation. \n", "2. Un estimateur non biaisé (OLS par rapport à Ridge) n'offre pas nécessairement une meilleure erreur de généralisation.\n", "3. Quand l'erreur est la MSE, on peut décomposer l'erreur de généralisation par rapport au biais et à la variance des estimateurs.\n", "4. La validation est très utile, on vous conseille de bien comprendre la Section 1.3!" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.3" } }, "nbformat": 4, "nbformat_minor": 4 }