{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "\"Open\n", "\n", "# TP Algorithmes Stochastiques, SEM, N-SEM, EM" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "import scipy.stats as sps\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "from TP_SEM_EM import *" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$\\renewcommand{\\si}{\\sigma}\n", "\\renewcommand{\\al}{\\alpha}\n", "\\renewcommand{\\tta}{\\theta}\n", "\\renewcommand{\\Tta}{\\Theta}\n", "\\renewcommand{\\Si}{\\Sigma}\n", "\\renewcommand{\\ld}{\\ldots}\n", "\\renewcommand{\\cd}{\\cdots}\n", "\\renewcommand{\\cN}{\\mathcal{N}}\n", "\\renewcommand{\\R}{\\mathbb{R}}\n", "\\renewcommand{\\p}{\\mathbb{P}}\n", "\\renewcommand{\\f}{\\frac}\n", "\\renewcommand{\\ff}{\\frac{1}}\n", "\\renewcommand{\\ds}{\\displaystyle}\n", "\\renewcommand{\\bE}{\\mathbf{E}}\n", "\\renewcommand{\\bF}{\\mathbf{F}}\n", "\\renewcommand{\\ii}{\\mathrm{i}}\n", "\\renewcommand{\\me}{\\mathrm{e}}\n", "\\renewcommand{\\hsi}{\\hat{\\sigma}}\n", "\\renewcommand{\\hmu}{\\hat{\\mu}}\n", "\\renewcommand{\\ste}{\\, ;\\, }\n", "\\renewcommand{\\op}{\\operatorname} \n", "\\renewcommand{\\argmax}{\\op{argmax}}\n", "\\renewcommand{\\lfl}{\\lfloor}\n", "\\newcommand{\\ri}{\\right}\n", "$\n", "\n", "\n", "## Rappels de cours\n", "### Mélange de gaussiennes\n", "On rappelle qu'une mixture gaussienne a une densité de la forme \n", "$$x\\mapsto \\sum_{k=1}^K\\alpha_kf_{\\mu_k,\\sigma_k}(x)=\\sum_{k=1}^K\\alpha_k\\frac{1}{\\sqrt{2\\pi \\sigma_k^2}}\\mathrm{e}^{-\\frac{(x-\\mu_k)^2}{2\\sigma_k^2}}.$$\n", "\n", "On commence par définir une fonction qui permet d'évaluer la densité théorique d'un mélange de gaussiennes sur une grille x. " ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Calcul de la densité théorique d'un GMM sur une grille x \n", "def densite_theorique(K,mu,sigma,alpha,x):\n", " y=np.zeros(len(x))\n", " for j in range(K):\n", " y+=alpha[j]*sps.norm.pdf(x,loc=mu[j],scale=sigma[j])\n", " return y" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Simulation des données\n", "\n", "Pour simuler une mixture gaussienne, on commence par fixer $K\\geq 1$, et par choisir un paramètre $\\theta:=(\\alpha_k,\\mu_k,\\sigma_k)_{1\\le k\\le K}$, avec $\\mu_1, \\ldots, \\mu_K\\in \\R$, $\\sigma_1, \\ldots, \\sigma_K>0$ et $\\alpha_1, \\ldots, \\al_K>0$ tels que $\\al_1+\\cd+\\al_K=1$. On \n", "tire au hasard des données $(z_1,x_1), \\ld,(z_n,x_n\n", ")$, copies indépendantes du vecteur aléatoire $(Z,X)$ de loi $\\p_\\theta$ donnée par :\n", "- $Z\\in \\{1, \\ld, K\\}$ de loi $(\\al_1, \\ld, \\al_K)$,\n", "- pour tout $k\\in \\{1, \\ld, K\\}$, conditionellement à $Z=k$, $X\\sim \\cN(\\mu_k, \\si_k^2)$. \n", "\n", "Notons que le passage de $X$ à $Z$ se fait avec la formule de Bayes : pour tout $x\\in \\R$ et $k\\in \\{1, \\ld, K\\}$, \n", "$$\\label{eq:Oleron1}\\p_\\theta(Z=k | X=x)\\;=\\;\\f{\\al_kf_{\\mu_k,\\si_k}(x)}{\\sum_{l=1}^K\\al_lf_{\\mu_l,\\si_l}(x)}.$$ \n", "avec $$f_{\\mu,\\si}(x):=\\ff{\\sqrt{2\\pi}\\si}\\me^{-\\f{(x-\\mu)^2}{2\\si^2}}.$$\n", "\n", "Les algorithmes SEM, $N$-SEM, EM ont pour but d'estimer les paramètres $\\mu_1, \\ld, \\mu_K\\in \\R$, $\\si_1, \\ld, \\si_K>0$ et $\\al_1, \\ld, \\al_K>0$ ainsi que les valeurs des $z_i$ par la seule observation des $x_i$. \n", "\n", "1. Ecrire une fonction `echantillon(K,alpha,mu,sigma,n)` permettant de simuler $n$ réalisations indépendantes d'une telle loi. $K$ est le nombre de gaussiennes, *alpha* le vecteur des paramètres du mélange, *mu* les moyennes et *sigma* les écart-types (ce sont donc des listes de $K$ élements). La fonction doit renvoyer à la fois les Z_i et les X_i, par exemple sous forme de deux listes. Essayer de coder cette fonction SANS BOUCLE FOR.\n", "\n", "2. Tester cette fonction avec K=3, alpha=(.4,.3,.3), mu=(-4,4,0), sigma=(1,1,1) et n = 1000 et tracer sur le même graphe l'histogramme des réalisations ainsi obtenues et le mélange correspondant." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Simulation des Données \n", "K=3\n", "alpha_real=[.4,.3,.3]\n", "mu_real=[-4,4,0]\n", "sigma_real=[1,1,1]\n", "n=1000\n", "\n", "Z,X=echantillon(K,np.array(mu_real),np.array(sigma_real),alpha_real,n)\n", "\n", "plt.hist(X,bins=round(3*n**(.3)),density=1,histtype=\"step\",color = 'b') # remplacer density par normed si matplotlib <2.2\n", "\n", "x=np.linspace(-8,8,num=1000)\n", "y=densite_theorique(K,mu_real,sigma_real,alpha_real,x)\n", "plt.plot(x,y,\"r\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Estimation des paramètres dans le cas où l'on connaît les $z_i$\n", " L'estimateur du Maximum de Vraisemblance (EMV), étant données les observations $(z_i,x_i)_{1\\le i\\le n}$, fournit les estimations suivantes pour le paramètre $\\tta=(\\al_k,\\mu_k,\\si_k)_{1\\le k\\le K}$: pour tout $k=1,\\ld, K$, \n", " $$\\widehat{\\al}_k=\\f{|\\{i\\ste z_i=k\\}|}{n},$$ \n", " $$\\widehat{\\mu}_k=\\ff{n\\widehat{\\al}_k}\\sum_{i\\ste z_i=k} x_i,$$ \n", " $$\\widehat{\\si}^2_k=\\ff{n\\widehat{\\al}_k}\\sum_{i\\ste z_i=k} (x_i-\\widehat{\\mu}_k)^2.$$\n", " \n", " 3. Ecrire une fonction *estimation(K,Z,X)* qui calcule l'EMV dans le cas où l'on connait les $(z_i,x_i)_{1\\le i\\le n}$. Cette fonction doit retourner les trois listes de taille K (alpha,mu,sigma). Appliquer cette fonction aux réalisations de la question précédente et comparer les valeurs estimées avec les valeurs réelles du mélange." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Vrai alpha et alpha estimé :\n", "[0.4, 0.3, 0.3] [0.386, 0.282, 0.332]\n", "\n", "Vrai mu et mu estimé :\n", "[-4, 4, 0] [-3.981 3.997 0.042]\n", "\n", "Vrai sigma et sigma estimé :\n", "[1, 1, 1] [0.996 1.056 0.98 ]\n" ] } ], "source": [ "(alpha_estime,mu_estime,sigma_estime)=estimation(K,Z,X)\n", "\n", "print(\"\\nVrai alpha et alpha estimé :\")\n", "print(alpha_real,alpha_estime)\n", "\n", "print(\"\\nVrai mu et mu estimé :\")\n", "print(mu_real,np.around(mu_estime,decimals=3))\n", "\n", "print(\"\\nVrai sigma et sigma estimé :\")\n", "print(sigma_real,np.around(sigma_estime,decimals=3))\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "## Algorithmes\n", "\n", "Dans la suite de ce TP, on souhaite appliquer les algorithmes SEM, N-SEM et EM aux données $x_1, \\ld, x_n$ pour estimer $\\tta$. Estimer alors les $z_i$ : pour tout $i$, on choisit $$z_i:=\\argmax_k \\p_\\theta(Z=k | X=x_i).$$\n", "Comparer alors les valeurs de $\\tta$ ainsi que des $z_i$ à leurs vraies valeurs.\n", "\n", "### Algorithme SEM\n", "- initialisation arbitraire des classes $z_i\\in \\{1,\\ldots,K\\}$\n", "- répéter un grand nombre de fois:\n", " - a) calculer $\\widehat{\\theta}$\n", " - b) pour tout $i=1,\\ldots,n$, tirer la valeur de $z_i$ selon la loi $$\\mathbb{P}_{\\widehat\\theta}(Z_i=\\bullet | X_i=x_i)$$ \n", "\n", " 4. Ecrire une fonction `SEM(nbpas,K,x)` qui implémente l'algorithme précédent avec L étapes. Appliquer cette fonction aux réalisations de la question précédente et comparer les valeurs estimées avec les valeurs réelles du mélange." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "SEM :\n", "\n", "Vrai alpha et alpha estimé :\n", "[0.4, 0.3, 0.3] [1. 1. 1.]\n", "\n", "Vrai mu et mu estimé :\n", "[-4, 4, 0] [ 3.885 -3.938 0.059]\n", "\n", "Vrai sigma et sigma estimé :\n", "[1, 1, 1] [1.153 1.014 0.833]\n" ] } ], "source": [ "L=int(100)\n", "print(\"\\nSEM :\")\n", "alpha_est,mu_est,sigma_est =0,0,0\n", "(alpha_est,mu_est,sigma_est)=SEM(L,K,X)\n", "\n", "print(\"\\nVrai alpha et alpha estimé :\")\n", "print(alpha_real,alpha_est)\n", "\n", "print(\"\\nVrai mu et mu estimé :\")\n", "print(mu_real,np.around(mu_est,decimals=3))\n", "\n", "print(\"\\nVrai sigma et sigma estimé :\")\n", "print(sigma_real,np.around(sigma_est,decimals=3))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Algorithme SEM à $N$ tirages\n", "- dupliquer $N$ fois le jeu d'observations $(x_1, \\ld, x_n)$, qui devient donc $(x_{i}^{(j)})_{1\\le i\\le n,\\, 1\\le j\\le N}$\n", "- appliquer SEM à ce jeu de données étendu \n", "\n", "5. Ecrire une fonction `NSEM(N,L,K,x)` qui implémente l'algorithme précédent. Appliquer cette fonction aux réalisations de la question précédente et comparer les valeurs estimées avec les valeurs réelles du mélange." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "N-SEM :\n", "\n", "Vrai alpha et alpha estimé :\n", "[0.4, 0.3, 0.3] [1. 1. 1.]\n", "\n", "Vrai mu et mu estimé :\n", "[-4, 4, 0] [ 3.94 -3.947 0.066]\n", "\n", "Vrai sigma et sigma estimé :\n", "[1, 1, 1] [1.104 1.014 0.869]\n" ] } ], "source": [ "L=100\n", "N=10\n", "print(\"\\nN-SEM :\")\n", "(alpha_est,mu_est,sigma_est)=NSEM(N,L,K,X) \n", "\n", "print(\"\\nVrai alpha et alpha estimé :\")\n", "print(alpha_real,alpha_est)\n", "\n", "print(\"\\nVrai mu et mu estimé :\")\n", "print(mu_real,np.around(mu_est,decimals=3))\n", "\n", "print(\"\\nVrai sigma et sigma estimé :\")\n", "print(sigma_real,np.around(sigma_est,decimals=3))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Algorithme EM\n", "- initialisation arbitraire du paramètre $\\theta_0$, \n", "- étant donné le paramètre $\\theta_t$, répéter pour $t=0,1,2,\\dots$ et jusqu'à convergence\n", " - Calcul de la matrice \n", " $$\\left[\\p_{\\tta_{t}}(Z=k | X=x_i)\\right]_{1\\le i\\le n, \\, 1\\le k\\le K}=\\left[\\f{\\al_k^tf_{\\mu_k^t,\\si^t_k}(x_i)}{\\sum_{l=1}^K\\al_l^tf_{\\mu_l^t,\\si_l^t}(x_i)}\\right]_{1\\le i\\le n, \\, 1\\le k\\le K}$$ \n", " - Calcul de $\\tta_{t+1}$ : pour tout $k=1,\\ld,K$, \n", " $$\\al_k^{t+1}=\\ff n\\sum_{i=1}^n \\p_{\\tta_{t}}(Z=k | X=x_i),$$\n", " $$\\mu_k^{t+1}=\\ff{n\\al_k^{t+1}}\\sum_{i=1}^n \\p_{\\tta_{t}}(Z=k | X=x_i)x_i,$$\n", " $$(\\si_k^{t+1})^2=\\ff{n\\al_k^{t+1}}\\sum_{i=1}^n \\p_{\\tta_{t}}(Z=k | X=x_i)(x_i-\\mu_k^{t+1})^2.$$\n", " \n", "6. Ecrire une fonction `EM(L,K,x)` qui implémente l'algorithme précédent. Appliquer cette fonction aux réalisations de la question précédente et comparer les valeurs estimées avec les valeurs réelles du mélange." ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "EM :\n" ] } ], "source": [ "print(\"\\nEM :\")\n", "L=100 \n", "(alpha_est,mu_est,sigma_est)=EM(L,K,X) " ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Vrai alpha et alpha estimé :\n", "[0.4, 0.3, 0.3] [0.33462064 0.31353918 0.35184018]\n", "\n", "Vrai mu et mu estimé :\n", "[-4, 4, 0] [-4.09 2.332 0.687]\n", "\n", "Vrai sigma et sigma estimé :\n", "[1, 1, 1] [0.934 2.286 2.523]\n" ] } ], "source": [ "print(\"\\nVrai alpha et alpha estimé :\")\n", "print(alpha_real,alpha_est)\n", "\n", "print(\"\\nVrai mu et mu estimé :\")\n", "print(mu_real,np.around(mu_est,decimals=3))\n", "\n", "print(\"\\nVrai sigma et sigma estimé :\")\n", "print(sigma_real,np.around(sigma_est,decimals=3)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## EM en dimension supérieure" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On se place cette fois en dimension deux. Chaque gaussienne du mélange est déterminée par sa moyenne (un vecteur de $\\R^2$ et sa matrice de covariance (une matrice $2\\times 2$).\n", "\n", "7. Ecrire une nouvelle fonction `échantillon2d` permettant d'échantillonner $n$ fois le mélange de gaussiennes de dimension 2 ayant les caractéristiques suivantes : \n", "- K=3\n", "- alpha=(.5,.3,.2)\n", "- les 3 gaussiennes ont les moyennes $\\mu_1=(-5,-5)$, $\\mu_2 = (5,5)$, $\\mu_3=(0,0)$. On pourra rassembler ces moyennes dans une liste $mu=[[-5,-5],[5,5],[0,0]]$\n", "- les 3 gaussiennes ont la même covariance $$\\begin{pmatrix} 1 & 0.5 \\\\ 0.5 & 1\\end{pmatrix}.$$ \n", "\n", "8. Appliquer la fonction précédentes pour réaliser une liste $X$ constituée de $n$ observations du mélange (donc $X$ est une liste de vecteurs de dimension 2).\n", "\n", "9. Ecrire une nouvelle fonction `EM2d` permettant d'estimer les paramètres du mélange à partir des observations $X$ et comparer le résultat obtenu avec les paramètres réels du mélange." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "attention les classes estimées peuvent être dans un ordre différent des classes réelles !\n", "\n", "Vrai alpha : [0.5, 0.3, 0.2]\n", "\n", "Estimation de alpha : [0.23196642 0.2688371 0.49919648]\n", "\n", "Vrai mu : [[-5, -5], [5, 5], [0, 0]]\n", "\n", "Estimation de mu: [[-0.02430919 0.18438086]\n", " [ 4.9245234 4.91653035]\n", " [-5.09633677 -4.9550138 ]]\n", "\n", "Vraie covariance : [array([[1. , 0.5],\n", " [0.5, 1. ]]), array([[1. , 0.5],\n", " [0.5, 1. ]]), array([[1. , 0.5],\n", " [0.5, 1. ]])]\n", "\n", "Estimation de la covariance : [[[1.2292515 0.64568701]\n", " [0.64568701 1.28573749]]\n", "\n", " [[0.90058606 0.33126681]\n", " [0.33126681 0.82164365]]\n", "\n", " [[0.95682149 0.50140257]\n", " [0.50140257 1.13658659]]]\n" ] } ], "source": [ "d=2\n", "K=3\n", "alpha=[.5,.3,.2]\n", "mu=[[-5,-5],[5,5],[0,0]]\n", "covariance=[np.array([[1,.5],[.5,1]])]*K\n", "n=int(5e2)\n", "L=100\n", "\n", "# on échantillonne les données\n", "(z0,x0)=echantillon2d(K,alpha,mu,covariance,n) \n", "# on applique l'algorithme EM et on vérifie que les paramètres estimés sont proches des vrais paramètres\n", "(alpha_em,mu_em,covariance_em)=EM2d(3,L,x0)\n", "\n", "print(\"attention les classes estimées peuvent être dans un ordre différent des classes réelles !\")\n", "print(\"\\nVrai alpha :\",alpha)\n", "print(\"\\nEstimation de alpha :\", alpha_em) \n", "\n", "print(\"\\nVrai mu :\",mu) \n", "print(\"\\nEstimation de mu:\",mu_em)\n", "\n", "print(\"\\nVraie covariance :\",covariance)\n", "print(\"\\nEstimation de la covariance :\", covariance_em)\n" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.4" } }, "nbformat": 4, "nbformat_minor": 2 }