{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Когнитивные технологии\n", "\n", "*Алла Тамбовцева*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Генерирование выборок из различных распределений. Правдоподобие выборки." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Генерирование выборок из распространённых распределений" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Получить выборку заданного объёма из определённого распределения с некоторыми параметрами можно с помощью того же модуля `stats` из библиотеки `scipy`." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import scipy.stats as st" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для этого нужно создать случайную величину с заданным распределением, сохранить её в переменную и применить к ней метод для создания выборки. Для примера создадим выборку из биномиального распределения. " ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "X = st.binom(n=10, p=0.7) # случайная величина\n", "X.rvs(8) # выборка объёма 8" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Понятно, что таким образом можно создать выборку из любого дискретного или непрерывного распределения." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([0, 0, 4, 2, 0, 3, 1, 4, 2, 3])" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# из распределения Пуассона\n", "Y = st.poisson(2)\n", "Y.rvs(10)" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([ 3.28938486, 7.19821919, -1.48464074, -0.89904451, -0.24306394,\n", " 8.51202274, -1.65676397, 5.70952848, 7.7097788 , 0.33977637,\n", " -0.10745563, 4.93665913])" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# из нормального распределения с a=2, sigma=3\n", "st.norm(2, 3).rvs(12)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "На всякий случай, вспомним, что для обеспечения воспроизводимости, нужно зафиксировать стартовую точку псевдослучайного алгоритма, который генерирует выборку (*seed*):" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([ 3.41430549, -1.57292708, 6.29812091, 1.06204431, -0.1617662 ,\n", " 4.66148882, 4.57876524, 0.09042949, 2.04708912, -4.72805486,\n", " 5.45010717, 4.97583807])" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from scipy import random as rd\n", "\n", "rd.seed(1234)\n", "st.norm(2, 3).rvs(12)" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([ 3.41430549, -1.57292708, 6.29812091, 1.06204431, -0.1617662 ,\n", " 4.66148882, 4.57876524, 0.09042949, 2.04708912, -4.72805486,\n", " 5.45010717, 4.97583807])" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "rd.seed(1234)\n", "st.norm(2, 3).rvs(12) # выборка не меняется" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Генерирование выборок из произвольных распределений" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь рассмотрим более интересную задачу – сгенерируем произвольную дискретную случайную величину на основе массива значений и вероятностей, а затем возьмём из неё выборку. " ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "x = np.array([-1, 0, 5, 8])\n", "p = np.array([0.1, 0.4, 0.25, 0.25])\n", "\n", "W = st.rv_discrete(name='dist', values=(x, p)) # назовём распределение dist" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([ 8, 8, 0, -1, 0, 5, 8, 0, -1, 5, 8, 0, 0, 8, 5])" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "W.rvs(size=15) # выборка из 15 наблюдений" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Кстати, ранее это мы не обсуждали, но таким образом можно создать любую случайную величину и определить её характеристики:" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3.15" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "W.expect()" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(array(3.15), array(12.4275))" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "W.stats()" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.25" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "W.pmf(5) # P(W=5)" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.75" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "W.cdf(5) # P(W<=5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "А теперь сгенерируем непрерывную случайную величину аналогичным образом, только вместо массива вероятностей будет функция плотности вероятности. Пусть \n", "\n", "$$\n", "f(x) = \n", "\\begin{cases}\n", "0.5 x, x \\in [0, 2] \\\\\n", "0, x \\notin [0, 2]\n", "\\end{cases}.\n", "$$\n", "\n", "Создадим класс `my_cont_dist`, который будет описывать случайную величину с непрерывным распределением и задавать её функцию распределения:" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [], "source": [ "class my_cont_dist(st.rv_continuous):\n", " def _pdf(self, x):\n", " return 0.5 * x\n", "\n", "CV = my_cont_dist(a=0, b=2, name='cont_dist')" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.3333333333333335" ] }, "execution_count": 51, "metadata": {}, "output_type": "execute_result" } ], "source": [ "CV.expect() # математическое ожидание " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Построим график функции плотности на отрезке $x \\in [0, 2]$:" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [], "source": [ "x = np.linspace(0, 2)\n", "fx = CV.pdf(x)" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from matplotlib import pyplot as plt\n", "% matplotlib inline\n", "\n", "plt.plot(x, fx, 'g')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Правдоподобие выборок" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Правдоподобие выборки $x_1, x_2, \\ldots, x_n$, взятой из дискретного распределения, определяется так:\n", "\n", "$$\n", "L(x_1, x_2, \\ldots, x_n) = \\prod\\limits_{i=1}^{n}p_i\n", "$$\n", "\n", "Правдоподобие выборки $x_1, x_2, \\ldots, x_n$, взятой из непрерывного распределения, определяется так:\n", "\n", "$$\n", "L(x_1, x_2, \\ldots, x_n) = \\prod\\limits_{i=1}^{n}f(x_i), \\text{где $f$ – функция распределения.}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Когда Python генерирует псевдослучайные выборки из распределений, в результате получаются выборки с высоким правдоподобием. Убедимся в этом. Для начала напишем функцию, которая будет вычислять правдоподобие выборки из какого-нибудь распределения. Для примера возьмём биномиальное распределение." ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [], "source": [ "def binom_likelihood(n, p, sample):\n", " X = st.binom(n, p)\n", " L = 1\n", " for x in sample:\n", " P = X.pmf(x)\n", " L *= P\n", " return L" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Функция выше перемножает все вероятности значений в поданной на вход выборке и возвращает значение правдоподобия. Из-за того, что перемножаться всё время будут значения меньше $1$, результаты будут очень малы и сравнивать значения правдоподобия будет неудобно. Поэтому давайте поправим функцию так, чтобы она заодно возвращала натуральный логарифм правдоподобия." ] }, { "cell_type": "code", "execution_count": 83, "metadata": {}, "outputs": [], "source": [ "def binom_likelihood(n, p, sample):\n", " X = st.binom(n, p)\n", " L = 1\n", " for x in sample:\n", " P = X.pmf(x)\n", " L *= P\n", " return L, np.log(L)" ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(0.00024873671122804943, -8.299115605551385)" ] }, "execution_count": 84, "metadata": {}, "output_type": "execute_result" } ], "source": [ "sample1 = st.binom(10, 0.5).rvs(5)\n", "binom_likelihood(10, 0.5, sample1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Кажется, что значение правдоподобия очень мало. Но это относительно. Предложим выборку со значением, которое не может принадлежать случайной величине с биномиальным распределением с $n=10$, например, $12$:" ] }, { "cell_type": "code", "execution_count": 85, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py:7: RuntimeWarning: divide by zero encountered in log\n", " import sys\n" ] }, { "data": { "text/plain": [ "(0.0, -inf)" ] }, "execution_count": 85, "metadata": {}, "output_type": "execute_result" } ], "source": [ "binom_likelihood(10, 0.5, [3, 6, 12, 4, 0]) # L=0 - выборка неправдоподобна совсем" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Или выборки с нетипичными (маловероятными) значениями:" ] }, { "cell_type": "code", "execution_count": 86, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2.1582735598713085e-09, -19.953957212680532)" ] }, "execution_count": 86, "metadata": {}, "output_type": "execute_result" } ], "source": [ "binom_likelihood(10, 0.5, [3, 2, 10, 9, 8])" ] }, { "cell_type": "code", "execution_count": 88, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(3.996802888650572e-12, -26.24552635223885)" ] }, "execution_count": 88, "metadata": {}, "output_type": "execute_result" } ], "source": [ "binom_likelihood(10, 0.5, [0, 1, 10, 1, 2])" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" } }, "nbformat": 4, "nbformat_minor": 2 }