{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Библиотеки NumPy, Matpotlib, pandas" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В этой лекции мы вкратце познакомимся с тремя основными библиотеками для решения научных задач. Они не являются частью стандартной библиотеки, и в общем случае должны устанавливаться вручную. Однако поскольку мы использовали дистрибутив Anaconda для установки Python, нам не потребуется ничего делать дополнительно, так как он включает в себя все нужное." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Содержание лекции" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* [NumPy](#NumPy)\n", " * [Создание массива](#Создание-массива)\n", " * [Получение среза](#Получение-среза)\n", " * [Изменение формы](#Изменение-формы)\n", " * [Операции и универсальные функции](#Операции-и-универсальные-функции)\n", "* [Matplotlib](#Matplotlib)\n", " * [График](#График)\n", " * [Диаграмма разброса](#Диаграмма-разброса)\n", " * [Гистограмма](#Гистограмма)\n", "* [pandas](#pandas)\n", " * [Класс Series](#Класс-Series)\n", " * [Класс DataFrame](#Класс-DataFrame)\n", " * [Статистика](#Статистика)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## NumPy" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Библиотека [NumPy](https://docs.scipy.org/doc/numpy/reference/) предоставляет типы и функции для вычислений с многомерными **массивами**. Массивом (англ. *array*) в программировании называется контейнер, хранящий последовательно друг за другом множество элементов. Из тех контейнеров, с которыми мы познакомились с вами в одной из предыдущих лекций, он больше всего похож на [список](09_Collections.ipynb#Список). Основное же отличие заключается в том, что массив может хранить только значения фиксированного типа - того, который был указан при его создании. Благодаря этому ограничению можно эффективнее организовать хранение в памяти элементов массива, и добиться хорошей производительности операций, выполняющихся над всеми элементами." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Элементами многомерного массива являются другие массивы. Классический пример - матрица, представляющая собой массив строк, каждая из которых является массивом чисел." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Основным типом данных, предоставляемым библиотекой NumPy, является класс `ndarray`, который описывает многомерный массив. Перечислим наиболее важные атрибуты экземпляров этого класса:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. `ndim` - количество измерений или, как их принято называть, осей. Например, обычная матрица имеет две оси (строки и столбцы). Оси идентифицируются своим порядковым номером, причем как и для индексов последовательностей, нумерация начинается с нуля (у матрицы строки - это нулевая ось, а столбцы - первая).\n", "2. `shape` - форма массива. Это кортеж, который для каждой оси содержит число элементов в ней. Например, если у нас есть матрица размерности $N \\times M$, то `shape` будет равно `(N, M)`.\n", "3. `size` - общее количество элементов в многомерном массиве. По сути, представляет собой произведение всех элементов `shape`.\n", "4. `dtype` - объект, содержащий информацию о типе данных элементов массива." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В дальнейших примерах нам часто будет требоваться выводить информацию о массиве на экран, поэтому мы определим простую функцию для этого:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "\n", "def print_array(a):\n", " print('ndim={}, shape={}, size={}, dtype={}'.format(a.ndim, a.shape, a.size, a.dtype))\n", " print(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Создание массива" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Существует несколько способов создать массив. Один из них - использовать функцию `array`." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(3,), size=3, dtype=int32\n", "[1 2 3]\n" ] } ], "source": [ "# создаем одномерный массив\n", "a = np.array([1, 2, 3])\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 4), size=8, dtype=float64\n", "[[0.1 0.2 0.3 0.4]\n", " [0.5 0.6 0.7 0.8]]\n" ] } ], "source": [ "# создаем двумерный массив (матрицу)\n", "a = np.array([[0.1, 0.2, 0.3, 0.4],\n", " [0.5, 0.6, 0.7, 0.8]])\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если при создании массива не указывается тип его элементов, то функция `array` в качестве него выбирает такой, чтобы можно было хранить любой элемент из перечисленных в ее вызове:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(3,), size=3, dtype=int32\n", "[1 2 3]\n" ] } ], "source": [ "a = np.array([1, 2, 3])\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(3,), size=3, dtype=float64\n", "[1. 2. 3.1]\n" ] } ], "source": [ "a = np.array([1, 2, 3.1])\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(3,), size=3, dtype=complex128\n", "[1.+0.j 2.+0.j 3.+0.j]\n" ] } ], "source": [ "# явно указываем тип элементов\n", "a = np.array([1, 2, 3], dtype=complex)\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Библиотека NumPy для элементов массива использует собственные типы данных, которые можно использовать так же, как соответствующие встроенные. Особенность типов данных из NumPy в том, что для них четко определено количество бит, которое они занимают в памяти. Можно при создании массива указать и тип данных из библиотеки NumPy:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(3,), size=3, dtype=int16\n", "[1 2 3]\n" ] } ], "source": [ "# используем 16битовые целые числа для хранения элементов\n", "a = np.array([1, 2, 3], dtype=np.int16)\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Важно при этом понимать, какой диапазон значений можно хранить в том или ином типе (например, для int16 это $[-32768, 32767]$), потому что если впоследствии ваша программа присвоит элементу массива значение вне этого диапазона, оно будет сохранено неправильно!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Часто бывает так, что при создании массива известная его форма, но не значения элементов. В этом случае можно воспользоваться функциями `zeros`, `ones` или `empty`, которые заполняют созданный массив нулями, единицами или случайными значениями. В качестве первого аргумента все эти функции принимают кортеж, описывающий форму массива:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=3, shape=(2, 3, 4), size=24, dtype=float64\n", "[[[0. 0. 0. 0.]\n", " [0. 0. 0. 0.]\n", " [0. 0. 0. 0.]]\n", "\n", " [[0. 0. 0. 0.]\n", " [0. 0. 0. 0.]\n", " [0. 0. 0. 0.]]]\n" ] } ], "source": [ "# создаем массив с 3мя осями;\n", "# он представляет собой массив из двух массивов, каждый из\n", "# которых содержит 3 массива, каждый из которых содержит 4 элемента\n", "a = np.zeros((2, 3, 4))\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Обратите внимание, что по умолчанию для элементов массива используется тип `float64`. С помощью именованного параметра `dtype` функции `zeros` и других можно указать желаемый тип элементов." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Наконец, библиотека NumPy предоставляет функцию `arange` для генерации числовой последовательности, аналогичную встроенной функции `range`. Отличие заключается в том, что с помощью `arange` можно генерировать и последовательности чисел с плавающей точкой." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(10,), size=10, dtype=int32\n", "[0 1 2 3 4 5 6 7 8 9]\n" ] } ], "source": [ "# целые из интервала [0, 10) с шагом 1\n", "a = np.arange(10)\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(10,), size=10, dtype=float64\n", "[0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]\n" ] } ], "source": [ "# действительные из интервала [0.0, 1.0) c шагом 0.1\n", "a = np.arange(0, 1, 0.1)\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Заметим, что использовать функцию `arange` для получения действительных чисел, стоит осторожно, потому что размер полученного массива может отличаться от ожидаемого (это связано с неточным представлением [чисел с плавающей точкой](04_Data_Types.ipynb#Типы-с-плавающей-точкой)). Более безопасной с этой точки зрения является функция `linspace`, которая возвращает указанное количество равноудаленных друг от друга чисел из интервала:" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(10,), size=10, dtype=float64\n", "[0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]\n" ] } ], "source": [ "# 10 равноудаленных друг от друга чисел из интервала [0, 0.9]\n", "a = np.linspace(0, 0.9, 10)\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Получение среза" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В случае одномерных массивов, получение срезов выполняется так же, как и для обычных последовательностей (списков, кортежей и т.д.). У многомерных массивов индексироваться может каждая ось. Если при этом отсутствует индекс для некоторой оси, то возвращаются все ее элементы. Срез объекта типа `ndarray` также имеет тип `ndarray`." ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "5\n" ] } ], "source": [ "a_multi = np.array([[0, 1, 2],\n", " [3, 4, 5],\n", " [6, 7, 8],\n", " [9, 10, 11]])\n", "\n", "# выводи третий элемент второй строки (помните, что нумерация\n", "# индексов начинается с нуля!)\n", "print(a_multi[1, 2]) " ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "[[3 4 5]\n", " [6 7 8]]\n" ] } ], "source": [ "# получаем срез, состоящий из второй и третьей строки\n", "result = a_multi[1:3]\n", "print(type(result))\n", "print(result)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 9 11]\n", " [ 3 5]]\n" ] } ], "source": [ "# получаем срез, состоящий из первого и третьего элемента\n", "# второй и четвертой строки, взятых в обратном порядке\n", "print(a_multi[3:0:-2, 0:3:2])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Тип `ndarray` является итерируемым, поэтому его можно использовать в цикле `for ... in`. Итерация при этом происходит по первой оси (например, в случае матриц - по строкам):" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[0 1 2]\n", "[3 4 5]\n", "[6 7 8]\n", "[ 9 10 11]\n" ] } ], "source": [ "for row in a_multi:\n", " print(row)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для итерации по элементам нужно использовать атрибут `flat`:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0\n", "1\n", "2\n", "3\n", "4\n", "5\n", "6\n", "7\n", "8\n", "9\n", "10\n", "11\n" ] } ], "source": [ "for item in a_multi.flat:\n", " print(item)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Обратите внимание, что при итерации по элементам вначале изменяется последняя ось, потом предпоследняя и т.д. Например, для трехмерного массива $N_1 \\times N_2 \\times N_3$ элементы извлекались бы в такой последовательности:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n",
    "a[0][0][0], ..., a[0][0][N3], a[0][1][0], ..., a[0][N2][N3], a[1][0][0], ..., a[N1][N2][N3]\n",
    "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Поскольку `ndarray` относится к изменяемым типам данных, его элементы можно модифицировать:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[100 1 2]\n", " [ 0 0 0]\n", " [ 20 21 22]\n", " [ 9 10 11]]\n" ] } ], "source": [ "a_multi[0, 0] = 100 # присваиваем первому элементу 100\n", "a_multi[1] = 0 # присваиваем всем элементам второй строки 0\n", "a_multi[2] = np.arange(20, 23) # заменяем третью строку на строку [20, 21, 22]\n", "\n", "print(a_multi)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Изменение формы" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Класс `ndarray` предоставляет несколько методов и атрибутов, которые изменяют форму массива (количество и размер осей):" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "|
Название
| Описание |\n", "|----------------------------------|----------|\n", "|
reshape(shape, ...)
| Возвращает новый массив с теми же данными, но с формой shape |\n", "|
resize(shape, ...)
| Изменяет форму текущего массива на shape |\n", "|
ravel(...)
| Возвращает \"плоскую\" версию массива с одним измерением |" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "При заполнении нового массива, его первому элементу присваивается первый элемент старого, второму - второй и т.д. Причем порядок элементов соответствует тому, в котором они возвращались бы при итерации по всем элементам (по атрибуту `flat`)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Еще класс `ndarray` предоставляет метод `transpose` и атрибут `T`, которые позволяют получить транспонированную версию многомерного массива." ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "a1 = np.arange(10)\n", "a2 = a1.reshape((2, 5))\n", "a3 = a2.T\n", "a4 = a3.ravel()" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(10,), size=10, dtype=int32\n", "[0 1 2 3 4 5 6 7 8 9]\n" ] } ], "source": [ "print_array(a1)" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 5), size=10, dtype=int32\n", "[[0 1 2 3 4]\n", " [5 6 7 8 9]]\n" ] } ], "source": [ "print_array(a2)" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(5, 2), size=10, dtype=int32\n", "[[0 5]\n", " [1 6]\n", " [2 7]\n", " [3 8]\n", " [4 9]]\n" ] } ], "source": [ "print_array(a3)" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=1, shape=(10,), size=10, dtype=int32\n", "[0 5 1 6 2 7 3 8 4 9]\n" ] } ], "source": [ "print_array(a4)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для объединения нескольких многомерных массивов в один класс `ndarray` предоставляет следующие функции:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "|
Название
| Описание |\n", "|----------------------------------|----------|\n", "|
hstack(arrays_seq)
| Возвращает новый массив, каждая строка которого является конкатенацией строк массивов из последовательности arrays_seq |\n", "|
vstack(arrays_seq)
| Возвращает новый массив, каждый столбец которого является конкатенацией столбцов массивов из последовательности arrays_seq |" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "a1 = np.array([[1, 2, 3],\n", " [4, 5, 6],\n", " [7, 8, 9]])\n", "a2 = np.array([[11, 12],\n", " [13, 14],\n", " [15, 16]])\n", "a3 = np.array([[11, 12, 13],\n", " [14, 15, 16]])" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(3, 5), size=15, dtype=int32\n", "[[ 1 2 3 11 12]\n", " [ 4 5 6 13 14]\n", " [ 7 8 9 15 16]]\n" ] } ], "source": [ "print_array(np.hstack([a1, a2]))" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(5, 3), size=15, dtype=int32\n", "[[ 1 2 3]\n", " [ 4 5 6]\n", " [ 7 8 9]\n", " [11 12 13]\n", " [14 15 16]]\n" ] } ], "source": [ "print_array(np.vstack((a1, a3)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для разбиения многомерного массива на несколько меньших, используются функции `hsplit` и `vsplit`. Если им передается числовой аргумент, то он трактуется как количество массивов, на которое нужно разбить исходный, а если последовательность, то ее элементы трактуются как индексы, по которым нужно производить разбиение:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 9), size=18, dtype=int32\n", "[[ 0 1 2 3 4 5 6 7 8]\n", " [ 9 10 11 12 13 14 15 16 17]]\n" ] } ], "source": [ "a = np.arange(18)\n", "a.resize(2, 9)\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 3), size=6, dtype=int32\n", "[[ 0 1 2]\n", " [ 9 10 11]]\n", "ndim=2, shape=(2, 3), size=6, dtype=int32\n", "[[ 3 4 5]\n", " [12 13 14]]\n", "ndim=2, shape=(2, 3), size=6, dtype=int32\n", "[[ 6 7 8]\n", " [15 16 17]]\n" ] } ], "source": [ "arrays = np.hsplit(a, 3)\n", "\n", "for array in arrays:\n", " print_array(array)" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 2), size=4, dtype=int32\n", "[[ 0 9]\n", " [ 1 10]]\n", "ndim=2, shape=(3, 2), size=6, dtype=int32\n", "[[ 2 11]\n", " [ 3 12]\n", " [ 4 13]]\n", "ndim=2, shape=(3, 2), size=6, dtype=int32\n", "[[ 5 14]\n", " [ 6 15]\n", " [ 7 16]]\n", "ndim=2, shape=(1, 2), size=2, dtype=int32\n", "[[ 8 17]]\n" ] } ], "source": [ "arrays = np.vsplit(a.T, [2, 5, 8])\n", "\n", "for array in arrays:\n", " print_array(array)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Операции и универсальные функции" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Обычные операции в Python перегружены для массива и при выполнении действуют на все его элементы:" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(3, 4), size=12, dtype=int32\n", "[[ 0 1 2 3]\n", " [ 4 5 6 7]\n", " [ 8 9 10 11]]\n" ] } ], "source": [ "a = np.arange(12).reshape((3, 4))\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 1 2 3 4]\n", " [ 5 6 7 8]\n", " [ 9 10 11 12]]\n" ] } ], "source": [ "a += 1\n", "print(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если в качестве операндов используются два массива одинаковой размерности, то операция выполняется для всех пар элементов на соответствующих позициях, например:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 2), size=4, dtype=int32\n", "[[7 6]\n", " [5 4]]\n", "ndim=2, shape=(2, 2), size=4, dtype=int32\n", "[[0 1]\n", " [2 3]]\n" ] } ], "source": [ "a1 = np.arange(7, 3, -1).reshape(2, 2)\n", "a2 = np.arange(4).reshape(2, 2)\n", "\n", "print_array(a1)\n", "print_array(a2)" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[ 0 6]\n", " [10 12]]\n", "[[ 1 6]\n", " [25 64]]\n" ] } ], "source": [ "print(a1 * a2)\n", "print(a1 ** a2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если вместо поэлементного умножения вы хотите матричное, то нужно воспользоваться функцией `dot`:" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(2, 3), size=6, dtype=int32\n", "[[0 1 2]\n", " [3 4 5]]\n", "ndim=2, shape=(3, 2), size=6, dtype=int32\n", "[[0 1]\n", " [2 3]\n", " [4 5]]\n", "ndim=2, shape=(2, 2), size=4, dtype=int32\n", "[[10 13]\n", " [28 40]]\n" ] } ], "source": [ "a1 = np.arange(6).reshape(2, 3)\n", "a2 = np.arange(6).reshape(3, 2)\n", "\n", "print_array(a1)\n", "print_array(a2)\n", "print_array(np.dot(a1, a2))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Методы `sum`, `max` и `min`, определенные для встроенных коллекций Python, также определены и для класса `ndarray`. По умолчанию они работают со всеми элементами массива, но можно также указать конкретную ось, вдоль которой производить вычисления." ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(3, 2), size=6, dtype=int32\n", "[[0 1]\n", " [2 3]\n", " [4 5]]\n" ] } ], "source": [ "a = np.arange(6).reshape(3, 2)\n", "print_array(a)" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "max=5, min=0\n", "[1 5 9]\n" ] } ], "source": [ "print('max={}, min={}'.format(a.max(), a.min()))\n", "\n", "# вычисляем по столбцам (axis=1), следовательно в результате\n", "# получим сумму элементов для каждой строки\n", "print(a.sum(axis=1)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В модуле `numpy.random` содержатся функции для генерации случайных массивов произвольной размерности. Например, функция `random` из этого модуля создает массив указанной формы и заполняет его случайными числами, равномерно распределенными в интервале $[0, 1)$:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ndim=2, shape=(3, 3), size=9, dtype=float64\n", "[[0.77627538 0.82548991 0.27186471]\n", " [0.85898985 0.95649778 0.16657402]\n", " [0.16242193 0.62604804 0.69467224]]\n" ] } ], "source": [ "a = np.random.random((3, 3))\n", "print_array(a)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В NumPy реализованы те же математические функции, что встречаются в стандартной библиотеке Python, однако они дополнительно умеют работать с массивами. В терминологии библиотеки NumPy эти функции назваются **универсальными**." ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[1. 2. 3.]\n", " [4. 5. 6.]]\n" ] } ], "source": [ "a = np.array([[1, 4, 9],\n", " [16, 25, 36]])\n", "print(np.sqrt(a))" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.8660254037844386\n", "[0. 0.5 0.70710678 0.8660254 1. ]\n" ] } ], "source": [ "a = np.array([0, 30, 45, 60, 90], dtype=float) # градусы\n", "a *= np.pi / 180 # преобразуем в радианы\n", "\n", "# вычисляем синус для обычного числа и для массива\n", "print(np.sin(a[3]))\n", "print(np.sin(a))" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[0.72009011 0.50335114 0.09270624 0.58830524 0.96991841 0.52659037\n", " 0.0770578 0.28066821 0.67652392 0.83184407]\n", "mean: 0.5267055502037943\n", "variance: 0.08048031288469937\n" ] } ], "source": [ "a = np.random.random(10)\n", "print(a)\n", "\n", "print('mean:',np.mean(a)) # вычисляем математическое ожидание\n", "print('variance:', np.var(a)) # вычисляем дисперсию" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Matplotlib" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Библиотека [Matplotlib](https://matplotlib.org/) используется для создания различных 2D и 3D графиков и диаграмм, среди которых:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* обычные графики (англ. *line plot*)\n", "* диаграммы разброса/рассеивания (англ. *scatter plot*), характеризующие корреляцию между различными факторами\n", "* гистограммы (англ. *histogram*)\n", "* столбчатые диаграммы (англ. *bar chart*)\n", "* круговые диаграммы (англ. *pie chart*)\n", "* и другие" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Функции и типы Matplotlib умеют работать с массивами NumPy, и более того, практически никогда не используются без них. В библиотеке Matplotlib релиазовано два интерфейса - один процедурный, другой объектно-ориентированный. Мы будем использовать процедурный, который реализован в модуле `matplotlib.pyplot`. Давайте импортируем модули, которые мы будем использовать в примерах в этом разделе." ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### График" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Обычный график создается с помощью функции `plot`. Основными ее параметрами являются две последовательности: в первой содержатся абсциссы точек, а во второй их ординаты. Функция `plot` строит график таким образом, чтобы он проходил через эти точки. Это означает, что чем сложнее форма графика, тем больше точек нужно передать в `plot`. Например, для построения прямой достаточно двух точек, но этого явно мало, чтобы правильно нарисовать параболу." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Кроме координат точек, функция `plot` имеет множество других параметров для настройки того, как график будет выглядеть. В наших примерах мы познакомим вас с некоторыми из них, а полную информацию можно получить в [справочном руководстве](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Давайте начнем с простого примера и создадим график прямой линии $2x + 1$:" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[]" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXcAAAD8CAYAAACMwORRAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMS4yLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvNQv5yAAAIABJREFUeJzt3Xd4VHXa//H3Te+9lxCqdBUCCLqKZVdERBF31bWXZXV166MUsSA21G3uWniw7MIWdSUBEXvBLmhwJQmhhd5bIKElpNy/P2Z8fjEGmMBMZjL5vK4rV2bO+c7Mh5OTm5MzZ+6vuTsiIhJfqkU7gIiIhJ+Ku4hIHFJxFxGJQyruIiJxSMVdRCQOqbiLiMQhFXcRkTik4i4iEodU3EVE4lCNaL1wixYtPDExMVovLyJSKS1evHiXu7c81rioFffExERSU1Oj9fIiIpWSma0PZZxOy4iIxCEVdxGROKTiLiISh1TcRUTikIq7iEgcCqm4m9k6M0s3s2/M7HuXuFjAX8wsy8zSzGxA+KOKiEioynMp5NnuvusI6y4Auge/hgDPBL+LiEgUhOu0zMXALA9YCDQxs7Zhem4RkbhQUFTM0x9msWTj3oi/VqjF3YF3zGyxmY0rY317YGOJ+5uCy77DzMaZWaqZpe7cubP8aUVEKqmMzTlc8tRnPPbWCt7M2Bbx1wv1tMzp7r7FzFoB75rZcnf/uMR6K+Mx35t5291nADMAkpKSNDO3iMS9vIIi/vrBKqZ/tIam9WrxzFUDuKBf5E9shFTc3X1L8PsOM5sDDAZKFvdNQMcS9zsAW8IVUkSkMkpdl8345DTW7DzAjwd24O4Le9O4Xs0Kee1jFnczqw9Uc/d9wds/AqaWGjYPuN3MXiLwRmqOu28Ne1oRkUpgf34hj7+1nFkL19OucV1m3TiYM3scs9dXWIVy5N4amGNm347/t7u/ZWa3ALj7dOANYCSQBRwEbohMXBGR2PbRyp3clZLOlpxDXDc0kTvPP4n6tSu+R+MxX9Hd1wAnl7F8eonbDtwW3mgiIpXH3oOHeWD+MpK/3kTXlvV55edDSUpsFrU8UWv5KyISL95M38o9ry5lz8HD3H52N24/pxt1alaPaiYVdxGR47QjN497X13KW0u30bd9I2beOIg+7RpHOxag4i4iUm7uziuLN/Hg/EzyCouZMKInP/tBZ2pUj512XSruIiLlsDH7IHfNSeeTVbsYnNiMaWP70aVlg2jH+h4VdxGREBQVO7O+WMfjb6/AgAcu7sNVQzpRrVpZn+GMPhV3EZFjyNqxjwnJ6Sxev4ezerTk4Uv70b5J3WjHOioVdxGRIygoKuZ/P1rNX97Pol7t6vzp8pO55JT2BD/3E9NU3EVEypC+KYfxyWks25rLhf3bcv/oPrRoUDvasUKm4i4iUkJeQRF/fm8Vz36yhub1a/G/1wzk/D5toh2r3FTcRUSCFq3ZzcSUdNbuOsDlSR2568JeNK5bMY2+wk3FXUSqvH15BTz21gr+sXA9HZvV5V83D+H0bi2iHeuEqLiLSJW2YMUOJqekszU3jxtP78wd5/egXq3KXxor/79AROQ47DlwmAfmZ5Ly3810b9WA5FuHMSChabRjhY2Ku4hUKe7O6+lbue/VpeQcKuBX53bntrO7UrtGdBt9hZuKu4hUGdtz87h7bgbvZm6nf4fG/PPmIfRq2yjasSIi5OJuZtWBVGCzu48qte564HFgc3DRk+7+XLhCioicCHfnP6kbefD1ZRwuLOaukT258fTYavQVbuU5cv81sAw40n9zL7v77SceSUQkfDbsPsjElDQ+X72bIZ2b8ejY/iS2qB/tWBEXUnE3sw7AhcBDwO8imkhEJAyKip2/f76O37+9gurVjIfG9OXKQQkx2+gr3EI9cv8zMB5oeJQxY83sTGAl8Ft333ii4UREjsfK7fsYPzuNbzbu5ZyerXhoTF/aNo7tRl/hdszibmajgB3uvtjMhh9h2GvAi+6eH5w4eyZwThnPNQ4YB5CQkHDcoUVEynK4sJhnPlzNkwtW0bBOTZ644hRGn9yuUjT6CjcLzG19lAFmjwDXAIVAHQLn3FPc/eojjK8OZLv7UeeaSkpK8tTU1OMKLSJS2pKNe5mQnMbybfsYfXI77ruoN80rUaOvUJnZYndPOta4Yx65u/skYFLwSYcDd5Qu7GbW1t23Bu+OJvDGq4hIxB06XMSf3lvJc5+soVXDOjx3bRLn9W4d7VhRd9zXuZvZVCDV3ecBvzKz0QSO7rOB68MTT0TkyL5YvZtJKWms232QKwcnMGlkTxrVqZyNvsLtmKdlIkWnZUTkeOXmFTDtzeX8e9EGOjWvxyOX9mNY18rd6CtUYTstIyISS95ftp3JczLYsS+PcWd24bfn9aBurfhqHRAOKu4iUins3p/P/a9lMm/JFk5q3ZDp1wzklI5Noh0rZqm4i0hMc3fmLdnC/a9lsi+vgN+e14Nbh3elVo34bR0QDiruIhKztuYc4u45Gby/fAcnd2zCY2P7c1Kbo32WUr6l4i4iMae42Hnpq4088sYyCoqLufvCXtxwemeqV5HWAeGg4i4iMWXdrgNMTElj4ZpshnVtziOX9qNT8/hv9BVuKu4iEhMKi4p54bO1/OGdldSqXo1pl/bj8kEdq2TrgHBQcReRqFu+LZcJs9NYsimH83q15sFL+tKmcZ1ox6rUVNxFJGryC4t4asFqnl6QReO6Nfnrlacyqn9bHa2HgYq7iETFfzfsYUJyGiu372fMqe25Z1RvmtWvFe1YcUPFXUQq1MHDhfzhnZW88Nla2jSqwwvXJ3FOTzX6CjcVdxGpMJ9n7WJiSjobsg9y9WkJTBjRk4Zq9BURKu4iEnE5hwp45I1lvPTVRjq3qM/L405jSJfm0Y4V11TcRSSi3lm6jbvnZrBrfz4/PyvQ6KtOTTX6ijQVdxGJiF3785kybynz07bSs01Dnrsuif4d1Oiroqi4i0hYuTtzv9nM/a9lcjC/iP/5YQ9uGd6VmtXV6KsihVzcg3OjpgKb3X1UqXW1gVnAQGA3cLm7rwtjThGpBLbsPcTkOeksWLGTUxMCjb66t1ajr2goz5H7rwnMjdqojHU3AXvcvZuZXQE8ClwehnwiUgkUFzv/+nID095YRrHDfRf15tqhiWr0FUUhFXcz6wBcCDwE/K6MIRcDU4K3ZwNPmpl5tObwE5EKs2bnfiYmp/PlumzO6NaCRy7tR8dm9aIdq8oL9cj9z8B44Eh/X7UHNgK4e6GZ5QDNgV0nnFBEYlJhUTHPfbqWP727kto1qvHYZf358cAOah0QI45Z3M1sFLDD3Reb2fAjDStj2feO2s1sHDAOICEhoRwxRSSWZG7JZXzyEjI253J+n9Y8cHFfWjVSo69YEsqR++nAaDMbCdQBGpnZP9396hJjNgEdgU1mVgNoDGSXfiJ3nwHMAEhKStIpG5FKJr+wiCc/yOKZD1fTpF5Nnr5qABf0baOj9Rh0zOLu7pOASQDBI/c7ShV2gHnAdcAXwGXABzrfLhJfFq/PZkJyOlk79jN2QAfuvrAXTdXoK2Yd93XuZjYVSHX3ecDzwD/MLIvAEfsVYconIlF2IL+Qx99ewcwv1tGucV1m3jiYs3q0jHYsOYZyFXd3/xD4MHj73hLL84AfhzOYiETfJ6t2MiklnU17DnHd0E7cOaInDWrrs4+VgX5KIvI9OQcLePD1TF5ZvIkuLevzyi1DGZTYLNqxpBxU3EXkO97K2MY9r2aQfeAwvxjelV+d212NviohFXcRAWDHvjymzFvKG+nb6N22EX+7fhB92zeOdiw5TiruIlWcu5P89WYemJ/JoYIi7jz/JMad2UWNvio5FXeRKmzTnoPcNSeDj1fuJKlTU6aN7U+3Vg2iHUvCQMVdpAoqLnb+sXA9j761HID7R/fhmtM6UU2NvuKGirtIFbN6534mzE4jdf0ezuzRkofH9KVDUzX6ijcq7iJVREFRMTM+XsMT76+ibs3q/P7HJzN2QHu1DohTKu4iVUDG5hzGz04jc2suI/u1YcroPrRqqEZf8UzFXSSO5RUU8cT7q5jx8Rqa1a/F9KsHMKJv22jHkgqg4i4Sp75al82E2Wms2XWAHw/swN0X9qZxvZrRjiUVRMVdJM7szy/ksbeWM+uL9XRoWpd/3DSYH3RXo6+qRsVdJI58tHInd6WksyXnENcPS+TO80+ivhp9VUn6qYvEgb0HDzN1fiYpX2+ma8v6zL5lKAM7qdFXVabiLlKJuTtvZmzj3lcz2HuwgNvP7sbt53RToy9RcReprHbk5nHPqxm8vXQ7fds3YuaNg+nTTo2+JCCUCbLrAB8DtYPjZ7v7faXGXA88DmwOLnrS3Z8Lb1QRgcDR+iuLN/Hg/EzyC4uZeEFPbj6jMzXU6EtKCOXIPR84x933m1lN4FMze9PdF5Ya97K73x7+iCLyrY3ZB5mUks6nWbsYnNiMaWP70aWlGn3J94UyQbYD+4N3awa/NPm1SAUqKnZmfbGOx95aQTWDBy7py1WDE9ToS44opHPuZlYdWAx0A55y90VlDBtrZmcCK4HfuvvGMp5nHDAOICEh4bhDi1Qlq7bvY0JyGl9v2Mvwk1ry0Jh+tG9SN9qxJMZZ4MA8xMFmTYA5wC/dPaPE8ubAfnfPN7NbgJ+4+zlHe66kpCRPTU09ztgi8a+gqJjpH67mrx9kUb92de69qDeXnKJGX1WdmS1296RjjSvX1TLuvtfMPgRGABkllu8uMexZ4NHyPK+IfFf6phzunL2E5dv2Map/W6aM7kOLBrWjHUsqkVCulmkJFAQLe13gPEoVbzNr6+5bg3dHA8vCnlSkCsgrKOJP763k2Y/X0KJBbWZcM5Af9WkT7VhSCYVy5N4WmBk8714N+I+7zzezqUCqu88DfmVmo4FCIBu4PlKBReLVojW7mZiSztpdB7hiUEcmjexF47pq9CXHp1zn3MNJ59xFAvblFfDoW8v558INdGxWl2mX9uf0bi2iHUtiVETOuYtIeC1YvoO75qSzLTePm87ozP/8qAf1aunXUk6c9iKRKMg+cJipry1l7jdb6N6qAcm3DmNAQtNox5I4ouIuUoHcnflpW5kybyk5hwr49bnd+cXZXaldQ42+JLxU3EUqyPbcPCbPyeC9Zdvp36Ex//rZEHq2aRTtWBKnVNxFIszdefmrjTz0xjIOFxYzeWQvbjg9UY2+JKJU3EUiaP3uA0xKSefz1bsZ0rkZj47tT2KL+tGOJVWAirtIBBQVO3/7bC2/f2cFNapV4+Ex/bhiUEc1+pIKo+IuEmYrtu1jfHIaSzbu5dyerXhwTF/aNlajL6lYKu4iYXK4sJinP8ziqQVZNKxTkyeuOIXRJ7dToy+JChV3kTBYsnEv42ensWL7Pi4+pR33jupNczX6kihScRc5AYcOF/HHd1fw/KdradWwDs9dm8R5vVtHO5aIirvI8fp89S4mpaSzfvdBfjokgYkX9KRRHTX6ktig4i5STrl5BTzyxnJe/HIDnZrX498/G8Kwrmr0JbFFxV2kHN7L3M7kuens3JfPuDO78NvzelC3lloHSOxRcRcJwe79+dz/WibzlmyhZ5uGzLgmiZM7Nol2LJEjCmUmpjrAx0Dt4PjZ7n5fqTG1gVnAQGA3cLm7rwt7WpEK5u7MW7KFKfOWsj+/kN+e14Nbh3elVg21DpDYFsqRez5wjrvvN7OawKdm9qa7Lywx5iZgj7t3M7MrCEzDd3kE8opUmK05h7h7TgbvL9/BKR2b8Nhl/enRumG0Y4mE5JjF3QNTNe0P3q0Z/Co9fdPFwJTg7dnAk2ZmHq1pnkROQHGx8+JXG3jkjeUUFhdz94W9uOH0zlRX6wCpREI65x6cP3Ux0A14yt0XlRrSHtgI4O6FZpYDNAd2hTGrSMSt3XWAiclpLFqbzbCuzZl2aX8SmteLdiyRcgupuLt7EXCKmTUB5phZX3fPKDGkrEOa7x21m9k4YBxAQkLCccQViYzComJe+Gwtf3hnJbVqVOPRsf34SVJHtQ6QSqtcV8u4+14z+xAYAZQs7puAjsAmM6sBNAayy3j8DGAGBCbIPs7MImG1bGsuE5LTSNuUww97t+bBS/rSulGdaMcSOSGhXC3TEigIFva6wHkE3jAtaR5wHfAFcBnwgc63S6zLLyziqQWreXpBFo3r1uTJn57Khf3a6mhd4kIoR+5tgZnB8+7VgP+4+3wzmwqkuvs84HngH2aWReCI/YqIJRYJg6837GHC7DRW7djPmFPbc++o3jStXyvasUTCJpSrZdKAU8tYfm+J23nAj8MbTST8Dh4u5Pdvr+Rvn6+lTaM6/O36QZzds1W0Y4mEnT6hKlXGZ1m7mJiSxsbsQ1xzWifGjziJhmr0JXFKxV3iXs6hAh5+fRkvp26kc4v6vDzuNIZ0aR7tWCIRpeIuce2dpdu4e24Guw8c5pazuvKb87pTp6YafUn8U3GXuLRzXz5TXlvK62lb6dW2Ec9fN4h+HRpHO5ZIhVFxl7ji7sz572amzs/kYH4Rd/yoBz8/qys1q6vRl1QtKu4SNzbvPcTkOel8uGInAxICjb66tVKjL6maVNyl0isudv61aD3T3lxOscN9F/Xm2qGJavQlVZqKu1Rqa3buZ2JyOl+uy+YH3Vvw8Jh+dGymRl8iKu5SKRUWFfPsJ2v503srqVOjGo9f1p/LBnZQ6wCRIBV3qXSWbslhQnIaGZtzOb9Pax64uC+t1OhL5DtU3KXSyCso4q8frGL6R2toWq8Wz1w1gAv6tY12LJGYpOIulcLi9dmMn53G6p0HGDugA/eM6kWTemr0JXIkKu4S0w7kF/L42yuY+cU62jWuy8wbB3NWj5bRjiUS81TcJWZ9vHInk1LS2ZJziGtP68SdI3rSoLZ2WZFQ6DdFYk7OwQIeeD2T2Ys30aVlff7z86EMSmwW7VgilYqKu8SUtzK2cs+rS8k+cJhfDO/Kr85Voy+R4xHKNHsdgVlAG6AYmOHuT5QaMxx4FVgbXJTi7lPDG1Xi2Y59edz36lLezNhG77aN+Nv1g+jbXo2+RI5XKEfuhcD/uPvXZtYQWGxm77p7Zqlxn7j7qPBHlHjm7sxevIkHX1/GoYIixo84iZ/9oIsafYmcoFCm2dsKbA3e3mdmy4D2QOniLlIuG7MPctecdD5ZtYtBiU2ZNrY/XVs2iHYskbhQrnPuZpZIYD7VRWWsHmpmS4AtwB3uvvSE00lcKi52Zn2xjsfeXoEBUy/uw9VDOlFNjb5Ewibk4m5mDYBk4Dfunltq9ddAJ3ffb2YjgblA9zKeYxwwDiAhIeG4Q0vllbVjPxOT00hdv4cze7Tk4TF96dBUjb5Ews3c/diDzGoC84G33f2PIYxfByS5+64jjUlKSvLU1NRyRJXKrKComBkfr+GJ91ZRt1Z17h3Vm0sHtFejL5FyMrPF7p50rHGhXC1jwPPAsiMVdjNrA2x3dzezwUA1YHc5M0ucyticw/jZaWRuzWVkvzbcP7ovLRvWjnYskbgWymmZ04FrgHQz+ya47C4gAcDdpwOXAbeaWSFwCLjCQ/mTQOJaXkERT7y/ihkfr6FZ/VpMv3ogI/q2iXYskSohlKtlPgWO+rezuz8JPBmuUFL5fbUumwmz01iz6wA/SerA5JG9aVyvZrRjiVQZ+oSqhNX+/EIee2s5s75YT4emdfnnTUM4o3uLaMcSqXJU3CVsFqzYweSUdLbm5nHD6Ync8aOTqK9GXyJRod88OWF7DhzmgfmZpPx3M91aNWD2LcMY2KlptGOJVGkq7nLc3J030rdx37wM9h4s4JfndOP2c7pRu4YafYlEm4q7HJcduXncPTeDdzK30699Y2bdOITe7RpFO5aIBKm4S7m4O6+kbuKB1zM5XFjMpAt6ctMZnamhRl8iMUXFXUK2Mfsgk1LS+TRrF4M7N2Papf3ookZfIjFJxV2OqajYmfn5Oh5/ewXVqxkPXtKXnw5OUKMvkRim4i5HtWr7PsYnp/HfDXsZflJLHh7Tj3ZN6kY7logcg4q7lOlwYTHTP1rNkx9kUb92df58+SlcfEo7NfoSqSRU3OV70jbtZfzsNJZv28dFJ7fjvot606KBGn2JVCYq7vJ/8gqK+NO7K3n2kzW0bFibZ69N4oe9W0c7logcBxV3AWDhmt1MTE5j3e6DXDm4IxMv6EXjumr0JVJZqbhXcfvyCpj25nL+tWgDCc3q8e+bhzCsmxp9iVR2Ku5V2AfLtzN5Tgbbc/O4+YzO/O5HPahXS7uESDzQb3IVlH3gMFNfW8rcb7bQo3UDnr5qGKcmqNGXSDwJZZq9jsAsoA1QDMxw9ydKjTHgCWAkcBC43t2/Dn9cORHuzmtpW5kybyn78gr49bndue3sbtSqodYBIvEmlCP3QuB/3P1rM2sILDazd909s8SYC4Duwa8hwDPB7xIjtuUEGn29t2w7J3dozKOXDaFnGzX6EolXoUyztxXYGry9z8yWAe2BksX9YmBWcN7UhWbWxMzaBh8rUeTuvPTVRh5+fRkFxcVMHtmLG8/oTHW1DhCJa+U6525micCpwKJSq9oDG0vc3xRc9p3ibmbjgHEACQkJ5Usq5bZ+9wEmJqfzxZrdnNalGdMu7U9ii/rRjiUiFSDk4m5mDYBk4Dfunlt6dRkP8e8tcJ8BzABISkr63noJj6Ji52+freX376ygZrVqPDymH1cM6qhGXyJVSEjF3cxqEijs/3L3lDKGbAI6lrjfAdhy4vGkvFZsCzT6WrJxL+f2bMWDY/rStrEafYlUNaFcLWPA88Ayd//jEYbNA243s5cIvJGao/PtFetwYTFPf5jFUwuyaFinJn+58lQu6t9Wjb5EqqhQjtxPB64B0s3sm+Cyu4AEAHefDrxB4DLILAKXQt4Q/qhyJN9s3MuE2Wms2L6Pi09px30X9aFZ/VrRjiUiURTK1TKfUvY59ZJjHLgtXKEkNIcOF/GHd1bwwmdradWwDs9fl8S5vdToS0T0CdVK6/PVu5iYnM6G7IP8dEgCEy/oSaM6avQlIgEq7pVMbl4Bj7yxjBe/3Ein5vV48WenMbRr82jHEpEYo+JeibyXuZ3Jc9PZuS+fn5/Zhd+c14O6tapHO5aIxCAV90pg9/58pryWyWtLttCzTUOevTaJ/h2aRDuWiMQwFfcY5u68+s0W7n9tKfvzC/ndD3twy1ld1ehLRI5JxT1Gbdl7iLvnZvDB8h2c0rEJj13Wnx6tG0Y7lohUEiruMaa42Pn3lxuY9uZyioqde0b15vphiWr0JSLlouIeQ9buOsDE5DQWrc3m9G7NeWRMfxKa14t2LBGphFTcY0BhUTHPf7qWP767klo1qvHY2P78OKmDWgeIyHFTcY+yzC25TEhOI31zDj/s3ZoHL+lL60Z1oh1LRCo5FfcoyS8s4skPsnjmw9U0qVeTp346gJH92uhoXUTCQsU9Chav38OE5DSyduzn0lPbc8+o3jRVoy8RCSMV9wp08HAhj7+9gr9/vo62jerwtxsGcfZJraIdS0TikIp7Bfl01S4mpqSxac8hrjmtE+NHnERDNfoSkQhRcY+wnEMFPPR6Jv9J3UTnFvX5z8+HMrhzs2jHEpE4p+IeQW8v3cY9czPYfeAwtw7vyq/P7U6dmmr0JSKRF8o0ey8Ao4Ad7t63jPXDgVeBtcFFKe4+NZwhK5ud+/KZMm8pr6dvpVfbRjx/3SD6dWgc7VgiUoWEcuT+d+BJYNZRxnzi7qPCkqgSc3dSvt7M1PmZHDpcxJ3nn8S4M7tQs7oafYlIxQplmr2PzSwx8lEqt817D3FXSjofrdzJgIRAo69urdToS0SiI1zn3Iea2RJgC3CHuy8ta5CZjQPGASQkJITppaOruNj556L1PPrmchyYclFvrhmqRl8iEl3hKO5fA53cfb+ZjQTmAt3LGujuM4AZAElJSR6G146q1Tv3MzE5ja/W7eEH3Vvw8Jh+dGymRl8iEn0nXNzdPbfE7TfM7Gkza+Huu070uWNVQVExz36yhj+/t4o6Narx+GX9uWygGn2JSOw44eJuZm2A7e7uZjYYqAbsPuFkMSpjcw4TktNYuiWXEX3aMPWSPrRqqEZfIhJbQrkU8kVgONDCzDYB9wE1Adx9OnAZcKuZFQKHgCvcvdKfciktr6CIv36wiukfraFpvVo8c9UALujXNtqxRETKFMrVMlceY/2TBC6VjFup67IZn5zGmp0HGDugA/eM6kWTemr0JSKxS59QPYoD+YFGXzO/WEe7xnWZeeNgzurRMtqxRESOScX9CD5auZO7UtLZknOI64Ymcuf5J1G/tjaXiFQOqlal7D14mAfmLyP56010aVmfV34+lKRENfoSkcpFxb2EN9O3cs+rS9lz8DC3nd2VX56jRl8iUjmpuAM7cvO499WlvLV0G33aNWLmjYPo006NvkSk8qrSxd3dmb14Ew/MzySvsJgJI3py8w86q9GXiFR6Vba4b8w+yF1z0vlk1S4GJTZl2tj+dG3ZINqxRETCosoV96Ji5x9frOOxt1dgwAMX9+GqIZ2opkZfIhJHqlRxz9qxjwnJ6Sxev4ezerTkoTF96dBUjb5EJP5UieJeUFTM/360mr+8n0W92tX5409OZsyp7dXoS0TiVtwX94zNOdw5O41lW3O5sF9bpozuQ8uGtaMdS0QkouK2uOcVFPHn91bx7CdraFa/FtOvHsiIvm2iHUtEpELEZXH/cm02E5PTWLPrAJcndeSukb1oXK9mtGOJiFSYuCru+/IKeOytFfxj4Xo6NK3LP28awhndW0Q7lohIhYub4r5gxQ4mp6SzNTePG0/vzB3n96Berbj554mIlEsok3W8AIwCdrh73zLWG/AEMBI4CFzv7l+HO+iR7DlwmAfmZ5Ly3810a9WA2bcMY2CnphX18iIiMSmUQ9u/E5iMY9YR1l9AYELs7sAQ4Jng94hyd15P38p9ry4l51ABvzqnG7ed043aNdToS0QklJmYPjazxKMMuRiYFZxab6GZNTGztu6+NUwZv2d7bh73zM3gnczt9GvfmH/ePIRebRtF6uVERCqdcJyUbg9sLHF/U3BZRIr7guU7+NVL/+VwYTGTLujJTWczzZQ1AAAGW0lEQVR0poYafYmIfEc4intZH/Msc4JsMxsHjANISEg4rhfr3KI+AxKaMmV0Hzq3qH9czyEiEu/Ccci7CehY4n4HYEtZA919hrsnuXtSy5bHNxdpYov6zLxxsAq7iMhRhKO4zwOutYDTgJxInm8XEZFjC+VSyBeB4UALM9sE3AfUBHD36cAbBC6DzCJwKeQNkQorIiKhCeVqmSuPsd6B28KWSERETpguMxERiUMq7iIicUjFXUQkDqm4i4jEIRV3EZE4ZIGLXaLwwmY7gfXH+fAWwK4wxgmXWM0FsZtNucpHuconHnN1cvdjfgo0asX9RJhZqrsnRTtHabGaC2I3m3KVj3KVT1XOpdMyIiJxSMVdRCQOVdbiPiPaAY4gVnNB7GZTrvJRrvKpsrkq5Tl3ERE5usp65C4iIkcRc8XdzEaY2QozyzKziWWsr21mLwfXLyo5BaCZTQouX2Fm51dwrt+ZWaaZpZnZ+2bWqcS6IjP7Jvg1r4JzXW9mO0u8/s0l1l1nZquCX9dVcK4/lci00sz2llgXye31gpntMLOMI6w3M/tLMHeamQ0osS6S2+tYua4K5kkzs8/N7OQS69aZWXpwe6VWcK7hZpZT4ud1b4l1R90HIpzrzhKZMoL7VLPguohsLzPraGYLzGyZmS01s1+XMabi9i93j5kvoDqwGugC1AKWAL1LjfkFMD14+wrg5eDt3sHxtYHOweepXoG5zgbqBW/f+m2u4P39Udxe1wNPlvHYZsCa4PemwdtNKypXqfG/BF6I9PYKPveZwAAg4wjrRwJvEphh7DRgUaS3V4i5hn37egQmpV9UYt06oEWUttdwYP6J7gPhzlVq7EXAB5HeXkBbYEDwdkNgZRm/jxW2f8XakftgIMvd17j7YeAlAhNwl3QxMDN4ezZwrplZcPlL7p7v7msJ9JcfXFG53H2Bux8M3l1IYEaqSAtlex3J+cC77p7t7nuAd4ERUcp1JfBimF77qNz9YyD7KEP+b8J3d18INDGztkR2ex0zl7t/HnxdqLj9K5TtdSQnsm+GO1eF7F/uvtXdvw7e3gcsIzCfdEkVtn/FWnE/0mTbZY5x90IgB2ge4mMjmaukmwj87/ytOmaWamYLzeySMGUqT66xwT8BZ5vZt1MixsT2Cp6+6gx8UGJxpLZXKI6UPZLbq7xK718OvGNmiy0wT3FFG2pmS8zsTTPrE1wWE9vLzOoRKJLJJRZHfHtZ4HTxqcCiUqsqbP8KxwTZ4RTKZNtHGhPyRN3HoTyTgF8NJAFnlVic4O5bzKwL8IGZpbv76grK9Rrworvnm9ktBP7qOSfEx0Yy17euAGa7e1GJZZHaXqGIxv4VMjM7m0BxP6PE4tOD26sV8K6ZLQ8e2VaErwl8HH6/mY0E5gLdiZHtReCUzGfuXvIoP6Lby8waEPjP5Dfunlt6dRkPicj+FWtH7qFMtv1/Y8ysBtCYwJ9nIU/UHaFcmNl5wGRgtLvnf7vc3bcEv68BPiTwP3qF5HL33SWyPAsMDPWxkcxVwhWU+pM5gtsrFEfKHsntFRIz6w88B1zs7ru/XV5ie+0A5hC+05HH5O657r4/ePsNoKaZtSAGtlfQ0favsG8vM6tJoLD/y91TyhhScftXuN9UOME3JGoQeCOhM///TZg+pcbcxnffUP1P8HYfvvuG6hrC94ZqKLlOJfAGUvdSy5sCtYO3WwCrCNMbSyHmalvi9hhgof//N3DWBvM1Dd5uVlG5guNOIvDmllXE9irxGokc+Q3CC/nuG15fRnp7hZgrgcD7SMNKLa8PNCxx+3NgRAXmavPtz49AkdwQ3HYh7QORyhVc/+2BX/2K2F7Bf/cs4M9HGVNh+1fYNnQYf2AjCbzLvBqYHFw2lcDRMEAd4JXgjv4l0KXEYycHH7cCuKCCc70HbAe+CX7NCy4fBqQHd+504KYKzvUIsDT4+guAniUee2NwO2YBN1RkruD9KcC0Uo+L9PZ6EdgKFBA4WroJuAW4JbjegKeCudOBpAraXsfK9Rywp8T+lRpc3iW4rZYEf86TKzjX7SX2r4WU+M+nrH2gonIFx1xP4CKLko+L2PYicKrMgbQSP6eR0dq/9AlVEZE4FGvn3EVEJAxU3EVE4pCKu4hIHFJxFxGJQyruIiJxSMVdRCQOqbiLiMQhFXcRkTj0/wAFCWDP5lNW/AAAAABJRU5ErkJggg==\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# двух точек достаточно для того, чтобы построить прямую\n", "\n", "x = [0, 2] # ординаты\n", "y = [1, 5] # абсциссы\n", "\n", "plt.plot(x, y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Заметим, что сама функция `plot` не рисует график, а просто инициализирует нужную информацию для этого. В среде Jupyter Notebook по умолчанию используется режим, при котором вывод графика на экран происходит автоматически при выполнении ячейки, но вообще говоря, за это отвечает отдельная функция `show`. Если вы при работе с Matplotlib столкнетесь с ситуацией, когда график не отображается, в первую очередь стоит попробовать вызвать эту функцию." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Давайте немного иначе настроим наш график, чтобы продемонстрировать некоторые возможности Matplotlib:" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXwAAAEKCAYAAAARnO4WAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMS4yLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvNQv5yAAAGgxJREFUeJzt3Xe0VdW1x/HvpKiEbkAsoGhsWAmgokgARSVqxAIqiNIU7M+SGIkO43Pw9BlDYo1dLBCkKJZAQFQCooBwUQHFggQUQUTpRS5lvT/mue9iRDjA3Xedc/bvM0aGd+17PHfiCD8W88y9toUQEBGRwlchdgEiIlI+FPgiIimhwBcRSQkFvohISijwRURSQoEvIpISCnwRkZRQ4IuIpIQCX0QkJSrFLmBzderUCQ0bNoxdhohI3igqKvo2hFA3m9fmVOA3bNiQqVOnxi5DRCRvmNm8bF+rlo6ISEoo8EVEUkKBLyKSEgp8EZGUUOCLiKSEAl9EJCUU+CIiKaHAFxFJCQW+iEhKKPBFRFJCgS8ikhIKfBGRlFDgi4ikhAJfRCQlFPgiIimhwBcRSYlEH4BiZnOBlcBGYEMIoVmSP09ERH5aeTzxqk0I4dty+DkiIrIVaumISOEKAfr3h+XLY1eSE5IO/AC8ZmZFZtYr4Z8lIlJq9Wro0gV69ICuXWHTptgVRZd0S6dFCGGBme0BjDGzj0MI4zd/QeYPgl4A++67b8LliEgqfPYZnHsuzJzp66IiWLAA6tePW1dkie7wQwgLMv/8BhgOHLuF1zwWQmgWQmhWt27dJMsRkTR46SVo1qw07E8+GaZNS33YQ4KBb2ZVzax6ydfAqcDMpH6eiKTchg3Qpw+ccw6sWOHX+vSB0aNBm0kg2ZZOPWC4mZX8nL+HEEYl+PNEJK2++QY6dYI33/R1jRrw7LPQvn3cunJMYoEfQpgDHJ3U+4uIADB5MnToAPPn+/rII+GFF+Cgg+LWlYM0liki+SkEePhhaNmyNOwvuggmTlTY/wQFvojknzVroFs3uPJKWL8eKleGBx+E556DqlVjV5ezyuNOWxGRsvP55z5yOX26r/feG4YNg+OPj1tXHtAOX0Tyx6uvQtOmpWHfurWPXCrss6LAF5Hct3Ej3HornHVW6TEJN90EY8ZAvXpxa8sjaumISG779lvo3NnDHaB6dXj6aW/ryHZR4ItI7poyxUcuv/jC14cdBi++CIccEreuPKWWjojknhDg8cfhxBNLw/6CC3zmXmG/wxT4IpJb1q6Fnj2hVy8oLoZKleDee2HQIKhWLXZ1eU0tHRHJHf/+N5x3Hrz3nq/33BOGDvWdvuw07fBFJDeMHOkjlyVh37Klj1wq7MuMAl9E4tq0CW6/Hc48E5Yu9Ws33ABvvAF77RW1tEKjlo6IxLNkiZ9/MypzkG7VqvDUU3D++XHrKlAKfBGJY9o079fPnevrQw/1kctGjaKWVcjU0hGR8vfUU3DCCaVh36EDvPuuwj5hCnwRKT/ff+/jlj17wrp1ULEi9OsHQ4b4HbSSKLV0RKR8zJvnLZyiIl/XqweDB0OrVnHrShHt8EUkea+9Bk2alIb9CSd4D19hX64U+CKSnE2boG9faNfOJ3IArr0Wxo71c+ylXKmlIyLJWLoULrkE/vEPX//sZ/DEE/6wcYlCgS8iZe+DD/z44jlzfH3wwf5g8SOOiFtXyqmlIyJl69lnoXnz0rA/5xw/5lhhH50CX0TKxrp1/lDxrl19/LJCBbj7bt/Z16gRuzpBLR0RKQtffll68xRA3brw/PNw0klx65If0A5fRHbOG2/4yGVJ2Ddv7iOXCvuco8AXkR2zaRPcdReceqo/dxbgqqtg3DioXz9ubbJFaumIyPZbvtx79S+/7OsqVeCxx6BLl7h1yVYp8EVk+8yY4SOXs2f7+he/8FMujzoqbl2yTWrpiEj2Bg6E444rDfuzzoKpUxX2eUKBLyLbVlwM11zjLZu1a33k8s47YfhwqFUrdnWSJbV0RGTrvvoKOnaEiRN9/fOfw6BBcMopceuS7abAF5GfNnYsXHghfPONr485BoYNg333jVuX7BC1dETkx0KAe+6Btm1Lw753b3jrLYV9HtMOX0R+aMUK6N7dJ28AdtsNHn4YunWLWpbsPAW+iJT68EMfufz0U1/vv78Hf+PGceuSMqGWjoi4wYN95LIk7E8/3Z9QpbAvGAp8kbRbvx6uv94/nF29Gszgjjvg1Vehdu3Y1UkZUktHJM0WLoTzz4cJE3y9++5+c1W7dnHrkkQo8EXSavx4D/tFi3zdpImfXd+wYdSyJDlq6YikTQjw17/68cUlYd+zJ7z9tsK+wGmHL5ImK1fCpZfCkCG+3nVXePBBvyYFT4EvkhYff+wjl7Nm+Xq//byF07Rp3Lqk3KilI5IGw4b5sQglYX/aaT5yqbBPFQW+SCHbsAF++1s//GzVKr92220wYoQfgiapopaOSKH6+mufrR83zte1asGAAXDGGXHrkmgU+CKF6O23fVe/cKGvGzf2fv0BB8StS6JSS0ekkIQA998PrVuXhn3XrvDOOwp70Q5fpGCsXg2XXeYPJwHYZRcP/169/LgEST0Fvkgh+PRTH7n88ENfN2jgLZxjjolbl+QUtXRE8t3w4dCsWWnYt20L06Yp7OVHFPgi+WrDBrj5Zt/Zr1zp1265BUaNgjp14tYmOUktHZF89M03PnI5dqyva9aEZ5+Fs86KW5fkNAW+SL6ZNAk6dICvvvL1kUf6U6kOPDBuXZLz1NIRyRchwN/+Br/6VWnYd+nifwAo7CUL2uGL5IM1a6B3b79TFqByZT/i+MorNXIpWVPgi+S62bPhvPNg+nRf77OPH4bWvHncuiTvqKUjksteecVHLkvCvk0bH7lU2MsOUOCL5KKNG+HWW6F9e1i+3K/9/vfw2muwxx5xa5O8pZaOSK759lvo3BnGjPF19erwzDNwzjlx65K8p8AXySXvvusjl19+6evDD/eRy4MPjluXFAS1dERyQQjw6KPQsmVp2Hfq5COXCnspIwp8kdjWroUePeDyy6G4GCpVgvvug4EDoVq12NVJAVFLRySmOXN85PL99329114wdCi0aBG3LilIWe/wzWw/M2ub+bqKmVVPriyRFBg50h8iXhL2v/qVj1wq7CUhWQW+mV0GDAMezVyqD7yUVFEiBW3jRvjjH/3ZssuW+bUbb4TXX4c994xbmxS0bFs6VwHHApMBQgifmZmGgUW213ff+fk3o0b5ulo16N/fJ3NEEpZt4K8LIRRb5swOM6sEhMSqEilERUXer583z9eNGvlTqRo1iluXpEa2PfxxZvYHoIqZnQIMBV5NriyRAvPkk96bLwn7jh1h8mSFvZSrbAP/ZmAxMAPoDYwMIdySWFUiheL77/3B4pdeCuvWQcWK0K8fDB7sd9CKlKNsWzrXhBDuAx4vuWBm/5W5JiJbMneu9+aLinxdrx4MGeLTOCIRZLvD77qFa93KsA6RwjJ6tI9cloR9ixY+cqmwl4i2usM3s05AZ2B/M3tls29VB75LsjCRvLRpE/zP//jYZcjMNVx3HfzpT/7QEpGIttXSeQdYCNQB+m12fSUwPamiRPLS0qVw8cUwYoSvq1aFJ57wh42L5ICtBn4IYR4wDzi+fMoRyVPvv+8jl3Pm+Prgg/2Uy8MPj1uXyGayvdO2uZlNMbNVZlZsZhvNbEXSxYnkhWeegeOPLw37c8+FKVMU9pJzsv3Q9kGgE/AZUAW4FHggqaJE8sK6dX7CZbduPn5ZoYL36ocNgxo1Ylcn8iNZn5YZQphtZhVDCBuB/mb2ToJ1ieS2L77wkcspU3xdt67P1rdpE7cuka3INvDXmNkuwPtm9if8g9yqyZUlksNef90/iP0uM6jWvLkfaVy/fty6RLYh25bOxZnXXg2sBhoA5yVVlEhO2rQJ7rwTTjutNOyvvhrGjVPYS17IaoefmdYB+B747+TKEclRy5ZB167wSuZ2lCpV4PHH4aKL4tYlsh2yCnwzawHcDuy3+b8TQjggmbJEcsj06T558/nnvj7wQD/l8qij4tYlsp2y7eE/CVwPFAEbkytHJMcMGAC9evlzZwHat4enn4ZataKWJbIjsg385SGEfyZaiUguKS6GG26Ahx7ydYUK0Lcv/P73/rVIHso28Mea2T3Ai8C6koshhGmJVCUS0/z5fl79pEm+rlMHBg2Ctm3j1iWyk7IN/OMy/2y22bUAnFS25YhENnYsXHABLF7s62OP9RupGjSIW5dIGch2Skd3k0hhCwHuuQf69PHxS/C7aO+9F3bdNW5tImVkW8cjdwkhDDCzG7b0/RDCX5IpS6QcrVgB3bv7YWcAu+0GjzziY5giBWRbO/ySu2n1LDYpTB9+6COXn37q6wMO8JHLxo3j1iWSgG0dj/xo5p+62UoKz/PPQ8+esGaNr884A557DmrXjluXSEK21dK5f2vfDyFcW7bliJSD9evhd7+D+zKPZDaDO+6AP/xBI5dS0LbV0sk8kJMWwGHA4My642bfE8kfCxbA+efD22/7evfd4e9/9/NxRArctlo6zwCYWTegTQhhfWb9CPBa4tWJlKXx4z3sFy3yddOmPnLZsGHUskTKS7Z/f92bH35wWy1zTST3hQD9+sFJJ5WG/WWXwYQJCntJlWxvvPpf4D0zG5tZt8IPUxPJbStXQo8evpMHn6n/29/8mkjKbDPwzcyA14F/UnrH7c0hhK+TLExkp82a5SOXH3/s64YNfeSySZOoZYnEss3ADyEEM3sphNAUeLkcahLZeUOH+i5+1Spft2sHAwf6h7QiKZVtD3+SmR2TaCUiZWH9erjxRv9wdtUqH7n84x9hxAiFvaRetj38NsDlZjYXf8Sh4Zt/PQFCcsfXX/vBZ+PH+7pWLd/Vn3563LpEckS2gf9roDbQMrMeDyxLpCKRHTFhgu/qFy70dePG3q8/QA9lEymRbUvnbOA5oA5QN/P1WUkVJZK1EPyO2TZtSsO+Wzd45x2Fvch/yHaH3xNoHkJYDWBmdwMTgQeSKkxkm1at8nn655/39S67wAMP+DWzuLWJ5KBsA9/44bNsN2auicTxySc+cvnRR75u0MBbOMdotkDkp2Qb+P2ByWY2PLM+G3+wuUj5e/FFb9usXOnrU07x83Dq1Ilalkiuy6qHn3nQSXdgCbAU6B5CuDfJwkR+ZMMGf4j4eeeVhv0tt8A//6mwF8lCtjv8kgeW66HlEseiRdCpkz9zFqBmTT+7/je/iVuXSB7JOvBFopk4ETp2hK++8vVRR3m//sAD49Ylkmf0tAfJXSHAQw9Bq1alYX/xxf4HgMJeZLtphy+5afVquPxyGDDA15Ur+7z95Zdr5FJkBynwJffMnu0jlzNm+Lp+fT8MrXnzuHWJ5Dm1dCS3vPIKNGtWGvYnnQRFRQp7kTKgwJfcsHGjj1i2bw/Ll/u1m2+G0aNhjz3i1iZSINTSkfgWL4bOneH1131dowY88wycfXbcukQKjAJf4nr3XejQAb780tdHHOEjlwcfHLcukQKklo7EEQI88gi0bFka9p07w6RJCnuRhCjwpfytXQvdu8MVV0BxMVSqBPff7yOYVavGrk6kYKmlI+Vrzhw/C+f99329994+cnnCCXHrEkkB7fCl/IwYAU2bloZ9q1YwbZrCXqScKPAleRs3wm23wZlnwrLMkzF/+1ufyqlXL25tIimilo4k67vv4KKLfJ4eoFo16N/fJ3NEpFwp8CU5U6d6sM+b5+tGjfzhJYceGrcukZRSS0eS8cQT0KJFadiff77P3CvsRaJR4EvZWrsWevb0B4kXF0PFivCXv/iDxqtVi12dSKqppSNlZ+5cH7mclnkw2p57wpAhfnOViESnHb6UjVGjfOSyJOxPPNG/VtiL5AwFvuycTZvgjjvg9NNhyRK/dv318OabsNdecWsTkR9QS0d23JIl/sjBkSN9XbUqPPkkXHBB3LpEZIsU+LJj3nvP+/X//revDznERy4POyxuXSLyk9TSke3Xv78fh1AS9uee6yOXCnuRnKbAl+ytWwe9e0OPHvD991ChAtxzDwwb5g8tEZGcppaOZOeLL/yu2SlTfL3HHjB4MLRuHbUsEcmedviybWPGQJMmpWF//PE+cqmwF8krCnz5aZs2wZ13wmmn+SFoANdcA//6F+yzT9TSRGT7qaUjW7ZsGVxyCbz6qq9/9jN4/HF/DKGI5CUFvvzY9Ok+efP5574+8EAfuTzyyLh1ichOUUtHfui556B589Kwb9/ejzlW2IvkPQW+uOJiuOoqb+OsXesjl3fd5Tv7mjVjVyciZUAtHYH5833kcvJkX9ep48cZn3xy3LpEpExph592b77pI5clYX/ccT5yqbAXKTgK/LQKAe6+G045BRYv9mtXXgnjxkGDBnFrE5FEqKWTRsuXQ/fuMHy4r6tUgUcf9ZMvRaRgKfDTZuZMH7n87DNfH3CAfzB79NFx6xKRxKmlkyaDBnmPviTszzzTRy4V9iKpoMBPg+JiuPZav0t2zRowg7594eWXoXbt2NWJSDlRS6fQLVgAHTvCO+/4evfdfad/6qlx6xKRcqfAL2TjxvnjBhct8nWzZn52/X77xa1LRKJQS6cQhQD9+vksfUnY9+oFb72lsBdJMe3wC83Klf5EqmHDfL3rrvDwwz6GKSKppsAvJLNm+cjlxx/7umFDeOEFv5NWRFJPLZ1CMWQIHHNMadj/+tdQVKSwF5H/p8DPd+vXww03+Iezq1f7yOXtt8M//uETOSIiGWrp5LOFCz3o33rL17Vrw8CBvrsXEfkPCvx8NWGCz9d//bWvf/lL79fvv3/cukQkZ6mlk29CgPvugzZtSsO+Rw94+22FvYhslXb4+WTVKrj0Uhg82Ne77AIPPeTXRES2QYGfLz75xEcuP/rI1/vu6y2cZs3i1iUieUMtnXzwwgs+clkS9qee6iOXCnsR2Q4K/Fy2YQPcdJM/b3blSr92660wcqQ/d1ZEZDuopZOrFi2CCy+Ef/3L1zVrwoABfoa9iMgOUODnookTfVe/YIGvjz7a2zq/+EXcukQkr6mlk0tCgAcfhFatSsP+kkv8LHuFvYjsJO3wc8Xq1dC7t98pC1C5Mtx/v18zi1ubiBQEBX4u+OwzH7mcOdPX9ev78cbHHRe3LhEpKGrpxPbyyz5eWRL2J58M06Yp7EWkzCnwY9mwAfr0gbPPhhUr/FqfPjB6NNStG7c2ESlIaunEsHgxdOoEb7zh6xo14NlnoX37uHWJSEFLbIdvZk+Z2TdmNjOpn5GXJk/2h5KUhP0RR8DUqQp7EUlcki2dp4F2Cb5/fgkBHnkEWraE+fP9WufOMGkSHHRQ3NpEJBUSC/wQwnhgSVLvn1fWrIFu3eCKK/wJVZUqwQMP+J2zVavGrk5EUkI9/KTNn+/HIXzwga/33huGDoUTTohbl4ikTvQpHTPrZWZTzWzq4sWLY5dT9mrXho0b/evWrX3kUmEvIhFED/wQwmMhhGYhhGZ1C3EcsWpVePFFuOUWGDMG6tWLXZGIpJRaOuXhoIOgb9/YVYhIyiU5ljkImAgcYmbzzaxnUj9LRES2LbEdfgihU1LvLSIi2y96D19ERMqHAl9EJCUU+CIiKaHAFxFJCQW+iEhKKPBFRFJCgS8ikhIKfBGRlFDgi4ikhAJfRCQlFPgiIimhwBcRSQkFvohISijwRURSQoEvIpISCnwRkZRQ4IuIpISFEGLX8P/MbDEwL3YdCakDfBu7CJGUKuTff/uFEOpm88KcCvxCZmZTQwjNYtchkkb6/efU0hERSQkFvohISijwy89jsQsQSTH9/kM9fBGR1NAOX0QkJRT45cDM2pnZJ2Y228xujl2PSBqYWQMzG2tms8zsQzP7r9g1xaaWTsLMrCLwKXAKMB+YAnQKIXwUtTCRAmdmewF7hRCmmVl1oAg4O82/97TDT96xwOwQwpwQQjHwPNA+ck0iBS+EsDCEMC3z9UpgFrBP3KriUuAnbx/gy83W80n5/+lEypuZNQR+CUyOW0lcCvzk2RauqY8mUk7MrBrwAnBdCGFF7HpiUuAnbz7QYLN1fWBBpFpEUsXMKuNhPzCE8GLsemJT4CdvCnCQme1vZrsAFwKvRK5JpOCZmQFPArNCCH+JXU8uUOAnLISwAbgaGI1/aDQkhPBh3KpEUqEFcDFwkpm9n/nf6bGLikljmSIiKaEdvohISijwRURSQoEvIpISCnwRkZRQ4IuIpIQCX1LDzFaVwXuMNLNaZVGPSHnTWKakhpmtCiFUi12HSCza4UtBMrOXzKwocw56r82u9zOzaWb2hpnVzVy71sw+MrPpZvZ85lo1M+tvZjMy18/LXJ9rZnXMrKqZjTCzD8xsppldkPn+/272Xn/OXPuNmU02s/fM7HUzq1f+/0VEtMOXAmVmu4cQlphZFfx4i1bAt0CXEMJAM7sN2COEcLWZLQD2DyGsM7NaIYRlZnY3sGsI4brM+9UOISw1s7lAs8z7tQshXJb5fk2gIjARODSEEDZ7r9rAssy1S4FGIYQby/e/iIh2+FK4rjWzD4BJ+OF1BwGbgMGZ7w8ATsx8PR0YaGZdgA2Za22Bh0reLISw9D/efwbQ1szuNrOWIYTlwArge+AJMzsXWJN5bX1gtJnNAH4HHF52v0yR7CnwpeCYWWs8sI8PIRwNvAfstoWXlvz19gw83JsCRWZWCT/W+if/+htC+DTz+hnAXWZ2W+bcpGPx0xnPBkZlXv4A8GAI4Uig90/UIpI4Bb4UoprA0hDCGjM7FGieuV4B6JD5ujMwwcwqAA1CCGOBm4BaQDXgNfzQO8BbOpv/ADPbG1gTQhgA/Blokjl3vWYIYSRwHdB4s3q+ynzdtUx/pSLboVLsAkQSMAq43MymA5/gbR2A1cDhZlYELAcuwPvuAzI9eAP+mum79wUeMrOZwEbgv4HNz1M/ErjHzDYB64ErgOrAy2a2W+a9rs+89nZgqJl9lall/2R+2SJbpw9tRURSQi0dEZGUUOCLiKSEAl9EJCUU+CIiKaHAFxFJCQW+iEhKKPBFRFJCgS8ikhL/B47019AK5ho0AAAAAElFTkSuQmCC\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "x = np.array([0, 2])\n", "y = np.array([1, 5])\n", "\n", "# задаем дополнительно цвет линии и толщину\n", "plt.plot(x, y, color='red', linewidth=2.5)\n", "\n", "# установим границы осей X и Y так, чтобы график не\n", "# выглядел \"зажатым\" осями координат\n", "plt.xlim(x.min() - 0.5, x.max() + 0.5)\n", "plt.ylim(y.min() - 0.5, y.max() + 0.5)\n", "\n", "# определим, какие точки будут отмечены на осях\n", "x_ticks = np.linspace(x.min(), x.max(), 2)\n", "y_ticks = np.linspace(y.min(), y.max(), 2)\n", "plt.xticks(x_ticks)\n", "plt.yticks(y_ticks)\n", "\n", "# определим, как будут подписаны координатные оси\n", "plt.xlabel('abscissa')\n", "plt.ylabel('ordinate')\n", "\n", "# рисуем график\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можно в одной системе координат отобразить сразу несколько графиков. Давайте попробуем вывести графики синуса и косинуса." ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "x = np.linspace(-np.pi, np.pi, 200)\n", "cos_x = np.cos(x)\n", "sin_x = np.sin(x)\n", "\n", "# добавляем два графика, устанавливаем для них цвет, тип линии\n", "# и название\n", "plt.plot(x, cos_x, color='red', linestyle='dashed', label='cosine')\n", "plt.plot(x, sin_x, color='green', linestyle='dotted', label='sine')\n", "\n", "# добавляем легеду (информацию о том, какая линия что означает)\n", "plt.legend()\n", "\n", "# определяем, какие точки будут отмечены на осях\n", "# можно в качестве значения указывать LaTeX-формулу (используем\n", "# это для того, чтобы вместо, например, 3.1415.. было написано pi)\n", "x_ticks = np.array([-np.pi, -np.pi/2, 0, np.pi/2, np.pi])\n", "x_ticks_name = [r'$-\\pi$', r'$-\\pi/2$', r'$0$', r'$\\pi/2$', r'$\\pi$']\n", "y_ticks = np.array([-1, -0.5, 0, 0.5, 1])\n", "y_ticks_name = [r'$-1$', r'$-0.5$', r'$0$', r'$0.5$', r'$1$']\n", "\n", "plt.xticks(x_ticks, x_ticks_name)\n", "plt.yticks(y_ticks, y_ticks_name)\n", "\n", "# рисуем график\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь давайте попробуем настроить координатные оси таким образом, чтобы центр графика находился в точке $(0, 0)$, как мы привыкли со школы. Для этого нам потребуется метод `gca`, возвращающий объект, который можно использовать для управления внешним видом координатных осей. На рисунке сверху есть четыре оси, образующих прямоугольник, внутри которого находятся графики. Нам нужно скрыть две из них (например, ту, что сверху и ту, что справа), а оставшиеся две поместить в точку $(0, 0)$:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "x = np.linspace(-np.pi, np.pi, 200)\n", "cos_x = np.cos(x)\n", "sin_x = np.sin(x)\n", "\n", "# добавляем два графика, устанавливаем для них цвет, тип линии\n", "# и название\n", "plt.plot(x, cos_x, color='red', linestyle='dashed', label='cosine')\n", "plt.plot(x, sin_x, color='green', linestyle='dotted', label='sine')\n", "\n", "# добавляем легеду (информацию о том, какая линия что означает)\n", "plt.legend()\n", "\n", "# определяем, какие точки будут отмечены на осях\n", "# можно в качестве значения указывать LaTex-формулу (используем\n", "# это для того, чтобы вместо, например, 3.1415.. было написано pi)\n", "x_ticks = np.array([-np.pi, -np.pi/2, 0, np.pi/2, np.pi])\n", "x_ticks_name = [r'$-\\pi$', r'$-\\pi/2$', r'$0$', r'$\\pi/2$', r'$\\pi$']\n", "y_ticks = np.array([-1, -0.5, 0, 0.5, 1])\n", "y_ticks_name = [r'$-1$', r'$-0.5$', r'$0$', r'$0.5$', r'$1$']\n", "\n", "plt.xticks(x_ticks, x_ticks_name)\n", "plt.yticks(y_ticks, y_ticks_name)\n", "\n", "# меняем положение координатных осей\n", "axes = plt.gca()\n", "\n", " # скрываем две оси\n", "axes.spines['top'].set_color(None)\n", "axes.spines['right'].set_color(None)\n", "\n", " # устаналиваем позицию левой и правой оси;\n", " # data' означает, что 0 - это координата, через которую должна проходить ось\n", "axes.spines['left'].set_position(('data', 0))\n", "axes.spines['bottom'].set_position(('data', 0))\n", "\n", "# рисуем график\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Диаграмма разброса" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Диаграмма разброса используется тогда, когда нужно оценить корреляцию между несколькими факторами. Для примера, в качестве одного фактора мы возьмем просто случайные, ничего не означающие данные. Второй фактор мы получим как сумму первого и некоторой случайной величины с достаточно большой дисперсией. Очевидно, что между этими двумя значениями мы должны увидеть положительную корреляцию - с ростом одного, увеличивается и второе. Проверим это на практике:" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from random import uniform\n", "from random import normalvariate\n", "\n", "# используем генератор, чтобы создать массив случайных данных\n", "x = np.array([uniform(0, 100) for i in range(1000)])\n", "y = np.array([item + normalvariate(0, 20) for item in x])\n", "\n", "# строим диаграмму разброса\n", "plt.scatter(x, y)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Несмотря на то, что мы выбрали большое значение стандартного отклонения для случайной величины, с помощью которой мы оказывали влияние на первый фактор, положительная корреляция видна невооруженным глазом: с ростом $x$ возрастает $y$. Если стандартное отклонение продолжить увеличивать, то в определенный момент корреляция, очевидно, пропадет. Убедитесь в этом сами." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Гистограмма" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Гистограммы часто используются для того, чтобы сделать предположение о том, какому распределению подчиняется случайная выборка: по выборке строится гистограмма, а затем сравнивается, плотность распределения какого закона она напоминает больше всего. В качестве примера, рассмотрим выборку из нормального закона распределения, но вообразим, что нам это неизвестно:" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from math import sqrt\n", "from random import normalvariate\n", "\n", "def norm_density(x, mean, std):\n", " tmp1 = 1 / (std * np.sqrt(2 * np.pi))\n", " tmp2 = -((x - mean)**2 / 2 * std**2)\n", " return tmp1 * (np.e ** tmp2)\n", "\n", "\n", "x = np.array([normalvariate(3, 1) for i in range(10000)])\n", "\n", "# добавляем гистограмму на график (bins - количество столбиков в ней)\n", "plt.hist(x, bins=15, density=True)\n", "\n", "# добавим еще для наглядности график плотности распределения\n", "x_mean = np.mean(x)\n", "x_std = np.std(x) # стандартное отклонение\n", "density_x = np.linspace(x.min(), x.max(), 200)\n", "density_y = np.array([norm_density(item, x_mean, x_std) for item in density_x])\n", "plt.plot(density_x, density_y, linewidth=2.5, color='red')\n", "\n", "# рисуем графики\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Как видите, гистограмма, построенная по выборке из \"неизвестной\" случайной величины, по форме похожа на плотность нормального распределения. Исходя из этого можно сделать вывод, что \"неизвестная\" случайная величина имеет закон распределения, близкий к нормальному." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В заключение дадим очень полезную [ссылку](https://matplotlib.org/tutorials/index.html) на раздел документации библиотеки Matplotlib, по которой можно найти большое количество примеров графиков вместе с исходным кодом, строящим их. Примеры оттуда позволяют увидеть весь спектр возможностей Matplotlib." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## pandas" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Библиотека [pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) предоставляет классы для быстрой обработки и анализа больших объемов данных. В своей реализации она использует библиотеку NumPy, с которой мы познакомились чуть выше. Двумя важнейшими классами библиотеки pandas являются `Series` и `DataFrame`. Оба они представляют собой массивы, элементам которых назначены специальные **метки** (англ. *label*), в совокупности образующие **индекс** этого массива. Термин \"индекс\" из pandas пересекается с тем, что мы использовали для обозначения позиции элемента в последовательности. Обычно путаницы из-за этого не возникает, но вам стоит иметь это в виду." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Все элеметы массивов pandas приводятся к одному и тому же типу данных (используются типы из библиотеки NumPy)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Перед тем как начать использование библиотеки pandas, подключим необходимый модуль:" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Класс Series" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series` представляет собой изменяемый одномерный массив, к каждому элементу которого прикреплена произвольная метка. Объект класса `Series` можно создать несколькими способами:" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 1\n", "1 2\n", "2 3\n", "3 4\n", "4 5\n", "dtype: int64\n" ] } ], "source": [ "# из обычного списка\n", "s = pd.Series([1, 2, 3, 4, 5])\n", "print(s)" ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 0.825980\n", "1 0.605343\n", "2 0.690893\n", "dtype: float64\n" ] } ], "source": [ "# из ndarray\n", "s = pd.Series(np.random.random((3)))\n", "print(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Обратите внимание на первый столбец в выведенных на экран объектах `Series` - это и есть их индекс. Обратиться к нему можно с помощью атрибута `index`:" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "RangeIndex(start=0, stop=3, step=1)\n" ] } ], "source": [ "print(s.index)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "По умолчанию индекс представляет собой последовательно возрастающие от нуля числа, но это легко можно изменить, явно указав метки:" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['first', 'second', 'third'], dtype='object')\n", "first 1\n", "second 2\n", "third 3\n", "dtype: int64\n" ] } ], "source": [ "s = pd.Series([1, 2, 3], index=['first', 'second', 'third'])\n", "print(s.index)\n", "print(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Одномерный массив можно создать с помощью словаря Python, при этом ключи становятся метками, а значения - элементами:" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 100\n", "b 200\n", "c 300\n", "dtype: int64\n" ] } ], "source": [ "s = pd.Series({'a':100, 'b':200, 'c':300})\n", "print(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Объекты класса `Series` могут использовать как `ndarray` или как `dict`:" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2\n", "5\n", "True\n" ] } ], "source": [ "s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])\n", "\n", "# получаем элемент по его позиции, как для ndarray\n", "print(s[1])\n", "\n", "# обращаемся к элементу по метке, как для dict\n", "print(s['e'])\n", "\n", "# определяем, есть ли метка в объекте Series\n", "print('c' in s)" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "d 4\n", "c 3\n", "dtype: int64\n" ] } ], "source": [ "# получаем срез, как для ndarray;\n", "# срез объекта Series тоже имеет тип Series\n", "print(s[3:1:-1])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Бинарные операции для одномерных массивов pandas работают так же, как и для массивов NumPy (применяются для каждого элемента). Универсальные функции NumPy могут в качестве аргумента принимать объекты `Series`:" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 1\n", "b 2\n", "c 3\n", "dtype: int64 \n", "\n", "a 0.1\n", "b 0.2\n", "c 0.3\n", "dtype: float64\n" ] } ], "source": [ "s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])\n", "s2 = pd.Series([0.1, 0.2, 0.3], index=['a', 'b', 'c'])\n", "print(s1, '\\n')\n", "print(s2)" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 3\n", "b 6\n", "c 9\n", "dtype: int64 \n", "\n", "a 1.1\n", "b 2.2\n", "c 3.3\n", "dtype: float64 \n", "\n", "a 2.718282\n", "b 7.389056\n", "c 20.085537\n", "dtype: float64\n" ] } ], "source": [ "print(s1 * 3, '\\n')\n", "print(s1 + s2, '\\n')\n", "print(np.exp(s1))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Особо стоит отметить случай, когда бинарная операция выполняется для массивов `Series`, имеющих разные метки. В этом случае происходит следующее: если метка есть в обоих массивах, то операция выполняется и ее результат становится значением элемента в новом объекте, иначе - в новый объект записывается специальная константа `Nan`, которая трактуется как отсутствие значения." ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "x 0.1\n", "a 0.2\n", "c 0.3\n", "dtype: float64\n" ] } ], "source": [ "s2.index = ['x', 'a', 'c'] # меняем индекс у объекта s2\n", "print(s2)" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 0.8\n", "b NaN\n", "c 2.7\n", "x NaN\n", "dtype: float64\n" ] } ], "source": [ "result = s1 - s2\n", "print(result)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Любые бинарные арифметические операции со значениями `Nan` будут давать `Nan`:" ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 1.8\n", "b NaN\n", "c 3.7\n", "x NaN\n", "dtype: float64\n" ] } ], "source": [ "print(result + 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Объекты типа `Series` поддерживают обращение сразу к нескольким элементам:" ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "a 1\n", "d 4\n", "e 5\n", "dtype: int64 \n", "\n", "a 1\n", "b 2\n", "c 0\n", "d 0\n", "e 5\n", "dtype: int64\n" ] } ], "source": [ "s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])\n", "print(s[['a', 'd', 'e']], '\\n')\n", "\n", "# изменяем сразу несколько элементов\n", "s[['c', 'd']] = 0\n", "print(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Объекты типа `Series` можно сравнивать между собой и со скалярами. Сравнения, как и другие бинарные операции, выполняются для каждого элемента отдельно. Результатом становится новый объект, у которого в i-ой позиции стоит `True`, если сравнение соответствующего элемента дало истину:" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 True\n", "1 False\n", "2 True\n", "dtype: bool \n", "\n", "0 False\n", "1 False\n", "2 True\n", "dtype: bool\n" ] } ], "source": [ "s1 = pd.Series([10, 5, 7])\n", "s2 = pd.Series([1, 12, 3])\n", "\n", "print(s1 > s2, '\\n')\n", "print(s2 == 3)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "С помощью массива, состоящего из булевых элементов, можно отфильтровать элементы другого массива той же размерности. При этом в результирующий объект `Series` попадают только элементы, для которых в соответствующей позиции фильтрующего массива находится `True`:" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 10\n", "2 7\n", "dtype: int64\n" ] } ], "source": [ "print(s1[s1 > s2])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В заключение скажем, что объекты класса `Series` являются итерируемыми, т.е. могут использоваться в цикле `for ... in`:" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.1\n", "0.2\n", "0.3\n" ] } ], "source": [ "s = pd.Series({'aaa':0.1, 'bbb':0.2, 'ccc':0.3})\n", "\n", "for item in s:\n", " print(item)" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "aaa\n", "bbb\n", "ccc\n" ] } ], "source": [ "# так выполняется итерация по меткам:\n", "for item in s.index:\n", " print(item)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Класс DataFrame" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Класс `DataFrame` представляет двумерный изменяемый массив (матрицу), столбцами которого являются одномерные массивы `Series`. С помощью атрибутов `index` и `columns` задаются метки для строк и столбцов. Как и для типа `Series`, объекты `DataFrame` можно создавать несколькими способами:" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " col1 col2\n", "row1 1.0 0.1\n", "row2 2.0 0.2\n", "row3 3.0 NaN\n", "row5 NaN 0.3\n", "row6 NaN 0.4\n", "Index(['row1', 'row2', 'row3', 'row5', 'row6'], dtype='object')\n", "Index(['col1', 'col2'], dtype='object')\n" ] } ], "source": [ "# из словаря Series (ключи словаря становятся метками столбцов,\n", "# индексы Series объединяются и образуют индекс для строк)\n", "df = pd.DataFrame({'col1': pd.Series([1, 2, 3], ['row1', 'row2', 'row3']),\n", " 'col2': pd.Series([0.1, 0.2, 0.3, 0.4], ['row1', 'row2', 'row5', 'row6'])})\n", "print(df)\n", "print(df.index)\n", "print(df.columns)" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2\n", "r1 1 4\n", "r2 2 5\n", "r3 3 6\n" ] } ], "source": [ "# из словаря ndarray/list (ключи словаря становятся метками\n", "# столбцов, для строк используется индекс по умолчанию)\n", "df = pd.DataFrame({'c1': [1, 2, 3], 'c2':[4, 5, 6]})\n", "df.index = ['r1', 'r2', 'r3']\n", "print(df)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Семантически объект `DataFrame` может рассматриваться как [словарь](09_Collections.ipynb#Словарь), ключом в котором являются метки столбцов, а значением - соответствующие объекты `Series`. Операции, которые мы рассматривали для словаря, схожим образом выполняются и для объектов `DataFrame`: " ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r1 0.308978 0.940771 0.988228\n", "r2 0.778484 0.472404 NaN\n", "r3 0.570186 0.831688 0.568123\n", "r4 NaN 0.513793 0.575264\n" ] } ], "source": [ "df = pd.DataFrame({'c1': pd.Series(np.random.random(3), ['r1', 'r2', 'r3']),\n", " 'c2': pd.Series(np.random.random(4), ['r1', 'r2', 'r3', 'r4']),\n", " 'c3': pd.Series(np.random.random(3), ['r1', 'r3', 'r4'])})\n", "print(df)" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.30897794183961025 \n", "\n", "r1 0.988228\n", "r2 NaN\n", "Name: c3, dtype: float64 \n", "\n", "r1 0.940771\n", "r2 0.472404\n", "r3 0.831688\n", "r4 0.513793\n", "Name: c2, dtype: float64\n" ] } ], "source": [ "# получение конкретного элемента\n", "print(df['c1']['r1'], '\\n')\n", "\n", "# получение нескольких элементов столбца\n", "print(df['c3'][['r1', 'r2']], '\\n')\n", "\n", "# получение столбца целиком\n", "print(df['c2'])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Очень удобной является возможность обращаться к столбцам и строкам как к атрибутам. Например, вот так мы можем переписать предыдущий блок кода:" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.30897794183961025 \n", "\n", "r1 0.988228\n", "r2 NaN\n", "Name: c3, dtype: float64 \n", "\n", "r1 0.940771\n", "r2 0.472404\n", "r3 0.831688\n", "r4 0.513793\n", "Name: c2, dtype: float64\n" ] } ], "source": [ "print(df.c1.r1, '\\n')\n", "print(df.c3[['r1', 'r2']], '\\n')\n", "print(df.c2)" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3 c4\n", "r1 0.308978 0.940771 0.988228 NaN\n", "r2 0.778484 0.472404 NaN 0.461306\n", "r3 0.570186 0.831688 0.568123 NaN\n", "r4 NaN 0.513793 0.575264 0.369241 \n", "\n", " c1 c2 c3\n", "r1 0.308978 0.940771 0.988228\n", "r2 0.778484 0.472404 NaN\n", "r3 0.570186 0.831688 0.568123\n", "r4 NaN 0.513793 0.575264\n" ] } ], "source": [ "# добавление и удаление столбца\n", "df['c4'] = pd.Series(np.random.random(2), index=['r2', 'r4'])\n", "print(df, '\\n')\n", "\n", "del df['c4']\n", "print(df)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Существуют также удобные способы для обращения к строкам. В результате возвращаются объекты `Series`, индекс которых состоит из меток столобцов объекта `DataFrame`." ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "c1 0.778484\n", "c2 0.472404\n", "c3 NaN\n", "Name: r2, dtype: float64 \n", "\n", "c1 0.778484\n", "c2 0.472404\n", "c3 NaN\n", "Name: r2, dtype: float64\n" ] } ], "source": [ "# получаем строку по метке и по позиции\n", "print(df.loc['r2'], '\\n')\n", "print(df.iloc[1])" ] }, { "cell_type": "code", "execution_count": 72, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r1 0.308978 0.940771 0.988228\n", "r3 0.570186 0.831688 0.568123 \n", "\n", " c1 c2\n", "r2 0.778484 0.472404\n", "r3 0.570186 0.831688\n" ] } ], "source": [ "# получаем сразу несколько строк\n", "print(df.loc[['r1', 'r3']], '\\n')\n", "\n", "# получаем несколько строк и несколько столбцов\n", "print(df.loc[['r2', 'r3'], ['c1', 'c2']])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Наконец, можно получить целый набор строк объекта `DataFrame` одним из следующих способов (в результате получается новый объект `DataFrame`, как и следовало ожидать):" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", " c1 c2 c3\n", "r4 NaN 0.513793 0.575264\n", "r3 0.570186 0.831688 0.568123\n" ] } ], "source": [ "# используем операцию взятия среза\n", "df2 = df[3:1:-1]\n", "print(type(df2))\n", "print(df2)" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r1 0.308978 0.940771 0.988228\n", "r2 0.778484 0.472404 NaN\n" ] } ], "source": [ "# используем специфическую для массивов pandas операцию\n", "print(df.loc[['r1', 'r2']])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "С таблицами, можно выполнять арифметические операции, которые реализованы по тому же принципу, что и для объектов `Series`:" ] }, { "cell_type": "code", "execution_count": 75, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2\n", "r1 0 3\n", "r2 1 4\n", "r3 2 5 \n", "\n", " c1 c2 c3\n", "r1 0.0 0.3 0.6\n", "r2 0.1 0.4 0.7\n", "r3 0.2 NaN NaN\n", "r4 NaN 0.5 0.8 \n", "\n", "c1 1.0\n", "c2 1.0\n", "c3 1.0\n", "dtype: float64\n" ] } ], "source": [ "df1 = pd.DataFrame({'c1': pd.Series([0, 1, 2], ['r1', 'r2', 'r3']),\n", " 'c2': pd.Series([3, 4, 5], ['r1', 'r2', 'r3'])})\n", "df2 = pd.DataFrame({'c1': pd.Series([0.0, 0.1, 0.2], ['r1', 'r2', 'r3']),\n", " 'c2': pd.Series([0.3, 0.4, 0.5], ['r1', 'r2', 'r4']),\n", " 'c3': pd.Series([0.6, 0.7, 0.8], ['r1', 'r2', 'r4'])})\n", "s = pd.Series(np.ones((3)), index=['c1', 'c2', 'c3'])\n", "\n", "print(df1, '\\n')\n", "print(df2, '\\n')\n", "print(s)" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2\n", "r1 1 4\n", "r2 2 5\n", "r3 3 6\n" ] } ], "source": [ "# арифметическая операция со скаляром\n", "print(df1 + 1)" ] }, { "cell_type": "code", "execution_count": 77, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r1 0.0 0.9 NaN\n", "r2 0.1 1.6 NaN\n", "r3 0.4 NaN NaN\n", "r4 NaN NaN NaN\n" ] } ], "source": [ "# арифметическая операция с двумя матрицами (результат состоит\n", "# из объединения строк и столбцов операндов, значение Nan вставляется\n", "# в позиции, где отсутствует элемент в одном из операндов)\n", "print(df1 * df2)" ] }, { "cell_type": "code", "execution_count": 78, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r1 -1.0 -0.7 -0.4\n", "r2 -0.9 -0.6 -0.3\n", "r3 -0.8 NaN NaN\n", "r4 NaN -0.5 -0.2\n" ] } ], "source": [ "# арифметическая операция с объектом Series (выполняется по строкам,\n", "# т.е. в индексе объекта Series должны быть указаны метки столбцов,\n", "# для которых нужно применить операцию)\n", "print(df2 - s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Покажем, как можно создать новый объект `DataFrame`, применив фильтрацию к элементам существующего:" ] }, { "cell_type": "code", "execution_count": 79, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2 c3\n", "r2 0.1 0.4 0.7\n", "r4 NaN 0.5 0.8\n" ] } ], "source": [ "result = df2[df2.c2 > 0.3]\n", "print(result)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В заключение скажем, что объекты `DataFrame` являются итерируемыми, и их можно использовать в циклах `for ... in`. При этом стоит отметить, что итерация по массивам pandas выполняется **медленно**, и лучше ее избегать (например, подобрав нужную функцию, которая сделает все сама)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Статистика" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В pandas существует большое количество функций и методов, предназначенных для получения различных статистических данных об одномерных и двумерных массивах. В этом разделе мы рассмотрим некоторые из них." ] }, { "cell_type": "code", "execution_count": 80, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 0.802763\n", "1 0.881109\n", "2 0.604589\n", "3 0.606030\n", "4 0.453705\n", "dtype: float64 \n", "\n", " c1 c2\n", "r1 0.679956 0.461280\n", "r2 0.697153 0.006743\n", "r3 0.152008 0.663765\n" ] } ], "source": [ "s = pd.Series(np.random.random(5))\n", "df = pd.DataFrame({'c1': pd.Series(np.random.random(3), index=['r1', 'r2', 'r3']),\n", " 'c2': pd.Series(np.random.random(3), index=['r1', 'r2', 'r3'])})\n", "\n", "print(s, '\\n')\n", "print(df)" ] }, { "cell_type": "code", "execution_count": 81, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "sum=3.3481964332404925, prod=0.11758321064167483\n", "mean=0.6696392866480985, var=0.02933662862069077, std=0.1712793876118512\n" ] } ], "source": [ "# статистика для Series\n", "print('sum={}, prod={}'.format(\\\n", " s.sum(), s.prod()))\n", "print('mean={}, var={}, std={}'.format(\\\n", " s.mean(), s.var(), s.std()))" ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "c1 1.529117\n", "c2 1.131789\n", "dtype: float64 \n", "\n", "r1 1.141236\n", "r2 0.703896\n", "r3 0.815773\n", "dtype: float64\n" ] } ], "source": [ "# статистика для DataFrame (методы все те же)\n", " \n", " # сумма элементов по столбцам\n", "print(df.sum(), '\\n')\n", "\n", " # сумма элементов по строкам\n", "print(df.sum(1))" ] }, { "cell_type": "code", "execution_count": 83, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " c1 c2\n", "count 3.000000 3.000000\n", "mean 0.509706 0.377263\n", "std 0.309894 0.336472\n", "min 0.152008 0.006743\n", "25% 0.415982 0.234012\n", "50% 0.679956 0.461280\n", "75% 0.688554 0.562523\n", "max 0.697153 0.663765\n" ] } ], "source": [ "# основная статистика для DataFrame (для Series тот же метод)\n", "print(df.describe())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "На этом мы заканчиваем рассмотрение библиотеки pandas. Конечно, это лишь малая часть ее возможностей, однако, имея представление о работе с главными типами данных `Series` и `DataFrame`, можно легко продолжать самостоятельное изучение." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "- - -\n", "[Предыдущая: Стандартная библиотека](10_Standard_Library.ipynb) |\n", "[Содержание](00_Overview.ipynb#Содержание)" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.4" } }, "nbformat": 4, "nbformat_minor": 2 }