{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Майнор по Анализу Данных, Группа ИАД-2\n", "## Введение, вспоминаем Python 18/01/2017" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Table of Contents\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Этот [Jupyter Notebook](http://jupyter-notebook-beginner-guide.readthedocs.io/en/latest/what_is_jupyter.html) содержит вспомогательные указания для выполнения семинарских и домашних заданий. В течение курса мы будем преимущественно работать в подобных \"тетрадках\", но может быть иногда будем переключаться на другие среды\\средства.\n", "\n", "(Я использую Python версии 2.x.x, а не 3.x.x)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Как установить Jupyter Notebook у себя дома?!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Самый простой и надежный способ - воспользоваться готовым дистрибутивом [Anaconda](https://store.continuum.io/cshop/anaconda/), включающий в себе практически все необходимые модули и утилиты, которые нам понадобятся - IPython, NumPy, SciPy, Matplotlib и **Scikit-Learn**. Просто следуйте указаниям установщика для вашей ОС.\n", "\n", "Рекомендую ознакомиться с этим [постом](https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/) - там приводятся различные интересные возможности \"тетрадок\" о которых вы возможно не знали." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Можно ли писать на Python 3?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Пишите, ради бога. В нашем случае разница будет минимальна, поэтому код можно легко перевести из одной версии в другую." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Зачем мне нужен этот курс?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Данный курс должен дать вам:\n", "* Основные знания и навыки используемые при работе с данными\n", "* Понимание базовых методов прикладной статистики и (о боже!) машинного обучения\n", "* Умение поставить задачу и выбрать метод для ее решения" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Я стану Data Scientist'ом?!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Фундамент будет заложен. А дальше нужна практика и ваша собственная мотивация.\n", "\n", "Что желательно уметь делать, будучи DS:\n", "1. Data Exploration and Preparation\n", "2. Data Representation and Transformation\n", " 1. Modern Databases\n", " 2. Mathematical Representations\n", "3. Computing with Data\n", "4. Data Visualization and Presentation\n", "5. Data Modeling\n", " 1. Generative Modelling (Applied Statistics)\n", " 2. Predictive Modelling (ML)\n", "6. Domain Expertise (optional)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Вспоминаем pandas" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "\n", "%matplotlib inline\n", "\n", "plt.style.use('ggplot')\n", "plt.rcParams['figure.figsize'] = (16,8)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Рождаемость в США" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Загрузите два набора данных с информацией о рождаемости в США: [Набор 1](https://www.dropbox.com/s/4v743y3e25lz0an/US_births_1994-2003_CDC_NCHS.csv?dl=0), [Набор 2](https://www.dropbox.com/s/3aoulbiuomamay6/US_births_2000-2014_SSA.csv?dl=0)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Чем они отличаются? Соедините 2 таблицы, так, чтобы соблюсти целостность информации." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Найдите количество детей, рождающихся 6, 13 и 20 числа каждого месяца с учетом дня недели.\n", "\n", "Выделяется ли как-то пятница 13?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Качество вина" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Загрузите [датасет](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv) с информацией о характеристиках вина и его качестве." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* Что из себя представляет объект в этом наборе данных? Сколько их?\n", "* Какие признаки описывают объекты? Сколько их?\n", "* Какой признак является целевым?\n", "* Каковы их области значений?\n", "* Есть ли пропуски?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Какие признаки больше всего влияют на целевую переменную?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Создайте новый столбец `quality_cat`, которая будет иметь значение `\"good\"` если `quality > 5` и `\"bad\"` - иначе.