{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Майнор по Анализу Данных, Группа ИАД-2\n", "## Домашнее задание №0" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "**Общая информация**\n", "\n", "**Срок сдачи:** 12 февраля 2017, 23:59 \n", "\n", "При отправлении ДЗ на почту `hse.minor.dm+2@gmail.com` указывайте фамилию в названии файла, а тему письма оформляйте в следующем виде:\n", "** [ИАД-2] *{Фамилия}* *{Имя}* ДЗ*{Номер}* **\n", "\n", "Сопровождайте ваш код изображеними, комментариями и выводами. \n", "Иммейте ввиду, что на некоторые задачи нет единственного верного и полного ответа. Чем больше информации вы сможете извлечь, аргументированных выводов сформулировать, тем лучше.\n", "\n", "Используйте данный Ipython Notebook при оформлении домашнего задания.\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Качество вина" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 1 (2 балла)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Загрузите [датасет](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv) с информацией о характеристиках вина и его качестве." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "## Your code herezz" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* Что из себя представляет объект в этом наборе данных? Сколько их?\n", "* Какие признаки описывают объекты? Сколько их?\n", "* Какой признак является целевым?\n", "* Каковы их области значений?\n", "* Есть ли пропуски?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false }, "outputs": [], "source": [ "## Your code here" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 2 (1 балл)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Создайте новый столбец `quality_cat`, которая будет иметь значение `1` если `quality > 5` и `0` - иначе.
" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false }, "outputs": [], "source": [ "## Your code here" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 3 (1 балл)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "С помощью метода `.hist()` нарисуйте гистрограммы признака `alcohol` в группах с `quality_cat == 1` и `quality_cat == 0`. Добавьте в `hist()` аргумент `alpha=0.3` для прозрачности." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false }, "outputs": [], "source": [ "## Your code here" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 4 (2 балла)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можете ли вы придумать правило для классификации вина на хорошее и плохое по рисунку выше? Пусть это будет нашей первой моделью)\n", "\n", "Напишите функцию `theta = brute_clf_train(df)` которая бы перебирала пороговое значение $\\theta$ по признаку `alcohol`, делало предсказание и выводило наилучшее $\\theta$.
\n", "Т.е. если `alcohol` $\\geq \\theta$, то `prediction = 1` и `0` - иначе.\n", "\n", "\n", "Оптимальность $\\theta$ будем определять по доле совпадения значений `prediction` и `quality_cat` которое оно дает." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "## Your code here" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 5 (4 балла)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Напишите функцию `prediction = brute_clf_predict(df, theta)` которая бы по значению признака `alcohol` и найденному выше $\\theta$ говорила какое качество у вина." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Проверим, как обобщается наша модель на другие данные.\n", "\n", "* Загрузите другой [датасет](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv)\n", "* Выполните те же панипуляции с признаком `quality`\n", "* Используйте нашу простейшую модель для предсказания качества на новых данных и сравните результаты" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "## Your code here" ] } ], "metadata": { "anaconda-cloud": {}, "kernelspec": { "display_name": "Python [default]", "language": "python", "name": "python2" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 2 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython2", "version": "2.7.12" }, "nav_menu": {}, "toc": { "navigate_menu": true, "number_sections": false, "sideBar": false, "threshold": 6, "toc_cell": false, "toc_section_display": "block", "toc_window_display": true }, "toc_position": { "height": "49px", "left": "13px", "right": "736.333px", "top": "116px", "width": "144px" } }, "nbformat": 4, "nbformat_minor": 0 }