{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Machine Learning\n", "\n", "*Екатерина Лобачева / Илья Щуров / Сергей Сметанин *\n", "\n", "*Совместный бакалавриат НИУ ВШЭ и РЭШ, 2016-17 учебный год*\n", "\n", "[Страница курса](http://math-info.hse.ru/2016-17/Machine_Learning)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Домашнее задание №ML1\n", "Задание основано на материалах курса [Data analysis (Software Engineering)](http://wiki.cs.hse.ru/Data_analysis_(Software_Engineering%29) (ФКН НИУ ВШЭ).\n", "\n", "Вам необходимо анализировать набор данных [adult.data](http://archive.ics.uci.edu/ml/datasets/Adult) (источник: UCI Machine Learning Repository) с помощью Python, pandas, numpy, scipy.\n", "\n", "Чтобы выполнить работу, скачайте настоящий ipynb-файл, откройте его в *Jupyter Notebook*, впишите решения в оставленные для этого ячейки (при необходимости можно добавлять новые ячейки), приводя полный работающий код, а также все необходимые пояснения и ответы (для этого нужно использовать markdown-ячейки). Вы можете вставлять формулы с помощью TeX-разметки в markdown-ячейки. После выполнения работы необходимо вытащить ipynb-файл из Jupyter (например, с помощью *File → Download as… → IPython Notebook*) и загрузить его на my.NES.\n", "\n", "**Подсказка.** Файл [adult.data](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data) является CSV-файлом, но в нём отсутствуют имена переменных — они (вместе с описаниями) приводятся в отдельном файле [adult.names](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names). При загрузке датафрейма с помощью `pd.read_csv` используйте параметры `header=None` (чтобы первая строка не воспринималась как строка с именами переменных) и `names=[\"age\", \"workclass\", \"fnlwgt\", \"education\", \"education-num\", \"marital-status\", \"occupation\", \"relationship\", \"race\", \"sex\", \"capital-gain\", \"capital-loss\", \"hours-per-week\", \"native-country\", \"50K\"]`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 1\n", "Сколько мужчин и женщин в выборке?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 2\n", "Каков средний возраст мужчин?\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 3\n", "Какова доля граждан США?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 4\n", "Нарисовать распределение уровня образования в виде столбчатой диаграммы (bar plot)." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 5\n", "Найти среднее и стандартное отклонение переменной \"final weight\" (fnlwgt) для разведённых людей?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 6\n", "Правда ли, что люди, зарабатывающие более 50 тыс. в основном имеют высшее образование?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 7\n", "Каков максимальный возраст мужчин и женщин каждой расы?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 8\n", "Люди из каких стран работают как фермеры/рыбаки?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 9\n", "Рассмотрим два отношения 1) количество мужчин-бакалавров к количеству мужчин-магистров и 2) количество женщин-бакалавров к количеству женщин-магистров. Какое отношение больше?\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Вопрос 10\n", "Каково максимальное количество рабочих часов в неделю? Как много людей работают столько часов в неделю? Каков их заработок?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [ "# Впишите решение сюда" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.5.0" }, "toc": { "toc_cell": false, "toc_number_sections": false, "toc_threshold": 6, "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 0 }