{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Python для анализа данных\n", "*Алла Тамбовцева, НИУ ВШЭ*\n", "\n", "## Практикум 4" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "На этом семинаре мы будем работать с известной [базой данных](http://campus.lakeforest.edu/frank/FILES/MLFfiles/Bio150/Titanic/TitanicMETA.pdf) по пассажирам \"Титаника\" (она часто используется в курсах по эконометрике и машинному обучению, но представляет не только статистической, но и содержательный интерес).\n", "\n", "*Переменные:*\n", "\n", "**PassengerId** - id пассажира\n", "\n", "**Survived** - бинарный показатель, выжил пассажир или нет (1 - выжил, 0 - не выжил)\n", "\n", "**Pclass** - класс пассажира\n", "\n", "**Name** - имя пассажира \n", "\n", "**Sex**\t- пол пассажира\n", "\n", "**Age**\t- возраст пассажира\n", "\n", "**SibSp** - число родных братьев/сестер пассажира на борту корабля (или супругов) \n", "\n", "**Parch** - число родителей пассажира на борту корабля\t\n", "\n", "**Ticket**\t- номер билета\n", "\n", "**Fare** - стоимость билета\n", "\n", "**Cabin** - каюта\n", "\n", "**Embarked** - порт, в котором пассажир взошел на палубу корабля" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Загрузка и предварительная обработка" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Загрузите базу данных из файла `Titanic.csv`.\n", "2. Загрузите базу данных так из файла еще раз, но так, чтобы столбец PassengerId был идентификатором, то есть номером строки (*index)*.\n", "3. Удалите из базы строки с пропущенными значениями и сохраните изменения в самой базе." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Описание базы данных" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "3. Выведите сводную информацию по базе данных: какие переменные в ней есть, какого они типа + сколько заполненных наблюдений в каждой столбце.\n", "4. Выведите сводную статистическую информацию по каждому количественному показателю в базе (описательные статистике).\n", "6. Постройте гистограмму для переменной *Возраст* (*Age*), сделайте ее красного цвета, подпишите оси и добавьте заголовок графика.\n", "7. Выведите описательные статистики для столбца *Стоимость билета* (*Fare*)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Работа со строками и столбцами базы" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "7. Выведите названия столбцов в базе данных в виде списка (объект типа *list*).\n", "8. Переименуйте столбец с классом пассажира из **Pclass** в **Class**.\n", "9. Выберите из базы данных все строки, которые соответствуют пассажирам женского пола, и сохраните их в новую базу `female`.\n", "10. Выберите из базы данных все строки, которые соответствуют выжившим пассажирам мужского пола младше 32 лет, и сохраните их в базу `Ymale`.\n", "11. Выберите из базы данных все строки, которые соответствуют пассажирам 1 или 2 класса.\n", "12. Выберите из базы данных все строки, которые соответствуют выжившим пассажирам 1 или 2 класса.\n", "12. Добавьте в датафрейм столбец *Female*, состоящий из значений 0 и 1, где 1 соответствует пассажирам женского пола." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Группировка \n", "1. Выведите на экран все уникальные значения в столбце *Embarked*.\n", "2. Сгруппируйте строки в датафрейме в соответствии со значениями переменной *Survived* и выведите средние значения всех количественных переменных по группам.\n", "3. Сгруппируйте строки в датафрейме в соответствии со значениями переменной *Sex* и сохраните в отдельный датафрейм таблицу со средними и медианными значениями переменной *Age* по группам (мужчины и женщины)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Выгрузка базы в файл\n", "1. Приведите все названия столбцов в датафрейме к нижнему регистру и сохраните изменения.\n", "2. Выгрузите итоговый датафрейм в файл `Titanic-new.csv`." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" } }, "nbformat": 4, "nbformat_minor": 2 }