{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Программирование и анализ данных\n", "\n", "*Алла Тамбовцева, НИУ ВШЭ*\n", "\n", "### Семинар 9 по теме: визуализация и использование виджетов" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Файл `Chile.txt` содержит результаты опроса перед плебисцитом 1988 года в Чили.\n", "\n", "**Показатели:**\n", "\n", "* `region`: регион, где живет респондент (`C`, Central; `M`, Metropolitan Santiago area; `N`, North; `S`, South; `SA`, City of Santiago);\n", "* `sex`: пол респондента;\n", "* `population`: численность населения в регионе респондента;\n", "* `age`: возраст респондента;\n", "* `education`: уровень образования респондента (`P`, Primary; `PS`, Post-secondary; `S`, Secondary);\n", "* `income`: доход респондента;\n", "* `statusquo`: индекс отношения к статус-кво (чем больше значение, тем больше человек склонен одобрять сохранение статус-кво – нахождение Пиночета у власти);\n", "* `vote`: как респондент собирается голосовать (`A`, will abstain; `N`, will vote no – against Pinochet; `U`, undecided; `Y`, will vote yes – for Pinochet)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 1\n", "\n", "Загрузите файл `Chile.txt` и считайте строки из него в переменную `lines`, используя код ниже:\n", " \n", " f = open(\"Chile.txt\", encoding = \"UTF-8\")\n", " lines = f.readlines()\n", " \n", "**Пояснения к коду:** функция `open()` открывает файл, а метод `readlines()` разбивает текстовый файл на строки и возвращает список этих строк. \n", "\n", "Удобно ли работать с данными в `lines`? " ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "f = open(\"Chile.txt\", encoding = \"UTF-8\")\n", "lines = f.readlines()" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'\"\",\"region\",\"population\",\"sex\",\"age\",\"education\",\"income\",\"statusquo\",\"vote\"\\n'" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "lines[0] # не очень удобно" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 2\n", "\n", "Загрузите файл `Chile.txt`, используя функцию `read_table()` из библиотеки `pandas` и считая, что разделителем столбцов считается запятая. Сохраните результат в переменную `ch`." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "ch = pd.read_table(\"Chile.txt\", sep = \",\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 3\n", "\n", "Удалите из датафрейма `ch` строки с пропущенными значениями, сохраните изменения." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "ch.dropna(inplace = True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 4\n", "\n", "Создайте виджет типа `Dropdown`, выпадающее меню, где опциями меню являются названия столбцов датафрейма `ch`, кроме `Unnamed:0`, значением по умолчанию является `population`. Сохраните его в переменную `choose` и выведите на экран." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "5c2c74806cc24a0fa72e8111412e12ea", "version_major": 2, "version_minor": 0 }, "text/plain": [ "Dropdown(index=1, options=('region', 'population', 'sex', 'age', 'education', 'income', 'statusquo', 'vote'), …" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import ipywidgets as widgets\n", "choose = widgets.Dropdown(options = ch.columns[1:], \n", " value = \"population\")\n", "display(choose)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Задание 5\n", "\n", "Напишите функцию `desc_plot()`, которая принимает на вход строку с названием столбца, которое выбрал пользователь в выпадающем меню, и строит соответствующий график:\n", "\n", "* если тип столбца `object`, то строит гистограмму;\n", "* если тип столбца не `object`, то строит столбиковую диаграмму." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "import seaborn as sns\n", "sns.set()\n", "\n", "def desc_plot(c):\n", " if ch[c].dtype == \"object\":\n", " tab = ch[c].value_counts()\n", " x = tab.index\n", " y = tab.values\n", " sns.barplot(x, y)\n", " else:\n", " sns.distplot(ch[c])" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "desc_plot(choose.value) " ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 2 }