# Python для сбора и анализа данных 

*Алла Тамбовцева, НИУ ВШЭ*

## Порядок создания приложения с помощью `streamlit` 

### Шаг 1: установка библиотеки

Устанавливаем библиотеку `streamlit`:

In [None]:
!pip install streamlit

Если при установке возникает ошибка, два пути:
 
* прочитать в сообщении об ошибке, из-за установки каких зависимостей (других библиотек для успешной работы `streamlit`) возникают проблемы и попробовать установить их отдельно;

* поставить более раннюю версию `streamlit` (например, версия 0.62), которая требует установки меньшего числа вспомогательных библиотек.

Ради экономии времени мы пойдем по второму пути. Это не очень классно, потому что так мы теряем многие интересные возможности новых версий, но для простых приложений этого будет достаточно:

In [None]:
!pip install streamlit==0.62

### Шаг 2: создание исполняемого файла с кодом для приложения

Возвращаемся на главную страницу *Home Page* в *Jupyter Notebook*, создаем новый текстовый файл (*New – Text file*), переименовываем его в `myapp.py`, вписываем в него следующие строки и сохраняем изменения:

In [None]:
import streamlit as st
st.title("Salaries in US universities")

Этот код импортирует библиотеку и добавит на страницу с приложением заголовок с введенным текстом.

**Важно:** проверьте, что вы создали текстовый файл (не ipynb-файл) и что в конце названия этого файла стоит расширение `.py`. 

Что такой исполняемый файл? Файл с программой на Python, которую интерпретатор этого языка может считать и выполнить. Ранее мы сохраняли код внутри ячейки Jupyter Notebook, теперь мы можем код из этой ячейки «вынести» в отдельный файл безо всяких излишеств. 

Почему ipynb-файл не подходит? Файл с расширением `.ipynb` предназначен для хранения красивого размеченного текста и кода в виде ячеек с возможностью последующего запуска кода из этих ячеек в Jupyter или аналогичной среде, не для обработки и исполнения кода на «чистом» Python. Формально ipynb-файл – текстовый файл, который внутри выглядит как сложная JSON-строка. 

Для сравнения. Внутри созданного нами файла `myapp.py` только две строки кода, больше ничего. А если создать аналогичный ipynb-файл с одной ячейкой с теми же строками кода, изнутри он будет выглядеть так:

```{
 "cells": [
 {
 "cell_type": "code",
 "execution_count": null,
 "metadata": {},
 "outputs": [],
 "source": [
 "import streamlit as st\n",
 "st.title(\"Salaries in US universities\")"
 ]
 }
 ],
 "metadata": {
 "kernelspec": {
 "display_name": "Python 3",
 "language": "python",
 "name": "python3"
 },
 "language_info": {
 "codemirror_mode": {
 "name": "ipython",
 "version": 3
 },
 "file_extension": ".py",
 "mimetype": "text/x-python",
 "name": "python",
 "nbconvert_exporter": "python",
 "pygments_lexer": "ipython3",
 "version": "3.7.4"
 }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
```

### Шаг 3: запуск исполняемого файла с приложением

Исполняемые файлы запускаются из командной строки (терминала). 

* На Windows: заходим в *Пуск* в папку *Anaconda*, находим *Anaconda Command Prompt*, запускаем.
* На Mac: находим в *Launchpad* или через поиск *Терминал* (обычно в папке *Другие*), запускаем.

**Важно:** это должно быть новое окно командной строки, не то окно, которое открывается при запуске Jupyter Notebook. Если выполнять последующие действия в окне терминала, где выдаются сообщение о процессах Jupyter Notebook, ничего не сработает, плюс, Jupyter перестанет исполнять команды и сохранять изменения в файлах (мы «перебьем» своим вмешательством соединение Jupyter с ядром Python).

После запуска командной строки в окне вводим строку и нажимаем *Enter*:

 streamlit run myapp.py
 
При первом запуске обычно запрашивается e-mail, его можно пропустить, просто нажав *Enter*. Если все нормально, в командной строке будет указана ссылка на страницу с приложением на компьютере (например, `http://localhost:8501`), плюс, скорее всего, эта страница откроется в новой вкладке браузера. Пока это просто страница с заголовком.
 
Если выводится ошибка вида `File does not exist`, а файл `myapp.py` точно создан, проверьте, в какой папке он сохранен. Три пути решения:

* смотрим, из какой папки запускается командная строка (путь перед `>` или долларом в строке, где мы вводили команду с `run`), перемещаем/копируем файл `myapp.py` туда; туда же потом надо будет сохранить файлы с данными для работы;

* находим файл `myapp.py` на компьютере, забираем из свойств файла полный путь к нему и запускаем приложение, указав этот путь в кавычках (тогда потом придется полностью прописывать пути ко всем файлам с данными):

 streamlit run "C://Users/student/Documents/myapp.py" 
 
* узнаем, какая папка является рабочей, переходим к ней в командной строке и потом снова запускаем строку с `run`, например:

 cd "C://Users/student/Documents"
 streamlit run myapp.py
 
Здесь `cd` – команда для того, чтобы сделать папку рабочей (от *current directory*). Это довольно удобное решение, потому что тогда мы сможем спокойно хранить все необходимые файлы в этой папке и не перемещать их туда, куда «удобнее» командной строке.

Рабочая папка – папка, где находится файл `myapp.py`. Раз мы создаем его через Jupyter, если рядом с этим файлом есть ipynb-файл, в нем можно запустить код для получения пути к этой папке:

 import os
 os.getcwd()


### Шаг 4: редактируем приложение

Открываем файл `myapp.py` и делаем приложение более осмысленным. Наше приложение будет предлагать пользователю выбрать столбец из файла `Salaries.csv` и выводить на экран таблицу с описательными статистиками. 

Для начала загрузим и подготовим данные – добавим в `myapp.py` следующие строки:

In [None]:
import streamlit as st
import pandas as pd

dat = pd.read_csv("Salaries.csv")
dat.rename(columns = {"yrs.since.phd" : "phd", 
 "yrs.service" : "service"}, inplace = True)

Теперь добавим выпадающее меню – `selectbox()` со списком опций – названиями нескольких столбцов:

In [None]:
selected = st.selectbox("Choose a variable", ["salary", "service", "phd"])

Итого: в файле `myapp.py` должны быть следующие строки:

In [None]:
import streamlit as st
import pandas as pd

dat = pd.read_csv("Salaries.csv")
dat.rename(columns = {"yrs.since.phd" : "phd", 
 "yrs.service" : "service"}, inplace = True)

st.title("Salaries in US universities")
selected = st.selectbox("Choose a variable", ["salary", "service", "phd"])

Перезагружаем страницу с приложением (обновляем страницу в браузере) и смотрим на изменения. Теперь на странице должен быть заголовок и меню для выбора столбца. Осталось подставить выбранное пользователем значение `selected` для выбора столбца и запросить по нему статистики через метод `.describe()`:

In [None]:
selected_table = dat[selected].describe()

# выносим саму таблицу на страницу
st.table(selected_table)

Итого в файле `myapp.py` должны быть следующие строки:

In [None]:
import streamlit as st
import pandas as pd

dat = pd.read_csv("Salaries.csv")
dat.rename(columns = {"yrs.since.phd" : "phd", 
 "yrs.service" : "service"}, inplace = True)

st.title("Salaries in US universities")
selected = st.selectbox("Choose a variable", ["salary", "service", "phd"])

selected_table = dat[selected].describe()
st.table(selected_table)

Для более продвинутого приложения можно добавить график и написать условие на тип столбца – если тип текстовый, строится столбиковая диаграмма, если числовой – гистограмма.