{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Análise de dados com Python\n", "## Esse treinamento apresenta algumas das principais ferramentas disponíveis na linguagem python para análise de dados. Abordaremos os seguintes tópicos:\n", "### 1 - Compreensão dos dados\n", "### 2 - Análise estatística dos dados\n", "### 3 - Operações em DataFrames\n", "### 4 - Análises de negócio\n", "### 5 - SVM e RF como classificadores para o problema da predição\n", "\n", "##### Fonte: IBGE / DETRAN" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1 - Compreensão dos dados" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# Import nas bibliotecas (pandas as pd / matplotlib / numpy as np)\n", "# Carregar os dados\n", "# Recorte horizontal (FILTRA O MUNICIPIO - RIO DE JANEIRO)\n", "# Recorte Vertical (FILTRAR APENAS A COLUNA MUNICIPIO)\n", "# Filtro por valores (FILTRAR MUNICIPIOS COM MAIS DE 10000 AUTOMOVEIS)\n", "# Recorte de colunas (FILTRAR 3 COLUNAS APENAS - MUNICIPIO / AUTOMOVEL / ONIBUS)\n", "# Criação de colunas com operações (CRIAR COLUNA RELATION - RELAÇÃO ENTRE AUTOMOVEIS E ONIBUS)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 2 - Análise estatística dos dados" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Análise descritiva dos dados (DESCRIBE)\n", "# Plot scatter da distribuição (RELATION X AUTOMOVEL)\n", "# Plot histograma (RELATION / AUTOMOVEL / ONIBUS)\n", "# Plot kde (RELATION)\n", "# Medidas estatísticas (VAR / STD / MEAN / CORR)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 3 - Operações em DataFrames" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "# Carregar outro arquivo .csv\n", "# Exibir os dados\n", "# Realizar análises estatísticas (USE OS COMANDOS ANTERIORES)\n", "# Exiba o melhor PIB do estado\n", "# Exiba o pior PIB do estado\n", "# Apresente os 5 melhores PIB\n", "# Apresente os 5 piores PIB\n", "# Combine os 2 DataFrames" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 4 - Análises de negócio" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Algumas análises de negócio\n", "\n", "##### 1 - Apresente a relação entre número de automóveis por habitante nas 5 cidades com maior PIB\n", "##### 2 - Uma famosa empresa fabricante de pneus para caminhões deseja montar uma fábrica no estado do RJ. Apresente aos gestores uma cidade candidata à abertura da fábrica que atenda pelo menos 3 cidades com baixo custo operacional de deslocamento. (Este é um exercício de estratégia de negócio, utilize outras fontes de consulta para avaliar a sua decisão)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "# Efetue análises de negócio a partir dos dados visualizados" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 5 - SVM e RF como classificadores para o problema da predição" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "# Faça recorte dos dados para classificação\n", "# Entenda o modelo de classificação (PIB BOM / PIB RUIM)\n", "# Problema da classificação binária\n", "# Efetue o treinamento\n", "# Efetue os testes\n", "# Avalie a acurácia do modelo\n", "# Execute os mesmos testes com outro classificador" ] } ], "metadata": { "kernelspec": { "display_name": "Python 2", "language": "python", "name": "python2" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 2 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython2", "version": "2.7.12" } }, "nbformat": 4, "nbformat_minor": 2 }