{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "
A Hotmart é uma empresa de tecnologia brasileira que possui uma plataforma online de comercialização de conhecimento. A plataforma permite que as pessoas comercializem conteúdo de diversas áreas do conhecimento ou revendem o conteúdo produzido por terceiros. Este notebook apresenta um estudo detalhado das vendas dos produtos da Hotmart no ano de 2016 e tem como objetivo explorar algumas técnicas de análise preponderantes para no ofício da ciência de dados.
\n", "A base de dados a ser analisada possui mais de 1,5 milhões de registros e aproximadamente 227 MB de espaço em disco, portanto não se fez necessário a utilização de um serviço distribuído de arquivos em clusters de máquinas para o processamento e abertura dos dados. Ademais, o fato da base possuir apenas 227 MB de espaço permite que ela seja facilmente carregada na memória de laptop comum.
\n", "Inicialmente, apresentar-se-á brevemente os dados do data set e em seguida será realizada uma transformação no valor de cada venda para que seja possível analisar o faturamento gerado pela empresa; uma vez que essa informação está codificada em termos do zscore. Posteriormente, a quarta seção deste estudo se dedicará a apresentar uma detalhadada exploração dos dados segmentada por produtos e produtores de conteúdo. Por fim, na quinta e última seção se aplicará um modelo de machine learning na série temporal das vendas a fim de se estimar o volume futuro das mesmas. Enjoy!!!
\n", "\n", " | purchase_id | \n", "product_id | \n", "affiliate_id | \n", "producer_id | \n", "buyer_id | \n", "purchase_date | \n", "product_creation_date | \n", "product_category | \n", "product_niche | \n", "purchase_value | \n", "affiliate_commission_percentual | \n", "purchase_device | \n", "purchase_origin | \n", "is_origin_page_social_network | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
516326 | \n", "11896030 | \n", "150610.0 | \n", "4462059.0 | \n", "4462059.0 | \n", "1584520.0 | \n", "2016-03-06 08:05:58 | \n", "2015-05-09 13:33:03 | \n", "Phisical book | \n", "Child psychology | \n", "0.549 | \n", "0.0 | \n", "eReaders | \n", "Origin f943 | \n", "0,0 | \n", "
88661 | \n", "11017693 | \n", "149675.0 | \n", "3599751.0 | \n", "3599751.0 | \n", "5996711.0 | \n", "2016-01-12 13:10:42 | \n", "2015-05-03 17:44:43 | \n", "Phisical book | \n", "Anxiety management | \n", "0.228 | \n", "0.0 | \n", "eReaders | \n", "Origin d834 | \n", "1,0 | \n", "
6601 | \n", "10852822 | \n", "89321.0 | \n", "2510048.0 | \n", "2510048.0 | \n", "1158837.0 | \n", "2016-01-02 10:50:33 | \n", "2014-03-03 19:22:19 | \n", "Phisical book | \n", "Presentation skills | \n", "-0.448 | \n", "0.0 | \n", "Smart TV | \n", "Origin ef2b | \n", "0,0 | \n", "
918259 | \n", "12702895 | \n", "132809.0 | \n", "464846.0 | \n", "464846.0 | \n", "6590744.0 | \n", "2016-04-20 12:26:01 | \n", "2015-01-16 09:37:21 | \n", "Phisical book | \n", "Personal finance | \n", "-0.453 | \n", "0.0 | \n", "Smart TV | \n", "Origin ef2b | \n", "0,0 | \n", "
887046 | \n", "12641630 | \n", "184522.0 | \n", "2755272.0 | \n", "2755272.0 | \n", "339681.0 | \n", "2016-04-17 07:48:00 | \n", "2015-11-08 20:26:28 | \n", "Phisical book | \n", "Personal finance | \n", "-0.468 | \n", "0.0 | \n", "Desktop | \n", "Origin d9a6 | \n", "0,0 | \n", "
\n", "Onde z representa o zscore de x. Sejam y e y', o valor x e do zscore de x normalizados respectivamente:\n", "
\n", "$$ y = \\frac{x - l}{u - l} \\space (2); $$\n", "\n", "Substituindo a equação (1) em (3), obtém-se:\n", "
\n",
"$$y' = \\frac{z - min(Z)}{max(Z) - min(Z)} = \\frac{\\frac{x-m}{s} - \\frac{l-m}{s}}{\\frac{u-m}{s} - \\frac{l-m}{s}} = \\frac{ \\frac{x - \\not{m} - (l- \\not{m})}{\\not{s}} }{ \\frac{u- \\not{m}-(l- \\not{m})}{\\not{s}}} = \\frac{x - l}{u - l} = y$$\n",
"
\n",
"
\n", "O resultado anterior mostra que normalizar o conjunto de zscores de uma variável é equivalente à se normalizar os valores da própria variável. Assim, é possível captar percentualmente o faturamento que cada produto, produtor, categoria ou qualquer outro segmento gerou para a Hotmart sem a necessidade de se utilizar os valores reais das vendas.\n", "
" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", " | product_id | \n", "purchase_value | \n", "purchase_value_norm | \n", "
---|---|---|---|
1569651 | \n", "80755.0 | \n", "-0.466 | \n", "0.000600 | \n", "
349851 | \n", "112160.0 | \n", "0.358 | \n", "0.007186 | \n", "
1122773 | \n", "163925.0 | \n", "0.310 | \n", "0.006802 | \n", "
106535 | \n", "164264.0 | \n", "2.218 | \n", "0.022054 | \n", "
80578 | \n", "3336.0 | \n", "-0.397 | \n", "0.001151 | \n", "
810574 | \n", "171112.0 | \n", "2.269 | \n", "0.022462 | \n", "
\n", " Nesta etapa do estudo, analisar-se-á o total de vendas realizadas e o faturamento gerado por cada produto e produtor de conteúdo.\n", "
\n", "\n", " Apresenta-se nesta seção a análise das vendas e do faturamento da Hotmart segmentada por produto.\n", "
" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "# Define um método sales_by_id responsável por segmentar as vendas por um dado ID\n", "def sales_by_id(sales,column_id,column_name):\n", "\n", " df = sales.groupby(column_id).count()[['purchase_id']].sort_values(by=['purchase_id'],\n", " ascending=False)\n", " df.columns = [column_name]\n", " # Rankeamento dos itens por quantidade de vendas\n", " df['sales_rank'] = df[column_name].rank(ascending=False)\n", " # Percentual do total de vendas por item\n", " df['%_sales'] = sales[column_id].value_counts(normalize=True) *100\n", " \n", " return df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", " | product_id | \n", "sales_rank | \n", "sales_by_product | \n", "%_sales | \n", "revenue_rank | \n", "revenue_by_product | \n", "%_revenue | \n", "product_niche | \n", "product_category | \n", "purchase_device | \n", "
---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "219755.0 | \n", "1.0 | \n", "41220 | \n", "2.576527 | \n", "1382.0 | \n", "0.658982 | \n", "0.010883 | \n", "Immigration | \n", "Phisical book | \n", "Desktop | \n", "
1 | \n", "130294.0 | \n", "2.0 | \n", "32731 | \n", "2.045907 | \n", "1.0 | \n", "92.618615 | \n", "1.529521 | \n", "Immigration | \n", "Phisical book | \n", "eReaders | \n", "
2 | \n", "42903.0 | \n", "3.0 | \n", "27228 | \n", "1.701933 | \n", "4.0 | \n", "62.899810 | \n", "1.038739 | \n", "YouTube video creation | \n", "Phisical book | \n", "Smart TV | \n", "
3 | \n", "63718.0 | \n", "4.0 | \n", "24132 | \n", "1.508412 | \n", "11.0 | \n", "45.909866 | \n", "0.758164 | \n", "YouTube video creation | \n", "Phisical book | \n", "eReaders | \n", "
4 | \n", "132809.0 | \n", "5.0 | \n", "23350 | \n", "1.459532 | \n", "2017.0 | \n", "0.373295 | \n", "0.006165 | \n", "Personal finance | \n", "Phisical book | \n", "Smart TV | \n", "
5 | \n", "83377.0 | \n", "6.0 | \n", "21601 | \n", "1.350208 | \n", "3.0 | \n", "64.404830 | \n", "1.063594 | \n", "Anxiety management | \n", "Phisical book | \n", "Smart TV | \n", "
6 | \n", "149048.0 | \n", "7.0 | \n", "16386 | \n", "1.024235 | \n", "457.0 | \n", "2.357660 | \n", "0.038935 | \n", "Negotiation | \n", "Phisical book | \n", "Smart TV | \n", "
7 | \n", "59205.0 | \n", "8.0 | \n", "16096 | \n", "1.006108 | \n", "9.0 | \n", "47.605314 | \n", "0.786163 | \n", "Negotiation | \n", "Phisical book | \n", "eReaders | \n", "
8 | \n", "154310.0 | \n", "9.0 | \n", "14455 | \n", "0.903535 | \n", "144.0 | \n", "7.510471 | \n", "0.124029 | \n", "Government | \n", "Podcast | \n", "Smart TV | \n", "
9 | \n", "132454.0 | \n", "10.0 | \n", "11685 | \n", "0.730391 | \n", "333.0 | \n", "3.175729 | \n", "0.052445 | \n", "Online course creation | \n", "Phisical book | \n", "eReaders | \n", "
\n", " | product_id | \n", "revenue_rank | \n", "revenue_by_product | \n", "%_revenue | \n", "sales_rank | \n", "sales_by_product | \n", "%_sales | \n", "product_niche | \n", "product_category | \n", "purchase_device | \n", "
---|---|---|---|---|---|---|---|---|---|---|
1 | \n", "130294.0 | \n", "1.0 | \n", "92.618615 | \n", "1.529521 | \n", "2.0 | \n", "32731 | \n", "2.045907 | \n", "Immigration | \n", "Phisical book | \n", "eReaders | \n", "
201 | \n", "206775.0 | \n", "2.0 | \n", "75.616825 | \n", "1.248751 | \n", "202.0 | \n", "1226 | \n", "0.076633 | \n", "Careers | \n", "Phisical book | \n", "eReaders | \n", "
5 | \n", "83377.0 | \n", "3.0 | \n", "64.404830 | \n", "1.063594 | \n", "6.0 | \n", "21601 | \n", "1.350208 | \n", "Anxiety management | \n", "Phisical book | \n", "Smart TV | \n", "
2 | \n", "42903.0 | \n", "4.0 | \n", "62.899810 | \n", "1.038739 | \n", "3.0 | \n", "27228 | \n", "1.701933 | \n", "YouTube video creation | \n", "Phisical book | \n", "Smart TV | \n", "
12 | \n", "138480.0 | \n", "5.0 | \n", "58.973757 | \n", "0.973904 | \n", "13.0 | \n", "9903 | \n", "0.619004 | \n", "Presentation skills | \n", "Phisical book | \n", "Desktop | \n", "
11 | \n", "191898.0 | \n", "6.0 | \n", "53.892935 | \n", "0.889998 | \n", "12.0 | \n", "10018 | \n", "0.626192 | \n", "Anxiety management | \n", "Phisical book | \n", "eReaders | \n", "
89 | \n", "202509.0 | \n", "7.0 | \n", "50.045243 | \n", "0.826457 | \n", "90.0 | \n", "2376 | \n", "0.148516 | \n", "Accounting | \n", "Phisical book | \n", "eReaders | \n", "
137 | \n", "209799.0 | \n", "8.0 | \n", "48.775911 | \n", "0.805495 | \n", "138.0 | \n", "1622 | \n", "0.101386 | \n", "Negotiation | \n", "Phisical book | \n", "eReaders | \n", "
7 | \n", "59205.0 | \n", "9.0 | \n", "47.605314 | \n", "0.786163 | \n", "8.0 | \n", "16096 | \n", "1.006108 | \n", "Negotiation | \n", "Phisical book | \n", "eReaders | \n", "
20 | \n", "150610.0 | \n", "10.0 | \n", "46.634338 | \n", "0.770128 | \n", "21.0 | \n", "6253 | \n", "0.390855 | \n", "Child psychology | \n", "Phisical book | \n", "eReaders | \n", "
\n", "
\n", " | Rankings | \n", "Percentage Amount (%) | \n", "Relevance - Sales (%) | \n", "Relevance - Revenue (%) | \n", "
---|---|---|---|---|
0 | \n", "TOP 1 produtos mais vendidos | \n", "0.01 | \n", "2.58 | \n", "0.01 | \n", "
1 | \n", "TOP 5 produtos mais vendidos | \n", "0.03 | \n", "9.29 | \n", "3.34 | \n", "
2 | \n", "TOP 10 produtos mais vendidos | \n", "0.06 | \n", "14.31 | \n", "5.41 | \n", "
3 | \n", "TOP 20 produtos mais vendidos | \n", "0.11 | \n", "19.51 | \n", "9.49 | \n", "
4 | \n", "TOP 60 produtos mais vendidos | \n", "0.34 | \n", "30.49 | \n", "15.77 | \n", "
5 | \n", "TOP 120 produtos mais vendidos | \n", "0.67 | \n", "39.87 | \n", "24.28 | \n", "
6 | \n", "TOP 240 produtos mais vendidos | \n", "1.34 | \n", "50.17 | \n", "35.37 | \n", "
7 | \n", "TOP 450 produtos mais vendidos | \n", "2.52 | \n", "60.21 | \n", "44.73 | \n", "
8 | \n", "TOP 800 produtos mais vendidos | \n", "4.47 | \n", "69.81 | \n", "58.33 | \n", "
9 | \n", "TOP 1500 produtos mais vendidos | \n", "8.39 | \n", "80.10 | \n", "72.68 | \n", "
10 | \n", "TOP 3000 produtos mais vendidos | \n", "16.78 | \n", "89.76 | \n", "85.77 | \n", "
11 | \n", "TOP 5000 produtos mais vendidos | \n", "27.96 | \n", "94.94 | \n", "93.05 | \n", "
\n", " | Total de produtos | \n", "
---|---|
product_niche | \n", "\n", " |
Negotiation | \n", "78 | \n", "
Anxiety management | \n", "75 | \n", "
Personal finance | \n", "58 | \n", "
Presentation skills | \n", "40 | \n", "
Government | \n", "32 | \n", "
Organization | \n", "22 | \n", "
Careers | \n", "18 | \n", "
Procrastination | \n", "18 | \n", "
Online course creation | \n", "16 | \n", "
Accounting | \n", "14 | \n", "
Biology | \n", "14 | \n", "
YouTube video creation | \n", "11 | \n", "
Media training | \n", "11 | \n", "
Immigration | \n", "10 | \n", "
Economics | \n", "9 | \n", "
\n", " | Total de produtos | \n", "
---|---|
product_category | \n", "\n", " |
Phisical book | \n", "379 | \n", "
Podcast | \n", "57 | \n", "
Workshop | \n", "11 | \n", "
eBook | \n", "2 | \n", "
Subscription | \n", "1 | \n", "
\n", " | Total de produtos | \n", "
---|---|
purchase_device | \n", "\n", " |
eReaders | \n", "199 | \n", "
Desktop | \n", "139 | \n", "
Smart TV | \n", "105 | \n", "
Cellphone | \n", "6 | \n", "
Tablet | \n", "1 | \n", "
A partir dos resultados mostrados nas três tabelas acima é possível concluir que os nichos de negociação, controle de ansiedade, finanças pessoais e habilidades de apresentação foram os que mais ocorrem dentre os 450 produtos mais vendidos. Além disso, pode-se afirmar que os consumidores consumiram mais livros físicos através de eReaders, Desktop e SmartTV. Essas informações podem ser extremamente úteis para as estratégias futuras de marketing da empresa, pois revelam de certa forma as características que mais impactam no sucesso de um produto.
\n", "\n", "
\n", " | Rankings | \n", "Percentage Amount (%) | \n", "Relevance - Sales (%) | \n", "Relevance - Revenue (%) | \n", "
---|---|---|---|---|
0 | \n", "TOP 1 produtos que mais faturam | \n", "0.01 | \n", "2.05 | \n", "1.53 | \n", "
1 | \n", "TOP 5 produtos que mais faturam | \n", "0.03 | \n", "5.79 | \n", "5.85 | \n", "
2 | \n", "TOP 10 produtos que mais faturam | \n", "0.06 | \n", "8.07 | \n", "9.93 | \n", "
3 | \n", "TOP 20 produtos que mais faturam | \n", "0.11 | \n", "11.39 | \n", "15.97 | \n", "
4 | \n", "TOP 60 produtos que mais faturam | \n", "0.34 | \n", "15.86 | \n", "30.37 | \n", "
5 | \n", "TOP 120 produtos que mais faturam | \n", "0.67 | \n", "21.04 | \n", "41.56 | \n", "
6 | \n", "TOP 240 produtos que mais faturam | \n", "1.34 | \n", "30.21 | \n", "54.00 | \n", "
7 | \n", "TOP 450 produtos que mais faturam | \n", "2.52 | \n", "40.78 | \n", "65.22 | \n", "
8 | \n", "TOP 800 produtos que mais faturam | \n", "4.47 | \n", "51.01 | \n", "75.36 | \n", "
9 | \n", "TOP 1500 produtos que mais faturam | \n", "8.39 | \n", "65.39 | \n", "85.38 | \n", "
10 | \n", "TOP 3000 produtos que mais faturam | \n", "16.78 | \n", "79.60 | \n", "93.73 | \n", "
11 | \n", "TOP 5000 produtos que mais faturam | \n", "27.96 | \n", "87.62 | \n", "97.52 | \n", "
Os resultados mostrados na tabela acima indicam, dentre outras coisas, que os 60 produtos que mais faturam (cerca de 0,67% dos produtos disponíveis) foram responsáveis por mais de 30% do faturamento total da Hotmart em 2016.
\n", "A imagem a seguir apresenta o faturamento de alguns subconjuntos do ranking de faturamento.
" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt # Matlab-style plotting\n", "from matplotlib import pyplot\n", "from matplotlib import colors as mcolors\n", "import numpy as np\n", "\n", "# Define um método scaterr_plot reponsável por gerar um gráfico de pontos identificados por labels\n", "def scaterr_plot(rankings,colors,df,item,title,xlim,ylim):\n", " \n", " labels = []\n", " data = []\n", " i=0\n", " for rank in rankings:\n", " revenue_percentage = round(df.iloc[i:rank,6].sum(),2)\n", " labels.append(\"{}% do faturamento | {} {} | Top {} em receita\".format(str(revenue_percentage),\n", " len(df.iloc[i:rank,6]),\n", " item,rank))\n", " data.append((np.log1p(df.iloc[i:rank,2]),\n", " np.log1p(df.iloc[i:rank,5])))\n", " i=rank\n", "\n", " fig = plt.figure(figsize=(12, 9))\n", " ax = fig.add_subplot(1, 1, 1, facecolor=\"10\")\n", "\n", " for data,color,label in zip(data,colors,labels):\n", " x,y=data\n", " ax.scatter(x,y, alpha=0.8, c=color, edgecolors='none', s=30, label=label)\n", "\n", " plt.title(title, fontsize=16)\n", " plt.xlabel('Log(Qtde de vendas)', fontsize=14)\n", " plt.ylabel('Log(Receita gerada)', fontsize=14) \n", " plt.xlim(xlim)\n", " plt.ylim(ylim)\n", " plt.legend(loc='upper left')\n", " plt.grid(True)\n", " plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "O gráfico mostrado acima permite extrair alguns insights interessantes. Eles são:
\n", "Nesta seção será realizada uma análise similar à realizada no item 4.1, mas segmentada por produtor de conteúdo.
\n", "\n", " | sales_rank | \n", "sales_by_producer | \n", "%_sales | \n", "revenue_rank | \n", "revenue_by_producer | \n", "%_revenue | \n", "
---|---|---|---|---|---|---|
producer_id | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
6697083.0 | \n", "1.0 | \n", "41220 | \n", "2.576527 | \n", "25.0 | \n", "41.994756 | \n", "0.606977 | \n", "
3992235.0 | \n", "2.0 | \n", "39331 | \n", "2.458452 | \n", "11.0 | \n", "61.712906 | \n", "0.891977 | \n", "
464846.0 | \n", "3.0 | \n", "35470 | \n", "2.217113 | \n", "16.0 | \n", "53.970816 | \n", "0.780075 | \n", "
349701.0 | \n", "4.0 | \n", "34568 | \n", "2.160732 | \n", "2.0 | \n", "124.155321 | \n", "1.794497 | \n", "
166090.0 | \n", "5.0 | \n", "28895 | \n", "1.806132 | \n", "18.0 | \n", "50.821226 | \n", "0.734552 | \n", "
442241.0 | \n", "6.0 | \n", "27798 | \n", "1.737562 | \n", "6.0 | \n", "72.493110 | \n", "1.047790 | \n", "
2307584.0 | \n", "7.0 | \n", "21720 | \n", "1.357646 | \n", "30.0 | \n", "36.981807 | \n", "0.534522 | \n", "
3382787.0 | \n", "8.0 | \n", "20199 | \n", "1.262573 | \n", "116.0 | \n", "12.987035 | \n", "0.187710 | \n", "
4580574.0 | \n", "9.0 | \n", "16386 | \n", "1.024235 | \n", "481.0 | \n", "2.591062 | \n", "0.037450 | \n", "
671256.0 | \n", "10.0 | \n", "16096 | \n", "1.006108 | \n", "20.0 | \n", "50.407803 | \n", "0.728577 | \n", "
\n", " | revenue_rank | \n", "revenue_by_producer | \n", "%_revenue | \n", "sales_rank | \n", "sales_by_producer | \n", "%_sales | \n", "
---|---|---|---|---|---|---|
producer_id | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
42346.0 | \n", "1.0 | \n", "253.131796 | \n", "3.658678 | \n", "13.0 | \n", "13240 | \n", "0.827589 | \n", "
349701.0 | \n", "2.0 | \n", "124.155321 | \n", "1.794497 | \n", "4.0 | \n", "34568 | \n", "2.160732 | \n", "
3425706.0 | \n", "3.0 | \n", "92.860482 | \n", "1.342173 | \n", "77.0 | \n", "3767 | \n", "0.235463 | \n", "
1931767.0 | \n", "4.0 | \n", "88.081629 | \n", "1.273101 | \n", "41.0 | \n", "5573 | \n", "0.348350 | \n", "
2546880.0 | \n", "5.0 | \n", "83.825478 | \n", "1.211584 | \n", "15.0 | \n", "10469 | \n", "0.654383 | \n", "
442241.0 | \n", "6.0 | \n", "72.493110 | \n", "1.047790 | \n", "6.0 | \n", "27798 | \n", "1.737562 | \n", "
3672.0 | \n", "7.0 | \n", "67.231739 | \n", "0.971744 | \n", "17.0 | \n", "10257 | \n", "0.641131 | \n", "
1095211.0 | \n", "8.0 | \n", "65.729972 | \n", "0.950038 | \n", "56.0 | \n", "4522 | \n", "0.282655 | \n", "
4462059.0 | \n", "9.0 | \n", "63.848556 | \n", "0.922844 | \n", "21.0 | \n", "8831 | \n", "0.551997 | \n", "
1058799.0 | \n", "10.0 | \n", "63.826366 | \n", "0.922524 | \n", "122.0 | \n", "2636 | \n", "0.164768 | \n", "
\n", " | Rankings | \n", "Percentage Amount (%) | \n", "Relevance - Sales (%) | \n", "Relevance - Revenue (%) | \n", "
---|---|---|---|---|
0 | \n", "TOP 1 produtores que mais vendem | \n", "0.01 | \n", "2.58 | \n", "0.61 | \n", "
1 | \n", "TOP 5 produtores que mais vendem | \n", "0.06 | \n", "11.22 | \n", "4.81 | \n", "
2 | \n", "TOP 10 produtores que mais vendem | \n", "0.12 | \n", "17.61 | \n", "7.34 | \n", "
3 | \n", "TOP 30 produtores que mais vendem | \n", "0.37 | \n", "29.59 | \n", "17.91 | \n", "
4 | \n", "TOP 60 produtores que mais vendem | \n", "0.75 | \n", "39.46 | \n", "25.86 | \n", "
5 | \n", "TOP 100 produtores que mais vendem | \n", "1.25 | \n", "48.55 | \n", "36.00 | \n", "
6 | \n", "TOP 180 produtores que mais vendem | \n", "2.24 | \n", "60.18 | \n", "52.39 | \n", "
7 | \n", "TOP 300 produtores que mais vendem | \n", "3.74 | \n", "70.38 | \n", "65.01 | \n", "
8 | \n", "TOP 500 produtores que mais vendem | \n", "6.23 | \n", "79.79 | \n", "75.79 | \n", "
9 | \n", "TOP 1000 produtores que mais vendem | \n", "12.47 | \n", "89.94 | \n", "88.84 | \n", "
10 | \n", "TOP 2000 produtores que mais vendem | \n", "24.94 | \n", "96.34 | \n", "96.28 | \n", "
11 | \n", "TOP 5000 produtores que mais vendem | \n", "62.34 | \n", "99.64 | \n", "99.73 | \n", "
\n", " | Rankings | \n", "Percentage Amount (%) | \n", "Relevance - Sales (%) | \n", "Relevance - Revenue (%) | \n", "
---|---|---|---|---|
0 | \n", "TOP 1 produtores que mais faturam | \n", "0.01 | \n", "0.83 | \n", "3.66 | \n", "
1 | \n", "TOP 5 produtores que mais faturam | \n", "0.06 | \n", "4.23 | \n", "9.28 | \n", "
2 | \n", "TOP 10 produtores que mais faturam | \n", "0.12 | \n", "7.60 | \n", "14.09 | \n", "
3 | \n", "TOP 30 produtores que mais faturam | \n", "0.37 | \n", "22.05 | \n", "28.03 | \n", "
4 | \n", "TOP 60 produtores que mais faturam | \n", "0.75 | \n", "29.62 | \n", "40.92 | \n", "
5 | \n", "TOP 100 produtores que mais faturam | \n", "1.25 | \n", "34.69 | \n", "51.15 | \n", "
6 | \n", "TOP 180 produtores que mais faturam | \n", "2.24 | \n", "47.48 | \n", "63.91 | \n", "
7 | \n", "TOP 300 produtores que mais faturam | \n", "3.74 | \n", "59.52 | \n", "74.52 | \n", "
8 | \n", "TOP 500 produtores que mais faturam | \n", "6.23 | \n", "72.18 | \n", "84.11 | \n", "
9 | \n", "TOP 1000 produtores que mais faturam | \n", "12.47 | \n", "84.69 | \n", "93.33 | \n", "
10 | \n", "TOP 2000 produtores que mais faturam | \n", "24.94 | \n", "94.06 | \n", "98.08 | \n", "
11 | \n", "TOP 5000 produtores que mais faturam | \n", "62.34 | \n", "99.32 | \n", "99.92 | \n", "
O gráfico acima fornece informações similiares àquele apresentado na segmentação por produto. Todavia, convém ressaltar a superioridade do futaramento gerado pelo maior produtor (ponto vermelho na parte mais superior do gráfico) em relação à todos os outros produtores.
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", " | revenue | \n", "
---|---|
dts | \n", "\n", " |
2015-12-31 | \n", "0.407699 | \n", "
2016-01-01 | \n", "11.826965 | \n", "
2016-01-02 | \n", "24.353144 | \n", "
2016-01-03 | \n", "23.225632 | \n", "
2016-01-04 | \n", "25.074475 | \n", "
2016-01-05 | \n", "23.013493 | \n", "
2016-01-06 | \n", "16.885318 | \n", "
2016-01-07 | \n", "21.994684 | \n", "
2016-01-08 | \n", "38.277038 | \n", "
2016-01-09 | \n", "28.506339 | \n", "
Referência: Introduction to Forecasting with ARIMA in R by Ruslana Dalinina
. \n", "\n", "Conforme foi mencionando na seção introdutória, a sigla ARIMA significa no idioma inglês autoregressive integrated moving average ou modelo auto regressivo integrado de médias móveis no português. Modelos ARIMA não sazonais são geralmente especificados pelos três parâmetros (p,d,q).\n", "\n", "O componente auto regressivo (AR(p)) representa o grau que a série temporal Y é regressada em\n", "seus valores anteriores, ou seja, o parâmetro p especifica a quantidade de valores passados usados no\n", "modelo de regressão. Por exemplo, AR(2) ou ARIMA(2,0,0) é escrito como:Dep. Variable: | revenue | No. Observations: | 150 | \n", "
---|---|---|---|
Model: | SARIMAX(7, 1, 1) | Log Likelihood | -602.933 | \n", "
Date: | Tue, 13 Aug 2019 | AIC | 1223.865 | \n", "
Time: | 23:32:04 | BIC | 1250.468 | \n", "
Sample: | 12-31-2015 | HQIC | 1234.676 | \n", "
- 05-28-2016 | \n", " | ||
Covariance Type: | opg | \n", " |
coef | std err | z | P>|z| | [0.025 | 0.975] | \n", "|
---|---|---|---|---|---|---|
ar.L1 | -0.0711 | 0.694 | -0.102 | 0.918 | -1.431 | 1.288 | \n", "
ar.L2 | -0.4009 | 0.336 | -1.194 | 0.232 | -1.059 | 0.257 | \n", "
ar.L3 | -0.2147 | 0.512 | -0.419 | 0.675 | -1.218 | 0.789 | \n", "
ar.L4 | -0.2042 | 0.361 | -0.565 | 0.572 | -0.912 | 0.504 | \n", "
ar.L5 | -0.3155 | 0.355 | -0.888 | 0.374 | -1.012 | 0.381 | \n", "
ar.L6 | -0.1528 | 0.445 | -0.343 | 0.731 | -1.025 | 0.719 | \n", "
ar.L7 | 0.3206 | 0.299 | 1.073 | 0.283 | -0.265 | 0.906 | \n", "
ma.L1 | -0.3643 | 0.718 | -0.507 | 0.612 | -1.772 | 1.044 | \n", "
sigma2 | 285.1821 | 16.448 | 17.339 | 0.000 | 252.945 | 317.419 | \n", "
Ljung-Box (Q): | 20.47 | Jarque-Bera (JB): | 947.18 | \n", "
---|---|---|---|
Prob(Q): | 1.00 | Prob(JB): | 0.00 | \n", "
Heteroskedasticity (H): | 1.79 | Skew: | 2.22 | \n", "
Prob(H) (two-sided): | 0.05 | Kurtosis: | 14.85 | \n", "