<a href="https://colab.research.google.com/github/jackson-gaivota/challenge_alura_DS/blob/main/challenge_alura_DS_2022_05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Challenge Alura - Data Science

**Boas-vindas!**

Você foi contratado(a) como cientista de dados pela operadora de telecomunicações **Alura Voz**. Na reunião inicial com as pessoas responsáveis pela área de vendas da empresa, foi explicada a importância de se **reduzir a Taxa de Evasão** de Clientes, conhecido como **Churn Rate**. Basicamente, o Churn Rate indica o quanto a empresa perdeu de receita ou clientes em um período de tempo.

Com sua experiência, você sugere, como passo inicial, a identificação de clientes que teriam uma maior chance de deixar a empresa. Para isso, você explica que é interessante investigar algumas características de clientes ou dos planos de clientes para tentar **CLASSIFICAR** estas pessoas como potenciais candidatas a deixar a empresa ou não.

Assim, você solicita o conjunto de dados para começar a explorar, tratar e modelar a partir de agora. Em seguida, o foco será na otimização de cada um dos modelos com a finalidade de obter o melhor resultado para a tomada de decisão da **Alura Voz**. 

Por fim, você vai utilizar o **GitHub** e desenvolverá um **portfólio** focado em Data Science e Machine Learning.

# Semana 1

Na semana 1 o foco será em conhecer a base dados originada da API da **Alura Voz**, explorando as variáveis e corrigindo possíveis inconsistências. Para isso, é importante visualizar o dicionário das variáveis que iremos trabalhar.

#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa 
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [19]:
# importando pacotes e lendo base de dados
import pandas as pd
pd.set_option('display.max_columns', 100)

raw_data = pd.read_json('https://raw.githubusercontent.com/jackson-simionato/challenge_alura_DS01/main/alura-voz/Dados/Telco-Customer-Churn.json')
raw_data

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


Como foi possível observar acima, uma série de variáveis foi agrupada em subcategorias: *customer*, *phone*, *internet* e *account*.

Nesse caso, precisamos desagregar tais variáveis em dataframes separados, para então concatenar tudo em um dataframe final.

# Desagregar as colunas da base de dados

In [20]:
# Dataframes individuais
customer_data = pd.json_normalize(raw_data.customer)
phone_data = pd.json_normalize(raw_data.phone)
internet_data = pd.json_normalize(raw_data.internet)
account_data = pd.json_normalize(raw_data.account)

# Concatenação de todos os dataframes
dados = pd.concat([raw_data[['customerID','Churn']], customer_data, phone_data, internet_data, account_data], axis=1)
print(dados.shape)
display(dados.head())

(7267, 21)


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Com todas as variáveis sendo apresentadas corretamente no nosso DataFrame, podemos começar a conhecer e entender melhor nossos dados.

# Conhecendo e entendendo os dados

Para facilitar a compreensão das variáveis e suas informações, vamos traduzir o nome das colunas de acordo com o dicionário disponibilizado

#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa 
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [21]:
# Criação das listas com nomes antigos e novos das colunas
old_columns = dados.columns
new_columns =['id_cliente','churn','genero','idoso','parceiro','dependentes','meses_contrato','servico_telefone','multiplas_linhas','servico_internet','seguranca_online','backup_online',
'protecao_dispositivo','suporte','streaming_tv','streaming_filmes','contrato','fatura_online','forma_pagamento','cobranca_mensal','cobranca_total']

print(len(old_columns) == len(new_columns))

# Criação dicionário que irá renomear as colunas
dict_rename_columns = dict(zip(old_columns,new_columns))

# Renomeação das colunas
dados.rename(columns=dict_rename_columns, inplace=True)

True


In [22]:
#Tradução dos valores do dataset, padrozinando para PT-BR

dados = dados.replace({'No':'Não','Yes':'Sim','Male':'Masculino','Female':'Feminino','Fiber optic':'Fibra ótica','Month-to-month':'Mensal','One year':'Anual','Two year':'Bienal',
'Mailed check':'Cheque por correio', 'Electronic check': 'Cheque eletrônico', 'Credit card (automatic)':'Cartão de crédito (automático)','Bank transfer (automatic)':'Transferência bancária (automático)',
'No phone service':'Sem serviço telefônico','No internet service':'Sem serviço de internet'})

dados

Unnamed: 0,id_cliente,churn,genero,idoso,parceiro,dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte,streaming_tv,streaming_filmes,contrato,fatura_online,forma_pagamento,cobranca_mensal,cobranca_total
0,0002-ORFBO,Não,Feminino,0,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Anual,Sim,Cheque por correio,65.60,593.3
1,0003-MKNFE,Não,Masculino,0,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque por correio,59.90,542.4
2,0004-TLHLJ,Sim,Masculino,0,Não,Não,4,Sim,Não,Fibra ótica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,73.90,280.85
3,0011-IGKFF,Sim,Masculino,1,Sim,Não,13,Sim,Não,Fibra ótica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,98.00,1237.85
4,0013-EXCHZ,Sim,Feminino,1,Sim,Não,3,Sim,Não,Fibra ótica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque por correio,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,Não,Feminino,0,Não,Não,13,Sim,Não,DSL,Sim,Não,Não,Sim,Não,Não,Anual,Não,Cheque por correio,55.15,742.9
7263,9992-RRAMN,Sim,Masculino,0,Sim,Não,22,Sim,Sim,Fibra ótica,Não,Não,Não,Não,Não,Sim,Mensal,Sim,Cheque eletrônico,85.10,1873.7
7264,9992-UJOEL,Não,Masculino,0,Não,Não,2,Sim,Não,DSL,Não,Sim,Não,Não,Não,Não,Mensal,Sim,Cheque por correio,50.30,92.75
7265,9993-LHIEB,Não,Masculino,0,Sim,Sim,67,Sim,Não,DSL,Sim,Não,Sim,Sim,Não,Sim,Bienal,Não,Cheque por correio,67.85,4627.65


In [23]:
# Visualização das colunas renomeadas e respectivos tipos de dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   churn                 7267 non-null   object 
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   parceiro              7267 non-null   object 
 5   dependentes           7267 non-null   object 
 6   meses_contrato        7267 non-null   int64  
 7   servico_telefone      7267 non-null   object 
 8   multiplas_linhas      7267 non-null   object 
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   object 
 13  suporte               7267 non-null   object 
 14  streaming_tv          7267 non-null   object 
 15  streaming_filmes     

Percebe-se que não existem valores NaN no nosso dataset e ainda que ocorrem apenas três variáveis numéricas. Vamos analisá-las primeiro

In [24]:
# Apesar de ser numérica, a variável "idoso" representa uma classificação dos usuários quanto à idade (0 = idade menor que 65 anos; 1 = idade maior que 65 anos). 
# Neste caso de variável categórica, o mais indicado seria usar tipo string ("Yes" e "No").
print(dados.idoso.value_counts())

0    6085
1    1182
Name: idoso, dtype: int64


In [25]:
# Já os valores das variáveis "meses_contrato" e "cobranca_mensal" representam efetivamente números.
print(f'Média de meses de contrato: {round(dados.meses_contrato.mean(),2)} meses')
print(f"Mediana do valor de cobrança mensal: {round(dados.cobranca_mensal.median(),2)}")

Média de meses de contrato: 32.35 meses
Mediana do valor de cobrança mensal: 70.3


In [26]:
# A outra variável que traz informação do preço cobrado de cada cliente não está com tipo de dado numérico
print(dados.cobranca_total.dtypes)

# Analisando com mais detalhe é possível identificar uma nova inconsistência: os números estão sendo lidos como strings
print(type(dados.loc[0,'cobranca_total']))

object
<class 'str'>


Com isso vimos duas inconsistências relacionadas às categorias numéricas. Mais à frente vamos trabalhar na correção destes erros.

Agora vamos olhar para as variáveis categóricas presentes no nosso dataset.

In [27]:
colunas_categoricas = [i for i in list(dados.columns) if i not in ['idoso','meses_contrato','cobranca_mensal','cobranca_total']]

for coluna in colunas_categoricas:
    print(dados[coluna].unique())

['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
['Não' 'Sim' '']
['Feminino' 'Masculino']
['Sim' 'Não']
['Sim' 'Não']
['Sim' 'Não']
['Não' 'Sim' 'Sem serviço telefônico']
['DSL' 'Fibra ótica' 'Não']
['Não' 'Sim' 'Sem serviço de internet']
['Sim' 'Não' 'Sem serviço de internet']
['Não' 'Sim' 'Sem serviço de internet']
['Sim' 'Não' 'Sem serviço de internet']
['Sim' 'Não' 'Sem serviço de internet']
['Não' 'Sim' 'Sem serviço de internet']
['Anual' 'Mensal' 'Bienal']
['Sim' 'Não']
['Cheque por correio' 'Cheque eletrônico' 'Cartão de crédito (automático)'
 'Transferência bancária (automático)']


Na celula acima é possível ver apenas uma inconsistência nos valores dos atributos, presente justamente na variável "churn".

"Churn" é a nossa variável principal, chamada de atributo classe, e está com alguns valores vazios que precisarão ser corrigidos.

In [28]:
# Identificação de valores nulos no atributo "churn"
print(dados.churn.unique())
print(dados.churn.value_counts())

['Não' 'Sim' '']
Não    5174
Sim    1869
        224
Name: churn, dtype: int64


# Corrigindo as incosistências

## Corrigindo as inconsistências: `idoso`

In [29]:
# Neste caso vamos fazer uma simples conversão de 0/1 para "No"/"Yes"
dados.loc[dados.idoso == 0, 'idoso'] = "Não"
dados.loc[dados.idoso == 1, 'idoso'] = "Sim"

print(dados.idoso.value_counts())

Não    6085
Sim    1182
Name: idoso, dtype: int64


## Corrigindo as inconsistências: `cobranca_total`

In [30]:
# Primeiro vamos tentar uma conversão direta da coluna de string para float
dados.cobranca_total == dados.cobranca_total.astype(float)

ValueError: could not convert string to float: 

Vimos que não é possível a conversão direta, possivelmente por conta da presença de valores não numéricos na coluna "cobranca_total"

In [31]:
# Para converter a coluna para numerico vamos usar a função pandas.to_numeric. Nela é possível tratar os valores impossíveis de serem convertidos para número (caracteres especiais, espaços em branco, etc.)
# Vamos utilizar o parâmetro que preenche tais casos com NaN
dados.cobranca_total = pd.to_numeric(dados['cobranca_total'], errors='coerce')

# Agora temos mais uma coluna numérica
dados.cobranca_total.dtypes

display(dados.query('cobranca_total.isnull()', engine='python'))

Unnamed: 0,id_cliente,churn,genero,idoso,parceiro,dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte,streaming_tv,streaming_filmes,contrato,fatura_online,forma_pagamento,cobranca_mensal,cobranca_total
975,1371-DWPAZ,Não,Feminino,Não,Sim,Sim,0,Não,Sem serviço telefônico,DSL,Sim,Sim,Sim,Sim,Sim,Não,Bienal,Não,Cartão de crédito (automático),56.05,
1775,2520-SGTTA,Não,Feminino,Não,Sim,Sim,0,Sim,Não,Não,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Bienal,Não,Cheque por correio,20.0,
1955,2775-SEFEE,Não,Masculino,Não,Não,Sim,0,Sim,Sim,DSL,Sim,Sim,Não,Sim,Não,Não,Bienal,Sim,Transferência bancária (automático),61.9,
2075,2923-ARZLG,Não,Masculino,Não,Sim,Sim,0,Sim,Não,Não,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Anual,Sim,Cheque por correio,19.7,
2232,3115-CZMZD,Não,Masculino,Não,Não,Sim,0,Sim,Não,Não,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Bienal,Não,Cheque por correio,20.25,
2308,3213-VVOLG,Não,Masculino,Não,Sim,Sim,0,Sim,Sim,Não,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Bienal,Não,Cheque por correio,25.35,
2930,4075-WKNIU,Não,Feminino,Não,Sim,Sim,0,Sim,Sim,DSL,Não,Sim,Sim,Sim,Sim,Não,Bienal,Não,Cheque por correio,73.35,
3134,4367-NUYAO,Não,Masculino,Não,Sim,Sim,0,Sim,Sim,Não,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Sem serviço de internet,Bienal,Não,Cheque por correio,25.75,
3203,4472-LVYGI,Não,Feminino,Não,Sim,Sim,0,Não,Sem serviço telefônico,DSL,Sim,Não,Sim,Sim,Sim,Não,Bienal,Sim,Transferência bancária (automático),52.55,
4169,5709-LVOEQ,Não,Feminino,Não,Sim,Sim,0,Sim,Não,DSL,Sim,Sim,Sim,Não,Sim,Sim,Bienal,Não,Cheque por correio,80.85,


Vemos acima que no total 11 linhas do dataset estavam com valores incosistentes na coluna `cobranca_total` e agora estão com valores nulos.

Analisando a coluna `meses_contrato`, percebe-se que o valor é 0 para todos os casos, por esse motivo a cobrança total ainda não tem nenhum valor.

Como medida de correção para esta nova insconsistência, vamos considerar que o valor mínimo de cobrança é o valor de cobrança mensal de cada cliente.

In [37]:
query = dados.query('cobranca_total.isnull()', engine='python').index
dados.loc[query, 'cobranca_total'] = dados.loc[query, 'cobranca_mensal']

display(dados.query('cobranca_total.isnull()', engine='python'))

Unnamed: 0,id_cliente,churn,genero,idoso,parceiro,dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte,streaming_tv,streaming_filmes,contrato,fatura_online,forma_pagamento,cobranca_mensal,cobranca_total


## Corrigindo inconsistências: `churn`

In [38]:
print(dados.churn.value_counts())

Não    5174
Sim    1869
        224
Name: churn, dtype: int64


Para evitar a perda de informações, nesta análise vamos tratar os valores em branco como uma nova classe chamada 'undefined'.

Desta forma não vamos perder informações de mais de 224 clientes na nossa análise e poderemos, inclusive, tentar encontrar um padrão nos clientes que estão sem informação de churn

In [39]:
dados.loc[dados.churn == '', 'churn'] = 'Indefinido'

print(dados.churn.value_counts())

Não           5174
Sim           1869
Indefinido     224
Name: churn, dtype: int64


# Cálculo do atributo de cobrança diária

Através do atributo `cobranca_mensal` podemos chegar facilmente ao novo atributo `cobranca_diaria`.

Esta nova variável indicará o quanto cada cliente gasta por dia.

In [40]:
# Criação de pandas.Series com os valores do novo atributo
cobranca_diaria = round((dados.cobranca_mensal / 30), 2)
print(type(cobranca_diaria))
print(cobranca_diaria[0:5])

<class 'pandas.core.series.Series'>
0    2.19
1    2.00
2    2.46
3    3.27
4    2.80
Name: cobranca_mensal, dtype: float64


Agora basta inserir a pandas.Series na posição desejada. Aqui vamos inserir na posição *19* para que o atributo fique próximo das outras variáveis de cobrança

In [41]:
dados.insert(19,'cobranca_diaria', cobranca_diaria)
dados

Unnamed: 0,id_cliente,churn,genero,idoso,parceiro,dependentes,meses_contrato,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte,streaming_tv,streaming_filmes,contrato,fatura_online,forma_pagamento,cobranca_diaria,cobranca_mensal,cobranca_total
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Anual,Sim,Cheque por correio,2.19,65.60,593.30
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque por correio,2.00,59.90,542.40
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra ótica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,2.46,73.90,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra ótica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,3.27,98.00,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra ótica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque por correio,2.80,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,Não,Feminino,Não,Não,Não,13,Sim,Não,DSL,Sim,Não,Não,Sim,Não,Não,Anual,Não,Cheque por correio,1.84,55.15,742.90
7263,9992-RRAMN,Sim,Masculino,Não,Sim,Não,22,Sim,Sim,Fibra ótica,Não,Não,Não,Não,Não,Sim,Mensal,Sim,Cheque eletrônico,2.84,85.10,1873.70
7264,9992-UJOEL,Não,Masculino,Não,Não,Não,2,Sim,Não,DSL,Não,Sim,Não,Não,Não,Não,Mensal,Sim,Cheque por correio,1.68,50.30,92.75
7265,9993-LHIEB,Não,Masculino,Não,Sim,Sim,67,Sim,Não,DSL,Sim,Não,Sim,Sim,Não,Sim,Bienal,Não,Cheque por correio,2.26,67.85,4627.65


## Exportando base de dados processada

In [42]:
dados.to_csv('./data_churn_rate_processed.csv', index=False)