# Árvores de Decisão com Python: Base de Dados Risco de Crédito
### Implementando o algoritmo de árvores de decisão usando a base de dados "Risco de Crédito" para classificar riscos de empréstimos

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

In [2]:
# atribuindo ao "dataframe" todos os registros da base de dados
dataframe = pd.read_csv("risco_credito.csv", encoding = "utf-8", sep = ",")

In [3]:
# visualizando a base de dados
dataframe

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


In [4]:
# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 0:4].values
meta_classe = dataframe.iloc[:, 4].values

In [5]:
# visualizando os atributos previsores
print(previsores)

[['ruim' 'alta' 'nenhuma' '0_15']
 ['desconhecida' 'alta' 'nenhuma' '15_35']
 ['desconhecida' 'baixa' 'nenhuma' '15_35']
 ['desconhecida' 'baixa' 'nenhuma' 'acima_35']
 ['desconhecida' 'baixa' 'nenhuma' 'acima_35']
 ['desconhecida' 'baixa' 'adequada' 'acima_35']
 ['ruim' 'baixa' 'nenhuma' '0_15']
 ['ruim' 'baixa' 'adequada' 'acima_35']
 ['boa' 'baixa' 'nenhuma' 'acima_35']
 ['boa' 'alta' 'adequada' 'acima_35']
 ['boa' 'alta' 'nenhuma' '0_15']
 ['boa' 'alta' 'nenhuma' '15_35']
 ['boa' 'alta' 'nenhuma' 'acima_35']
 ['ruim' 'alta' 'nenhuma' '15_35']]


In [6]:
# visualizando os atributos meta classe
print(meta_classe)

['alto' 'alto' 'moderado' 'alto' 'baixo' 'baixo' 'alto' 'moderado' 'baixo'
 'baixo' 'alto' 'moderado' 'baixo' 'alto']


In [7]:
# importando a biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder

In [8]:
# definindo e configurando o objeto "labelencoder"
labelencoder = LabelEncoder()

In [9]:
# transformando as variáveis categóricas em numéricas, nos previsores, usando o objeto "labelencoder" 
# criado
previsores[:, 0] = labelencoder.fit_transform(previsores[:, 0])
previsores[:, 1] = labelencoder.fit_transform(previsores[:, 1])
previsores[:, 2] = labelencoder.fit_transform(previsores[:, 2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])

In [10]:
# visualizando os atributos previsores
print(previsores)

[[2 0 1 0]
 [1 0 1 1]
 [1 1 1 1]
 [1 1 1 2]
 [1 1 1 2]
 [1 1 0 2]
 [2 1 1 0]
 [2 1 0 2]
 [0 1 1 2]
 [0 0 0 2]
 [0 0 1 0]
 [0 0 1 1]
 [0 0 1 2]
 [2 0 1 1]]


In [11]:
# importando a biblioteca sklearn do python
from sklearn.tree import DecisionTreeClassifier

In [12]:
# configurando e definindo o objeto "classificador"
classificador = DecisionTreeClassifier(criterion = "entropy")

In [13]:
# fazendo o treinamento com a base de dados no objeto criado "classificador". Nele, será criado a árvore de
# decisão
classificador.fit(previsores, meta_classe)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='entropy',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [14]:
# observando o resultando de ganho para cada um dos campos de dados. O maior valor tem mais relevância na
# hierárquia da árvore de decisão
print(classificador.feature_importances_)

[0.48015651 0.03885431 0.03885431 0.44213486]


|**Valor de ganho na hierárquia da árvore de decisões**|
|:-----------------------------------------------------|
|1 - Renda|
|2 - História|
|3 - Dívida|
|4 - Garantias|

In [24]:
# importando a biblioteca sklearn do python
from sklearn.tree import DecisionTreeClassifier, export

In [16]:
# criando o arquivo "arvore.dot" com códigos renderizáveis no Graphviz
export.export_graphviz(classificador, out_file = 'arvore.dot', 
                       feature_names = ['história', 'dívidas', 'garantia', 'renda'],
                       class_names = ['alto', 'moderado', 'baixo'],
                       filled = True, leaves_parallel = True)

#### Links para o Graphviz

- [Graphviz Online](https://dreampuf.github.io/GraphvizOnline/);

- [Árvore de Decisão para a base de dados risco de crédito](https://dreampuf.github.io/GraphvizOnline/#digraph%20Tree%20%7B%0Anode%20%5Bshape%3Dbox%2C%20style%3D%22filled%22%2C%20color%3D%22black%22%5D%20%3B%0Agraph%20%5Branksep%3Dequally%2C%20splines%3Dpolyline%5D%20%3B%0A0%20%5Blabel%3D%22renda%20%3C%3D%201.5%5Cnentropy%20%3D%201.531%5Cnsamples%20%3D%2014%5Cnvalue%20%3D%20%5B6%2C%205%2C%203%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23fcf1e9%22%5D%20%3B%0A1%20%5Blabel%3D%22hist%C3%B3ria%20%3C%3D%201.5%5Cnentropy%20%3D%200.863%5Cnsamples%20%3D%207%5Cnvalue%20%3D%20%5B5%2C%200%2C%202%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23efb388%22%5D%20%3B%0A0%20-%3E%201%20%5Blabeldistance%3D2.5%2C%20labelangle%3D45%2C%20headlabel%3D%22True%22%5D%20%3B%0A2%20%5Blabel%3D%22renda%20%3C%3D%200.5%5Cnentropy%20%3D%201.0%5Cnsamples%20%3D%204%5Cnvalue%20%3D%20%5B2%2C%200%2C%202%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23ffffff%22%5D%20%3B%0A1%20-%3E%202%20%3B%0A3%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B1%2C%200%2C%200%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23e58139%22%5D%20%3B%0A2%20-%3E%203%20%3B%0A4%20%5Blabel%3D%22d%C3%ADvidas%20%3C%3D%200.5%5Cnentropy%20%3D%200.918%5Cnsamples%20%3D%203%5Cnvalue%20%3D%20%5B1%2C%200%2C%202%5D%5Cnclass%20%3D%20baixo%22%2C%20fillcolor%3D%22%23c09cf2%22%5D%20%3B%0A2%20-%3E%204%20%3B%0A5%20%5Blabel%3D%22hist%C3%B3ria%20%3C%3D%200.5%5Cnentropy%20%3D%201.0%5Cnsamples%20%3D%202%5Cnvalue%20%3D%20%5B1%2C%200%2C%201%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23ffffff%22%5D%20%3B%0A4%20-%3E%205%20%3B%0A6%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B0%2C%200%2C%201%5D%5Cnclass%20%3D%20baixo%22%2C%20fillcolor%3D%22%238139e5%22%5D%20%3B%0A5%20-%3E%206%20%3B%0A7%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B1%2C%200%2C%200%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23e58139%22%5D%20%3B%0A5%20-%3E%207%20%3B%0A8%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B0%2C%200%2C%201%5D%5Cnclass%20%3D%20baixo%22%2C%20fillcolor%3D%22%238139e5%22%5D%20%3B%0A4%20-%3E%208%20%3B%0A9%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%203%5Cnvalue%20%3D%20%5B3%2C%200%2C%200%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23e58139%22%5D%20%3B%0A1%20-%3E%209%20%3B%0A10%20%5Blabel%3D%22hist%C3%B3ria%20%3C%3D%201.5%5Cnentropy%20%3D%201.149%5Cnsamples%20%3D%207%5Cnvalue%20%3D%20%5B1%2C%205%2C%201%5D%5Cnclass%20%3D%20moderado%22%2C%20fillcolor%3D%22%237beeab%22%5D%20%3B%0A0%20-%3E%2010%20%5Blabeldistance%3D2.5%2C%20labelangle%3D-45%2C%20headlabel%3D%22False%22%5D%20%3B%0A11%20%5Blabel%3D%22hist%C3%B3ria%20%3C%3D%200.5%5Cnentropy%20%3D%200.65%5Cnsamples%20%3D%206%5Cnvalue%20%3D%20%5B1%2C%205%2C%200%5D%5Cnclass%20%3D%20moderado%22%2C%20fillcolor%3D%22%2361ea9a%22%5D%20%3B%0A10%20-%3E%2011%20%3B%0A12%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%203%5Cnvalue%20%3D%20%5B0%2C%203%2C%200%5D%5Cnclass%20%3D%20moderado%22%2C%20fillcolor%3D%22%2339e581%22%5D%20%3B%0A11%20-%3E%2012%20%3B%0A13%20%5Blabel%3D%22garantia%20%3C%3D%200.5%5Cnentropy%20%3D%200.918%5Cnsamples%20%3D%203%5Cnvalue%20%3D%20%5B1%2C%202%2C%200%5D%5Cnclass%20%3D%20moderado%22%2C%20fillcolor%3D%22%239cf2c0%22%5D%20%3B%0A11%20-%3E%2013%20%3B%0A14%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B0%2C%201%2C%200%5D%5Cnclass%20%3D%20moderado%22%2C%20fillcolor%3D%22%2339e581%22%5D%20%3B%0A13%20-%3E%2014%20%3B%0A15%20%5Blabel%3D%22entropy%20%3D%201.0%5Cnsamples%20%3D%202%5Cnvalue%20%3D%20%5B1%2C%201%2C%200%5D%5Cnclass%20%3D%20alto%22%2C%20fillcolor%3D%22%23ffffff%22%5D%20%3B%0A13%20-%3E%2015%20%3B%0A16%20%5Blabel%3D%22entropy%20%3D%200.0%5Cnsamples%20%3D%201%5Cnvalue%20%3D%20%5B0%2C%200%2C%201%5D%5Cnclass%20%3D%20baixo%22%2C%20fillcolor%3D%22%238139e5%22%5D%20%3B%0A10%20-%3E%2016%20%3B%0A%7Brank%3Dsame%20%3B%200%7D%20%3B%0A%7Brank%3Dsame%20%3B%201%3B%2010%7D%20%3B%0A%7Brank%3Dsame%20%3B%202%3B%2011%7D%20%3B%0A%7Brank%3Dsame%20%3B%204%3B%2013%7D%20%3B%0A%7Brank%3Dsame%20%3B%205%7D%20%3B%0A%7Brank%3Dsame%20%3B%203%3B%206%3B%207%3B%208%3B%209%3B%2012%3B%2014%3B%2015%3B%2016%7D%20%3B%0A%7D);

![Árvore de Decisão para a base de dados Risco de Crédito](Graphviz/graphviz.png)

|**Cliente com Baixo Risco**|
|:-------------------------------------|
|História de Crédito: **Boa** (0)|
|Dívida: **Alta** (0)|
|Garantias: **Nenhuma** (1)|
|Renda: **>35** (2)|

|**Cliente de Alto Risco**|
|:-------------------------------------|
|História de Crédito: **Ruim** (2)|
|Dívida: **Alta** (0)|
|Garantias: **Adequada** (0)|
|Renda: **<15** (0)|

In [17]:
# avaliando o noss algoritmo para os dois cliente com os registros acima
resultado = classificador.predict([[0,0,1,2], [2,0,0,0]])

In [18]:
# observando so resultados para os dois cliente acima
print(resultado)

['baixo' 'alto']


In [19]:
# observando as classes do objeto "classificador"
print(classificador.classes_)

['alto' 'baixo' 'moderado']


In [21]:
# função para análise de riscos em empréstimos
def risco_creditos(historia, divida, garantia, renda):
    
    if(historia == "boa"):
        historia = 0
    elif(historia == "ruim"):
        historia = 2
    elif(historia == "desconhecida"):
        historia = 1
        
    if(divida == "alta"):
        divida = 0
    elif(divida == "baixa"):
        divida = 1
    
    if(garantia == "adequada"):
        garantia = 1
    elif(garantia == "nenhuma"):
        garantia = 0
        
    if(renda == "0_15"):
        renda = 0
    elif(renda == "15_35"):
        renda = 1
    elif(renda == "acima_35"):
        renda = 2
        
    retorno = classificador.predict([[historia, divida, garantia, renda]])
    
    print("Risco de Empréstimo: {}".format(retorno))
    
    return

In [22]:
# usando a função criada para fazer a predição do primeiro usuário
risco_creditos(historia = "boa", divida = "alta", garantia = "nenhuma", renda = "acima_35")

Risco de Empréstimo: ['baixo']


In [23]:
# usando a função criada para fazer a predição do segundo usuário
risco_creditos(historia = "ruim", divida = "alta", garantia = "adequada", renda = "0_15")

Risco de Empréstimo: ['alto']


### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)