# Decision Tree를 활용한 Iris 데이터 분류

### 1) scikit 활용한 Iris(붓꽃) Data Set 로드

- 요구되는 패키지
 - pydot2
- 요구되는 프로그램
 - GraphViz: http://www.graphviz.org/
 - MAC에서 설치하는 방법
 - brew install graphviz

In [1]:
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.externals.six import StringIO

iris = load_iris()
print type(iris)




In [2]:
iris.data

array([[ 5.1, 3.5, 1.4, 0.2],
 [ 4.9, 3. , 1.4, 0.2],
 [ 4.7, 3.2, 1.3, 0.2],
 [ 4.6, 3.1, 1.5, 0.2],
 [ 5. , 3.6, 1.4, 0.2],
 [ 5.4, 3.9, 1.7, 0.4],
 [ 4.6, 3.4, 1.4, 0.3],
 [ 5. , 3.4, 1.5, 0.2],
 [ 4.4, 2.9, 1.4, 0.2],
 [ 4.9, 3.1, 1.5, 0.1],
 [ 5.4, 3.7, 1.5, 0.2],
 [ 4.8, 3.4, 1.6, 0.2],
 [ 4.8, 3. , 1.4, 0.1],
 [ 4.3, 3. , 1.1, 0.1],
 [ 5.8, 4. , 1.2, 0.2],
 [ 5.7, 4.4, 1.5, 0.4],
 [ 5.4, 3.9, 1.3, 0.4],
 [ 5.1, 3.5, 1.4, 0.3],
 [ 5.7, 3.8, 1.7, 0.3],
 [ 5.1, 3.8, 1.5, 0.3],
 [ 5.4, 3.4, 1.7, 0.2],
 [ 5.1, 3.7, 1.5, 0.4],
 [ 4.6, 3.6, 1. , 0.2],
 [ 5.1, 3.3, 1.7, 0.5],
 [ 4.8, 3.4, 1.9, 0.2],
 [ 5. , 3. , 1.6, 0.2],
 [ 5. , 3.4, 1.6, 0.4],
 [ 5.2, 3.5, 1.5, 0.2],
 [ 5.2, 3.4, 1.4, 0.2],
 [ 4.7, 3.2, 1.6, 0.2],
 [ 4.8, 3.1, 1.6, 0.2],
 [ 5.4, 3.4, 1.5, 0.4],
 [ 5.2, 4.1, 1.5, 0.1],
 [ 5.5, 4.2, 1.4, 0.2],
 [ 4.9, 3.1, 1.5, 0.1],
 [ 5. , 3.2, 1.2, 0.2],
 [ 5.5, 3.5, 1.3, 0.2],
 [ 4.9, 3.1, 1.5, 0.1],
 [ 4.4, 3. , 1.3, 0.2],
 [ 5.1, 3.4, 1.5, 0.2],
 [ 5. , 3.5, 1.3, 0.3],
 [ 4.5, 2.

In [3]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 2) DecisionTreeClassifier를 활용한 결정 트리 분류

- classifier (clf) 객체 생성 및 학습
 - DecisionTreeClassifier 객체 활용
 - criterion
 - 'gini': Gini impurity
 - 'entropy': information gain

In [4]:
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(iris.data, iris.target)

In [5]:
with open("iris.dot", 'w') as f:
 tree.export_graphviz(clf, out_file=f)

- 위 코드까지 수행하면 동일 디렉토리에 iris.dot 파일이 생성됨
- 콘솔에서 다음 명령어로 각종 이미지 파일을 만들 수 있음
 - dot -Tpdf iris.dot > iris.pdf
 - dot -Tpng iris.dot > iris.png

- classifier (clf) 객체를 활용한 새로운 데이터에 대한 분류 추론
 - predict 함수 활용

In [6]:
iris.data[:1]

array([[ 5.1, 3.5, 1.4, 0.2]])

In [7]:
clf.predict(iris.data[:1])

array([0])

In [8]:
iris.target_names[clf.predict(iris.data[:1])]

array(['setosa'], 
 dtype='|S10')

In [6]:
clf.predict_proba(iris.data[:1])

array([[ 1., 0., 0.]])

In [11]:
clf.predict_proba(iris.data[40:110])

array([[ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 1., 0., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 1., 0.],
 [ 0., 0., 1.],
 [ 0., 0., 1.],
 [