{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Decision Tree를 활용한 Mushroom 데이터 분류" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1) Mushroom Data Set 로드 및 scikit을 활용하기 위한 데이터 분리" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "collapsed": true }, "outputs": [], "source": [ "import urllib2\n", "from scipy import stats\n", "from pandas import Series, DataFrame\n", "import pandas as pd\n", "import numpy as np\n", "\n", "path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data'\n", "raw_csv = urllib2.urlopen(path)\n", "col_names = range(23)\n", "df = pd.read_csv(raw_csv, names = col_names)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "21 | \n", "22 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "p | \n", "x | \n", "s | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
1 | \n", "e | \n", "x | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "g | \n", "
2 | \n", "e | \n", "b | \n", "s | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
3 | \n", "p | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
4 | \n", "e | \n", "x | \n", "s | \n", "g | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "n | \n", "a | \n", "g | \n", "
5 rows × 23 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "21 | \n", "22 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "x | \n", "s | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
1 | \n", "0 | \n", "x | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "g | \n", "
2 | \n", "0 | \n", "b | \n", "s | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
3 | \n", "1 | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
4 | \n", "0 | \n", "x | \n", "s | \n", "g | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "n | \n", "a | \n", "g | \n", "
5 rows × 23 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "21 | \n", "22 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
1 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "
2 | \n", "1 | \n", "1 | \n", "0 | \n", "2 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "2 | \n", "
3 | \n", "0 | \n", "0 | \n", "1 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
4 | \n", "1 | \n", "0 | \n", "0 | \n", "3 | \n", "1 | \n", "3 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "2 | \n", "1 | \n", "
5 rows × 23 columns
\n", "\n", " | 1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "10 | \n", "... | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "21 | \n", "22 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "1 | \n", "
2 | \n", "1 | \n", "0 | \n", "2 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "2 | \n", "
3 | \n", "0 | \n", "1 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
4 | \n", "0 | \n", "0 | \n", "3 | \n", "1 | \n", "3 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "2 | \n", "1 | \n", "
5 rows × 22 columns
\n", "