{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Mushroom Dataset" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1. Loading Data to Pandas DataFame" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": false }, "outputs": [], "source": [ "import urllib2\n", "from scipy import stats\n", "from pandas import Series, DataFrame\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "%matplotlib inline\n", "\n", "path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data'\n", "raw_csv = urllib2.urlopen(path)\n", "col_names = range(23)\n", "df = pd.read_csv(raw_csv, names = col_names)" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "21 | \n", "22 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "p | \n", "x | \n", "s | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
1 | \n", "e | \n", "x | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "g | \n", "
2 | \n", "e | \n", "b | \n", "s | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
3 | \n", "p | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "u | \n", "
4 | \n", "e | \n", "x | \n", "s | \n", "g | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "n | \n", "a | \n", "g | \n", "
5 | \n", "e | \n", "x | \n", "y | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "n | \n", "g | \n", "
6 | \n", "e | \n", "b | \n", "s | \n", "w | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "g | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "n | \n", "m | \n", "
7 | \n", "e | \n", "b | \n", "y | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "m | \n", "
8 | \n", "p | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "p | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "v | \n", "g | \n", "
9 | \n", "e | \n", "b | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "g | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "m | \n", "
10 | \n", "e | \n", "x | \n", "y | \n", "y | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "g | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "g | \n", "
11 | \n", "e | \n", "x | \n", "y | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "m | \n", "
12 | \n", "e | \n", "b | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "w | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "g | \n", "
13 | \n", "p | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "v | \n", "u | \n", "
14 | \n", "e | \n", "x | \n", "f | \n", "n | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "n | \n", "... | \n", "f | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "k | \n", "a | \n", "g | \n", "
15 | \n", "e | \n", "s | \n", "f | \n", "g | \n", "f | \n", "n | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "y | \n", "u | \n", "
16 | \n", "e | \n", "f | \n", "f | \n", "w | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "n | \n", "a | \n", "g | \n", "
17 | \n", "p | \n", "x | \n", "s | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "g | \n", "
18 | \n", "p | \n", "x | \n", "y | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "u | \n", "
19 | \n", "p | \n", "x | \n", "s | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "u | \n", "
20 | \n", "e | \n", "b | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "m | \n", "
21 | \n", "p | \n", "x | \n", "y | \n", "n | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "v | \n", "g | \n", "
22 | \n", "e | \n", "b | \n", "y | \n", "y | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "s | \n", "m | \n", "
23 | \n", "e | \n", "b | \n", "y | \n", "w | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "w | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
24 | \n", "e | \n", "b | \n", "s | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "g | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "s | \n", "m | \n", "
25 | \n", "p | \n", "f | \n", "s | \n", "w | \n", "t | \n", "p | \n", "f | \n", "c | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "v | \n", "g | \n", "
26 | \n", "e | \n", "x | \n", "y | \n", "y | \n", "t | \n", "a | \n", "f | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
27 | \n", "e | \n", "x | \n", "y | \n", "w | \n", "t | \n", "l | \n", "f | \n", "c | \n", "b | \n", "w | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "n | \n", "m | \n", "
28 | \n", "e | \n", "f | \n", "f | \n", "n | \n", "f | \n", "n | \n", "f | \n", "c | \n", "n | \n", "k | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "k | \n", "y | \n", "u | \n", "
29 | \n", "e | \n", "x | \n", "s | \n", "y | \n", "t | \n", "a | \n", "f | \n", "w | \n", "n | \n", "n | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "p | \n", "n | \n", "v | \n", "d | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
8094 | \n", "e | \n", "b | \n", "s | \n", "g | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "g | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "t | \n", "p | \n", "w | \n", "n | \n", "g | \n", "
8095 | \n", "p | \n", "x | \n", "y | \n", "c | \n", "f | \n", "m | \n", "f | \n", "c | \n", "b | \n", "y | \n", "... | \n", "y | \n", "c | \n", "c | \n", "p | \n", "w | \n", "n | \n", "n | \n", "w | \n", "c | \n", "d | \n", "
8096 | \n", "e | \n", "k | \n", "f | \n", "w | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "w | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "t | \n", "p | \n", "w | \n", "n | \n", "g | \n", "
8097 | \n", "p | \n", "k | \n", "y | \n", "n | \n", "f | \n", "s | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "k | \n", "p | \n", "p | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "l | \n", "
8098 | \n", "p | \n", "k | \n", "s | \n", "e | \n", "f | \n", "y | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "k | \n", "w | \n", "p | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "d | \n", "
8099 | \n", "e | \n", "k | \n", "f | \n", "w | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "w | \n", "... | \n", "k | \n", "w | \n", "w | \n", "p | \n", "w | \n", "t | \n", "p | \n", "w | \n", "s | \n", "g | \n", "
8100 | \n", "e | \n", "f | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "o | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "b | \n", "v | \n", "l | \n", "
8101 | \n", "p | \n", "k | \n", "s | \n", "e | \n", "f | \n", "s | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "s | \n", "p | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "p | \n", "
8102 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "n | \n", "c | \n", "l | \n", "
8103 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "o | \n", "c | \n", "l | \n", "
8104 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "n | \n", "v | \n", "l | \n", "
8105 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "y | \n", "v | \n", "l | \n", "
8106 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "o | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "n | \n", "v | \n", "l | \n", "
8107 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "n | \n", "c | \n", "l | \n", "
8108 | \n", "p | \n", "k | \n", "y | \n", "e | \n", "f | \n", "y | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "s | \n", "p | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "l | \n", "
8109 | \n", "e | \n", "b | \n", "s | \n", "w | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "w | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "t | \n", "p | \n", "w | \n", "n | \n", "g | \n", "
8110 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "o | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "n | \n", "v | \n", "l | \n", "
8111 | \n", "e | \n", "k | \n", "s | \n", "w | \n", "f | \n", "n | \n", "f | \n", "w | \n", "b | \n", "p | \n", "... | \n", "s | \n", "w | \n", "w | \n", "p | \n", "w | \n", "t | \n", "p | \n", "w | \n", "n | \n", "g | \n", "
8112 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "o | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "b | \n", "v | \n", "l | \n", "
8113 | \n", "p | \n", "k | \n", "y | \n", "e | \n", "f | \n", "y | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "k | \n", "p | \n", "p | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "d | \n", "
8114 | \n", "p | \n", "f | \n", "y | \n", "c | \n", "f | \n", "m | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "y | \n", "c | \n", "c | \n", "p | \n", "w | \n", "n | \n", "n | \n", "w | \n", "c | \n", "d | \n", "
8115 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "o | \n", "v | \n", "l | \n", "
8116 | \n", "p | \n", "k | \n", "y | \n", "n | \n", "f | \n", "s | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "k | \n", "p | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "l | \n", "
8117 | \n", "p | \n", "k | \n", "s | \n", "e | \n", "f | \n", "y | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "s | \n", "p | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "d | \n", "
8118 | \n", "p | \n", "k | \n", "y | \n", "n | \n", "f | \n", "f | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "s | \n", "p | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "d | \n", "
8119 | \n", "e | \n", "k | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "b | \n", "c | \n", "l | \n", "
8120 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "n | \n", "o | \n", "p | \n", "b | \n", "v | \n", "l | \n", "
8121 | \n", "e | \n", "f | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "n | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "b | \n", "c | \n", "l | \n", "
8122 | \n", "p | \n", "k | \n", "y | \n", "n | \n", "f | \n", "y | \n", "f | \n", "c | \n", "n | \n", "b | \n", "... | \n", "k | \n", "w | \n", "w | \n", "p | \n", "w | \n", "o | \n", "e | \n", "w | \n", "v | \n", "l | \n", "
8123 | \n", "e | \n", "x | \n", "s | \n", "n | \n", "f | \n", "n | \n", "a | \n", "c | \n", "b | \n", "y | \n", "... | \n", "s | \n", "o | \n", "o | \n", "p | \n", "o | \n", "o | \n", "p | \n", "o | \n", "c | \n", "l | \n", "
8124 rows × 23 columns
\n", "\n", " | 0 | \n", "1 | \n", "
---|---|---|
5126 | \n", "p | \n", "c | \n", "
5508 | \n", "p | \n", "c | \n", "
7401 | \n", "p | \n", "c | \n", "
7706 | \n", "p | \n", "c | \n", "
\n", " | 0 | \n", "1 | \n", "
---|---|---|
0 | \n", "p | \n", "x | \n", "
1 | \n", "e | \n", "x | \n", "
3 | \n", "p | \n", "x | \n", "
4 | \n", "e | \n", "x | \n", "
5 | \n", "e | \n", "x | \n", "
8 | \n", "p | \n", "x | \n", "
10 | \n", "e | \n", "x | \n", "
11 | \n", "e | \n", "x | \n", "
13 | \n", "p | \n", "x | \n", "
14 | \n", "e | \n", "x | \n", "
17 | \n", "p | \n", "x | \n", "
18 | \n", "p | \n", "x | \n", "
19 | \n", "p | \n", "x | \n", "
21 | \n", "p | \n", "x | \n", "
26 | \n", "e | \n", "x | \n", "
27 | \n", "e | \n", "x | \n", "
29 | \n", "e | \n", "x | \n", "
31 | \n", "p | \n", "x | \n", "
32 | \n", "e | \n", "x | \n", "
33 | \n", "e | \n", "x | \n", "
35 | \n", "e | \n", "x | \n", "
37 | \n", "p | \n", "x | \n", "
38 | \n", "e | \n", "x | \n", "
41 | \n", "e | \n", "x | \n", "
42 | \n", "e | \n", "x | \n", "
43 | \n", "p | \n", "x | \n", "
44 | \n", "e | \n", "x | \n", "
45 | \n", "e | \n", "x | \n", "
46 | \n", "e | \n", "x | \n", "
47 | \n", "e | \n", "x | \n", "
... | \n", "... | \n", "... | \n", "
7964 | \n", "e | \n", "x | \n", "
7965 | \n", "e | \n", "x | \n", "
7970 | \n", "e | \n", "x | \n", "
7971 | \n", "e | \n", "x | \n", "
7973 | \n", "p | \n", "x | \n", "
7983 | \n", "e | \n", "x | \n", "
7987 | \n", "p | \n", "x | \n", "
7994 | \n", "e | \n", "x | \n", "
8001 | \n", "e | \n", "x | \n", "
8002 | \n", "e | \n", "x | \n", "
8005 | \n", "p | \n", "x | \n", "
8010 | \n", "e | \n", "x | \n", "
8018 | \n", "e | \n", "x | \n", "
8025 | \n", "e | \n", "x | \n", "
8029 | \n", "e | \n", "x | \n", "
8032 | \n", "p | \n", "x | \n", "
8038 | \n", "e | \n", "x | \n", "
8042 | \n", "e | \n", "x | \n", "
8051 | \n", "e | \n", "x | \n", "
8054 | \n", "e | \n", "x | \n", "
8057 | \n", "e | \n", "x | \n", "
8087 | \n", "p | \n", "x | \n", "
8093 | \n", "p | \n", "x | \n", "
8095 | \n", "p | \n", "x | \n", "
8102 | \n", "e | \n", "x | \n", "
8107 | \n", "e | \n", "x | \n", "
8110 | \n", "e | \n", "x | \n", "
8115 | \n", "e | \n", "x | \n", "
8120 | \n", "e | \n", "x | \n", "
8123 | \n", "e | \n", "x | \n", "
3656 rows × 2 columns
\n", "