{ "metadata": { "name": "", "signature": "sha256:9c2fef5e95af3d01ba9c70e4a1a2a6ca123d92fbb3235622cef321b24938f581" }, "nbformat": 3, "nbformat_minor": 0, "worksheets": [ { "cells": [ { "cell_type": "code", "collapsed": false, "input": [ "%matplotlib inline\n", "\n", "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.ensemble import RandomForestClassifier\n", "pd.set_option('display.max_columns', 50)\n", "\n", "df = pd.DataFrame.from_csv('train.csv')" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 36 }, { "cell_type": "code", "collapsed": false, "input": [ "train_df = df[]\n", "#train_dat = df[['T1_V1','T1_V2']].as_matrix()" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 24 }, { "cell_type": "code", "collapsed": false, "input": [ "train_dat = df[['Hazard','T1_V1','T1_V2', 'T1_V3', 'T1_V10', 'T1_V13', 'T1_V14', 'T2_V1', 'T2_V2', 'T2_V4']]" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 33 }, { "cell_type": "code", "collapsed": false, "input": [ "train_dat['Id'] = train_dat.index\n", "train_dat1 = train_dat[['Id', 'Hazard', 'T1_V1','T1_V2', 'T1_V3', 'T1_V10', 'T1_V13', 'T1_V14', 'T2_V1', 'T2_V2', 'T2_V4']]" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 34 }, { "cell_type": "code", "collapsed": false, "input": [ "train_dat1" ], "language": "python", "metadata": {}, "outputs": [ { "html": [ "
\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdHazardT1_V1T1_V2T1_V3T1_V10T1_V13T1_V14T2_V1T2_V2T2_V4
Id
1 1 1 15 3 2 7 15 1 36 11 10
2 2 4 16 14 5 12 10 3 78 10 17
3 3 1 10 10 5 12 15 1 71 21 13
4 4 1 18 18 5 3 15 1 71 13 15
5 5 1 13 19 5 7 10 1 75 10 11
12 12 1 14 12 2 12 15 1 65 10 14
15 15 5 8 17 1 8 20 1 100 14 16
19 19 1 14 20 4 3 15 1 83 13 5
21 21 1 8 2 2 8 5 1 20 12 4
22 22 1 5 4 3 8 20 3 88 7 14
23 23 7 4 7 5 7 10 2 86 7 10
24 24 15 18 15 4 3 15 1 23 7 5
25 25 1 3 20 5 3 15 1 49 15 12
26 26 4 14 18 6 7 15 1 92 10 16
31 31 14 11 23 2 3 20 1 41 11 15
32 32 1 9 20 5 7 10 1 33 10 3
33 33 1 3 7 5 7 10 1 81 14 19
39 39 1 4 6 4 2 10 2 81 8 9
41 41 4 3 13 4 3 10 2 75 13 3
43 43 1 7 7 5 12 20 2 72 6 4
44 44 4 11 18 5 8 15 1 77 16 3
45 45 4 15 19 2 8 10 1 61 18 18
50 50 8 12 12 5 12 15 1 38 15 13
58 58 16 9 5 2 8 15 3 18 14 13
59 59 5 14 17 5 3 10 1 92 12 7
62 62 1 6 15 2 8 10 3 23 7 12
63 63 6 9 21 2 8 10 3 32 15 10
67 67 7 19 11 3 2 15 1 36 12 12
69 69 1 14 1 1 12 10 3 72 13 6
72 72 1 8 18 5 3 10 1 98 12 17
....................................
101929 101929 1 9 19 4 8 10 1 48 12 5
101931 101931 4 12 8 5 3 10 3 33 18 7
101933 101933 2 7 19 3 8 15 2 70 11 4
101935 101935 1 6 15 4 3 20 2 72 8 12
101937 101937 14 16 22 7 2 10 1 54 10 11
101939 101939 5 7 16 2 8 20 1 79 8 18
101942 101942 4 3 5 4 3 10 1 47 12 4
101943 101943 2 3 17 1 12 20 1 53 11 17
101944 101944 4 3 17 2 8 15 1 38 9 8
101945 101945 6 6 13 2 7 20 3 72 8 10
101946 101946 9 15 8 6 8 20 1 65 14 10
101953 101953 1 4 11 2 3 15 1 92 6 14
101959 101959 1 1 14 5 12 10 2 42 15 16
101962 101962 5 9 19 2 8 10 1 7 14 12
101968 101968 1 17 1 1 7 20 1 29 8 4
101971 101971 1 6 4 2 12 15 3 36 4 21
101975 101975 1 3 18 2 12 10 1 82 10 12
101978 101978 14 6 21 3 12 20 1 46 9 9
101980 101980 3 5 14 4 8 15 3 98 6 7
101981 101981 1 13 24 4 7 15 1 77 15 4
101984 101984 2 5 18 1 8 10 1 93 9 8
101986 101986 16 10 19 5 8 15 1 49 16 6
101987 101987 12 14 3 2 12 20 3 51 20 10
101988 101988 4 5 19 3 3 15 1 88 8 21
101991 101991 1 8 2 2 8 10 1 3 10 14
101992 101992 7 12 24 1 12 10 1 64 9 6
101993 101993 4 12 17 4 3 15 1 75 10 10
101994 101994 3 18 7 5 8 20 2 33 13 3
101998 101998 14 18 17 5 8 10 1 35 11 18
101999 101999 9 5 15 3 8 15 3 49 10 6
\n", "

50999 rows \u00d7 11 columns

\n", "
" ], "metadata": {}, "output_type": "pyout", "prompt_number": 40, "text": [ " Id Hazard T1_V1 T1_V2 T1_V3 T1_V10 T1_V13 T1_V14 T2_V1 \\\n", "Id \n", "1 1 1 15 3 2 7 15 1 36 \n", "2 2 4 16 14 5 12 10 3 78 \n", "3 3 1 10 10 5 12 15 1 71 \n", "4 4 1 18 18 5 3 15 1 71 \n", "5 5 1 13 19 5 7 10 1 75 \n", "12 12 1 14 12 2 12 15 1 65 \n", "15 15 5 8 17 1 8 20 1 100 \n", "19 19 1 14 20 4 3 15 1 83 \n", "21 21 1 8 2 2 8 5 1 20 \n", "22 22 1 5 4 3 8 20 3 88 \n", "23 23 7 4 7 5 7 10 2 86 \n", "24 24 15 18 15 4 3 15 1 23 \n", "25 25 1 3 20 5 3 15 1 49 \n", "26 26 4 14 18 6 7 15 1 92 \n", "31 31 14 11 23 2 3 20 1 41 \n", "32 32 1 9 20 5 7 10 1 33 \n", "33 33 1 3 7 5 7 10 1 81 \n", "39 39 1 4 6 4 2 10 2 81 \n", "41 41 4 3 13 4 3 10 2 75 \n", "43 43 1 7 7 5 12 20 2 72 \n", "44 44 4 11 18 5 8 15 1 77 \n", "45 45 4 15 19 2 8 10 1 61 \n", "50 50 8 12 12 5 12 15 1 38 \n", "58 58 16 9 5 2 8 15 3 18 \n", "59 59 5 14 17 5 3 10 1 92 \n", "62 62 1 6 15 2 8 10 3 23 \n", "63 63 6 9 21 2 8 10 3 32 \n", "67 67 7 19 11 3 2 15 1 36 \n", "69 69 1 14 1 1 12 10 3 72 \n", "72 72 1 8 18 5 3 10 1 98 \n", "... ... ... ... ... ... ... ... ... ... \n", "101929 101929 1 9 19 4 8 10 1 48 \n", "101931 101931 4 12 8 5 3 10 3 33 \n", "101933 101933 2 7 19 3 8 15 2 70 \n", "101935 101935 1 6 15 4 3 20 2 72 \n", "101937 101937 14 16 22 7 2 10 1 54 \n", "101939 101939 5 7 16 2 8 20 1 79 \n", "101942 101942 4 3 5 4 3 10 1 47 \n", "101943 101943 2 3 17 1 12 20 1 53 \n", "101944 101944 4 3 17 2 8 15 1 38 \n", "101945 101945 6 6 13 2 7 20 3 72 \n", "101946 101946 9 15 8 6 8 20 1 65 \n", "101953 101953 1 4 11 2 3 15 1 92 \n", "101959 101959 1 1 14 5 12 10 2 42 \n", "101962 101962 5 9 19 2 8 10 1 7 \n", "101968 101968 1 17 1 1 7 20 1 29 \n", "101971 101971 1 6 4 2 12 15 3 36 \n", "101975 101975 1 3 18 2 12 10 1 82 \n", "101978 101978 14 6 21 3 12 20 1 46 \n", "101980 101980 3 5 14 4 8 15 3 98 \n", "101981 101981 1 13 24 4 7 15 1 77 \n", "101984 101984 2 5 18 1 8 10 1 93 \n", "101986 101986 16 10 19 5 8 15 1 49 \n", "101987 101987 12 14 3 2 12 20 3 51 \n", "101988 101988 4 5 19 3 3 15 1 88 \n", "101991 101991 1 8 2 2 8 10 1 3 \n", "101992 101992 7 12 24 1 12 10 1 64 \n", "101993 101993 4 12 17 4 3 15 1 75 \n", "101994 101994 3 18 7 5 8 20 2 33 \n", "101998 101998 14 18 17 5 8 10 1 35 \n", "101999 101999 9 5 15 3 8 15 3 49 \n", "\n", " T2_V2 T2_V4 \n", "Id \n", "1 11 10 \n", "2 10 17 \n", "3 21 13 \n", "4 13 15 \n", "5 10 11 \n", "12 10 14 \n", "15 14 16 \n", "19 13 5 \n", "21 12 4 \n", "22 7 14 \n", "23 7 10 \n", "24 7 5 \n", "25 15 12 \n", "26 10 16 \n", "31 11 15 \n", "32 10 3 \n", "33 14 19 \n", "39 8 9 \n", "41 13 3 \n", "43 6 4 \n", "44 16 3 \n", "45 18 18 \n", "50 15 13 \n", "58 14 13 \n", "59 12 7 \n", "62 7 12 \n", "63 15 10 \n", "67 12 12 \n", "69 13 6 \n", "72 12 17 \n", "... ... ... \n", "101929 12 5 \n", "101931 18 7 \n", "101933 11 4 \n", "101935 8 12 \n", "101937 10 11 \n", "101939 8 18 \n", "101942 12 4 \n", "101943 11 17 \n", "101944 9 8 \n", "101945 8 10 \n", "101946 14 10 \n", "101953 6 14 \n", "101959 15 16 \n", "101962 14 12 \n", "101968 8 4 \n", "101971 4 21 \n", "101975 10 12 \n", "101978 9 9 \n", "101980 6 7 \n", "101981 15 4 \n", "101984 9 8 \n", "101986 16 6 \n", "101987 20 10 \n", "101988 8 21 \n", "101991 10 14 \n", "101992 9 6 \n", "101993 10 10 \n", "101994 13 3 \n", "101998 11 18 \n", "101999 10 6 \n", "\n", "[50999 rows x 11 columns]" ] } ], "prompt_number": 40 }, { "cell_type": "code", "collapsed": false, "input": [ "features = train_dat1.columns[2:]\n", "y = train_dat1['Hazard']\n", "\n", "clf = RandomForestClassifier(n_jobs=2)\n", "clf.fit(train_dat1[features], y)" ], "language": "python", "metadata": {}, "outputs": [ { "metadata": {}, "output_type": "pyout", "prompt_number": 42, "text": [ "RandomForestClassifier(bootstrap=True, compute_importances=None,\n", " criterion='gini', max_depth=None, max_features='auto',\n", " max_leaf_nodes=None, min_density=None, min_samples_leaf=1,\n", " min_samples_split=2, n_estimators=10, n_jobs=2,\n", " oob_score=False, random_state=None, verbose=0)" ] } ], "prompt_number": 42 }, { "cell_type": "code", "collapsed": false, "input": [], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 51 }, { "cell_type": "code", "collapsed": false, "input": [ "from sklearn import metrics\n", "\n", "test = pd.DataFrame.from_csv('test.csv')\n", "test[features].head()\n", "preds = clf.predict(test[features])\n", "\n", "Id = test.index\n", "\n", "output_df = pd.DataFrame(data=preds, index = Id)\n", "\n", "# metrics.accuracy_score(train_dat1['Hazard'], preds)" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 80 }, { "cell_type": "code", "collapsed": false, "input": [ "output_df.columns = ['Hazard']" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 82 }, { "cell_type": "code", "collapsed": false, "input": [ "sample = pd.DataFrame.from_csv('sample_submission.csv')\n", "output_df.head()" ], "language": "python", "metadata": {}, "outputs": [ { "html": [ "
\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Hazard
Id
6 1
7 1
8 1
9 4
10 1
\n", "
" ], "metadata": {}, "output_type": "pyout", "prompt_number": 87, "text": [ " Hazard\n", "Id \n", "6 1\n", "7 1\n", "8 1\n", "9 4\n", "10 1" ] } ], "prompt_number": 87 }, { "cell_type": "code", "collapsed": false, "input": [ "output_df.to_csv(\"submission_1.csv\", index=True)" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 88 }, { "cell_type": "code", "collapsed": false, "input": [], "language": "python", "metadata": {}, "outputs": [] } ], "metadata": {} } ] }