{ "metadata": { "name": "", "signature": "sha256:238192bc191ccef763a322d61832a22446eec2ca69d1ce26151cdc314e26f1a4" }, "nbformat": 3, "nbformat_minor": 0, "worksheets": [ { "cells": [ { "cell_type": "code", "collapsed": false, "input": [ "#This one reaaaallllyyyy didn't do well. Submission 3 performed much better" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 49 }, { "cell_type": "code", "collapsed": false, "input": [ "%matplotlib inline\n", "\n", "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.neighbors import KNeighborsClassifier\n", "pd.set_option('display.max_columns', 50)\n", "\n", "train = pd.DataFrame.from_csv('train.csv')\n", "\n", "###\n", "# Use numerical values for categorical data\n", "\n", "def makeNumerical(input_df):\n", " \n", " output_df = input_df.copy()\n", " non_numeric_cols = [col for col in output_df.columns\\\n", " if output_df[col].dtype != 'int64']\n", " for col in non_numeric_cols:\n", " vals = pd.unique(output_df[col])\n", " for i in xrange(len(vals)):\n", " output_df.loc[(output_df[col] == vals[i]), col] = i \n", "\n", " return output_df" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 19 }, { "cell_type": "code", "collapsed": false, "input": [ "train_numerical = makeNumerical(train)\n", "features = ['T1_V1','T1_V2','T1_V3','T2_V1','T2_V2']\n", "X = train_numerical[features].copy().astype(float)\n", "y = train_numerical[train_numerical.columns[0]].copy().astype(float)" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 20 }, { "cell_type": "code", "collapsed": false, "input": [ "train_numerical.sort(['Hazard'], ascending=False).head(10)" ], "language": "python", "metadata": {}, "outputs": [ { "html": [ "
\n", " | Hazard | \n", "T1_V1 | \n", "T1_V2 | \n", "T1_V3 | \n", "T1_V4 | \n", "T1_V5 | \n", "T1_V6 | \n", "T1_V7 | \n", "T1_V8 | \n", "T1_V9 | \n", "T1_V10 | \n", "T1_V11 | \n", "T1_V12 | \n", "T1_V13 | \n", "T1_V14 | \n", "T1_V15 | \n", "T1_V16 | \n", "T1_V17 | \n", "T2_V1 | \n", "T2_V2 | \n", "T2_V3 | \n", "T2_V4 | \n", "T2_V5 | \n", "T2_V6 | \n", "T2_V7 | \n", "T2_V8 | \n", "T2_V9 | \n", "T2_V10 | \n", "T2_V11 | \n", "T2_V12 | \n", "T2_V13 | \n", "T2_V14 | \n", "T2_V15 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Id | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
28023 | \n", "69 | \n", "13 | \n", "20 | \n", "3 | \n", "0 | \n", "2 | \n", "1 | \n", "0 | \n", "3 | \n", "2 | \n", "7 | \n", "1 | \n", "0 | \n", "10 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "50 | \n", "11 | \n", "1 | \n", "8 | \n", "0 | \n", "2 | \n", "31 | \n", "1 | \n", "1 | \n", "5 | \n", "0 | \n", "0 | \n", "1 | \n", "3 | \n", "5 | \n", "
73541 | \n", "64 | \n", "19 | \n", "13 | \n", "4 | \n", "3 | \n", "2 | \n", "1 | \n", "3 | \n", "3 | \n", "2 | \n", "7 | \n", "1 | \n", "1 | \n", "15 | \n", "1 | \n", "0 | \n", "6 | \n", "0 | \n", "57 | \n", "9 | \n", "1 | \n", "11 | \n", "4 | \n", "2 | \n", "40 | \n", "1 | \n", "13 | \n", "3 | \n", "0 | \n", "0 | \n", "1 | \n", "2 | \n", "10 | \n", "
67188 | \n", "63 | \n", "19 | \n", "7 | \n", "1 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "20 | \n", "1 | \n", "0 | \n", "8 | \n", "0 | \n", "15 | \n", "7 | \n", "0 | \n", "6 | \n", "0 | \n", "2 | \n", "28 | \n", "1 | \n", "1 | \n", "3 | \n", "0 | \n", "0 | \n", "1 | \n", "6 | \n", "1 | \n", "
61658 | \n", "52 | \n", "10 | \n", "15 | \n", "1 | \n", "0 | \n", "3 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "12 | \n", "4 | \n", "1 | \n", "15 | \n", "1 | \n", "0 | \n", "7 | \n", "0 | \n", "20 | \n", "10 | \n", "0 | \n", "7 | \n", "2 | \n", "2 | \n", "37 | \n", "1 | \n", "9 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "4 | \n", "1 | \n", "
18251 | \n", "51 | \n", "18 | \n", "20 | \n", "9 | \n", "5 | \n", "2 | \n", "0 | \n", "0 | \n", "0 | \n", "4 | \n", "8 | \n", "4 | \n", "0 | \n", "15 | \n", "0 | \n", "2 | \n", "8 | \n", "0 | \n", "40 | \n", "26 | \n", "0 | \n", "16 | \n", "4 | \n", "1 | \n", "25 | \n", "1 | \n", "1 | \n", "3 | \n", "1 | \n", "0 | \n", "2 | \n", "1 | \n", "1 | \n", "
47720 | \n", "49 | \n", "8 | \n", "23 | \n", "2 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "3 | \n", "2 | \n", "12 | \n", "1 | \n", "0 | \n", "10 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "54 | \n", "15 | \n", "0 | \n", "11 | \n", "2 | \n", "3 | \n", "37 | \n", "1 | \n", "8 | \n", "7 | \n", "0 | \n", "0 | \n", "1 | \n", "3 | \n", "8 | \n", "
66305 | \n", "46 | \n", "9 | \n", "5 | \n", "4 | \n", "3 | \n", "3 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "10 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "84 | \n", "12 | \n", "1 | \n", "14 | \n", "2 | \n", "2 | \n", "22 | \n", "1 | \n", "11 | \n", "2 | \n", "0 | \n", "0 | \n", "1 | \n", "2 | \n", "3 | \n", "
24519 | \n", "46 | \n", "12 | \n", "22 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "3 | \n", "0 | \n", "2 | \n", "8 | \n", "1 | \n", "0 | \n", "15 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "43 | \n", "13 | \n", "1 | \n", "16 | \n", "2 | \n", "1 | \n", "31 | \n", "1 | \n", "11 | \n", "3 | \n", "0 | \n", "0 | \n", "3 | \n", "1 | \n", "4 | \n", "
33278 | \n", "44 | \n", "10 | \n", "6 | \n", "3 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "3 | \n", "3 | \n", "3 | \n", "1 | \n", "0 | \n", "15 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "38 | \n", "15 | \n", "1 | \n", "4 | \n", "2 | \n", "2 | \n", "31 | \n", "1 | \n", "18 | \n", "3 | \n", "1 | \n", "0 | \n", "2 | \n", "4 | \n", "3 | \n", "
22623 | \n", "42 | \n", "15 | \n", "9 | \n", "6 | \n", "3 | \n", "4 | \n", "0 | \n", "0 | \n", "3 | \n", "2 | \n", "3 | \n", "1 | \n", "0 | \n", "20 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "7 | \n", "13 | \n", "1 | \n", "11 | \n", "2 | \n", "1 | \n", "34 | \n", "1 | \n", "1 | \n", "3 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "7 | \n", "