{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "from sklearn.cross_validation import train_test_split, cross_val_score\n",
    "from sklearn.ensemble import RandomForestClassifier\n",
    "from sklearn import svm\n",
    "import csv"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 104,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "#this function converts name to a feature vector \n",
    "def convert_name(name):\n",
    "    arr = np.zeros(26*26+5)\n",
    "    #26*26 all possiable 2-grams + 4 for last 1, 3, 3 excluding last\n",
    "    name = str(name)\n",
    "    #Iterate every 2 characters 2gram and caliculate the frequency of the 2gram\n",
    "    for x in range(len(name)-1):\n",
    "        ind = (ord(name[x])-ord('a'))*26 + (ord(name[x+1])-ord('a'))\n",
    "        arr[ind] += 1\n",
    "        \n",
    "    # check if Last character is vowel\n",
    "    if (name[-1]=='a' or name[-1]=='e' or name[-1]=='i' or name[-1]=='o' or name[-1]=='u'):\n",
    "        arr[-1] = 1\n",
    "    else:\n",
    "        arr[-1] = 0\n",
    "        \n",
    "    #check last 3 characters and set the value to 1 if the last 3 character key is found in the features dictionary for that index \n",
    "    if name[-3:] in my_features.keys():\n",
    "        arr[-2]=my_features[name[-3:]]\n",
    "\n",
    "    #check 3 characters from last skiping last 3 \n",
    "    if name[-6:][:3] in my_features.keys():\n",
    "        arr[-3]=my_features[name[-6:][:3]]\n",
    "\n",
    "    #check 3 characters from last skiping last 1     \n",
    "    if name[-4:][:3] in my_features.keys():\n",
    "        arr[-4]=my_features[name[-4:][:3]]\n",
    "    \n",
    "    #first 3 characters      \n",
    "    if name[:3] in my_features.keys():\n",
    "        arr[-5]=my_features[name[:3]]\n",
    "    return arr"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 105,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "#load data\n",
    "my_data = np.genfromtxt('data/gender.csv', \n",
    "                        delimiter=',', \n",
    "                        dtype=[('name','<U16'), ('gender',int)],\n",
    "                        converters={0: lambda s:s.lower()})\n",
    "my_data = np.array([row for row in my_data])\n",
    "\n",
    "#load most common last 3 character for india names create a features dictionary\n",
    "features_reader = csv.reader(open('data/features.csv', 'r'))\n",
    "my_features = {}\n",
    "for row in features_reader:\n",
    "   k, v = row\n",
    "   my_features[k] = int(v)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 106,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "name_map = np.vectorize(convert_name, otypes=[np.ndarray])\n",
    "Xlist = name_map(my_data['name'])\n",
    "X = np.array(Xlist.tolist())\n",
    "y = my_data['gender']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 107,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0.818355640535\n",
      "0.821906582901\n",
      "0.830920513521\n",
      "0.824638077028\n",
      "0.821360284075\n"
     ]
    }
   ],
   "source": [
    "for x in range(5):\n",
    "    Xtr, Xte, ytr, yte = train_test_split(X, y, test_size=0.33)\n",
    "    clf = RandomForestClassifier(n_estimators=100, min_samples_split=2)\n",
    "    clf.fit(Xtr, ytr)\n",
    "    print(np.mean(clf.predict(Xte) == yte))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 108,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Feature ranking:\n",
      "1. feature 680 (0.185898)\n",
      "2. feature 679 (0.071854)\n",
      "3. feature 677 (0.050360)\n",
      "4. feature 678 (0.042615)\n",
      "5. feature 676 (0.041021)\n",
      "6. feature 13 (0.010510)\n",
      "7. feature 442 (0.010436)\n",
      "8. feature 182 (0.010124)\n",
      "9. feature 338 (0.009793)\n",
      "10. feature 346 (0.009638)\n"
     ]
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAgkAAAFyCAYAAAB/b0lnAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAAPYQAAD2EBqD+naQAAIABJREFUeJzt3XucnGV99/HPj4OEcIjWaFIsARGJQa2SLdp4VkTEA9TT\nAwupFBQ5VXRR0T5WsVik+pTEYypIFRBditLiCQ1ysiogmgVUXIIKJKgQWNGAJIuQXM8f170wGa7Z\nnZmdnd0Nn/frdb+Sue7rvuY3Mzsz37mPkVJCkiSp3haTXYAkSZqaDAmSJKnIkCBJkooMCZIkqciQ\nIEmSigwJkiSpyJAgSZKKDAmSJKnIkCBJkooMCZKKImKXiNgYEW+e7FokTQ5DggRExGHVF2Jp+sgE\n3u/+EXHSRI3fAdP6vO0RcUxEHDbZdUjT1VaTXYA0hSTgA8Ctde0/n8D7fBVwLPAvE3gfbUkprYqI\nbYEHJruWcTgWuAs4e7ILkaYjQ4K0qe+klAa6eH8xIYNGzEwprRvvOCmlP3einm6LiG1TSusnuw5p\nunNzg9SiiFgcET+JiHUR8fuI6I+Iv6rr84KIOD8iVkXEcESsjoglETGjps8XyL90qdm0saG6/ZLq\n9ovqxn3EfgIRcVZE3BsRu0XERRFxD3BuzfznRsR3IuKPEXFfRFwREc9r4nGOdl87R8Q3q///JiJG\nHsczI+LSiPhTRNwaEb11Y45s1nlhRJweEUMRsTYizo6IxxZqODYifl49h7+NiE9HxKy6PldExE8j\nYmFE/G9E3Ad8JCJuAZ4OjDyXGyPismqZx0XEv1fL3VvVcFFE/HXd2C+ulntTRLw/Im6LiPURcUlE\nPKVQ73Orce6unoPrI+L4uj7zI+Kr1d/O+oj4cUS8tq7PVhFxUkTcVPUZiojvR8Q+Y71uUie5JkHa\n1KyIeHxtQ0rp9yP/j4j3AycD5wGfA54AHA98LyL2SindU3V9E7AtsAz4PfAc4O3Ak4CDqj6fBXYC\nXg4cyqZrFRLN7w+QyO/l5cD3gXcB66p6XwZcBPwE+BCwETgcuCwiXpBS+kmT91F7X1sA3wa+B7yn\nqv1T1ZfzKeSAcgFwNHB2RFyZUlpVN86ngT8AJwHzyWFpHvDSkQ4R8SHgg8DF5OdxpN/fRMTzU0ob\namqaXT3O84BzgDXA5dX93Av8K/n5XVMtsxtwAPAV4BZgDnAUcEVE7JlSuqOu3vcBG4D/B8wC3ls9\nzkU19e4LfAP4HfBx4A5gAfBq4JNVn6cDPwB+A5wK3Af8H+DCiHh9Sulr1XD/Ut3nGcCPgR2BvwEW\nApcidUtKycnpUT8Bh5G/QOunDTV95pG3z7+3btk9gT8D76tp26ZwH+8FHgT+qqbtU7X3UdP+YvKX\n0ovq2nep6npzTdsXqr7/WhhnJfCturZtgF+TN62M9pyMdl8n1rTNIn/ZPQi8saZ9j2r5Dxae5x8B\nW9a0v7sa9zXV7dnAMHBRXU3HVv0Oq2m7vGp7a+Ex/Ay4rNC+daFtHrAeeH/d67CRvF9Kbb1vr+5z\nz+r2FsDN1fO6wyjP6SXAtcBWde0/AG6suX0t8PXJfl84Obm5QXpYAo4h/7Ifmfatmf8G8q/Rr0TE\n40cm4E7gl9T8Ck4p3T/y/4iYWfW7ivxlstcE1f/Z2hsR8WzgqUB/Xb07kH+NvqgwRrP+c+Q/KaW1\n5DByX0rpqzXtNwF/JP9qr3dGenhNAMB/kL90X1Xd3hfYmvyLvNbnyGsGXl3Xfj9wVrPFp5Qe2hkz\nIraIiL8gr31ZSf61Xu/zdfV+n/y3MPLY9gJ2BT6eUrq3dJ8R8Tjy38hXqNZY1bwmFwNPjYi/rLr/\nEXh6ROze7GOSJoKbG6RN/Tg13nFxd/KX/K8K8xJ5bQIAEbEz8GHgtcDj6vrNovMeTCn9pq7tqdW/\n5zRYZmNEzKq+5FsxnGo2wVTWkleh11vLpo8f8nOwyXOYUrovIm4nf9FC/lUPcFNdvwci4mbyWo5a\nv00pPdhc+RARAbyTHAqfDGxZU9tQYZHb6m7/ofp35LE9pVr2hlHudndysPgwefNHvQQ8EbidvJnl\nQuCmiPg58B3giymln40yvtRxhgSpeVuQVz2/svq33p8g/zIlr1Z+LHm780ry6vgnkQ/Fa2YNXqP9\nEbZs0H5/oW3kft4FXN9guT81UUu9DS22T8gRHHVaPZJhZN+SM4F/Bu4mv6afoPz6dOKxjYz77+T9\nR0p+BZBS+n61Y+SBwCuAtwB9EXFUSunzLdynNC6GBKl5vyZ/KdyaUiqtTRjxTPKv+L9PKX1ppDEi\nXl7o2ygM/KG6r/o9/ndtutpcL8C9KaXLWlhuogX5+fneQw0R2wF/CXyrahrZ0XE+NeetiIityb/8\nv9vkfTV6ft9A3lfhbZsUlo+wuKvJsWuN/G08A2j0XN9c/ftAM69HSumP5FB5dkTMJG/i+BBgSFDX\nuE+C1Lz/Jv/aLJ4hsdquDQ//6qx/f72TR35p3Vctu2Nd+6pqnPr9Bo4tjNHICvKX17urL+H6emc3\nOc5EeFtE1P5IOZa8luSi6vYl5J1Ej69b7q3kPf2/2eT93Mcjgxbk53aTtQAR8Sby2p52DJCPknhn\n/SGaI1JKdwFXAEdFxNz6+bWvR83f0siy68hrGbZpsz6pLa5JkB426qrjlNLNEfHP5GPwn0zeZnwv\neee1vwNOB5YAN5K/nE+LfP6Ee8i/XEtfViuq+/1URCwnH+nwXymleyLiK8DxefM5vwZeQz7ksikp\npRQRbyV/8d4Q+bwMvyV/Eb6UvL/Agc2O12GPAS6NiPOBp5H3Dfh+SumbACmloYg4FfhgRHwH+HpN\nv2uAL5WHfYQVwNHVoau/Au5MKV1ODhkfiIjPA1eS1/4cysNrX1pSPdfHVHVeVz3Xt1c175lS2r/q\nehx5jcDPIuJz5LULc8iHUj6Jh3dq/UVEXFHVfzewN/BGqkMppa6Z7MMrnJymwkQ+NG8DsLCJvn9H\nXlV+TzXdQN6WvXtNn/nk7c5rycfm/wd5VfQGNj2kcAsePqb+QTY95PLxwPnkIDIEfIZ83H39GF8A\n1o5S71+T96i/k7wH/81AP/CSMR7nLs3eF/kwxOsL7TcDXys8zy+onpOh6jk6G3hsYfljqud3mHz+\ngU8BOzZz39W8J5K/uP9Y3e9lVftjgI+Rd7b8U/V6Poe8qeDSmuVHDkV9/VjPTdW+iLyT4R+rv41r\ngWPq+uxaPY+/rR7XauBrwOtq+vwT+WiY31f13UA+hHbL0uN0cpqoKVKa1tdvkTSNRL7Y0ueBvVN3\nT38tqQ1t7ZMQEcdFxC3V6UKvjoi9R+n7/Ij4QXVa0XURMRgR7yz0e1M1b311KtP9S+NJkqTuaDkk\nRMRBwGnknbf2Ih9atXyUnaDuI68ifCF5+9yHgX+ttpWOjPk84MvkE6U8m7zq7cKI2LPV+iRNed04\nJFJSB7S8uSEirgZ+lFJ6R3U7yCca+WRK6WNNjnEB8KeU0mHV7fOAmSmlA2r6XAVcm1I6tqUCJU1Z\nbm6QppeW1iRUxyj3UHOBkZRTxiXUXOhkjDH2qvpeUdO8qBqj1vJmx5Q0PaSUzk4pbWlAkKaHVg+B\nnE0+lnlNXfsa8t7cDUXEbeTDt7YEPpRS+kLN7LkNxnzEscQ14z0e2I98opXhJmqXJEnZDPKRNsvT\nI0+z/pBunifhBcD2wN8CH42IX6WU/msc4+1H88dKS5KkRzqUvE9gUashYYh8bPCcuvY55OO8G0oP\nX0/+hupsYx8CRkLCHW2MeSvAueeey4IFC8aqe1L19fWxdOnSyS5jTNbZedOlVuvsrOlSJ0yfWq2z\nswYHB1m8eDHUnPa8pKWQkPIV2FYA+5BPUDKy4+I+tHYmsC3Z9PSiVxXG2Ldqb2QYYMGCBSxcWLqy\n69Qxa9asKV8jWOdEmC61WmdnTZc6YfrUap0TZtTN9e1sblgCnFWFhWuAPmAm1bXcq1Op7lRz5MKx\n5DOK3Vgt/2LyVelqrxP/CeCKiDiBfIGXXvIOkke2UZ8kSeqAlkNCSun86pwIJ5M3CVwH7JfyxUsg\n72y4c80iW5Avl7sr+bSzvwbek1I6o2bMqyLiEOCUavolcGBK6RctPyJJktQRbe24mFJaBixrMO/w\nutufBj7dxJgXABe0U48kSeo8LxXdBb29vZNdQlOss/OmS63W2VnTpU6YPrVa5+SYthd4ioiFwIoV\nK1ZMt51EJEmaVAMDA/T09AD0jHZyM9ckSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIk\nSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIkSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiS\npCJDgiRJKjIkSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIkSJKkIkOCJEkqMiRIkqQi\nQ4IkSSoyJEiSpCJDgiRJKjIkSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIkSJKkIkOC\nJEkqMiRIkqSirdpZKCKOA94NzAWuB96eUvpxg76vA44Bng1sA9wAfCildHFNn8OALwAJiKp5OKU0\ns536Jlt/f54Ahodh1SrYZReYMSO39fbmSZKkqazlkBARBwGnAW8DrgH6gOURsUdKaaiwyIuAi4F/\nAv4IHAF8IyKek1K6vqbfWmAPHg4JqdXaporaEDAwAD09OTQsXDi5dUmS1Ip21iT0AaenlM4BiIij\ngVeTv/w/Vt85pdRX1/T+iDgQeC15LURN13RXG/VIkqQJ0NI+CRGxNdADXDrSllJKwCXAoibHCGAH\n4O66WdtHxK0RsToiLoyIPVupTZIkdVarOy7OBrYE1tS1ryHvn9CM9wDbAefXtK0kr4k4ADi0quvK\niNipxfokSVKHtLXjYrsi4hDgA8ABtfsvpJSuBq6u6XcVMAgcBZw02ph9fX3MmjVrk7be3l563TNQ\nkiT6+/vpH9mbvrJ27dqmlm01JAwBG4A5de1zgDtGWzAiDgbOAN6YUrp8tL4ppQcj4lpg97EKWrp0\nKQvdI1CSpKLSD+eBgQF6enrGXLalzQ0ppQeAFcA+I23VPgb7AFc2Wi4ieoH/BA5OKX1nrPuJiC2A\nZwK3t1KfJEnqnHY2NywBzoqIFTx8CORM4CyAiDgV2CmldFh1+5Bq3vHAjyNiZC3E+pTSPVWfD5A3\nN/wKeCxwIjAPOLOtRyVJksat5ZCQUjo/ImYDJ5M3M1wH7Fdz+OJcYOeaRY4k7+z4mWoacTZ5Z0WA\nx5E3RcwF/kBeW7EopXRjq/VJkqTOaGvHxZTSMmBZg3mH191+aRPjnQCc0E4tkiRpYnjtBkmSVGRI\nkCRJRYYESZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFhgRJklRkSJAk\nSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElF\nhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYE\nSZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFbYWEiDguIm6JiPURcXVE\n7D1K39dFxMURcWdErI2IKyPiFYV+b4qIwWrM6yNi/3ZqkyRJndFySIiIg4DTgJOAvYDrgeURMbvB\nIi8CLgb2BxYClwPfiIhn1Yz5PODLwOeAZwNfAy6MiD1brU+SJHVGO2sS+oDTU0rnpJRuBI4G1gFH\nlDqnlPpSSv+eUlqRUvp1Sun9wC+B19Z0Ox74dkppSUppZUrpg8AA8I9t1CdJkjqgpZAQEVsDPcCl\nI20ppQRcAixqcowAdgDurmleVI1Ra3mzY0qSpM5rdU3CbGBLYE1d+xpgbpNjvAfYDji/pm3uOMeU\nJEkdtlU37ywiDgE+AByQUhrq5n1LkqTWtBoShoANwJy69jnAHaMtGBEHA2cAb0wpXV43+452xgTo\n6+tj1qxZm7T19vbS29s71qKSJG32+vv76e/v36Rt7dq1TS3bUkhIKT0QESuAfYCvw0P7GOwDfLLR\nchHRC5wJHJRS+k6hy1WFMfat2ke1dOlSFi5c2PRjkCTp0aT0w3lgYICenp4xl21nc8MS4KwqLFxD\nPtphJnAWQEScCuyUUjqsun1INe944McRMbLGYH1K6Z7q/58AroiIE4BvAb3kHSSPbKM+SZLUAS0f\nAplSOh94N3AycC3w18B+KaW7qi5zgZ1rFjmSvLPjZ4Df1UwfrxnzKuAQ4G3AdcDrgQNTSr9otT5J\nktQZbe24mFJaBixrMO/wutsvbXLMC4AL2qlHkiR1ntdukCRJRYYESZJUZEiQJElFhgRJklRkSJAk\nSUWGBEmSVGRIkCRJRYYESZJU1NWrQE5Hq1evZmio/QtWDg5uCyxgcHAQWN/2OLNnz2bevHltLy9J\nUqsMCaNYvXo1C+bPZ93w8DhG2QsYYPHiQ8lnsW7PzBkzGFy50qAgSeoaQ8IohoaGWDc8zLnAgjbH\nGAQWw/jHGB5maGjIkCBJ6hpDQhMWAOO9GHUnxpAkqZvccVGSJBUZEiRJUpEhQZIkFRkSJElSkSFB\nkiQVGRIkSVKRIUGSJBUZEiRJUpEhQZIkFRkSJElSkSFBkiQVGRIkSVKRIUGSJBUZEiRJUpEhQZIk\nFRkSJElSkSFBkiQVGRIkSVKRIUGSJBUZEiRJUpEhQZIkFRkSJElSkSFBkiQVGRIkSVKRIUGSJBUZ\nEiRJUpEhQZIkFRkSJElSkSFBkiQVtRUSIuK4iLglItZHxNURsfcofedGxJciYmVEbIiIJYU+h0XE\nxmr+xmpa105tkiSpM1oOCRFxEHAacBKwF3A9sDwiZjdYZBvgTuDDwHWjDL0WmFsz7dJqbZIkqXPa\nWZPQB5yeUjonpXQjcDSwDjii1DmltCql1JdSOhe4Z5RxU0rprpTSndV0Vxu1SZKkDmkpJETE1kAP\ncOlIW0opAZcAi8ZZy/YRcWtErI6ICyNiz3GOJ0mSxqHVNQmzgS2BNXXta8ibCNq1krwm4gDg0Kqu\nKyNip3GMKUmSxmGryS4AIKV0NXD1yO2IuAoYBI4i7/vQUF9fH7Nmzdqkrbe3l97e3gmoVJKk6aW/\nv5/+/v5N2tauXdvUsq2GhCFgAzCnrn0OcEeLYzWUUnowIq4Fdh+r79KlS1m4cGGn7lqSpM1K6Yfz\nwMAAPT09Yy7b0uaGlNIDwApgn5G2iIjq9pWtjDWaiNgCeCZwe6fGlCRJrWlnc8MS4KyIWAFcQz7a\nYSZwFkBEnArslFI6bGSBiHgWEMD2wBOq239OKQ1W8z9A3tzwK+CxwInAPODM9h6WJEkar5ZDQkrp\n/OqcCCeTNzNcB+xXc8jiXGDnusWuBVL1/4XAIcAqYLeq7XHAGdWyfyCvrVhUHWIpSZImQVs7LqaU\nlgHLGsw7vNA26maNlNIJwAnt1CJJkiaG126QJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJU\nZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRI\nkCRJRYYESZJUZEiQJElFhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElFhgRJklRkSJAk\nSUWGBEmSVLTVZBewOernYPrpBWCYbdiDlbyPU5nB/QD00k8v501miZIkjcmQMAF6Oc8QIEma9tzc\nIEmSigwJkiSpyJAgSZKKDAmSJKnIkCBJkooMCZIkqciQIEmSigwJkiSpyJAgSZKKDAmSJKnIkCBJ\nkoraCgkRcVxE3BIR6yPi6ojYe5S+cyPiSxGxMiI2RMSSBv3eFBGD1ZjXR8T+7dQmSZI6o+WQEBEH\nAacBJwF7AdcDyyNidoNFtgHuBD4MXNdgzOcBXwY+Bzwb+BpwYUTs2Wp9kiSpM9pZk9AHnJ5SOiel\ndCNwNLAOOKLUOaW0KqXUl1I6F7inwZjHA99OKS1JKa1MKX0QGAD+sY36JElSB7QUEiJia6AHuHSk\nLaWUgEuAReOoY1E1Rq3l4xxTkiSNQ6trEmYDWwJr6trXAHPHUcfcCRhTkiSNw1aTXcB49fX1MWvW\nrE3aent76e3tnaSKJEmaOvr7++nv79+kbe3atU0t22pIGAI2AHPq2ucAd7Q4Vq072h1z6dKlLFy4\ncBx3LUnS5qv0w3lgYICenp4xl21pc0NK6QFgBbDPSFtERHX7ylbGqnNV7ZiVfat2SZI0CdrZ3LAE\nOCsiVgDXkI92mAmcBRARpwI7pZQOG1kgIp4FBLA98ITq9p9TSoNVl08AV0TECcC3gF7yDpJHtvOg\nJEnS+LUcElJK51fnRDiZvEngOmC/lNJdVZe5wM51i10LpOr/C4FDgFXAbtWYV0XEIcAp1fRL4MCU\n0i9arU+SJHVGWzsuppSWAcsazDu80DbmZo2U0gXABe3UI0mSOs9rN0iSpCJDgiRJKjIkSJKkIkOC\nJEkqmvZnXFT7+vvzBDA8DKtWwS67wIwZua23N0+SpEcnQ8KjWG0IGBiAnp4cGjyBpSQJ3NwgSZIa\nMCRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIkSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCJDgiRJKjIk\nSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpKKtJrsAdcbq1asZGhpqe/nBwW2BBQwODgLr2x5n9uzZ\nzJs3r+3lJUlThyFhM7B69WoWzJ/PuuHhcYyyFzDA4sWHAte2PcrMGTMYXLnSoCBJmwFDwmZgaGiI\ndcPDnAssaHOMQWAxjH+M4WGGhoYMCZK0GTAkbEYWAAunwBiSpM2DOy5KkqQiQ4IkSSoyJEiSpCJD\ngiRJKjIkSJKkIkOCJEkqMiRIkqQiQ4IkSSoyJEiSpCLPuKgpr78/TwDDw7BqFeyyC8yYkdt6e/Mk\nSeosQ4KmvNoQMDAAPT05NCz0/NGSNKHc3CBJkooMCZIkqciQIEmSitoKCRFxXETcEhHrI+LqiNh7\njP4viYgVETEcETdFxGF18w+LiI0RsaH6d2NErGunNkmS1Bkth4SIOAg4DTgJ2Au4HlgeEbMb9N8V\n+CZwKfAs4BPAmRGxb13XtcDcmmmXVmuTJEmd086ahD7g9JTSOSmlG4GjgXXAEQ36HwPcnFI6MaW0\nMqX0GeCr1Ti1UkrprpTSndV0Vxu1SZKkDmnpEMiI2BroAT4y0pZSShFxCbCowWJ/C1xS17YcWFrX\ntn1E3EoOLgPA/00p/aKV+tSafg6mn3xs4TDbsAcreR+nMoP7Aeiln17Om8wSJUmTqNXzJMwGtgTW\n1LWvAeY3WGZug/47RsQ2KaX7gZXkNRE/BWYB7wGujIg9U0q/a7FGNamX87oeAlavXs3Q0FDbyw8O\nbgssYHBwEFjf9jizZ89m3rx5bS8vSY8GU+JkSimlq4GrR25HxFXAIHAUed8HbQZWr17NgvnzWTc8\nPI5R9gIGWLz4UODatkeZOWMGgytXGhQkaRSthoQhYAMwp659DnBHg2XuaND/nmotwiOklB6MiGuB\n3ccqqK+vj1mzZm3S1tvbS6/n6Z1yhoaGWDc8zLnAgjbHGAQWw/jHGB5maGjIkCBps9ff30//yLnt\nK2vXrm1q2ZZCQkrpgYhYAewDfB0gIqK6/ckGi10F7F/X9oqqvSgitgCeCXxrrJqWLl3KQs/PO60s\nAMb7inVijIngdSYkTTWlH84DAwP09PSMuWw7mxuWAGdVYeEa8lEKM4GzACLiVGCnlNLIuRA+CxwX\nER8FPk8OFG8EXjUyYER8gLy54VfAY4ETgXnAmW3UJ00arzMhaXPSckhIKZ1fnRPhZPJmg+uA/WoO\nWZwL7FzT/9aIeDX5aIbjgd8Ab0kp1R7x8DjgjGrZPwArgEXVIZaSOsw1HpKa0daOiymlZcCyBvMO\nL7T9L/nQyUbjnQCc0E4tklrnGg9JzfDaDZIkqWhKHAIpTUWe00HSo50hQSrwnA6SZEiQiqbTOR1c\n4yFpohgSpFFM9XM6uMZD0kQyJGjK80JUjU2nNR6Sph9Dgqa8ybgQ1XQz1dd4SJqePARSkiQVGRIk\nSVKRmxukDnL/CUmbE0OC1EHuPyFpc2JIkB6FXOMhqRmGBOlRyDUekprhjouSJKnIkCBJkooMCZIk\nqciQIEmSigwJkiSpyJAgSZKKDAmSJKnIkCBJkooMCZIkqciQIEmSigwJkiSpyJAgSZKKDAmSJKnI\nkCBJkooMCZIkqciQIEmSigwJkiSpyJAgSZKKDAmSJKloq8kuQJIa6e/PE8DwMKxaBbvsAjNm5Lbe\n3jxNtulSpzpvc3/tDQmSpqzaD9iBAejpyR/ICxdObl31pkudMH2+1KZLndPptW+HIUGSHkWmy5fa\ndKlzc2dIkNQVq1evZmhoqO3lBwe3BRYwODgIrG97nNmzZzNv3rxR+4yn1ulSJ3SvVutsTTOvfbcY\nEiRNuNWrV7Ng/nzWDQ+PY5S9gAEWLz4UuLbtUWbOmMHgypUNP4THX+t0qRO6Uat1tm6s176bDAmS\nJtzQ0BDrhoc5F1jQ5hiDwGIY/xjDwwwNDTX8AB5vrdOlzofuh4mt1To7W2e3GRIkdc0CYLyblDsx\nRjfuZ7rU2akxunEf1tl9hgRJU1Y/B9NP3nttmG3Yg5W8j1OZwf0A9NJPL+dNZonA9KkTpletmnyG\nhC7oB6bAkTpjss7Omy61TtU6ezlvky8s6xy/6VJrfZiZy2nTJMz0T3YBHdVWSIiI44B3A3OB64G3\np5R+PEr/lwCnAU8HVgOnpJTOruvzJuBkYFfgJuB9KaVvt1PfVDNV34T1rLPzpkut1tlZ06VOmLq1\n1oeZA4CvT145DdWHme346DQJM81pOSRExEHkL/y3AdcAfcDyiNgjpfSIY0ciYlfgm8Ay4BDg5cCZ\nEfG7lNJ3qz7PA74MvBf4FnAocGFE7JVS+kUbj0uSpAlXDjOXT15BHdbOtRv6gNNTSueklG4EjgbW\nAUc06H+EZDmvAAAKG0lEQVQMcHNK6cSU0sqU0meAr1bjjDge+HZKaUnV54PAAPCPbdQnSZI6oKWQ\nEBFbAz3ApSNtKaUEXAIsarDY31bzay2v67+oiT6SJKmLWt3cMBvYElhT174GmN9gmbkN+u8YEduk\nlO4fpc/cUWqZAVRntpoYI2NfRD52tV2/Ab40juVvqaunnnW2Zqw6a+dN9VqtszXdeu2nS53ga09d\n+1Svs1Nqxp8xaseUUtMT8JfARuC5de0fBa5qsMxK4L11bfsDG4Btqtv3AwfV9TkGuH2UWg4BkpOT\nk5OTk1Pb0yGjfe+3uiZhiPzlPqeufQ5wR4Nl7mjQ/55qLcJofRqNCXlzxKHArcB4zqMpSdKjzQzy\n0YTLR+vUUkhIKT0QESuAfaiORomIqG5/ssFiV5HXHNR6RdVe26d+jH3r+tTX8nvyERGSJKl1V47V\noZ2jG5YAR0bEmyPiacBngZnAWQARcWpE1J4D4bPAbhHx0YiYHxHHAm+sxhnxCeCVEXFC1edD5B0k\nP91GfZIkqQNaPk9CSun8iJhNPvHRHOA6YL+U0l1Vl7nAzjX9b42IVwNLyYc6/gZ4S0rpkpo+V0XE\nIcAp1fRL4EDPkSBJ0uSJaidASZKkTbSzuUGSJD0KGBIkSVKRIaFNEbFTRHwxIoYiYl1EXB8RC2vm\nbxcRn46I26r5N0TEUXVjbBMRn6nGuDcivhoRT+xynRsjYkP1b+30rpo+u0XEf0fEnRGxNiLOm2p1\nRsQuo/R5w1Sps+ozpxrj9oj4U0SsiIjXd6rGTtZa9VsUEZdWta6NiCsiYptO11tzfy+MiK9HxG+r\neg6om39SRAxW9dwdEd+NiOdMVD0NanxfVduSBvM/W80/vqbtcRHxyYi4sXo9VkXEJyJixw7XNtbz\nN+pnUxfrPLr6m1xbTVdGxCtr5o/5OnfjvTRWnXV9H/G618zr6vuoUwwJbYiIxwI/JJ8Eaj9gAfAu\n4A813ZaSD/U8BHhadfvTEfGamj4fB14NvAF4EbATcEGX65xLPknW3Go6gnzCrK9WY8wELq7aXgI8\nD9gG+MZUqpN8ddH6PicB9wIduZpoh+oE+CLwVOA1wDOA/wbOj4hndaLOTtYaEYvIz993gL+ppk9X\n/SbKduQdoo8ln+yl3krgOPJz93zyuVIujojHT2BND4mIvckXuLu+wfzXAc8Ffls3ayfy830C+Yq4\nhwGvBM7scIljPX9jfTZ1q87byBf1W0g+mu0y4GsRsaCa38zrPOHvpSbqBEZ93SfrfdQZrZxx0emh\nsz3+G/C9Mfr8DHh/XdtPgJOr/+9I/gB/Xc38+eQ/mud0q87CMhcC3625vS/wALBdTduO5JNqvWyq\n1NmgzwBwRjdf92bqJAeXQ+vahoAjpmCtVwEf6lRdbTyOjcABY/TZoer30i7Usz35y+tlwOXAkrr5\nTyIH1gXkM+weP8Z4bwTWA1t06/kb67NpMuqsuZ/fA4c3+zp3473UTJ1jve6T/T4az+SahPa8FvhJ\nRJwfEWsiYiAi3lrX50rggIjYCSAiXkpOvCNnt+ohH4Jae7GsleQ/tE5d2KqZOh8SeRPCq9j0F8M2\n5F8jf65pu5/8Zn3BFKqzvk8P8GzgPztUYyfr/CFwULVaNyLiYPLzfMVUqjUinkD+ZTQUET+MiDuq\nVaTP72Cd4xL5onNHAX+kwS/7DvsM8I2U0mWFWgI4B/hYSqnZE+8/lnz22W7+ohzrs6lkQuuMiC2q\n98FMCifRG+V17sZ7adQ6x3rdp8P7aFSTnVKm40RO1OuADwPPAo6sbv99TZ/HkE8wtZH8BbseWFwz\nvxdYXxj7R8Cp3aqzrv+J5BT+mJq22eRV1EuBbcmrMj9FXpPwH1OlzkKfZcDPu/26N1MnMIu82nHk\nb+MPwMunWq3kD7aNwF3Am6txlpBPg/6UTtY7yuMorkkgb6a7t/o7vA3o6UItB5O/oLaubm+yJgH4\nJ/Il70duj7omoXpv3coov+An4vkb67Opm3WSNxHcS15beTfwylZe5268l8aqc6zXfSq8j8b12Ce7\ngOk4kX9Jf7+u7RPAD2tuv5t8MbFXVX9gxwL3UK2ipzshYcw66+YNAh8vtL+cfIKrDdUb8Wzy6snP\nTKU6a+bPqD4s3tnt173J5/NT5F8hLwGeCXygqvfpU6lW8hqtjcCH69qvB07p5HM7yuNoFBK2BXYD\nngN8DrgZmD2BdfwV+Voyz6hpeygkkNcM3g7MrZnfMCSQV53/CPgmsGU3n7+xPpu6WSd5bepuwF7k\nE+ndCTyt2de5G++l0eps5nWfCu+jcT32yS5gOk7kVH1GXdvRwG3V/2dUH9L71/X5HHBR9f+Xkr90\ndyyM/Y5u1FnX/sKqnmeMMt5fjNRbvTHeNUXr/HtySn98N1/3ZuqsPmg2Agvq2r8LLJtite5a1XpI\nXft5wBc7+dyO8jjG3Ceh6ncTdVeb7XAdB/JwSH6gmjbWtPUBD9bMG5n/IHBz3Vjbk1f5L2eUtWET\n8fw189k0GXXW3Od3GWUNZe3r3K330mh1Au8Y63WfCu+j8Uwtn5ZZQN4ONr+ubT6wqvr/1tW0oa7P\nBh4+omQF+Q9pH+B/ACJiPjCPUS5s1eE6a70FWJFS+nmjwVJKd1d1vgx4AtVFvqZaneS99L+e8kXA\nOqkTdc4k7+Mx2t9GJ4y71pRPqf67wjh7ABd1qtAO2YK8LXqiXEL+pVrrLPIv8n8jr2Wo36Z/MXlb\n9RdGGiJih6rfevKX95/prmY+myazzrFex9r53XovjVbHOeTAUGuT132avY8eabJTynScyIev3E/e\nFvUU8qFE9wIH1/S5HPgp8GJykvwH8jbht9X0WUZeNfUS8mqrH1K3inii66z67Qj8CTiywTj/QN6u\nthuwmLzt+mNTrc6qz+7kD4l9J+N1H6tO8mrLm8g7Vu1dPafvIgfG/aZSrdX8d5BX376hGufDwH3A\nkzv9/Nbc53bk7bbPJv8Ce2d1e2fyF8Mp1d/jPPJhaZ+v3lsLJqqmBnVusk9CYX79aucdgKvJhyc+\nmXztm5GpY0cNjPb81dTd8LOpi3V+hLwWaxfyZo9Tq/fBy5p5nbv4XmpYZzOv+2S9jzr2+Ce7gOk6\nkbfn/bT6o72BukNugCeS96y/rfpj+AV1mxHISfRT5C/de4GvAE/sZp1VnyPJXxQ7NBjjVPLmhWHg\nxvrHMVXqrPqcAtwyWa97k8/nU6rX+vbqdb+WulWRU6XWqs+J5DUQ9wI/ABZN1PNb3d+LeXhVfu30\n+eo9c0H1vlpPvmDc/wALJ7KmBnVexugh4WY2DQkvLjymkcc5rxvPXzV/1M+mLtZ5ZvUcrSevibmY\nh/fZaup17sZ7abQ6m3nda9q7+j7q1OQFniRJUpHnSZAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElF\nhgRJklRkSJAkSUWGBEmSVGRIkCRJRYYESZJUZEiQJElF/x/NbP0BIuDMXQAAAABJRU5ErkJggg==\n",
      "text/plain": [
       "<matplotlib.figure.Figure at 0x127e7d978>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "#check important features\n",
    "importances = clf.feature_importances_\n",
    "std = np.std([tree.feature_importances_ for tree in clf.estimators_],\n",
    "             axis=0)\n",
    "indices = np.argsort(importances)[::-1]\n",
    "indices = indices[:10]\n",
    "# Print the feature ranking\n",
    "print(\"Feature ranking:\")\n",
    "\n",
    "for f in range(10):\n",
    "    print(\"%d. feature %d (%f)\" % (f + 1, indices[f], importances[indices[f]]))\n",
    "\n",
    "import matplotlib.pyplot as plt\n",
    "plt.figure()\n",
    "plt.title(\"Feature importances\")\n",
    "plt.bar(range(10), importances[indices],\n",
    "       color=\"r\", yerr=std[indices], align=\"center\")\n",
    "plt.xticks(range(10), indices)\n",
    "plt.xlim([-1, 10])\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 109,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "vaibahv 1 1\n",
      "sagrika 0 0\n",
      "ramashray 1 1\n",
      "karekar 1 1\n",
      "harshika 0 0\n",
      "deepaak 1 1\n",
      "fulo 0 0\n",
      "mahiya 0 0\n",
      "punyasloka 1 1\n",
      "pemaram 1 1\n"
     ]
    }
   ],
   "source": [
    "idx = np.random.choice(np.arange(len(Xlist)), 10, replace=False)\n",
    "xs = my_data['name'][idx]\n",
    "ys = y[idx]\n",
    "pred = clf.predict(X[idx])\n",
    "for a,b, p in zip(xs,ys, pred):\n",
    "     print(a,b,p)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 110,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1])"
      ]
     },
     "execution_count": 110,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#give some name not present in test/training data (manual check)\n",
    "xreal = name_map(['virinchi','samanvi','ashrith','saikeerthi','seol','vistista','kranthi','ramraji','anasuya','mangli','keerthi','reddy','shastry'])\n",
    "Xreal_conveted = np.array(xreal.tolist())\n",
    "pred = clf.predict(Xreal_conveted)\n",
    "pred"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "anaconda-cloud": {},
  "kernelspec": {
   "display_name": "Python [conda root]",
   "language": "python",
   "name": "conda-root-py"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 1
}