{
 "metadata": {
  "name": "summarizing_data"
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Summarizing data"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "import pandas as pd\n",
      "import numpy as np"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 1
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "<br><b>Earthquake data</b>"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "fileUrl = 'http://earthquake.usgs.gov/earthquakes/catalogs/eqs7day-M1.txt'\n",
      "\n",
      "eData = pd.read_csv(fileUrl)\n",
      "\n",
      "dateDownloaded = !date\n",
      "dateDownloaded"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 2,
       "text": [
        "['Mon Mar 18 21:45:48 CET 2013']"
       ]
      }
     ],
     "prompt_number": 2
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# looking at data\n",
      "# for large data, only a summary is shown\n",
      "eData"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 3,
       "text": [
        "<class 'pandas.core.frame.DataFrame'>\n",
        "Int64Index: 1126 entries, 0 to 1125\n",
        "Data columns:\n",
        "Src          1126  non-null values\n",
        "Eqid         1126  non-null values\n",
        "Version      1126  non-null values\n",
        "Datetime     1126  non-null values\n",
        "Lat          1126  non-null values\n",
        "Lon          1126  non-null values\n",
        "Magnitude    1126  non-null values\n",
        "Depth        1126  non-null values\n",
        "NST          1126  non-null values\n",
        "Region       1126  non-null values\n",
        "dtypes: float64(4), int64(1), object(5)"
       ]
      }
     ],
     "prompt_number": 3
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "eData.head()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Src</th>\n",
        "      <th>Eqid</th>\n",
        "      <th>Version</th>\n",
        "      <th>Datetime</th>\n",
        "      <th>Lat</th>\n",
        "      <th>Lon</th>\n",
        "      <th>Magnitude</th>\n",
        "      <th>Depth</th>\n",
        "      <th>NST</th>\n",
        "      <th>Region</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
        "      <td> ci</td>\n",
        "      <td> 15309081</td>\n",
        "      <td> 0</td>\n",
        "      <td> Monday, March 18, 2013 20:39:21 UTC</td>\n",
        "      <td> 34.2713</td>\n",
        "      <td>-117.2475</td>\n",
        "      <td> 1.8</td>\n",
        "      <td> 30.1</td>\n",
        "      <td> 14</td>\n",
        "      <td> Southern California</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
        "      <td> ci</td>\n",
        "      <td> 15309073</td>\n",
        "      <td> 0</td>\n",
        "      <td> Monday, March 18, 2013 20:38:22 UTC</td>\n",
        "      <td> 33.5075</td>\n",
        "      <td>-116.4293</td>\n",
        "      <td> 1.0</td>\n",
        "      <td>  6.6</td>\n",
        "      <td> 32</td>\n",
        "      <td> Southern California</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
        "      <td> ci</td>\n",
        "      <td> 15309057</td>\n",
        "      <td> 0</td>\n",
        "      <td> Monday, March 18, 2013 20:28:36 UTC</td>\n",
        "      <td> 33.5195</td>\n",
        "      <td>-116.4300</td>\n",
        "      <td> 1.0</td>\n",
        "      <td> 11.3</td>\n",
        "      <td> 40</td>\n",
        "      <td> Southern California</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
        "      <td> nn</td>\n",
        "      <td> 00406332</td>\n",
        "      <td> 1</td>\n",
        "      <td> Monday, March 18, 2013 20:22:00 UTC</td>\n",
        "      <td> 38.2462</td>\n",
        "      <td>-118.6417</td>\n",
        "      <td> 1.0</td>\n",
        "      <td>  7.0</td>\n",
        "      <td> 10</td>\n",
        "      <td>              Nevada</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
        "      <td> ci</td>\n",
        "      <td> 15309049</td>\n",
        "      <td> 0</td>\n",
        "      <td> Monday, March 18, 2013 20:21:41 UTC</td>\n",
        "      <td> 34.4252</td>\n",
        "      <td>-117.0105</td>\n",
        "      <td> 2.1</td>\n",
        "      <td>  1.1</td>\n",
        "      <td> 11</td>\n",
        "      <td> Southern California</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 4,
       "text": [
        "  Src      Eqid Version                             Datetime      Lat       Lon  \\\n",
        "0  ci  15309081       0  Monday, March 18, 2013 20:39:21 UTC  34.2713 -117.2475   \n",
        "1  ci  15309073       0  Monday, March 18, 2013 20:38:22 UTC  33.5075 -116.4293   \n",
        "2  ci  15309057       0  Monday, March 18, 2013 20:28:36 UTC  33.5195 -116.4300   \n",
        "3  nn  00406332       1  Monday, March 18, 2013 20:22:00 UTC  38.2462 -118.6417   \n",
        "4  ci  15309049       0  Monday, March 18, 2013 20:21:41 UTC  34.4252 -117.0105   \n",
        "\n",
        "   Magnitude  Depth  NST               Region  \n",
        "0        1.8   30.1   14  Southern California  \n",
        "1        1.0    6.6   32  Southern California  \n",
        "2        1.0   11.3   40  Southern California  \n",
        "3        1.0    7.0   10               Nevada  \n",
        "4        2.1    1.1   11  Southern California  "
       ]
      }
     ],
     "prompt_number": 4
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's dim()\n",
      "eData.shape"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 5,
       "text": [
        "(1126, 10)"
       ]
      }
     ],
     "prompt_number": 5
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's names()\n",
      "eData.columns"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 6,
       "text": [
        "Index([Src, Eqid, Version, Datetime, Lat, Lon, Magnitude, Depth, NST, Region], dtype=object)"
       ]
      }
     ],
     "prompt_number": 6
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# computing quantiles, equivalent to R's quantile()\n",
      "p = [0, 0.25, 0.5, 0.75, 1]\n",
      "[eData['Lat'].quantile(q=i) for i in p]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 7,
       "text": [
        "[-55.428199999999997,\n",
        " 33.512300000000003,\n",
        " 38.027299999999997,\n",
        " 53.807400000000001,\n",
        " 68.162499999999994]"
       ]
      }
     ],
     "prompt_number": 7
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to (but not as detailed as) R summary()\n",
      "eData.describe()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Lat</th>\n",
        "      <th>Lon</th>\n",
        "      <th>Magnitude</th>\n",
        "      <th>Depth</th>\n",
        "      <th>NST</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>count</th>\n",
        "      <td> 1126.000000</td>\n",
        "      <td> 1126.000000</td>\n",
        "      <td> 1126.000000</td>\n",
        "      <td> 1126.000000</td>\n",
        "      <td> 1126.000000</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>mean</th>\n",
        "      <td>   40.467150</td>\n",
        "      <td> -115.068258</td>\n",
        "      <td>    1.841741</td>\n",
        "      <td>   23.956217</td>\n",
        "      <td>   34.748668</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>std</th>\n",
        "      <td>   16.661746</td>\n",
        "      <td>   58.041865</td>\n",
        "      <td>    0.964461</td>\n",
        "      <td>   48.891918</td>\n",
        "      <td>   29.083693</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>min</th>\n",
        "      <td>  -55.428200</td>\n",
        "      <td> -179.967400</td>\n",
        "      <td>    1.000000</td>\n",
        "      <td>    0.000000</td>\n",
        "      <td>    0.000000</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>25%</th>\n",
        "      <td>   33.512300</td>\n",
        "      <td> -146.874675</td>\n",
        "      <td>    1.200000</td>\n",
        "      <td>    4.700000</td>\n",
        "      <td>   15.000000</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>50%</th>\n",
        "      <td>   38.027300</td>\n",
        "      <td> -119.670800</td>\n",
        "      <td>    1.500000</td>\n",
        "      <td>   10.400000</td>\n",
        "      <td>   26.000000</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>75%</th>\n",
        "      <td>   53.807400</td>\n",
        "      <td> -116.459800</td>\n",
        "      <td>    2.100000</td>\n",
        "      <td>   17.675000</td>\n",
        "      <td>   44.000000</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>max</th>\n",
        "      <td>   68.162500</td>\n",
        "      <td>  167.418600</td>\n",
        "      <td>    5.600000</td>\n",
        "      <td>  607.300000</td>\n",
        "      <td>  254.000000</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 8,
       "text": [
        "               Lat          Lon    Magnitude        Depth          NST\n",
        "count  1126.000000  1126.000000  1126.000000  1126.000000  1126.000000\n",
        "mean     40.467150  -115.068258     1.841741    23.956217    34.748668\n",
        "std      16.661746    58.041865     0.964461    48.891918    29.083693\n",
        "min     -55.428200  -179.967400     1.000000     0.000000     0.000000\n",
        "25%      33.512300  -146.874675     1.200000     4.700000    15.000000\n",
        "50%      38.027300  -119.670800     1.500000    10.400000    26.000000\n",
        "75%      53.807400  -116.459800     2.100000    17.675000    44.000000\n",
        "max      68.162500   167.418600     5.600000   607.300000   254.000000"
       ]
      }
     ],
     "prompt_number": 8
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# R's class() is equivalent to type()\n",
      "type(eData)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 9,
       "text": [
        "pandas.core.frame.DataFrame"
       ]
      }
     ],
     "prompt_number": 9
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# get the data types of all columns\n",
      "# similarly to the method used in the video, \n",
      "# we just apply the function type() to values in a row\n",
      "# the zip() method is just for nice printing\n",
      "zip(eData.columns, [type(x) for x in eData.ix[0,:]])"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 10,
       "text": [
        "[('Src', str),\n",
        " ('Eqid', str),\n",
        " ('Version', str),\n",
        " ('Datetime', str),\n",
        " ('Lat', numpy.float64),\n",
        " ('Lon', numpy.float64),\n",
        " ('Magnitude', numpy.float64),\n",
        " ('Depth', numpy.float64),\n",
        " ('NST', numpy.int64),\n",
        " ('Region', str)]"
       ]
      }
     ],
     "prompt_number": 10
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's unique() command\n",
      "eData['Src'].unique()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 11,
       "text": [
        "array(['ci', 'nn', 'nc', 'us', 'ak', 'hv', 'uw', 'uu', 'mb', 'pr', 'ld',\n",
        "       'nm'], dtype=object)"
       ]
      }
     ],
     "prompt_number": 11
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's length() command\n",
      "len(eData['Src'].unique())"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 12,
       "text": [
        "12"
       ]
      }
     ],
     "prompt_number": 12
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# for this particular case, value_counts() is equivalent to R's table()\n",
      "eData['Src'].value_counts() \n",
      "\n",
      "# or alternatively: pd.crosstab(eData['Src'], [])"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 13,
       "text": [
        "ci    375\n",
        "ak    306\n",
        "nc    212\n",
        "us     88\n",
        "nn     67\n",
        "uw     22\n",
        "hv     18\n",
        "uu     16\n",
        "pr     14\n",
        "ld      4\n",
        "nm      3\n",
        "mb      1"
       ]
      }
     ],
     "prompt_number": 13
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's table() to compute frequency table\n",
      "pd.crosstab(eData['Src'], eData['Version'])"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th>Version</th>\n",
        "      <th>0</th>\n",
        "      <th>1</th>\n",
        "      <th>2</th>\n",
        "      <th>3</th>\n",
        "      <th>4</th>\n",
        "      <th>5</th>\n",
        "      <th>6</th>\n",
        "      <th>7</th>\n",
        "      <th>8</th>\n",
        "      <th>9</th>\n",
        "      <th>A</th>\n",
        "      <th>B</th>\n",
        "      <th>D</th>\n",
        "      <th>N</th>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Src</th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>ak</th>\n",
        "      <td>   0</td>\n",
        "      <td> 77</td>\n",
        "      <td> 214</td>\n",
        "      <td> 15</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>ci</th>\n",
        "      <td> 170</td>\n",
        "      <td> 60</td>\n",
        "      <td>  49</td>\n",
        "      <td> 72</td>\n",
        "      <td> 21</td>\n",
        "      <td>  2</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 1</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>hv</th>\n",
        "      <td>   0</td>\n",
        "      <td> 10</td>\n",
        "      <td>   4</td>\n",
        "      <td>  1</td>\n",
        "      <td>  2</td>\n",
        "      <td>  1</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>ld</th>\n",
        "      <td>   0</td>\n",
        "      <td>  4</td>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>mb</th>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>   1</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>nc</th>\n",
        "      <td>  91</td>\n",
        "      <td> 55</td>\n",
        "      <td>  28</td>\n",
        "      <td> 25</td>\n",
        "      <td>  6</td>\n",
        "      <td>  5</td>\n",
        "      <td>  0</td>\n",
        "      <td>  1</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 1</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>nm</th>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 3</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>nn</th>\n",
        "      <td>   0</td>\n",
        "      <td> 67</td>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>pr</th>\n",
        "      <td>  14</td>\n",
        "      <td>  0</td>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>us</th>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>   0</td>\n",
        "      <td>  2</td>\n",
        "      <td> 10</td>\n",
        "      <td> 18</td>\n",
        "      <td> 26</td>\n",
        "      <td> 16</td>\n",
        "      <td> 10</td>\n",
        "      <td> 2</td>\n",
        "      <td> 1</td>\n",
        "      <td> 1</td>\n",
        "      <td> 1</td>\n",
        "      <td> 1</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>uu</th>\n",
        "      <td>   0</td>\n",
        "      <td>  0</td>\n",
        "      <td>   5</td>\n",
        "      <td>  2</td>\n",
        "      <td>  9</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>uw</th>\n",
        "      <td>   0</td>\n",
        "      <td> 17</td>\n",
        "      <td>   5</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td>  0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "      <td> 0</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 14,
       "text": [
        "Version    0   1    2   3   4   5   6   7   8  9  A  B  D  N\n",
        "Src                                                         \n",
        "ak         0  77  214  15   0   0   0   0   0  0  0  0  0  0\n",
        "ci       170  60   49  72  21   2   0   0   0  1  0  0  0  0\n",
        "hv         0  10    4   1   2   1   0   0   0  0  0  0  0  0\n",
        "ld         0   4    0   0   0   0   0   0   0  0  0  0  0  0\n",
        "mb         0   0    1   0   0   0   0   0   0  0  0  0  0  0\n",
        "nc        91  55   28  25   6   5   0   1   0  0  1  0  0  0\n",
        "nm         0   0    0   0   0   0   0   0   0  0  3  0  0  0\n",
        "nn         0  67    0   0   0   0   0   0   0  0  0  0  0  0\n",
        "pr        14   0    0   0   0   0   0   0   0  0  0  0  0  0\n",
        "us         0   0    0   2  10  18  26  16  10  2  1  1  1  1\n",
        "uu         0   0    5   2   9   0   0   0   0  0  0  0  0  0\n",
        "uw         0  17    5   0   0   0   0   0   0  0  0  0  0  0"
       ]
      }
     ],
     "prompt_number": 14
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "eData.ix[0:9,'Lat']"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 15,
       "text": [
        "0    34.2713\n",
        "1    33.5075\n",
        "2    33.5195\n",
        "3    38.2462\n",
        "4    34.4252\n",
        "5    33.8267\n",
        "6    32.6598\n",
        "7    33.8420\n",
        "8    33.9153\n",
        "9    38.0265\n",
        "Name: Lat"
       ]
      }
     ],
     "prompt_number": 15
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "eData.ix[0:9,'Lat'] > 40"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 16,
       "text": [
        "0    False\n",
        "1    False\n",
        "2    False\n",
        "3    False\n",
        "4    False\n",
        "5    False\n",
        "6    False\n",
        "7    False\n",
        "8    False\n",
        "9    False\n",
        "Name: Lat"
       ]
      }
     ],
     "prompt_number": 16
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's any()\n",
      "(eData.ix[0:9,'Lat'] > 40).any()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 17,
       "text": [
        "False"
       ]
      }
     ],
     "prompt_number": 17
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's all()\n",
      "(eData.ix[0:9,'Lat'] > 40).all()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 18,
       "text": [
        "False"
       ]
      }
     ],
     "prompt_number": 18
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# looking at subsets; very similar to R's & operator\n",
      "eData[(eData['Lat'] > 0) & (eData['Lon'] > 0)][['Lat', 'Lon']][:10]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Lat</th>\n",
        "      <th>Lon</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>85 </th>\n",
        "      <td> 36.2654</td>\n",
        "      <td>  69.7945</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>86 </th>\n",
        "      <td> 36.5114</td>\n",
        "      <td>  70.0785</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>102</th>\n",
        "      <td> 36.4774</td>\n",
        "      <td> 140.4687</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>132</th>\n",
        "      <td>  2.4794</td>\n",
        "      <td> 128.6353</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>133</th>\n",
        "      <td> 34.0983</td>\n",
        "      <td> 135.4945</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>183</th>\n",
        "      <td> 44.3796</td>\n",
        "      <td> 148.9563</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>221</th>\n",
        "      <td> 36.5178</td>\n",
        "      <td>  70.8805</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>246</th>\n",
        "      <td>  9.6966</td>\n",
        "      <td> 125.3708</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>253</th>\n",
        "      <td> 36.1766</td>\n",
        "      <td> 141.4287</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>295</th>\n",
        "      <td> 35.7555</td>\n",
        "      <td>   5.6368</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 19,
       "text": [
        "         Lat       Lon\n",
        "85   36.2654   69.7945\n",
        "86   36.5114   70.0785\n",
        "102  36.4774  140.4687\n",
        "132   2.4794  128.6353\n",
        "133  34.0983  135.4945\n",
        "183  44.3796  148.9563\n",
        "221  36.5178   70.8805\n",
        "246   9.6966  125.3708\n",
        "253  36.1766  141.4287\n",
        "295  35.7555    5.6368"
       ]
      }
     ],
     "prompt_number": 19
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# looking at subsets; very similar to R's | operator\n",
      "eData[(eData['Lat'] > 0) | (eData['Lon'] > 0)][['Lat', 'Lon']][-10:]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>Lat</th>\n",
        "      <th>Lon</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>1116</th>\n",
        "      <td> 33.5147</td>\n",
        "      <td>-116.4460</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1117</th>\n",
        "      <td> 63.2469</td>\n",
        "      <td>-150.4575</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1118</th>\n",
        "      <td> 33.5015</td>\n",
        "      <td>-116.4617</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1119</th>\n",
        "      <td> 63.4993</td>\n",
        "      <td>-146.4718</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1120</th>\n",
        "      <td> 49.3783</td>\n",
        "      <td>-120.4828</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1121</th>\n",
        "      <td> 33.5075</td>\n",
        "      <td>-116.4638</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1122</th>\n",
        "      <td> 33.5103</td>\n",
        "      <td>-116.4387</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1123</th>\n",
        "      <td> 38.7893</td>\n",
        "      <td>-122.7495</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1124</th>\n",
        "      <td> 33.5040</td>\n",
        "      <td>-116.4415</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1125</th>\n",
        "      <td> 33.5047</td>\n",
        "      <td>-116.4570</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 20,
       "text": [
        "          Lat       Lon\n",
        "1116  33.5147 -116.4460\n",
        "1117  63.2469 -150.4575\n",
        "1118  33.5015 -116.4617\n",
        "1119  63.4993 -146.4718\n",
        "1120  49.3783 -120.4828\n",
        "1121  33.5075 -116.4638\n",
        "1122  33.5103 -116.4387\n",
        "1123  38.7893 -122.7495\n",
        "1124  33.5040 -116.4415\n",
        "1125  33.5047 -116.4570"
       ]
      }
     ],
     "prompt_number": 20
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "<br><b>Peer review experiment data</b>"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "fileUrl1 = 'https://dl.dropbox.com/u/7710864/data/reviews-apr29.csv'\n",
      "fileUrl2 = 'https://dl.dropbox.com/u/7710864/data/solutions-apr29.csv'\n",
      "\n",
      "reviews = pd.read_csv(fileUrl1)\n",
      "solutions = pd.read_csv(fileUrl2)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 21
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "reviews.head(2)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>id</th>\n",
        "      <th>solution_id</th>\n",
        "      <th>reviewer_id</th>\n",
        "      <th>start</th>\n",
        "      <th>stop</th>\n",
        "      <th>time_left</th>\n",
        "      <th>accept</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
        "      <td> 1</td>\n",
        "      <td> 3</td>\n",
        "      <td> 27</td>\n",
        "      <td> 1304095698</td>\n",
        "      <td> 1304095758</td>\n",
        "      <td> 1754</td>\n",
        "      <td> 1</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
        "      <td> 2</td>\n",
        "      <td> 4</td>\n",
        "      <td> 22</td>\n",
        "      <td> 1304095188</td>\n",
        "      <td> 1304095206</td>\n",
        "      <td> 2306</td>\n",
        "      <td> 1</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 22,
       "text": [
        "   id  solution_id  reviewer_id       start        stop  time_left  accept\n",
        "0   1            3           27  1304095698  1304095758       1754       1\n",
        "1   2            4           22  1304095188  1304095206       2306       1"
       ]
      }
     ],
     "prompt_number": 22
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "solutions.head(2)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>id</th>\n",
        "      <th>problem_id</th>\n",
        "      <th>subject_id</th>\n",
        "      <th>start</th>\n",
        "      <th>stop</th>\n",
        "      <th>time_left</th>\n",
        "      <th>answer</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
        "      <td> 1</td>\n",
        "      <td> 156</td>\n",
        "      <td> 29</td>\n",
        "      <td> 1304095119</td>\n",
        "      <td> 1304095169</td>\n",
        "      <td> 2343</td>\n",
        "      <td> B</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
        "      <td> 2</td>\n",
        "      <td> 269</td>\n",
        "      <td> 25</td>\n",
        "      <td> 1304095119</td>\n",
        "      <td> 1304095183</td>\n",
        "      <td> 2329</td>\n",
        "      <td> C</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "output_type": "pyout",
       "prompt_number": 23,
       "text": [
        "   id  problem_id  subject_id       start        stop  time_left answer\n",
        "0   1         156          29  1304095119  1304095169       2343      B\n",
        "1   2         269          25  1304095119  1304095183       2329      C"
       ]
      }
     ],
     "prompt_number": 23
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# find if there are missing values; equivalent to R's is.na()\n",
      "reviews.ix[0:9,'time_left'].isnull()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 24,
       "text": [
        "0    False\n",
        "1    False\n",
        "2    False\n",
        "3    False\n",
        "4    False\n",
        "5    False\n",
        "6    False\n",
        "7     True\n",
        "8    False\n",
        "9    False\n",
        "Name: time_left"
       ]
      }
     ],
     "prompt_number": 24
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "reviews['time_left'].isnull().sum()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 25,
       "text": [
        "84"
       ]
      }
     ],
     "prompt_number": 25
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "reviews['time_left'].isnull().value_counts()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 26,
       "text": [
        "False    115\n",
        "True      84"
       ]
      }
     ],
     "prompt_number": 26
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's colSums()\n",
      "# notice we need to specifically include missing values with the option skipna=False\n",
      "# this is in contrary to R, where the default is to *include* NA\n",
      "reviews.sum(skipna=False) "
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 27,
       "text": [
        "id             19900\n",
        "solution_id    19929\n",
        "reviewer_id     5064\n",
        "start            NaN\n",
        "stop             NaN\n",
        "time_left        NaN\n",
        "accept           NaN"
       ]
      }
     ],
     "prompt_number": 27
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's colMeans\n",
      "# same remark as above: here missing values are by default excluded\n",
      "reviews.mean()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 28,
       "text": [
        "id             1.000000e+02\n",
        "solution_id    1.001457e+02\n",
        "reviewer_id    2.544724e+01\n",
        "start          1.304096e+09\n",
        "stop           1.304096e+09\n",
        "time_left      1.114287e+03\n",
        "accept         6.434783e-01"
       ]
      }
     ],
     "prompt_number": 28
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "# equivalent to R's rowMeans()\n",
      "reviews.mean(axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 29,
       "text": [
        "0     3.725990e+08\n",
        "1     3.725990e+08\n",
        "2     3.725990e+08\n",
        "3     3.725990e+08\n",
        "4     3.725990e+08\n",
        "5     3.725990e+08\n",
        "6     3.725990e+08\n",
        "7     1.300000e+01\n",
        "8     3.725990e+08\n",
        "9     3.725990e+08\n",
        "10    3.725990e+08\n",
        "11    3.725990e+08\n",
        "12    3.725990e+08\n",
        "13    3.725990e+08\n",
        "14    3.725990e+08\n",
        "...\n",
        "184    1.326667e+02\n",
        "185    1.333333e+02\n",
        "186    1.343333e+02\n",
        "187    1.340000e+02\n",
        "188    3.725993e+08\n",
        "189    1.356667e+02\n",
        "190    1.370000e+02\n",
        "191    3.725993e+08\n",
        "192    1.390000e+02\n",
        "193    1.383333e+02\n",
        "194    1.366667e+02\n",
        "195    1.410000e+02\n",
        "196    1.396667e+02\n",
        "197    1.420000e+02\n",
        "198    1.393333e+02\n",
        "Length: 199"
       ]
      }
     ],
     "prompt_number": 29
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [],
     "language": "python",
     "metadata": {},
     "outputs": []
    }
   ],
   "metadata": {}
  }
 ]
}