{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Merge and pivot"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div id='toc-container'><script type='text/javascript'>\n",
       "$(function() {\n",
       "    function regenTOC(){\n",
       "        element = $(\"#toc-container\");\n",
       "\n",
       "\tvar toc = document.createElement(\"div\");\n",
       "\t$(toc).attr(\"class\", \"table-of-contents\");\n",
       "\n",
       "\tvar curLevel = 0;\n",
       "\tvar containerStack = [toc];\n",
       "\tvar levelOfTag = {\"h2\": 1, \"h3\": 2, \"h4\": 3, \"h5\": 4};\n",
       "\n",
       "\tfunction pushLevel() {\n",
       "            var list = document.createElement(\"ul\");\n",
       "            containerStack.push(list);\n",
       "            curLevel++;\n",
       "\t}\n",
       "\t\n",
       "\tfunction popLevel() {\n",
       "            var lastContainer = containerStack.pop();\n",
       "            $(lastContainer).appendTo(containerStack[containerStack.length - 1]);\n",
       "            curLevel--;\n",
       "\t}\n",
       "\t\n",
       "\t$(\".text_cell_render :header\").each(function (i, elem) {\n",
       "            var level = levelOfTag[ elem.tagName.toLowerCase() ];\n",
       "\n",
       "            if (level === undefined)\n",
       "\t\treturn;\n",
       "\n",
       "            while (curLevel < level)\n",
       "\t\tpushLevel();\n",
       "            while (curLevel > level)\n",
       "\t\tpopLevel();\n",
       "            \n",
       "            var listItem = document.createElement(\"li\");\n",
       "            var link = document.createElement(\"a\");\n",
       "            $(link)\n",
       "\t\t.text($(elem).contents().first().text()) // Remove the pilcrow sign\n",
       "\t\t.attr(\"href\", \"#\" + $(elem).attr(\"id\"))\n",
       "\t\t.appendTo(listItem);\n",
       "            $(listItem).appendTo(containerStack[containerStack.length - 1]);\n",
       "\t});\n",
       "\t\n",
       "\twhile (curLevel > 0)\n",
       "            popLevel();\n",
       "\n",
       "        $(\"<a class='btn-update' href='#'>Update</a>\")\n",
       "          .click(regenTOC).prependTo(toc);\n",
       "\n",
       "\t$(toc).prepend(\"<div class='title'>Contents</div>\")\n",
       "          .wrap(\"<div class='toc-headings'/>\");\n",
       "\n",
       "        $(element).empty();\n",
       "        $(element).append(toc);\n",
       "    }\n",
       "\n",
       "    if (typeof(IPython) !== 'undefined')\n",
       "        $([IPython.events]).on('notebook_loaded.Notebook', regenTOC);\n",
       "    regenTOC();\n",
       "});\n",
       "\n",
       "</script></div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import addutils.toc ; addutils.toc.js(ipy_notebook=True)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In this tutorial we are going to see how to combine `pandas` datastructures together."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>\n",
       ".text_cell_render @font-face {\n",
       "    font-family: \"Computer Modern\";\n",
       "    src: url('http://mirrors.ctan.org/fonts/cm-unicode/fonts/otf/cmunss.otf');\n",
       "}\n",
       "\n",
       "div.cell {\n",
       "    width: 900px;\n",
       "    margin-left: 0% !important;\n",
       "    margin-right: 0%;\n",
       "}\n",
       "\n",
       "code {\n",
       "    font-size:10pt;\n",
       "}\n",
       "\n",
       ".text_cell_render  h1 {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 10, 88, 126 );\n",
       "    font-size:28pt;\n",
       "}\n",
       ".text_cell_render h2 {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 10, 88, 126 );\n",
       "    font-size:24pt;\n",
       "}\n",
       ".text_cell_render h3 {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 10, 88, 126 );\n",
       "    font-size:20pt;\n",
       "}\n",
       ".text_cell_render h4 {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 10, 88, 126 );\n",
       "    font-size:18pt;\n",
       "    margin-top:12px;\n",
       "    margin-bottom: 3px;\n",
       "}\n",
       "\n",
       ".text_cell_render h5 {\n",
       "    font-weight: 300;\n",
       "    font-size: 11pt;\n",
       "    color: rgb( 48, 48, 48 );\n",
       "    font-style: italic;\n",
       "    margin-bottom: .5em;\n",
       "    margin-top: 0.5em;\n",
       "    display: block;\n",
       "}\n",
       "\n",
       ".text_cell_render ul {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 90, 90, 90 );\n",
       "    font-size:11pt;\n",
       "    line-height: 185%;\n",
       "}\n",
       "\n",
       ".text_cell_render yp {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 90, 90, 90 );\n",
       "    font-size:11pt;\n",
       "}\n",
       "\n",
       ".text_cell_render strong {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 30, 30, 30 );\n",
       "    font-size:11pt;\n",
       "}\n",
       "\n",
       ".text_cell_render a:link {\n",
       "    font-family: Tahoma, sans-serif;\n",
       "    color: rgb( 10, 88, 126 );\n",
       "    font-size:11pt;\n",
       "}\n",
       "\n",
       ".text_cell_render a:visited {\n",
       "    color:rgb( 10, 88, 126 );\n",
       "}\n",
       "\n",
       ".text_cell_render {\n",
       "    font-family: Helvetica, Courier, Computer Modern, \"Helvetica Neue\", Arial, Geneva, sans-serif;\n",
       "    color: rgb( 84, 84, 84 );\n",
       "    font-size:11pt;\n",
       "    line-height: 125%;\n",
       "    font-size: 100%;\n",
       "    width:800px;\n",
       "}\n",
       "\n",
       ".CodeMirror {\n",
       "    font-family: Courier, \"Source Code Pro\", source-code-pro,Consolas, monospace;\n",
       "}\n",
       "\n",
       ".warning {\n",
       "    color: rgb( 240, 20, 20 );\n",
       "}\n",
       "\n",
       "/* Pandas tables */\n",
       "/*\n",
       ".rendered_html td {\n",
       "    text-align: right;\n",
       "}\n",
       "*/\n",
       "\n",
       "table.dataframe td {\n",
       "    text-align: right;\n",
       "}\n",
       "\n",
       ".output .table-of-contents {\n",
       "    border: 1px #cecece solid;\n",
       "    background-color: #fafafa;\n",
       "    padding-top: 10px;\n",
       "    padding-bottom: 5px;\n",
       "    padding-right: 15px;\n",
       "    padding-left: 0px;\n",
       "    margin-bottom: 20px;\n",
       "    display: inline-block;\n",
       "    position: relative;\n",
       "}\n",
       "\n",
       ".output .table-of-contents ul {\n",
       "    list-style-type: none;\n",
       "    padding-left: 20px;\n",
       "}\n",
       "\n",
       ".output .table-of-contents .title {\n",
       "    font-weight: bold;\n",
       "    font-height: 11pt;\n",
       "    padding-left: 20px; /* looks better if it's the same to the <ul> */\n",
       "}\n",
       "\n",
       ".output .table-of-contents .btn-update {\n",
       "    position: absolute;\n",
       "    float: right;\n",
       "    right: 11px;\n",
       "    top: 4px;\n",
       "    font-size: 9pt;\n",
       "}\n",
       "\n",
       "</style>\n",
       "<script>\n",
       "    MathJax.Hub.Config({\n",
       "                        TeX: {\n",
       "                           extensions: [\"AMSmath.js\"]\n",
       "                           },\n",
       "                displayAlign: 'center', // Change this to 'center' to center equations.\n",
       "                \"HTML-CSS\": {\n",
       "                    styles: {'.MathJax_Display': {\"margin\": 4}}\n",
       "                }\n",
       "        });\n",
       "</script>\n"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import numpy as np\n",
    "import pandas as pd\n",
    "from IPython.display import (display, HTML)\n",
    "from addutils import side_by_side2, css_notebook\n",
    "css_notebook()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1 Concat"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`pandas.concat` concatenates two (or more) pandas objects along a particular axis (default is the vertical one)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>a</th>\n",
       "      <th>b</th>\n",
       "      <th>c</th>\n",
       "      <th>d</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>-1</td>\n",
       "      <td>-2</td>\n",
       "      <td>4</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>3</td>\n",
       "      <td>4</td>\n",
       "      <td>-4</td>\n",
       "      <td>-3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>-5</td>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>-5</td>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "      <th>e</th>\n",
       "      <th>d</th>\n",
       "      <th>c</th>\n",
       "      <th>b</th>\n",
       "      <th>a</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>1.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data = np.array([[-1, -2, 4, 3],[3,4, -4, -3], [2, -5, 3, 2], [2, -5, 3, 2]])\n",
    "df1 = pd.DataFrame(data, columns = ['a','b','c','d'])\n",
    "df2 = pd.DataFrame(np.random.randint(5, size=(3,6)) + 0.5, columns = list('fedcba'))\n",
    "HTML(side_by_side2(df1, df2))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "When gluing together multiple DataFrames, you have a choice of how to handle the other axes (other than the one being concatenated). This can be done by defining `join`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>a</th>\n",
       "      <th>b</th>\n",
       "      <th>c</th>\n",
       "      <th>d</th>\n",
       "      <th>e</th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>-1.0</td>\n",
       "      <td>-2.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>3.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>-4.0</td>\n",
       "      <td>-3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>d</th>\n",
       "      <th>c</th>\n",
       "      <th>b</th>\n",
       "      <th>a</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>3.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>-2.0</td>\n",
       "      <td>-1.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>-3.0</td>\n",
       "      <td>-4.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>2.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>2.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>1.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "HTML(side_by_side2(pd.concat([df1, df2]), pd.concat([df1, df2], join='inner')))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "It is possible to create a Multi-index DataFrame setting the 'keys' parameter."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th>a</th>\n",
       "      <th>b</th>\n",
       "      <th>c</th>\n",
       "      <th>d</th>\n",
       "      <th>e</th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th rowspan=\"4\" valign=\"top\">First</th>\n",
       "      <th>0</th>\n",
       "      <td>-1.0</td>\n",
       "      <td>-2.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>3.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>-4.0</td>\n",
       "      <td>-3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"3\" valign=\"top\">Second</th>\n",
       "      <th>0</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "            a    b    c    d    e    f\n",
       "First  0 -1.0 -2.0  4.0  3.0  NaN  NaN\n",
       "       1  3.0  4.0 -4.0 -3.0  NaN  NaN\n",
       "       2  2.0 -5.0  3.0  2.0  NaN  NaN\n",
       "       3  2.0 -5.0  3.0  2.0  NaN  NaN\n",
       "Second 0  4.5  3.5  3.5  1.5  0.5  0.5\n",
       "       1  1.5  0.5  2.5  1.5  3.5  4.5\n",
       "       2  4.5  3.5  2.5  3.5  0.5  0.5"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.concat([df1, df2], keys = ('First', 'Second'))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Note that `concat` allows overlapping indexes. In order to avoid overlapping index the parameter `ignore_index` has to be set as `True`. "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>a</th>\n",
       "      <th>b</th>\n",
       "      <th>c</th>\n",
       "      <th>d</th>\n",
       "      <th>e</th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>-1.0</td>\n",
       "      <td>-2.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>3.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>-4.0</td>\n",
       "      <td>-3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2.0</td>\n",
       "      <td>-5.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>1.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     a    b    c    d    e    f\n",
       "0 -1.0 -2.0  4.0  3.0  NaN  NaN\n",
       "1  3.0  4.0 -4.0 -3.0  NaN  NaN\n",
       "2  2.0 -5.0  3.0  2.0  NaN  NaN\n",
       "3  2.0 -5.0  3.0  2.0  NaN  NaN\n",
       "4  4.5  3.5  3.5  1.5  0.5  0.5\n",
       "5  1.5  0.5  2.5  1.5  3.5  4.5\n",
       "6  4.5  3.5  2.5  3.5  0.5  0.5"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.concat([df1, df2], ignore_index = True)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "And if we want to concatenate the DataFrames on a different axis:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <th colspan=\"4\" halign=\"left\">ONE</th>\n",
       "      <th colspan=\"6\" halign=\"left\">TWO</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th></th>\n",
       "      <th>a</th>\n",
       "      <th>b</th>\n",
       "      <th>c</th>\n",
       "      <th>d</th>\n",
       "      <th>f</th>\n",
       "      <th>e</th>\n",
       "      <th>d</th>\n",
       "      <th>c</th>\n",
       "      <th>b</th>\n",
       "      <th>a</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>-1</td>\n",
       "      <td>-2</td>\n",
       "      <td>4</td>\n",
       "      <td>3</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>3</td>\n",
       "      <td>4</td>\n",
       "      <td>-4</td>\n",
       "      <td>-3</td>\n",
       "      <td>4.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>1.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>1.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>-5</td>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "      <td>0.5</td>\n",
       "      <td>0.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>2.5</td>\n",
       "      <td>3.5</td>\n",
       "      <td>4.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>-5</td>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "  ONE           TWO                         \n",
       "    a  b  c  d    f    e    d    c    b    a\n",
       "0  -1 -2  4  3  0.5  0.5  1.5  3.5  3.5  4.5\n",
       "1   3  4 -4 -3  4.5  3.5  1.5  2.5  0.5  1.5\n",
       "2   2 -5  3  2  0.5  0.5  3.5  2.5  3.5  4.5\n",
       "3   2 -5  3  2  NaN  NaN  NaN  NaN  NaN  NaN"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "concatenatedaxis = pd.concat([df1, df2], axis = 1, keys = ['ONE','TWO'])\n",
    "concatenatedaxis"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2 Append"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`append` is a shortcut for `concat` along `axis=0`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "d1 = pd.DataFrame(np.random.randint(10,99,(2,2)), index=[1001, 1002], columns=list('AB'))\n",
    "d2 = pd.DataFrame(np.random.randint(10,99,(2,3)), index=[1002, 2001], columns=list('BCD'))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`append` allows overlapping index. Here we can see the two cases with `ignore_index` set respectively to true or false:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1001</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>B</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>18</td>\n",
       "      <td>28</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1001</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>NaN</td>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>NaN</td>\n",
       "      <td>18</td>\n",
       "      <td>28</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>NaN</td>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>NaN</td>\n",
       "      <td>18</td>\n",
       "      <td>28</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "HTML(side_by_side2(d1, d2, d1.append(d2), d1.append(d2, ignore_index=True)))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3 Join"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`join` is equivalent to the `sql` homonymous command. It's more advanced than `append` because has the parameter `how` that specifies how to merge indexes:\n",
    "\n",
    "* `left` keeps left indexes.\n",
    "* `right` keeps right indexes.\n",
    "* `inner` intersects indexes.\n",
    "* `outer` makes union of indexes."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1001</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>B</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>18</td>\n",
       "      <td>28</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "HTML(side_by_side2(d1, d2))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>B_r</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1001</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>B_r</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>12</td>\n",
       "      <td>15</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>18</td>\n",
       "      <td>28</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1001</th>\n",
       "      <td>32</td>\n",
       "      <td>13</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1002</th>\n",
       "      <td>56</td>\n",
       "      <td>31</td>\n",
       "      <td>45</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>41</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "d6 = d1.join(d2, rsuffix='_r', how='left')\n",
    "d7 = d1.join(d2, rsuffix='_r', how='right')\n",
    "d8 = d1.join(d2.D, how='inner')\n",
    "d9 = d1.join(d2.D, how='outer')\n",
    "HTML(side_by_side2(d6, d7, d8, d9))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4 Merge"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "pandas provides a single function, `merge`, as the entry point for all standard database join operations between DataFrame objects:\n",
    "\n",
    "    pd.merge(left, right, how=’left’, on=None, left_on=None, right_on=None,\n",
    "             left_index=False, right_index=False, sort=True,\n",
    "             suffixes=(’_x’, ’_y’), copy=True)\n",
    "             \n",
    "* `on`: Columns to join on. Must be found in both DataFrames\n",
    "* `left_on`: Columns from the left DataFrame to use as keys\n",
    "* `right_on`: same for right\n",
    "* `left_index`: If True, use the index (row labels) from the left DataFrame join key(s)\n",
    "* `right_index`: same for right\n",
    "* `how`: One of ’left’, ’right’, ’outer’, ’inner’. Defaults to ’inner’.\n",
    "* `suffixes`: A tuple of string suffixes to apply to overlapping columns. Defaults to (’_x’, ’_y’)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>key</th>\n",
       "      <th>lval</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>foo</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>foo</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>key</th>\n",
       "      <th>rval</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>foo</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>bar</td>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})\n",
    "right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})\n",
    "HTML(side_by_side2(left, right))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>key</th>\n",
       "      <th>lval</th>\n",
       "      <th>rval</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>foo</td>\n",
       "      <td>1</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>foo</td>\n",
       "      <td>2</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>bar</td>\n",
       "      <td>NaN</td>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   key  lval  rval\n",
       "0  foo     1     4\n",
       "1  foo     2     4\n",
       "2  bar   NaN     5"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.merge(left, right, on='key', how='right')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "A practical example: revenues is a little dataset that we want to join with the 'cities' database to find the geographical location of the offices:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>City</th>\n",
       "      <th>Name</th>\n",
       "      <th>Revenues</th>\n",
       "      <th>State</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>New York</td>\n",
       "      <td>Roy</td>\n",
       "      <td>1250</td>\n",
       "      <td>NY</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>frisco</td>\n",
       "      <td>Johnn</td>\n",
       "      <td>840</td>\n",
       "      <td>CA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>houston</td>\n",
       "      <td>Jim</td>\n",
       "      <td>349</td>\n",
       "      <td>tx</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>taft</td>\n",
       "      <td>Paul</td>\n",
       "      <td>1100</td>\n",
       "      <td>OK</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>venice</td>\n",
       "      <td>Ross</td>\n",
       "      <td>900</td>\n",
       "      <td>IL</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>City</th>\n",
       "      <th>State</th>\n",
       "      <th>lat</th>\n",
       "      <th>lon</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>ROBERTS</td>\n",
       "      <td>ID</td>\n",
       "      <td>43.698922</td>\n",
       "      <td>-112.173195</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>HODGENVILLE</td>\n",
       "      <td>KY</td>\n",
       "      <td>37.559321</td>\n",
       "      <td>-85.707267</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>WILLIAMSPORT</td>\n",
       "      <td>TN</td>\n",
       "      <td>35.722628</td>\n",
       "      <td>-87.212698</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>MAUMEE</td>\n",
       "      <td>OH</td>\n",
       "      <td>41.571251</td>\n",
       "      <td>-83.685036</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>BERNE</td>\n",
       "      <td>NY</td>\n",
       "      <td>42.602236</td>\n",
       "      <td>-74.154615</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>MONCLOVA</td>\n",
       "      <td>OH</td>\n",
       "      <td>41.577251</td>\n",
       "      <td>-83.772378</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>MEADOWBROOK</td>\n",
       "      <td>WV</td>\n",
       "      <td>39.346214</td>\n",
       "      <td>-80.313875</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>RUTH</td>\n",
       "      <td>NV</td>\n",
       "      <td>39.342631</td>\n",
       "      <td>-114.885945</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "revenues = pd.read_csv('example_data/p05_d2.txt', index_col=0)\n",
    "cities = pd.read_csv('example_data/cities.csv.bz2', compression='bz2',\n",
    "                  names=['City', 'State', 'lat', 'lon'])\n",
    "HTML(side_by_side2(revenues, cities.head(8)))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The 'cities' database contains 30101 records:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "30101"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "cities['City'].count()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "First we map a normalization function to standardize the 'City' and 'State' names. **`map`** applies the function passed as parameter to all elements of the `DataFrame`:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Name</th>\n",
       "      <th>Revenues</th>\n",
       "      <th>City</th>\n",
       "      <th>State</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Roy</td>\n",
       "      <td>1250</td>\n",
       "      <td>NEW YORK</td>\n",
       "      <td>NY</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Johnn</td>\n",
       "      <td>840</td>\n",
       "      <td>FRISCO</td>\n",
       "      <td>CA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Jim</td>\n",
       "      <td>349</td>\n",
       "      <td>HOUSTON</td>\n",
       "      <td>TX</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Paul</td>\n",
       "      <td>1100</td>\n",
       "      <td>TAFT</td>\n",
       "      <td>OK</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Ross</td>\n",
       "      <td>900</td>\n",
       "      <td>VENICE</td>\n",
       "      <td>IL</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    Name  Revenues      City State\n",
       "0    Roy      1250  NEW YORK    NY\n",
       "1  Johnn       840    FRISCO    CA\n",
       "2    Jim       349   HOUSTON    TX\n",
       "3   Paul      1100      TAFT    OK\n",
       "4   Ross       900    VENICE    IL"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "revenues = revenues.reindex(columns=['Name','Revenues','City','State'])\n",
    "revenues['City'] = revenues['City'].map(lambda str: str.upper().strip())\n",
    "revenues['State'] = revenues['State'].map(lambda str: str.upper().strip())\n",
    "display(revenues)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Name</th>\n",
       "      <th>Revenues</th>\n",
       "      <th>City</th>\n",
       "      <th>State</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Roy</td>\n",
       "      <td>1250</td>\n",
       "      <td>NEW YORK</td>\n",
       "      <td>NY</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Johnn</td>\n",
       "      <td>840</td>\n",
       "      <td>FRISCO</td>\n",
       "      <td>CA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Jim</td>\n",
       "      <td>349</td>\n",
       "      <td>HOUSTON</td>\n",
       "      <td>TX</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Paul</td>\n",
       "      <td>1100</td>\n",
       "      <td>TAFT</td>\n",
       "      <td>OK</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Ross</td>\n",
       "      <td>900</td>\n",
       "      <td>VENICE</td>\n",
       "      <td>IL</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div><div style=\"float:left;padding-right: 0.6em;\">\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Name</th>\n",
       "      <th>Revenues</th>\n",
       "      <th>City</th>\n",
       "      <th>State</th>\n",
       "      <th>lat</th>\n",
       "      <th>lon</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Roy</td>\n",
       "      <td>1250</td>\n",
       "      <td>NEW YORK</td>\n",
       "      <td>NY</td>\n",
       "      <td>40.757929</td>\n",
       "      <td>-73.985506</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Paul</td>\n",
       "      <td>1100</td>\n",
       "      <td>TAFT</td>\n",
       "      <td>OK</td>\n",
       "      <td>35.763648</td>\n",
       "      <td>-95.544501</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Ross</td>\n",
       "      <td>900</td>\n",
       "      <td>VENICE</td>\n",
       "      <td>IL</td>\n",
       "      <td>38.670250</td>\n",
       "      <td>-90.168859</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Johnn</td>\n",
       "      <td>840</td>\n",
       "      <td>FRISCO</td>\n",
       "      <td>CA</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Jim</td>\n",
       "      <td>349</td>\n",
       "      <td>HOUSTON</td>\n",
       "      <td>TX</td>\n",
       "      <td>29.759956</td>\n",
       "      <td>-95.362534</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "leftjoin = pd.merge(revenues, cities, left_on=['City', 'State'],\n",
    "                                      right_on=['City', 'State'], how='left')\n",
    "leftjoin = leftjoin.sort_values(by='Revenues', ascending=False)\n",
    "HTML(side_by_side2(revenues, leftjoin))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5 Pivoting"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`pivot_table` is useful to analize data in the so-called \"stacked\" or \"record\" format: here each field of each record are stored in colums and similar fields could have multiple duplicates:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Unnamed: 0</th>\n",
       "      <th>date</th>\n",
       "      <th>variable</th>\n",
       "      <th>value</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>2000-01-03 00:00:00</td>\n",
       "      <td>A</td>\n",
       "      <td>0.397018</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>2000-01-04 00:00:00</td>\n",
       "      <td>A</td>\n",
       "      <td>0.621109</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>2000-01-05 00:00:00</td>\n",
       "      <td>A</td>\n",
       "      <td>-2.508284</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>2000-01-03 00:00:00</td>\n",
       "      <td>B</td>\n",
       "      <td>0.219796</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>2000-01-04 00:00:00</td>\n",
       "      <td>B</td>\n",
       "      <td>1.371027</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>5</td>\n",
       "      <td>2000-01-05 00:00:00</td>\n",
       "      <td>B</td>\n",
       "      <td>-1.005504</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>6</td>\n",
       "      <td>2000-01-03 00:00:00</td>\n",
       "      <td>C</td>\n",
       "      <td>-0.391149</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>7</td>\n",
       "      <td>2000-01-04 00:00:00</td>\n",
       "      <td>C</td>\n",
       "      <td>1.209346</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>8</td>\n",
       "      <td>2000-01-05 00:00:00</td>\n",
       "      <td>C</td>\n",
       "      <td>-0.059617</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>9</td>\n",
       "      <td>2000-01-03 00:00:00</td>\n",
       "      <td>D</td>\n",
       "      <td>-0.464558</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>10</td>\n",
       "      <td>2000-01-04 00:00:00</td>\n",
       "      <td>D</td>\n",
       "      <td>-0.173605</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>11</td>\n",
       "      <td>2000-01-05 00:00:00</td>\n",
       "      <td>D</td>\n",
       "      <td>-1.649632</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "    Unnamed: 0                 date variable     value\n",
       "0            0  2000-01-03 00:00:00        A  0.397018\n",
       "1            1  2000-01-04 00:00:00        A  0.621109\n",
       "2            2  2000-01-05 00:00:00        A -2.508284\n",
       "3            3  2000-01-03 00:00:00        B  0.219796\n",
       "4            4  2000-01-04 00:00:00        B  1.371027\n",
       "5            5  2000-01-05 00:00:00        B -1.005504\n",
       "6            6  2000-01-03 00:00:00        C -0.391149\n",
       "7            7  2000-01-04 00:00:00        C  1.209346\n",
       "8            8  2000-01-05 00:00:00        C -0.059617\n",
       "9            9  2000-01-03 00:00:00        D -0.464558\n",
       "10          10  2000-01-04 00:00:00        D -0.173605\n",
       "11          11  2000-01-05 00:00:00        D -1.649632"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data = pd.read_csv('example_data/pd06_pivot_Example.txt')\n",
    "data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>variable</th>\n",
       "      <th>A</th>\n",
       "      <th>B</th>\n",
       "      <th>C</th>\n",
       "      <th>D</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>date</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>2000-01-03 00:00:00</th>\n",
       "      <td>0.397018</td>\n",
       "      <td>0.219796</td>\n",
       "      <td>-0.391149</td>\n",
       "      <td>-0.464558</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2000-01-04 00:00:00</th>\n",
       "      <td>0.621109</td>\n",
       "      <td>1.371027</td>\n",
       "      <td>1.209346</td>\n",
       "      <td>-0.173605</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2000-01-05 00:00:00</th>\n",
       "      <td>-2.508284</td>\n",
       "      <td>-1.005504</td>\n",
       "      <td>-0.059617</td>\n",
       "      <td>-1.649632</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "variable                    A         B         C         D\n",
       "date                                                       \n",
       "2000-01-03 00:00:00  0.397018  0.219796 -0.391149 -0.464558\n",
       "2000-01-04 00:00:00  0.621109  1.371027  1.209346 -0.173605\n",
       "2000-01-05 00:00:00 -2.508284 -1.005504 -0.059617 -1.649632"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pivot = data.pivot(index='date', columns='variable', values='value')\n",
    "pivot.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "A practical example: apply pivoting to a dataset containing the statistics of te US crimes State by State, downloaded from the Stanford University \"Human-Computer Interaction\" group (http://hci.stanford.edu/jheer/workshop/data/):"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>State</th>\n",
       "      <th>Type of Crime</th>\n",
       "      <th>Crime</th>\n",
       "      <th>Year</th>\n",
       "      <th>Count</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Alabama</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Murder and nonnegligent Manslaughter</td>\n",
       "      <td>1960</td>\n",
       "      <td>406</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1000</th>\n",
       "      <td>Arkansas</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Murder and nonnegligent Manslaughter</td>\n",
       "      <td>1994</td>\n",
       "      <td>294</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2000</th>\n",
       "      <td>Connecticut</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Forcible rape</td>\n",
       "      <td>1982</td>\n",
       "      <td>692</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3000</th>\n",
       "      <td>Florida</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Robbery</td>\n",
       "      <td>1970</td>\n",
       "      <td>12636</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4000</th>\n",
       "      <td>Idaho</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Robbery</td>\n",
       "      <td>2004</td>\n",
       "      <td>241</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5000</th>\n",
       "      <td>Iowa</td>\n",
       "      <td>Violent Crime</td>\n",
       "      <td>Aggravated assault</td>\n",
       "      <td>1992</td>\n",
       "      <td>6131</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6000</th>\n",
       "      <td>Louisiana</td>\n",
       "      <td>Property Crime</td>\n",
       "      <td>Burglary</td>\n",
       "      <td>1980</td>\n",
       "      <td>63997</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7000</th>\n",
       "      <td>Massachusetts</td>\n",
       "      <td>Property Crime</td>\n",
       "      <td>Larceny-theft</td>\n",
       "      <td>1968</td>\n",
       "      <td>66823</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "              State   Type of Crime                                 Crime  \\\n",
       "0           Alabama   Violent Crime  Murder and nonnegligent Manslaughter   \n",
       "1000       Arkansas   Violent Crime  Murder and nonnegligent Manslaughter   \n",
       "2000    Connecticut   Violent Crime                         Forcible rape   \n",
       "3000        Florida   Violent Crime                               Robbery   \n",
       "4000          Idaho   Violent Crime                               Robbery   \n",
       "5000           Iowa   Violent Crime                    Aggravated assault   \n",
       "6000      Louisiana  Property Crime                              Burglary   \n",
       "7000  Massachusetts  Property Crime                         Larceny-theft   \n",
       "\n",
       "      Year  Count  \n",
       "0     1960    406  \n",
       "1000  1994    294  \n",
       "2000  1982    692  \n",
       "3000  1970  12636  \n",
       "4000  2004    241  \n",
       "5000  1992   6131  \n",
       "6000  1980  63997  \n",
       "7000  1968  66823  "
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data2 = pd.read_csv('example_data/CrimeStatebyState.csv.bz2', compression='bz2')\n",
    "data2.ix[0:7000:1000]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Definition:\n",
    "    pd.pivot_table(data, values=None, rows=None, cols=None, aggfunc='mean',\n",
    "                   fill_value=None, margins=False, dropna=True)\n",
    "\n",
    "* `values`: Columns to aggregate\n",
    "* `aggfunc`: Default is `np.mean`. This can be a list of functions as well\n",
    "* `aggfunc`: Boolean, add subtotals, grandtotals\n",
    "* `dropna`: Exclude columns with NaN's"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>State</th>\n",
       "      <th>Utah</th>\n",
       "      <th>Vermont</th>\n",
       "      <th>Virginia</th>\n",
       "      <th>Washington</th>\n",
       "      <th>West Virginia</th>\n",
       "      <th>Wisconsin</th>\n",
       "      <th>Wyoming</th>\n",
       "      <th>All</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Year</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1997</th>\n",
       "      <td>123447</td>\n",
       "      <td>16658</td>\n",
       "      <td>261022</td>\n",
       "      <td>332469</td>\n",
       "      <td>44839</td>\n",
       "      <td>190133</td>\n",
       "      <td>20068</td>\n",
       "      <td>13195074</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1998</th>\n",
       "      <td>115624</td>\n",
       "      <td>18552</td>\n",
       "      <td>248576</td>\n",
       "      <td>333799</td>\n",
       "      <td>46130</td>\n",
       "      <td>185093</td>\n",
       "      <td>18315</td>\n",
       "      <td>12485714</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1999</th>\n",
       "      <td>105999</td>\n",
       "      <td>16735</td>\n",
       "      <td>231886</td>\n",
       "      <td>302509</td>\n",
       "      <td>49161</td>\n",
       "      <td>173062</td>\n",
       "      <td>16583</td>\n",
       "      <td>11634378</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2000</th>\n",
       "      <td>99958</td>\n",
       "      <td>18185</td>\n",
       "      <td>214348</td>\n",
       "      <td>300932</td>\n",
       "      <td>47067</td>\n",
       "      <td>172124</td>\n",
       "      <td>16285</td>\n",
       "      <td>11608070</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <td>96307</td>\n",
       "      <td>16978</td>\n",
       "      <td>228445</td>\n",
       "      <td>308492</td>\n",
       "      <td>46120</td>\n",
       "      <td>179410</td>\n",
       "      <td>17392</td>\n",
       "      <td>11849006</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2002</th>\n",
       "      <td>103129</td>\n",
       "      <td>15600</td>\n",
       "      <td>229039</td>\n",
       "      <td>309931</td>\n",
       "      <td>45320</td>\n",
       "      <td>176987</td>\n",
       "      <td>17858</td>\n",
       "      <td>11878954</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2003</th>\n",
       "      <td>105973</td>\n",
       "      <td>14510</td>\n",
       "      <td>220939</td>\n",
       "      <td>312814</td>\n",
       "      <td>46997</td>\n",
       "      <td>169788</td>\n",
       "      <td>17962</td>\n",
       "      <td>11826538</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2004</th>\n",
       "      <td>103409</td>\n",
       "      <td>15272</td>\n",
       "      <td>220976</td>\n",
       "      <td>322167</td>\n",
       "      <td>51436</td>\n",
       "      <td>158258</td>\n",
       "      <td>18052</td>\n",
       "      <td>11679474</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2005</th>\n",
       "      <td>101158</td>\n",
       "      <td>14956</td>\n",
       "      <td>221044</td>\n",
       "      <td>329406</td>\n",
       "      <td>52653</td>\n",
       "      <td>160646</td>\n",
       "      <td>17242</td>\n",
       "      <td>11556854</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>All</th>\n",
       "      <td>3432582</td>\n",
       "      <td>716716</td>\n",
       "      <td>9264900</td>\n",
       "      <td>10942317</td>\n",
       "      <td>1709475</td>\n",
       "      <td>7399321</td>\n",
       "      <td>726727</td>\n",
       "      <td>486181458</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "State     Utah  Vermont  Virginia  Washington  West Virginia  Wisconsin  \\\n",
       "Year                                                                      \n",
       "1997    123447    16658    261022      332469          44839     190133   \n",
       "1998    115624    18552    248576      333799          46130     185093   \n",
       "1999    105999    16735    231886      302509          49161     173062   \n",
       "2000     99958    18185    214348      300932          47067     172124   \n",
       "2001     96307    16978    228445      308492          46120     179410   \n",
       "2002    103129    15600    229039      309931          45320     176987   \n",
       "2003    105973    14510    220939      312814          46997     169788   \n",
       "2004    103409    15272    220976      322167          51436     158258   \n",
       "2005    101158    14956    221044      329406          52653     160646   \n",
       "All    3432582   716716   9264900    10942317        1709475    7399321   \n",
       "\n",
       "State  Wyoming        All  \n",
       "Year                       \n",
       "1997     20068   13195074  \n",
       "1998     18315   12485714  \n",
       "1999     16583   11634378  \n",
       "2000     16285   11608070  \n",
       "2001     17392   11849006  \n",
       "2002     17858   11878954  \n",
       "2003     17962   11826538  \n",
       "2004     18052   11679474  \n",
       "2005     17242   11556854  \n",
       "All     726727  486181458  "
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pd.set_option(\"display.colheader_justify\",\"right\")\n",
    "pivot2 = pd.pivot_table(data2, values='Count',\n",
    "                        index=['Year'],\n",
    "                        columns=['State'],\n",
    "                        margins=True, aggfunc=np.sum)\n",
    "pivot2.ix[-10:,-8:]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>State</th>\n",
       "      <th>Alabama</th>\n",
       "      <th>Alaska</th>\n",
       "      <th>Arizona</th>\n",
       "      <th>Arkansas</th>\n",
       "      <th>California</th>\n",
       "      <th>Colorado</th>\n",
       "      <th>Connecticut</th>\n",
       "      <th>Delaware</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Year</th>\n",
       "      <th>Type of Crime</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>2001</th>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>19582</td>\n",
       "      <td>3735</td>\n",
       "      <td>28675</td>\n",
       "      <td>12190</td>\n",
       "      <td>212855</td>\n",
       "      <td>15492</td>\n",
       "      <td>11492</td>\n",
       "      <td>4868</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">2002</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>180400</td>\n",
       "      <td>24118</td>\n",
       "      <td>318296</td>\n",
       "      <td>101171</td>\n",
       "      <td>1176484</td>\n",
       "      <td>180054</td>\n",
       "      <td>93426</td>\n",
       "      <td>26967</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>19931</td>\n",
       "      <td>3627</td>\n",
       "      <td>30171</td>\n",
       "      <td>11501</td>\n",
       "      <td>208388</td>\n",
       "      <td>15882</td>\n",
       "      <td>10807</td>\n",
       "      <td>4836</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">2003</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>182241</td>\n",
       "      <td>24386</td>\n",
       "      <td>314335</td>\n",
       "      <td>99084</td>\n",
       "      <td>1215086</td>\n",
       "      <td>179706</td>\n",
       "      <td>92981</td>\n",
       "      <td>27943</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>19331</td>\n",
       "      <td>3877</td>\n",
       "      <td>28638</td>\n",
       "      <td>12449</td>\n",
       "      <td>205551</td>\n",
       "      <td>15757</td>\n",
       "      <td>11045</td>\n",
       "      <td>5525</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">2004</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>182340</td>\n",
       "      <td>22172</td>\n",
       "      <td>291203</td>\n",
       "      <td>110911</td>\n",
       "      <td>1227194</td>\n",
       "      <td>180322</td>\n",
       "      <td>93942</td>\n",
       "      <td>27256</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>19324</td>\n",
       "      <td>4159</td>\n",
       "      <td>28952</td>\n",
       "      <td>13814</td>\n",
       "      <td>189175</td>\n",
       "      <td>17121</td>\n",
       "      <td>10113</td>\n",
       "      <td>5105</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">2005</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>177393</td>\n",
       "      <td>23975</td>\n",
       "      <td>287345</td>\n",
       "      <td>112775</td>\n",
       "      <td>1200531</td>\n",
       "      <td>188449</td>\n",
       "      <td>89794</td>\n",
       "      <td>26245</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>19678</td>\n",
       "      <td>4194</td>\n",
       "      <td>30478</td>\n",
       "      <td>14659</td>\n",
       "      <td>190178</td>\n",
       "      <td>18498</td>\n",
       "      <td>9635</td>\n",
       "      <td>5332</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>All</th>\n",
       "      <th></th>\n",
       "      <td>6745549</td>\n",
       "      <td>1019564</td>\n",
       "      <td>9436942</td>\n",
       "      <td>3670925</td>\n",
       "      <td>66614776</td>\n",
       "      <td>7359322</td>\n",
       "      <td>5649669</td>\n",
       "      <td>1359238</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "State                Alabama   Alaska  Arizona  Arkansas  California  \\\n",
       "Year Type of Crime                                                     \n",
       "2001 Violent Crime     19582     3735    28675     12190      212855   \n",
       "2002 Property Crime   180400    24118   318296    101171     1176484   \n",
       "     Violent Crime     19931     3627    30171     11501      208388   \n",
       "2003 Property Crime   182241    24386   314335     99084     1215086   \n",
       "     Violent Crime     19331     3877    28638     12449      205551   \n",
       "2004 Property Crime   182340    22172   291203    110911     1227194   \n",
       "     Violent Crime     19324     4159    28952     13814      189175   \n",
       "2005 Property Crime   177393    23975   287345    112775     1200531   \n",
       "     Violent Crime     19678     4194    30478     14659      190178   \n",
       "All                  6745549  1019564  9436942   3670925    66614776   \n",
       "\n",
       "State                Colorado  Connecticut  Delaware  \n",
       "Year Type of Crime                                    \n",
       "2001 Violent Crime      15492        11492      4868  \n",
       "2002 Property Crime    180054        93426     26967  \n",
       "     Violent Crime      15882        10807      4836  \n",
       "2003 Property Crime    179706        92981     27943  \n",
       "     Violent Crime      15757        11045      5525  \n",
       "2004 Property Crime    180322        93942     27256  \n",
       "     Violent Crime      17121        10113      5105  \n",
       "2005 Property Crime    188449        89794     26245  \n",
       "     Violent Crime      18498         9635      5332  \n",
       "All                   7359322      5649669   1359238  "
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pivot3 = pd.pivot_table(data2, values='Count',\n",
    "                        index=['Year', 'Type of Crime'],\n",
    "                        columns=['State'],\n",
    "                        margins=True, aggfunc=np.sum)\n",
    "pivot3.ix[-10:,:8]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "If we want to select crimes for a given year and/or location:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>State</th>\n",
       "      <th>Alabama</th>\n",
       "      <th>Alaska</th>\n",
       "      <th>Arizona</th>\n",
       "      <th>Arkansas</th>\n",
       "      <th>California</th>\n",
       "      <th>Colorado</th>\n",
       "      <th>Connecticut</th>\n",
       "      <th>Delaware</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Year</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "Empty DataFrame\n",
       "Columns: [Alabama, Alaska, Arizona, Arkansas, California, Colorado, Connecticut, Delaware]\n",
       "Index: []"
      ]
     },
     "execution_count": 23,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pivot2.ix[2004:2005,:8]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6 Stack and Unstack"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`stack` “pivot” a level of the column labels to an inner-most row level. In the following case, since after stacking there are no column labels remaining, `stack` returns a Series instead of a Dataframe:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>State</th>\n",
       "      <th>Alabama</th>\n",
       "      <th>Alaska</th>\n",
       "      <th>Arizona</th>\n",
       "      <th>Arkansas</th>\n",
       "      <th>California</th>\n",
       "      <th>Colorado</th>\n",
       "      <th>Connecticut</th>\n",
       "      <th>Delaware</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Year</th>\n",
       "      <th>Type of Crime</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">1960</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>33823</td>\n",
       "      <td>3494</td>\n",
       "      <td>36539</td>\n",
       "      <td>16548</td>\n",
       "      <td>508511</td>\n",
       "      <td>35695</td>\n",
       "      <td>28393</td>\n",
       "      <td>9267</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>6097</td>\n",
       "      <td>236</td>\n",
       "      <td>2704</td>\n",
       "      <td>1924</td>\n",
       "      <td>37558</td>\n",
       "      <td>2408</td>\n",
       "      <td>928</td>\n",
       "      <td>375</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">1961</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>32541</td>\n",
       "      <td>3605</td>\n",
       "      <td>41304</td>\n",
       "      <td>16836</td>\n",
       "      <td>521008</td>\n",
       "      <td>40156</td>\n",
       "      <td>31658</td>\n",
       "      <td>9343</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>5564</td>\n",
       "      <td>208</td>\n",
       "      <td>2288</td>\n",
       "      <td>1809</td>\n",
       "      <td>38154</td>\n",
       "      <td>2659</td>\n",
       "      <td>878</td>\n",
       "      <td>318</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1962</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>35829</td>\n",
       "      <td>3849</td>\n",
       "      <td>45694</td>\n",
       "      <td>18199</td>\n",
       "      <td>564451</td>\n",
       "      <td>47872</td>\n",
       "      <td>33798</td>\n",
       "      <td>10157</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "State                Alabama  Alaska  Arizona  Arkansas  California  Colorado  \\\n",
       "Year Type of Crime                                                              \n",
       "1960 Property Crime    33823    3494    36539     16548      508511     35695   \n",
       "     Violent Crime      6097     236     2704      1924       37558      2408   \n",
       "1961 Property Crime    32541    3605    41304     16836      521008     40156   \n",
       "     Violent Crime      5564     208     2288      1809       38154      2659   \n",
       "1962 Property Crime    35829    3849    45694     18199      564451     47872   \n",
       "\n",
       "State                Connecticut  Delaware  \n",
       "Year Type of Crime                          \n",
       "1960 Property Crime        28393      9267  \n",
       "     Violent Crime           928       375  \n",
       "1961 Property Crime        31658      9343  \n",
       "     Violent Crime           878       318  \n",
       "1962 Property Crime        33798     10157  "
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "pivot3.ix[:5,:8]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Year  Type of Crime   State               \n",
       "1960  Property Crime  Alabama                  33823\n",
       "                      Alaska                    3494\n",
       "                      Arizona                  36539\n",
       "                      Arkansas                 16548\n",
       "                      California              508511\n",
       "                      Colorado                 35695\n",
       "                      Connecticut              28393\n",
       "                      Delaware                  9267\n",
       "                      District of Columbia     16495\n",
       "                      Florida                 122858\n",
       "dtype: float64"
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "stk = pivot3.stack()\n",
    "stk[:10]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`unstack` reverse the operation by pivoting a row index on columns:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>State</th>\n",
       "      <th>Alabama</th>\n",
       "      <th>Alaska</th>\n",
       "      <th>Arizona</th>\n",
       "      <th>Arkansas</th>\n",
       "      <th>California</th>\n",
       "      <th>Colorado</th>\n",
       "      <th>Connecticut</th>\n",
       "      <th>Delaware</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Year</th>\n",
       "      <th>Type of Crime</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">1960</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>33823</td>\n",
       "      <td>3494</td>\n",
       "      <td>36539</td>\n",
       "      <td>16548</td>\n",
       "      <td>508511</td>\n",
       "      <td>35695</td>\n",
       "      <td>28393</td>\n",
       "      <td>9267</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>6097</td>\n",
       "      <td>236</td>\n",
       "      <td>2704</td>\n",
       "      <td>1924</td>\n",
       "      <td>37558</td>\n",
       "      <td>2408</td>\n",
       "      <td>928</td>\n",
       "      <td>375</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th rowspan=\"2\" valign=\"top\">1961</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>32541</td>\n",
       "      <td>3605</td>\n",
       "      <td>41304</td>\n",
       "      <td>16836</td>\n",
       "      <td>521008</td>\n",
       "      <td>40156</td>\n",
       "      <td>31658</td>\n",
       "      <td>9343</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Violent Crime</th>\n",
       "      <td>5564</td>\n",
       "      <td>208</td>\n",
       "      <td>2288</td>\n",
       "      <td>1809</td>\n",
       "      <td>38154</td>\n",
       "      <td>2659</td>\n",
       "      <td>878</td>\n",
       "      <td>318</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1962</th>\n",
       "      <th>Property Crime</th>\n",
       "      <td>35829</td>\n",
       "      <td>3849</td>\n",
       "      <td>45694</td>\n",
       "      <td>18199</td>\n",
       "      <td>564451</td>\n",
       "      <td>47872</td>\n",
       "      <td>33798</td>\n",
       "      <td>10157</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "State                Alabama  Alaska  Arizona  Arkansas  California  Colorado  \\\n",
       "Year Type of Crime                                                              \n",
       "1960 Property Crime    33823    3494    36539     16548      508511     35695   \n",
       "     Violent Crime      6097     236     2704      1924       37558      2408   \n",
       "1961 Property Crime    32541    3605    41304     16836      521008     40156   \n",
       "     Violent Crime      5564     208     2288      1809       38154      2659   \n",
       "1962 Property Crime    35829    3849    45694     18199      564451     47872   \n",
       "\n",
       "State                Connecticut  Delaware  \n",
       "Year Type of Crime                          \n",
       "1960 Property Crime        28393      9267  \n",
       "     Violent Crime           928       375  \n",
       "1961 Property Crime        31658      9343  \n",
       "     Violent Crime           878       318  \n",
       "1962 Property Crime        33798     10157  "
      ]
     },
     "execution_count": 28,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from warnings import filterwarnings\n",
    "filterwarnings(action='ignore', category=FutureWarning)\n",
    "unstk = stk.unstack(-1)\n",
    "unstk.ix[:5,:8]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "---\n",
    "\n",
    "Visit [www.add-for.com](<http://www.add-for.com/IT>) for more tutorials and updates.\n",
    "\n",
    "This work is licensed under a <a rel=\"license\" href=\"http://creativecommons.org/licenses/by-sa/4.0/\">Creative Commons Attribution-ShareAlike 4.0 International License</a>."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.4.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 0
}