{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "slideshow": {
     "slide_type": "notes"
    }
   },
   "source": [
    "jupyter nbconvert PyParsing.ipynb --to slides --post serve"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "# Introduction to Pyparsing\n",
    "\n",
    "## Brian A. Fannin"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Installation"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "slideshow": {
     "slide_type": "fragment"
    }
   },
   "source": [
    "http://pyparsing.wikispaces.com/\n",
    "http://infohost.nmt.edu/tcc/help/pubs/pyparsing/web/index.html\n",
    "\n",
    "Support for Python < 2.6 requires installing a specific version. For anything else, >= 2.6 and 3.x, you're good to go. \n",
    "\n",
    "```\n",
    "pip install pyparsing\n",
    "```"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {
    "collapsed": true,
    "slideshow": {
     "slide_type": "fragment"
    }
   },
   "outputs": [],
   "source": [
    "from pyparsing import *"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {
    "collapsed": false,
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(['555', '-', '55', '-', '5555'], {})"
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "ssn = (\n",
    "      Word(nums, exact=3) \n",
    "    + Literal(\"-\") \n",
    "    + Word(nums, exact=2) \n",
    "    + Literal('-') \n",
    "    + Word(nums, exact=4))\n",
    "\n",
    "ssn.parseString('555-55-5555')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {
    "collapsed": false,
    "slideshow": {
     "slide_type": "fragment"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['555', '-', '55', '-', '5555']\n"
     ]
    }
   ],
   "source": [
    "print(ssn.parseString('555-55-5555'))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['555-55-5555']"
      ]
     },
     "execution_count": 23,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "ssn = Combine(\n",
    "      Word(nums, exact=3) \n",
    "    + Literal(\"-\") \n",
    "    + Word(nums, exact=2) \n",
    "    + Literal('-') \n",
    "    + Word(nums, exact=4))\n",
    "\n",
    "list(ssn.parseString('555-55-5555'))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The value returned from a call to parseString is an object of class `pyparsing.ParseResults`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "pyparsing.ParseResults"
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "mojo = ssn.parseString('555-55-5555')\n",
    "type(mojo)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(['555-55-5555'], {})"
      ]
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "mojo"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['555-55-5555']\n"
     ]
    }
   ],
   "source": [
    "print(mojo)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[['888-88-8888'], ['333-33-3333']]\n"
     ]
    }
   ],
   "source": [
    "some_text = \"\"\"\n",
    "    Jane Doe's social security number is 888-88-8888 and \n",
    "    Bob's is 333-33-3333. I'm not sure what Steve's number is.\n",
    "    I think it starts with 123-45.\n",
    "\"\"\"\n",
    "\n",
    "print(ssn.searchString(some_text))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['555555555']\n"
     ]
    }
   ],
   "source": [
    "ssn.setParseAction(lambda toks: toks[0].replace('-', ''))\n",
    "print(ssn.parseString('555-55-5555'))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "([555555555], {})"
      ]
     },
     "execution_count": 29,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "strip_dash = lambda toks: toks[0].replace(\"-\", \"\")\n",
    "convert_int = lambda toks: int(toks[0])\n",
    "ssn.setParseAction(strip_dash, convert_int)\n",
    "mojo = ssn.parseString('555-55-5555')\n",
    "mojo"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "555555555"
      ]
     },
     "execution_count": 30,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "ssn = ssn.setResultsName(\"ssn\")\n",
    "mojo = ssn.parseString('555-55-5555')\n",
    "mojo.ssn"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "The value for mojo is 555555555 and its type is <class 'int'>.\n"
     ]
    }
   ],
   "source": [
    "mojo = ssn.parseString('555-55-5555').ssn\n",
    "print('The value for mojo is {} and its type is {}.'.format(mojo, type(mojo)))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 32,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[888888888, 333333333]"
      ]
     },
     "execution_count": 32,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "mojo = ssn.searchString(some_text)\n",
    "ssns = [soc.ssn for soc in mojo]\n",
    "ssns"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[32, 'ft.']\n"
     ]
    }
   ],
   "source": [
    "strip_comma = lambda toks: toks[0].replace(\",\", \"\")\n",
    "\n",
    "decimal_number = (\n",
    "      Word(nums, nums + \",\") \n",
    "    + Optional(Literal(\".\") + Word(nums)))\n",
    "    \n",
    "units = Word(alphas, alphas + \".\")\n",
    "\n",
    "observation = (\n",
    "      decimal_number.setResultsName('measure').setParseAction(strip_comma, convert_int)\n",
    "    + units.setResultsName('units')\n",
    ")\n",
    "\n",
    "test_strs = [\n",
    "    '32 ft.',\n",
    "    '48 feet',\n",
    "    '14 meters',\n",
    "    '1,000 yards',\n",
    "]\n",
    "\n",
    "print(observation.parseString(test_strs[0]))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "32"
      ]
     },
     "execution_count": 34,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "observation.parseString(test_strs[0]).measure"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[32, 48, 14, 1000]"
      ]
     },
     "execution_count": 35,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "obs = [observation.parseString(ob).measure for ob in test_strs]\n",
    "obs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['ft.', 'feet', 'meters', 'yards']"
      ]
     },
     "execution_count": 36,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "units = [observation.parseString(ob).units for ob in test_strs]\n",
    "units"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Data in the wild\n",
    "\n",
    "Let's use pyparsing to churn through some random HTML. I love Michael Caine, but I hate trolling the IMDB site. We'll build a parser that will strip interesting things from IMDB. (Yes, we could use Beautiful Soup for this.)\n",
    "\n",
    "[Michael Caine on IMDB](http://www.imdb.com/name/nm0000323/)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "200"
      ]
     },
     "execution_count": 37,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import requests\n",
    "\n",
    "response = requests.get('http://www.imdb.com/name/nm0000323/')\n",
    "response.status_code"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 38,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "261837"
      ]
     },
     "execution_count": 38,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(response.text)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 39,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'\\n\\n\\n\\n\\n<!DOCTYPE html>\\n<html\\nxmlns:og=\"http://ogp.me/ns#\"\\nxmlns:fb=\"http://www.facebook.com/2008/fbml\">\\n    <head>\\n        <meta charset=\"utf-8\">\\n        <meta http-equiv=\"X-UA-Compatible\" content=\"IE=edge\">\\n\\n    <meta name=\"apple-itunes-app\" content=\"app-id=342792525, app-argument=imdb:///name/nm0000323?src=mdot\">\\n            <script type=\"text/javascript\">var ue_t0=window.ue_t0||+new Date();</script>\\n            <script type=\"text/javascript\">\\n                var ue_mid = \"A1EVAM02EL8SFB\"; \\n                var ue_sn = \"www.imdb.com\";  \\n                var ue_furl = \"fls-na.amazon.com\";\\n                var ue_sid = \"000-0000000-0000000\";\\n                var ue_id = \"1KB2QEH3ZQKMGC7CNQC3\";\\n                (function(e){var c=e;var a=c.ue||{};a.main_scope=\"mainscopecsm\";a.q=[];a.t0=c.ue_t0||+new Date();a.d=g;function g(h){return +new Date()-(h?0:a.t0)}function d(h){return function(){a.q.push({n:h,a:arguments,t:a.d()})}}function b(m,l,h,j,i){var k={m:m,f:l,l:h,c:\"\"+j,err:i,fromOnError:1,arg'"
      ]
     },
     "execution_count": 39,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "response.text[:1000]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "```\n",
    "<div class=\"filmo-row even\" id=\"actor-tt5013056\">\n",
    "<span class=\"year_column\">\n",
    "&nbsp;2017\n",
    "</span>\n",
    "<b><a href=\"/title/tt5013056/?ref_=nm_flmg_act_2\">Dunkirk</a></b>\n",
    "<br>\n",
    "Radio Communication\n",
    "(voice, uncredited)\n",
    "</div>\n",
    "```"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 40,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['div', ['id', 'wrapper'], False]\n"
     ]
    }
   ],
   "source": [
    "div_start, div_end = makeHTMLTags(\"div\")\n",
    "\n",
    "divs = div_start.searchString(response.text)\n",
    "print(divs[0])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 41,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['div', ['id', 'root'], ['class', 'redesign'], False]\n"
     ]
    }
   ],
   "source": [
    "print(divs[1])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 42,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "redesign\n"
     ]
    }
   ],
   "source": [
    "print(divs[1]['class'])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We need to do two things:\n",
    "\n",
    "1. Make sure that the div has a key for the class\n",
    "2. Check that the class corresponds to a film entry"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 43,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "redesign\n",
      "navbarSprite\n",
      "navbarSprite\n",
      "magnifyingglass navbarSprite\n",
      "quicksearch_dropdown_wrapper\n",
      "sub_nav\n",
      "subNavListContainer\n",
      "subNavListContainer\n",
      "sub_nav\n",
      "subNavListContainer\n",
      "subNavListContainer\n",
      "sub_nav\n",
      "subNavListContainer\n",
      "subNavListContainer\n",
      "sub_nav\n",
      "imdb-pro-ad sub_nav\n",
      "imdb-pro-ad__image\n",
      "pagecontent\n",
      "redesign\n",
      "maindetails_center\n",
      "article name-overview\n",
      "image\n",
      "meter-collapsed up three-line\n",
      "meterToggleOnHover\n",
      "meterToggleOnHover\n",
      "meterToggleOnHover\n",
      "infobar\n",
      "txt-block\n",
      "name-trivia-bio-text\n",
      "inline\n",
      "txt-block\n",
      "pro-list\n",
      "mediastrip_container\n",
      "mediastrip\n",
      "see-more\n",
      "maindetails_sidebar\n",
      "aux-content-widget-3 links subnav\n",
      "split_0\n",
      "split_1\n",
      "show_more\n",
      "show_less\n",
      "aux-content-widget-2\n",
      "ab_ninja\n",
      "widget_content no_inline_blurb\n",
      "widget_nested\n",
      "ninja_image_pack\n",
      "ninja_center\n",
      "ninja_image first_image last_image\n",
      "widget_image\n",
      "image\n",
      "widget_caption caption_overlay\n",
      "primary\n",
      "onoverflow\n",
      "aux-content-widget-2\n",
      "social\n",
      "social_networking\n",
      "social_networking_like\n",
      "aux-content-widget-2\n",
      "news_item odd\n",
      "news_item even\n",
      "news_item odd\n",
      "see-more\n",
      "aux-content-widget-2\n",
      "ab_zergnet\n",
      "widget_content no_inline_blurb\n",
      "widget_nested\n",
      "aux-content-widget-2\n",
      "on-aiv-row\n",
      "on-aiv-button name-aiv\n",
      "on-aiv-title\n",
      "on-aiv-row\n",
      "on-aiv-button name-aiv\n",
      "on-aiv-title\n",
      "on-aiv-row\n",
      "on-aiv-button name-aiv\n",
      "on-aiv-title\n",
      "on-aiv-row\n",
      "on-aiv-button name-aiv\n",
      "on-aiv-title\n",
      "on-aiv-row\n",
      "on-aiv-button name-aiv\n",
      "on-aiv-title\n",
      "see-more\n",
      "article on-tv\n",
      "odd\n",
      "airtime\n",
      "even\n",
      "airtime\n",
      "see-more\n",
      "aux-content-widget-2\n",
      "devitem odd\n",
      "year_column\n",
      "devitem even\n",
      "see-more\n",
      "aux-content-widget-2\n",
      "rightcornerlink\n",
      "list-preview even\n",
      "list-preview-item-narrow\n",
      "list_name\n",
      "list_meta\n",
      "clear\n",
      "list-preview odd\n",
      "list-preview-item-narrow\n",
      "list_name\n",
      "list_meta\n",
      "clear\n",
      "list-preview even\n",
      "list-preview-item-narrow\n",
      "list_name\n",
      "list_meta\n",
      "clear\n",
      "list-preview odd\n",
      "list-preview-item-narrow\n",
      "list_name\n",
      "list_meta\n",
      "clear\n",
      "list-preview even\n",
      "list-preview-item-narrow\n",
      "list_name\n",
      "list_meta\n",
      "clear\n",
      "see-more\n",
      "aux-content-widget-2\n",
      "video-browser-widget\n",
      "aux-content-widget-2\n",
      "aux-content-widget-2 \n",
      "aux-content-widget-2 poll-widget-rhs \n",
      "see-more\n",
      "maindetails_center\n",
      "article highlighted\n",
      "article\n",
      "knownfor-title\n",
      "knownfor-title-role\n",
      "knownfor-year\n",
      "knownfor-title\n",
      "knownfor-title-role\n",
      "knownfor-year\n",
      "knownfor-title\n",
      "knownfor-title-role\n",
      "knownfor-year\n",
      "knownfor-title last\n",
      "knownfor-title-role\n",
      "knownfor-year\n",
      "article\n",
      "rightcornerlink\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "head\n",
      "filmo-category-section\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-episodes\n",
      "filmo-row even\n",
      "filmo-episodes\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "filmo-row odd\n",
      "filmo-row even\n",
      "article\n",
      "mediastrip_big\n",
      "see-more\n",
      "article\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "article\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "see-more inline canwrap\n",
      "article contribute\n",
      "rightcornerlink\n",
      "button-box\n",
      "button-box\n",
      "ft\n",
      "recently-viewed\n",
      "container footer-grid-wrapper\n",
      "row footer-row\n",
      "col outside\n",
      "app-links\n",
      "col center\n",
      "link-bar icon-link-bar\n",
      "col outside\n",
      "row\n",
      "col col-4\n",
      "col col-4\n",
      "col col-4\n",
      "container\n",
      "ft-copy float-right\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "907"
      ]
     },
     "execution_count": 43,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "film_divs = []\n",
    "for div in divs:\n",
    "    try:\n",
    "        the_class = div['class']\n",
    "    except:\n",
    "        continue\n",
    "    print(the_class)\n",
    "    film_divs.append(div)\n",
    "    \n",
    "len(film_divs)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 44,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(['filmo-row even'], {})"
      ]
     },
     "execution_count": 44,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filmo_class = (\n",
    "    Literal('filmo-row') \n",
    "    + (Literal('even') | Literal('odd'))\n",
    ").setParseAction(lambda toks: ' '.join(toks))\n",
    "\n",
    "filmo_class.parseString(\"filmo-row even\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "462"
      ]
     },
     "execution_count": 45,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "film_divs = []\n",
    "for div in divs:\n",
    "    try:\n",
    "        div_class = div['class']\n",
    "    except:\n",
    "        continue\n",
    "    \n",
    "    try:\n",
    "        film_class = filmo_class.parseString(div_class)\n",
    "        film_divs.append(div)\n",
    "    except:\n",
    "        continue\n",
    "\n",
    "len(film_divs)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "462"
      ]
     },
     "execution_count": 46,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "(\n",
    "    164 + \n",
    "    7 +\n",
    "    5 +\n",
    "    1 +\n",
    "    1 +\n",
    "    4 +\n",
    "    224 +\n",
    "    56)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   },
   "source": [
    "## Span for year\n",
    "\n",
    "```\n",
    "<span class=\"year_column\">\n",
    "&nbsp;2017\n",
    "</span>\n",
    "```\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 47,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "427"
      ]
     },
     "execution_count": 47,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "span_start, span_end = makeHTMLTags(\"span\")\n",
    "year = Word(nums, exact=4)\n",
    "\n",
    "span_year = (\n",
    "      Suppress(span_start) \n",
    "    + Suppress(SkipTo(year)) \n",
    "    + year + Optional(Word(alphas + '/' +'-'))\n",
    "    + Suppress(span_end))\n",
    "\n",
    "span_year.setParseAction(lambda toks: int(toks[0]))\n",
    "span_year = span_year.setResultsName('year')\n",
    "\n",
    "years = span_year.searchString(response.text)\n",
    "len(years)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 48,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "span_start, span_end = makeHTMLTags(\"span\")\n",
    "year = Word(nums, exact=4) + Optional(Word(alphas + '/' +'-', exact=2))\n",
    "year_range = Combine(year + Literal(\"-\") + year)\n",
    "year_value = Or([year, year_range])\n",
    "\n",
    "span_year = (\n",
    "      Suppress(span_start) \n",
    "    + Suppress(SkipTo(year_value)) \n",
    "    + year_value\n",
    "    + Suppress(span_end))\n",
    "\n",
    "span_year.setParseAction(lambda toks: int(toks[0][:4]))\n",
    "span_year = span_year.setResultsName('year')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 49,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "462"
      ]
     },
     "execution_count": 49,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "years = span_year.searchString(response.text)\n",
    "len(years)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 50,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[([2017], {'year': [(2017, 0)]}),\n",
       " ([2017], {'year': [(2017, 0)]}),\n",
       " ([2017], {'year': [(2017, 0)]}),\n",
       " ([2016], {'year': [(2016, 0)]}),\n",
       " ([2015], {'year': [(2015, 0)]}),\n",
       " ([2015], {'year': [(2015, 0)]}),\n",
       " ([2015], {'year': [(2015, 0)]}),\n",
       " ([2014], {'year': [(2014, 0)]}),\n",
       " ([2014], {'year': [(2014, 0)]}),\n",
       " ([2014], {'year': [(2014, 0)]})]"
      ]
     },
     "execution_count": 50,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "years[:10]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Anchor tags"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "a_start, a_end = makeHTMLTags(\"a\")\n",
    "\n",
    "film_anchor = Suppress(a_start) + SkipTo(a_end) + Suppress(a_end)\n",
    "film_anchor = film_anchor.setResultsName('title')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Putting it all together\n",
    "\n",
    "```\n",
    "<div class=\"filmo-row even\" id=\"actor-tt5013056\">\n",
    "<span class=\"year_column\">\n",
    "&nbsp;2017\n",
    "</span>\n",
    "<b><a href=\"/title/tt5013056/?ref_=nm_flmg_act_2\">Dunkirk</a></b>\n",
    "<br>\n",
    "Radio Communication\n",
    "(voice, uncredited)\n",
    "</div>\n",
    "```"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 52,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "462"
      ]
     },
     "execution_count": 52,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "film_div = (\n",
    "      div_start\n",
    "    + span_year \n",
    "    + Suppress(SkipTo(film_anchor))\n",
    "    + film_anchor\n",
    "    + SkipTo(div_end)\n",
    ")\n",
    "\n",
    "film_divs = film_div.searchString(response.text)\n",
    "len(film_divs)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 53,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "2017"
      ]
     },
     "execution_count": 53,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "film_divs[0].year"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "([\"Coup d'Etat\"], {})"
      ]
     },
     "execution_count": 54,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "film_divs[0].title"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[2017, 2017, 2017, 2016, 2015]"
      ]
     },
     "execution_count": 55,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "years = [film.year for film in film_divs]\n",
    "years[:5]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 56,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['[\"Coup d\\'Etat\"]',\n",
       " \"['Dunkirk']\",\n",
       " \"['Going in Style']\",\n",
       " \"['Now You See Me 2']\",\n",
       " \"['The Last Witch Hunter']\"]"
      ]
     },
     "execution_count": 56,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "films = [str(film.title) for film in film_divs]\n",
    "films[:5]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 57,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 59,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<matplotlib.axes._subplots.AxesSubplot at 0x7fae5535ae48>"
      ]
     },
     "execution_count": 59,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD8CAYAAABn919SAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAHrdJREFUeJzt3X10XHd95/H3d2Y0erItyZZlW0ps2Ukck7DkAQOBAEns\nhc2ybLNnF1hyFggPXZfQw8K2PWzYLU17aM+hLLTAYU9bnxLSdtl0sxQKhRYIeWjIAQJ2CHl0EhLn\nwbJjSbFlx3qch+/+ca+kmdHIGs1cjUZXn9c5c2bmd39z79dK5nN/9zd37pi7IyIiK19iuQsQEZFo\nKNBFRGJCgS4iEhMKdBGRmFCgi4jEhAJdRCQmFOgiIjGhQBcRiQkFuohITKTqubHu7m7v7++v5yZF\nRFa8gwcPDrv7xoX61TXQ+/v7OXDgQD03KSKy4pnZc5X005SLiEhMKNBFRGJCgS4iEhMKdBGRmFCg\ni4jExIKBbma3mNmgmT1S0Hapmf3UzB40swNm9tqlLVNERBZSyQj9VuDakrbPAn/g7pcCvxc+FxGR\nZbRgoLv7vcCJ0mZgXfi4AzhaycZOjk0x9PLkogoUEZHKVPvFoo8D3zezzxHsFN4wX0cz2wfsA0hv\nPp/X/NEPueScDvbs2sSeXT1c3LuORMKqLENERKZZJT8SbWb9wHfc/ZXh8y8B/+zuf2dm7wL2ufu/\nXGg9F19ymd/4p7dz56FBHnxhBHfoWdvMnl09XLOrhzee3017c12/vCoi0vDM7KC7716wX5WBfgro\ndHc3MwNOufu6s6wCgN27d/v0V/9fOjPJPU8McdcTg9z7xBAvT2ZJJxO8bsd69u7qYc+uTWzd0LZg\nbSIicbfUgf44cKO732Nme4HPuvurF1pPYaAXyuTy/PzZE9x9aJA7Dw3yzNAoAOf3rGFvOHp/9bYu\nmpI6y1JEVp/IAt3MbgOuBrqB48DNwBPAFwnm4CeAj7j7wYU2Nl+gl3p2eJS7Dg1y16FB7j/8Epmc\ns64lxZt3bmTvK3q4amcP69vTC65HRCQOIh2hR6XSQC90ZjLLfU8NhQE/xPCZSRIGl23tYs+uHvbs\n6mHX5rUEMz8iIvETm0AvlM87Dw+cmhm9PzxwCoDejhau2dXD3lf08IbzumlpSkZVsojIsotloJca\nPD3B3U8Mcufjg9z3q2HGpnI0pxJceX73zOi9t7M1su2JiCyHVRHohSazOe5/5sTM6P35E2MA7Nq8\nlj3h6P3Sc7tI6px3EVlhVl2gF3J3nh4a5a5Dx7nz8UEOPHeSXN7pamvi6guDkfubd26ko7VpyWsR\nEanVqg70UqfGM9z75BB3Hxrk7icGOTmWIZkwdm/rYu8rgoA/b+MafbAqIg2pIQP9X1x6uf/9HffW\nbXvl5PPOgy+McNehQX701DBnJrMAbF3fNjPvfuX53ZqaEZGG0ZCB3rzlAt9ywxfqtr1qffq6i3nv\n6/uXuwwREaDyQK/rhVPO7Wrj8+++tJ6bXLSEGVdduHG5yxARWbS6BnpHWxPXXdpXz02KiKwadQ30\nRwdOsefz97Cju53t3e30h/c7utewaV2zPpQUEalBXQO9e20zF25ay+HhUX701DCT2fzMsrZ0kv4N\nQcDP3Da2s6O7nc42XbdFRGQhdQ30zeta+LP3BBdlzOedY6cnODw0yuGXRoP74TM8evQU33v0RXL5\n2Q9rO9uaZkJ+R8HIfnt3O21pXT9dRATqHOiFEgmjr7OVvs5W3nhBd9GyTC7PCyfGODw8yuHhUZ4Z\nHuXZ4VF+8vRLfOOBgaK+m9e1zEzf7CgY2Z/b1UY6pcvtisjq0ZDD26Zkgh0b17Bj45o5y8amsjw7\nHIT9sy+N8kw4sv/eI8c4OZaZ6ZdMGOd0tZYd2fd2tOpn70Qkdhoy0M+mLZ3iot51XNQ79weSRsam\nZkb1hSP7nx0+wdhUbqZfcypB/4Z2+rvb2N69JhjZbwzCfkN7Wh/OisiKtGCgm9ktwNuBwelfLArb\nPwr8JpADvuvun1iyKivU2Zbmsq1pLtvaVdTu7gy+PBmO5mdH9r8aPMNdhwbJ5Gbn69c2p2bCvfDW\n393OuhZd+0VEGlclI/RbgS8Dfz3dYGbXANcBl7j7pJn1LE150TAzNq1rYdO6Fl5/3oaiZdlcnoGR\n8aKR/eHhUQ4+d5Jv//IohV+k7V7THE7dBCP77d3t7NjYztb1bboGu4gsuwUD3d3vDX9TtNCNwGfc\nfTLsMxh9afWRSibYtqGdbRvaufrC4mUTmRzPnxibHdmHYR/8ctKRmX5m0NvRyo6NxSP6Hd3t9HW2\nktJvoYpIHVQ7h74TeJOZ/RHBb4r+jrv/PLqyGkNLU5Kdm9ayc9PaOctOT2RmAv7wcDCF8+ALI/zo\nqeGifk1Jo39DO5975yVccm5nvUoXkVWo2kBPAeuBK4DXALeb2Q4vc6UvM9sH7APYunVrtXUuu0wu\nz4unJjg6Ms7RU+MMnBxnYCR8Ht5GCz54BUinEvR1trK5o0VTMiKy5KoN9CPAN8IA/5mZ5YFuYKi0\no7vvB/ZDcD30agtdSu7O6YnsTDAPhLejBYF9/PQE+ZLqN7Sn6e0MplredMFGejtb6OtspTe8da/R\nGTMiUj/VBvrfA9cAd5vZTiANDJ/9Jcsnm8tz/OXJmXA+cnK8YGQ9wcDI+Mx10aelkwm2dLbQ29HK\nled309vZSl9ny0xY93a00prWqFtEGkclpy3eBlwNdJvZEeBm4BbgFjN7BJgCbig33VIvL09kZkbT\nR0bGi6ZBjo5M8OLpiaJLCQB0tTXR29nKtg1tvP68DQUj6xb6ulrpbm/Wl49EZEWp5CyX6+dZ9J6I\naykrl3cGX54Ip0ImGCgYXU9Pjbw8UTy6TiWMLeH0x+t2rC+aBukLQ1vXgBGRuFn2VBudzJbMW89O\ngwycDOausyWj647WJvo6Wzmnq43XbV8fBHXXbGB3r2nWT8iJyKpT10AfenmSm7/1yMzZIQMj45wa\nzxT1SSWMzR3BXPVrt68PP2hsm/nAcUtnK2ual30/JCLScOqajC+enuCbvxiYGUm/eltXwcg6CPGe\ntS0aXYuIVKGugX5x7zoe+P1/Vc9NioisGnX9TnpC52SLiCwZXWRERCQmFOgiIjGhQBcRiQkFuohI\nTCjQRURiQoEuIhITCnQRkZhQoIuIxIQCXUQkJhToIiIxoUAXEYmJBQPdzG4xs8Hw14lKl/22mbmZ\ndS9NeSIiUqlKRui3AteWNprZucBbgecjrklERKqwYKC7+73AiTKL/hT4BLBsvyUqIiKzqppDN7Pr\ngAF3/2XE9YiISJUW/QMXZtYG/HeC6ZZK+u8D9gFs3bp1sZsTEZEKVTNCPw/YDvzSzJ4FzgEeMLPN\n5Tq7+3533+3uuzdu3Fh9pSIiclaLHqG7+8NAz/TzMNR3u/twhHWJiMgiVXLa4m3AT4ALzeyImX1o\n6csSEZHFWnCE7u7XL7C8P7JqRESkavqmqIhITCjQRURiQoEuIhITCnQRkZhQoIuIxIQCXUQkJhTo\nIiIxoUAXEYkJBbqISEwo0EVEYkKBLiISEwp0EZGYUKCLiMSEAl1EJCYU6CIiMaFAFxGJiUp+segW\nMxs0s0cK2v6nmR0ys4fM7Jtm1rm0ZYqIyEIqGaHfClxb0nYH8Ep3fxXwJPDJiOsSEZFFquQn6O41\ns/6Sth8UPP0p8I5KNnZybIrbD7ywmPqkjtrTKd568SaakpqJE1mJFgz0CnwQ+L/zLTSzfcA+gPTm\n8/nE1x+KYJOyFBIG3/nom7iod91ylyIiVagp0M3sfwBZ4Gvz9XH3/cB+gFdddrn/43+7ppZNNpRs\nzhmbyjE2lZ25H53MMZbJMTZZ0DaVY3wqx2hBW3A/+5rxTK6qGhIWjKxb00nam1O0pZPhLUV7c5LW\npvA+naQ9nSpa1pYu7t/V3kTP2paI/0oiUi9VB7qZvR94O7DX3b2S16STCc7paqt2k1XL5PLFQTqZ\nY3QqG4TsVJaxyZLgnW4Lg3m2b/HyqVy+4hqmg7etIEg3r2sJg3g2eAtDdjagi9tam2aXNacSmNkS\n/vVEZKWoKtDN7FrgE8BV7j4WVTGLCd7CPuWCd2wyG7ZXH7wzI990is62NH1dheGaoj2dLBkZl29T\n8IpIPSwY6GZ2G3A10G1mR4CbCc5qaQbuCEPqp+7+4YXW9fyJMT50688jCd5kwmZHrQXB29U+G7xB\nuM4fvG0lUxQKXhFZySo5y+X6Ms1fqWZjE5kcx1+eoK0pCN5zuqaDeDZ4C0N2Zs63pK1VwSsiMkcU\nZ7lUbOemtXzno2+q5yZFRFYNnXAsIhITCnQRkZhQoIuIxIQCXUQkJhToIiIxoUAXEYkJBbqISEzU\n9Tz0p4fO8M4//zHJhIW3BEkjuE8wT1t4bza3LZEgaUYqaSTMCtogmQyXJYxEwor6T29/ZllBW9Gy\nonXP9p9ZNrPuuW0iIvVW10APAi9Bzp1MJk8unyOX99mbO/m8ky1pm348s6ygrVEVhn/SCnYEJTuL\nomUFO5DCnU1pW0XrDnc05XZA08umb/MuK7Puwp1fuX9L6Y6xbFtBu77tKxKdugb69u52btt3RWTr\nc3fyTtnwL2rLnWVZPk8uD9l8nnyeoraiZe5FbcF9sIMpu8zDZfnZ+8IaipaV1Dbdls052Xyeyexs\nvdlcuGyR627UfV/CmCf8C47M5uwsCo/aSm/TR3jl2io/6pvbFt1R35w2HfVJROoa6FEzs5k3r5yd\ne8nOoswOodzOIjdP/+kjpdK26R1R0ZFVyboLd17ltle6Iy46Mptn3eWO+s667hV81Jec52gtiqO+\ns667gqO+ctuL6qjvrEeCOuoDVnigS+UsfDOkkstdSWMrPOortwNazFFf+bbwvlzbIo76CtuiPuor\n9++Lx1FfQVvkR32F21v8UV/5/rNHapVSoIsU0FFf5eY76ivckUV91FfattijvnLbi+qor+y663zU\np0AXkaroqK8ylR71zdlJFCy77I8r21YlP3BxC8FPzQ26+yvDtvUEPwzdDzwLvMvdT1b3zxURia96\nHvVV8sWiW4FrS9puAu509wuAO8PnIiKyjBYMdHe/FzhR0nwd8Ffh478C/l3EdYmIyCJVO4e+yd2P\nhY9fBDZV8qKHB07Rf9N3q9ykiIicTc3XcnF3B+b9GNfM9pnZATM7UOu2RERkftWO0I+b2RZ3P2Zm\nW4DB+Tq6+35gP0DzlguqPn8nlTCaUwmam5KkkwmamxLF96kk6VRi3j7NyeL25lQi7F/aN1mwbLZP\ncypYrm/siUi9WVRnuczj28ANwGfC+29V8qJXbFnHP31yD5OZPFO5fHifYzKTZzJ8PpnNMZXNM5nN\nl9zPts/XZ2RsqqittG8UmpI2G/AloV/8vFxbwU6ngj7z7qBSiVX9bTgRKa+S0xZvA64Gus3sCHAz\nQZDfbmYfAp4D3lXRxhLGlo7W6qutgbuTyXnJjmHuzmL6+WQlfYp2TLN9zkxmZ7eRyc30mcwFr43C\ndLAXHlnMd+RS3Fb6fPaopPmsO5a5O7F0UjsWkUayYKC7+/XzLNobcS1LysxIp4x0ankvAe/uYfjn\ny4b+nCOXMjuZcjufOUcxmTynx7Nl+gT3U7mIdiwlRxtnO3I5286iXJ/5XlO6E2tKru7rd4hM0zdF\n68xsespmeb9el8+X7ljmhv58Ry7zTWnN7pBmd1DjmRwj41Pz9snkav9atNnsEUt6ekdQePRR+nnK\nnM9N5h65lJ9CK935FPdJrfILQ8nyU6CvUomE0ZJI0tLUIDuWTJ7JMkclcz4rOUuf0imywsejk1lO\nFO2MitedjeB6GwljniOO5AI7hsqnueZ+DjN3Ci2V1A+RrVYKdFlWxTuWpmWrI5f3sh++zzfNNe90\nWbnPYQqOSs5MZnnpTPFnLtN9JrO5SK5gmEzY3LO8ypzNVXwGWMkOZb6+ZzlyKd3p6AJn9adAFyEI\nwdZ0ktb08h6xZHP5sp+nTCxw5FJueqxcn+mdzOnxTLisdBoteO4R7FhSCVvUEUfpZydRHbmsplON\nFegiDSQVTpm0pZevBg+vCHi204bn/YC+zAf7pWeCFbaNjGfKnBQQ7mRy0exYmpJW5khj/u+hlOtT\nvIMpt2OZe+SyHN9hUaCLSBEzoylpNCUTtDcvXx3TpxqXftA+VeY7K/N9P+VsRy6FbWOj2bIf+E+3\nRSGdLA37So84Kj9qrGugP3r0NBf/3vfquUkRkao1JYxUOkkmgjOypsLptDOTERVXRl0DPe/O6FSu\nnpsUEVk16hro3Wua+fU3bq/nJkVEVrxPLfG1XKqypaOF3337RfXcpIjIivepCvvpGwgiIjGhQBcR\niQkFuohITCjQRURiQoEuIhITCnQRkZioKdDN7L+a2aNm9oiZ3WZmLVEVJiIii1P1eehm1gf8F+Ai\ndx83s9uBdwO3zvea514a45PfeJgN7Wk2rEmzvj1N95rmmcfr29K6lrOISJVq/WJRCmg1swzQBhw9\nW+epbJ47HjvOidHJea/73NnWFAR+exD0Qdg30x2G/kx7e5rOtrSuuSwiEqo60N19wMw+BzwPjAM/\ncPcfnO01E9kcwwtcmWZkLMPIWIanh0arLU1EZFWqen7DzLqA64DtQC/QbmbvKdNvn5kdMLMD1Zcp\nIiILMa/yCvJm9k7gWnf/UPj8fcAV7v6R+V6ze/duP3BAuS4ishhmdtDddy/Ur5ZPIJ8HrjCzNgt+\n6nwv8HgN6xMRkRpUHejufj/wdeAB4OFwXfsjqktERBapprNc3P1m4OaIahERkRropG8RkZhQoIuI\nxIQCXUQkJhToIiIxoUAXEYkJBbqISEzUenGuRXl44BT9N323npsUEVk1NEIXEYmJqq/lUg1dy0VE\nZPHqcS0XERFpIAp0EZGYUKCLiMSEAl1EJCYU6CIiMaFAFxGJCQW6iEhM1BToZtZpZl83s0Nm9riZ\nvT6qwkREZHFq/er/F4Hvufs7zCwNtEVQk4iIVKHqQDezDuDNwPsB3H0KmIqmLJGVLZvL85f3HWZ8\nKrfcpUgduDtDZyYZGJlgMrN8/81rGaFvB4aAr5rZJcBB4GPuPlrYycz2AfsAtm7dWsPmRFaO3/ib\ng9x5aHC5y5BVpupruZjZbuCnwJXufr+ZfRE47e6fmu81upaLrBbZXJ6v3HeYMY3QG567Mzw6xcDJ\ncY6OBLfRKv67da9Js6WjlbZ0MvIab//wGyq6lkstI/QjwBF3vz98/nXgphrWJxIbqWSC37jqvOUu\nQ4CJTI6jI+MMhGE9MDIR3J8c5+ipcY6NTDCVyxe9pj2dpK+rlb7OVnrDW19nK31dweNNa5tJJet3\nkuDtH66sX9WB7u4vmtkLZnahuz8B7AUeq3Z9IiKL5e68VDC6DkJ7oijAXxot/mjPDDatbaGvq5VX\nndPJta9sCcK6ILzXtaQws2X6V1Wv1rNcPgp8LTzD5RngA7WXJCISmMjkOHaqOKALg3tgZJypbPHo\nui2dnAnnV/Z10NcZhHdvR9C2uaOFpjqOruuppkB39weBBed1RERKuTsnxzIMnCwX1sHUyPCZyaLX\nmEHP2mZ6O1u5qHcdb7loU8HIOhhpd7Q2rcjRdRTq+hN0IrJ6TGXzHDtVPA0yHdjToT2RKR5dtzQl\nZgL6FVvWzZnD3tzRQjoVz9F1FBToIrJo7s6p8QxHCs4MOXpqomi0PXRmktKT6DaGo+tdm9eyd1dP\n8QeOna10tq3e0XUUFOgiMkcml+fFUxNzpkIGCkbapadkNqdmR9fXXNhTNA3S1xWMrptT0Z/SJ7MU\n6CKrjLtzejw7G9bhtMjsedgTHH95Ys7ountNmt7OVi7oWcNVOzeGI+sW+jrb6O1sYX17WqPrZaZA\nF4mZbC7Pi6cnik7fKxxpHx2Z4Mxktug16WQiGE13tfKmC7rnnHe9paOFliaNrhudAl1khTk9kSmY\nBpko+obj0ZFxXjw9Qb5kdL2+PU1fZyvbu9u58vzuOeddb2hPk0hodL3SKdBFVogfPnac37r9QU5P\nZBfuXGBtS4pUwjh+eoLjpyf4xfMjS1ShLDcFusgKsW1DG2+/pJdqr78kK9fPK+xX9cW5qqGLc4mI\nLJ6ZVXRxLp2hLyISEwp0EZGYUKCLiMSEAl1EJCYU6CIiMaFAFxGJCQW6iEhM1BzoZpY0s1+Y2Xei\nKEhERKoTxQj9Y8DjEaxHRERqUFOgm9k5wL8B/jKackREpFq1jtC/AHwCyM/Xwcz2mdkBMzswNDRU\n4+ZERGQ+VQe6mb0dGHT3g2fr5+773X23u+/euHFjtZsTEZEF1DJCvxL4NTN7FvhbYI+Z/e9IqhIR\nkUWrOtDd/ZPufo679wPvBu5y9/dEVpmIiCyKzkMXEYmJSH7gwt3vAe6JYl0iIlIdjdBFRGJCgS4i\nEhMKdBGRmFCgi4jEhAJdRCQmFOgiIjGhQBcRiQkFuohITCjQRURiQoEuIhITCnQRkZhQoIuIxIQC\nXUQkJhToIiIxoUAXEYmJWn5T9Fwzu9vMHjOzR83sY1EWJiIii1PLD1xkgd929wfMbC1w0MzucPfH\nIqpNREQWoZbfFD3m7g+Ej18GHgf6oipMREQWJ5I5dDPrBy4D7o9ifSIiEnjLn/xzxX1rDnQzWwP8\nHfBxdz9dZvk+MztgZgeGhoZq3ZyIyKpywaY1Ffc1d696Q2bWBHwH+L67/8lC/Xfv3u0HDhyoensi\nIquRmR10990L9avlLBcDvgI8XkmYi4jI0qplyuVK4L3AHjN7MLy9LaK6RERkkao+bdHd7wMswlpE\nRKQG+qaoiEhMKNBFRGJCgS4iEhMKdBGRmFCgi4jERE1fLFr0xsyGgOciXm03MBzxOpeC6ozOSqgR\nVGfUVnOd29x940Kd6hroS8HMDlTyDarlpjqjsxJqBNUZNdW5ME25iIjEhAJdRCQm4hDo+5e7gAqp\nzuishBpBdUZNdS5gxc+hi4hIIA4jdBERoQEDfb4fnzaz9WZ2h5k9Fd53he1mZl8ys1+Z2UNmdnnJ\n+taZ2REz+3Ij1mlml5rZT8J1PGRm/7ER6wyX3RD2f8rMboi4zlvMbNDMHilouyT82zxsZv9gZuvC\n9rSZfTVs/6WZXV3wmuvD9ofM7Htm1t2gdabNbL+ZPWlmh8zsPzRinQWv/XbhuhqlRjNrM7Pvhn/D\nR83sM1HWGFWd4bJXh+2/Ct9j0V/c0N0b6gZsAS4PH68FngQuAj4L3BS23wT8cfj4bcA/EVz58Qrg\n/pL1fRH4P8CXG7FOYCdwQfi4FzgGdDZgneuBZ8L7rvBxV4R1vhm4HHikoO3nwFXh4w8Cnw4f/ybw\n1fBxD3CQYHCSAgaB7nDZZ4Hfj/i/e811hs//APjD8HFiuuZGqzNs+/fhe+iRRqsRaAOuCdvTwI+A\nf91odYbPfxa+pyx8j0Vap7s3XqCX+WN+C3gL8ASwJWzbAjwRPv4L4PqC/oX9Xg38LfB+Ig70KOss\nWc8vCQO+keoErgf+oqC9qF9EtfWXvGlOMfs5z7nAY+Hj/wW8t6DfncBrgSZgCNgWvmn+HNi3BH/D\nmuoMH78AtC/x/5NR1LkGuI9gEBBpoEdVY8n6vgj850arM3wPHSpoL3o/RXVruCmXQlb849Ob3P1Y\nuOhFYFP4uI/gzTHtCNBnZgng88DvNHKdJet5LcEo4+kGrHPB+pfAo8B14eN3ErxxINjp/ZqZpcxs\nO8GO+1x3zwA3Ag8DRwlC6CtLXOOi6zSzznD5p83sATP7f2a2iaW3qDqnayR4H43Vob5qawQg/Lv+\nW4IQbbQ6+wjeM9OW5P3TsIFuZ/nxaQ92cQudnvMR4B/d/cgC/WoSQZ3T69kC/A3wAXfPN2qddfZB\n4CNmdpBgumgqbL+F4A1xAPgC8GMgZ8Fv3N5IsNPqBR4CPtlodRJMDZ0D/NjdLwd+Anyu0eo0s0uB\n89z9m3Woraoap19kZingNuBL7v5Mo9a55JbykK+Gw5sm4PvAbxW0LXaK4GvA88CzBNdVOA18ptHq\nDB+vAx4A3tHAf8+6T7mULNsJ/GyeZT8mGI2/BrizoP3NBDv1qP+etdZpwCizc6vnAo82YJ03Ehzp\nPEsQUlPAPY1UY8HzWwjCPNK/YYR/y9U55RJ+8lvux6e/DdwQPr6BYC54uv19FrgCOOXux9z9P7n7\nVnfvJ5h2+Wt3v6nR6jSzNPDNsL6vR1Vf1HUS7BDeamZdFpwR89awbcmYWU94nwB+l2BOfPrMhvbw\n8VuArLs/BgwAF5nZ9EWM3gI8vpQ1VlOnB+/ofwCuDlexF3isAev8M3fvDd9DbwSedPery658mWoM\nn/8h0AF8fClrq6XO8D102syuCN+T72P2PRedpdqj1bAnfCPB4f9DwIPh7W3ABoK5saeAHwLrw/5G\n8EHE0wRzp7vLrPP9RH+WSyR1Au8BMgXreBC4tNHqDJd9EPhVePtAxH/P2wjO8MkQjAY/BHyM4Kyc\nJ4HPMPshVD/BkcPjYe3bCtbz4bD9IYLQ3NCgdW4D7g3rvBPY2oh1Fqyvn+jPcqm5RoKpKw/bp///\n/vVGqzNctht4JHxvfXn6NVHe9E1REZGYaLgpFxERqY4CXUQkJhToIiIxoUAXEYkJBbqISEwo0EVE\nYkKBLiISEwp0EZGY+P9K9n9F8hpf1QAAAABJRU5ErkJggg==\n",
      "text/plain": [
       "<matplotlib.figure.Figure at 0x7fae553bde80>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "%matplotlib inline\n",
    "years = pd.Series(years)\n",
    "\n",
    "years.value_counts().plot()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 40,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import matplotlib.pyplot as plt"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## A shiny new nickel to anyone who can tell me how to create a histogram in Python!"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "plt.hist()"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 1
}