{
 "metadata": {
  "name": "",
  "signature": "sha256:5b95a8302b15faeeb3cd06add8368865bcd635b7cc339daa35ec7ebd79bb6106"
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "# Analysis of Pronoun Usage In Presidential Addresses\n",
      "\n",
      "This notebook is designed to look at how presidents have used first person vs. second person pronouns during their speeches."
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "import pandas as pd\n",
      "import json\n",
      "import nltk"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 20
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "### Load in Data\n",
      "\n",
      "The data used in this notebook comes from Vocativ's collection of presidential addressses, which can be found here: https://github.com/Vocativ-data/presidents_readability"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "objects = json.loads(open(\"../../vocativ_president_data/The original speeches.json\").read())[\"objects\"]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 2
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df = pd.DataFrame(objects)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 3
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"word_count\"] = speeches_df[\"Text\"].apply(lambda x: len(x.split()))"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 4
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "json_data = open().read()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 3
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"tokens\"] = speeches_df[\"Text\"].apply(lambda x: nltk.word_tokenize(x))"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 5
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "### Find and Count All First-Person Singular Pronouns"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"i\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"i\"]), axis=1)\n",
      "speeches_df[\"me\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"me\"]), axis=1)\n",
      "speeches_df[\"my\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"my\"]), axis=1)\n",
      "speeches_df[\"mine\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"mine\"]), axis=1)\n",
      "speeches_df[\"myself\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"myself\"]), axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 6
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"first_person_singular\"] = speeches_df.apply(lambda x: x[\"i\"] + x[\"me\"] + x[\"my\"] +\\\n",
      "                                                                x[\"mine\"] + x[\"myself\"], axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 7
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "### Find And Count All First-Person Plural Pronouns"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"we\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"we\"]), axis=1)\n",
      "speeches_df[\"our\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"our\"]), axis=1)\n",
      "speeches_df[\"ours\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"ours\"]), axis=1)\n",
      "speeches_df[\"ourselves\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"ourselves\"]), axis=1)\n",
      "speeches_df[\"us\"] = speeches_df.apply(lambda x: len([ t for t in x[\"tokens\"] if t.lower() == \"us\"]), axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 8
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"first_person_plural\"] = speeches_df.apply(lambda x: x[\"we\"] + x[\"our\"] + x[\"ours\"] + x[\"ourselves\"] + x[\"us\"], axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 9
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speeches_df[\"first_person\"] = speeches_df.apply(lambda x: x[\"first_person_singular\"] + x[\"first_person_singular\"], axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 10
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "### Segment Off Necessary Data Points"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "speech_analysis = speeches_df[[\"word_count\", \"tokens\", \"President\", \"first_person\", \n",
      "                               \"first_person_singular\", \"first_person_plural\"]]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 11
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "We only want modern presidents (since 1929) because that's the data that's available for our news conference analysis. This is a list of all the presidents with names matching the data found in the President column of the address dataframe."
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "news_conf_presidents = [\"Richard Nixon\", \"Gerald Ford\", \"George H. W. Bush\", \"Lyndon B. Johnson\", \"Jimmy Carter\", \n",
      "                        \"Bill Clinton\", \"Harry S. Truman\", \"Ronald Reagan\", \"Barack Obama\", \"John F. Kennedy\", \n",
      "                        \"Franklin D. Roosevelt\", \"Dwight D. Eisenhower\", \"Herbert Hoover\", \"George W. Bush\"]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 12
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "modern_presidents = speech_analysis[speech_analysis[\"President\"].isin(news_conf_presidents)]"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 13
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "presidents = pd.DataFrame(modern_presidents.groupby(\"President\").sum())"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 14
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "### Analyze Each President's Total Corpus of Speeches"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "presidents[\"pct_first\"] = presidents.apply(lambda x: round(100.0 * x[\"first_person\"] / x[\"word_count\"], 2), axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 15
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "presidents[\"pct_first_singular\"] = presidents.apply(lambda x: round(100.0 * x[\"first_person_singular\"] / x[\"word_count\"], 2), axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 16
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "presidents[\"pct_first_plural\"] = presidents.apply(lambda x: round(100.0 * x[\"first_person_plural\"] / x[\"word_count\"], 2), axis=1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 17
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "presidents.sort(\"pct_first_singular\", ascending=False)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "html": [
        "<div style=\"max-height:1000px;max-width:1500px;overflow:auto;\">\n",
        "<table border=\"1\" class=\"dataframe\">\n",
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
        "      <th>word_count</th>\n",
        "      <th>first_person</th>\n",
        "      <th>first_person_singular</th>\n",
        "      <th>first_person_plural</th>\n",
        "      <th>pct_first</th>\n",
        "      <th>pct_first_singular</th>\n",
        "      <th>pct_first_plural</th>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>President</th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "      <th></th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>Richard Nixon</th>\n",
        "      <td>  67445</td>\n",
        "      <td>  3368</td>\n",
        "      <td> 1684</td>\n",
        "      <td> 1943</td>\n",
        "      <td> 4.99</td>\n",
        "      <td> 2.50</td>\n",
        "      <td> 2.88</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Gerald Ford</th>\n",
        "      <td>  40301</td>\n",
        "      <td>  1950</td>\n",
        "      <td>  975</td>\n",
        "      <td> 1323</td>\n",
        "      <td> 4.84</td>\n",
        "      <td> 2.42</td>\n",
        "      <td> 3.28</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>George H. W. Bush</th>\n",
        "      <td>  89646</td>\n",
        "      <td>  4308</td>\n",
        "      <td> 2154</td>\n",
        "      <td> 2878</td>\n",
        "      <td> 4.81</td>\n",
        "      <td> 2.40</td>\n",
        "      <td> 3.21</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Lyndon B. Johnson</th>\n",
        "      <td> 246786</td>\n",
        "      <td> 10116</td>\n",
        "      <td> 5058</td>\n",
        "      <td> 8062</td>\n",
        "      <td> 4.10</td>\n",
        "      <td> 2.05</td>\n",
        "      <td> 3.27</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Jimmy Carter</th>\n",
        "      <td>  91936</td>\n",
        "      <td>  3642</td>\n",
        "      <td> 1821</td>\n",
        "      <td> 2997</td>\n",
        "      <td> 3.96</td>\n",
        "      <td> 1.98</td>\n",
        "      <td> 3.26</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Bill Clinton</th>\n",
        "      <td> 145846</td>\n",
        "      <td>  5234</td>\n",
        "      <td> 2617</td>\n",
        "      <td> 5694</td>\n",
        "      <td> 3.59</td>\n",
        "      <td> 1.79</td>\n",
        "      <td> 3.90</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Harry S. Truman</th>\n",
        "      <td>  31802</td>\n",
        "      <td>  1132</td>\n",
        "      <td>  566</td>\n",
        "      <td>  852</td>\n",
        "      <td> 3.56</td>\n",
        "      <td> 1.78</td>\n",
        "      <td> 2.68</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Ronald Reagan</th>\n",
        "      <td> 206217</td>\n",
        "      <td>  6592</td>\n",
        "      <td> 3296</td>\n",
        "      <td> 6679</td>\n",
        "      <td> 3.20</td>\n",
        "      <td> 1.60</td>\n",
        "      <td> 3.24</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Barack Obama</th>\n",
        "      <td>  33672</td>\n",
        "      <td>  1046</td>\n",
        "      <td>  523</td>\n",
        "      <td> 1292</td>\n",
        "      <td> 3.11</td>\n",
        "      <td> 1.55</td>\n",
        "      <td> 3.84</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>John F. Kennedy</th>\n",
        "      <td> 160468</td>\n",
        "      <td>  4670</td>\n",
        "      <td> 2335</td>\n",
        "      <td> 4907</td>\n",
        "      <td> 2.91</td>\n",
        "      <td> 1.46</td>\n",
        "      <td> 3.06</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Franklin D. Roosevelt</th>\n",
        "      <td> 130024</td>\n",
        "      <td>  3034</td>\n",
        "      <td> 1517</td>\n",
        "      <td> 3222</td>\n",
        "      <td> 2.33</td>\n",
        "      <td> 1.17</td>\n",
        "      <td> 2.48</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Dwight D. Eisenhower</th>\n",
        "      <td>  17919</td>\n",
        "      <td>   354</td>\n",
        "      <td>  177</td>\n",
        "      <td>  429</td>\n",
        "      <td> 1.98</td>\n",
        "      <td> 0.99</td>\n",
        "      <td> 2.39</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>George W. Bush</th>\n",
        "      <td>  45437</td>\n",
        "      <td>   808</td>\n",
        "      <td>  404</td>\n",
        "      <td> 1818</td>\n",
        "      <td> 1.78</td>\n",
        "      <td> 0.89</td>\n",
        "      <td> 4.00</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>Herbert Hoover</th>\n",
        "      <td>  10718</td>\n",
        "      <td>   178</td>\n",
        "      <td>   89</td>\n",
        "      <td>  303</td>\n",
        "      <td> 1.66</td>\n",
        "      <td> 0.83</td>\n",
        "      <td> 2.83</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
       ],
       "metadata": {},
       "output_type": "pyout",
       "prompt_number": 18,
       "text": [
        "                       word_count  first_person  first_person_singular  \\\n",
        "President                                                                \n",
        "Richard Nixon               67445          3368                   1684   \n",
        "Gerald Ford                 40301          1950                    975   \n",
        "George H. W. Bush           89646          4308                   2154   \n",
        "Lyndon B. Johnson          246786         10116                   5058   \n",
        "Jimmy Carter                91936          3642                   1821   \n",
        "Bill Clinton               145846          5234                   2617   \n",
        "Harry S. Truman             31802          1132                    566   \n",
        "Ronald Reagan              206217          6592                   3296   \n",
        "Barack Obama                33672          1046                    523   \n",
        "John F. Kennedy            160468          4670                   2335   \n",
        "Franklin D. Roosevelt      130024          3034                   1517   \n",
        "Dwight D. Eisenhower        17919           354                    177   \n",
        "George W. Bush              45437           808                    404   \n",
        "Herbert Hoover              10718           178                     89   \n",
        "\n",
        "                       first_person_plural  pct_first  pct_first_singular  \\\n",
        "President                                                                   \n",
        "Richard Nixon                         1943       4.99                2.50   \n",
        "Gerald Ford                           1323       4.84                2.42   \n",
        "George H. W. Bush                     2878       4.81                2.40   \n",
        "Lyndon B. Johnson                     8062       4.10                2.05   \n",
        "Jimmy Carter                          2997       3.96                1.98   \n",
        "Bill Clinton                          5694       3.59                1.79   \n",
        "Harry S. Truman                        852       3.56                1.78   \n",
        "Ronald Reagan                         6679       3.20                1.60   \n",
        "Barack Obama                          1292       3.11                1.55   \n",
        "John F. Kennedy                       4907       2.91                1.46   \n",
        "Franklin D. Roosevelt                 3222       2.33                1.17   \n",
        "Dwight D. Eisenhower                   429       1.98                0.99   \n",
        "George W. Bush                        1818       1.78                0.89   \n",
        "Herbert Hoover                         303       1.66                0.83   \n",
        "\n",
        "                       pct_first_plural  \n",
        "President                                \n",
        "Richard Nixon                      2.88  \n",
        "Gerald Ford                        3.28  \n",
        "George H. W. Bush                  3.21  \n",
        "Lyndon B. Johnson                  3.27  \n",
        "Jimmy Carter                       3.26  \n",
        "Bill Clinton                       3.90  \n",
        "Harry S. Truman                    2.68  \n",
        "Ronald Reagan                      3.24  \n",
        "Barack Obama                       3.84  \n",
        "John F. Kennedy                    3.06  \n",
        "Franklin D. Roosevelt              2.48  \n",
        "Dwight D. Eisenhower               2.39  \n",
        "George W. Bush                     4.00  \n",
        "Herbert Hoover                     2.83  "
       ]
      }
     ],
     "prompt_number": 18
    },
    {
     "cell_type": "markdown",
     "metadata": {},
     "source": [
      "Do a quick calculation to find the overall average so that you can compare it to Obama's 1.55 in table above."
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "round(100.0 * presidents[\"first_person_singular\"].sum() / presidents[\"word_count\"].sum(), 2)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "metadata": {},
       "output_type": "pyout",
       "prompt_number": 19,
       "text": [
        "1.76"
       ]
      }
     ],
     "prompt_number": 19
    }
   ],
   "metadata": {}
  }
 ]
}