{
 "metadata": {
  "name": "fuzzy_hash_micro"
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Demo POC using fuzzy hash of two files and comparing them. \n",
      "\n",
      "First part uses python sets for similarity comparison of files.\n",
      "set objects will get large when storing thousands of sets.\n",
      "\n",
      "Second part uses\n",
      "Data is stored in a hyperloglog data structure.\n",
      "\n",
      "Third part will use redis for persistent storage.\n",
      "WIP: Redis integration and Jaccard based similarity index\n"
     ]
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Setup of fuzzy hasher"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "import time\n",
      "import struct\n",
      "import hashlib"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 1
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Open a file in a variable memory_dump"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "filename = \"test.pdf\"\n",
      "filename2 = \"Python_for_Data_Analysis.pdf\""
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 5
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "file_dump = open(filename, \"rb\")\n",
      "file_dump2 = open(filename2, \"rb\")"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 6
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "file_dump"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 7,
       "text": [
        "<open file 'test.pdf', mode 'rb' at 0x105b18e40>"
       ]
      }
     ],
     "prompt_number": 7
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "file_dump2"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 8,
       "text": [
        "<open file 'Python_for_Data_Analysis.pdf', mode 'rb' at 0x105b18f60>"
       ]
      }
     ],
     "prompt_number": 8
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Here I build a byte reader data structure to buffer reads 18 bytes at a time"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "def byte_reader(memory_dump, number_bytes):\n",
      "        '''\n",
      "        Read the #number_byte of bytes\n",
      "        '''\n",
      "        byte = memory_dump.read(number_bytes)\n",
      "        return byte"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 9
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "byte_reader(file_dump, 32)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 10,
       "text": [
        "'%PDF-1.6\\r%\\xe2\\xe3\\xcf\\xd3\\r\\n10792 0 obj\\r<</F'"
       ]
      }
     ],
     "prompt_number": 10
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "byte_reader(file_dump2, 32)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 11,
       "text": [
        "'%PDF-1.6\\r%\\xe2\\xe3\\xcf\\xd3\\r\\n10792 0 obj\\r<</F'"
       ]
      }
     ],
     "prompt_number": 11
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "This function reads and byte and creates and MD5"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "def hashing_byte_reader(memory_dump, number_bytes):\n",
      "        '''\n",
      "        Read the bytes and return MD5\n",
      "        '''\n",
      "        byte = memory_dump.read(number_bytes)\n",
      "        m = hashlib.md5()\n",
      "        m.update(byte)\n",
      "        hash_byte = m.hexdigest()\n",
      "        return byte, hash_byte"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 12
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "POC rolling 32 byte block fuzzy hashing tool implemented in python"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "fd = open(filename, \"rb\")\n",
      "\n",
      "def gen_hashes(fd):\n",
      "    for element in xrange(0,100):\n",
      "        buffer, hash_result = hashing_byte_reader(fd, 16)\n",
      "        yield hash_result\n",
      "        \n",
      "hash1 = gen_hashes(fd)\n",
      "hash1_set = set(hash1)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 47
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "hash1_set"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 50,
       "text": [
        "set(['d2d56fd6da70f634347068f4db84fd5b',\n",
        "     '90d034c5f6b05e94d7d799f14fe008d6',\n",
        "     'c84ad22a67d405d3823cef724ebd09bb',\n",
        "     'f33ecc1048976f08009750a95a318146',\n",
        "     '01c8a4c01983f3af14a2eb7cf56e1bfc',\n",
        "     'ef4f324d42351339e11655155a09711a',\n",
        "     '6b05444eb6eef6878494daaf65c34801',\n",
        "     '5b705643470ded220a51274c6e5dd184',\n",
        "     'a39529456ddd26c9a8b3498583cd0889',\n",
        "     'da470fa7ab90dd8081aefc128d87d55d',\n",
        "     'f0a81008577ddbccdb5fb950c5c84959',\n",
        "     'd308ca9690aef4b9d659fec38b460551',\n",
        "     '3899571e339a3817ce80529585e0c095',\n",
        "     '96b601c7465be7f73aacff0453dc8127',\n",
        "     'f6428164ad17b668c0bda8247d7733c9',\n",
        "     '47fc0a743b51219894caf4d7d1b78923',\n",
        "     '29039d773418a2255bd966f83f683141',\n",
        "     '4aa1492929f36d610a454e0777b68104',\n",
        "     '7e1d1746e33300b7ead456e3693914c7',\n",
        "     '44499548fa3bd4d00009f0653c5bfd42',\n",
        "     '960bee379c4152682b635c825b8cea73',\n",
        "     '147b54a5653742c1107a7a1555229c78',\n",
        "     '59070bfb1d13ee62d649e02a3936ada5',\n",
        "     '9ca305c8014c0981f889ae618ab83579',\n",
        "     '1f8a64afa5d871bfacfd5129e9f7c466',\n",
        "     'c2e1ee6c4620da8640e41db1e078e39d',\n",
        "     'a868ca612988c1915c536be93cad4b62',\n",
        "     '6b3bc1820f98c31f4789d6832b43c434',\n",
        "     '5802d549b2b7325a937f0829929cab97',\n",
        "     'f00aaccfe86291d7588668ea14bb0d47',\n",
        "     '7cfd41aa2dd63e40971265eb641f67ee',\n",
        "     '2f69efcf2018bd46710818e674e417a6',\n",
        "     'dea321def6cbfab92627848a15a99633',\n",
        "     '6dc5cd21bb89f37e2906b07b5eef5e4c',\n",
        "     '719d18b744ec9693b79b7e1a689f7e0c',\n",
        "     'a46fc4e9839d3d46a100f302339aa6f9',\n",
        "     'c82f7ebba78bf800f56cee1d6bf952a2',\n",
        "     '1ab32e97bd34a104e442ecb62c45fc05',\n",
        "     '814bf9f9da4b353be99c63311a689c4d',\n",
        "     '704b6e7d23b929eb75942c5f80f1e4ef',\n",
        "     '04b3de90f83e9fca6df79ff129ce8d02',\n",
        "     'fec0e0b7e59634a90c2a37f16d2dc884',\n",
        "     '4feb3c02274b870e48ae0d8caa1361ec',\n",
        "     '0a5f0f597ccb1407539949b3c6f50e21',\n",
        "     '32434bbd3c380b33891ff11be769e546',\n",
        "     'b546c6adf4cfcc7028a9cf6bd21fbd97',\n",
        "     'f1d5d5ea10c80c338c23f092fc0fb2fc',\n",
        "     '05953d13417244e3420b96d62ab136cf',\n",
        "     'd584c3eddd55e126e97fab53a17d8c9d',\n",
        "     '6a440fb77cec0897a5e9ee31b3cef22c',\n",
        "     '95d87048d42362f9a5c44e07160a022f',\n",
        "     '0e8fd03942482758fba02c135a8e3552',\n",
        "     'e763e5b353053732f064206bc9b05150',\n",
        "     '1078ba9185d1316e41c40be179f55977',\n",
        "     '092cead87c44b50f962d96f29c39243d',\n",
        "     '2f57d09601bc7130eb1f232e22acdac4',\n",
        "     '451990b54b46a3c72e021652ab6eab85',\n",
        "     '2d36e9011a017cf20aee5827aae1cc27',\n",
        "     '13b585054d78e7158e75ff4fe3746cb4',\n",
        "     '7d0875fe9c075242a1f62fe27d18beab',\n",
        "     '624c89946174f0fcd5370016b034edfe',\n",
        "     'c9c7bec627534454e23ad02457d44ed7',\n",
        "     'f000515b3bf48a40990d47dc8c859e4c',\n",
        "     '83e4dc3aa8e97d7e24967f3b08344598',\n",
        "     '82b06352b134928a9e0605134d00ac55',\n",
        "     '6e0387af67f5ab5d9c77cfdfcef4be49',\n",
        "     'ee6213d8e2e0ae965f8acb4ed09cc1a6',\n",
        "     '2f3f715f0e0aebdf00c6841bb5ec0d45',\n",
        "     '8e73754f6b8c7f043df01fcb36075dc7',\n",
        "     '62c08febfa671faf0b190e9a2cd9a1c2',\n",
        "     'e8d4c9a52ae5cb55a6bd1b3e14133806',\n",
        "     '145c7e76da196606dab538f0b95e8537',\n",
        "     '76fc76acd72ecaf23a9f4d9831592949',\n",
        "     '10743ed1c425da349a56d3295f04c0cb',\n",
        "     '431fa8ec94ffe04b4a453e323c7b75c6',\n",
        "     '1791077b68730038335042cb1826b4ab',\n",
        "     '6d0600b3017097e1c7f9efec08d44ac1',\n",
        "     'df049dd9f5b2274b6482fa7eefd4bc93',\n",
        "     'ae5901b746400d3f3d117bd0892306f3',\n",
        "     '5d333f2e5d8abda015ff3dd2f7e226c9',\n",
        "     'cc49ca1eb52fbc7863ac51063b63e083',\n",
        "     '825312cdc69fe25e4a9e9f8bff5d3332',\n",
        "     'f43f578c0b5b2728ff99ca9ab26092b4',\n",
        "     'a9b3177a5fff60ab6449370d18dd85f8',\n",
        "     '6df65ce3740acf25fa55bac05854820b',\n",
        "     '74426cec1f6ee2fa080c2fd964b74109',\n",
        "     'c782358327e79f56cabad5e0fc3695e3',\n",
        "     '2545c07a6c092a7e05bc83f07c6cd299',\n",
        "     '9bad6f098858368055dd6ea67813bb2e',\n",
        "     '3e4f277d07c306cddb9c17f8548ead9d',\n",
        "     '6b552a3366ac67648049ffde4e91cd36',\n",
        "     '8dc8f9e29289f8254996c9b24d96e53a',\n",
        "     '2eeffe17b18e1305a884c796cc8d1d8c',\n",
        "     'bc831227877e8da3c86ac6fe00b3325c',\n",
        "     '4519d11616dbe54f278253ba81aa2e5e',\n",
        "     'b77918e8be6887ca18458b3af9f61d94',\n",
        "     'b97255812da987c2e053ada647da9b62',\n",
        "     '1dddd27c4cdbc9cab6bc392b10fb8af6',\n",
        "     'b722c62d18d989b7d59523a99b9d9a61',\n",
        "     'ad28bbf73a1cf04ccd325b61c44af131'])"
       ]
      }
     ],
     "prompt_number": 50
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "fd = open(filename2, \"rb\")\n",
      "\n",
      "def gen_hashes(fd):\n",
      "    for element in xrange(0,100):\n",
      "        buffer, hash_result = hashing_byte_reader(fd, 16)\n",
      "        yield hash_result\n",
      "        \n",
      "hash2 = gen_hashes(fd)\n",
      "hash2_set = set(hash2)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 51
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "hash2_set"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 52,
       "text": [
        "set(['d2d56fd6da70f634347068f4db84fd5b',\n",
        "     '90d034c5f6b05e94d7d799f14fe008d6',\n",
        "     'c84ad22a67d405d3823cef724ebd09bb',\n",
        "     'f33ecc1048976f08009750a95a318146',\n",
        "     '01c8a4c01983f3af14a2eb7cf56e1bfc',\n",
        "     'ef4f324d42351339e11655155a09711a',\n",
        "     '6b05444eb6eef6878494daaf65c34801',\n",
        "     '5b705643470ded220a51274c6e5dd184',\n",
        "     'a39529456ddd26c9a8b3498583cd0889',\n",
        "     'da470fa7ab90dd8081aefc128d87d55d',\n",
        "     'f0a81008577ddbccdb5fb950c5c84959',\n",
        "     'd308ca9690aef4b9d659fec38b460551',\n",
        "     '3899571e339a3817ce80529585e0c095',\n",
        "     '96b601c7465be7f73aacff0453dc8127',\n",
        "     'f6428164ad17b668c0bda8247d7733c9',\n",
        "     '47fc0a743b51219894caf4d7d1b78923',\n",
        "     '29039d773418a2255bd966f83f683141',\n",
        "     '4aa1492929f36d610a454e0777b68104',\n",
        "     '7e1d1746e33300b7ead456e3693914c7',\n",
        "     '44499548fa3bd4d00009f0653c5bfd42',\n",
        "     '960bee379c4152682b635c825b8cea73',\n",
        "     '147b54a5653742c1107a7a1555229c78',\n",
        "     '59070bfb1d13ee62d649e02a3936ada5',\n",
        "     '9ca305c8014c0981f889ae618ab83579',\n",
        "     '1f8a64afa5d871bfacfd5129e9f7c466',\n",
        "     'c2e1ee6c4620da8640e41db1e078e39d',\n",
        "     'a868ca612988c1915c536be93cad4b62',\n",
        "     '6b3bc1820f98c31f4789d6832b43c434',\n",
        "     '5802d549b2b7325a937f0829929cab97',\n",
        "     'f00aaccfe86291d7588668ea14bb0d47',\n",
        "     '7cfd41aa2dd63e40971265eb641f67ee',\n",
        "     '2f69efcf2018bd46710818e674e417a6',\n",
        "     'dea321def6cbfab92627848a15a99633',\n",
        "     '6dc5cd21bb89f37e2906b07b5eef5e4c',\n",
        "     '719d18b744ec9693b79b7e1a689f7e0c',\n",
        "     'a46fc4e9839d3d46a100f302339aa6f9',\n",
        "     'c82f7ebba78bf800f56cee1d6bf952a2',\n",
        "     '1ab32e97bd34a104e442ecb62c45fc05',\n",
        "     '814bf9f9da4b353be99c63311a689c4d',\n",
        "     '704b6e7d23b929eb75942c5f80f1e4ef',\n",
        "     '04b3de90f83e9fca6df79ff129ce8d02',\n",
        "     'fec0e0b7e59634a90c2a37f16d2dc884',\n",
        "     '4feb3c02274b870e48ae0d8caa1361ec',\n",
        "     '0a5f0f597ccb1407539949b3c6f50e21',\n",
        "     '32434bbd3c380b33891ff11be769e546',\n",
        "     'b546c6adf4cfcc7028a9cf6bd21fbd97',\n",
        "     'f1d5d5ea10c80c338c23f092fc0fb2fc',\n",
        "     '05953d13417244e3420b96d62ab136cf',\n",
        "     'd584c3eddd55e126e97fab53a17d8c9d',\n",
        "     '6a440fb77cec0897a5e9ee31b3cef22c',\n",
        "     '95d87048d42362f9a5c44e07160a022f',\n",
        "     '0e8fd03942482758fba02c135a8e3552',\n",
        "     'e763e5b353053732f064206bc9b05150',\n",
        "     '1078ba9185d1316e41c40be179f55977',\n",
        "     '092cead87c44b50f962d96f29c39243d',\n",
        "     '2f57d09601bc7130eb1f232e22acdac4',\n",
        "     '451990b54b46a3c72e021652ab6eab85',\n",
        "     '2d36e9011a017cf20aee5827aae1cc27',\n",
        "     '13b585054d78e7158e75ff4fe3746cb4',\n",
        "     '7d0875fe9c075242a1f62fe27d18beab',\n",
        "     '624c89946174f0fcd5370016b034edfe',\n",
        "     'c9c7bec627534454e23ad02457d44ed7',\n",
        "     'f000515b3bf48a40990d47dc8c859e4c',\n",
        "     '83e4dc3aa8e97d7e24967f3b08344598',\n",
        "     '82b06352b134928a9e0605134d00ac55',\n",
        "     '6e0387af67f5ab5d9c77cfdfcef4be49',\n",
        "     'ee6213d8e2e0ae965f8acb4ed09cc1a6',\n",
        "     '2f3f715f0e0aebdf00c6841bb5ec0d45',\n",
        "     '8e73754f6b8c7f043df01fcb36075dc7',\n",
        "     '62c08febfa671faf0b190e9a2cd9a1c2',\n",
        "     'e8d4c9a52ae5cb55a6bd1b3e14133806',\n",
        "     '145c7e76da196606dab538f0b95e8537',\n",
        "     '76fc76acd72ecaf23a9f4d9831592949',\n",
        "     '10743ed1c425da349a56d3295f04c0cb',\n",
        "     '431fa8ec94ffe04b4a453e323c7b75c6',\n",
        "     '1791077b68730038335042cb1826b4ab',\n",
        "     '6d0600b3017097e1c7f9efec08d44ac1',\n",
        "     'df049dd9f5b2274b6482fa7eefd4bc93',\n",
        "     'ae5901b746400d3f3d117bd0892306f3',\n",
        "     '5d333f2e5d8abda015ff3dd2f7e226c9',\n",
        "     'cc49ca1eb52fbc7863ac51063b63e083',\n",
        "     '825312cdc69fe25e4a9e9f8bff5d3332',\n",
        "     'f43f578c0b5b2728ff99ca9ab26092b4',\n",
        "     'a9b3177a5fff60ab6449370d18dd85f8',\n",
        "     '6df65ce3740acf25fa55bac05854820b',\n",
        "     '74426cec1f6ee2fa080c2fd964b74109',\n",
        "     'c782358327e79f56cabad5e0fc3695e3',\n",
        "     '2545c07a6c092a7e05bc83f07c6cd299',\n",
        "     '9bad6f098858368055dd6ea67813bb2e',\n",
        "     '3e4f277d07c306cddb9c17f8548ead9d',\n",
        "     '6b552a3366ac67648049ffde4e91cd36',\n",
        "     '8dc8f9e29289f8254996c9b24d96e53a',\n",
        "     '2eeffe17b18e1305a884c796cc8d1d8c',\n",
        "     'bc831227877e8da3c86ac6fe00b3325c',\n",
        "     '4519d11616dbe54f278253ba81aa2e5e',\n",
        "     'b77918e8be6887ca18458b3af9f61d94',\n",
        "     'b97255812da987c2e053ada647da9b62',\n",
        "     '1dddd27c4cdbc9cab6bc392b10fb8af6',\n",
        "     'b722c62d18d989b7d59523a99b9d9a61',\n",
        "     'ad28bbf73a1cf04ccd325b61c44af131'])"
       ]
      }
     ],
     "prompt_number": 52
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "file_similarity_score = hash2_set.intersection(hash1_set)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 56
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "len(file_similarity_score)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 57,
       "text": [
        "100"
       ]
      }
     ],
     "prompt_number": 57
    },
    {
     "cell_type": "heading",
     "level": 2,
     "metadata": {},
     "source": [
      "Demo of different types of sketches"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "fd = open(filename, \"rb\")\n",
      "i = 0\n",
      "from hashlib import sha1\n",
      "from math import ceil\n",
      "from math import log\n",
      "from math import pow\n",
      "from sys import getsizeof\n",
      "from Interface import Interface\n",
      "from bitarray import bitarray\n",
      "import sys\n",
      "\n",
      "\n",
      "def get_SHA1_bin(word):\n",
      "    \"\"\"\n",
      "    Returns the SHA1 hash of any string\n",
      "    \"\"\"\n",
      "    hash_s = sha1()\n",
      "    hash_s.update(word)\n",
      "    return bin(long(hash_s.hexdigest(),16))[2:].zfill(160)\n",
      "\n",
      "\n",
      "def get_index(binString,endIndex=160):\n",
      "    \"\"\"\n",
      "    Returns the position of the first 1 bit \n",
      "    from the left in the word until endIndex\n",
      "    \"\"\"\n",
      "    res = -1\n",
      "    try:\n",
      "        res = binString.index('1')+1\n",
      "    except(ValueError):\n",
      "        res = endIndex\n",
      "    return res"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 19
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "Class Sketch"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "class Sketch(Interface):\n",
      "    \"\"\"\n",
      "    Class implements a Hyperloglog probabilistic data structure \n",
      "    \"\"\"\n",
      "    \n",
      "    def __init__(self,max_cardinality):\n",
      "        \"\"\"Implementes a Hash Sketch\n",
      "        maxCardinality\n",
      "        this Sketch is able to count cardinalities up to cardinality *maxCardinality*\n",
      "        \"\"\"    \n",
      "        self.__maxCardinality=maxCardinality\n",
      "        self.__maxIndex = 0\n",
      "        self.__bitarray = bitarray(160)\n",
      "        self.__bitarray.setall(False)\n",
      "        self.__name = \"Sketch\"\n",
      "\n",
      "    def getName(self):\n",
      "        \"\"\"\n",
      "        Returns name\n",
      "        \"\"\"\n",
      "        return self.__name    \n",
      "    \n",
      "    def add(self,item):\n",
      "        \"\"\"\n",
      "        Adds the item to the Hash Sketch\n",
      "        \"\"\"\n",
      "        binword = get_SHA1_bin(item)\n",
      "        index = get_index(binword)\n",
      "        self.__bitarray[index]= True\n",
      "        self.__maxIndex = max(self.__maxIndex,index)\n",
      "\n",
      "    def get_raw_estimate(self):\n",
      "        \"\"\"\n",
      "        Returns the raw estimate of sets cardinality\n",
      "        \"\"\"\n",
      "        return self.__maxIndex\n",
      "\n",
      "    def get_number_estimate(self):\n",
      "       \"\"\"\n",
      "       Returns Linear Count estimate of the sets cardinality\n",
      "       \"\"\"\n",
      "       zerobits = self.__bitarray.count(False)\n",
      "       fraction = float(zerobits)/len(self.__bitarray)\n",
      "       res = -len(self.__bitarray)*log(fraction)\n",
      "       return res"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 20
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "class SuperLogLogSketch"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "class SuperLogLogSketch(Interface):\n",
      "    \"\"\"\n",
      "    Implements the improved version of LogLog Sketches, SuperLogLog Sketches\n",
      "    \"\"\"\n",
      "    \n",
      "    def __init__(self, maxCardinality, error_rate):\n",
      "        \"\"\"\n",
      "        Implementes a SuperLogLog Sketch\n",
      "        *maxCardinality\n",
      "        this Sketch is able to count cardinalities up to cardinality *maxCardinality*\n",
      "       error_rate\n",
      "            the error_rate of the sketch when calculating the cardinality of the set\n",
      "        \"\"\" \n",
      "        if not (0 < error_rate < 1):\n",
      "            raise ValueError(\"Error_Rate must be between 0 and 1.\")\n",
      "        if not maxCardinality > 0:\n",
      "            raise ValueError(\"maxCardinality must be > 0\")\n",
      "\n",
      "        self._maxCardinality = maxCardinality\n",
      "        self._k = int(round(log(pow(1.05/error_rate,2),2)))\n",
      "        self._bucketNumber = 1<<self._k\n",
      "        self._bucketSize = int(ceil(log(log(float(self._maxCardinality)/self._bucketNumber+3,2),2)))\n",
      "        self._B = 1 << self._bucketSize\n",
      "        self.__name = \"SuperLogLogSketch\"\n",
      "        self._bucketList = [0 for _ in xrange(self._bucketNumber)]\n",
      "\n",
      "        \n",
      "    def getName(self):\n",
      "        \"\"\"\n",
      "        Returns name\n",
      "        \"\"\"\n",
      "        return self.__name\n",
      "        \n",
      "    def getNumberEstimate(self,beta = 0.7):\n",
      "        \"\"\"\n",
      "        Returns the estimate of the cardinality\n",
      "        Arguments:\n",
      "            beta= Used to get the truncated list. Keep only the *beta* smallest values and discard the rest\n",
      "        \"\"\"\n",
      "        newList = sorted(self._bucketList)\n",
      "        lastIndex = ceil(len(newList)*beta)\n",
      "        nbeta = lastIndex/len(newList)\n",
      "        newList = newList[:int(lastIndex)]\n",
      "        m = self._bucketNumber*nbeta\n",
      "        e = 0.39701 * m*2**((1.0/m)*sum(newList))\n",
      "        return e\n",
      "\n",
      "    def _restrition_rule(self,unrestricted_value):\n",
      "        return min(unrestricted_value,self._B)\n",
      "\n",
      "    \n",
      "    def add(self,item):\n",
      "        \"\"\"\n",
      "        Adds the item to the LogLog Sketch\n",
      "        \"\"\"\n",
      "        binword = get_SHA1_bin(item)\n",
      "        index = int(binword[:self._k],2)\n",
      "        self._bucketList[index] = self._restrition_rule(max(self._bucketList[index],getIndex(binword[self._k:],160-self._k)))\n"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 21
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "class LogLogSketch"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "class LogLogSketch(Interface):\n",
      "    \"\"\"\n",
      "    Implements a LogLog Sketch\n",
      "    \"\"\"\n",
      "    \n",
      "    def __init__(self, maxCardinality, error_rate):\n",
      "        \"\"\"\n",
      "        Implementes a LogLog Sketch\n",
      "        *maxCardinality\n",
      "        this Sketch is able to count cardinalities up to cardinality *maxCardinality*\n",
      "        error_rate\n",
      "        the error_rate of the sketch when calculating the cardinality of the set\n",
      "        \"\"\" \n",
      "        if not (0 < error_rate < 1):\n",
      "            raise ValueError(\"Error_Rate must be between 0 and 1.\")\n",
      "        if not maxCardinality > 0:\n",
      "            raise ValueError(\"maxCardinality must be > 0\")\n",
      "\n",
      "        self._maxCardinality = maxCardinality\n",
      "        self._k = int(round(log(pow(1.30/error_rate,2),2)))\n",
      "        self._bucketNumber = 1<<self._k\n",
      "        self._bucketSize = self._wordSizeCalculator(self._maxCardinality)\n",
      "        \n",
      "        self._bucketList =[bitarray(self._bucketSize) for _ in xrange(self._bucketNumber)]\n",
      "        for barray in self._bucketList:\n",
      "            barray.setall(False)\n",
      "\n",
      "        self.__name = \"LogLogSketch\"\n",
      "        \n",
      "    def getName(self):\n",
      "        \"\"\"\n",
      "        Returns name\n",
      "        \"\"\"\n",
      "        return self.__name\n",
      "        \n",
      "    def add(self,item):\n",
      "        \"\"\"\n",
      "        Adds the item to the LogLog Sketch\n",
      "        \"\"\"\n",
      "        binword = get_SHA1_bin(item)\n",
      "        pos = int(binword[:self._k],2)\n",
      "        aux = getIndex(binword[self._k:],160-self._k)\n",
      "        index = min(aux,(1<<self._bucketSize)-1)\n",
      "        newValue = max(int(self._bucketList[pos].to01(),2),index)\n",
      "        self._bucketList[pos] = bitarray(bin(newValue)[2:])\n",
      "                                      \n",
      "    def getNumberEstimate(self): \n",
      "        \"\"\"\n",
      "        Returns the estimate of the cardinality\n",
      "        \"\"\"\n",
      "        m = self._bucketNumber\n",
      "        e = 0.39701 * m*2**((1.0/m)*sum([int(x.to01(),2) for x in self._bucketList]))\n",
      "        return e\n",
      "        \n",
      "    def __sizeof__(self):\n",
      "        return self._bucketNumber* self._bucketSize\n",
      "    \n",
      "    def _wordSizeCalculator(self,Nmax):\n",
      "        \"\"\"\n",
      "        Estimates the size of the memory Units, using the maximum cardinality as an argument\n",
      "        \"\"\"\n",
      "        return int(ceil(log(log(Nmax,2),2)))\n",
      "       "
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 22
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "class HyperLogLogSketch"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "class HyperLogLogSketch(Interface):\n",
      "    \"\"\"\n",
      "    Implements a HyperLogLog Sketch\n",
      "    \"\"\"\n",
      "    \n",
      "    def __init__(self, maxCardinality, error_rate):\n",
      "        \"\"\"Implementes a HyperLogLog Sketch\n",
      "        *maxCardinality\n",
      "        this Sketch is able to count cardinalities up to cardinality *maxCardinality*\n",
      "        error_rate\n",
      "        the error_rate of the sketch when calculating the cardinality of the set\n",
      "        \"\"\"\n",
      "        self.__ALPHA16=0.673\n",
      "        self.__ALPHA32=0.697\n",
      "        self.__ALPHA64=0.709\n",
      "            \n",
      "        if not (0 < error_rate < 1):\n",
      "            raise ValueError(\"Error_Rate must be between 0 and 1.\")\n",
      "        if not maxCardinality > 0:\n",
      "            raise ValueError(\"maxCardinality must be > 0\")\n",
      "\n",
      "        self._maxCardinality = maxCardinality\n",
      "        self._k = int(round(log(pow(1.04/error_rate,2),2)))\n",
      "        self._bucketNumber = 1<<self._k\n",
      "        self._bucketSize = self._wordSizeCalculator(self._maxCardinality)\n",
      "        self._bucketList =[0 for _ in xrange(self._bucketNumber)]\n",
      "        \n",
      "        self.__name = \"HyperLogLogSketch\"\n",
      "        self._alpha = self.__getALPHA(self._bucketNumber)\n",
      "\n",
      "\n",
      "    def __getALPHA(self,m):\n",
      "        if m <=16:\n",
      "            return self.__ALPHA16\n",
      "        elif m<=32:      \n",
      "            return self.__ALPHA32\n",
      "        elif m<=64:      \n",
      "            return self.__ALPHA64\n",
      "        else:            \n",
      "            return 0.7213/(1+1.079/float(m))\n",
      "           \n",
      "    def getName(self):\n",
      "        return self.__name\n",
      "        \n",
      "    def add(self,item):\n",
      "        \"\"\"\n",
      "        Adds the item to the LogLog Sketch\n",
      "        \"\"\"\n",
      "        binword = get_SHA1_bin(item)\n",
      "        pos = int(binword[:self._k],2)\n",
      "        #Retrives the position of leftmost 1 \n",
      "        aux = get_index(binword[self._k:],160-self._k)\n",
      "        # Sets its own register value to maximum value seen so far\n",
      "        self._bucketList[pos] = max(aux,self._bucketList[pos])\n",
      "                                      \n",
      "    def getNumberEstimate(self): \n",
      "        \"\"\"\n",
      "        Returns the estimate of the cardinality\n",
      "        \"\"\"\n",
      "        m = self._bucketNumber\n",
      "        raw_e = self._alpha*pow(m,2)/sum([pow(2,-x) for x in self._bucketList])\n",
      "        if raw_e <= 5/2.0*m: \n",
      "            v = self._bucketList.count(0)\n",
      "            if v!=0:\n",
      "                return m*log(m/float(v),2)\n",
      "            else:\n",
      "                return raw_e\n",
      "        elif raw_e <= 1/30.0*2**160: \n",
      "            return raw_e\n",
      "        else:\n",
      "            return -2**160*log(1-raw_e/2.0**160,2)\n",
      "        \n",
      "    def join(self,*HyperLogLogList):\n",
      "        \"\"\"\n",
      "        Joins the HyperLogLog Sketches passed as argument, with this HyperLogLog Sketch\n",
      "        \"\"\"\n",
      "        if HyperLogLogList:\n",
      "            for sketch in HyperLogLogList:\n",
      "                if type(sketch)!=type(self):\n",
      "                    raise TypeError(\"all arguments must be HyperLogLog Sketches\")           \n",
      "\n",
      "            bucketLists = zip(self._bucketList,*[sketch._bucketList for sketch in HyperLogLogList])\n",
      "            self._bucketList = map(max,bucketLists)\n",
      "        else:\n",
      "            raise TypeError(\"join expected at least 1 argument, got 0\")\n",
      "\n",
      "    def exclusion(self, something):\n",
      "        pass\n",
      "    \n",
      "    def __sizeof__(self):\n",
      "        return self._bucketNumber* self._bucketSize\n",
      "    \n",
      "    def _wordSizeCalculator(self,Nmax):\n",
      "        \"\"\"\n",
      "        Estimates the size of the memory Units, using the maximum cardinality as an argument\n",
      "        \"\"\"\n",
      "        return int(ceil(log(log(Nmax,2),2)))"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 23
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "Testing a bunch of HyperLogLog Sketches "
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "def bs(number):\n",
      "    \"\"\"\n",
      "    Returns the binary representation of the number given as argument\n",
      "    \"\"\"\n",
      "    return str(number) if number<=1 else bs(number>>1) + str(number&1)\n",
      "\n",
      "\n",
      "\n",
      "######################################\n",
      "#\n",
      "# make a bunch of hyperloglog sketches\n",
      "#\n",
      "######################################\n",
      "a = HyperLogLogSketch(2000000,0.05)\n",
      "b = HyperLogLogSketch(2000000,0.05)\n",
      "c = HyperLogLogSketch(2000000,0.05)\n",
      "    \n",
      "for i in xrange(100000):\n",
      "    a.add(str(i))\n",
      "for i in xrange(1500):\n",
      "    b.add(str(i))\n",
      "for i in xrange(100000,200000):\n",
      "    c.add(str(i))\n",
      "    \n",
      "#print sys.getsizeof(a)\n",
      "print \"1-100,000 random items put in set - Estimated count: \", a.getNumberEstimate()\n",
      "print \"1500 random items put in set - Estimated count: \", b.getNumberEstimate()\n",
      "print \"100,000-200,000 random items put in set - Estimated count: \", c.getNumberEstimate()\n",
      "print \"Making a joined set with items numbered 1-100k and 100k-200k\", c.join(a,a)\n",
      "print \"Here is the joined count: \", c.getNumberEstimate()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "stream",
       "stream": "stdout",
       "text": [
        "1-100,000 random items put in set - Estimated count:  99402.5499907\n",
        "1500 random items put in set - Estimated count:  1530.86693324\n",
        "100,000-200,000 random items put in set - Estimated count:  109661.677392\n",
        "Making a joined set with items numbered 1-100k and 100k-200k None\n",
        "Here is the joined count:  208895.418605\n"
       ]
      }
     ],
     "prompt_number": 24
    },
    {
     "cell_type": "heading",
     "level": 3,
     "metadata": {},
     "source": [
      "Thousands of hashes stored into HyperLogLog Sketch"
     ]
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "\"\"\"\n",
      "Demo to hash a bunch of blocks upto 1,000,000 blocks of 32 bytes blocks into Hyperloglog \n",
      "\"\"\"\n",
      "\n",
      "hash_store = HyperLogLogSketch(2000000,0.05)\n",
      "\n",
      "fd = open(\"/Users/antigen/Downloads/Python_for_Data_Analysis.pdf\", \"rb\")\n",
      "i=0\n",
      "\n",
      "for element in xrange(0,1000000):\n",
      "    buffer, hash_result = hashing_byte_reader(fd, 16)\n",
      "    hash_store.add(hash_result)"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 25
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "hash_store.getNumberEstimate()"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [
      {
       "output_type": "pyout",
       "prompt_number": 26,
       "text": [
        "826962.62820048362"
       ]
      }
     ],
     "prompt_number": 26
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [
      "#TODO: Need to figure out the intersection of two hash_stores"
     ],
     "language": "python",
     "metadata": {},
     "outputs": [],
     "prompt_number": 50
    },
    {
     "cell_type": "code",
     "collapsed": false,
     "input": [],
     "language": "python",
     "metadata": {},
     "outputs": []
    }
   ],
   "metadata": {}
  }
 ]
}