{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "%load_ext autoreload\n", "%autoreload 2" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import sys\n", "sys.path.append(\"..\")" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "C:\\Users\\argenisleon\\Anaconda3\\lib\\site-packages\\dask\\config.py:161: YAMLLoadWarning: calling yaml.load() without Loader=... is deprecated, as the default Loader is unsafe. Please read https://msg.pyyaml.org/load for full details.\n", " data = yaml.load(f.read()) or {}\n", "C:\\Users\\argenisleon\\Anaconda3\\lib\\site-packages\\statsmodels\\compat\\pandas.py:49: FutureWarning: The Panel class is removed from pandas. Accessing it from the top-level namespace will also be removed in the next version\n", " data_klasses = (pandas.Series, pandas.DataFrame, pandas.Panel)\n" ] } ], "source": [ "from optimus import Optimus" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "\n", " You are using PySparkling of version 2.4.10, but your PySpark is of\n", " version 2.3.1. Please make sure Spark and PySparkling versions are compatible. \n" ] }, { "data": { "text/html": [ "Open Bumblebee: https://app.hi-bumblebee.com
If you really care about privacy get your keys in bumblebee.ini and put them here
" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "op= Optimus(comm=True)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "from pyspark.sql.types import *\n", "from datetime import date, datetime\n", "\n", "cols = [\n", " (\"names\", \"str\"),\n", " (\"height(ft)\", ShortType()),\n", " (\"function\", \"str\"),\n", " (\"rank\", ByteType()),\n", " (\"age\", \"int\"),\n", " (\"weight(t)\", \"float\"),\n", " \"japanese name\",\n", " \"last position seen\",\n", " \"date arrival\",\n", " \"last date seen\",\n", " (\"attributes\", ArrayType(FloatType())),\n", " (\"DateType\", DateType()),\n", " (\"timestamp\", TimestampType()),\n", " (\"Cybertronian\", BooleanType()),\n", " (\"function(binary)\", BinaryType()),\n", " (\"NullType\", NullType())\n", "\n", " ]\n", "\n", "rows = [\n", " (\"argenisleon@gmail.com\", 28, \"Leader\", 10, 5000000, 4.30, [\"Inochi\", \"Convoy\"], \"19.442735,-99.201111\", \"1980/04/10\",\n", " \"2016/09/10\", [8.5344, 4300.0], date(2016, 9, 10), datetime(2014, 6, 24), True, bytearray(\"Leader\", \"utf-8\"),\n", " None),\n", " (\"bumbl#ebéé \", 17, \"Espionage\", 7, 5000000, 2.0, [\"Bumble\", \"Goldback\"], \"10.642707,-71.612534\", \"1980/04/10\",\n", " \"2015/08/10\", [5.334, 2000.0], date(2015, 8, 10), datetime(2014, 6, 24), True, bytearray(\"Espionage\", \"utf-8\"),\n", " None),\n", " (\"ironhide&\", 26, \"Security\", 7, 5000000, 4.0, [\"Roadbuster\"], \"37.789563,-122.400356\", \"1980/04/10\",\n", " \"2014/07/10\", [7.9248, 4000.0], date(2014, 6, 24), datetime(2014, 6, 24), True, bytearray(\"Security\", \"utf-8\"),\n", " None),\n", " (\"1 Megatron\", 13, \"First Lieutenant\", 8, 5000000, 1.80, [\"Meister\"], \"33.670666,-117.841553\", \"1980/04/10\",\n", " \"2013/06/10\", [3.9624, 1800.0], date(2013, 6, 24), datetime(2014, 6, 24), True,\n", " bytearray(\"First Lieutenant\", \"utf-8\"), None),\n", " (\"1 Megatron\", None, \"None\", 10, 5000000, 5.70, [\"Megatron\"], None, \"1980/04/10\", \"2012/05/10\", [None, 5700.0],\n", " date(2012, 5, 10), datetime(2014, 6, 24), True, bytearray(\"None\", \"utf-8\"), None),\n", " (None, 300, \"Battle Station\", 8, 5000000, None, [\"Metroflex\"], None, \"1980/04/10\", \"2011/04/10\",\n", " [91.44, None], date(2011, 4, 10), datetime(2014, 6, 24), True, bytearray(\"Battle Station\", \"utf-8\"), None),\n", "\n", " ]\n", "df = op.create.df(cols ,rows, False).cache().repartition(1)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " argenisleon@gmail.com\n", " \n", "
\n", "
\n", "
\n", " \n", " 28.0\n", " \n", "
\n", "
\n", "
\n", " \n", " Leader\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " [Inochi,⋅Convoy]\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17.0\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " [Bumble,⋅Goldback]\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26.0\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " [Roadbuster]\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 13.0\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " [Meister]\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " nan\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " [Megatron]\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 300.0\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " nan\n", " \n", "
\n", "
\n", "
\n", " \n", " [Metroflex]\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s) <class 'pyspark.sql.dataframe.DataFrame'>
\n", "\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.ext.display(20)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "df = op.load.csv(\"https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/data/crime.csv\", sep=\",\", header='true', infer_schema='true', charset=\"UTF-8\", null_value=\"None\")" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 10 of 319073 rows / 17 columns
\n", "
8 partition(s)
\n", "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
INCIDENT_NUMBER
\n", "
1 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
OFFENSE_CODE
\n", "
2 (int)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
OFFENSE_CODE_GROUP
\n", "
3 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
OFFENSE_DESCRIPTION
\n", "
4 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
DISTRICT
\n", "
5 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
REPORTING_AREA
\n", "
6 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
SHOOTING
\n", "
7 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
OCCURRED_ON_DATE
\n", "
8 (timestamp)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
YEAR
\n", "
9 (int)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
MONTH
\n", "
10 (int)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
DAY_OF_WEEK
\n", "
11 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
HOUR
\n", "
12 (int)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
UCR_PART
\n", "
13 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
STREET
\n", "
14 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
Lat
\n", "
15 (double)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
Long
\n", "
16 (double)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
Location
\n", "
17 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070945\n", " \n", "
\n", "
\n", "
\n", " \n", " 619\n", " \n", "
\n", "
\n", "
\n", " \n", " Larceny\n", " \n", "
\n", "
\n", "
\n", " \n", " LARCENY⋅ALL⋅OTHERS\n", " \n", "
\n", "
\n", "
\n", " \n", " D14\n", " \n", "
\n", "
\n", "
\n", " \n", " 808\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-02⋅13:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Sunday\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅One\n", " \n", "
\n", "
\n", "
\n", " \n", " LINCOLN⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.35779134\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.13937053\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.35779134,⋅-71.13937053)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070943\n", " \n", "
\n", "
\n", "
\n", " \n", " 1402\n", " \n", "
\n", "
\n", "
\n", " \n", " Vandalism\n", " \n", "
\n", "
\n", "
\n", " \n", " VANDALISM\n", " \n", "
\n", "
\n", "
\n", " \n", " C11\n", " \n", "
\n", "
\n", "
\n", " \n", " 347\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-08-21⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " Tuesday\n", " \n", "
\n", "
\n", "
\n", " \n", " 0\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Two\n", " \n", "
\n", "
\n", "
\n", " \n", " HECLA⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.30682138\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.06030035\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.30682138,⋅-71.06030035)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070941\n", " \n", "
\n", "
\n", "
\n", " \n", " 3410\n", " \n", "
\n", "
\n", "
\n", " \n", " Towed\n", " \n", "
\n", "
\n", "
\n", " \n", " TOWED⋅MOTOR⋅VEHICLE\n", " \n", "
\n", "
\n", "
\n", " \n", " D4\n", " \n", "
\n", "
\n", "
\n", " \n", " 151\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅19:27:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 19\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " CAZENOVE⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.34658879\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.07242943\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.34658879,⋅-71.07242943)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070940\n", " \n", "
\n", "
\n", "
\n", " \n", " 3114\n", " \n", "
\n", "
\n", "
\n", " \n", " Investigate⋅Property\n", " \n", "
\n", "
\n", "
\n", " \n", " INVESTIGATE⋅PROPERTY\n", " \n", "
\n", "
\n", "
\n", " \n", " D4\n", " \n", "
\n", "
\n", "
\n", " \n", " 272\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅21:16:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 21\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " NEWCOMB⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.33418175\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.07866441\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.33418175,⋅-71.07866441)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070938\n", " \n", "
\n", "
\n", "
\n", " \n", " 3114\n", " \n", "
\n", "
\n", "
\n", " \n", " Investigate⋅Property\n", " \n", "
\n", "
\n", "
\n", " \n", " INVESTIGATE⋅PROPERTY\n", " \n", "
\n", "
\n", "
\n", " \n", " B3\n", " \n", "
\n", "
\n", "
\n", " \n", " 421\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅21:05:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 21\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " DELHI⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.27536542\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.09036101\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.27536542,⋅-71.09036101)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070936\n", " \n", "
\n", "
\n", "
\n", " \n", " 3820\n", " \n", "
\n", "
\n", "
\n", " \n", " Motor⋅Vehicle⋅Accident⋅Response\n", " \n", "
\n", "
\n", "
\n", " \n", " M/V⋅ACCIDENT⋅INVOLVING⋅PEDESTRIAN⋅-⋅INJURY\n", " \n", "
\n", "
\n", "
\n", " \n", " C11\n", " \n", "
\n", "
\n", "
\n", " \n", " 398\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅21:09:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 21\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " TALBOT⋅AVE\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.29019621\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.07159012\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.29019621,⋅-71.07159012)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070933\n", " \n", "
\n", "
\n", "
\n", " \n", " 724\n", " \n", "
\n", "
\n", "
\n", " \n", " Auto⋅Theft\n", " \n", "
\n", "
\n", "
\n", " \n", " AUTO⋅THEFT\n", " \n", "
\n", "
\n", "
\n", " \n", " B2\n", " \n", "
\n", "
\n", "
\n", " \n", " 330\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅21:25:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 21\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅One\n", " \n", "
\n", "
\n", "
\n", " \n", " NORMANDY⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.30607218\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.0827326\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.30607218,⋅-71.08273260)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070932\n", " \n", "
\n", "
\n", "
\n", " \n", " 3301\n", " \n", "
\n", "
\n", "
\n", " \n", " Verbal⋅Disputes\n", " \n", "
\n", "
\n", "
\n", " \n", " VERBAL⋅DISPUTE\n", " \n", "
\n", "
\n", "
\n", " \n", " B2\n", " \n", "
\n", "
\n", "
\n", " \n", " 584\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅20:39:37\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 20\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " LAWN⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.32701648\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.10555088\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.32701648,⋅-71.10555088)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070931\n", " \n", "
\n", "
\n", "
\n", " \n", " 301\n", " \n", "
\n", "
\n", "
\n", " \n", " Robbery\n", " \n", "
\n", "
\n", "
\n", " \n", " ROBBERY⋅-⋅STREET\n", " \n", "
\n", "
\n", "
\n", " \n", " C6\n", " \n", "
\n", "
\n", "
\n", " \n", " 177\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅20:48:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 20\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅One\n", " \n", "
\n", "
\n", "
\n", " \n", " MASSACHUSETTS⋅AVE\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.33152148\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.07085307\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.33152148,⋅-71.07085307)\n", " \n", "
\n", "
\n", "
\n", " \n", " I182070929\n", " \n", "
\n", "
\n", "
\n", " \n", " 3301\n", " \n", "
\n", "
\n", "
\n", " \n", " Verbal⋅Disputes\n", " \n", "
\n", "
\n", "
\n", " \n", " VERBAL⋅DISPUTE\n", " \n", "
\n", "
\n", "
\n", " \n", " C11\n", " \n", "
\n", "
\n", "
\n", " \n", " 364\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018-09-03⋅20:38:00\n", " \n", "
\n", "
\n", "
\n", " \n", " 2018\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Monday\n", " \n", "
\n", "
\n", "
\n", " \n", " 20\n", " \n", "
\n", "
\n", "
\n", " \n", " Part⋅Three\n", " \n", "
\n", "
\n", "
\n", " \n", " LESLIE⋅ST\n", " \n", "
\n", "
\n", "
\n", " \n", " 42.29514664\n", " \n", "
\n", "
\n", "
\n", " \n", " -71.05860832\n", " \n", "
\n", "
\n", "
\n", " \n", " (42.29514664,⋅-71.05860832)\n", " \n", "
\n", "
\n", "\n", "
Viewing 10 of 319073 rows / 17 columns
\n", "
8 partition(s) <class 'pyspark.sql.dataframe.DataFrame'>
\n", "\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.ext.display()" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'SHOOTING': {'null': 318054, 'missing': 0, 'string': 1019},\n", " 'MONTH': {'null': 0, 'missing': 0, 'int': 319073},\n", " 'HOUR': {'null': 0, 'missing': 0, 'int': 319073},\n", " 'Lat': {'null': 19999, 'missing': 0, 'decimal': 299074},\n", " 'STREET': {'null': 10871, 'missing': 0, 'string': 308202},\n", " 'DISTRICT': {'null': 1765, 'missing': 0, 'string': 317308},\n", " 'OFFENSE_CODE_GROUP': {'null': 0, 'missing': 0, 'string': 319073},\n", " 'REPORTING_AREA': {'null': 0, 'missing': 0, 'string': 319073},\n", " 'OCCURRED_ON_DATE': {'null': 0, 'missing': 0, 'date': 319073},\n", " 'UCR_PART': {'null': 90, 'missing': 0, 'string': 318983},\n", " 'INCIDENT_NUMBER': {'null': 0, 'missing': 0, 'string': 319073},\n", " 'DAY_OF_WEEK': {'null': 0, 'missing': 0, 'string': 319073},\n", " 'OFFENSE_DESCRIPTION': {'null': 0, 'missing': 0, 'string': 319073},\n", " 'YEAR': {'null': 0, 'missing': 0, 'int': 319073},\n", " 'Long': {'null': 19999, 'missing': 0, 'decimal': 299074},\n", " 'OFFENSE_CODE': {'null': 0, 'missing': 0, 'int': 319073},\n", " 'Location': {'null': 0, 'missing': 0, 'string': 319073}}" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cols.count_by_dtypes(\"*\", infer=False)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "TimestampType\n" ] } ], "source": [ "from optimus.helpers.check import is_column_a\n", "is_column_a(df,\"OCCURRED_ON_DATE\",\"timestamp\")\n", "print(df.cols.schema_dtype(\"OCCURRED_ON_DATE\"))" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[('INCIDENT_NUMBER', 'string'),\n", " ('OFFENSE_CODE', 'int'),\n", " ('OFFENSE_CODE_GROUP', 'string'),\n", " ('OFFENSE_DESCRIPTION', 'string'),\n", " ('DISTRICT', 'string'),\n", " ('REPORTING_AREA', 'string'),\n", " ('SHOOTING', 'string'),\n", " ('OCCURRED_ON_DATE', 'timestamp'),\n", " ('YEAR', 'int'),\n", " ('MONTH', 'int'),\n", " ('DAY_OF_WEEK', 'string'),\n", " ('HOUR', 'int'),\n", " ('UCR_PART', 'string'),\n", " ('STREET', 'string'),\n", " ('Lat', 'double'),\n", " ('Long', 'double'),\n", " ('Location', 'string')]" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.dtypes" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "ename": "ValueError", "evalue": "'columns' must be 'str' or 'list', received 'None'. Maybe the columns selected do not match a specified datatype filter.", "output_type": "error", "traceback": [ "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[1;31mValueError\u001b[0m Traceback (most recent call last)", "\u001b[1;32m\u001b[0m in \u001b[0;36m\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0mdf\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mcols\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mstd\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;34m\"OCCURRED_ON_DATE\"\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[1;32m~\\Documents\\Optimus\\optimus\\engines\\spark\\columns.py\u001b[0m in \u001b[0;36mstd\u001b[1;34m(columns)\u001b[0m\n\u001b[0;32m 745\u001b[0m \"\"\"\n\u001b[0;32m 746\u001b[0m \u001b[0mcolumns\u001b[0m \u001b[1;33m=\u001b[0m \u001b[0mparse_columns\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mself\u001b[0m\u001b[1;33m,\u001b[0m \u001b[0mcolumns\u001b[0m\u001b[1;33m,\u001b[0m \u001b[0mfilter_by_column_dtypes\u001b[0m\u001b[1;33m=\u001b[0m\u001b[0mself\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mconstants\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mNUMERIC_TYPES\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[1;32m--> 747\u001b[1;33m \u001b[0mcheck_column_numbers\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mcolumns\u001b[0m\u001b[1;33m,\u001b[0m \u001b[1;34m\"*\"\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m\u001b[0;32m 748\u001b[0m \u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m 749\u001b[0m \u001b[1;32mreturn\u001b[0m \u001b[0mformat_dict\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mCols\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0magg_exprs\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mcolumns\u001b[0m\u001b[1;33m,\u001b[0m \u001b[0mF\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mstddev\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n", "\u001b[1;32m~\\Documents\\Optimus\\optimus\\helpers\\columns.py\u001b[0m in \u001b[0;36mcheck_column_numbers\u001b[1;34m(columns, number)\u001b[0m\n\u001b[0;32m 216\u001b[0m \u001b[1;32mif\u001b[0m \u001b[0mcolumns\u001b[0m \u001b[1;32mis\u001b[0m \u001b[1;32mNone\u001b[0m\u001b[1;33m:\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m 217\u001b[0m RaiseIt.value_error(columns, [\"str\", \"list\"],\n\u001b[1;32m--> 218\u001b[1;33m extra_text=\"Maybe the columns selected do not match a specified datatype filter.\")\n\u001b[0m\u001b[0;32m 219\u001b[0m \u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m 220\u001b[0m \u001b[0mcount\u001b[0m \u001b[1;33m=\u001b[0m \u001b[0mlen\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mcolumns\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n", "\u001b[1;32m~\\Documents\\Optimus\\optimus\\helpers\\raiseit.py\u001b[0m in \u001b[0;36mvalue_error\u001b[1;34m(var, data_values, extra_text)\u001b[0m\n\u001b[0;32m 74\u001b[0m type=divisor.join(map(\n\u001b[0;32m 75\u001b[0m \u001b[1;32mlambda\u001b[0m \u001b[0mx\u001b[0m\u001b[1;33m:\u001b[0m \u001b[1;34m\"'\"\u001b[0m \u001b[1;33m+\u001b[0m \u001b[0mx\u001b[0m \u001b[1;33m+\u001b[0m \u001b[1;34m\"'\"\u001b[0m\u001b[1;33m,\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[1;32m---> 76\u001b[1;33m data_values)), var_type=one_list_to_val(var), extra_text=extra_text))\n\u001b[0m\u001b[0;32m 77\u001b[0m \u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m 78\u001b[0m \u001b[1;33m@\u001b[0m\u001b[0mstaticmethod\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n", "\u001b[1;31mValueError\u001b[0m: 'columns' must be 'str' or 'list', received 'None'. Maybe the columns selected do not match a specified datatype filter." ] } ], "source": [ "df.cols.std(\"OCCURRED_ON_DATE\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df.ext.send(\"OCCURRED_ON_DATE\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df.cols.hist(\"*\")" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "VVV StringType\n", "DATA (, , , , , )\n", "VVV StringType\n", "DATA (,)\n", "EXEC AGG 1\n" ] }, { "data": { "text/plain": [ "{'INCIDENT_NUMBER': {'hist': [{'count': 0.0, 'lower': 0.0, 'upper': 2.5},\n", " {'count': 0.0, 'lower': 2.5, 'upper': 5.0},\n", " {'count': 0.0, 'lower': 5.0, 'upper': 7.5},\n", " {'count': 1.0, 'lower': 7.5, 'upper': 10.0},\n", " {'count': 318719.0, 'lower': 10.0, 'upper': 12.5},\n", " {'count': 353.0, 'lower': 12.5, 'upper': 15.0},\n", " {'count': 0.0, 'lower': 15.0, 'upper': 17.5},\n", " {'count': 0.0, 'lower': 17.5, 'upper': 20.0},\n", " {'count': 0.0, 'lower': 20.0, 'upper': 22.5},\n", " {'count': 0.0, 'lower': 22.5, 'upper': 25.0},\n", " {'count': 0.0, 'lower': 25.0, 'upper': 27.5},\n", " {'count': 0.0, 'lower': 27.5, 'upper': 30.0},\n", " {'count': 0.0, 'lower': 30.0, 'upper': 32.5},\n", " {'count': 0.0, 'lower': 32.5, 'upper': 35.0},\n", " {'count': 0.0, 'lower': 35.0, 'upper': 37.5},\n", " {'count': 0.0, 'lower': 37.5, 'upper': 40.0},\n", " {'count': 0.0, 'lower': 40.0, 'upper': 42.5},\n", " {'count': 0.0, 'lower': 42.5, 'upper': 45.0},\n", " {'count': 0.0, 'lower': 45.0, 'upper': 47.5},\n", " {'count': 0.0, 'lower': 47.5, 'upper': 50.0}]}}" ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cols.hist(\"INCIDENT_NUMBER\")" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ShortType (, , , , , )\n", "0.5 44.5\n", "ShortType (, , , , , )\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 1 of 1 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " [Metroflex]\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 1 of 1 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.outliers.tukey(\"height(ft)\").select().ext.display()" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'{\"price\": {\"hist\": [{\"count\": 6.0, \"lower\": 8.0, \"upper\": 8.1}, {\"count\": 0.0, \"lower\": 8.1, \"upper\": 8.2}, {\"count\": 0.0, \"lower\": 8.2, \"upper\": 8.3}, {\"count\": 0.0, \"lower\": 8.3, \"upper\": 8.4}, {\"count\": 0.0, \"lower\": 8.4, \"upper\": 8.5}, {\"count\": 0.0, \"lower\": 8.5, \"upper\": 8.6}, {\"count\": 0.0, \"lower\": 8.6, \"upper\": 8.7}, {\"count\": 0.0, \"lower\": 8.7, \"upper\": 8.8}, {\"count\": 0.0, \"lower\": 8.8, \"upper\": 8.9}, {\"count\": 0.0, \"lower\": 8.9, \"upper\": 9.0}, {\"count\": 2.0, \"lower\": 9.0, \"upper\": 9.1}, {\"count\": 0.0, \"lower\": 9.1, \"upper\": 9.2}, {\"count\": 0.0, \"lower\": 9.2, \"upper\": 9.3}, {\"count\": 0.0, \"lower\": 9.3, \"upper\": 9.4}, {\"count\": 0.0, \"lower\": 9.4, \"upper\": 9.5}, {\"count\": 0.0, \"lower\": 9.5, \"upper\": 9.6}, {\"count\": 0.0, \"lower\": 9.6, \"upper\": 9.7}, {\"count\": 0.0, \"lower\": 9.7, \"upper\": 9.8}, {\"count\": 0.0, \"lower\": 9.8, \"upper\": 9.9}, {\"count\": 0.0, \"lower\": 9.9, \"upper\": 10.0}]}}'" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "outlier.hist(\"price\")" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'id': {'null': 0, 'missing': 0, 'int': 19}}" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cols.count_by_dtypes(\"id\")" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "19" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.count()" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "6\n" ] }, { "data": { "text/plain": [ "{'count_outliers': 9,\n", " 'count_non_outliers': 10,\n", " 'lower_bound': 6,\n", " 'lower_bound_count': 9,\n", " 'upper_bound': 10,\n", " 'upper_bound_count': 0}" ] }, "execution_count": 24, "metadata": {}, "output_type": "execute_result" } ], "source": [ "outlier.info()" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "# df.table()" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'names': {'email': 1, 'mismatch': 4, 'null': 1, 'missing': 0}}" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cols.count_mismatch({\"names\":\"argenisleon@gmail.com\",\"names\":\"email\"})" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "a = {'names': {'email': 1, 'mismatch': 4, 'null': 1}}" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "('string', 'array')" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "tuple({\"firstName\":\"string\",\"lastName\":\"array\"}.values())" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "from infer import Infer" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('names', 'null'), 1)" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from infer import Infer\n", "Infer.mismatch((\"names\",None),{\"names\":\"email\"})" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "Infer.value(12, \"string\")" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['firstName', 'lastName']" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "list({\"firstName\":\"string\",\"lastName\":\"string\"}.keys())" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "ename": "NameError", "evalue": "name 'df' is not defined", "output_type": "error", "traceback": [ "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[1;31mNameError\u001b[0m Traceback (most recent call last)", "\u001b[1;32m\u001b[0m in \u001b[0;36m\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0mdf\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mrows\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mselect_by_dtypes\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;34m\"names\"\u001b[0m\u001b[1;33m,\u001b[0m\u001b[1;34m\"str\"\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[1;31mNameError\u001b[0m: name 'df' is not defined" ] } ], "source": [ "df.rows.select_by_dtypes(\"names\",\"str\")" ] }, { "cell_type": "code", "execution_count": 117, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 3 of 3 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 3 of 3 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Histograma\n", "df.rows.between(\"height(ft)\",17,26, invert = False , equal =True, ).table()" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " 28\n", " \n", "
\n", "
\n", "
\n", " \n", " redaeL\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Inochi',⋅'Convoy']\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " eganoipsE\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " ytiruceS\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " tnanetueiL⋅tsriF\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " enoN\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron⋅1\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " noitatS⋅elttaB\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Metroflex']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.cols.reverse(\"function\").table()" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "outlier = df.outliers.tukey(\"mass (g)\")" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'{\"columns\": [{\"title\": \"mass (g)\"}], \"value\": [[21.0], [160.0], [252.0], [256.8], [320.0], [41.0], [94.2], [265.0], [146.0], [134.0], [345.0], [14.0], [23.2], [17.0], [375.0], [270.0], [13.9], [18.0], [100.0], [488.1], [470.0], [67.8], [56.0], [190.0], [219.0], [324.0], [357.0], [212.0], [478.0], [342.0], [8.0], [94.0], [45.6], [0.5], [72.0], [367.0], [303.0], [48.6], [469.0], [78.4], [167.0], [100.0], [340.0], [28.0], [0.8], [230.0], [400.0], [438.0], [230.0], [30.0], [300.0], [188.0], [127.0], [277.0], [113.0], [107.2], [380.0], [82.0], [220.0], [240.0], [132.7], [36.1], [28.0], [380.0], [102.0], [480.0], [45.5], [215.0], [288.0], [28.0], [0.2], [315.0], [414.0], [167.7], [305.5], [180.0], [266.1], [112.0], [22.0], [450.0], [222.0], [100.0], [30.0], [483.0], [89.0], [230.0], [350.0], [448.0], [299.0], [400.0], [180.0], [450.0], [100.0], [331.0], [195.0], [140.0], [67.4], [97.7], [202.6], [136.0]]}'" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# print(outlier.info())\n", "outlier.select_lower_bound()" ] }, { "cell_type": "code", "execution_count": 256, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 10 of 19 rows / 9 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product***FINGERPRINT
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Luis\n", " \n", "
\n", "
\n", "
\n", " \n", " Alvarez$$%!\n", " \n", "
\n", "
\n", "
\n", " \n", " 123\n", " \n", "
\n", "
\n", "
\n", " \n", " Cake\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/07/07\n", " \n", "
\n", "
\n", "
\n", " \n", " never\n", " \n", "
\n", "
\n", "
\n", " \n", " cake\n", " \n", "
\n", "
\n", "
\n", " \n", " 2\n", " \n", "
\n", "
\n", "
\n", " \n", " André\n", " \n", "
\n", "
\n", "
\n", " \n", " Ampère\n", " \n", "
\n", "
\n", "
\n", " \n", " 423\n", " \n", "
\n", "
\n", "
\n", " \n", " piza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1950/07/08\n", " \n", "
\n", "
\n", "
\n", " \n", " gonna\n", " \n", "
\n", "
\n", "
\n", " \n", " piza\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " NiELS\n", " \n", "
\n", "
\n", "
\n", " \n", " Böhr//((%%\n", " \n", "
\n", "
\n", "
\n", " \n", " 551\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1990/07/09\n", " \n", "
\n", "
\n", "
\n", " \n", " give\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 4\n", " \n", "
\n", "
\n", "
\n", " \n", " PAUL\n", " \n", "
\n", "
\n", "
\n", " \n", " dirac$\n", " \n", "
\n", "
\n", "
\n", " \n", " 521\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1954/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " you\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 5\n", " \n", "
\n", "
\n", "
\n", " \n", " Albert\n", " \n", "
\n", "
\n", "
\n", " \n", " Einstein\n", " \n", "
\n", "
\n", "
\n", " \n", " 634\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1990/07/11\n", " \n", "
\n", "
\n", "
\n", " \n", " up\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 6\n", " \n", "
\n", "
\n", "
\n", " \n", " Galileo\n", " \n", "
\n", "
\n", "
\n", " \n", " ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅GALiLEI\n", " \n", "
\n", "
\n", "
\n", " \n", " 672\n", " \n", "
\n", "
\n", "
\n", " \n", " arepa\n", " \n", "
\n", "
\n", "
\n", " \n", " 5\n", " \n", "
\n", "
\n", "
\n", " \n", " 1930/08/12\n", " \n", "
\n", "
\n", "
\n", " \n", " never\n", " \n", "
\n", "
\n", "
\n", " \n", " arepa\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " CaRL\n", " \n", "
\n", "
\n", "
\n", " \n", " Ga%%%uss\n", " \n", "
\n", "
\n", "
\n", " \n", " 323\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1970/07/13\n", " \n", "
\n", "
\n", "
\n", " \n", " gonna\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " David\n", " \n", "
\n", "
\n", "
\n", " \n", " H$$$ilbert\n", " \n", "
\n", "
\n", "
\n", " \n", " 624\n", " \n", "
\n", "
\n", "
\n", " \n", " taaaccoo\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1950/07/14\n", " \n", "
\n", "
\n", "
\n", " \n", " let\n", " \n", "
\n", "
\n", "
\n", " \n", " taaaccoo\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Johannes\n", " \n", "
\n", "
\n", "
\n", " \n", " KEPLER\n", " \n", "
\n", "
\n", "
\n", " \n", " 735\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1920/04/22\n", " \n", "
\n", "
\n", "
\n", " \n", " you\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " JaMES\n", " \n", "
\n", "
\n", "
\n", " \n", " M$$ax%%well\n", " \n", "
\n", "
\n", "
\n", " \n", " 875\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1923/03/12\n", " \n", "
\n", "
\n", "
\n", " \n", " down\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 10 of 19 rows / 9 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "keyCol.fingerprint(df,\"product\").table()" ] }, { "cell_type": "code", "execution_count": 245, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 17 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
names***FINGERPRINT
\n", "
17 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " 28\n", " \n", "
\n", "
\n", "
\n", " \n", " Leader\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Inochi',⋅'Convoy']\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " optimusoptimusprime\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumblebee\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 1⋅Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron⋅1\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Metroflex']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1megatron\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 17 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "keyCol.fingerprint(df,\"names\").table()" ] }, { "cell_type": "code", "execution_count": 259, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/plain": [ "'{\"taaaccoo\": {\"similar\": {\"taaaccoo\": 1}, \"count\": 1, \"sum\": 1}, \"piza\": {\"similar\": {\"piza\": 1}, \"count\": 1, \"sum\": 1}, \"hamburguer\": {\"similar\": {\"hamburguer\": 1}, \"count\": 1, \"sum\": 1}, \"taco\": {\"similar\": {\"taco\": 3}, \"count\": 1, \"sum\": 3}, \"pizzza\": {\"similar\": {\"pizzza\": 1}, \"count\": 1, \"sum\": 1}, \"arepa\": {\"similar\": {\"arepa\": 1}, \"count\": 1, \"sum\": 1}, \"pizza\": {\"similar\": {\"pizza\": 4}, \"count\": 1, \"sum\": 4}, \"Rice\": {\"similar\": {\"Rice\": 1}, \"count\": 1, \"sum\": 1}, \"110790\": {\"similar\": {\"110790\": 1}, \"count\": 1, \"sum\": 1}, \"BEER\": {\"similar\": {\"BEER\": 1}, \"count\": 1, \"sum\": 1}, \"Cake\": {\"similar\": {\"Cake\": 1}, \"count\": 1, \"sum\": 1}, \"null\": {\"similar\": {\"null\": 1}, \"count\": 1, \"sum\": 1}, \"pasta\": {\"similar\": {\"pasta\": 2}, \"count\": 1, \"sum\": 2}}'" ] }, "execution_count": 259, "metadata": {}, "output_type": "execute_result" } ], "source": [ "keyCol.fingerprint_cluster(df,\"product\", output=\"json\")" ] }, { "cell_type": "code", "execution_count": 261, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'{\"arepa\": {\"similar\": {\"arepa\": 1}, \"count\": 1, \"sum\": 1}, \"taaaccoo\": {\"similar\": {\"taaaccoo\": 1}, \"count\": 1, \"sum\": 1}, \"pasta\": {\"similar\": {\"pasta\": 2}, \"count\": 1, \"sum\": 2}, \"pizza\": {\"similar\": {\"pizzza\": 1, \"pizza\": 4}, \"count\": 2, \"sum\": 5}, \"110790\": {\"similar\": {\"110790\": 1}, \"count\": 1, \"sum\": 1}, \"hamburguer\": {\"similar\": {\"hamburguer\": 1}, \"count\": 1, \"sum\": 1}, \"taco\": {\"similar\": {\"taco\": 3}, \"count\": 1, \"sum\": 3}, \"Cake\": {\"similar\": {\"Cake\": 1}, \"count\": 1, \"sum\": 1}, \"Rice\": {\"similar\": {\"Rice\": 1}, \"count\": 1, \"sum\": 1}, \"piza\": {\"similar\": {\"piza\": 1}, \"count\": 1, \"sum\": 1}, \"null\": {\"similar\": {\"null\": 1}, \"count\": 1, \"sum\": 1}, \"BEER\": {\"similar\": {\"BEER\": 1}, \"count\": 1, \"sum\": 1}}'" ] }, "execution_count": 261, "metadata": {}, "output_type": "execute_result" } ], "source": [ "keyCol.n_gram_fingerprint_cluster(df,\"product\", output=\"json\",n_size=2)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "from optimus.ml import keycollision as keyCol\n", "from optimus.ml import distancecluster as dc" ] }, { "cell_type": "code", "execution_count": 258, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'{\"taaaccoo\": {\"similar\": {\"taco\": 3, \"taaaccoo\": 1}, \"count\": 2, \"sum\": 4}, \"piza\": {\"similar\": {\"pizza\": 4, \"piza\": 1}, \"count\": 2, \"sum\": 5}, \"hamburguer\": {\"similar\": {\"BEER\": 1, \"hamburguer\": 1}, \"count\": 2, \"sum\": 2}, \"taco\": {\"similar\": {\"Cake\": 1, \"Rice\": 1, \"taco\": 3}, \"count\": 3, \"sum\": 5}, \"pizzza\": {\"similar\": {\"pizza\": 4, \"pizzza\": 1}, \"count\": 2, \"sum\": 5}, \"arepa\": {\"similar\": {\"BEER\": 1, \"piza\": 1, \"pasta\": 2, \"Cake\": 1, \"Rice\": 1, \"pizza\": 4, \"arepa\": 1}, \"count\": 7, \"sum\": 11}, \"pizza\": {\"similar\": {\"piza\": 1, \"pizzza\": 1, \"pizza\": 4}, \"count\": 3, \"sum\": 6}, \"Rice\": {\"similar\": {\"piza\": 1, \"Cake\": 1, \"taco\": 3, \"Rice\": 1}, \"count\": 4, \"sum\": 6}, \"110790\": {\"similar\": {\"arepa\": 1, \"BEER\": 1, \"piza\": 1, \"pizzza\": 1, \"pasta\": 2, \"Cake\": 1, \"null\": 1, \"Rice\": 1, \"pizza\": 4, \"taco\": 3, \"110790\": 1}, \"count\": 11, \"sum\": 17}, \"BEER\": {\"similar\": {\"arepa\": 1, \"piza\": 1, \"Cake\": 1, \"null\": 1, \"Rice\": 1, \"taco\": 3, \"BEER\": 1}, \"count\": 7, \"sum\": 9}, \"Cake\": {\"similar\": {\"Rice\": 1, \"taco\": 3, \"Cake\": 1}, \"count\": 3, \"sum\": 5}, \"null\": {\"similar\": {\"BEER\": 1, \"piza\": 1, \"Cake\": 1, \"Rice\": 1, \"taco\": 3, \"null\": 1}, \"count\": 6, \"sum\": 8}, \"pasta\": {\"similar\": {\"piza\": 1, \"pizza\": 4, \"pasta\": 2}, \"count\": 3, \"sum\": 7}}'" ] }, "execution_count": 258, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dc.levenshtein_cluster(df,\"product\", output=\"json\")" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 4 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
count
\n", "
1 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
names
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
names***NGRAM
\n", "
3 (array<string>)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
names***NGRAM_FINGERPRINT
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " ['bumblebee']\n", " \n", "
\n", "
\n", "
\n", " \n", " bumblebee\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " ['ironhide']\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron2\n", " \n", "
\n", "
\n", "
\n", " \n", " ['megatron2']\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron2\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " ['optimusoptimusprime']\n", " \n", "
\n", "
\n", "
\n", " \n", " optimusoptimusprime\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron1\n", " \n", "
\n", "
\n", "
\n", " \n", " ['megatron1']\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron1\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " ['megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 4 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "'{\"ironhide&\": {\"similar\": {\"ironhide&\": 1}, \"count\": 1, \"sum\": 1.0}, \"Megatron1\": {\"similar\": {\"Megatron1\": 1}, \"count\": 1, \"sum\": 1.0}, \"Optimus OptimusPrime\": {\"similar\": {\"Optimus OptimusPrime\": 1}, \"count\": 1, \"sum\": 1.0}, \"Megatron\": {\"similar\": {\"Megatron\": 1}, \"count\": 1, \"sum\": 1.0}, \"bumbl#eb\\\\u00e9\\\\u00e9 \": {\"similar\": {\"bumbl#eb\\\\u00e9\\\\u00e9 \": 1}, \"count\": 1, \"sum\": 1.0}, \"Megatron2\": {\"similar\": {\"Megatron2\": 1}, \"count\": 1, \"sum\": 1.0}}'" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "keyCol.n_gram_fingerprint_cluster(df,\"names\", n_size=1,output=\"json\")" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " 28\n", " \n", "
\n", "
\n", "
\n", " \n", " Leader\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Inochi',⋅'Convoy']\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron1\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Metroflex']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.table()" ] }, { "cell_type": "code", "execution_count": 81, "metadata": {}, "outputs": [], "source": [ "# df = op.load.csv(\"data/foo.csv\", sep=\",\", header='true', infer_schema='true', charset=\"UTF-8\", null_value=\"None\")" ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " 28\n", " \n", "
\n", "
\n", "
\n", " \n", " Leader\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Inochi',⋅'Convoy']\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " JaJa⋅JaJaJ\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Metroplex_)^$\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Metroflex']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.table()" ] }, { "cell_type": "code", "execution_count": 95, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (smallint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (tinyint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
timestamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " Optimus⋅OptimusPrime\n", " \n", "
\n", "
\n", "
\n", " \n", " 28\n", " \n", "
\n", "
\n", "
\n", " \n", " Leader\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.300000190734863\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Inochi',⋅'Convoy']\n", " \n", "
\n", "
\n", "
\n", " \n", " 19.442735,-99.201111\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016/09/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [8.53439998626709,⋅4300.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2016-09-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Leader')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " bumbl#ebéé⋅⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Espionage\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 2.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Bumble',⋅'Goldback']\n", " \n", "
\n", "
\n", "
\n", " \n", " 10.642707,-71.612534\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015/08/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [5.334000110626221,⋅2000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2015-08-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Espionage')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ironhide&\n", " \n", "
\n", "
\n", "
\n", " \n", " 26\n", " \n", "
\n", "
\n", "
\n", " \n", " Security\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 4.0\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Roadbuster']\n", " \n", "
\n", "
\n", "
\n", " \n", " 37.789563,-122.400356\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [7.924799919128418,⋅4000.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Security')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " aaa⋅JaJaJ\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " First⋅Lieutenant\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 1.7999999523162842\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Meister']\n", " \n", "
\n", "
\n", "
\n", " \n", " 33.670666,-117.841553\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013/06/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [3.962399959564209,⋅1800.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2013-06-24\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'First⋅Lieutenant')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Megatron\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " 5.699999809265137\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Megatron']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012/05/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [None,⋅5700.0]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2012-05-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'None')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " Metroplex_)^$\n", " \n", "
\n", "
\n", "
\n", " \n", " 300\n", " \n", "
\n", "
\n", "
\n", " \n", " Battle⋅Station\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 5000000\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " ['Metroflex']\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011/04/10\n", " \n", "
\n", "
\n", "
\n", " \n", " [91.44000244140625,⋅None]\n", " \n", "
\n", "
\n", "
\n", " \n", " 2011-04-10\n", " \n", "
\n", "
\n", "
\n", " \n", " 2014-06-24⋅00:00:00\n", " \n", "
\n", "
\n", "
\n", " \n", " True\n", " \n", "
\n", "
\n", "
\n", " \n", " bytearray(b'Battle⋅Station')\n", " \n", "
\n", "
\n", "
\n", " \n", " None\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.cols.replace(\"names\",[\"JaJa\",\"bbb\"],\"aaa\",search_by=\"words\").table()" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Send!\n" ] } ], "source": [ "df.send()" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Luis\n", " \n", "
\n", "
\n", "
\n", " \n", " Alvarez$$%!\n", " \n", "
\n", "
\n", "
\n", " \n", " 123\n", " \n", "
\n", "
\n", "
\n", " \n", " Cake\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 1980/07/07\n", " \n", "
\n", "
\n", "
\n", " \n", " never\n", " \n", "
\n", "
\n", "
\n", " \n", " 2\n", " \n", "
\n", "
\n", "
\n", " \n", " André\n", " \n", "
\n", "
\n", "
\n", " \n", " Ampère\n", " \n", "
\n", "
\n", "
\n", " \n", " 423\n", " \n", "
\n", "
\n", "
\n", " \n", " piza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1950/07/08\n", " \n", "
\n", "
\n", "
\n", " \n", " gonna\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " NiELS\n", " \n", "
\n", "
\n", "
\n", " \n", " Böhr//((%%\n", " \n", "
\n", "
\n", "
\n", " \n", " 551\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1990/07/09\n", " \n", "
\n", "
\n", "
\n", " \n", " give\n", " \n", "
\n", "
\n", "
\n", " \n", " 4\n", " \n", "
\n", "
\n", "
\n", " \n", " PAUL\n", " \n", "
\n", "
\n", "
\n", " \n", " dirac$\n", " \n", "
\n", "
\n", "
\n", " \n", " 521\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1954/07/10\n", " \n", "
\n", "
\n", "
\n", " \n", " you\n", " \n", "
\n", "
\n", "
\n", " \n", " 5\n", " \n", "
\n", "
\n", "
\n", " \n", " Albert\n", " \n", "
\n", "
\n", "
\n", " \n", " Einstein\n", " \n", "
\n", "
\n", "
\n", " \n", " 634\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1990/07/11\n", " \n", "
\n", "
\n", "
\n", " \n", " up\n", " \n", "
\n", "
\n", "
\n", " \n", " 6\n", " \n", "
\n", "
\n", "
\n", " \n", " Galileo\n", " \n", "
\n", "
\n", "
\n", " \n", " ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅GALiLEI\n", " \n", "
\n", "
\n", "
\n", " \n", " 672\n", " \n", "
\n", "
\n", "
\n", " \n", " arepa\n", " \n", "
\n", "
\n", "
\n", " \n", " 5\n", " \n", "
\n", "
\n", "
\n", " \n", " 1930/08/12\n", " \n", "
\n", "
\n", "
\n", " \n", " never\n", " \n", "
\n", "
\n", "
\n", " \n", " 7\n", " \n", "
\n", "
\n", "
\n", " \n", " CaRL\n", " \n", "
\n", "
\n", "
\n", " \n", " Ga%%%uss\n", " \n", "
\n", "
\n", "
\n", " \n", " 323\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1970/07/13\n", " \n", "
\n", "
\n", "
\n", " \n", " gonna\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " David\n", " \n", "
\n", "
\n", "
\n", " \n", " H$$$ilbert\n", " \n", "
\n", "
\n", "
\n", " \n", " 624\n", " \n", "
\n", "
\n", "
\n", " \n", " taaaccoo\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1950/07/14\n", " \n", "
\n", "
\n", "
\n", " \n", " let\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " Johannes\n", " \n", "
\n", "
\n", "
\n", " \n", " KEPLER\n", " \n", "
\n", "
\n", "
\n", " \n", " 735\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1920/04/22\n", " \n", "
\n", "
\n", "
\n", " \n", " you\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " JaMES\n", " \n", "
\n", "
\n", "
\n", " \n", " M$$ax%%well\n", " \n", "
\n", "
\n", "
\n", " \n", " 875\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " 1923/03/12\n", " \n", "
\n", "
\n", "
\n", " \n", " down\n", " \n", "
\n", "
\n", "
\n", " \n", " 11\n", " \n", "
\n", "
\n", "
\n", " \n", " Isaac\n", " \n", "
\n", "
\n", "
\n", " \n", " Newton\n", " \n", "
\n", "
\n", "
\n", " \n", " 992\n", " \n", "
\n", "
\n", "
\n", " \n", " pasta\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " 1999/02/15\n", " \n", "
\n", "
\n", "
\n", " \n", " never⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 12\n", " \n", "
\n", "
\n", "
\n", " \n", " Emmy%%\n", " \n", "
\n", "
\n", "
\n", " \n", " Nöether$\n", " \n", "
\n", "
\n", "
\n", " \n", " 234\n", " \n", "
\n", "
\n", "
\n", " \n", " pasta\n", " \n", "
\n", "
\n", "
\n", " \n", " 9\n", " \n", "
\n", "
\n", "
\n", " \n", " 1993/12/08\n", " \n", "
\n", "
\n", "
\n", " \n", " gonna\n", " \n", "
\n", "
\n", "
\n", " \n", " 13\n", " \n", "
\n", "
\n", "
\n", " \n", " Max!!!\n", " \n", "
\n", "
\n", "
\n", " \n", " Planck!!!\n", " \n", "
\n", "
\n", "
\n", " \n", " 111\n", " \n", "
\n", "
\n", "
\n", " \n", " hamburguer\n", " \n", "
\n", "
\n", "
\n", " \n", " 4\n", " \n", "
\n", "
\n", "
\n", " \n", " 1994/01/04\n", " \n", "
\n", "
\n", "
\n", " \n", " run⋅\n", " \n", "
\n", "
\n", "
\n", " \n", " 14\n", " \n", "
\n", "
\n", "
\n", " \n", " Fred\n", " \n", "
\n", "
\n", "
\n", " \n", " Hoy&&&le\n", " \n", "
\n", "
\n", "
\n", " \n", " 553\n", " \n", "
\n", "
\n", "
\n", " \n", " pizzza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1997/06/27\n", " \n", "
\n", "
\n", "
\n", " \n", " around\n", " \n", "
\n", "
\n", "
\n", " \n", " 15\n", " \n", "
\n", "
\n", "
\n", " \n", " (((⋅⋅⋅Heinrich⋅)))))\n", " \n", "
\n", "
\n", "
\n", " \n", " Hertz\n", " \n", "
\n", "
\n", "
\n", " \n", " 116\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 8\n", " \n", "
\n", "
\n", "
\n", " \n", " 1956/11/30\n", " \n", "
\n", "
\n", "
\n", " \n", " and\n", " \n", "
\n", "
\n", "
\n", " \n", " 16\n", " \n", "
\n", "
\n", "
\n", " \n", " William\n", " \n", "
\n", "
\n", "
\n", " \n", " Gilbert###\n", " \n", "
\n", "
\n", "
\n", " \n", " 886\n", " \n", "
\n", "
\n", "
\n", " \n", " BEER\n", " \n", "
\n", "
\n", "
\n", " \n", " 2\n", " \n", "
\n", "
\n", "
\n", " \n", " 1958/03/26\n", " \n", "
\n", "
\n", "
\n", " \n", " desert\n", " \n", "
\n", "
\n", "
\n", " \n", " 17\n", " \n", "
\n", "
\n", "
\n", " \n", " Marie\n", " \n", "
\n", "
\n", "
\n", " \n", " CURIE\n", " \n", "
\n", "
\n", "
\n", " \n", " 912\n", " \n", "
\n", "
\n", "
\n", " \n", " Rice\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " 2000/03/22\n", " \n", "
\n", "
\n", "
\n", " \n", " you\n", " \n", "
\n", "
\n", "
\n", " \n", " 18\n", " \n", "
\n", "
\n", "
\n", " \n", " Arthur\n", " \n", "
\n", "
\n", "
\n", " \n", " COM%%%pton\n", " \n", "
\n", "
\n", "
\n", " \n", " 812\n", " \n", "
\n", "
\n", "
\n", " \n", " 110790\n", " \n", "
\n", "
\n", "
\n", " \n", " 5\n", " \n", "
\n", "
\n", "
\n", " \n", " 1899/01/01\n", " \n", "
\n", "
\n", "
\n", " \n", " #\n", " \n", "
\n", "
\n", "
\n", " \n", " 19\n", " \n", "
\n", "
\n", "
\n", " \n", " JAMES\n", " \n", "
\n", "
\n", "
\n", " \n", " Chadwick\n", " \n", "
\n", "
\n", "
\n", " \n", " 467\n", " \n", "
\n", "
\n", "
\n", " \n", " null\n", " \n", "
\n", "
\n", "
\n", " \n", " 10\n", " \n", "
\n", "
\n", "
\n", " \n", " 1921/05/03\n", " \n", "
\n", "
\n", "
\n", " \n", " #\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "{'firstName': {'null': 0, 'missing': 0, 'string': 19}}" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.table(20)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'count_outliers': 8, 'count_non_outliers': 11, 'max_z_score': 1.7111}" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.outliers.z_score(\"price\",threshold =1).info()" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'count_outliers': 0,\n", " 'count_non_outliers': 19,\n", " 'lower_bound': -4.5,\n", " 'lower_bound_count': 0,\n", " 'upper_bound': 15.5,\n", " 'upper_bound_count': 0,\n", " 'iqr1': 3,\n", " 'iqr3': 8}" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.outliers.tukey(\"price\").info()" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'count_outliers': 9,\n", " 'count_non_outliers': 19,\n", " 'lower_bound': 6,\n", " 'lower_bound_count': 9,\n", " 'upper_bound': 10,\n", " 'upper_bound_count': 0}" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.outliers.mad(\"price\", threshold =1).info()" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'count_outliers': 19, 'count_non_outliers': 19, 'max_m_z_score': 2.36075}" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.outliers.modified_z_score(\"price\",threshold =1).info()" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{\"taaaccoo\": {\"similar\": {\"taco\": 3, \"taaaccoo\": 1}, \"count\": 2, \"sum\": 4}, \"piza\": {\"similar\": {\"pizza\": 4, \"piza\": 1}, \"count\": 2, \"sum\": 5}, \"hamburguer\": {\"similar\": {\"BEER\": 1, \"hamburguer\": 1}, \"count\": 2, \"sum\": 2}, \"taco\": {\"similar\": {\"Cake\": 1, \"Rice\": 1, \"taco\": 3}, \"count\": 3, \"sum\": 5}, \"pizzza\": {\"similar\": {\"pizza\": 4, \"pizzza\": 1}, \"count\": 2, \"sum\": 5}, \"arepa\": {\"similar\": {\"BEER\": 1, \"piza\": 1, \"pasta\": 2, \"Cake\": 1, \"Rice\": 1, \"pizza\": 4, \"arepa\": 1}, \"count\": 7, \"sum\": 11}, \"pizza\": {\"similar\": {\"piza\": 1, \"pizzza\": 1, \"pizza\": 4}, \"count\": 3, \"sum\": 6}, \"Rice\": {\"similar\": {\"piza\": 1, \"Cake\": 1, \"taco\": 3, \"Rice\": 1}, \"count\": 4, \"sum\": 6}, \"110790\": {\"similar\": {\"arepa\": 1, \"BEER\": 1, \"piza\": 1, \"pizzza\": 1, \"pasta\": 2, \"Cake\": 1, \"null\": 1, \"Rice\": 1, \"pizza\": 4, \"taco\": 3, \"110790\": 1}, \"count\": 11, \"sum\": 17}, \"BEER\": {\"similar\": {\"arepa\": 1, \"piza\": 1, \"Cake\": 1, \"null\": 1, \"Rice\": 1, \"taco\": 3, \"BEER\": 1}, \"count\": 7, \"sum\": 9}, \"Cake\": {\"similar\": {\"Rice\": 1, \"taco\": 3, \"Cake\": 1}, \"count\": 3, \"sum\": 5}, \"null\": {\"similar\": {\"BEER\": 1, \"piza\": 1, \"Cake\": 1, \"Rice\": 1, \"taco\": 3, \"null\": 1}, \"count\": 6, \"sum\": 8}, \"pasta\": {\"similar\": {\"piza\": 1, \"pizza\": 4, \"pasta\": 2}, \"count\": 3, \"sum\": 7}}\n", "Wall time: 9.6 s\n" ] } ], "source": [ "%%time\n", "from optimus.ml import distancecluster as dc\n", "print(dc.levenshtein_cluster(df,'product',output=\"json\"))" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [], "source": [ "from optimus.ml import distancecluster as dc\n", "from optimus.ml import keycollision as kc\n", "\n", "# result = dc.levenshtein_json(df,'product')\n", "result = kc.fingerprint_cluster(df, \"product\",3)" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 10 of 13 rows / 4 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
count
\n", "
1 (string)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
product
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product***NGRAM
\n", "
3 (array<string>)
\n", "
\n", " \n", " not nullable\n", " \n", "
\n", "
\n", "
product***NGRAM_FINGERPRINT
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " taaaccoo\n", " \n", "
\n", "
\n", "
\n", " \n", " ['taaaccoo']\n", " \n", "
\n", "
\n", "
\n", " \n", " taaaccoo\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " piza\n", " \n", "
\n", "
\n", "
\n", " \n", " ['piza']\n", " \n", "
\n", "
\n", "
\n", " \n", " piza\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " hamburguer\n", " \n", "
\n", "
\n", "
\n", " \n", " ['hamburguer']\n", " \n", "
\n", "
\n", "
\n", " \n", " hamburguer\n", " \n", "
\n", "
\n", "
\n", " \n", " 3\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " ['taco']\n", " \n", "
\n", "
\n", "
\n", " \n", " taco\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " BEER\n", " \n", "
\n", "
\n", "
\n", " \n", " ['beer']\n", " \n", "
\n", "
\n", "
\n", " \n", " beer\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " pizzza\n", " \n", "
\n", "
\n", "
\n", " \n", " ['pizzza']\n", " \n", "
\n", "
\n", "
\n", " \n", " pizzza\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " arepa\n", " \n", "
\n", "
\n", "
\n", " \n", " ['arepa']\n", " \n", "
\n", "
\n", "
\n", " \n", " arepa\n", " \n", "
\n", "
\n", "
\n", " \n", " 4\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " ['pizza']\n", " \n", "
\n", "
\n", "
\n", " \n", " pizza\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " Rice\n", " \n", "
\n", "
\n", "
\n", " \n", " ['rice']\n", " \n", "
\n", "
\n", "
\n", " \n", " rice\n", " \n", "
\n", "
\n", "
\n", " \n", " 1\n", " \n", "
\n", "
\n", "
\n", " \n", " 110790\n", " \n", "
\n", "
\n", "
\n", " \n", " ['110790']\n", " \n", "
\n", "
\n", "
\n", " \n", " 110790\n", " \n", "
\n", "
\n", "\n", "\n", "
Viewing 10 of 13 rows / 4 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "result = kc.n_gram_fingerprint_cluster(df, \"product\",3)\n" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'taaaccoo': {'similar': ['taaaccoo'], 'count': 1, 'sum': 1.0}, 'piza': {'similar': ['piza'], 'count': 1, 'sum': 1.0}, 'hamburguer': {'similar': ['hamburguer'], 'count': 1, 'sum': 1.0}, 'taco': {'similar': ['taco'], 'count': 1, 'sum': 3.0}, 'pizzza': {'similar': ['pizzza'], 'count': 1, 'sum': 1.0}, 'arepa': {'similar': ['arepa'], 'count': 1, 'sum': 1.0}, 'pizza': {'similar': ['pizza'], 'count': 1, 'sum': 4.0}, 'Rice': {'similar': ['Rice'], 'count': 1, 'sum': 1.0}, '110790': {'similar': ['110790'], 'count': 1, 'sum': 1.0}, 'BEER': {'similar': ['BEER'], 'count': 1, 'sum': 1.0}, 'Cake': {'similar': ['Cake'], 'count': 1, 'sum': 1.0}, 'null': {'similar': ['null'], 'count': 1, 'sum': 1.0}, 'pasta': {'similar': ['pasta'], 'count': 1, 'sum': 2.0}}\n" ] } ], "source": [ "print(result)" ] }, { "cell_type": "code", "execution_count": 159, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "str" ] }, "execution_count": 159, "metadata": {}, "output_type": "execute_result" } ], "source": [ "type(result)" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['taaaccoo', 1]\n", "['piza', 1]\n", "['hamburguer', 1]\n", "['taco', 3]\n", "['BEER', 1]\n", "['pizzza', 1]\n", "['arepa', 1]\n", "['pizza', 4]\n", "['Rice', 1]\n", "['110790', 1]\n", "['Cake', 1]\n", "['null', 1]\n", "['pasta', 2]\n" ] } ], "source": [ "kv_dict ={}\n", "for row in result.collect():\n", " _row = list(row.asDict().values())\n", " print(_row)\n", " kv_dict[_row[0]] = _row[1]" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'taaaccoo': 1, 'piza': 1, 'hamburguer': 1, 'taco': 3, 'BEER': 1, 'pizzza': 1, 'arepa': 1, 'pizza': 4, 'Rice': 1, '110790': 1, 'Cake': 1, 'null': 1, 'pasta': 2}\n" ] } ], "source": [ "print(kv_dict)" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "ename": "AttributeError", "evalue": "'str' object has no attribute 'cols'", "output_type": "error", "traceback": [ "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m Traceback (most recent call last)", "\u001b[1;32m\u001b[0m in \u001b[0;36m\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0ma\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mcols\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mreplace\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;34m\"product***LEVENSHTEIN_DISTANCE\"\u001b[0m\u001b[1;33m,\u001b[0m \u001b[1;36m0\u001b[0m\u001b[1;33m,\u001b[0m \u001b[1;32mNone\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mtable\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m: 'str' object has no attribute 'cols'" ] } ], "source": [ "a.cols.replace(\"product***LEVENSHTEIN_DISTANCE\", 0, None).table()" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "ename": "AttributeError", "evalue": "'str' object has no attribute 'rows'", "output_type": "error", "traceback": [ "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m Traceback (most recent call last)", "\u001b[1;32m\u001b[0m in \u001b[0;36m\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0ma\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mrows\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mdrop\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mwhere\u001b[0m\u001b[1;33m=\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0ma\u001b[0m\u001b[1;33m[\u001b[0m\u001b[1;34m\"product_LEVENSHTEIN_1\"\u001b[0m\u001b[1;33m]\u001b[0m\u001b[1;33m!=\u001b[0m\u001b[0ma\u001b[0m\u001b[1;33m[\u001b[0m\u001b[1;34m\"product_LEVENSHTEIN_2\"\u001b[0m\u001b[1;33m]\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m&\u001b[0m \u001b[1;33m(\u001b[0m\u001b[0ma\u001b[0m\u001b[1;33m[\u001b[0m\u001b[1;34m\"product***LEVENSHTEIN_DISTANCE\"\u001b[0m\u001b[1;33m]\u001b[0m\u001b[1;33m==\u001b[0m\u001b[1;36m0\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mtable\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m: 'str' object has no attribute 'rows'" ] } ], "source": [ "a.rows.drop(where=((a[\"product_LEVENSHTEIN_1\"]!=a[\"product_LEVENSHTEIN_2\"])& (a[\"product***LEVENSHTEIN_DISTANCE\"]==0))).table()" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.6" } }, "nbformat": 4, "nbformat_minor": 4 }