{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "# UNCOMMENT THIS IF YOU'RE USING GOOGLE COLAB!\n", "\n", "#!apt-get install openjdk-8-jdk-headless -qq > /dev/null\n", "#!wget -q http://apache.osuosl.org/spark/spark-2.4.1/spark-2.4.1-bin-hadoop2.7.tgz\n", "#!tar xf spark-2.4.1-bin-hadoop2.7.tgz\n", "#!pip install optimuspyspark\n", "\n", "# AFTER RUNNING THIS CELL, YOU MUST RESTART THE RUNTIME TO USE UPDATED VERSIONS OF PACKAGES!" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# UNCOMMENT THIS IF YOU'RE USING GOOGLE COLAB!\n", "\n", "#import os\n", "#os.environ[\"JAVA_HOME\"] = \"/usr/lib/jvm/java-8-openjdk-amd64\"\n", "#os.environ[\"SPARK_HOME\"] = \"/content/spark-2.3.3-bin-hadoop2.7\"" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Run if you clone Optimus and want to hack it from the notebook else you must install\n", "\n", "%load_ext autoreload\n", "%autoreload 2\n", "import sys\n", "sys.path.append(\"..\")" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "C:\\Users\\argenisleon\\Anaconda3\\lib\\site-packages\\socks.py:58: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working\n", " from collections import Callable\n", "\n", " You are using PySparkling of version 2.4.10, but your PySpark is of\n", " version 2.3.1. Please make sure Spark and PySparkling versions are compatible. \n" ] } ], "source": [ "from optimus import Optimus" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Load optimus local or in a cluster" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "INFO:optimus:Just check that Spark and all necessary environments vars are present...\n", "INFO:optimus:-----\n", "INFO:optimus:SPARK_HOME=C:\\opt\\spark\\spark-2.3.1-bin-hadoop2.7\n", "INFO:optimus:HADOOP_HOME=C:\\opt\\hadoop-2.7.7\n", "INFO:optimus:PYSPARK_PYTHON=C:\\Users\\argenisleon\\Anaconda3\\python.exe\n", "INFO:optimus:PYSPARK_DRIVER_PYTHON=jupyter\n", "INFO:optimus:PYSPARK_SUBMIT_ARGS=--packages com.databricks:spark-avro_2.11:4.0.0 --conf \"spark.sql.catalogImplementation=hive\" pyspark-shell\n", "INFO:optimus:JAVA_HOME=C:\\java\n", "INFO:optimus:Pyarrow Installed\n", "INFO:optimus:-----\n", "INFO:optimus:Starting or getting SparkSession and SparkContext...\n", "INFO:optimus:Spark Version:2.3.1\n", "INFO:optimus:\n", " ____ __ _ \n", " / __ \\____ / /_(_)___ ___ __ _______\n", " / / / / __ \\/ __/ / __ `__ \\/ / / / ___/\n", " / /_/ / /_/ / /_/ / / / / / / /_/ (__ ) \n", " \\____/ .___/\\__/_/_/ /_/ /_/\\__,_/____/ \n", " /_/ \n", " \n", "INFO:optimus:Transform and Roll out...\n", "INFO:optimus:Optimus successfully imported. Have fun :).\n" ] }, { "data": { "text/html": [ "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Create optimus\n", "op = Optimus(master=\"local\", app_name= \"optimus\", verbose = True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Adding external packages" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "op = Optimus(packages=\"datastax:spark-cassandra-connector:1.6.1-s_2.10\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Get the spark session" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "
\n", "

SparkSession - hive

\n", " \n", "
\n", "

SparkContext

\n", "\n", "

Spark UI

\n", "\n", "
\n", "
Version
\n", "
v2.3.1
\n", "
Master
\n", "
local
\n", "
AppName
\n", "
optimus
\n", "
\n", "
\n", " \n", "
\n", " " ], "text/plain": [ "" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "op.spark" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Get the spark context" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "
\n", "

SparkContext

\n", "\n", "

Spark UI

\n", "\n", "
\n", "
Version
\n", "
v2.3.1
\n", "
Master
\n", "
local
\n", "
AppName
\n", "
optimus
\n", "
\n", "
\n", " " ], "text/plain": [ "" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "op.sc" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Packages loaded" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['com.databricks:spark-avro_2.11:4.0.0']" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "op.packages" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Create dataframe" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
names
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
height(ft)
\n", "
2 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
rank
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
weight(t)
\n", "
6 (float)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
japanese name
\n", "
7 (array<string>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last position seen
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
date arrival
\n", "
9 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
last date seen
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
attributes
\n", "
11 (array<float>)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
DateType
\n", "
12 (date)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Tiemstamp
\n", "
13 (timestamp)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Cybertronian
\n", "
14 (boolean)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
function(binary)
\n", "
15 (binary)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
NullType
\n", "
16 (null)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Optim'us\n", "
\n", "
\n", "
28\n", "
\n", "
\n", "
Leader\n", "
\n", "
\n", "
10\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
4.300000190734863\n", "
\n", "
\n", "
['Inochi',⋅'Convoy']\n", "
\n", "
\n", "
19.442735,-99.201111\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2016/09/10\n", "
\n", "
\n", "
[8.53439998626709,⋅4300.0]\n", "
\n", "
\n", "
2016-09-10\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
bumbl#ebéé⋅⋅\n", "
\n", "
\n", "
17\n", "
\n", "
\n", "
Espionage\n", "
\n", "
\n", "
7\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
2.0\n", "
\n", "
\n", "
['Bumble',⋅'Goldback']\n", "
\n", "
\n", "
10.642707,-71.612534\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2015/08/10\n", "
\n", "
\n", "
[5.334000110626221,⋅2000.0]\n", "
\n", "
\n", "
2015-08-10\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
ironhide&\n", "
\n", "
\n", "
26\n", "
\n", "
\n", "
Security\n", "
\n", "
\n", "
7\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
4.0\n", "
\n", "
\n", "
['Roadbuster']\n", "
\n", "
\n", "
37.789563,-122.400356\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2014/07/10\n", "
\n", "
\n", "
[7.924799919128418,⋅4000.0]\n", "
\n", "
\n", "
2014-06-24\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
Jazz\n", "
\n", "
\n", "
13\n", "
\n", "
\n", "
First⋅Lieutenant\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
1.7999999523162842\n", "
\n", "
\n", "
['Meister']\n", "
\n", "
\n", "
33.670666,-117.841553\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2013/06/10\n", "
\n", "
\n", "
[3.962399959564209,⋅1800.0]\n", "
\n", "
\n", "
2013-06-24\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
Megatron\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
10\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
5.699999809265137\n", "
\n", "
\n", "
['Megatron']\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2012/05/10\n", "
\n", "
\n", "
[None,⋅5700.0]\n", "
\n", "
\n", "
2012-05-10\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
Metroplex_)^$\n", "
\n", "
\n", "
300\n", "
\n", "
\n", "
Battle⋅Station\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
5000000\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
['Metroflex']\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
1980/04/10\n", "
\n", "
\n", "
2011/04/10\n", "
\n", "
\n", "
[91.44000244140625,⋅None]\n", "
\n", "
\n", "
2011-04-10\n", "
\n", "
\n", "
2014-06-24⋅00:00:00\n", "
\n", "
\n", "
True\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "
None\n", "
\n", "
\n", "\n", "\n", "
Viewing 6 of 6 rows / 16 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from pyspark.sql.types import StructType, StructField, StringType, BooleanType, IntegerType, ArrayType\n", "from datetime import date, datetime\n", "\n", "df = op.create.df(\n", " [\n", " \"names\", \n", " \"height(ft)\", \n", " \"function\", \n", " \"rank\", \n", " \"age\",\n", " \"weight(t)\",\n", " \"japanese name\",\n", " \"last position seen\",\n", " \"date arrival\",\n", " \"last date seen\",\n", " \"attributes\",\n", " \"DateType\",\n", " \"Tiemstamp\",\n", " \"Cybertronian\", \n", " \"function(binary)\",\n", " \"NullType\",\n", "\n", " ],\n", " [\n", " (\"Optim'us\", 28, \"Leader\", 10, 5000000, 4.30, [\"Inochi\", \"Convoy\"], \"19.442735,-99.201111\", \"1980/04/10\",\n", " \"2016/09/10\", [8.5344, 4300.0], date(2016, 9, 10), datetime(2014, 6, 24), True, bytearray(\"Leader\", \"utf-8\"),\n", " None),\n", " (\"bumbl#ebéé \", 17, \"Espionage\", 7, 5000000, 2.0, [\"Bumble\", \"Goldback\"], \"10.642707,-71.612534\", \"1980/04/10\",\n", " \"2015/08/10\", [5.334, 2000.0], date(2015, 8, 10), datetime(2014, 6, 24), True, bytearray(\"Espionage\", \"utf-8\"),\n", " None),\n", " (\"ironhide&\", 26, \"Security\", 7, 5000000, 4.0, [\"Roadbuster\"], \"37.789563,-122.400356\", \"1980/04/10\",\n", " \"2014/07/10\", [7.9248, 4000.0], date(2014, 6, 24), datetime(2014, 6, 24), True, bytearray(\"Security\", \"utf-8\"),\n", " None),\n", " (\"Jazz\", 13, \"First Lieutenant\", 8, 5000000, 1.80, [\"Meister\"], \"33.670666,-117.841553\", \"1980/04/10\",\n", " \"2013/06/10\", [3.9624, 1800.0], date(2013, 6, 24), datetime(2014, 6, 24), True,\n", " bytearray(\"First Lieutenant\", \"utf-8\"), None),\n", " (\"Megatron\", None, \"None\", 10, 5000000, 5.70, [\"Megatron\"], None, \"1980/04/10\", \"2012/05/10\", [None, 5700.0],\n", " date(2012, 5, 10), datetime(2014, 6, 24), True, bytearray(\"None\", \"utf-8\"), None),\n", " (\"Metroplex_)^$\", 300, \"Battle Station\", 8, 5000000, None, [\"Metroflex\"], None, \"1980/04/10\", \"2011/04/10\",\n", " [91.44, None], date(2011, 4, 10), datetime(2014, 6, 24), True, bytearray(\"Battle Station\", \"utf-8\"), None),\n", "\n", " ]).h_repartition(1)\n", "\n", "df.table()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Create Spark dataframe using a Pandas dataframe" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "\n", "pdf = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},\n", " 'B': {0: 1, 1: 3, 2: 5},\n", " 'C': {0: 2, 1: 4, 2: 6}})\n", "\n", "sdf = op.create.df(pdf=pdf)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## concat dataframes\n", "\n", "Concat dataframes two or multiple dataframes in a row or column way" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": true }, "outputs": [], "source": [ "op.append([df,df], like=\"rows\").table()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## IO Operations" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Load from file" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1\n", "
\n", "
\n", "
Luis\n", "
\n", "
\n", "
Alvarez$$%!\n", "
\n", "
\n", "
123\n", "
\n", "
\n", "
Cake\n", "
\n", "
\n", "
10\n", "
\n", "
\n", "
1980/07/07\n", "
\n", "
\n", "
never\n", "
\n", "
\n", "
2\n", "
\n", "
\n", "
André\n", "
\n", "
\n", "
Ampère\n", "
\n", "
\n", "
423\n", "
\n", "
\n", "
piza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1950/07/08\n", "
\n", "
\n", "
gonna\n", "
\n", "
\n", "
3\n", "
\n", "
\n", "
NiELS\n", "
\n", "
\n", "
Böhr//((%%\n", "
\n", "
\n", "
551\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1990/07/09\n", "
\n", "
\n", "
give\n", "
\n", "
\n", "
4\n", "
\n", "
\n", "
PAUL\n", "
\n", "
\n", "
dirac$\n", "
\n", "
\n", "
521\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1954/07/10\n", "
\n", "
\n", "
you\n", "
\n", "
\n", "
5\n", "
\n", "
\n", "
Albert\n", "
\n", "
\n", "
Einstein\n", "
\n", "
\n", "
634\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1990/07/11\n", "
\n", "
\n", "
up\n", "
\n", "
\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_csv =op.load.csv(\"data/foo.csv\").table(5)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 4 of 4 rows / 5 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
Sepal length
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Sepal width
\n", "
2 (double)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Petal length
\n", "
3 (double)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Petal width
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
Species
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
5.0\n", "
\n", "
\n", "
3.6\n", "
\n", "
\n", "
1.4\n", "
\n", "
\n", "
0.2\n", "
\n", "
\n", "
I.⋅setosa\n", "
\n", "
\n", "
5.0\n", "
\n", "
\n", "
3.6\n", "
\n", "
\n", "
1.4\n", "
\n", "
\n", "
0.2\n", "
\n", "
\n", "
I.⋅setosa\n", "
\n", "
\n", "
5.0\n", "
\n", "
\n", "
3.6\n", "
\n", "
\n", "
1.4\n", "
\n", "
\n", "
0.2\n", "
\n", "
\n", "
I.⋅setosa\n", "
\n", "
\n", "
5.0\n", "
\n", "
\n", "
3.6\n", "
\n", "
\n", "
1.4\n", "
\n", "
\n", "
0.2\n", "
\n", "
\n", "
I.⋅setosa\n", "
\n", "
\n", "\n", "\n", "
Viewing 4 of 4 rows / 5 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_csv =op.load.tsv(\"data/foo.tsv\").table(5)" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
billingId
\n", "
1 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
id
\n", "
5 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
6 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
7 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
123\n", "
\n", "
\n", "
1980/07/07\n", "
\n", "
\n", "
never\n", "
\n", "
\n", "
Luis\n", "
\n", "
\n", "
1\n", "
\n", "
\n", "
Alvarez$$%!\n", "
\n", "
\n", "
10\n", "
\n", "
\n", "
Cake\n", "
\n", "
\n", "
423\n", "
\n", "
\n", "
1950/07/08\n", "
\n", "
\n", "
gonna\n", "
\n", "
\n", "
André\n", "
\n", "
\n", "
2\n", "
\n", "
\n", "
Ampère\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
piza\n", "
\n", "
\n", "
551\n", "
\n", "
\n", "
1990/07/09\n", "
\n", "
\n", "
give\n", "
\n", "
\n", "
NiELS\n", "
\n", "
\n", "
3\n", "
\n", "
\n", "
Böhr//((%%\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
521\n", "
\n", "
\n", "
1954/07/10\n", "
\n", "
\n", "
you\n", "
\n", "
\n", "
PAUL\n", "
\n", "
\n", "
4\n", "
\n", "
\n", "
dirac$\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
634\n", "
\n", "
\n", "
1990/07/11\n", "
\n", "
\n", "
up\n", "
\n", "
\n", "
Albert\n", "
\n", "
\n", "
5\n", "
\n", "
\n", "
Einstein\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_json =op.load.json(\"data/foo.json\").table(5)" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1\n", "
\n", "
\n", "
Luis\n", "
\n", "
\n", "
Alvarez$$%!\n", "
\n", "
\n", "
123\n", "
\n", "
\n", "
Cake\n", "
\n", "
\n", "
10\n", "
\n", "
\n", "
1980/07/07\n", "
\n", "
\n", "
never\n", "
\n", "
\n", "
2\n", "
\n", "
\n", "
André\n", "
\n", "
\n", "
Ampère\n", "
\n", "
\n", "
423\n", "
\n", "
\n", "
piza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1950/07/08\n", "
\n", "
\n", "
gonna\n", "
\n", "
\n", "
3\n", "
\n", "
\n", "
NiELS\n", "
\n", "
\n", "
Böhr//((%%\n", "
\n", "
\n", "
551\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1990/07/09\n", "
\n", "
\n", "
give\n", "
\n", "
\n", "
4\n", "
\n", "
\n", "
PAUL\n", "
\n", "
\n", "
dirac$\n", "
\n", "
\n", "
521\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1954/07/10\n", "
\n", "
\n", "
you\n", "
\n", "
\n", "
5\n", "
\n", "
\n", "
Albert\n", "
\n", "
\n", "
Einstein\n", "
\n", "
\n", "
634\n", "
\n", "
\n", "
pizza\n", "
\n", "
\n", "
8\n", "
\n", "
\n", "
1990/07/11\n", "
\n", "
\n", "
up\n", "
\n", "
\n", "\n", "\n", "
Viewing 5 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_parquet =op.load.parquet(\"data/foo.parquet\").table(5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "df_avro =op.load.avro(\"data/foo.avro\").table(5)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 5 of 1309 rows / 14 columns
\n", "
8 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
pclass
\n", "
1 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
survived
\n", "
2 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
name
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
sex
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
age
\n", "
5 (double)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
sibsp
\n", "
6 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
parch
\n", "
7 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
ticket
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
fare
\n", "
9 (double)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
cabin
\n", "
10 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
embarked
\n", "
11 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
boat
\n", "
12 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
body
\n", "
13 (double)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
home_dest
\n", "
14 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1
\n", "
\n", "
1
\n", "
\n", "
Allen,⸱Miss.⸱Elisabeth⸱Walton
\n", "
\n", "
female
\n", "
\n", "
29.0
\n", "
\n", "
0
\n", "
\n", "
0
\n", "
\n", "
24160
\n", "
\n", "
211.3375
\n", "
\n", "
B5
\n", "
\n", "
S
\n", "
\n", "
2
\n", "
\n", "
nan
\n", "
\n", "
St⸱Louis,⸱MO
\n", "
\n", "
1
\n", "
\n", "
1
\n", "
\n", "
Allison,⸱Master.⸱Hudson⸱Trevor
\n", "
\n", "
male
\n", "
\n", "
0.9167
\n", "
\n", "
1
\n", "
\n", "
2
\n", "
\n", "
113781
\n", "
\n", "
151.55
\n", "
\n", "
C22⸱C26
\n", "
\n", "
S
\n", "
\n", "
11
\n", "
\n", "
nan
\n", "
\n", "
Montreal,⸱PQ⸱/⸱Chesterville,⸱ON
\n", "
\n", "
1
\n", "
\n", "
0
\n", "
\n", "
Allison,⸱Miss.⸱Helen⸱Loraine
\n", "
\n", "
female
\n", "
\n", "
2.0
\n", "
\n", "
1
\n", "
\n", "
2
\n", "
\n", "
113781
\n", "
\n", "
151.55
\n", "
\n", "
C22⸱C26
\n", "
\n", "
S
\n", "
\n", "
nan
\n", "
\n", "
nan
\n", "
\n", "
Montreal,⸱PQ⸱/⸱Chesterville,⸱ON
\n", "
\n", "
1
\n", "
\n", "
0
\n", "
\n", "
Allison,⸱Mr.⸱Hudson⸱Joshua⸱Creighton
\n", "
\n", "
male
\n", "
\n", "
30.0
\n", "
\n", "
1
\n", "
\n", "
2
\n", "
\n", "
113781
\n", "
\n", "
151.55
\n", "
\n", "
C22⸱C26
\n", "
\n", "
S
\n", "
\n", "
nan
\n", "
\n", "
135.0
\n", "
\n", "
Montreal,⸱PQ⸱/⸱Chesterville,⸱ON
\n", "
\n", "
1
\n", "
\n", "
0
\n", "
\n", "
Allison,⸱Mrs.⸱Hudson⸱J⸱C⸱(Bessie⸱Waldo⸱Daniels)
\n", "
\n", "
female
\n", "
\n", "
25.0
\n", "
\n", "
1
\n", "
\n", "
2
\n", "
\n", "
113781
\n", "
\n", "
151.55
\n", "
\n", "
C22⸱C26
\n", "
\n", "
S
\n", "
\n", "
nan
\n", "
\n", "
nan
\n", "
\n", "
Montreal,⸱PQ⸱/⸱Chesterville,⸱ON
\n", "
\n", "\n", "\n", "
Viewing 5 of 1309 rows / 14 columns
\n", "
8 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_avro =op.load.excel(\"data/titanic3.xls\").table(5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Load from URL" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1
\n", "
\n", "
Luis
\n", "
\n", "
Alvarez$$%!
\n", "
\n", "
123
\n", "
\n", "
Cake
\n", "
\n", "
10
\n", "
\n", "
1980/07/07
\n", "
\n", "
never
\n", "
\n", "
2
\n", "
\n", "
André
\n", "
\n", "
Ampère
\n", "
\n", "
423
\n", "
\n", "
piza
\n", "
\n", "
8
\n", "
\n", "
1950/07/08
\n", "
\n", "
gonna
\n", "
\n", "
3
\n", "
\n", "
NiELS
\n", "
\n", "
Böhr//((%%
\n", "
\n", "
551
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/09
\n", "
\n", "
give
\n", "
\n", "
4
\n", "
\n", "
PAUL
\n", "
\n", "
dirac$
\n", "
\n", "
521
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1954/07/10
\n", "
\n", "
you
\n", "
\n", "
5
\n", "
\n", "
Albert
\n", "
\n", "
Einstein
\n", "
\n", "
634
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/11
\n", "
\n", "
up
\n", "
\n", "
6
\n", "
\n", "
Galileo
\n", "
\n", "
⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱GALiLEI
\n", "
\n", "
672
\n", "
\n", "
arepa
\n", "
\n", "
5
\n", "
\n", "
1930/08/12
\n", "
\n", "
never
\n", "
\n", "
7
\n", "
\n", "
CaRL
\n", "
\n", "
Ga%%%uss
\n", "
\n", "
323
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1970/07/13
\n", "
\n", "
gonna
\n", "
\n", "
8
\n", "
\n", "
David
\n", "
\n", "
H$$$ilbert
\n", "
\n", "
624
\n", "
\n", "
taaaccoo
\n", "
\n", "
3
\n", "
\n", "
1950/07/14
\n", "
\n", "
let
\n", "
\n", "
9
\n", "
\n", "
Johannes
\n", "
\n", "
KEPLER
\n", "
\n", "
735
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1920/04/22
\n", "
\n", "
you
\n", "
\n", "
10
\n", "
\n", "
JaMES
\n", "
\n", "
M$$ax%%well
\n", "
\n", "
875
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1923/03/12
\n", "
\n", "
down
\n", "
\n", "
11
\n", "
\n", "
Isaac
\n", "
\n", "
Newton
\n", "
\n", "
992
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1999/02/15
\n", "
\n", "
never⸱
\n", "
\n", "
12
\n", "
\n", "
Emmy%%
\n", "
\n", "
Nöether$
\n", "
\n", "
234
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1993/12/08
\n", "
\n", "
gonna
\n", "
\n", "
13
\n", "
\n", "
Max!!!
\n", "
\n", "
Planck!!!
\n", "
\n", "
111
\n", "
\n", "
hamburguer
\n", "
\n", "
4
\n", "
\n", "
1994/01/04
\n", "
\n", "
run⸱
\n", "
\n", "
14
\n", "
\n", "
Fred
\n", "
\n", "
Hoy&&&le
\n", "
\n", "
553
\n", "
\n", "
pizzza
\n", "
\n", "
8
\n", "
\n", "
1997/06/27
\n", "
\n", "
around
\n", "
\n", "
15
\n", "
\n", "
(((⸱⸱⸱Heinrich⸱)))))
\n", "
\n", "
Hertz
\n", "
\n", "
116
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1956/11/30
\n", "
\n", "
and
\n", "
\n", "
16
\n", "
\n", "
William
\n", "
\n", "
Gilbert###
\n", "
\n", "
886
\n", "
\n", "
BEER
\n", "
\n", "
2
\n", "
\n", "
1958/03/26
\n", "
\n", "
desert
\n", "
\n", "
17
\n", "
\n", "
Marie
\n", "
\n", "
CURIE
\n", "
\n", "
912
\n", "
\n", "
Rice
\n", "
\n", "
1
\n", "
\n", "
2000/03/22
\n", "
\n", "
you
\n", "
\n", "
18
\n", "
\n", "
Arthur
\n", "
\n", "
COM%%%pton
\n", "
\n", "
812
\n", "
\n", "
110790
\n", "
\n", "
5
\n", "
\n", "
1899/01/01
\n", "
\n", "
#
\n", "
\n", "
19
\n", "
\n", "
JAMES
\n", "
\n", "
Chadwick
\n", "
\n", "
467
\n", "
\n", "
null
\n", "
\n", "
10
\n", "
\n", "
1921/05/03
\n", "
\n", "
#
\n", "
\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_csv =op.load.csv(\"https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/data/foo.csv\")\n", "df_csv.table()" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
billingId
\n", "
1 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
id
\n", "
5 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
6 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
7 (bigint)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
123
\n", "
\n", "
1980/07/07
\n", "
\n", "
never
\n", "
\n", "
Luis
\n", "
\n", "
1
\n", "
\n", "
Alvarez$$%!
\n", "
\n", "
10
\n", "
\n", "
Cake
\n", "
\n", "
423
\n", "
\n", "
1950/07/08
\n", "
\n", "
gonna
\n", "
\n", "
André
\n", "
\n", "
2
\n", "
\n", "
Ampère
\n", "
\n", "
8
\n", "
\n", "
piza
\n", "
\n", "
551
\n", "
\n", "
1990/07/09
\n", "
\n", "
give
\n", "
\n", "
NiELS
\n", "
\n", "
3
\n", "
\n", "
Böhr//((%%
\n", "
\n", "
8
\n", "
\n", "
pizza
\n", "
\n", "
521
\n", "
\n", "
1954/07/10
\n", "
\n", "
you
\n", "
\n", "
PAUL
\n", "
\n", "
4
\n", "
\n", "
dirac$
\n", "
\n", "
8
\n", "
\n", "
pizza
\n", "
\n", "
634
\n", "
\n", "
1990/07/11
\n", "
\n", "
up
\n", "
\n", "
Albert
\n", "
\n", "
5
\n", "
\n", "
Einstein
\n", "
\n", "
8
\n", "
\n", "
pizza
\n", "
\n", "
672
\n", "
\n", "
1930/08/12
\n", "
\n", "
never
\n", "
\n", "
Galileo
\n", "
\n", "
6
\n", "
\n", "
⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱GALiLEI
\n", "
\n", "
5
\n", "
\n", "
arepa
\n", "
\n", "
323
\n", "
\n", "
1970/07/13
\n", "
\n", "
gonna
\n", "
\n", "
CaRL
\n", "
\n", "
7
\n", "
\n", "
Ga%%%uss
\n", "
\n", "
3
\n", "
\n", "
taco
\n", "
\n", "
624
\n", "
\n", "
1950/07/14
\n", "
\n", "
let
\n", "
\n", "
David
\n", "
\n", "
8
\n", "
\n", "
H$$$ilbert
\n", "
\n", "
3
\n", "
\n", "
taaaccoo
\n", "
\n", "
735
\n", "
\n", "
1920/04/22
\n", "
\n", "
you
\n", "
\n", "
Johannes
\n", "
\n", "
9
\n", "
\n", "
KEPLER
\n", "
\n", "
3
\n", "
\n", "
taco
\n", "
\n", "
875
\n", "
\n", "
1923/03/12
\n", "
\n", "
down
\n", "
\n", "
JaMES
\n", "
\n", "
10
\n", "
\n", "
M$$ax%%well
\n", "
\n", "
3
\n", "
\n", "
taco
\n", "
\n", "
992
\n", "
\n", "
1999/02/15
\n", "
\n", "
never⸱
\n", "
\n", "
Isaac
\n", "
\n", "
11
\n", "
\n", "
Newton
\n", "
\n", "
9
\n", "
\n", "
pasta
\n", "
\n", "
234
\n", "
\n", "
1993/12/08
\n", "
\n", "
gonna
\n", "
\n", "
Emmy%%
\n", "
\n", "
12
\n", "
\n", "
Nöether$
\n", "
\n", "
9
\n", "
\n", "
pasta
\n", "
\n", "
111
\n", "
\n", "
1994/01/04
\n", "
\n", "
run⸱
\n", "
\n", "
Max!!!
\n", "
\n", "
13
\n", "
\n", "
Planck!!!
\n", "
\n", "
4
\n", "
\n", "
hamburguer
\n", "
\n", "
553
\n", "
\n", "
1997/06/27
\n", "
\n", "
around
\n", "
\n", "
Fred
\n", "
\n", "
14
\n", "
\n", "
Hoy&&&le
\n", "
\n", "
8
\n", "
\n", "
pizzza
\n", "
\n", "
116
\n", "
\n", "
1956/11/30
\n", "
\n", "
and
\n", "
\n", "
(((⸱⸱⸱Heinrich⸱)))))
\n", "
\n", "
15
\n", "
\n", "
Hertz
\n", "
\n", "
8
\n", "
\n", "
pizza
\n", "
\n", "
886
\n", "
\n", "
1958/03/26
\n", "
\n", "
desert
\n", "
\n", "
William
\n", "
\n", "
16
\n", "
\n", "
Gilbert###
\n", "
\n", "
2
\n", "
\n", "
BEER
\n", "
\n", "
912
\n", "
\n", "
2000/03/22
\n", "
\n", "
you
\n", "
\n", "
Marie
\n", "
\n", "
17
\n", "
\n", "
CURIE
\n", "
\n", "
1
\n", "
\n", "
Rice
\n", "
\n", "
812
\n", "
\n", "
1899/01/01
\n", "
\n", "
#
\n", "
\n", "
Arthur
\n", "
\n", "
18
\n", "
\n", "
COM%%%pton
\n", "
\n", "
5
\n", "
\n", "
110790
\n", "
\n", "
467
\n", "
\n", "
1921/05/03
\n", "
\n", "
#
\n", "
\n", "
JAMES
\n", "
\n", "
19
\n", "
\n", "
Chadwick
\n", "
\n", "
10
\n", "
\n", "
null
\n", "
\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_json =op.load.json(\"https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/data/foo.json\")\n", "df_json.table()" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "C:\\Users\\ARGENI~1\\AppData\\Local\\Temp\\tmpvhxr0yyy.parquet\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (int)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1
\n", "
\n", "
Luis
\n", "
\n", "
Alvarez$$%!
\n", "
\n", "
123
\n", "
\n", "
Cake
\n", "
\n", "
10
\n", "
\n", "
1980/07/07
\n", "
\n", "
never
\n", "
\n", "
2
\n", "
\n", "
André
\n", "
\n", "
Ampère
\n", "
\n", "
423
\n", "
\n", "
piza
\n", "
\n", "
8
\n", "
\n", "
1950/07/08
\n", "
\n", "
gonna
\n", "
\n", "
3
\n", "
\n", "
NiELS
\n", "
\n", "
Böhr//((%%
\n", "
\n", "
551
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/09
\n", "
\n", "
give
\n", "
\n", "
4
\n", "
\n", "
PAUL
\n", "
\n", "
dirac$
\n", "
\n", "
521
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1954/07/10
\n", "
\n", "
you
\n", "
\n", "
5
\n", "
\n", "
Albert
\n", "
\n", "
Einstein
\n", "
\n", "
634
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/11
\n", "
\n", "
up
\n", "
\n", "
6
\n", "
\n", "
Galileo
\n", "
\n", "
⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱GALiLEI
\n", "
\n", "
672
\n", "
\n", "
arepa
\n", "
\n", "
5
\n", "
\n", "
1930/08/12
\n", "
\n", "
never
\n", "
\n", "
7
\n", "
\n", "
CaRL
\n", "
\n", "
Ga%%%uss
\n", "
\n", "
323
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1970/07/13
\n", "
\n", "
gonna
\n", "
\n", "
8
\n", "
\n", "
David
\n", "
\n", "
H$$$ilbert
\n", "
\n", "
624
\n", "
\n", "
taaaccoo
\n", "
\n", "
3
\n", "
\n", "
1950/07/14
\n", "
\n", "
let
\n", "
\n", "
9
\n", "
\n", "
Johannes
\n", "
\n", "
KEPLER
\n", "
\n", "
735
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1920/04/22
\n", "
\n", "
you
\n", "
\n", "
10
\n", "
\n", "
JaMES
\n", "
\n", "
M$$ax%%well
\n", "
\n", "
875
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1923/03/12
\n", "
\n", "
down
\n", "
\n", "
11
\n", "
\n", "
Isaac
\n", "
\n", "
Newton
\n", "
\n", "
992
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1999/02/15
\n", "
\n", "
never⸱
\n", "
\n", "
12
\n", "
\n", "
Emmy%%
\n", "
\n", "
Nöether$
\n", "
\n", "
234
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1993/12/08
\n", "
\n", "
gonna
\n", "
\n", "
13
\n", "
\n", "
Max!!!
\n", "
\n", "
Planck!!!
\n", "
\n", "
111
\n", "
\n", "
hamburguer
\n", "
\n", "
4
\n", "
\n", "
1994/01/04
\n", "
\n", "
run⸱
\n", "
\n", "
14
\n", "
\n", "
Fred
\n", "
\n", "
Hoy&&&le
\n", "
\n", "
553
\n", "
\n", "
pizzza
\n", "
\n", "
8
\n", "
\n", "
1997/06/27
\n", "
\n", "
around
\n", "
\n", "
15
\n", "
\n", "
(((⸱⸱⸱Heinrich⸱)))))
\n", "
\n", "
Hertz
\n", "
\n", "
116
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1956/11/30
\n", "
\n", "
and
\n", "
\n", "
16
\n", "
\n", "
William
\n", "
\n", "
Gilbert###
\n", "
\n", "
886
\n", "
\n", "
BEER
\n", "
\n", "
2
\n", "
\n", "
1958/03/26
\n", "
\n", "
desert
\n", "
\n", "
17
\n", "
\n", "
Marie
\n", "
\n", "
CURIE
\n", "
\n", "
912
\n", "
\n", "
Rice
\n", "
\n", "
1
\n", "
\n", "
2000/03/22
\n", "
\n", "
you
\n", "
\n", "
18
\n", "
\n", "
Arthur
\n", "
\n", "
COM%%%pton
\n", "
\n", "
812
\n", "
\n", "
110790
\n", "
\n", "
5
\n", "
\n", "
1899/01/01
\n", "
\n", "
#
\n", "
\n", "
19
\n", "
\n", "
JAMES
\n", "
\n", "
Chadwick
\n", "
\n", "
467
\n", "
\n", "
null
\n", "
\n", "
10
\n", "
\n", "
1921/05/03
\n", "
\n", "
#
\n", "
\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df_parquet =op.load.parquet(\"https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/data/foo.parquet\")\n", "df_parquet.table()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "df_avro =op.load.avro(\"https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/data/foo.avro\", \"avro\")\n", "df_avro.table()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Save to file" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df_csv.save.csv(\"test.csv\") " ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df_csv.save.json(\"test.json\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df_csv.save.parquet(\"test.parquet\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "df_csv.save.avro(\"test.avro\")" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.1" } }, "nbformat": 4, "nbformat_minor": 2 }