{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import sys\n", "sys.path.append(\"..\")" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "from pyspark.sql import SparkSession\n", "spark = SparkSession.builder.appName('abc').getOrCreate()" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "df=spark.read.csv('data/foo.csv',header=True)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n" ] } ], "source": [ "from optimus import Optimus\n", "op = Optimus(spark)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
\n", "
id
\n", "
1 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
firstName
\n", "
2 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
lastName
\n", "
3 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
billingId
\n", "
4 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
product
\n", "
5 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
price
\n", "
6 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
birth
\n", "
7 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
dummyCol
\n", "
8 (string)
\n", "
\n", " \n", " nullable\n", " \n", "
\n", "
\n", "
1
\n", "
\n", "
Luis
\n", "
\n", "
Alvarez$$%!
\n", "
\n", "
123
\n", "
\n", "
Cake
\n", "
\n", "
10
\n", "
\n", "
1980/07/07
\n", "
\n", "
never
\n", "
\n", "
2
\n", "
\n", "
André
\n", "
\n", "
Ampère
\n", "
\n", "
423
\n", "
\n", "
piza
\n", "
\n", "
8
\n", "
\n", "
1950/07/08
\n", "
\n", "
gonna
\n", "
\n", "
3
\n", "
\n", "
NiELS
\n", "
\n", "
Böhr//((%%
\n", "
\n", "
551
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/09
\n", "
\n", "
give
\n", "
\n", "
4
\n", "
\n", "
PAUL
\n", "
\n", "
dirac$
\n", "
\n", "
521
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1954/07/10
\n", "
\n", "
you
\n", "
\n", "
5
\n", "
\n", "
Albert
\n", "
\n", "
Einstein
\n", "
\n", "
634
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1990/07/11
\n", "
\n", "
up
\n", "
\n", "
6
\n", "
\n", "
Galileo
\n", "
\n", "
⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱⸱GALiLEI
\n", "
\n", "
672
\n", "
\n", "
arepa
\n", "
\n", "
5
\n", "
\n", "
1930/08/12
\n", "
\n", "
never
\n", "
\n", "
7
\n", "
\n", "
CaRL
\n", "
\n", "
Ga%%%uss
\n", "
\n", "
323
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1970/07/13
\n", "
\n", "
gonna
\n", "
\n", "
8
\n", "
\n", "
David
\n", "
\n", "
H$$$ilbert
\n", "
\n", "
624
\n", "
\n", "
taaaccoo
\n", "
\n", "
3
\n", "
\n", "
1950/07/14
\n", "
\n", "
let
\n", "
\n", "
9
\n", "
\n", "
Johannes
\n", "
\n", "
KEPLER
\n", "
\n", "
735
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1920/04/22
\n", "
\n", "
you
\n", "
\n", "
10
\n", "
\n", "
JaMES
\n", "
\n", "
M$$ax%%well
\n", "
\n", "
875
\n", "
\n", "
taco
\n", "
\n", "
3
\n", "
\n", "
1923/03/12
\n", "
\n", "
down
\n", "
\n", "
11
\n", "
\n", "
Isaac
\n", "
\n", "
Newton
\n", "
\n", "
992
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1999/02/15
\n", "
\n", "
never⸱
\n", "
\n", "
12
\n", "
\n", "
Emmy%%
\n", "
\n", "
Nöether$
\n", "
\n", "
234
\n", "
\n", "
pasta
\n", "
\n", "
9
\n", "
\n", "
1993/12/08
\n", "
\n", "
gonna
\n", "
\n", "
13
\n", "
\n", "
Max!!!
\n", "
\n", "
Planck!!!
\n", "
\n", "
111
\n", "
\n", "
hamburguer
\n", "
\n", "
4
\n", "
\n", "
1994/01/04
\n", "
\n", "
run⸱
\n", "
\n", "
14
\n", "
\n", "
Fred
\n", "
\n", "
Hoy&&&le
\n", "
\n", "
553
\n", "
\n", "
pizzza
\n", "
\n", "
8
\n", "
\n", "
1997/06/27
\n", "
\n", "
around
\n", "
\n", "
15
\n", "
\n", "
(((⸱⸱⸱Heinrich⸱)))))
\n", "
\n", "
Hertz
\n", "
\n", "
116
\n", "
\n", "
pizza
\n", "
\n", "
8
\n", "
\n", "
1956/11/30
\n", "
\n", "
and
\n", "
\n", "
16
\n", "
\n", "
William
\n", "
\n", "
Gilbert###
\n", "
\n", "
886
\n", "
\n", "
BEER
\n", "
\n", "
2
\n", "
\n", "
1958/03/26
\n", "
\n", "
desert
\n", "
\n", "
17
\n", "
\n", "
Marie
\n", "
\n", "
CURIE
\n", "
\n", "
912
\n", "
\n", "
Rice
\n", "
\n", "
1
\n", "
\n", "
2000/03/22
\n", "
\n", "
you
\n", "
\n", "
18
\n", "
\n", "
Arthur
\n", "
\n", "
COM%%%pton
\n", "
\n", "
812
\n", "
\n", "
110790
\n", "
\n", "
5
\n", "
\n", "
1899/01/01
\n", "
\n", "
#
\n", "
\n", "
19
\n", "
\n", "
JAMES
\n", "
\n", "
Chadwick
\n", "
\n", "
467
\n", "
\n", "
null
\n", "
\n", "
10
\n", "
\n", "
1921/05/03
\n", "
\n", "
#
\n", "
\n", "\n", "\n", "
Viewing 19 of 19 rows / 8 columns
\n", "
1 partition(s)
\n" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.table()" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.1" } }, "nbformat": 4, "nbformat_minor": 2 }