{ "cells": [ { "cell_type": "code", "execution_count": 2, "metadata": { "collapsed": true }, "outputs": [], "source": [ "from dask.distributed import Client\n", "c = Client()\n", "import dask.dataframe as dd" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "collapsed": true }, "outputs": [], "source": [ "s = dd.read_parquet('/bigdata/subway.parquet')" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "collapsed": false }, "outputs": [], "source": [ "s = c.persist(s.set_index('ca', npartitions=200))" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "collapsed": true }, "outputs": [], "source": [ "s.to_parquet('/bigdata/subway2.parquet')" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | unit | \n", "scp | \n", "station | \n", "linename | \n", "division | \n", "description | \n", "cumul_entries | \n", "cumul_exits | \n", "
---|---|---|---|---|---|---|---|---|
ca | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
55 | \n", "R508 | \n", "00-00-01 | \n", "NULL | \n", "NULL | \n", "NULL | \n", "REGULAR | \n", "24 | \n", "1 | \n", "
55 | \n", "R508 | \n", "00-00-01 | \n", "NULL | \n", "NULL | \n", "NULL | \n", "REGULAR | \n", "24 | \n", "1 | \n", "
55 | \n", "R508 | \n", "00-00-01 | \n", "NULL | \n", "NULL | \n", "NULL | \n", "REGULAR | \n", "24 | \n", "1 | \n", "
55 | \n", "R508 | \n", "00-00-01 | \n", "NULL | \n", "NULL | \n", "NULL | \n", "REGULAR | \n", "24 | \n", "1 | \n", "
55 | \n", "R508 | \n", "00-00-01 | \n", "NULL | \n", "NULL | \n", "NULL | \n", "REGULAR | \n", "24 | \n", "1 | \n", "
\n", " | \n", " | \n", " | station | \n", "
---|---|---|---|
ca | \n", "unit | \n", "scp | \n", "\n", " |
A002 | \n", "R051 | \n", "02-00-00 | \n", "15997 | \n", "
02-00-01 | \n", "16200 | \n", "||
02-03-00 | \n", "15921 | \n", "||
02-03-01 | \n", "16112 | \n", "||
02-03-02 | \n", "15861 | \n", "||
02-03-03 | \n", "15884 | \n", "||
02-03-04 | \n", "15874 | \n", "||
02-03-05 | \n", "16027 | \n", "||
02-03-06 | \n", "15908 | \n", "||
02-05-00 | \n", "15815 | \n", "||
02-05-01 | \n", "15713 | \n", "||
02-06-00 | \n", "16140 | \n", "||
A006 | \n", "R079 | \n", "00-00-00 | \n", "16300 | \n", "
00-00-01 | \n", "16078 | \n", "||
00-00-02 | \n", "16223 | \n", "||
00-00-03 | \n", "16044 | \n", "||
00-00-04 | \n", "16033 | \n", "||
00-03-00 | \n", "16058 | \n", "||
00-03-01 | \n", "16089 | \n", "||
00-03-02 | \n", "16069 | \n", "||
A007 | \n", "R079 | \n", "01-05-00 | \n", "15752 | \n", "
01-05-01 | \n", "15725 | \n", "||
01-06-00 | \n", "16152 | \n", "||
01-06-01 | \n", "16126 | \n", "||
01-06-02 | \n", "16121 | \n", "||
01-06-03 | \n", "16363 | \n", "||
A010 | \n", "R080 | \n", "00-00-00 | \n", "17654 | \n", "
00-00-01 | \n", "17187 | \n", "||
00-00-02 | \n", "17117 | \n", "||
00-00-03 | \n", "16938 | \n", "||
... | \n", "... | \n", "... | \n", "... | \n", "
PTH22 | \n", "R540 | \n", "02-02-01 | \n", "291 | \n", "
02-02-02 | \n", "288 | \n", "||
02-02-03 | \n", "292 | \n", "||
02-02-04 | \n", "291 | \n", "||
02-02-05 | \n", "293 | \n", "||
02-02-06 | \n", "292 | \n", "||
02-02-07 | \n", "291 | \n", "||
02-03-00 | \n", "291 | \n", "||
02-03-01 | \n", "291 | \n", "||
02-03-02 | \n", "284 | \n", "||
02-03-03 | \n", "292 | \n", "||
02-03-04 | \n", "291 | \n", "||
02-03-05 | \n", "291 | \n", "||
02-03-06 | \n", "290 | \n", "||
02-03-07 | \n", "284 | \n", "||
02-04-00 | \n", "291 | \n", "||
02-04-02 | \n", "258 | \n", "||
02-04-03 | \n", "257 | \n", "||
02-04-04 | \n", "257 | \n", "||
02-04-05 | \n", "256 | \n", "||
02-04-06 | \n", "257 | \n", "||
02-04-07 | \n", "257 | \n", "||
02-05-00 | \n", "257 | \n", "||
02-05-01 | \n", "257 | \n", "||
02-05-02 | \n", "256 | \n", "||
02-05-03 | \n", "258 | \n", "||
02-05-05 | \n", "250 | \n", "||
TRAM1 | \n", "R468 | \n", "00-03-00 | \n", "3 | \n", "
00-03-01 | \n", "3 | \n", "||
00-05-01 | \n", "3 | \n", "
5217 rows × 1 columns
\n", "