{ "cells": [ { "cell_type": "code", "execution_count": 40, "metadata": { "collapsed": false }, "outputs": [], "source": [ "import h2o" ] }, { "cell_type": "code", "execution_count": 41, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
H2O cluster uptime: 33 seconds 365 milliseconds
H2O cluster version: 3.7.0.99999
H2O cluster name: spIdea
H2O cluster total nodes: 1
H2O cluster total free memory: 12.42 GB
H2O cluster total cores: 8
H2O cluster allowed cores: 8
H2O cluster healthy: True
H2O Connection ip: 127.0.0.1
H2O Connection port: 54321
H2O Connection proxy: None
Python Version: 3.5.0
" ], "text/plain": [ "------------------------------ ---------------------------\n", "H2O cluster uptime: 33 seconds 365 milliseconds\n", "H2O cluster version: 3.7.0.99999\n", "H2O cluster name: spIdea\n", "H2O cluster total nodes: 1\n", "H2O cluster total free memory: 12.42 GB\n", "H2O cluster total cores: 8\n", "H2O cluster allowed cores: 8\n", "H2O cluster healthy: True\n", "H2O Connection ip: 127.0.0.1\n", "H2O Connection port: 54321\n", "H2O Connection proxy:\n", "Python Version: 3.5.0\n", "------------------------------ ---------------------------" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "h2o.init()" ] }, { "cell_type": "code", "execution_count": 42, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Parse Progress: [##################################################] 100%\n" ] } ], "source": [ "from h2o.utils.shared_utils import _locate # private function. used to find files within h2o git project directory.\n", "\n", "air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))" ] }, { "cell_type": "code", "execution_count": 43, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "[43978, 31]" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "air.dim" ] }, { "cell_type": "code", "execution_count": 44, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "1086.0\n" ] } ], "source": [ "numNAs = air[\"DepTime\"].isna().sum()\n", "print(numNAs)" ] }, { "cell_type": "code", "execution_count": 45, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[1345.846661382077]\n" ] } ], "source": [ "DepTime_mean = air[\"DepTime\"].mean(na_rm=True)\n", "print(DepTime_mean)" ] }, { "cell_type": "code", "execution_count": 46, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "1086.0\n" ] } ], "source": [ "air.impute(\"DepTime\", method = \"median\", combine_method=\"low\") \n", "numNAs = air[\"DepTime\"].isna().sum()\n", "print(numNAs)" ] }, { "cell_type": "code", "execution_count": 47, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Parse Progress: [##################################################] 100%\n" ] } ], "source": [ "air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))" ] }, { "cell_type": "code", "execution_count": 48, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "air.impute(\"DepTime\", method = \"mean\", by = [\"Origin\", \"Distance\"])" ] }, { "cell_type": "code", "execution_count": 49, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Parse Progress: [##################################################] 100%\n" ] } ], "source": [ "air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))" ] }, { "cell_type": "code", "execution_count": 50, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "air.impute(\"TailNum\", method = \"mode\")" ] }, { "cell_type": "code", "execution_count": 51, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Parse Progress: [##################################################] 100%\n" ] } ], "source": [ "air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))" ] }, { "cell_type": "code", "execution_count": 52, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "\n", "
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "air.impute(\"TailNum\", method = \"mode\", by=[\"Month\", \"Year\"])" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.5.0" } }, "nbformat": 4, "nbformat_minor": 0 }