{
"cells": [
{
"cell_type": "code",
"execution_count": 40,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"import h2o"
]
},
{
"cell_type": "code",
"execution_count": 41,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/html": [
"
H2O cluster uptime: | \n",
"33 seconds 365 milliseconds |
\n",
"H2O cluster version: | \n",
"3.7.0.99999 |
\n",
"H2O cluster name: | \n",
"spIdea |
\n",
"H2O cluster total nodes: | \n",
"1 |
\n",
"H2O cluster total free memory: | \n",
"12.42 GB |
\n",
"H2O cluster total cores: | \n",
"8 |
\n",
"H2O cluster allowed cores: | \n",
"8 |
\n",
"H2O cluster healthy: | \n",
"True |
\n",
"H2O Connection ip: | \n",
"127.0.0.1 |
\n",
"H2O Connection port: | \n",
"54321 |
\n",
"H2O Connection proxy: | \n",
"None |
\n",
"Python Version: | \n",
"3.5.0 |
"
],
"text/plain": [
"------------------------------ ---------------------------\n",
"H2O cluster uptime: 33 seconds 365 milliseconds\n",
"H2O cluster version: 3.7.0.99999\n",
"H2O cluster name: spIdea\n",
"H2O cluster total nodes: 1\n",
"H2O cluster total free memory: 12.42 GB\n",
"H2O cluster total cores: 8\n",
"H2O cluster allowed cores: 8\n",
"H2O cluster healthy: True\n",
"H2O Connection ip: 127.0.0.1\n",
"H2O Connection port: 54321\n",
"H2O Connection proxy:\n",
"Python Version: 3.5.0\n",
"------------------------------ ---------------------------"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"h2o.init()"
]
},
{
"cell_type": "code",
"execution_count": 42,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Parse Progress: [##################################################] 100%\n"
]
}
],
"source": [
"from h2o.utils.shared_utils import _locate # private function. used to find files within h2o git project directory.\n",
"\n",
"air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))"
]
},
{
"cell_type": "code",
"execution_count": 43,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/plain": [
"[43978, 31]"
]
},
"execution_count": 43,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"air.dim"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1086.0\n"
]
}
],
"source": [
"numNAs = air[\"DepTime\"].isna().sum()\n",
"print(numNAs)"
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[1345.846661382077]\n"
]
}
],
"source": [
"DepTime_mean = air[\"DepTime\"].mean(na_rm=True)\n",
"print(DepTime_mean)"
]
},
{
"cell_type": "code",
"execution_count": 46,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1086.0\n"
]
}
],
"source": [
"air.impute(\"DepTime\", method = \"median\", combine_method=\"low\") \n",
"numNAs = air[\"DepTime\"].isna().sum()\n",
"print(numNAs)"
]
},
{
"cell_type": "code",
"execution_count": 47,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Parse Progress: [##################################################] 100%\n"
]
}
],
"source": [
"air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))"
]
},
{
"cell_type": "code",
"execution_count": 48,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/html": [
"\n",
" Year | Month | DayofMonth | DayOfWeek | DepTime | CRSDepTime | ArrTime | CRSArrTime | UniqueCarrier | FlightNum | TailNum | ActualElapsedTime | CRSElapsedTime | AirTime | ArrDelay | DepDelay | Origin | Dest | Distance | TaxiIn | TaxiOut | Cancelled | CancellationCode | Diverted | CarrierDelay | WeatherDelay | NASDelay | SecurityDelay | LateAircraftDelay | IsArrDelayed | IsDepDelayed |
\n",
" 1987 | 10 | 14 | 3 | 741 | 730 | 912 | 849 | PS | 1451 | NA | 91 | 79 | nan | 23 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 15 | 4 | 729 | 730 | 903 | 849 | PS | 1451 | NA | 94 | 79 | nan | 14 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 17 | 6 | 741 | 730 | 918 | 849 | PS | 1451 | NA | 97 | 79 | nan | 29 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 18 | 7 | 729 | 730 | 847 | 849 | PS | 1451 | NA | 78 | 79 | nan | -2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 19 | 1 | 749 | 730 | 922 | 849 | PS | 1451 | NA | 93 | 79 | nan | 33 | 19 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 21 | 3 | 728 | 730 | 848 | 849 | PS | 1451 | NA | 80 | 79 | nan | -1 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 22 | 4 | 728 | 730 | 852 | 849 | PS | 1451 | NA | 84 | 79 | nan | 3 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 23 | 5 | 731 | 730 | 902 | 849 | PS | 1451 | NA | 91 | 79 | nan | 13 | 1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 24 | 6 | 744 | 730 | 908 | 849 | PS | 1451 | NA | 84 | 79 | nan | 19 | 14 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 25 | 7 | 729 | 730 | 851 | 849 | PS | 1451 | NA | 82 | 79 | nan | 2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"air.impute(\"DepTime\", method = \"mean\", by = [\"Origin\", \"Distance\"])"
]
},
{
"cell_type": "code",
"execution_count": 49,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Parse Progress: [##################################################] 100%\n"
]
}
],
"source": [
"air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))"
]
},
{
"cell_type": "code",
"execution_count": 50,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/html": [
"\n",
" Year | Month | DayofMonth | DayOfWeek | DepTime | CRSDepTime | ArrTime | CRSArrTime | UniqueCarrier | FlightNum | TailNum | ActualElapsedTime | CRSElapsedTime | AirTime | ArrDelay | DepDelay | Origin | Dest | Distance | TaxiIn | TaxiOut | Cancelled | CancellationCode | Diverted | CarrierDelay | WeatherDelay | NASDelay | SecurityDelay | LateAircraftDelay | IsArrDelayed | IsDepDelayed |
\n",
" 1987 | 10 | 14 | 3 | 741 | 730 | 912 | 849 | PS | 1451 | NA | 91 | 79 | nan | 23 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 15 | 4 | 729 | 730 | 903 | 849 | PS | 1451 | NA | 94 | 79 | nan | 14 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 17 | 6 | 741 | 730 | 918 | 849 | PS | 1451 | NA | 97 | 79 | nan | 29 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 18 | 7 | 729 | 730 | 847 | 849 | PS | 1451 | NA | 78 | 79 | nan | -2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 19 | 1 | 749 | 730 | 922 | 849 | PS | 1451 | NA | 93 | 79 | nan | 33 | 19 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 21 | 3 | 728 | 730 | 848 | 849 | PS | 1451 | NA | 80 | 79 | nan | -1 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 22 | 4 | 728 | 730 | 852 | 849 | PS | 1451 | NA | 84 | 79 | nan | 3 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 23 | 5 | 731 | 730 | 902 | 849 | PS | 1451 | NA | 91 | 79 | nan | 13 | 1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 24 | 6 | 744 | 730 | 908 | 849 | PS | 1451 | NA | 84 | 79 | nan | 19 | 14 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 25 | 7 | 729 | 730 | 851 | 849 | PS | 1451 | NA | 82 | 79 | nan | 2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"air.impute(\"TailNum\", method = \"mode\")"
]
},
{
"cell_type": "code",
"execution_count": 51,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Parse Progress: [##################################################] 100%\n"
]
}
],
"source": [
"air = h2o.upload_file(_locate(\"smalldata/airlines/allyears2k_headers.zip\"))"
]
},
{
"cell_type": "code",
"execution_count": 52,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/html": [
"\n",
" Year | Month | DayofMonth | DayOfWeek | DepTime | CRSDepTime | ArrTime | CRSArrTime | UniqueCarrier | FlightNum | TailNum | ActualElapsedTime | CRSElapsedTime | AirTime | ArrDelay | DepDelay | Origin | Dest | Distance | TaxiIn | TaxiOut | Cancelled | CancellationCode | Diverted | CarrierDelay | WeatherDelay | NASDelay | SecurityDelay | LateAircraftDelay | IsArrDelayed | IsDepDelayed |
\n",
" 1987 | 10 | 14 | 3 | 741 | 730 | 912 | 849 | PS | 1451 | NA | 91 | 79 | nan | 23 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 15 | 4 | 729 | 730 | 903 | 849 | PS | 1451 | NA | 94 | 79 | nan | 14 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 17 | 6 | 741 | 730 | 918 | 849 | PS | 1451 | NA | 97 | 79 | nan | 29 | 11 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 18 | 7 | 729 | 730 | 847 | 849 | PS | 1451 | NA | 78 | 79 | nan | -2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 19 | 1 | 749 | 730 | 922 | 849 | PS | 1451 | NA | 93 | 79 | nan | 33 | 19 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 21 | 3 | 728 | 730 | 848 | 849 | PS | 1451 | NA | 80 | 79 | nan | -1 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | NO | NO |
\n",
" 1987 | 10 | 22 | 4 | 728 | 730 | 852 | 849 | PS | 1451 | NA | 84 | 79 | nan | 3 | -2 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
" 1987 | 10 | 23 | 5 | 731 | 730 | 902 | 849 | PS | 1451 | NA | 91 | 79 | nan | 13 | 1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 24 | 6 | 744 | 730 | 908 | 849 | PS | 1451 | NA | 84 | 79 | nan | 19 | 14 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | YES |
\n",
" 1987 | 10 | 25 | 7 | 729 | 730 | 851 | 849 | PS | 1451 | NA | 82 | 79 | nan | 2 | -1 | SAN | SFO | 447 | nan | nan | 0 | NA | 0 | nan | nan | nan | nan | nan | YES | NO |
\n",
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"air.impute(\"TailNum\", method = \"mode\", by=[\"Month\", \"Year\"])"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.5.0"
}
},
"nbformat": 4,
"nbformat_minor": 0
}