{ "metadata": { "name": "", "signature": "sha256:9b550808aac6fe6a5d1ca87554b77c90785eb1a5c9e1b8a24272932cac50efaf" }, "nbformat": 3, "nbformat_minor": 0, "worksheets": [ { "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "This tutorial , uses multivariate regression to predict house price. The high level goal is the use multiple features (size , number of bedrooms,bathrooms etc) to predict the price of a house. This tutorial is a self-paced tutorial.\n", "\n", "The language used throughout will be Python and libraries available in python for scientific and machine learning applications.\n", "\n", "One of the Python tools, the IPython notebook = interactive Python rendered as HTML, you're watching right now. We'll go over other practical tools, widely used in the data science industry, below." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", " | \n", " | BATHS | \n", "BEDS | \n", "LAST SALE PRICE | \n", "LIST PRICE | \n", "LOT SIZE | \n", "ORIGINAL LIST PRICE | \n", "PARKING SPOTS | \n", "YEAR BUILT | \n", "
---|---|---|---|---|---|---|---|---|---|
SQFT | \n", "\n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " | \n", " |
1500 | \n", "count | \n", "1.0 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1 | \n", "1.000000 | \n", "
mean | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
std | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "|
min | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
25% | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
50% | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
75% | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
max | \n", "2.0 | \n", "3.000000 | \n", "583000.000000 | \n", "583000.000000 | \n", "6139.000000 | \n", "557300.000000 | \n", "2 | \n", "1978.000000 | \n", "|
1504 | \n", "count | \n", "3.0 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3.000000 | \n", "3 | \n", "3.000000 | \n", "
mean | \n", "2.0 | \n", "3.666667 | \n", "731166.666667 | \n", "687462.666667 | \n", "5837.666667 | \n", "649296.000000 | \n", "2 | \n", "1974.333333 | \n", "|
std | \n", "0.0 | \n", "0.577350 | \n", "42826.199146 | \n", "34081.757310 | \n", "467.639106 | \n", "50501.236104 | \n", "0 | \n", "10.115994 | \n", "|
min | \n", "2.0 | \n", "3.000000 | \n", "700000.000000 | \n", "648888.000000 | \n", "5390.000000 | \n", "599000.000000 | \n", "2 | \n", "1968.000000 | \n", "|
25% | \n", "2.0 | \n", "3.500000 | \n", "706750.000000 | \n", "674444.000000 | \n", "5595.000000 | \n", "623944.000000 | \n", "2 | \n", "1968.500000 | \n", "|
50% | \n", "2.0 | \n", "4.000000 | \n", "713500.000000 | \n", "700000.000000 | \n", "5800.000000 | \n", "648888.000000 | \n", "2 | \n", "1969.000000 | \n", "|
75% | \n", "2.0 | \n", "4.000000 | \n", "746750.000000 | \n", "706750.000000 | \n", "6061.500000 | \n", "674444.000000 | \n", "2 | \n", "1977.500000 | \n", "|
max | \n", "2.0 | \n", "4.000000 | \n", "780000.000000 | \n", "713500.000000 | \n", "6323.000000 | \n", "700000.000000 | \n", "2 | \n", "1986.000000 | \n", "|
1507 | \n", "count | \n", "1.0 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1 | \n", "1.000000 | \n", "
mean | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
std | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "|
min | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
25% | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
50% | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
75% | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
max | \n", "2.0 | \n", "4.000000 | \n", "498000.000000 | \n", "450000.000000 | \n", "6323.000000 | \n", "450000.000000 | \n", "2 | \n", "1969.000000 | \n", "|
1523 | \n", "count | \n", "1.0 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1 | \n", "1.000000 | \n", "
mean | \n", "2.0 | \n", "3.000000 | \n", "626000.000000 | \n", "620000.000000 | \n", "9241.000000 | \n", "650000.000000 | \n", "2 | \n", "1974.000000 | \n", "|
std | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "|
min | \n", "2.0 | \n", "3.000000 | \n", "626000.000000 | \n", "620000.000000 | \n", "9241.000000 | \n", "650000.000000 | \n", "2 | \n", "1974.000000 | \n", "|
25% | \n", "2.0 | \n", "3.000000 | \n", "626000.000000 | \n", "620000.000000 | \n", "9241.000000 | \n", "650000.000000 | \n", "2 | \n", "1974.000000 | \n", "|
50% | \n", "2.0 | \n", "3.000000 | \n", "626000.000000 | \n", "620000.000000 | \n", "9241.000000 | \n", "650000.000000 | \n", "2 | \n", "1974.000000 | \n", "|
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
1936 | \n", "std | \n", "0.0 | \n", "0.000000 | \n", "255265.548008 | \n", "248265.190875 | \n", "1675.135965 | \n", "218849.548777 | \n", "0 | \n", "1.414214 | \n", "
min | \n", "3.0 | \n", "4.000000 | \n", "485000.000000 | \n", "484900.000000 | \n", "6400.000000 | \n", "526500.000000 | \n", "2 | \n", "1973.000000 | \n", "|
25% | \n", "3.0 | \n", "4.000000 | \n", "575250.000000 | \n", "572675.000000 | \n", "6992.250000 | \n", "603875.000000 | \n", "2 | \n", "1973.500000 | \n", "|
50% | \n", "3.0 | \n", "4.000000 | \n", "665500.000000 | \n", "660450.000000 | \n", "7584.500000 | \n", "681250.000000 | \n", "2 | \n", "1974.000000 | \n", "|
75% | \n", "3.0 | \n", "4.000000 | \n", "755750.000000 | \n", "748225.000000 | \n", "8176.750000 | \n", "758625.000000 | \n", "2 | \n", "1974.500000 | \n", "|
max | \n", "3.0 | \n", "4.000000 | \n", "846000.000000 | \n", "836000.000000 | \n", "8769.000000 | \n", "836000.000000 | \n", "2 | \n", "1975.000000 | \n", "|
1942 | \n", "count | \n", "1.0 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1 | \n", "1.000000 | \n", "
mean | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
std | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "|
min | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
25% | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
50% | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
75% | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
max | \n", "2.0 | \n", "4.000000 | \n", "595000.000000 | \n", "564900.000000 | \n", "6205.000000 | \n", "564900.000000 | \n", "2 | \n", "1973.000000 | \n", "|
1958 | \n", "count | \n", "1.0 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1.000000 | \n", "1 | \n", "1.000000 | \n", "
mean | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
std | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "|
min | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
25% | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
50% | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
75% | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
max | \n", "2.0 | \n", "4.000000 | \n", "690000.000000 | \n", "649000.000000 | \n", "6828.000000 | \n", "649000.000000 | \n", "2 | \n", "1985.000000 | \n", "|
1988 | \n", "count | \n", "4.0 | \n", "4.000000 | \n", "4.000000 | \n", "4.000000 | \n", "4.000000 | \n", "4.000000 | \n", "4 | \n", "4.000000 | \n", "
mean | \n", "2.5 | \n", "3.750000 | \n", "683750.000000 | \n", "678997.000000 | \n", "5538.500000 | \n", "683747.000000 | \n", "2 | \n", "1992.000000 | \n", "|
std | \n", "0.0 | \n", "0.500000 | \n", "113164.702978 | \n", "102146.130793 | \n", "884.457838 | \n", "92866.140417 | \n", "0 | \n", "1.154701 | \n", "|
min | \n", "2.5 | \n", "3.000000 | \n", "515000.000000 | \n", "529000.000000 | \n", "4576.000000 | \n", "548000.000000 | \n", "2 | \n", "1991.000000 | \n", "|
25% | \n", "2.5 | \n", "3.750000 | \n", "672500.000000 | \n", "657241.000000 | \n", "5105.500000 | \n", "661991.000000 | \n", "2 | \n", "1991.000000 | \n", "|
50% | \n", "2.5 | \n", "4.000000 | \n", "732500.000000 | \n", "719494.000000 | \n", "5438.500000 | \n", "719494.000000 | \n", "2 | \n", "1992.000000 | \n", "|
75% | \n", "2.5 | \n", "4.000000 | \n", "743750.000000 | \n", "741250.000000 | \n", "5871.500000 | \n", "741250.000000 | \n", "2 | \n", "1993.000000 | \n", "|
max | \n", "2.5 | \n", "4.000000 | \n", "755000.000000 | \n", "748000.000000 | \n", "6701.000000 | \n", "748000.000000 | \n", "2 | \n", "1993.000000 | \n", "
504 rows \u00d7 8 columns
\n", "