{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Faster First EDA with pandas-profiling"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"# importing required packages\n",
"import pandas as pd\n",
"import pandas_profiling\n",
"import numpy as np"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"# importing the data\n",
"df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Name | \n",
" Sex | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Ticket | \n",
" Fare | \n",
" Cabin | \n",
" Embarked | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 3 | \n",
" Braund, Mr. Owen Harris | \n",
" male | \n",
" 22.0 | \n",
" 1 | \n",
" 0 | \n",
" A/5 21171 | \n",
" 7.2500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 1 | \n",
" 2 | \n",
" 1 | \n",
" 1 | \n",
" Cumings, Mrs. John Bradley (Florence Briggs Th... | \n",
" female | \n",
" 38.0 | \n",
" 1 | \n",
" 0 | \n",
" PC 17599 | \n",
" 71.2833 | \n",
" C85 | \n",
" C | \n",
"
\n",
" \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 3 | \n",
" Heikkinen, Miss. Laina | \n",
" female | \n",
" 26.0 | \n",
" 0 | \n",
" 0 | \n",
" STON/O2. 3101282 | \n",
" 7.9250 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 3 | \n",
" 4 | \n",
" 1 | \n",
" 1 | \n",
" Futrelle, Mrs. Jacques Heath (Lily May Peel) | \n",
" female | \n",
" 35.0 | \n",
" 1 | \n",
" 0 | \n",
" 113803 | \n",
" 53.1000 | \n",
" C123 | \n",
" S | \n",
"
\n",
" \n",
" 4 | \n",
" 5 | \n",
" 0 | \n",
" 3 | \n",
" Allen, Mr. William Henry | \n",
" male | \n",
" 35.0 | \n",
" 0 | \n",
" 0 | \n",
" 373450 | \n",
" 8.0500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" PassengerId Survived Pclass \\\n",
"0 1 0 3 \n",
"1 2 1 1 \n",
"2 3 1 3 \n",
"3 4 1 1 \n",
"4 5 0 3 \n",
"\n",
" Name Sex Age SibSp \\\n",
"0 Braund, Mr. Owen Harris male 22.0 1 \n",
"1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 \n",
"2 Heikkinen, Miss. Laina female 26.0 0 \n",
"3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 \n",
"4 Allen, Mr. William Henry male 35.0 0 \n",
"\n",
" Parch Ticket Fare Cabin Embarked \n",
"0 0 A/5 21171 7.2500 NaN S \n",
"1 0 PC 17599 71.2833 C85 C \n",
"2 0 STON/O2. 3101282 7.9250 NaN S \n",
"3 0 113803 53.1000 C123 S \n",
"4 0 373450 8.0500 NaN S "
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# checking the head\n",
"df.head()"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Fare | \n",
"
\n",
" \n",
" \n",
" \n",
" count | \n",
" 891.000000 | \n",
" 891.000000 | \n",
" 891.000000 | \n",
" 714.000000 | \n",
" 891.000000 | \n",
" 891.000000 | \n",
" 891.000000 | \n",
"
\n",
" \n",
" mean | \n",
" 446.000000 | \n",
" 0.383838 | \n",
" 2.308642 | \n",
" 29.699118 | \n",
" 0.523008 | \n",
" 0.381594 | \n",
" 32.204208 | \n",
"
\n",
" \n",
" std | \n",
" 257.353842 | \n",
" 0.486592 | \n",
" 0.836071 | \n",
" 14.526497 | \n",
" 1.102743 | \n",
" 0.806057 | \n",
" 49.693429 | \n",
"
\n",
" \n",
" min | \n",
" 1.000000 | \n",
" 0.000000 | \n",
" 1.000000 | \n",
" 0.420000 | \n",
" 0.000000 | \n",
" 0.000000 | \n",
" 0.000000 | \n",
"
\n",
" \n",
" 25% | \n",
" 223.500000 | \n",
" 0.000000 | \n",
" 2.000000 | \n",
" 20.125000 | \n",
" 0.000000 | \n",
" 0.000000 | \n",
" 7.910400 | \n",
"
\n",
" \n",
" 50% | \n",
" 446.000000 | \n",
" 0.000000 | \n",
" 3.000000 | \n",
" 28.000000 | \n",
" 0.000000 | \n",
" 0.000000 | \n",
" 14.454200 | \n",
"
\n",
" \n",
" 75% | \n",
" 668.500000 | \n",
" 1.000000 | \n",
" 3.000000 | \n",
" 38.000000 | \n",
" 1.000000 | \n",
" 0.000000 | \n",
" 31.000000 | \n",
"
\n",
" \n",
" max | \n",
" 891.000000 | \n",
" 1.000000 | \n",
" 3.000000 | \n",
" 80.000000 | \n",
" 8.000000 | \n",
" 6.000000 | \n",
" 512.329200 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" PassengerId Survived Pclass Age SibSp \\\n",
"count 891.000000 891.000000 891.000000 714.000000 891.000000 \n",
"mean 446.000000 0.383838 2.308642 29.699118 0.523008 \n",
"std 257.353842 0.486592 0.836071 14.526497 1.102743 \n",
"min 1.000000 0.000000 1.000000 0.420000 0.000000 \n",
"25% 223.500000 0.000000 2.000000 20.125000 0.000000 \n",
"50% 446.000000 0.000000 3.000000 28.000000 0.000000 \n",
"75% 668.500000 1.000000 3.000000 38.000000 1.000000 \n",
"max 891.000000 1.000000 3.000000 80.000000 8.000000 \n",
"\n",
" Parch Fare \n",
"count 891.000000 891.000000 \n",
"mean 0.381594 32.204208 \n",
"std 0.806057 49.693429 \n",
"min 0.000000 0.000000 \n",
"25% 0.000000 7.910400 \n",
"50% 0.000000 14.454200 \n",
"75% 0.000000 31.000000 \n",
"max 6.000000 512.329200 "
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# descriptive statistics\n",
"df.describe()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Create an inline report**"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {
"scrolled": false
},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"\n",
"\n",
"\n",
"
\n",
"
Overview
\n",
" \n",
"
\n",
"
\n",
"
Dataset info
\n",
"
\n",
" \n",
" \n",
" Number of variables | \n",
" 12 | \n",
"
\n",
" \n",
" Number of observations | \n",
" 891 | \n",
"
\n",
" \n",
" Total Missing (%) | \n",
" 8.1% | \n",
"
\n",
" \n",
" Total size in memory | \n",
" 83.6 KiB | \n",
"
\n",
" \n",
" Average record size in memory | \n",
" 96.1 B | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
Variables types
\n",
"
\n",
" \n",
" \n",
" Numeric | \n",
" 6 | \n",
"
\n",
" \n",
" Categorical | \n",
" 4 | \n",
"
\n",
" \n",
" Boolean | \n",
" 1 | \n",
"
\n",
" \n",
" Date | \n",
" 0 | \n",
"
\n",
" \n",
" Text (Unique) | \n",
" 1 | \n",
"
\n",
" \n",
" Rejected | \n",
" 0 | \n",
"
\n",
" \n",
" Unsupported | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
" \n",
"
Warnings
\n",
"
Age
has 177 / 19.9% missing values MissingCabin
has 687 / 77.1% missing values MissingCabin
has a high cardinality: 148 distinct values WarningFare
has 15 / 1.7% zeros ZerosParch
has 678 / 76.1% zeros ZerosSibSp
has 608 / 68.2% zeros ZerosTicket
has a high cardinality: 681 distinct values Warning
\n",
"
\n",
"
\n",
"
\n",
"
Variables
\n",
" \n",
"
\n",
"
\n",
"
Age
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 89 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 10.0% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 19.9% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 177 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 29.699 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0.42 | \n",
"
\n",
" \n",
" Maximum | \n",
" 80 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0.42 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 4 | \n",
"
\n",
" \n",
" Q1 | \n",
" 20.125 | \n",
"
\n",
" \n",
" Median | \n",
" 28 | \n",
"
\n",
" \n",
" Q3 | \n",
" 38 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 56 | \n",
"
\n",
" \n",
" Maximum | \n",
" 80 | \n",
"
\n",
" \n",
" Range | \n",
" 79.58 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 17.875 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 14.526 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.48912 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 0.17827 | \n",
"
\n",
" \n",
" Mean | \n",
" 29.699 | \n",
"
\n",
" \n",
" MAD | \n",
" 11.323 | \n",
"
\n",
" \n",
" Skewness | \n",
" 0.38911 | \n",
"
\n",
" \n",
" Sum | \n",
" 21205 | \n",
"
\n",
" \n",
" Variance | \n",
" 211.02 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 24.0 | \n",
" 30 | \n",
" 3.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 22.0 | \n",
" 27 | \n",
" 3.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 18.0 | \n",
" 26 | \n",
" 2.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 28.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 19.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 30.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 21.0 | \n",
" 24 | \n",
" 2.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 25.0 | \n",
" 23 | \n",
" 2.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 36.0 | \n",
" 22 | \n",
" 2.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 29.0 | \n",
" 20 | \n",
" 2.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (78) | \n",
" 467 | \n",
" 52.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 177 | \n",
" 19.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0.42 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.67 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.75 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.83 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.92 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 70.0 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 70.5 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 71.0 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 74.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 80.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Cabin
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 148 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 16.6% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 77.1% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 687 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" G6 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" C23 C25 C27 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" B96 B98 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" Other values (144) | \n",
" \n",
" \n",
" 192\n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" \n",
" \n",
" 687\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" G6 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C23 C25 C27 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" B96 B98 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" D | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" F2 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" F33 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C22 C26 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E101 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E121 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E8 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (137) | \n",
" 173 | \n",
" 19.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 687 | \n",
" 77.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Embarked
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 4 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.4% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 2 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" S | \n",
" \n",
" \n",
" 644\n",
" \n",
" \n",
" | \n",
"
\n",
" C | \n",
" \n",
" \n",
" 168\n",
" \n",
" \n",
" | \n",
"
\n",
" Q | \n",
" \n",
" \n",
" \n",
" \n",
" 77\n",
" | \n",
"
\n",
" (Missing) | \n",
" \n",
" \n",
" \n",
" \n",
" 2\n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" S | \n",
" 644 | \n",
" 72.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C | \n",
" 168 | \n",
" 18.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Q | \n",
" 77 | \n",
" 8.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Fare
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 248 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 27.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 32.204 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 512.33 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 1.7% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 7.225 | \n",
"
\n",
" \n",
" Q1 | \n",
" 7.9104 | \n",
"
\n",
" \n",
" Median | \n",
" 14.454 | \n",
"
\n",
" \n",
" Q3 | \n",
" 31 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 112.08 | \n",
"
\n",
" \n",
" Maximum | \n",
" 512.33 | \n",
"
\n",
" \n",
" Range | \n",
" 512.33 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 23.09 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 49.693 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 1.5431 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 33.398 | \n",
"
\n",
" \n",
" Mean | \n",
" 32.204 | \n",
"
\n",
" \n",
" MAD | \n",
" 28.164 | \n",
"
\n",
" \n",
" Skewness | \n",
" 4.7873 | \n",
"
\n",
" \n",
" Sum | \n",
" 28694 | \n",
"
\n",
" \n",
" Variance | \n",
" 2469.4 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 8.05 | \n",
" 43 | \n",
" 4.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 13.0 | \n",
" 42 | \n",
" 4.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.8958 | \n",
" 38 | \n",
" 4.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.75 | \n",
" 34 | \n",
" 3.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 26.0 | \n",
" 31 | \n",
" 3.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 10.5 | \n",
" 24 | \n",
" 2.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.925 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.775 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 26.55 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.0 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (238) | \n",
" 615 | \n",
" 69.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0.0 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4.0125 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6.2375 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6.4375 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 227.525 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 247.5208 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 262.375 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 263.0 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 512.3292 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Name
\n",
" Categorical, Unique\n",
"
\n",
"
\n",
" \n",
" \n",
" First 3 values | \n",
"
\n",
" \n",
" \n",
" \n",
" Hansen, Mr. Henrik Juul | \n",
"
\n",
" \n",
" Aubart, Mme. Leontine Pauline | \n",
"
\n",
" \n",
" Abbott, Mrs. Stanton (Rosa Hunt) | \n",
"
\n",
" \n",
"
\n",
"
\n",
" \n",
" \n",
" Last 3 values | \n",
"
\n",
" \n",
" \n",
" \n",
" Pickard, Mr. Berk (Berk Trembisky) | \n",
"
\n",
" \n",
" Goldenberg, Mrs. Samuel L (Edwiga Grabowska) | \n",
"
\n",
" \n",
" Karlsson, Mr. Nils August | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
First 10 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" Abbing, Mr. Anthony | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abbott, Mr. Rossmore Edward | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abbott, Mrs. Stanton (Rosa Hunt) | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abelson, Mr. Samuel | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abelson, Mrs. Samuel (Hannah Wizosky) | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Last 10 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" de Mulder, Mr. Theodore | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" de Pelsmaeker, Mr. Alfons | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" del Carlo, Mr. Sebastiano | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" van Billiard, Mr. Austin Blyler | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" van Melkebeke, Mr. Philemon | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Parch
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 7 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 0.38159 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 6 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 76.1% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 0 | \n",
"
\n",
" \n",
" Q1 | \n",
" 0 | \n",
"
\n",
" \n",
" Median | \n",
" 0 | \n",
"
\n",
" \n",
" Q3 | \n",
" 0 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 2 | \n",
"
\n",
" \n",
" Maximum | \n",
" 6 | \n",
"
\n",
" \n",
" Range | \n",
" 6 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 0.80606 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 2.1123 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 9.7781 | \n",
"
\n",
" \n",
" Mean | \n",
" 0.38159 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.58074 | \n",
"
\n",
" \n",
" Skewness | \n",
" 2.7491 | \n",
"
\n",
" \n",
" Sum | \n",
" 340 | \n",
"
\n",
" \n",
" Variance | \n",
" 0.64973 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 678 | \n",
" 76.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 118 | \n",
" 13.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 678 | \n",
" 76.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 118 | \n",
" 13.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
PassengerId
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 891 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 100.0% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 446 | \n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" Maximum | \n",
" 891 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 45.5 | \n",
"
\n",
" \n",
" Q1 | \n",
" 223.5 | \n",
"
\n",
" \n",
" Median | \n",
" 446 | \n",
"
\n",
" \n",
" Q3 | \n",
" 668.5 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 846.5 | \n",
"
\n",
" \n",
" Maximum | \n",
" 891 | \n",
"
\n",
" \n",
" Range | \n",
" 890 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 445 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 257.35 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.57703 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" -1.2 | \n",
"
\n",
" \n",
" Mean | \n",
" 446 | \n",
"
\n",
" \n",
" MAD | \n",
" 222.75 | \n",
"
\n",
" \n",
" Skewness | \n",
" 0 | \n",
"
\n",
" \n",
" Sum | \n",
" 397386 | \n",
"
\n",
" \n",
" Variance | \n",
" 66231 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 891 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 293 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 304 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 303 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 302 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 301 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 300 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 299 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 298 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 297 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (881) | \n",
" 881 | \n",
" 98.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 887 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 888 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 889 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 890 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 891 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Pclass
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 3 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.3% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 2.3086 | \n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" Maximum | \n",
" 3 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 1 | \n",
"
\n",
" \n",
" Q1 | \n",
" 2 | \n",
"
\n",
" \n",
" Median | \n",
" 3 | \n",
"
\n",
" \n",
" Q3 | \n",
" 3 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 3 | \n",
"
\n",
" \n",
" Maximum | \n",
" 3 | \n",
"
\n",
" \n",
" Range | \n",
" 2 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 1 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 0.83607 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.36215 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" -1.28 | \n",
"
\n",
" \n",
" Mean | \n",
" 2.3086 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.76197 | \n",
"
\n",
" \n",
" Skewness | \n",
" -0.63055 | \n",
"
\n",
" \n",
" Sum | \n",
" 2057 | \n",
"
\n",
" \n",
" Variance | \n",
" 0.69902 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Sex
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 2 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" male | \n",
" \n",
" \n",
" 577\n",
" \n",
" \n",
" | \n",
"
\n",
" female | \n",
" \n",
" \n",
" 314\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" male | \n",
" 577 | \n",
" 64.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" female | \n",
" 314 | \n",
" 35.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
SibSp
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 7 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 0.52301 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 8 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 68.2% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 0 | \n",
"
\n",
" \n",
" Q1 | \n",
" 0 | \n",
"
\n",
" \n",
" Median | \n",
" 0 | \n",
"
\n",
" \n",
" Q3 | \n",
" 1 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 3 | \n",
"
\n",
" \n",
" Maximum | \n",
" 8 | \n",
"
\n",
" \n",
" Range | \n",
" 8 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 1 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 1.1027 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 2.1085 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 17.88 | \n",
"
\n",
" \n",
" Mean | \n",
" 0.52301 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.71378 | \n",
"
\n",
" \n",
" Skewness | \n",
" 3.6954 | \n",
"
\n",
" \n",
" Sum | \n",
" 466 | \n",
"
\n",
" \n",
" Variance | \n",
" 1.216 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 608 | \n",
" 68.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 209 | \n",
" 23.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 8 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 608 | \n",
" 68.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 209 | \n",
" 23.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 8 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Survived
\n",
" Boolean\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 2 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Mean | \n",
" 0.38384 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" 0 | \n",
" \n",
" \n",
" 549\n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" \n",
" \n",
" 342\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 549 | \n",
" 61.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 342 | \n",
" 38.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Ticket
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 681 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 76.4% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" 1601 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" CA. 2343 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" 347082 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" Other values (678) | \n",
" \n",
" \n",
" 870\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1601 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" CA. 2343 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 347082 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 347088 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3101295 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" CA 2144 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 382652 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" S.O.C. 14879 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2666 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 17421 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (671) | \n",
" 834 | \n",
" 93.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Correlations
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Sample
\n",
" \n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Name | \n",
" Sex | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Ticket | \n",
" Fare | \n",
" Cabin | \n",
" Embarked | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 3 | \n",
" Braund, Mr. Owen Harris | \n",
" male | \n",
" 22.0 | \n",
" 1 | \n",
" 0 | \n",
" A/5 21171 | \n",
" 7.2500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 1 | \n",
" 2 | \n",
" 1 | \n",
" 1 | \n",
" Cumings, Mrs. John Bradley (Florence Briggs Th... | \n",
" female | \n",
" 38.0 | \n",
" 1 | \n",
" 0 | \n",
" PC 17599 | \n",
" 71.2833 | \n",
" C85 | \n",
" C | \n",
"
\n",
" \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 3 | \n",
" Heikkinen, Miss. Laina | \n",
" female | \n",
" 26.0 | \n",
" 0 | \n",
" 0 | \n",
" STON/O2. 3101282 | \n",
" 7.9250 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 3 | \n",
" 4 | \n",
" 1 | \n",
" 1 | \n",
" Futrelle, Mrs. Jacques Heath (Lily May Peel) | \n",
" female | \n",
" 35.0 | \n",
" 1 | \n",
" 0 | \n",
" 113803 | \n",
" 53.1000 | \n",
" C123 | \n",
" S | \n",
"
\n",
" \n",
" 4 | \n",
" 5 | \n",
" 0 | \n",
" 3 | \n",
" Allen, Mr. William Henry | \n",
" male | \n",
" 35.0 | \n",
" 0 | \n",
" 0 | \n",
" 373450 | \n",
" 8.0500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
"
],
"text/plain": [
""
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"pandas_profiling.ProfileReport(df)"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Name | \n",
" Sex | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Ticket | \n",
" Fare | \n",
" Cabin | \n",
" Embarked | \n",
"
\n",
" \n",
" \n",
" \n",
" 535 | \n",
" 536 | \n",
" 1 | \n",
" 2 | \n",
" Hart, Miss. Eva Miriam | \n",
" female | \n",
" 7.0 | \n",
" 0 | \n",
" 2 | \n",
" F.C.C. 13529 | \n",
" 26.2500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 621 | \n",
" 622 | \n",
" 1 | \n",
" 1 | \n",
" Kimball, Mr. Edwin Nelson Jr | \n",
" male | \n",
" 42.0 | \n",
" 1 | \n",
" 0 | \n",
" 11753 | \n",
" 52.5542 | \n",
" D19 | \n",
" S | \n",
"
\n",
" \n",
" 22 | \n",
" 23 | \n",
" 1 | \n",
" 3 | \n",
" McGowan, Miss. Anna \"Annie\" | \n",
" female | \n",
" 15.0 | \n",
" 0 | \n",
" 0 | \n",
" 330923 | \n",
" 8.0292 | \n",
" NaN | \n",
" Q | \n",
"
\n",
" \n",
" 655 | \n",
" 656 | \n",
" 0 | \n",
" 2 | \n",
" Hickman, Mr. Leonard Mark | \n",
" male | \n",
" 24.0 | \n",
" 2 | \n",
" 0 | \n",
" S.O.C. 14879 | \n",
" 73.5000 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 136 | \n",
" 137 | \n",
" 1 | \n",
" 1 | \n",
" Newsom, Miss. Helen Monypeny | \n",
" female | \n",
" 19.0 | \n",
" 0 | \n",
" 2 | \n",
" 11752 | \n",
" 26.2833 | \n",
" D47 | \n",
" S | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" PassengerId Survived Pclass Name Sex \\\n",
"535 536 1 2 Hart, Miss. Eva Miriam female \n",
"621 622 1 1 Kimball, Mr. Edwin Nelson Jr male \n",
"22 23 1 3 McGowan, Miss. Anna \"Annie\" female \n",
"655 656 0 2 Hickman, Mr. Leonard Mark male \n",
"136 137 1 1 Newsom, Miss. Helen Monypeny female \n",
"\n",
" Age SibSp Parch Ticket Fare Cabin Embarked \n",
"535 7.0 0 2 F.C.C. 13529 26.2500 NaN S \n",
"621 42.0 1 0 11753 52.5542 D19 S \n",
"22 15.0 0 0 330923 8.0292 NaN Q \n",
"655 24.0 2 0 S.O.C. 14879 73.5000 NaN S \n",
"136 19.0 0 2 11752 26.2833 D47 S "
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# sample vs. head\n",
"df.sample(5)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Save Report to HTML**"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"pfr = pandas_profiling.ProfileReport(df)\n",
"pfr.to_file(\"/tmp/example.html\")"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"\n",
"\n",
"\n",
"
\n",
"
Overview
\n",
" \n",
"
\n",
"
\n",
"
Dataset info
\n",
"
\n",
" \n",
" \n",
" Number of variables | \n",
" 12 | \n",
"
\n",
" \n",
" Number of observations | \n",
" 891 | \n",
"
\n",
" \n",
" Total Missing (%) | \n",
" 8.1% | \n",
"
\n",
" \n",
" Total size in memory | \n",
" 83.6 KiB | \n",
"
\n",
" \n",
" Average record size in memory | \n",
" 96.1 B | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
Variables types
\n",
"
\n",
" \n",
" \n",
" Numeric | \n",
" 6 | \n",
"
\n",
" \n",
" Categorical | \n",
" 4 | \n",
"
\n",
" \n",
" Boolean | \n",
" 1 | \n",
"
\n",
" \n",
" Date | \n",
" 0 | \n",
"
\n",
" \n",
" Text (Unique) | \n",
" 1 | \n",
"
\n",
" \n",
" Rejected | \n",
" 0 | \n",
"
\n",
" \n",
" Unsupported | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
" \n",
"
Warnings
\n",
"
Age
has 177 / 19.9% missing values MissingCabin
has 687 / 77.1% missing values MissingCabin
has a high cardinality: 148 distinct values WarningFare
has 15 / 1.7% zeros ZerosParch
has 678 / 76.1% zeros ZerosSibSp
has 608 / 68.2% zeros ZerosTicket
has a high cardinality: 681 distinct values Warning
\n",
"
\n",
"
\n",
"
\n",
"
Variables
\n",
" \n",
"
\n",
"
\n",
"
Age
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 89 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 10.0% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 19.9% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 177 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 29.699 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0.42 | \n",
"
\n",
" \n",
" Maximum | \n",
" 80 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0.42 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 4 | \n",
"
\n",
" \n",
" Q1 | \n",
" 20.125 | \n",
"
\n",
" \n",
" Median | \n",
" 28 | \n",
"
\n",
" \n",
" Q3 | \n",
" 38 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 56 | \n",
"
\n",
" \n",
" Maximum | \n",
" 80 | \n",
"
\n",
" \n",
" Range | \n",
" 79.58 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 17.875 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 14.526 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.48912 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 0.17827 | \n",
"
\n",
" \n",
" Mean | \n",
" 29.699 | \n",
"
\n",
" \n",
" MAD | \n",
" 11.323 | \n",
"
\n",
" \n",
" Skewness | \n",
" 0.38911 | \n",
"
\n",
" \n",
" Sum | \n",
" 21205 | \n",
"
\n",
" \n",
" Variance | \n",
" 211.02 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 24.0 | \n",
" 30 | \n",
" 3.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 22.0 | \n",
" 27 | \n",
" 3.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 18.0 | \n",
" 26 | \n",
" 2.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 28.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 19.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 30.0 | \n",
" 25 | \n",
" 2.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 21.0 | \n",
" 24 | \n",
" 2.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 25.0 | \n",
" 23 | \n",
" 2.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 36.0 | \n",
" 22 | \n",
" 2.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 29.0 | \n",
" 20 | \n",
" 2.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (78) | \n",
" 467 | \n",
" 52.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 177 | \n",
" 19.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0.42 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.67 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.75 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.83 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.92 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 70.0 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 70.5 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 71.0 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 74.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 80.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Cabin
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 148 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 16.6% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 77.1% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 687 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" G6 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" C23 C25 C27 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" B96 B98 | \n",
" \n",
" \n",
" \n",
" \n",
" 4\n",
" | \n",
"
\n",
" Other values (144) | \n",
" \n",
" \n",
" 192\n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" \n",
" \n",
" 687\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" G6 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C23 C25 C27 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" B96 B98 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" D | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" F2 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" F33 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C22 C26 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E101 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E121 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" E8 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (137) | \n",
" 173 | \n",
" 19.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 687 | \n",
" 77.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Embarked
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 4 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.4% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 2 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" S | \n",
" \n",
" \n",
" 644\n",
" \n",
" \n",
" | \n",
"
\n",
" C | \n",
" \n",
" \n",
" 168\n",
" \n",
" \n",
" | \n",
"
\n",
" Q | \n",
" \n",
" \n",
" \n",
" \n",
" 77\n",
" | \n",
"
\n",
" (Missing) | \n",
" \n",
" \n",
" \n",
" \n",
" 2\n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" S | \n",
" 644 | \n",
" 72.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" C | \n",
" 168 | \n",
" 18.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Q | \n",
" 77 | \n",
" 8.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" (Missing) | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Fare
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 248 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 27.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 32.204 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 512.33 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 1.7% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 7.225 | \n",
"
\n",
" \n",
" Q1 | \n",
" 7.9104 | \n",
"
\n",
" \n",
" Median | \n",
" 14.454 | \n",
"
\n",
" \n",
" Q3 | \n",
" 31 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 112.08 | \n",
"
\n",
" \n",
" Maximum | \n",
" 512.33 | \n",
"
\n",
" \n",
" Range | \n",
" 512.33 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 23.09 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 49.693 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 1.5431 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 33.398 | \n",
"
\n",
" \n",
" Mean | \n",
" 32.204 | \n",
"
\n",
" \n",
" MAD | \n",
" 28.164 | \n",
"
\n",
" \n",
" Skewness | \n",
" 4.7873 | \n",
"
\n",
" \n",
" Sum | \n",
" 28694 | \n",
"
\n",
" \n",
" Variance | \n",
" 2469.4 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 8.05 | \n",
" 43 | \n",
" 4.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 13.0 | \n",
" 42 | \n",
" 4.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.8958 | \n",
" 38 | \n",
" 4.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.75 | \n",
" 34 | \n",
" 3.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 26.0 | \n",
" 31 | \n",
" 3.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 10.5 | \n",
" 24 | \n",
" 2.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.925 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 7.775 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 26.55 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 0.0 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (238) | \n",
" 615 | \n",
" 69.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0.0 | \n",
" 15 | \n",
" 1.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4.0125 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5.0 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6.2375 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6.4375 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 227.525 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 247.5208 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 262.375 | \n",
" 2 | \n",
" 0.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 263.0 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 512.3292 | \n",
" 3 | \n",
" 0.3% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Name
\n",
" Categorical, Unique\n",
"
\n",
"
\n",
" \n",
" \n",
" First 3 values | \n",
"
\n",
" \n",
" \n",
" \n",
" Hansen, Mr. Henrik Juul | \n",
"
\n",
" \n",
" Aubart, Mme. Leontine Pauline | \n",
"
\n",
" \n",
" Abbott, Mrs. Stanton (Rosa Hunt) | \n",
"
\n",
" \n",
"
\n",
"
\n",
" \n",
" \n",
" Last 3 values | \n",
"
\n",
" \n",
" \n",
" \n",
" Pickard, Mr. Berk (Berk Trembisky) | \n",
"
\n",
" \n",
" Goldenberg, Mrs. Samuel L (Edwiga Grabowska) | \n",
"
\n",
" \n",
" Karlsson, Mr. Nils August | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
First 10 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" Abbing, Mr. Anthony | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abbott, Mr. Rossmore Edward | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abbott, Mrs. Stanton (Rosa Hunt) | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abelson, Mr. Samuel | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Abelson, Mrs. Samuel (Hannah Wizosky) | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Last 10 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" de Mulder, Mr. Theodore | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" de Pelsmaeker, Mr. Alfons | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" del Carlo, Mr. Sebastiano | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" van Billiard, Mr. Austin Blyler | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" van Melkebeke, Mr. Philemon | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Parch
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 7 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 0.38159 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 6 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 76.1% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 0 | \n",
"
\n",
" \n",
" Q1 | \n",
" 0 | \n",
"
\n",
" \n",
" Median | \n",
" 0 | \n",
"
\n",
" \n",
" Q3 | \n",
" 0 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 2 | \n",
"
\n",
" \n",
" Maximum | \n",
" 6 | \n",
"
\n",
" \n",
" Range | \n",
" 6 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 0.80606 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 2.1123 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 9.7781 | \n",
"
\n",
" \n",
" Mean | \n",
" 0.38159 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.58074 | \n",
"
\n",
" \n",
" Skewness | \n",
" 2.7491 | \n",
"
\n",
" \n",
" Sum | \n",
" 340 | \n",
"
\n",
" \n",
" Variance | \n",
" 0.64973 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 678 | \n",
" 76.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 118 | \n",
" 13.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 678 | \n",
" 76.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 118 | \n",
" 13.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 2 | \n",
" 80 | \n",
" 9.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 6 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
PassengerId
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 891 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 100.0% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 446 | \n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" Maximum | \n",
" 891 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 45.5 | \n",
"
\n",
" \n",
" Q1 | \n",
" 223.5 | \n",
"
\n",
" \n",
" Median | \n",
" 446 | \n",
"
\n",
" \n",
" Q3 | \n",
" 668.5 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 846.5 | \n",
"
\n",
" \n",
" Maximum | \n",
" 891 | \n",
"
\n",
" \n",
" Range | \n",
" 890 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 445 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 257.35 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.57703 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" -1.2 | \n",
"
\n",
" \n",
" Mean | \n",
" 446 | \n",
"
\n",
" \n",
" MAD | \n",
" 222.75 | \n",
"
\n",
" \n",
" Skewness | \n",
" 0 | \n",
"
\n",
" \n",
" Sum | \n",
" 397386 | \n",
"
\n",
" \n",
" Variance | \n",
" 66231 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 891 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 293 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 304 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 303 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 302 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 301 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 300 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 299 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 298 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 297 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (881) | \n",
" 881 | \n",
" 98.9% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 887 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 888 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 889 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 890 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 891 | \n",
" 1 | \n",
" 0.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Pclass
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 3 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.3% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 2.3086 | \n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" Maximum | \n",
" 3 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 0.0% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 1 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 1 | \n",
"
\n",
" \n",
" Q1 | \n",
" 2 | \n",
"
\n",
" \n",
" Median | \n",
" 3 | \n",
"
\n",
" \n",
" Q3 | \n",
" 3 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 3 | \n",
"
\n",
" \n",
" Maximum | \n",
" 3 | \n",
"
\n",
" \n",
" Range | \n",
" 2 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 1 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 0.83607 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 0.36215 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" -1.28 | \n",
"
\n",
" \n",
" Mean | \n",
" 2.3086 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.76197 | \n",
"
\n",
" \n",
" Skewness | \n",
" -0.63055 | \n",
"
\n",
" \n",
" Sum | \n",
" 2057 | \n",
"
\n",
" \n",
" Variance | \n",
" 0.69902 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1 | \n",
" 216 | \n",
" 24.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 184 | \n",
" 20.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 491 | \n",
" 55.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Sex
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 2 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" male | \n",
" \n",
" \n",
" 577\n",
" \n",
" \n",
" | \n",
"
\n",
" female | \n",
" \n",
" \n",
" 314\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" male | \n",
" 577 | \n",
" 64.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" female | \n",
" 314 | \n",
" 35.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
SibSp
\n",
" Numeric\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 7 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.8% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
" \n",
" Infinite (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Infinite (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"\n",
" \n",
" Mean | \n",
" 0.52301 | \n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" Maximum | \n",
" 8 | \n",
"
\n",
" \n",
" Zeros (%) | \n",
" 68.2% | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
\n",
"\n",
"
\n",
"
\n",
"
\n",
"
Quantile statistics
\n",
"
\n",
" \n",
" Minimum | \n",
" 0 | \n",
"
\n",
" \n",
" 5-th percentile | \n",
" 0 | \n",
"
\n",
" \n",
" Q1 | \n",
" 0 | \n",
"
\n",
" \n",
" Median | \n",
" 0 | \n",
"
\n",
" \n",
" Q3 | \n",
" 1 | \n",
"
\n",
" \n",
" 95-th percentile | \n",
" 3 | \n",
"
\n",
" \n",
" Maximum | \n",
" 8 | \n",
"
\n",
" \n",
" Range | \n",
" 8 | \n",
"
\n",
" \n",
" Interquartile range | \n",
" 1 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Descriptive statistics
\n",
"
\n",
" \n",
" Standard deviation | \n",
" 1.1027 | \n",
"
\n",
" \n",
" Coef of variation | \n",
" 2.1085 | \n",
"
\n",
" \n",
" Kurtosis | \n",
" 17.88 | \n",
"
\n",
" \n",
" Mean | \n",
" 0.52301 | \n",
"
\n",
" \n",
" MAD | \n",
" 0.71378 | \n",
"
\n",
" \n",
" Skewness | \n",
" 3.6954 | \n",
"
\n",
" \n",
" Sum | \n",
" 466 | \n",
"
\n",
" \n",
" Variance | \n",
" 1.216 | \n",
"
\n",
" \n",
" Memory size | \n",
" 7.0 KiB | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 608 | \n",
" 68.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 209 | \n",
" 23.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 8 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Minimum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 608 | \n",
" 68.2% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 209 | \n",
" 23.5% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
Maximum 5 values
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 2 | \n",
" 28 | \n",
" 3.1% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3 | \n",
" 16 | \n",
" 1.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 4 | \n",
" 18 | \n",
" 2.0% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 5 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 8 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Survived
\n",
" Boolean\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 2 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 0.2% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" Mean | \n",
" 0.38384 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" 0 | \n",
" \n",
" \n",
" 549\n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" \n",
" \n",
" 342\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 0 | \n",
" 549 | \n",
" 61.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 1 | \n",
" 342 | \n",
" 38.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Ticket
\n",
" Categorical\n",
"
\n",
"
\n",
"
\n",
" \n",
" Distinct count | \n",
" 681 | \n",
"
\n",
" \n",
" Unique (%) | \n",
" 76.4% | \n",
"
\n",
" \n",
" Missing (%) | \n",
" 0.0% | \n",
"
\n",
" \n",
" Missing (n) | \n",
" 0 | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
" 1601 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" CA. 2343 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" 347082 | \n",
" \n",
" \n",
" \n",
" \n",
" 7\n",
" | \n",
"
\n",
" Other values (678) | \n",
" \n",
" \n",
" 870\n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
" \n",
"
\n",
" \n",
" \n",
" Value | \n",
" Count | \n",
" Frequency (%) | \n",
" | \n",
"
\n",
" \n",
" \n",
" 1601 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" CA. 2343 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 347082 | \n",
" 7 | \n",
" 0.8% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 347088 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 3101295 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" CA 2144 | \n",
" 6 | \n",
" 0.7% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 382652 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" S.O.C. 14879 | \n",
" 5 | \n",
" 0.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 2666 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" 17421 | \n",
" 4 | \n",
" 0.4% | \n",
" \n",
" \n",
" | \n",
"
\n",
" Other values (671) | \n",
" 834 | \n",
" 93.6% | \n",
" \n",
" \n",
" | \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Correlations
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
\n",
"
\n",
"
Sample
\n",
" \n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Name | \n",
" Sex | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Ticket | \n",
" Fare | \n",
" Cabin | \n",
" Embarked | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 3 | \n",
" Braund, Mr. Owen Harris | \n",
" male | \n",
" 22.0 | \n",
" 1 | \n",
" 0 | \n",
" A/5 21171 | \n",
" 7.2500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 1 | \n",
" 2 | \n",
" 1 | \n",
" 1 | \n",
" Cumings, Mrs. John Bradley (Florence Briggs Th... | \n",
" female | \n",
" 38.0 | \n",
" 1 | \n",
" 0 | \n",
" PC 17599 | \n",
" 71.2833 | \n",
" C85 | \n",
" C | \n",
"
\n",
" \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 3 | \n",
" Heikkinen, Miss. Laina | \n",
" female | \n",
" 26.0 | \n",
" 0 | \n",
" 0 | \n",
" STON/O2. 3101282 | \n",
" 7.9250 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 3 | \n",
" 4 | \n",
" 1 | \n",
" 1 | \n",
" Futrelle, Mrs. Jacques Heath (Lily May Peel) | \n",
" female | \n",
" 35.0 | \n",
" 1 | \n",
" 0 | \n",
" 113803 | \n",
" 53.1000 | \n",
" C123 | \n",
" S | \n",
"
\n",
" \n",
" 4 | \n",
" 5 | \n",
" 0 | \n",
" 3 | \n",
" Allen, Mr. William Henry | \n",
" male | \n",
" 35.0 | \n",
" 0 | \n",
" 0 | \n",
" 373450 | \n",
" 8.0500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
"
\n",
"
\n",
"
\n",
"
"
],
"text/plain": [
""
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"pfr"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" PassengerId | \n",
" Survived | \n",
" Pclass | \n",
" Name | \n",
" Sex | \n",
" Age | \n",
" SibSp | \n",
" Parch | \n",
" Ticket | \n",
" Fare | \n",
" Cabin | \n",
" Embarked | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 3 | \n",
" Braund, Mr. Owen Harris | \n",
" male | \n",
" 22.0 | \n",
" 1 | \n",
" 0 | \n",
" A/5 21171 | \n",
" 7.2500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 1 | \n",
" 2 | \n",
" 1 | \n",
" 1 | \n",
" Cumings, Mrs. John Bradley (Florence Briggs Th... | \n",
" female | \n",
" 38.0 | \n",
" 1 | \n",
" 0 | \n",
" PC 17599 | \n",
" 71.2833 | \n",
" C85 | \n",
" C | \n",
"
\n",
" \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 3 | \n",
" Heikkinen, Miss. Laina | \n",
" female | \n",
" 26.0 | \n",
" 0 | \n",
" 0 | \n",
" STON/O2. 3101282 | \n",
" 7.9250 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
" 3 | \n",
" 4 | \n",
" 1 | \n",
" 1 | \n",
" Futrelle, Mrs. Jacques Heath (Lily May Peel) | \n",
" female | \n",
" 35.0 | \n",
" 1 | \n",
" 0 | \n",
" 113803 | \n",
" 53.1000 | \n",
" C123 | \n",
" S | \n",
"
\n",
" \n",
" 4 | \n",
" 5 | \n",
" 0 | \n",
" 3 | \n",
" Allen, Mr. William Henry | \n",
" male | \n",
" 35.0 | \n",
" 0 | \n",
" 0 | \n",
" 373450 | \n",
" 8.0500 | \n",
" NaN | \n",
" S | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" PassengerId Survived Pclass \\\n",
"0 1 0 3 \n",
"1 2 1 1 \n",
"2 3 1 3 \n",
"3 4 1 1 \n",
"4 5 0 3 \n",
"\n",
" Name Sex Age SibSp \\\n",
"0 Braund, Mr. Owen Harris male 22.0 1 \n",
"1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 \n",
"2 Heikkinen, Miss. Laina female 26.0 0 \n",
"3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 \n",
"4 Allen, Mr. William Henry male 35.0 0 \n",
"\n",
" Parch Ticket Fare Cabin Embarked \n",
"0 0 A/5 21171 7.2500 NaN S \n",
"1 0 PC 17599 71.2833 C85 C \n",
"2 0 STON/O2. 3101282 7.9250 NaN S \n",
"3 0 113803 53.1000 C123 S \n",
"4 0 373450 8.0500 NaN S "
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.head()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.8"
}
},
"nbformat": 4,
"nbformat_minor": 2
}