{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Päivitetty 2025-05-16 / Aki Taanila\n"
     ]
    }
   ],
   "source": [
    "from datetime import datetime\n",
    "print(f'Päivitetty {datetime.now().date()} / Aki Taanila')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Lukumäärät ja prosentit value_counts-funktiolla\n",
    "\n",
    "Frekvenssitaulukot ja ristiintaulukoinnit voin laskea **crosstab**-funktiolla, mutta taitavalle käyttäjälle **value_counts**-funktio on kätevä.\n",
    "\n",
    "Seuraavassa esittelen value_counts niksejä."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 82 entries, 0 to 81\n",
      "Data columns (total 16 columns):\n",
      " #   Column    Non-Null Count  Dtype  \n",
      "---  ------    --------------  -----  \n",
      " 0   nro       82 non-null     int64  \n",
      " 1   sukup     82 non-null     int64  \n",
      " 2   ikä       82 non-null     int64  \n",
      " 3   perhe     82 non-null     int64  \n",
      " 4   koulutus  81 non-null     float64\n",
      " 5   palveluv  80 non-null     float64\n",
      " 6   palkka    82 non-null     int64  \n",
      " 7   johto     82 non-null     int64  \n",
      " 8   työtov    81 non-null     float64\n",
      " 9   työymp    82 non-null     int64  \n",
      " 10  palkkat   82 non-null     int64  \n",
      " 11  työteht   82 non-null     int64  \n",
      " 12  työterv   47 non-null     float64\n",
      " 13  lomaosa   20 non-null     float64\n",
      " 14  kuntosa   9 non-null      float64\n",
      " 15  hieroja   22 non-null     float64\n",
      "dtypes: float64(7), int64(9)\n",
      "memory usage: 10.4 KB\n"
     ]
    }
   ],
   "source": [
    "import pandas as pd\n",
    "df = pd.read_excel('https://taanila.fi/data1.xlsx')\n",
    "df.info()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 82 entries, 0 to 81\n",
      "Data columns (total 17 columns):\n",
      " #   Column       Non-Null Count  Dtype  \n",
      "---  ------       --------------  -----  \n",
      " 0   nro          82 non-null     int64  \n",
      " 1   sukup        82 non-null     int64  \n",
      " 2   ikä          82 non-null     int64  \n",
      " 3   perhe        82 non-null     int64  \n",
      " 4   koulutus     81 non-null     float64\n",
      " 5   palveluv     80 non-null     float64\n",
      " 6   palkka       82 non-null     int64  \n",
      " 7   johto        82 non-null     int64  \n",
      " 8   työtov       81 non-null     float64\n",
      " 9   työymp       82 non-null     int64  \n",
      " 10  palkkat      82 non-null     int64  \n",
      " 11  työteht      82 non-null     int64  \n",
      " 12  työterv      47 non-null     float64\n",
      " 13  lomaosa      20 non-null     float64\n",
      " 14  kuntosa      9 non-null      float64\n",
      " 15  hieroja      22 non-null     float64\n",
      " 16  työteht_obj  82 non-null     object \n",
      "dtypes: float64(7), int64(9), object(1)\n",
      "memory usage: 11.0+ KB\n"
     ]
    }
   ],
   "source": [
    "# Lisään dataan yhden object-tyyppisen muuttujan\n",
    "df['työteht_obj'] = df['työteht'].replace({1:'Erittäin tyytymätön', 2:'Tyytymätön', 3:'Siltä väliltä',\n",
    "                                       4:'Tyytyväinen', 5:'Erittäin tyytyväinen'})\n",
    "\n",
    "# Nyt datassa on kokonaisluku (int64), liukuluku (float64) ja object-tyyppisiä muuttujia\n",
    "df.info()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Frekvenssien mukainen järjestys"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "työymp\n",
       "3    30\n",
       "4    23\n",
       "5    11\n",
       "1     9\n",
       "2     9\n",
       "Name: count, dtype: int64"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Oletuksena value_counts() järjestää frekvenssit suurimmasta pienimpään\n",
    "df['työymp'].value_counts()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työymp</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>11</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         f\n",
       "työymp    \n",
       "3       30\n",
       "4       23\n",
       "5       11\n",
       "1        9\n",
       "2        9"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Tulos ei ole dataframe, mutta to_frame() muuntaa sen dataframeksi\n",
    "df['työymp'].value_counts().to_frame('f')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työymp</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>11</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         f\n",
       "työymp    \n",
       "2        9\n",
       "1        9\n",
       "5       11\n",
       "4       23\n",
       "3       30"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# ascending-parametrilla järjestän frekvenssit pienimmästä suurimpaan\n",
    "df['työymp'].value_counts(ascending=True).to_frame('f')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Muuttujan arvojen mukainen järjestys"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työymp</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>11</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         f\n",
       "työymp    \n",
       "1        9\n",
       "2        9\n",
       "3       30\n",
       "4       23\n",
       "5       11"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# sort_index() järjestää muuttujan arvot pienimmästä suurimpaan (aakkos-/numerojärjestys)\n",
    "df['työymp'].value_counts().sort_index().to_frame('f')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työymp</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>11</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "         f\n",
       "työymp    \n",
       "5       11\n",
       "4       23\n",
       "3       30\n",
       "2        9\n",
       "1        9"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Myös päinvastainen järjestys on mahdollinen\n",
    "df['työymp'].value_counts().sort_index(ascending=False).to_frame('f')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työteht_obj</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>Erittäin tyytymätön</th>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Erittäin tyytyväinen</th>\n",
       "      <td>8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Siltä väliltä</th>\n",
       "      <td>29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Tyytymätön</th>\n",
       "      <td>15</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Tyytyväinen</th>\n",
       "      <td>25</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                       f\n",
       "työteht_obj             \n",
       "Erittäin tyytymätön    5\n",
       "Erittäin tyytyväinen   8\n",
       "Siltä väliltä         29\n",
       "Tyytymätön            15\n",
       "Tyytyväinen           25"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# sort_index() laittaa object-tyypin arvot aakkosjärjestykseen\n",
    "# Tämä ei yleensä ole haluttu järjestys\n",
    "df['työteht_obj'].value_counts().sort_index().to_frame('f')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>työteht_obj</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>Erittäin tyytymätön</th>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Tyytymätön</th>\n",
       "      <td>15</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Siltä väliltä</th>\n",
       "      <td>29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Tyytyväinen</th>\n",
       "      <td>25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Erittäin tyytyväinen</th>\n",
       "      <td>8</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                       f\n",
       "työteht_obj             \n",
       "Erittäin tyytymätön    5\n",
       "Tyytymätön            15\n",
       "Siltä väliltä         29\n",
       "Tyytyväinen           25\n",
       "Erittäin tyytyväinen   8"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Räätälöidyn järjestyksen saan listan ja reindex()-funktion avulla\n",
    "# Tärkeää: listassa pitää olla täsmälleen samat arvot kuin muuttujalla alun perin\n",
    "tyytyväisyydet = ['Erittäin tyytymätön', 'Tyytymätön', 'Siltä väliltä', 'Tyytyväinen', 'Erittäin tyytyväinen']\n",
    "df['työteht_obj'].value_counts().reindex(tyytyväisyydet).to_frame('f')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Puuttuvien arvojen näyttäminen"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>koulutus</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1.0</th>\n",
       "      <td>27</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2.0</th>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3.0</th>\n",
       "      <td>22</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4.0</th>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>NaN</th>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "           f\n",
       "koulutus    \n",
       "1.0       27\n",
       "2.0       30\n",
       "3.0       22\n",
       "4.0        2\n",
       "NaN        1"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Voin halutessani näyttää puuttuvat arvot\n",
    "df['koulutus'].value_counts(dropna=False).sort_index().to_frame('f')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Prosenttien näyttäminen"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_5266c\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_5266c_level0_col0\" class=\"col_heading level0 col0\" >f</th>\n",
       "      <th id=\"T_5266c_level0_col1\" class=\"col_heading level0 col1\" >%</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_5266c_level0_row0\" class=\"row_heading level0 row0\" >Peruskoulu</th>\n",
       "      <td id=\"T_5266c_row0_col0\" class=\"data row0 col0\" >27,000000</td>\n",
       "      <td id=\"T_5266c_row0_col1\" class=\"data row0 col1\" >33,3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5266c_level0_row1\" class=\"row_heading level0 row1\" >2. aste</th>\n",
       "      <td id=\"T_5266c_row1_col0\" class=\"data row1 col0\" >30,000000</td>\n",
       "      <td id=\"T_5266c_row1_col1\" class=\"data row1 col1\" >37,0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5266c_level0_row2\" class=\"row_heading level0 row2\" >Korkeakoulu</th>\n",
       "      <td id=\"T_5266c_row2_col0\" class=\"data row2 col0\" >22,000000</td>\n",
       "      <td id=\"T_5266c_row2_col1\" class=\"data row2 col1\" >27,2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5266c_level0_row3\" class=\"row_heading level0 row3\" >Ylempi korkeakoulu</th>\n",
       "      <td id=\"T_5266c_row3_col0\" class=\"data row3 col0\" >2,000000</td>\n",
       "      <td id=\"T_5266c_row3_col1\" class=\"data row3 col1\" >2,5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_5266c_level0_row4\" class=\"row_heading level0 row4\" >Yhteensä</th>\n",
       "      <td id=\"T_5266c_row4_col0\" class=\"data row4 col0\" >81,000000</td>\n",
       "      <td id=\"T_5266c_row4_col1\" class=\"data row4 col1\" >100,0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x133fb844ec0>"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Frekvenssit koulutus-muuttujalle\n",
    "df1 = df['koulutus'].value_counts().sort_index().to_frame('f')\n",
    "\n",
    "# Lisään prosenttisarakkeen\n",
    "# Prosentit saan parametrilla normalize = True\n",
    "df1['%'] = df['koulutus'].value_counts(normalize=True)*100\n",
    "\n",
    "# Lisään muuttujan arvoille tekstimuotoiset arvot\n",
    "koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']\n",
    "df1.index = koulutus\n",
    "\n",
    "# Lisään yhteensä-rivin\n",
    "df1.loc['Yhteensä'] = df1.sum()\n",
    "\n",
    "# Ulkoasun viimeistely\n",
    "df1.style.format({'koulutus':'{:.0f}', '%':'{:.1f}'}, decimal=',')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Luokiteltu jakauma"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>f</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>(1499.999, 2000.0]</th>\n",
       "      <td>19</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>(2000.0, 2500.0]</th>\n",
       "      <td>28</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>(2500.0, 3000.0]</th>\n",
       "      <td>22</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>(3000.0, 8000.0]</th>\n",
       "      <td>13</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Yhteensä</th>\n",
       "      <td>82</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                     f\n",
       "(1499.999, 2000.0]  19\n",
       "(2000.0, 2500.0]    28\n",
       "(2500.0, 3000.0]    22\n",
       "(3000.0, 8000.0]    13\n",
       "Yhteensä            82"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "bins = [1500, 2000, 2500, 3000, 8000]\n",
    "\n",
    "df2 = df['palkka'].value_counts(bins=bins).sort_index().to_frame('f')\n",
    "\n",
    "df2.loc['Yhteensä'] = df2.sum()\n",
    "\n",
    "df2"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Ristiintaulukointi"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_2de10\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_2de10_level0_col0\" class=\"col_heading level0 col0\" >Mies</th>\n",
       "      <th id=\"T_2de10_level0_col1\" class=\"col_heading level0 col1\" >Nainen</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_2de10_level0_row0\" class=\"row_heading level0 row0\" >Peruskoulu</th>\n",
       "      <td id=\"T_2de10_row0_col0\" class=\"data row0 col0\" >22</td>\n",
       "      <td id=\"T_2de10_row0_col1\" class=\"data row0 col1\" >5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2de10_level0_row1\" class=\"row_heading level0 row1\" >2. aste</th>\n",
       "      <td id=\"T_2de10_row1_col0\" class=\"data row1 col0\" >23</td>\n",
       "      <td id=\"T_2de10_row1_col1\" class=\"data row1 col1\" >7</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2de10_level0_row2\" class=\"row_heading level0 row2\" >Korkeakoulu</th>\n",
       "      <td id=\"T_2de10_row2_col0\" class=\"data row2 col0\" >15</td>\n",
       "      <td id=\"T_2de10_row2_col1\" class=\"data row2 col1\" >7</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2de10_level0_row3\" class=\"row_heading level0 row3\" >Ylempi korkeakoulu</th>\n",
       "      <td id=\"T_2de10_row3_col0\" class=\"data row3 col0\" >2</td>\n",
       "      <td id=\"T_2de10_row3_col1\" class=\"data row3 col1\" >-</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_2de10_level0_row4\" class=\"row_heading level0 row4\" >Yhteensä</th>\n",
       "      <td id=\"T_2de10_row4_col0\" class=\"data row4 col0\" >62</td>\n",
       "      <td id=\"T_2de10_row4_col1\" class=\"data row4 col1\" >19</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x133fb801f90>"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Ristiintaulukoinnissa hyödynnän groupby()-funktiota\n",
    "# unstack siirtää sukupuolet sarakkeisiin\n",
    "df3= df.groupby('sukup')['koulutus'].value_counts().sort_index().unstack('sukup')\n",
    "\n",
    "# Koulutusten nimet aiemmin määritellystä listasta\n",
    "df3.index = koulutus\n",
    "\n",
    "df3.loc['Yhteensä'] = df3.sum()\n",
    "\n",
    "# Sarakeotsikot\n",
    "df3.columns=['Mies', 'Nainen']\n",
    "\n",
    "# Ulkoasu ilman desimaaleja, puuttuvan arvon tilalla viiva\n",
    "df3.style.format(precision=0, na_rep='-')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Samalla asteikolla mitattujen frekvenssit yhteen taulukkoon"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_52e50\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_52e50_level0_col0\" class=\"col_heading level0 col0\" >johto, n = 82</th>\n",
       "      <th id=\"T_52e50_level0_col1\" class=\"col_heading level0 col1\" >työtov, n = 81</th>\n",
       "      <th id=\"T_52e50_level0_col2\" class=\"col_heading level0 col2\" >työymp, n = 82</th>\n",
       "      <th id=\"T_52e50_level0_col3\" class=\"col_heading level0 col3\" >palkkat, n = 82</th>\n",
       "      <th id=\"T_52e50_level0_col4\" class=\"col_heading level0 col4\" >työteht, n = 82</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row0\" class=\"row_heading level0 row0\" >Erittäin tyytymätön</th>\n",
       "      <td id=\"T_52e50_row0_col0\" class=\"data row0 col0\" >8,5 %</td>\n",
       "      <td id=\"T_52e50_row0_col1\" class=\"data row0 col1\" >-</td>\n",
       "      <td id=\"T_52e50_row0_col2\" class=\"data row0 col2\" >11,0 %</td>\n",
       "      <td id=\"T_52e50_row0_col3\" class=\"data row0 col3\" >40,2 %</td>\n",
       "      <td id=\"T_52e50_row0_col4\" class=\"data row0 col4\" >6,1 %</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row1\" class=\"row_heading level0 row1\" >Tyytymätön</th>\n",
       "      <td id=\"T_52e50_row1_col0\" class=\"data row1 col0\" >19,5 %</td>\n",
       "      <td id=\"T_52e50_row1_col1\" class=\"data row1 col1\" >3,7 %</td>\n",
       "      <td id=\"T_52e50_row1_col2\" class=\"data row1 col2\" >11,0 %</td>\n",
       "      <td id=\"T_52e50_row1_col3\" class=\"data row1 col3\" >23,2 %</td>\n",
       "      <td id=\"T_52e50_row1_col4\" class=\"data row1 col4\" >18,3 %</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row2\" class=\"row_heading level0 row2\" >Siltä väliltä</th>\n",
       "      <td id=\"T_52e50_row2_col0\" class=\"data row2 col0\" >36,6 %</td>\n",
       "      <td id=\"T_52e50_row2_col1\" class=\"data row2 col1\" >19,8 %</td>\n",
       "      <td id=\"T_52e50_row2_col2\" class=\"data row2 col2\" >36,6 %</td>\n",
       "      <td id=\"T_52e50_row2_col3\" class=\"data row2 col3\" >23,2 %</td>\n",
       "      <td id=\"T_52e50_row2_col4\" class=\"data row2 col4\" >35,4 %</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row3\" class=\"row_heading level0 row3\" >Tyytyväinen</th>\n",
       "      <td id=\"T_52e50_row3_col0\" class=\"data row3 col0\" >28,0 %</td>\n",
       "      <td id=\"T_52e50_row3_col1\" class=\"data row3 col1\" >43,2 %</td>\n",
       "      <td id=\"T_52e50_row3_col2\" class=\"data row3 col2\" >28,0 %</td>\n",
       "      <td id=\"T_52e50_row3_col3\" class=\"data row3 col3\" >12,2 %</td>\n",
       "      <td id=\"T_52e50_row3_col4\" class=\"data row3 col4\" >30,5 %</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row4\" class=\"row_heading level0 row4\" >Erittäin tyytyväinen</th>\n",
       "      <td id=\"T_52e50_row4_col0\" class=\"data row4 col0\" >7,3 %</td>\n",
       "      <td id=\"T_52e50_row4_col1\" class=\"data row4 col1\" >33,3 %</td>\n",
       "      <td id=\"T_52e50_row4_col2\" class=\"data row4 col2\" >13,4 %</td>\n",
       "      <td id=\"T_52e50_row4_col3\" class=\"data row4 col3\" >1,2 %</td>\n",
       "      <td id=\"T_52e50_row4_col4\" class=\"data row4 col4\" >9,8 %</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_52e50_level0_row5\" class=\"row_heading level0 row5\" >Yhteensä</th>\n",
       "      <td id=\"T_52e50_row5_col0\" class=\"data row5 col0\" >100,0 %</td>\n",
       "      <td id=\"T_52e50_row5_col1\" class=\"data row5 col1\" >100,0 %</td>\n",
       "      <td id=\"T_52e50_row5_col2\" class=\"data row5 col2\" >100,0 %</td>\n",
       "      <td id=\"T_52e50_row5_col3\" class=\"data row5 col3\" >100,0 %</td>\n",
       "      <td id=\"T_52e50_row5_col4\" class=\"data row5 col4\" >100,0 %</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x133fb802210>"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Ensimmäisen muuttujan frekvenssiprosentit\n",
    "df4 = df['johto'].value_counts(normalize=True).sort_index().to_frame('johto')\n",
    "\n",
    "# Lisään muiden muuttujien frekvenssiprosentit\n",
    "df4['työtov'] = df['työtov'].value_counts(sort=False, normalize=True)\n",
    "df4['työymp'] = df['työymp'].value_counts(sort=False, normalize=True)\n",
    "df4['palkkat'] = df['palkkat'].value_counts(sort=False, normalize=True)\n",
    "df4['työteht'] = df['työteht'].value_counts(sort=False, normalize=True)\n",
    "\n",
    "# Asteikon arvot tekstimuodossa aiemmin määritellystä tyytyväisyydet-listasta\n",
    "df4.index = tyytyväisyydet\n",
    "\n",
    "df4.loc['Yhteensä'] = df4.sum()\n",
    "\n",
    "# n-arvot sarakeotsikoihin\n",
    "for var in df4.columns:\n",
    "    df4 = df4.rename(columns={var:f'{var}, n = {df[var].count()}'})\n",
    "\n",
    "# Ulkoasun viimeistely\n",
    "(df4*100).style.format('{:.1f} %', na_rep='-', decimal=',')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Lisätietoa\n",
    "\n",
    "* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html\n",
    "\n",
    "Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/\n",
    "\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.13.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}