{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Päivitetty 2025-05-15 / Aki Taanila\n"
     ]
    }
   ],
   "source": [
    "from datetime import datetime\n",
    "print(f'Päivitetty {datetime.now().date()} / Aki Taanila')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Ryhmittelyjä groupby-funktiolla"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>nro</th>\n",
       "      <th>sukup</th>\n",
       "      <th>ikä</th>\n",
       "      <th>perhe</th>\n",
       "      <th>koulutus</th>\n",
       "      <th>palveluv</th>\n",
       "      <th>palkka</th>\n",
       "      <th>johto</th>\n",
       "      <th>työtov</th>\n",
       "      <th>työymp</th>\n",
       "      <th>palkkat</th>\n",
       "      <th>työteht</th>\n",
       "      <th>työterv</th>\n",
       "      <th>lomaosa</th>\n",
       "      <th>kuntosa</th>\n",
       "      <th>hieroja</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>38</td>\n",
       "      <td>1</td>\n",
       "      <td>1.0</td>\n",
       "      <td>22.0</td>\n",
       "      <td>3587</td>\n",
       "      <td>3</td>\n",
       "      <td>3.0</td>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>29</td>\n",
       "      <td>2</td>\n",
       "      <td>2.0</td>\n",
       "      <td>10.0</td>\n",
       "      <td>2963</td>\n",
       "      <td>1</td>\n",
       "      <td>5.0</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>3</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>1</td>\n",
       "      <td>30</td>\n",
       "      <td>1</td>\n",
       "      <td>1.0</td>\n",
       "      <td>7.0</td>\n",
       "      <td>1989</td>\n",
       "      <td>3</td>\n",
       "      <td>4.0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>3</td>\n",
       "      <td>1.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4</td>\n",
       "      <td>1</td>\n",
       "      <td>36</td>\n",
       "      <td>2</td>\n",
       "      <td>1.0</td>\n",
       "      <td>14.0</td>\n",
       "      <td>2144</td>\n",
       "      <td>3</td>\n",
       "      <td>3.0</td>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "      <td>1.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "      <td>24</td>\n",
       "      <td>1</td>\n",
       "      <td>2.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>2183</td>\n",
       "      <td>2</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>2</td>\n",
       "      <td>1.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   nro  sukup  ikä  perhe  koulutus  palveluv  palkka  johto  työtov  työymp  \\\n",
       "0    1      1   38      1       1.0      22.0    3587      3     3.0       3   \n",
       "1    2      1   29      2       2.0      10.0    2963      1     5.0       2   \n",
       "2    3      1   30      1       1.0       7.0    1989      3     4.0       1   \n",
       "3    4      1   36      2       1.0      14.0    2144      3     3.0       3   \n",
       "4    5      1   24      1       2.0       4.0    2183      2     3.0       2   \n",
       "\n",
       "   palkkat  työteht  työterv  lomaosa  kuntosa  hieroja  \n",
       "0        3        3      NaN      NaN      NaN      NaN  \n",
       "1        1        3      NaN      NaN      NaN      NaN  \n",
       "2        1        3      1.0      NaN      NaN      NaN  \n",
       "3        3        3      1.0      NaN      NaN      NaN  \n",
       "4        1        2      1.0      NaN      NaN      NaN  "
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df = pd.read_excel('https://taanila.fi/data1.xlsx')\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Muuttujien tekstimuotoisia arvoja\n",
    "sukup = ['Mies', 'Nainen']\n",
    "koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_b763e\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_b763e_level0_col0\" class=\"col_heading level0 col0\" >count</th>\n",
       "      <th id=\"T_b763e_level0_col1\" class=\"col_heading level0 col1\" >mean</th>\n",
       "      <th id=\"T_b763e_level0_col2\" class=\"col_heading level0 col2\" >std</th>\n",
       "      <th id=\"T_b763e_level0_col3\" class=\"col_heading level0 col3\" >min</th>\n",
       "      <th id=\"T_b763e_level0_col4\" class=\"col_heading level0 col4\" >25%</th>\n",
       "      <th id=\"T_b763e_level0_col5\" class=\"col_heading level0 col5\" >50%</th>\n",
       "      <th id=\"T_b763e_level0_col6\" class=\"col_heading level0 col6\" >75%</th>\n",
       "      <th id=\"T_b763e_level0_col7\" class=\"col_heading level0 col7\" >max</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_b763e_level0_row0\" class=\"row_heading level0 row0\" >Peruskoulu</th>\n",
       "      <td id=\"T_b763e_row0_col0\" class=\"data row0 col0\" >27</td>\n",
       "      <td id=\"T_b763e_row0_col1\" class=\"data row0 col1\" >2310</td>\n",
       "      <td id=\"T_b763e_row0_col2\" class=\"data row0 col2\" >473</td>\n",
       "      <td id=\"T_b763e_row0_col3\" class=\"data row0 col3\" >1638</td>\n",
       "      <td id=\"T_b763e_row0_col4\" class=\"data row0 col4\" >2008</td>\n",
       "      <td id=\"T_b763e_row0_col5\" class=\"data row0 col5\" >2144</td>\n",
       "      <td id=\"T_b763e_row0_col6\" class=\"data row0 col6\" >2534</td>\n",
       "      <td id=\"T_b763e_row0_col7\" class=\"data row0 col7\" >3587</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b763e_level0_row1\" class=\"row_heading level0 row1\" >2. aste</th>\n",
       "      <td id=\"T_b763e_row1_col0\" class=\"data row1 col0\" >30</td>\n",
       "      <td id=\"T_b763e_row1_col1\" class=\"data row1 col1\" >2403</td>\n",
       "      <td id=\"T_b763e_row1_col2\" class=\"data row1 col2\" >534</td>\n",
       "      <td id=\"T_b763e_row1_col3\" class=\"data row1 col3\" >1521</td>\n",
       "      <td id=\"T_b763e_row1_col4\" class=\"data row1 col4\" >2008</td>\n",
       "      <td id=\"T_b763e_row1_col5\" class=\"data row1 col5\" >2378</td>\n",
       "      <td id=\"T_b763e_row1_col6\" class=\"data row1 col6\" >2729</td>\n",
       "      <td id=\"T_b763e_row1_col7\" class=\"data row1 col7\" >3510</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b763e_level0_row2\" class=\"row_heading level0 row2\" >Korkeakoulu</th>\n",
       "      <td id=\"T_b763e_row2_col0\" class=\"data row2 col0\" >22</td>\n",
       "      <td id=\"T_b763e_row2_col1\" class=\"data row2 col1\" >2887</td>\n",
       "      <td id=\"T_b763e_row2_col2\" class=\"data row2 col2\" >1108</td>\n",
       "      <td id=\"T_b763e_row2_col3\" class=\"data row2 col3\" >1559</td>\n",
       "      <td id=\"T_b763e_row2_col4\" class=\"data row2 col4\" >2222</td>\n",
       "      <td id=\"T_b763e_row2_col5\" class=\"data row2 col5\" >2710</td>\n",
       "      <td id=\"T_b763e_row2_col6\" class=\"data row2 col6\" >2925</td>\n",
       "      <td id=\"T_b763e_row2_col7\" class=\"data row2 col7\" >6278</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_b763e_level0_row3\" class=\"row_heading level0 row3\" >Ylempi korkeakoulu</th>\n",
       "      <td id=\"T_b763e_row3_col0\" class=\"data row3 col0\" >2</td>\n",
       "      <td id=\"T_b763e_row3_col1\" class=\"data row3 col1\" >5147</td>\n",
       "      <td id=\"T_b763e_row3_col2\" class=\"data row3 col2\" >110</td>\n",
       "      <td id=\"T_b763e_row3_col3\" class=\"data row3 col3\" >5069</td>\n",
       "      <td id=\"T_b763e_row3_col4\" class=\"data row3 col4\" >5108</td>\n",
       "      <td id=\"T_b763e_row3_col5\" class=\"data row3 col5\" >5147</td>\n",
       "      <td id=\"T_b763e_row3_col6\" class=\"data row3 col6\" >5186</td>\n",
       "      <td id=\"T_b763e_row3_col7\" class=\"data row3 col7\" >5225</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd84f912b0>"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Palkan tunnuslukuja koulutuksen määräämissä ryhmissä\n",
    "df1 = df.groupby('koulutus')['palkka'].describe()\n",
    "\n",
    "# Koulutuksen tekstimuotoiset arvot numeroiden 1, 2, 3, 4 sijasta\n",
    "df1.index = koulutus\n",
    "\n",
    "# Esitän tulokset ilman desimaaleja\n",
    "df1.style.format('{:.0f}')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_1a918\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_1a918_level0_col0\" class=\"col_heading level0 col0\" >Peruskoulu</th>\n",
       "      <th id=\"T_1a918_level0_col1\" class=\"col_heading level0 col1\" >2. aste</th>\n",
       "      <th id=\"T_1a918_level0_col2\" class=\"col_heading level0 col2\" >Korkeakoulu</th>\n",
       "      <th id=\"T_1a918_level0_col3\" class=\"col_heading level0 col3\" >Ylempi korkeakoulu</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_1a918_level0_row0\" class=\"row_heading level0 row0\" >Mies</th>\n",
       "      <td id=\"T_1a918_row0_col0\" class=\"data row0 col0\" >2354</td>\n",
       "      <td id=\"T_1a918_row0_col1\" class=\"data row0 col1\" >2461</td>\n",
       "      <td id=\"T_1a918_row0_col2\" class=\"data row0 col2\" >3145</td>\n",
       "      <td id=\"T_1a918_row0_col3\" class=\"data row0 col3\" >5147</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_1a918_level0_row1\" class=\"row_heading level0 row1\" >Nainen</th>\n",
       "      <td id=\"T_1a918_row1_col0\" class=\"data row1 col0\" >2121</td>\n",
       "      <td id=\"T_1a918_row1_col1\" class=\"data row1 col1\" >2211</td>\n",
       "      <td id=\"T_1a918_row1_col2\" class=\"data row1 col2\" >2334</td>\n",
       "      <td id=\"T_1a918_row1_col3\" class=\"data row1 col3\" >-</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd82999590>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Palkkakeskiarvoja sukupuolen ja koulutuksen määräämissä ryhmissä\n",
    "# unstack() siirtää koulutukset sarakkeisiin\n",
    "df2 = df.groupby(['sukup', 'koulutus'])['palkka'].mean().unstack()\n",
    "\n",
    "# Sukupuolen ja koulutuksen tekstimuotoiset arvot\n",
    "df2.index = sukup\n",
    "df2.columns = koulutus\n",
    "\n",
    "# Esitän tulokset ilman desimaaleja\n",
    "# puuttuvan arvon tilalle '-'\n",
    "df2.style.format('{:.0f}', na_rep='-')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_70864\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_70864_level0_col0\" class=\"col_heading level0 col0\" >Peruskoulu</th>\n",
       "      <th id=\"T_70864_level0_col1\" class=\"col_heading level0 col1\" >2. aste</th>\n",
       "      <th id=\"T_70864_level0_col2\" class=\"col_heading level0 col2\" >Korkeakoulu</th>\n",
       "      <th id=\"T_70864_level0_col3\" class=\"col_heading level0 col3\" >Ylempi korkeakoulu</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_70864_level0_row0\" class=\"row_heading level0 row0\" >Mies</th>\n",
       "      <td id=\"T_70864_row0_col0\" class=\"data row0 col0\" >2354</td>\n",
       "      <td id=\"T_70864_row0_col1\" class=\"data row0 col1\" >2461</td>\n",
       "      <td id=\"T_70864_row0_col2\" class=\"data row0 col2\" >3145</td>\n",
       "      <td id=\"T_70864_row0_col3\" class=\"data row0 col3\" >5147</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_70864_level0_row1\" class=\"row_heading level0 row1\" >Nainen</th>\n",
       "      <td id=\"T_70864_row1_col0\" class=\"data row1 col0\" >2121</td>\n",
       "      <td id=\"T_70864_row1_col1\" class=\"data row1 col1\" >2211</td>\n",
       "      <td id=\"T_70864_row1_col2\" class=\"data row1 col2\" >2334</td>\n",
       "      <td id=\"T_70864_row1_col3\" class=\"data row1 col3\" >-</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd816e4b90>"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Edellisen voin toteuttaa myös pivot_table()-toiminnolla\n",
    "df3 = df.pivot_table(values='palkka', index='sukup', columns='koulutus')\n",
    "df3.index = sukup\n",
    "df3.columns = koulutus\n",
    "df3.style.format('{:.0f}', na_rep='-')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_dd834\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank\" >&nbsp;</th>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_dd834_level0_col0\" class=\"col_heading level0 col0\" >palkka</th>\n",
       "      <th id=\"T_dd834_level0_col1\" class=\"col_heading level0 col1\" >palkkat</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th class=\"index_name level0\" >koulutus</th>\n",
       "      <th class=\"index_name level1\" >sukup</th>\n",
       "      <th class=\"blank col0\" >&nbsp;</th>\n",
       "      <th class=\"blank col1\" >&nbsp;</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level0_row0\" class=\"row_heading level0 row0\" rowspan=\"2\">Peruskoulu</th>\n",
       "      <th id=\"T_dd834_level1_row0\" class=\"row_heading level1 row0\" >Mies</th>\n",
       "      <td id=\"T_dd834_row0_col0\" class=\"data row0 col0\" >2354</td>\n",
       "      <td id=\"T_dd834_row0_col1\" class=\"data row0 col1\" >1.6</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level1_row1\" class=\"row_heading level1 row1\" >Nainen</th>\n",
       "      <td id=\"T_dd834_row1_col0\" class=\"data row1 col0\" >2121</td>\n",
       "      <td id=\"T_dd834_row1_col1\" class=\"data row1 col1\" >2.8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level0_row2\" class=\"row_heading level0 row2\" rowspan=\"2\">2. aste</th>\n",
       "      <th id=\"T_dd834_level1_row2\" class=\"row_heading level1 row2\" >Mies</th>\n",
       "      <td id=\"T_dd834_row2_col0\" class=\"data row2 col0\" >2461</td>\n",
       "      <td id=\"T_dd834_row2_col1\" class=\"data row2 col1\" >1.8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level1_row3\" class=\"row_heading level1 row3\" >Nainen</th>\n",
       "      <td id=\"T_dd834_row3_col0\" class=\"data row3 col0\" >2211</td>\n",
       "      <td id=\"T_dd834_row3_col1\" class=\"data row3 col1\" >2.9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level0_row4\" class=\"row_heading level0 row4\" rowspan=\"2\">Korkeakoulu</th>\n",
       "      <th id=\"T_dd834_level1_row4\" class=\"row_heading level1 row4\" >Mies</th>\n",
       "      <td id=\"T_dd834_row4_col0\" class=\"data row4 col0\" >3145</td>\n",
       "      <td id=\"T_dd834_row4_col1\" class=\"data row4 col1\" >2.3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level1_row5\" class=\"row_heading level1 row5\" >Nainen</th>\n",
       "      <td id=\"T_dd834_row5_col0\" class=\"data row5 col0\" >2334</td>\n",
       "      <td id=\"T_dd834_row5_col1\" class=\"data row5 col1\" >2.7</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_dd834_level0_row6\" class=\"row_heading level0 row6\" >Ylempi korkeakoulu</th>\n",
       "      <th id=\"T_dd834_level1_row6\" class=\"row_heading level1 row6\" >Mies</th>\n",
       "      <td id=\"T_dd834_row6_col0\" class=\"data row6 col0\" >5147</td>\n",
       "      <td id=\"T_dd834_row6_col1\" class=\"data row6 col1\" >3.0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd8497cb90>"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Keskiarvoja palkalle ja palkkatyytyväisyydelle koulutuksen ja sukupuolen määräämissä ryhmissä\n",
    "df4 = df.groupby(['koulutus', 'sukup'])[['palkka', 'palkkat']].mean()\n",
    "\n",
    "# Hierarkinen (koulutus, sukupuoli) indeksi vaatii omat niksinsä tekstiarvojen sijoittamiseen\n",
    "df4.index = df4.index.set_levels(koulutus, level=0)\n",
    "df4.index = df4.index.set_levels(sukup, level=1)\n",
    "\n",
    "# Esitän palkkakeskiarvot ilman desimaaleja ja palkkatyytyväisyydet yhdellä desimaalilla\n",
    "df4.style.format({'palkka':'{:.0f}', 'palkkat':'{:.1f}'})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_6e73f\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank\" >&nbsp;</th>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_6e73f_level0_col0\" class=\"col_heading level0 col0\" >johto</th>\n",
       "      <th id=\"T_6e73f_level0_col1\" class=\"col_heading level0 col1\" >työtov</th>\n",
       "      <th id=\"T_6e73f_level0_col2\" class=\"col_heading level0 col2\" >työymp</th>\n",
       "      <th id=\"T_6e73f_level0_col3\" class=\"col_heading level0 col3\" >palkkat</th>\n",
       "      <th id=\"T_6e73f_level0_col4\" class=\"col_heading level0 col4\" >työteht</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th class=\"index_name level0\" >sukup</th>\n",
       "      <th class=\"index_name level1\" >koulutus</th>\n",
       "      <th class=\"blank col0\" >&nbsp;</th>\n",
       "      <th class=\"blank col1\" >&nbsp;</th>\n",
       "      <th class=\"blank col2\" >&nbsp;</th>\n",
       "      <th class=\"blank col3\" >&nbsp;</th>\n",
       "      <th class=\"blank col4\" >&nbsp;</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level0_row0\" class=\"row_heading level0 row0\" rowspan=\"4\">Mies</th>\n",
       "      <th id=\"T_6e73f_level1_row0\" class=\"row_heading level1 row0\" >Peruskoulu</th>\n",
       "      <td id=\"T_6e73f_row0_col0\" class=\"data row0 col0\" >2.8</td>\n",
       "      <td id=\"T_6e73f_row0_col1\" class=\"data row0 col1\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row0_col2\" class=\"data row0 col2\" >2.7</td>\n",
       "      <td id=\"T_6e73f_row0_col3\" class=\"data row0 col3\" >1.6</td>\n",
       "      <td id=\"T_6e73f_row0_col4\" class=\"data row0 col4\" >2.9</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level1_row1\" class=\"row_heading level1 row1\" >2. aste</th>\n",
       "      <td id=\"T_6e73f_row1_col0\" class=\"data row1 col0\" >2.6</td>\n",
       "      <td id=\"T_6e73f_row1_col1\" class=\"data row1 col1\" >4.2</td>\n",
       "      <td id=\"T_6e73f_row1_col2\" class=\"data row1 col2\" >2.9</td>\n",
       "      <td id=\"T_6e73f_row1_col3\" class=\"data row1 col3\" >1.8</td>\n",
       "      <td id=\"T_6e73f_row1_col4\" class=\"data row1 col4\" >3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level1_row2\" class=\"row_heading level1 row2\" >Korkeakoulu</th>\n",
       "      <td id=\"T_6e73f_row2_col0\" class=\"data row2 col0\" >3.1</td>\n",
       "      <td id=\"T_6e73f_row2_col1\" class=\"data row2 col1\" >4.1</td>\n",
       "      <td id=\"T_6e73f_row2_col2\" class=\"data row2 col2\" >3.5</td>\n",
       "      <td id=\"T_6e73f_row2_col3\" class=\"data row2 col3\" >2.3</td>\n",
       "      <td id=\"T_6e73f_row2_col4\" class=\"data row2 col4\" >3.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level1_row3\" class=\"row_heading level1 row3\" >Ylempi korkeakoulu</th>\n",
       "      <td id=\"T_6e73f_row3_col0\" class=\"data row3 col0\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row3_col1\" class=\"data row3 col1\" >4.5</td>\n",
       "      <td id=\"T_6e73f_row3_col2\" class=\"data row3 col2\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row3_col3\" class=\"data row3 col3\" >3.0</td>\n",
       "      <td id=\"T_6e73f_row3_col4\" class=\"data row3 col4\" >3.5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level0_row4\" class=\"row_heading level0 row4\" rowspan=\"3\">Nainen</th>\n",
       "      <th id=\"T_6e73f_level1_row4\" class=\"row_heading level1 row4\" >Peruskoulu</th>\n",
       "      <td id=\"T_6e73f_row4_col0\" class=\"data row4 col0\" >3.6</td>\n",
       "      <td id=\"T_6e73f_row4_col1\" class=\"data row4 col1\" >4.2</td>\n",
       "      <td id=\"T_6e73f_row4_col2\" class=\"data row4 col2\" >3.6</td>\n",
       "      <td id=\"T_6e73f_row4_col3\" class=\"data row4 col3\" >2.8</td>\n",
       "      <td id=\"T_6e73f_row4_col4\" class=\"data row4 col4\" >3.6</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level1_row5\" class=\"row_heading level1 row5\" >2. aste</th>\n",
       "      <td id=\"T_6e73f_row5_col0\" class=\"data row5 col0\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row5_col1\" class=\"data row5 col1\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row5_col2\" class=\"data row5 col2\" >4.1</td>\n",
       "      <td id=\"T_6e73f_row5_col3\" class=\"data row5 col3\" >2.9</td>\n",
       "      <td id=\"T_6e73f_row5_col4\" class=\"data row5 col4\" >3.7</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_6e73f_level1_row6\" class=\"row_heading level1 row6\" >Korkeakoulu</th>\n",
       "      <td id=\"T_6e73f_row6_col0\" class=\"data row6 col0\" >3.4</td>\n",
       "      <td id=\"T_6e73f_row6_col1\" class=\"data row6 col1\" >3.4</td>\n",
       "      <td id=\"T_6e73f_row6_col2\" class=\"data row6 col2\" >4.0</td>\n",
       "      <td id=\"T_6e73f_row6_col3\" class=\"data row6 col3\" >2.7</td>\n",
       "      <td id=\"T_6e73f_row6_col4\" class=\"data row6 col4\" >3.3</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd84f4ac10>"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Tyytyväisyyskeskiarvoja sukupuolen ja koulutuksen mukaan\n",
    "df5 = df.groupby(['sukup', 'koulutus'])[['johto', 'työtov', 'työymp', 'palkkat', 'työteht']].mean()\n",
    "\n",
    "# Hierarkinen (sukupuoli, koulutus) indeksi vaatii omat niksinsä tekstiarvojen sijoittamiseen\n",
    "df5.index = df5.index.set_levels(sukup, level=0)\n",
    "df5.index = df5.index.set_levels(koulutus, level=1)\n",
    "\n",
    "# Esitän tulokset yhdellä desimaalilla\n",
    "df5.style.format('{:.1f}')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_f5e55\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_f5e55_level0_col0\" class=\"col_heading level0 col0\" >palkka</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_f5e55_level0_row0\" class=\"row_heading level0 row0\" >Mies</th>\n",
       "      <td id=\"T_f5e55_row0_col0\" class=\"data row0 col0\" >2658</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_f5e55_level0_row1\" class=\"row_heading level0 row1\" >Nainen</th>\n",
       "      <td id=\"T_f5e55_row1_col0\" class=\"data row1 col0\" >2318</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd84f4aad0>"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Keskiarvopalkat hierojaa käyttäneille sukupuolittain\n",
    "df6 = df[df['hieroja']==1].groupby('sukup')['palkka'].mean()\n",
    "\n",
    "# Sukupuolen tekstimuotoiset arvot\n",
    "df6.index = sukup\n",
    "\n",
    "# mean-funktiolla laskettu yksisarakkeinen tulostaulukko ei ole dataframe,\n",
    "# joten muunnan sen dataframeksi\n",
    "pd.DataFrame(df6).style.format('{:.0f}')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">\n",
       "</style>\n",
       "<table id=\"T_103b8\">\n",
       "  <thead>\n",
       "    <tr>\n",
       "      <th class=\"blank level0\" >&nbsp;</th>\n",
       "      <th id=\"T_103b8_level0_col0\" class=\"col_heading level0 col0\" >count</th>\n",
       "      <th id=\"T_103b8_level0_col1\" class=\"col_heading level0 col1\" >mean</th>\n",
       "      <th id=\"T_103b8_level0_col2\" class=\"col_heading level0 col2\" >std</th>\n",
       "      <th id=\"T_103b8_level0_col3\" class=\"col_heading level0 col3\" >min</th>\n",
       "      <th id=\"T_103b8_level0_col4\" class=\"col_heading level0 col4\" >25%</th>\n",
       "      <th id=\"T_103b8_level0_col5\" class=\"col_heading level0 col5\" >50%</th>\n",
       "      <th id=\"T_103b8_level0_col6\" class=\"col_heading level0 col6\" >75%</th>\n",
       "      <th id=\"T_103b8_level0_col7\" class=\"col_heading level0 col7\" >max</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th id=\"T_103b8_level0_row0\" class=\"row_heading level0 row0\" >Mies</th>\n",
       "      <td id=\"T_103b8_row0_col0\" class=\"data row0 col0\" >12</td>\n",
       "      <td id=\"T_103b8_row0_col1\" class=\"data row0 col1\" >2642</td>\n",
       "      <td id=\"T_103b8_row0_col2\" class=\"data row0 col2\" >905</td>\n",
       "      <td id=\"T_103b8_row0_col3\" class=\"data row0 col3\" >1521</td>\n",
       "      <td id=\"T_103b8_row0_col4\" class=\"data row0 col4\" >2134</td>\n",
       "      <td id=\"T_103b8_row0_col5\" class=\"data row0 col5\" >2457</td>\n",
       "      <td id=\"T_103b8_row0_col6\" class=\"data row0 col6\" >2974</td>\n",
       "      <td id=\"T_103b8_row0_col7\" class=\"data row0 col7\" >5069</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th id=\"T_103b8_level0_row1\" class=\"row_heading level0 row1\" >Nainen</th>\n",
       "      <td id=\"T_103b8_row1_col0\" class=\"data row1 col0\" >7</td>\n",
       "      <td id=\"T_103b8_row1_col1\" class=\"data row1 col1\" >2245</td>\n",
       "      <td id=\"T_103b8_row1_col2\" class=\"data row1 col2\" >382</td>\n",
       "      <td id=\"T_103b8_row1_col3\" class=\"data row1 col3\" >1715</td>\n",
       "      <td id=\"T_103b8_row1_col4\" class=\"data row1 col4\" >1969</td>\n",
       "      <td id=\"T_103b8_row1_col5\" class=\"data row1 col5\" >2223</td>\n",
       "      <td id=\"T_103b8_row1_col6\" class=\"data row1 col6\" >2574</td>\n",
       "      <td id=\"T_103b8_row1_col7\" class=\"data row1 col7\" >2691</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n"
      ],
      "text/plain": [
       "<pandas.io.formats.style.Styler at 0x1bd84f4ad50>"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Palkan tunnuslukuja sukupuolittain hierojaa ja työterveyshuoltoa käyttäneillä\n",
    "df7 = df[(df['hieroja']==1) & (df['työterv']==1)].groupby('sukup')['palkka'].describe()\n",
    "\n",
    "# Sukupuolten oikeat nimet numeroiden sijasta\n",
    "df7.index = sukup\n",
    "\n",
    "# Esitän tulokset ilman desimaaleja\n",
    "df7.style.format('{:.0f}')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Lisätietoa\n",
    "\n",
    "Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.13.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}