{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Päivitetty 2023-04-30 / Aki Taanila\n" ] } ], "source": [ "from datetime import datetime\n", "print(f'Päivitetty {datetime.now().date()} / Aki Taanila')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Tunnuslukujen vertailua ryhmien välillä\n", "\n", "Määrälliselle muuttujalle laskettuja tilastollisia tunnuslukuja voin vertailla kategorisen muuttujan määräämissä ryhmissä." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "\n", "sns.set_style('whitegrid')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
nrosukupikäperhekoulutuspalveluvpalkkajohtotyötovtyöymppalkkattyötehttyötervlomaosakuntosahieroja
0113811.022.0358733.0333NaNNaNNaNNaN
1212922.010.0296315.0213NaNNaNNaNNaN
2313011.07.0198934.01131.0NaNNaNNaN
3413621.014.0214433.03331.0NaNNaNNaN
4512412.04.0218323.02121.0NaNNaNNaN
...................................................
777812213.00.0159844.0434NaN1.01.0NaN
787913311.02.0163813.02121.0NaNNaNNaN
798012712.07.0261234.03331.0NaN1.0NaN
808113522.016.0280834.0333NaNNaNNaNNaN
818223523.015.0218334.04341.0NaNNaNNaN
\n", "

82 rows × 16 columns

\n", "
" ], "text/plain": [ " nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n", "0 1 1 38 1 1.0 22.0 3587 3 3.0 3 \n", "1 2 1 29 2 2.0 10.0 2963 1 5.0 2 \n", "2 3 1 30 1 1.0 7.0 1989 3 4.0 1 \n", "3 4 1 36 2 1.0 14.0 2144 3 3.0 3 \n", "4 5 1 24 1 2.0 4.0 2183 2 3.0 2 \n", ".. ... ... ... ... ... ... ... ... ... ... \n", "77 78 1 22 1 3.0 0.0 1598 4 4.0 4 \n", "78 79 1 33 1 1.0 2.0 1638 1 3.0 2 \n", "79 80 1 27 1 2.0 7.0 2612 3 4.0 3 \n", "80 81 1 35 2 2.0 16.0 2808 3 4.0 3 \n", "81 82 2 35 2 3.0 15.0 2183 3 4.0 4 \n", "\n", " palkkat työteht työterv lomaosa kuntosa hieroja \n", "0 3 3 NaN NaN NaN NaN \n", "1 1 3 NaN NaN NaN NaN \n", "2 1 3 1.0 NaN NaN NaN \n", "3 3 3 1.0 NaN NaN NaN \n", "4 1 2 1.0 NaN NaN NaN \n", ".. ... ... ... ... ... ... \n", "77 3 4 NaN 1.0 1.0 NaN \n", "78 1 2 1.0 NaN NaN NaN \n", "79 3 3 1.0 NaN 1.0 NaN \n", "80 3 3 NaN NaN NaN NaN \n", "81 3 4 1.0 NaN NaN NaN \n", "\n", "[82 rows x 16 columns]" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_excel('https://taanila.fi/data1.xlsx')\n", "df" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "# Sukupuolen ja koulutuksen tekstimuotoiset arvot\n", "sukup = ['Mies', 'Nainen']\n", "koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## groupby + describe\n", "\n", "Voit jakaa datan ryhmiin **groupby**-funktiolla ja laskea tilastolliset tunnusluvut **describe**-funktiolla" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 LukumääräKeskiarvoKeskihajontaPieninAlaneljännesMediaaniYläneljännesSuurin
Mies63266493015212086241729256278
Nainen19223334117151969214425742729
\n" ], "text/plain": [ "" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Palkan tunnuslukujen vertailu sukupuolen mukaan\n", "df1 = df.groupby('sukup')['palkka'].describe()\n", "\n", "# Taulukon otsikot\n", "df1.index = sukup\n", "\n", "# Tunnusluvuille suomenkieliset nimet\n", "tunnusluvut = ['Lukumäärä', 'Keskiarvo', 'Keskihajonta', 'Pienin', 'Alaneljännes', \n", " 'Mediaani', 'Yläneljännes', 'Suurin']\n", "df1.columns = tunnusluvut\n", "\n", "# Ulkoasun viimeistely\n", "df1.style.format('{:.0f}')" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 countmeanstdmin25%50%75%max
Peruskoulu27231047316382008214425343587
2. aste30240353415212008237827293510
Korkeakoulu222887110815592222271029256278
Ylempi korkeakoulu2514711050695108514751865225
\n" ], "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Palkan tunnuslukujen vertailu koulutuksen mukaan\n", "df2 = df.groupby('koulutus')['palkka'].describe()\n", "\n", "# Taulukon otsikot\n", "df2.index = koulutus\n", "\n", "# Ulkoasun viimeistely\n", "df2.style.format('{:.0f}')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Ruutu- ja janakaavio eli boxplot\n", "\n", "Ruutu- ja janakaavio on havainnollinen tapa vertailuun. Kaavio näyttää viiden luvun yhteenvedon (pienin, alaneljännes, mediaani, yläneljännes, suurin) ja erityisen poikkeavat arvot.\n", "\n", "Seuraavissa esimerkeissä n-arvot on kikkailtu kaavioon vertailtavien ryhmien nimien yhteyteen. Jos koet tämän hankalaksi, niin n-arvot voi toki raportoitaessa esittää muullakin tavoin (esimerkiksi kaaviota selittävässä tekstissä tai describe-funktiolla lasketussa tunnuslukutaulukossa)." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0, 0.5, 'Kuukausipalkka')" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Palkan vertailu sukupuolen mukaan ruutu- ja janakaaviona\n", "sns.boxplot(data=df, x='sukup', y='palkka')\n", "\n", "# Naisten ja miesten palkka-arvojen lukumäärät\n", "n_mies = int(df1.iloc[0, 0])\n", "n_nainen = int(df1.iloc[1, 0])\n", "\n", "# Kategoria-akselin luokkien uudelleen nimeäminen (n-arvot mukaan)\n", "plt.xticks(ticks=[0, 1], labels=[f'Mies, n = {n_mies}', f'Nainen, n = {n_nainen}'])\n", "plt.xlabel('')\n", "plt.ylabel('Kuukausipalkka')" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0, 0.5, 'Kuukausipalkka')" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Palkan vertailu koulutuksen mukaan ruutu- ja janakaaviona\n", "\n", "sns.boxplot(data=df, x='koulutus', y='palkka')\n", "\n", "# Pientä kikkailua n-arvojen saamiseksi kaavioon\n", "n_koulutus = []\n", "for i in range(4):\n", " # \\n on rivinvaihdon merkki \n", " n_koulutus.append(f'{koulutus[i]}\\n n = {int(df2.iloc[i, 0])}')\n", "plt.xticks(ticks=[0, 1, 2, 3], labels=n_koulutus)\n", "\n", "plt.xlabel('')\n", "plt.ylabel('Kuukausipalkka')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Pivot_table()\n", "\n", "Pivot-taulukkoon lasketaan oletuksena keskiarvoja." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 MiesNainenKaikki
Peruskoulu235421212310
2. aste246122112403
Korkeakoulu314523342887
Ylempi korkeakoulu5147-5147
Kaikki267522332571
\n" ], "text/plain": [ "" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Palkkakeskiarvojen vertailua sukupuolen ja koulutuksen mukaan \n", "df3 = df.pivot_table(values='palkka', index='koulutus', columns='sukup', margins=True)\n", "\n", "# Tekstimuotoisten arvojen listoihin täytyy lisätä otsikko viimeistä riviä/saraketta varten (Kaikki)\n", "df3.index = koulutus + ['Kaikki']\n", "df3.columns = sukup + ['Kaikki']\n", "\n", "# Ulkoasun viimeistely\n", "# Puuttuvan arvon merkiksi -\n", "df3.style.format('{:.0f}', na_rep='-')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Ovatko keskiarvojen erot tilastollisesti merkitseviä?\n", "\n", "Otoksessa havaitut ryhmien väliset erot voivat olla liian pieniä, jotta niitä voisi yleistää laajempaan perusjoukkoon, josta otos on otettu. Kyseessä voi olla otantavirheen (sattuman) aiheuttama ero.\n", "\n", "Eroa sanotaan merkitseväksi, jos sen perusteella voidaan tehdä yleistys laajempaan perusjoukkoon, josta otos on otettu. Eron merkitsevyyttä voidaan testata laskemalla niin kutsuttu **p-arvo**. Mitä pienempi p-arvo, sitä merkitsevämpi ero. Yleensä alle 0,05 (5 %) suuruisia p-arvoja pidetään osoituksena merkitsevästä erosta.\n", "\n", "Kahden ryhmän keskiarvojen vertailuun liittyvän p-arvon voit laskea kahden riippumattoman otoksen t-testillä (**ttest_ind**).\n", "\n", "ertailtavien ryhmien varianssien yhtäsuuruutta ei yleensä kannata olettaa (**equal_var=False**).\n", "\n", "Puuttuvia arvoja sisältävät rivit eivät saa olla testin laskennasta mukana ja **nan_policy**-parametri huolehtii tästä." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Ttest_indResult(statistic=3.0597612743474714, pvalue=0.003048272029697872)" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Vertailtavien ryhmien muodostaminen\n", "s1 = df['palkka'][df['sukup']==1] # miesten palkat\n", "s2 = df['palkka'][df['sukup']==2] # naisten palkat\n", "\n", "# Kahden riippumattoman (ind) otoksen t-testi\n", "from scipy.stats import ttest_ind\n", "ttest_ind(s1, s2, equal_var=False, nan_policy='omit')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Miesten (keskiarvo 2664 euroa) ja naisten (keskiarvo 2233 euroa) palkkakeskiarvojen välillä on tilastollisesti merkitsevä ero (kahden riippumattoman otoksen 2-suuntaisen t-testin p = 0,003).\n", "\n", "Useamman ryhmän keskiarvojen vertailuun liittyvän p-arvon voit laskea F-testillä (**f_oneway**). \n", "\n", "Jos tarkasteltavalla muuttujalla on puuttuvia arvoja, niin alkuperäisen datan sijasta pitää käyttää dataa, josta puuttuvia arvoja sisältävät rivit on poistettu.\n", "\n", "Seuraavassa pelkistetympi tapa tulostaa näkyviin t-testin p-arvo:" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "p-arvo 0.003\n" ] } ], "source": [ "p = ttest_ind(s1, s2, equal_var=False, nan_policy='omit')[1]\n", "print(f'p-arvo {p:.3f}')" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "F_onewayResult(statistic=11.675086950951924, pvalue=2.186573534680074e-06)" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Data, josta on poistettu mahdolliset palkan puuttuvia arvoja sisältävät rivit\n", "df_dropna = df.dropna(subset=['palkka'])\n", "\n", "# Vertailtavien ryhmien muodostaminen\n", "k1 = df_dropna['palkka'][df_dropna['koulutus']==1] # peruskoulu suorittaneiden palkat\n", "k2 = df_dropna['palkka'][df_dropna['koulutus']==2] # 2. aste suorittaneiden palkat\n", "k3 = df_dropna['palkka'][df_dropna['koulutus']==3] # korkeakoulun suorittaneiden palkat\n", "k4 = df_dropna['palkka'][df_dropna['koulutus']==4] # ylemmän korkeakoulun suorittaneiden palkat\n", "\n", "# F-testi\n", "from scipy.stats import f_oneway\n", "f_oneway(k1, k2, k3, k4)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Seuraavassa pelkistetympi p-arvon tulostus. Erittäin pienet p-arvot esitetään tieteellisessä esitysmuodossa kymmenen potensseina (esimerkiksi yllä 2.19*10e-06). Seuraavassa p-arvot esitetään 3-desimaalin tarkkuudella, jolloin alle 0.001 suuruiset p-arvot näkyvät arvoina 0.000" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "p-arvo 0.000\n" ] } ], "source": [ "p = f_oneway(k1, k2, k3, k4)[1]\n", "print(f'p-arvo {p:.3f}')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Eri koulutuksen suorittaneiden välillä on tilastollisesti merkitseviä eroja palkkakeskiarvoissa (F-testin p < 0,001)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Lisätietoa\n", "\n", "* Onko ryhmien välinen ero tilastolliseti merkitsevä\n", "https://tilastoapu.wordpress.com/2012/04/14/onko-ryhmien-valinen-ero-tilastollisesti-merkitseva/\n", "\n", "* Lisätietoa p-arvoista\n", "https://tilastoapu.wordpress.com/2012/02/14/p-arvo/\n", "\n", "* p-arvoja Pythonilla eri testaustilanteisiin\n", "https://nbviewer.jupyter.org/github/taanila/selittava/blob/main/p.ipynb\n", "\n", "Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.9" } }, "nbformat": 4, "nbformat_minor": 2 }