{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Päivitetty 2023-12-11 / Aki Taanila\n" ] } ], "source": [ "from datetime import datetime\n", "print(f'Päivitetty {datetime.now().date()} / Aki Taanila')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Ristiintaulukointi\n", "\n", "Kahden kategorisen muuttujan riippuvuutta tarkastelen ristiintaulukoinnin avulla" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "sns.set_style('white')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
nrosukupikäperhekoulutuspalveluvpalkkajohtotyötovtyöymppalkkattyötehttyötervlomaosakuntosahieroja
0113811.022.0358733.0333NaNNaNNaNNaN
1212922.010.0296315.0213NaNNaNNaNNaN
2313011.07.0198934.01131.0NaNNaNNaN
3413621.014.0214433.03331.0NaNNaNNaN
4512412.04.0218323.02121.0NaNNaNNaN
...................................................
777812213.00.0159844.0434NaN1.01.0NaN
787913311.02.0163813.02121.0NaNNaNNaN
798012712.07.0261234.03331.0NaN1.0NaN
808113522.016.0280834.0333NaNNaNNaNNaN
818223523.015.0218334.04341.0NaNNaNNaN
\n", "

82 rows × 16 columns

\n", "
" ], "text/plain": [ " nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n", "0 1 1 38 1 1.0 22.0 3587 3 3.0 3 \n", "1 2 1 29 2 2.0 10.0 2963 1 5.0 2 \n", "2 3 1 30 1 1.0 7.0 1989 3 4.0 1 \n", "3 4 1 36 2 1.0 14.0 2144 3 3.0 3 \n", "4 5 1 24 1 2.0 4.0 2183 2 3.0 2 \n", ".. ... ... ... ... ... ... ... ... ... ... \n", "77 78 1 22 1 3.0 0.0 1598 4 4.0 4 \n", "78 79 1 33 1 1.0 2.0 1638 1 3.0 2 \n", "79 80 1 27 1 2.0 7.0 2612 3 4.0 3 \n", "80 81 1 35 2 2.0 16.0 2808 3 4.0 3 \n", "81 82 2 35 2 3.0 15.0 2183 3 4.0 4 \n", "\n", " palkkat työteht työterv lomaosa kuntosa hieroja \n", "0 3 3 NaN NaN NaN NaN \n", "1 1 3 NaN NaN NaN NaN \n", "2 1 3 1.0 NaN NaN NaN \n", "3 3 3 1.0 NaN NaN NaN \n", "4 1 2 1.0 NaN NaN NaN \n", ".. ... ... ... ... ... ... \n", "77 3 4 NaN 1.0 1.0 NaN \n", "78 1 2 1.0 NaN NaN NaN \n", "79 3 3 1.0 NaN 1.0 NaN \n", "80 3 3 NaN NaN NaN NaN \n", "81 3 4 1.0 NaN NaN NaN \n", "\n", "[82 rows x 16 columns]" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_excel('https://taanila.fi/data1.xlsx')\n", "df" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
MiesNainen
Peruskoulu225
2. aste237
Korkeakoulu157
Ylempi korkeakoulu20
\n", "
" ], "text/plain": [ " Mies Nainen\n", "Peruskoulu 22 5\n", "2. aste 23 7\n", "Korkeakoulu 15 7\n", "Ylempi korkeakoulu 2 0" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Listat muuttujien tekstimuotoisista arvoista\n", "koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']\n", "sukup = ['Mies', 'Nainen']\n", "\n", "# Ristiintaulukointi lukumäärinä\n", "df1 = pd.crosstab(df['koulutus'], df['sukup'])\n", "\n", "# Otsikot kuntoon edellä määriteltyjä listoja käyttäen\n", "df1.index = koulutus\n", "df1.columns = sukup\n", "df1" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 MiesNainen
Peruskoulu35.5 %26.3 %
2. aste37.1 %36.8 %
Korkeakoulu24.2 %36.8 %
Ylempi korkeakoulu3.2 %0.0 %
\n" ], "text/plain": [ "" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Ristiintaulukointi; prosentit sarakkeiden kokonaismääristä (normalize='columns')\n", "df2 = pd.crosstab(df['koulutus'], df['sukup'], normalize='columns')*100\n", "\n", "# Otsikot kuntoon edellä määriteltyjä listoja käyttäen\n", "df2.index = koulutus\n", "df2.columns = sukup\n", "\n", "df2.style.format('{:.1f} %') # Ulkoasun viimeistely" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
 Mies, n = 62Nainen, n = 19
Peruskoulu35.5 %26.3 %
2. aste37.1 %36.8 %
Korkeakoulu24.2 %36.8 %
Ylempi korkeakoulu3.2 %0.0 %
\n" ], "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Tässä edellinen n-arvoilla täydennettynä\n", "\n", "df3 = pd.crosstab(df['koulutus'], df['sukup'], normalize='columns') * 100\n", "df3.index = koulutus\n", "df3.columns = sukup\n", "\n", "# Lukumäärätaulukosta (df1) n-arvot sarakeotsikoihin\n", "for sarake in df3.columns:\n", " df3 = df3.rename(columns={sarake:f'{sarake}, n = {df1[sarake].sum()}'})\n", "\n", "df3.style.format('{:.1f} %')" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df1.plot(kind='bar', rot=0) # Lukumäärät pylväinä\n", "\n", "plt.ylabel('Lukumäärä')\n", "plt.grid(axis='y') # Vaakasuuntainen taustaviivoitus" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Prosenttien esittämiseen sopii vierekkäisiä pylväitä paremmin pinotut pylväät. Kaaviota varten taulukon rivit ja sarakkeet kannattaa vaihtaa päittäin käyttämällä transponointi toimintoa **T**.\n", "\n", "Pinottuun pylväskaavioon sopii oletusvärikarttaa paremmin jokin sequential-tyyppinen värikartta. Tässä käytän 'Blues'-värikarttaa. Värikarttoja: https://matplotlib.org/stable/tutorials/colors/colormaps.html " ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df3.T.plot(kind='barh', stacked=True, cmap='Blues')\n", "\n", "plt.xlabel('Prosenttia sukupuolesta')\n", "plt.grid(axis='x')\n", "\n", "# Selitteen sijoittelu suhteessa origoon, selitteitä 4 vierekkäin\n", "plt.legend(loc=(-0.14, -0.25), ncol=4)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Onko ristiintaulukoinnissa havaittu riippuvuus tilastollisesti merkitsevää?\n", "\n", "Otoksessa havaitut riippuvuudet voivat olla liian pieniä, jotta niitä voisi yleistää laajempaan perusjoukkoon, josta otos on otettu. Kyseessä voi olla otantavirheen (sattuman) aiheuttama riippuvuus.\n", "\n", "Riippuvuutta sanotaan merkitseväksi, jos sen perusteella voidaan tehdä yleistys laajempaan perusjoukkoon, josta otos on otettu. Riippuvuuden merkitsevyyttä voit testata laskemalla niin kutsuttu **p-arvo**. Mitä pienempi p-arvo, sitä merkitsevämpi riippuvuus. Yleensä alle 0,05 (5 %) suuruisia p-arvoja pidetään osoituksena merkitsevästä riippuvuudesta.\n", "\n", "Ristiintaulukointiin liittyvän p-arvon voit laskea khiin neliö -testillä (chi2_contingency). Testin palauttamat arvot ovat khiin neliö, p-arvo ja vapausasteiden määrä (df eli degrees of freedom). \n", "\n", "Lisäksi testi palauttaa teoreettisen ristiintaulukoinnin, jossa ei ole riippuvuutta lainkaan, mutta rivi- ja sarakesummat ovat samat kuin alkuperäisessä ristiintaulukoinnissa. Teoreettisen ristiintaulukoinnin avulla voit arvioida testin pätevyyttä. Mitä enemmän teoreettisessa taulukossa on pieniä, alle viiden suuruisia frekvenssejä sitä varovaisemmin testin tulokseen pitää suhtautua. Esimerkin tapauksessa on kaksi alle viiden suuruista frekvenssiä, joten testiä ei voi pitää pätevänä.\n" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "Chi2ContingencyResult(statistic=1.836533415650563, pvalue=0.6070173075042058, dof=3, expected_freq=array([[20.66666667, 6.33333333],\n", " [22.96296296, 7.03703704],\n", " [16.83950617, 5.16049383],\n", " [ 1.5308642 , 0.4691358 ]]))" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from scipy.stats import chi2_contingency\n", "\n", "# khiin neliö -testi lasketaan aina lukumäärätaulukosta!\n", "chi2_contingency(df1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Khiin neliö -testin tulos: Riippuvuus ei ole merkitsevää (khiin neliö = 1.84, p = 0.607, df = 3).\n", "\n", "Seuraavassa vähän pelkistetympi p-arvon tulostus:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "p-arvo 0.607\n" ] } ], "source": [ "p = chi2_contingency(df1)[1]\n", "print(f'p-arvo {p:.3f}')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Lisätietoa\n", "\n", "* Tietoa khiin neliö -testistä:\n", "https://tilastoapu.wordpress.com/2011/10/14/6-ristiintaulukointi-ja-khiin-nelio-testi/\n", "\n", "* Lisätietoa p-arvoista:\n", "https://tilastoapu.wordpress.com/2012/02/14/p-arvo/\n", "\n", "* p-arvoja Pythonilla eri testaustilanteisiin:\n", "https://nbviewer.jupyter.org/github/taanila/tilastoapu/blob/master/p.ipynb\n", "\n", "Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.4" } }, "nbformat": 4, "nbformat_minor": 4 }