{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Päivitetty 2025-05-15 / Aki Taanila\n"
]
}
],
"source": [
"from datetime import datetime\n",
"print(f'Päivitetty {datetime.now().date()} / Aki Taanila')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Dummy-muuttujien yhteenveto selittävän muuttujan mukaan\n",
"\n",
"Dummy-muuttujaksi (binäärinen, dikotominen) kutsutaan muuttujaa, joka saa arvokseen joko 0 (joskus tämän sijasta käytetään tyhjää solua) tai 1. \n",
"\n",
"Esimerkiksi kyselytutkimuksessa monivalintakysymys, jonka vaihtoehdoista vastaaja saa valita useammankin kuin yhden, koodataan dummy-muuttujiksi: Jokainen kysymyksen vaihtoehto on muuttuja, joka saa arvokseen 1, jos vastaaja on sen valinnut. Muussa tapauksessa arvo on 0 tai tyhjä.\n",
"\n",
"Usein valintakysymyksiä (saa valita vain yhden vaihtoehdon) kutsutaan virheellisesti monivalintakysymyksiksi. Valintakysmystä ei kannata koodata dummy-muuttujiksi paitsi koneoppimisen malleja käytettäessä."
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"sns.set_style('whitegrid')"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" \n",
" nro \n",
" sukup \n",
" ikä \n",
" perhe \n",
" koulutus \n",
" palveluv \n",
" palkka \n",
" johto \n",
" työtov \n",
" työymp \n",
" palkkat \n",
" työteht \n",
" työterv \n",
" lomaosa \n",
" kuntosa \n",
" hieroja \n",
" \n",
" \n",
" \n",
" \n",
" 0 \n",
" 1 \n",
" 1 \n",
" 38 \n",
" 1 \n",
" 1.0 \n",
" 22.0 \n",
" 3587 \n",
" 3 \n",
" 3.0 \n",
" 3 \n",
" 3 \n",
" 3 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 1 \n",
" 2 \n",
" 1 \n",
" 29 \n",
" 2 \n",
" 2.0 \n",
" 10.0 \n",
" 2963 \n",
" 1 \n",
" 5.0 \n",
" 2 \n",
" 1 \n",
" 3 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 2 \n",
" 3 \n",
" 1 \n",
" 30 \n",
" 1 \n",
" 1.0 \n",
" 7.0 \n",
" 1989 \n",
" 3 \n",
" 4.0 \n",
" 1 \n",
" 1 \n",
" 3 \n",
" 1.0 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 3 \n",
" 4 \n",
" 1 \n",
" 36 \n",
" 2 \n",
" 1.0 \n",
" 14.0 \n",
" 2144 \n",
" 3 \n",
" 3.0 \n",
" 3 \n",
" 3 \n",
" 3 \n",
" 1.0 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 4 \n",
" 5 \n",
" 1 \n",
" 24 \n",
" 1 \n",
" 2.0 \n",
" 4.0 \n",
" 2183 \n",
" 2 \n",
" 3.0 \n",
" 2 \n",
" 1 \n",
" 2 \n",
" 1.0 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" ... \n",
" \n",
" \n",
" 77 \n",
" 78 \n",
" 1 \n",
" 22 \n",
" 1 \n",
" 3.0 \n",
" 0.0 \n",
" 1598 \n",
" 4 \n",
" 4.0 \n",
" 4 \n",
" 3 \n",
" 4 \n",
" NaN \n",
" 1.0 \n",
" 1.0 \n",
" NaN \n",
" \n",
" \n",
" 78 \n",
" 79 \n",
" 1 \n",
" 33 \n",
" 1 \n",
" 1.0 \n",
" 2.0 \n",
" 1638 \n",
" 1 \n",
" 3.0 \n",
" 2 \n",
" 1 \n",
" 2 \n",
" 1.0 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 79 \n",
" 80 \n",
" 1 \n",
" 27 \n",
" 1 \n",
" 2.0 \n",
" 7.0 \n",
" 2612 \n",
" 3 \n",
" 4.0 \n",
" 3 \n",
" 3 \n",
" 3 \n",
" 1.0 \n",
" NaN \n",
" 1.0 \n",
" NaN \n",
" \n",
" \n",
" 80 \n",
" 81 \n",
" 1 \n",
" 35 \n",
" 2 \n",
" 2.0 \n",
" 16.0 \n",
" 2808 \n",
" 3 \n",
" 4.0 \n",
" 3 \n",
" 3 \n",
" 3 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
" 81 \n",
" 82 \n",
" 2 \n",
" 35 \n",
" 2 \n",
" 3.0 \n",
" 15.0 \n",
" 2183 \n",
" 3 \n",
" 4.0 \n",
" 4 \n",
" 3 \n",
" 4 \n",
" 1.0 \n",
" NaN \n",
" NaN \n",
" NaN \n",
" \n",
" \n",
"
\n",
"
82 rows × 16 columns
\n",
"
"
],
"text/plain": [
" nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"0 1 1 38 1 1.0 22.0 3587 3 3.0 3 \n",
"1 2 1 29 2 2.0 10.0 2963 1 5.0 2 \n",
"2 3 1 30 1 1.0 7.0 1989 3 4.0 1 \n",
"3 4 1 36 2 1.0 14.0 2144 3 3.0 3 \n",
"4 5 1 24 1 2.0 4.0 2183 2 3.0 2 \n",
".. ... ... ... ... ... ... ... ... ... ... \n",
"77 78 1 22 1 3.0 0.0 1598 4 4.0 4 \n",
"78 79 1 33 1 1.0 2.0 1638 1 3.0 2 \n",
"79 80 1 27 1 2.0 7.0 2612 3 4.0 3 \n",
"80 81 1 35 2 2.0 16.0 2808 3 4.0 3 \n",
"81 82 2 35 2 3.0 15.0 2183 3 4.0 4 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja \n",
"0 3 3 NaN NaN NaN NaN \n",
"1 1 3 NaN NaN NaN NaN \n",
"2 1 3 1.0 NaN NaN NaN \n",
"3 3 3 1.0 NaN NaN NaN \n",
"4 1 2 1.0 NaN NaN NaN \n",
".. ... ... ... ... ... ... \n",
"77 3 4 NaN 1.0 1.0 NaN \n",
"78 1 2 1.0 NaN NaN NaN \n",
"79 3 3 1.0 NaN 1.0 NaN \n",
"80 3 3 NaN NaN NaN NaN \n",
"81 3 4 1.0 NaN NaN NaN \n",
"\n",
"[82 rows x 16 columns]"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.read_excel('https://taanila.fi/data1.xlsx')\n",
"df"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"# Yhteenvetoon otettavien dikotomisten muuttujien nimet\n",
"dikot = ['työterv', 'lomaosa', 'kuntosa', 'hieroja']\n",
"\n",
"# Miesten ja naisten lukumäärät\n",
"miehet_n = len(df[df['sukup']==1])\n",
"naiset_n = len(df[df['sukup']==2])\n",
"\n",
"# Miesten ja naisten otsikoinnit\n",
"miehet = f'Miehet, n = {miehet_n}'\n",
"naiset = f'Naiset, n = {naiset_n}'"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Lukumäärät taulukkona ja grafiikkana\n",
"\n",
"Seabornin barplot sopii hyvin yhteenvedon graafiseen esittämiseen, koska kaaviolle voi estimator-parametrilla määrittää laskentamenetelmäksi summan (summaa yhteen muuttujan arvoina olevia ykkösiä)."
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
" \n",
" \n",
" \n",
" työterv \n",
" lomaosa \n",
" kuntosa \n",
" hieroja \n",
" \n",
" \n",
" \n",
" \n",
" Miehet, n = 63 \n",
" 35 \n",
" 16 \n",
" 8 \n",
" 13 \n",
" \n",
" \n",
" Naiset, n = 19 \n",
" 12 \n",
" 4 \n",
" 1 \n",
" 9 \n",
" \n",
" \n",
"
\n"
],
"text/plain": [
""
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Valintojen lukumäärät sukupuolen mukaan\n",
"df1 = df.groupby('sukup')[dikot].sum()\n",
"\n",
"# Riviotsikot (edellä määritellyt miesten ja naisten otsikoinnit)\n",
"df1.index = [miehet, naiset]\n",
"\n",
"# Ulkoasun viimeistely\n",
"df1.style.format('{:.0f}')"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Text(0, 0.5, 'Lukumäärä')"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Luodaan kahden kaavion kuvio\n",
"fig, axs = plt.subplots(nrows=1, ncols=2, sharey=True, figsize=(6, 3))\n",
"\n",
"# Puuttuvien arvojen korvaaminen arvolla 0 (fillna(0)) on välttämätön vain joissain versioissa\n",
"sns.barplot(data=df[dikot][df['sukup']==1].fillna(0), ax=axs[0], estimator=sum)\n",
"sns.barplot(data=df[dikot][df['sukup']==2].fillna(0), ax=axs[1], estimator=sum)\n",
"\n",
"axs[0].set_title(miehet)\n",
"axs[1].set_title(naiset)\n",
"axs[0].set_ylabel('Lukumäärä')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Prosenttiyhteenveto"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
" \n",
" \n",
" \n",
" työterv \n",
" lomaosa \n",
" kuntosa \n",
" hieroja \n",
" \n",
" \n",
" \n",
" \n",
" Miehet, n = 63 \n",
" 55.6 % \n",
" 25.4 % \n",
" 12.7 % \n",
" 20.6 % \n",
" \n",
" \n",
" Naiset, n = 19 \n",
" 63.2 % \n",
" 21.1 % \n",
" 5.3 % \n",
" 47.4 % \n",
" \n",
" \n",
"
\n"
],
"text/plain": [
""
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Valintojen lukumäärät sukupuolen mukaan\n",
"df1 = df.groupby('sukup')[dikot].sum()\n",
"\n",
"# Prosenttien laskenta: iloc[0] viittaa df1:n ensimmäiseen riviin ja iloc[1] toiseen riviin\n",
"df1.iloc[0] = df1.iloc[0]/miehet_n*100\n",
"df1.iloc[1] = df1.iloc[1]/naiset_n*100\n",
"\n",
"# Riviotsikot\n",
"df1.index = [miehet, naiset]\n",
"\n",
"# Prosenttilukujen ulkoasun viimeistely\n",
"df1.style.format('{:.1f} %')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Lisätietoa\n",
"\n",
"Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.13.2"
}
},
"nbformat": 4,
"nbformat_minor": 4
}