{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Päivitetty 2023-04-30 / Aki Taanila\n" ] } ], "source": [ "from datetime import datetime\n", "print(f'Päivitetty {datetime.now().date()} / Aki Taanila')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Frekvenssit dikotomisille (dummy) muuttujille\n", "\n", "Dummy-muuttujaksi (binäärinen muuttuja, dikotominen muuttuja) kutsutaan muuttujaa, joka saa arvokseen 1 tai 0 (joskus nollan sijasta käytetään tyhjää). \n", "\n", " \n", "Esimerkiksi kyselytutkimuksessa monivalintakysymys, jonka vaihtoehdoista vastaaja saa valita useammankin kuin yhden, koodataan dummy-muuttujiksi: Jokainen kysymyksen vaihtoehto on muuttuja, joka saa arvokseen 1, jos vastaaja on sen valinnut. Muussa tapauksessa arvo on 0 tai tyhjä.\n", " \n", "\n", "Usein valintakysymyksiä (saa valita vain yhden vaihtoehdon) kutsutaan virheellisesti monivalintakysymyksiksi. Valintakysymystä ei kannata koodata dummy-muuttujiksi paitsi koneoppimisen malleja käytettäessä." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "\n", "# Grafiikan tyylimääritys\n", "sns.set_style('whitegrid')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | nro | \n", "sukup | \n", "ikä | \n", "perhe | \n", "koulutus | \n", "palveluv | \n", "palkka | \n", "johto | \n", "työtov | \n", "työymp | \n", "palkkat | \n", "työteht | \n", "työterv | \n", "lomaosa | \n", "kuntosa | \n", "hieroja | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "1 | \n", "38 | \n", "1 | \n", "1.0 | \n", "22.0 | \n", "3587 | \n", "3 | \n", "3.0 | \n", "3 | \n", "3 | \n", "3 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
1 | \n", "2 | \n", "1 | \n", "29 | \n", "2 | \n", "2.0 | \n", "10.0 | \n", "2963 | \n", "1 | \n", "5.0 | \n", "2 | \n", "1 | \n", "3 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
2 | \n", "3 | \n", "1 | \n", "30 | \n", "1 | \n", "1.0 | \n", "7.0 | \n", "1989 | \n", "3 | \n", "4.0 | \n", "1 | \n", "1 | \n", "3 | \n", "1.0 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
3 | \n", "4 | \n", "1 | \n", "36 | \n", "2 | \n", "1.0 | \n", "14.0 | \n", "2144 | \n", "3 | \n", "3.0 | \n", "3 | \n", "3 | \n", "3 | \n", "1.0 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
4 | \n", "5 | \n", "1 | \n", "24 | \n", "1 | \n", "2.0 | \n", "4.0 | \n", "2183 | \n", "2 | \n", "3.0 | \n", "2 | \n", "1 | \n", "2 | \n", "1.0 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
77 | \n", "78 | \n", "1 | \n", "22 | \n", "1 | \n", "3.0 | \n", "0.0 | \n", "1598 | \n", "4 | \n", "4.0 | \n", "4 | \n", "3 | \n", "4 | \n", "NaN | \n", "1.0 | \n", "1.0 | \n", "NaN | \n", "
78 | \n", "79 | \n", "1 | \n", "33 | \n", "1 | \n", "1.0 | \n", "2.0 | \n", "1638 | \n", "1 | \n", "3.0 | \n", "2 | \n", "1 | \n", "2 | \n", "1.0 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
79 | \n", "80 | \n", "1 | \n", "27 | \n", "1 | \n", "2.0 | \n", "7.0 | \n", "2612 | \n", "3 | \n", "4.0 | \n", "3 | \n", "3 | \n", "3 | \n", "1.0 | \n", "NaN | \n", "1.0 | \n", "NaN | \n", "
80 | \n", "81 | \n", "1 | \n", "35 | \n", "2 | \n", "2.0 | \n", "16.0 | \n", "2808 | \n", "3 | \n", "4.0 | \n", "3 | \n", "3 | \n", "3 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
81 | \n", "82 | \n", "2 | \n", "35 | \n", "2 | \n", "3.0 | \n", "15.0 | \n", "2183 | \n", "3 | \n", "4.0 | \n", "4 | \n", "3 | \n", "4 | \n", "1.0 | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
82 rows × 16 columns
\n", "\n", " | f | \n", "% vastaajista | \n", "
---|---|---|
työterv | \n", "47 | \n", "57.3 % | \n", "
hieroja | \n", "22 | \n", "26.8 % | \n", "
lomaosa | \n", "20 | \n", "24.4 % | \n", "
kuntosa | \n", "9 | \n", "11.0 % | \n", "