{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Päivitetty 2024-02-08 / Aki Taanila\n"
]
}
],
"source": [
"from datetime import datetime\n",
"print(f'Päivitetty {datetime.now().date()} / Aki Taanila')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Datojen yhdistäminen vierekkäin tai allekkain\n",
"\n",
"Vierekkäin yhdistettävissä datoissa täytyy molemmissa olla indeksi, jonka arvojen perusteella rivit asettuvat kohdakkain.\n",
"\n",
"Allekkain yhdistettävissä datoissa saman nimiset muuttujat asettuvat kohdakkain."
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Yhdistäminen vierekkäin"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" nro | \n",
" sukup | \n",
" ikä | \n",
" perhe | \n",
" koulutus | \n",
" palveluv | \n",
" palkka | \n",
" johto | \n",
" työtov | \n",
" työymp | \n",
" palkkat | \n",
" työteht | \n",
" työterv | \n",
" lomaosa | \n",
" kuntosa | \n",
" hieroja | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 1 | \n",
" 1 | \n",
" 38 | \n",
" 1 | \n",
" 1.0 | \n",
" 22.0 | \n",
" 3587 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 1 | \n",
" 2 | \n",
" 1 | \n",
" 29 | \n",
" 2 | \n",
" 2.0 | \n",
" 10.0 | \n",
" 2963 | \n",
" 1 | \n",
" 5.0 | \n",
" 2 | \n",
" 1 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 30 | \n",
" 1 | \n",
" 1.0 | \n",
" 7.0 | \n",
" 1989 | \n",
" 3 | \n",
" 4.0 | \n",
" 1 | \n",
" 1 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3 | \n",
" 4 | \n",
" 1 | \n",
" 36 | \n",
" 2 | \n",
" 1.0 | \n",
" 14.0 | \n",
" 2144 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4 | \n",
" 5 | \n",
" 1 | \n",
" 24 | \n",
" 1 | \n",
" 2.0 | \n",
" 4.0 | \n",
" 2183 | \n",
" 2 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 77 | \n",
" 78 | \n",
" 1 | \n",
" 22 | \n",
" 1 | \n",
" 3.0 | \n",
" 0.0 | \n",
" 1598 | \n",
" 4 | \n",
" 4.0 | \n",
" 4 | \n",
" 3 | \n",
" 4 | \n",
" NaN | \n",
" 1.0 | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 78 | \n",
" 79 | \n",
" 1 | \n",
" 33 | \n",
" 1 | \n",
" 1.0 | \n",
" 2.0 | \n",
" 1638 | \n",
" 1 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 79 | \n",
" 80 | \n",
" 1 | \n",
" 27 | \n",
" 1 | \n",
" 2.0 | \n",
" 7.0 | \n",
" 2612 | \n",
" 3 | \n",
" 4.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 80 | \n",
" 81 | \n",
" 1 | \n",
" 35 | \n",
" 2 | \n",
" 2.0 | \n",
" 16.0 | \n",
" 2808 | \n",
" 3 | \n",
" 4.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 81 | \n",
" 82 | \n",
" 2 | \n",
" 35 | \n",
" 2 | \n",
" 3.0 | \n",
" 15.0 | \n",
" 2183 | \n",
" 3 | \n",
" 4.0 | \n",
" 4 | \n",
" 3 | \n",
" 4 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
82 rows × 16 columns
\n",
"
"
],
"text/plain": [
" nro sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"0 1 1 38 1 1.0 22.0 3587 3 3.0 3 \n",
"1 2 1 29 2 2.0 10.0 2963 1 5.0 2 \n",
"2 3 1 30 1 1.0 7.0 1989 3 4.0 1 \n",
"3 4 1 36 2 1.0 14.0 2144 3 3.0 3 \n",
"4 5 1 24 1 2.0 4.0 2183 2 3.0 2 \n",
".. ... ... ... ... ... ... ... ... ... ... \n",
"77 78 1 22 1 3.0 0.0 1598 4 4.0 4 \n",
"78 79 1 33 1 1.0 2.0 1638 1 3.0 2 \n",
"79 80 1 27 1 2.0 7.0 2612 3 4.0 3 \n",
"80 81 1 35 2 2.0 16.0 2808 3 4.0 3 \n",
"81 82 2 35 2 3.0 15.0 2183 3 4.0 4 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja \n",
"0 3 3 NaN NaN NaN NaN \n",
"1 1 3 NaN NaN NaN NaN \n",
"2 1 3 1.0 NaN NaN NaN \n",
"3 3 3 1.0 NaN NaN NaN \n",
"4 1 2 1.0 NaN NaN NaN \n",
".. ... ... ... ... ... ... \n",
"77 3 4 NaN 1.0 1.0 NaN \n",
"78 1 2 1.0 NaN NaN NaN \n",
"79 3 3 1.0 NaN 1.0 NaN \n",
"80 3 3 NaN NaN NaN NaN \n",
"81 3 4 1.0 NaN NaN NaN \n",
"\n",
"[82 rows x 16 columns]"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Avaan yhdistettävät datat\n",
"df1 = pd.read_excel('https://taanila.fi/data1.xlsx')\n",
"df2 = pd.read_excel('https://taanila.fi/data1_s.xlsx')\n",
"\n",
"# Data, johon yhdistetään sairaspoissaolot\n",
"df1"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" nro | \n",
" sairaspoissaolot | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 6 | \n",
" 20 | \n",
"
\n",
" \n",
" 1 | \n",
" 7 | \n",
" 1 | \n",
"
\n",
" \n",
" 2 | \n",
" 8 | \n",
" 7 | \n",
"
\n",
" \n",
" 3 | \n",
" 45 | \n",
" 5 | \n",
"
\n",
" \n",
" 4 | \n",
" 46 | \n",
" 4 | \n",
"
\n",
" \n",
" 5 | \n",
" 47 | \n",
" 2 | \n",
"
\n",
" \n",
" 6 | \n",
" 48 | \n",
" 0 | \n",
"
\n",
" \n",
" 7 | \n",
" 49 | \n",
" 5 | \n",
"
\n",
" \n",
" 8 | \n",
" 50 | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" nro sairaspoissaolot\n",
"0 6 20\n",
"1 7 1\n",
"2 8 7\n",
"3 45 5\n",
"4 46 4\n",
"5 47 2\n",
"6 48 0\n",
"7 49 5\n",
"8 50 0"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Sairaspoissaolot\n",
"# nro-sarakkeen tiedot vastaavat toisiaan: esim. nro 6 vastaa henkilöä, \n",
"# jonka nro on 6 myös df1:ssä\n",
"df2"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"# Siirrän nro-muuttujan arvot indeksiin\n",
"df1 = df1.set_index('nro')\n",
"df2 = df2.set_index('nro')"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" sukup | \n",
" ikä | \n",
" perhe | \n",
" koulutus | \n",
" palveluv | \n",
" palkka | \n",
" johto | \n",
" työtov | \n",
" työymp | \n",
" palkkat | \n",
" työteht | \n",
" työterv | \n",
" lomaosa | \n",
" kuntosa | \n",
" hieroja | \n",
"
\n",
" \n",
" nro | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" 1 | \n",
" 1 | \n",
" 38 | \n",
" 1 | \n",
" 1.0 | \n",
" 22.0 | \n",
" 3587 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 2 | \n",
" 1 | \n",
" 29 | \n",
" 2 | \n",
" 2.0 | \n",
" 10.0 | \n",
" 2963 | \n",
" 1 | \n",
" 5.0 | \n",
" 2 | \n",
" 1 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3 | \n",
" 1 | \n",
" 30 | \n",
" 1 | \n",
" 1.0 | \n",
" 7.0 | \n",
" 1989 | \n",
" 3 | \n",
" 4.0 | \n",
" 1 | \n",
" 1 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4 | \n",
" 1 | \n",
" 36 | \n",
" 2 | \n",
" 1.0 | \n",
" 14.0 | \n",
" 2144 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 5 | \n",
" 1 | \n",
" 24 | \n",
" 1 | \n",
" 2.0 | \n",
" 4.0 | \n",
" 2183 | \n",
" 2 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 78 | \n",
" 1 | \n",
" 22 | \n",
" 1 | \n",
" 3.0 | \n",
" 0.0 | \n",
" 1598 | \n",
" 4 | \n",
" 4.0 | \n",
" 4 | \n",
" 3 | \n",
" 4 | \n",
" NaN | \n",
" 1.0 | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 79 | \n",
" 1 | \n",
" 33 | \n",
" 1 | \n",
" 1.0 | \n",
" 2.0 | \n",
" 1638 | \n",
" 1 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 80 | \n",
" 1 | \n",
" 27 | \n",
" 1 | \n",
" 2.0 | \n",
" 7.0 | \n",
" 2612 | \n",
" 3 | \n",
" 4.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 81 | \n",
" 1 | \n",
" 35 | \n",
" 2 | \n",
" 2.0 | \n",
" 16.0 | \n",
" 2808 | \n",
" 3 | \n",
" 4.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 82 | \n",
" 2 | \n",
" 35 | \n",
" 2 | \n",
" 3.0 | \n",
" 15.0 | \n",
" 2183 | \n",
" 3 | \n",
" 4.0 | \n",
" 4 | \n",
" 3 | \n",
" 4 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
82 rows × 15 columns
\n",
"
"
],
"text/plain": [
" sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"nro \n",
"1 1 38 1 1.0 22.0 3587 3 3.0 3 \n",
"2 1 29 2 2.0 10.0 2963 1 5.0 2 \n",
"3 1 30 1 1.0 7.0 1989 3 4.0 1 \n",
"4 1 36 2 1.0 14.0 2144 3 3.0 3 \n",
"5 1 24 1 2.0 4.0 2183 2 3.0 2 \n",
".. ... ... ... ... ... ... ... ... ... \n",
"78 1 22 1 3.0 0.0 1598 4 4.0 4 \n",
"79 1 33 1 1.0 2.0 1638 1 3.0 2 \n",
"80 1 27 1 2.0 7.0 2612 3 4.0 3 \n",
"81 1 35 2 2.0 16.0 2808 3 4.0 3 \n",
"82 2 35 2 3.0 15.0 2183 3 4.0 4 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja \n",
"nro \n",
"1 3 3 NaN NaN NaN NaN \n",
"2 1 3 NaN NaN NaN NaN \n",
"3 1 3 1.0 NaN NaN NaN \n",
"4 3 3 1.0 NaN NaN NaN \n",
"5 1 2 1.0 NaN NaN NaN \n",
".. ... ... ... ... ... ... \n",
"78 3 4 NaN 1.0 1.0 NaN \n",
"79 1 2 1.0 NaN NaN NaN \n",
"80 3 3 1.0 NaN 1.0 NaN \n",
"81 3 3 NaN NaN NaN NaN \n",
"82 3 4 1.0 NaN NaN NaN \n",
"\n",
"[82 rows x 15 columns]"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Varmistan, että nro:n siirto indeksiin onnnistui\n",
"df1"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" sairaspoissaolot | \n",
"
\n",
" \n",
" nro | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" 6 | \n",
" 20 | \n",
"
\n",
" \n",
" 7 | \n",
" 1 | \n",
"
\n",
" \n",
" 8 | \n",
" 7 | \n",
"
\n",
" \n",
" 45 | \n",
" 5 | \n",
"
\n",
" \n",
" 46 | \n",
" 4 | \n",
"
\n",
" \n",
" 47 | \n",
" 2 | \n",
"
\n",
" \n",
" 48 | \n",
" 0 | \n",
"
\n",
" \n",
" 49 | \n",
" 5 | \n",
"
\n",
" \n",
" 50 | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" sairaspoissaolot\n",
"nro \n",
"6 20\n",
"7 1\n",
"8 7\n",
"45 5\n",
"46 4\n",
"47 2\n",
"48 0\n",
"49 5\n",
"50 0"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Varmistan, että nro:n siirto indeksiin onnnistui\n",
"df2"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [],
"source": [
"# Yhdistän df1 ja df2 vierekkäin (axis=1 merkitsee vierekkäin yhdistämistä)\n",
"df3 = pd.concat([df1, df2], axis=1)"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" sukup | \n",
" ikä | \n",
" perhe | \n",
" koulutus | \n",
" palveluv | \n",
" palkka | \n",
" johto | \n",
" työtov | \n",
" työymp | \n",
" palkkat | \n",
" työteht | \n",
" työterv | \n",
" lomaosa | \n",
" kuntosa | \n",
" hieroja | \n",
" sairaspoissaolot | \n",
"
\n",
" \n",
" nro | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" 1 | \n",
" 1 | \n",
" 38 | \n",
" 1 | \n",
" 1.0 | \n",
" 22.0 | \n",
" 3587 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 2 | \n",
" 1 | \n",
" 29 | \n",
" 2 | \n",
" 2.0 | \n",
" 10.0 | \n",
" 2963 | \n",
" 1 | \n",
" 5.0 | \n",
" 2 | \n",
" 1 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3 | \n",
" 1 | \n",
" 30 | \n",
" 1 | \n",
" 1.0 | \n",
" 7.0 | \n",
" 1989 | \n",
" 3 | \n",
" 4.0 | \n",
" 1 | \n",
" 1 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4 | \n",
" 1 | \n",
" 36 | \n",
" 2 | \n",
" 1.0 | \n",
" 14.0 | \n",
" 2144 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 5 | \n",
" 1 | \n",
" 24 | \n",
" 1 | \n",
" 2.0 | \n",
" 4.0 | \n",
" 2183 | \n",
" 2 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 6 | \n",
" 2 | \n",
" 31 | \n",
" 2 | \n",
" 2.0 | \n",
" 14.0 | \n",
" 1910 | \n",
" 4 | \n",
" 4.0 | \n",
" 5 | \n",
" 2 | \n",
" 4 | \n",
" 1.0 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" 20.0 | \n",
"
\n",
" \n",
" 7 | \n",
" 1 | \n",
" 49 | \n",
" 1 | \n",
" 2.0 | \n",
" 16.0 | \n",
" 2066 | \n",
" 3 | \n",
" 5.0 | \n",
" 4 | \n",
" 2 | \n",
" 2 | \n",
" NaN | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
"
\n",
" \n",
" 8 | \n",
" 1 | \n",
" 55 | \n",
" 1 | \n",
" 1.0 | \n",
" 0.0 | \n",
" 2066 | \n",
" 3 | \n",
" 5.0 | \n",
" 3 | \n",
" 1 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 7.0 | \n",
"
\n",
" \n",
" 9 | \n",
" 1 | \n",
" 40 | \n",
" 2 | \n",
" 1.0 | \n",
" 23.0 | \n",
" 2768 | \n",
" 2 | \n",
" 4.0 | \n",
" 4 | \n",
" 2 | \n",
" 4 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 10 | \n",
" 1 | \n",
" 33 | \n",
" 1 | \n",
" 1.0 | \n",
" 16.0 | \n",
" 2106 | \n",
" 3 | \n",
" 2.0 | \n",
" 1 | \n",
" 1 | \n",
" 1 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"nro \n",
"1 1 38 1 1.0 22.0 3587 3 3.0 3 \n",
"2 1 29 2 2.0 10.0 2963 1 5.0 2 \n",
"3 1 30 1 1.0 7.0 1989 3 4.0 1 \n",
"4 1 36 2 1.0 14.0 2144 3 3.0 3 \n",
"5 1 24 1 2.0 4.0 2183 2 3.0 2 \n",
"6 2 31 2 2.0 14.0 1910 4 4.0 5 \n",
"7 1 49 1 2.0 16.0 2066 3 5.0 4 \n",
"8 1 55 1 1.0 0.0 2066 3 5.0 3 \n",
"9 1 40 2 1.0 23.0 2768 2 4.0 4 \n",
"10 1 33 1 1.0 16.0 2106 3 2.0 1 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja sairaspoissaolot \n",
"nro \n",
"1 3 3 NaN NaN NaN NaN NaN \n",
"2 1 3 NaN NaN NaN NaN NaN \n",
"3 1 3 1.0 NaN NaN NaN NaN \n",
"4 3 3 1.0 NaN NaN NaN NaN \n",
"5 1 2 1.0 NaN NaN NaN NaN \n",
"6 2 4 1.0 1.0 NaN NaN 20.0 \n",
"7 2 2 NaN NaN 1.0 NaN 1.0 \n",
"8 1 3 1.0 NaN NaN NaN 7.0 \n",
"9 2 4 NaN 1.0 NaN NaN NaN \n",
"10 1 1 1.0 NaN NaN NaN NaN "
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Varmistan yhdistämisen onnistumisen \n",
"df3.head(10)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Yhdistäminen allekkain"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" sukup | \n",
" ikä | \n",
" perhe | \n",
" koulutus | \n",
" palveluv | \n",
" palkka | \n",
" johto | \n",
" työtov | \n",
" työymp | \n",
" palkkat | \n",
" työteht | \n",
" työterv | \n",
" lomaosa | \n",
" kuntosa | \n",
" hieroja | \n",
"
\n",
" \n",
" nro | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" 83 | \n",
" 2 | \n",
" 31 | \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" 2800 | \n",
" 4 | \n",
" 4 | \n",
" 4 | \n",
" 3 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" 1.0 | \n",
"
\n",
" \n",
" 84 | \n",
" 1 | \n",
" 26 | \n",
" 1 | \n",
" 2 | \n",
" 0 | \n",
" 2500 | \n",
" 5 | \n",
" 4 | \n",
" 3 | \n",
" 2 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 85 | \n",
" 1 | \n",
" 32 | \n",
" 2 | \n",
" 2 | \n",
" 0 | \n",
" 2500 | \n",
" 5 | \n",
" 3 | \n",
" 2 | \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 86 | \n",
" 1 | \n",
" 40 | \n",
" 1 | \n",
" 2 | \n",
" 0 | \n",
" 2500 | \n",
" 3 | \n",
" 4 | \n",
" 3 | \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 87 | \n",
" 1 | \n",
" 31 | \n",
" 1 | \n",
" 4 | \n",
" 1 | \n",
" 3500 | \n",
" 4 | \n",
" 4 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
" 88 | \n",
" 1 | \n",
" 28 | \n",
" 1 | \n",
" 4 | \n",
" 0 | \n",
" 4600 | \n",
" 4 | \n",
" 3 | \n",
" 2 | \n",
" 4 | \n",
" 2 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 89 | \n",
" 1 | \n",
" 29 | \n",
" 1 | \n",
" 4 | \n",
" 0 | \n",
" 3900 | \n",
" 4 | \n",
" 3 | \n",
" 3 | \n",
" 4 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 90 | \n",
" 2 | \n",
" 31 | \n",
" 2 | \n",
" 2 | \n",
" 0 | \n",
" 2400 | \n",
" 4 | \n",
" 3 | \n",
" 2 | \n",
" 2 | \n",
" 3 | \n",
" 1 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"nro \n",
"83 2 31 2 3 1 2800 4 4 4 \n",
"84 1 26 1 2 0 2500 5 4 3 \n",
"85 1 32 2 2 0 2500 5 3 2 \n",
"86 1 40 1 2 0 2500 3 4 3 \n",
"87 1 31 1 4 1 3500 4 4 3 \n",
"88 1 28 1 4 0 4600 4 3 2 \n",
"89 1 29 1 4 0 3900 4 3 3 \n",
"90 2 31 2 2 0 2400 4 3 2 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja \n",
"nro \n",
"83 3 3 1 NaN NaN 1.0 \n",
"84 2 5 1 NaN NaN NaN \n",
"85 2 3 1 NaN 1.0 NaN \n",
"86 2 3 1 NaN 1.0 NaN \n",
"87 3 3 1 NaN 1.0 NaN \n",
"88 4 2 1 NaN NaN NaN \n",
"89 4 3 1 NaN NaN NaN \n",
"90 2 3 1 NaN 1.0 NaN "
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# data1_add.xlsx sisältää tietoja, jotka haluan lisätä df3:n perään\n",
"df4 = pd.read_excel('http://taanila.fi/data1_add.xlsx')\n",
"\n",
"# Siirrän nro-muuttujan arvot indeksiin\n",
"df4 = df4.set_index('nro')\n",
"df4"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" sukup | \n",
" ikä | \n",
" perhe | \n",
" koulutus | \n",
" palveluv | \n",
" palkka | \n",
" johto | \n",
" työtov | \n",
" työymp | \n",
" palkkat | \n",
" työteht | \n",
" työterv | \n",
" lomaosa | \n",
" kuntosa | \n",
" hieroja | \n",
" sairaspoissaolot | \n",
"
\n",
" \n",
" nro | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" 1 | \n",
" 1 | \n",
" 38 | \n",
" 1 | \n",
" 1.0 | \n",
" 22.0 | \n",
" 3587 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 2 | \n",
" 1 | \n",
" 29 | \n",
" 2 | \n",
" 2.0 | \n",
" 10.0 | \n",
" 2963 | \n",
" 1 | \n",
" 5.0 | \n",
" 2 | \n",
" 1 | \n",
" 3 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3 | \n",
" 1 | \n",
" 30 | \n",
" 1 | \n",
" 1.0 | \n",
" 7.0 | \n",
" 1989 | \n",
" 3 | \n",
" 4.0 | \n",
" 1 | \n",
" 1 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4 | \n",
" 1 | \n",
" 36 | \n",
" 2 | \n",
" 1.0 | \n",
" 14.0 | \n",
" 2144 | \n",
" 3 | \n",
" 3.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 5 | \n",
" 1 | \n",
" 24 | \n",
" 1 | \n",
" 2.0 | \n",
" 4.0 | \n",
" 2183 | \n",
" 2 | \n",
" 3.0 | \n",
" 2 | \n",
" 1 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 86 | \n",
" 1 | \n",
" 40 | \n",
" 1 | \n",
" 2.0 | \n",
" 0.0 | \n",
" 2500 | \n",
" 3 | \n",
" 4.0 | \n",
" 3 | \n",
" 2 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 87 | \n",
" 1 | \n",
" 31 | \n",
" 1 | \n",
" 4.0 | \n",
" 1.0 | \n",
" 3500 | \n",
" 4 | \n",
" 4.0 | \n",
" 3 | \n",
" 3 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 88 | \n",
" 1 | \n",
" 28 | \n",
" 1 | \n",
" 4.0 | \n",
" 0.0 | \n",
" 4600 | \n",
" 4 | \n",
" 3.0 | \n",
" 2 | \n",
" 4 | \n",
" 2 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 89 | \n",
" 1 | \n",
" 29 | \n",
" 1 | \n",
" 4.0 | \n",
" 0.0 | \n",
" 3900 | \n",
" 4 | \n",
" 3.0 | \n",
" 3 | \n",
" 4 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 90 | \n",
" 2 | \n",
" 31 | \n",
" 2 | \n",
" 2.0 | \n",
" 0.0 | \n",
" 2400 | \n",
" 4 | \n",
" 3.0 | \n",
" 2 | \n",
" 2 | \n",
" 3 | \n",
" 1.0 | \n",
" NaN | \n",
" 1.0 | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
90 rows × 16 columns
\n",
"
"
],
"text/plain": [
" sukup ikä perhe koulutus palveluv palkka johto työtov työymp \\\n",
"nro \n",
"1 1 38 1 1.0 22.0 3587 3 3.0 3 \n",
"2 1 29 2 2.0 10.0 2963 1 5.0 2 \n",
"3 1 30 1 1.0 7.0 1989 3 4.0 1 \n",
"4 1 36 2 1.0 14.0 2144 3 3.0 3 \n",
"5 1 24 1 2.0 4.0 2183 2 3.0 2 \n",
".. ... ... ... ... ... ... ... ... ... \n",
"86 1 40 1 2.0 0.0 2500 3 4.0 3 \n",
"87 1 31 1 4.0 1.0 3500 4 4.0 3 \n",
"88 1 28 1 4.0 0.0 4600 4 3.0 2 \n",
"89 1 29 1 4.0 0.0 3900 4 3.0 3 \n",
"90 2 31 2 2.0 0.0 2400 4 3.0 2 \n",
"\n",
" palkkat työteht työterv lomaosa kuntosa hieroja sairaspoissaolot \n",
"nro \n",
"1 3 3 NaN NaN NaN NaN NaN \n",
"2 1 3 NaN NaN NaN NaN NaN \n",
"3 1 3 1.0 NaN NaN NaN NaN \n",
"4 3 3 1.0 NaN NaN NaN NaN \n",
"5 1 2 1.0 NaN NaN NaN NaN \n",
".. ... ... ... ... ... ... ... \n",
"86 2 3 1.0 NaN 1.0 NaN NaN \n",
"87 3 3 1.0 NaN 1.0 NaN NaN \n",
"88 4 2 1.0 NaN NaN NaN NaN \n",
"89 4 3 1.0 NaN NaN NaN NaN \n",
"90 2 3 1.0 NaN 1.0 NaN NaN \n",
"\n",
"[90 rows x 16 columns]"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Yhdistän df3 ja df4 allekkain\n",
"df5 = pd.concat([df3, df4])\n",
"df5"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Luettelo muistiossa käytetyistä funktioista ja ominaisuuksista\n",
"\n",
"* **pd.read_excel()** datan lukeminen Excel-tiedostosta\n",
"* **df.set_index()** sarakkeen siirtäminen indeksiin\n",
"* **pd.concat()** datojen yhdistäminen"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Lisätietoa\n",
"\n",
"- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html\n",
" \n",
"Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.5"
}
},
"nbformat": 4,
"nbformat_minor": 4
}