In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2024-02-08 / Aki Taanila


# Lukumäärät ja prosentit value_counts-funktiolla

Frekvenssitaulukot ja ristiintaulukoinnit voin laskea **crosstab**-funktiolla, mutta taitavalle käyttäjälle **value_counts**-funktio on kätevä.

Seuraavassa esittelen value_counts niksejä.

In [2]:
import pandas as pd
df = pd.read_excel('https://taanila.fi/data1.xlsx')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   nro       82 non-null     int64  
 1   sukup     82 non-null     int64  
 2   ikä       82 non-null     int64  
 3   perhe     82 non-null     int64  
 4   koulutus  81 non-null     float64
 5   palveluv  80 non-null     float64
 6   palkka    82 non-null     int64  
 7   johto     82 non-null     int64  
 8   työtov    81 non-null     float64
 9   työymp    82 non-null     int64  
 10  palkkat   82 non-null     int64  
 11  työteht   82 non-null     int64  
 12  työterv   47 non-null     float64
 13  lomaosa   20 non-null     float64
 14  kuntosa   9 non-null      float64
 15  hieroja   22 non-null     float64
dtypes: float64(7), int64(9)
memory usage: 10.4 KB


In [3]:
# Lisään dataan yhden object-tyyppisen muuttujan
df['työteht_obj'] = df['työteht'].replace({1:'Erittäin tyytymätön', 2:'Tyytymätön', 3:'Siltä väliltä',
                                       4:'Tyytyväinen', 5:'Erittäin tyytyväinen'})

# Nyt datassa on kokonaisluku (int64), liukuluku (float64) ja object-tyyppisiä muuttujia
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 17 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   nro          82 non-null     int64  
 1   sukup        82 non-null     int64  
 2   ikä          82 non-null     int64  
 3   perhe        82 non-null     int64  
 4   koulutus     81 non-null     float64
 5   palveluv     80 non-null     float64
 6   palkka       82 non-null     int64  
 7   johto        82 non-null     int64  
 8   työtov       81 non-null     float64
 9   työymp       82 non-null     int64  
 10  palkkat      82 non-null     int64  
 11  työteht      82 non-null     int64  
 12  työterv      47 non-null     float64
 13  lomaosa      20 non-null     float64
 14  kuntosa      9 non-null      float64
 15  hieroja      22 non-null     float64
 16  työteht_obj  82 non-null     object 
dtypes: float64(7), int64(9), object(1)
memory usage: 11.0+ KB


## Frekvenssien mukainen järjestys

In [4]:
# Oletuksena value_counts() järjestää frekvenssit suurimmasta pienimpään
df['työymp'].value_counts()

työymp
3    30
4    23
5    11
2     9
1     9
Name: count, dtype: int64

In [5]:
# Tulos ei ole dataframe, mutta to_frame() muuntaa sen dataframeksi
df['työymp'].value_counts().to_frame('f')

Unnamed: 0_level_0,f
työymp,Unnamed: 1_level_1
3,30
4,23
5,11
2,9
1,9


In [6]:
# ascending-parametrilla järjestän frekvenssit pienimmästä suurimpaan
df['työymp'].value_counts(ascending=True).to_frame('f')

Unnamed: 0_level_0,f
työymp,Unnamed: 1_level_1
2,9
1,9
5,11
4,23
3,30


## Muuttujan arvojen mukainen järjestys

In [7]:
# sort_index() järjestää muuttujan arvot pienimmästä suurimpaan (aakkos-/numerojärjestys)
df['työymp'].value_counts().sort_index().to_frame('f')

Unnamed: 0_level_0,f
työymp,Unnamed: 1_level_1
1,9
2,9
3,30
4,23
5,11


In [8]:
# Myös päinvastainen järjestys on mahdollinen
df['työymp'].value_counts().sort_index(ascending=False).to_frame('f')

Unnamed: 0_level_0,f
työymp,Unnamed: 1_level_1
5,11
4,23
3,30
2,9
1,9


In [9]:
# sort_index() laittaa object-tyypin arvot aakkosjärjestykseen
# Tämä ei yleensä ole haluttu järjestys
df['työteht_obj'].value_counts().sort_index().to_frame('f')

Unnamed: 0_level_0,f
työteht_obj,Unnamed: 1_level_1
Erittäin tyytymätön,5
Erittäin tyytyväinen,8
Siltä väliltä,29
Tyytymätön,15
Tyytyväinen,25


In [10]:
# Räätälöidyn järjestyksen saan listan ja reindex()-funktion avulla
# Tärkeää: listassa pitää olla täsmälleen samat arvot kuin muuttujalla alun perin
tyytyväisyydet = ['Erittäin tyytymätön', 'Tyytymätön', 'Siltä väliltä', 'Tyytyväinen', 'Erittäin tyytyväinen']
df['työteht_obj'].value_counts().reindex(tyytyväisyydet).to_frame('f')

Unnamed: 0_level_0,f
työteht_obj,Unnamed: 1_level_1
Erittäin tyytymätön,5
Tyytymätön,15
Siltä väliltä,29
Tyytyväinen,25
Erittäin tyytyväinen,8


## Puuttuvien arvojen näyttäminen

In [11]:
# Voin halutessani näyttää puuttuvat arvot
df['koulutus'].value_counts(dropna=False).sort_index().to_frame('f')

Unnamed: 0_level_0,f
koulutus,Unnamed: 1_level_1
1.0,27
2.0,30
3.0,22
4.0,2
,1


## Prosenttien näyttäminen

In [12]:
# Frekvenssit koulutus-muuttujalle
df1 = df['koulutus'].value_counts().sort_index().to_frame('f')

# Lisään prosenttisarakkeen
# Prosentit saan parametrilla normalize = True
df1['%'] = df['koulutus'].value_counts(normalize=True)*100

# Lisään muuttujan arvoille tekstimuotoiset arvot
koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']
df1.index = koulutus

# Lisään yhteensä-rivin
df1.loc['Yhteensä'] = df1.sum()

# Ulkoasun viimeistely
df1.style.format({'koulutus':'{:.0f}', '%':'{:.1f}'}, decimal=',')

Unnamed: 0,f,%
Peruskoulu,27000000,333
2. aste,30000000,370
Korkeakoulu,22000000,272
Ylempi korkeakoulu,2000000,25
Yhteensä,81000000,1000


## Luokiteltu jakauma

In [13]:
bins = [1500, 2000, 2500, 3000, 8000]

df2 = df['palkka'].value_counts(bins=bins).sort_index().to_frame('f')

df2.loc['Yhteensä'] = df2.sum()

df2

Unnamed: 0,f
"(1499.999, 2000.0]",19
"(2000.0, 2500.0]",28
"(2500.0, 3000.0]",22
"(3000.0, 8000.0]",13
Yhteensä,82


## Ristiintaulukointi

In [14]:
# Ristiintaulukoinnissa hyödynnän groupby()-funktiota
# unstack siirtää sukupuolet sarakkeisiin
df3= df.groupby('sukup')['koulutus'].value_counts().sort_index().unstack('sukup')

# Koulutusten nimet aiemmin määritellystä listasta
df3.index = koulutus

df3.loc['Yhteensä'] = df3.sum()

# Sarakeotsikot
df3.columns=['Mies', 'Nainen']

# Ulkoasu ilman desimaaleja, puuttuvan arvon tilalla viiva
df3.style.format(precision=0, na_rep='-')

Unnamed: 0,Mies,Nainen
Peruskoulu,22,5
2. aste,23,7
Korkeakoulu,15,7
Ylempi korkeakoulu,2,-
Yhteensä,62,19


## Samalla asteikolla mitattujen frekvenssit yhteen taulukkoon

In [15]:
# Ensimmäisen muuttujan frekvenssiprosentit
df4 = df['johto'].value_counts(normalize=True).sort_index().to_frame('johto')

# Lisään muiden muuttujien frekvenssiprosentit
df4['työtov'] = df['työtov'].value_counts(sort=False, normalize=True)
df4['työymp'] = df['työymp'].value_counts(sort=False, normalize=True)
df4['palkkat'] = df['palkkat'].value_counts(sort=False, normalize=True)
df4['työteht'] = df['työteht'].value_counts(sort=False, normalize=True)

# Asteikon arvot tekstimuodossa aiemmin määritellystä tyytyväisyydet-listasta
df4.index = tyytyväisyydet

df4.loc['Yhteensä'] = df4.sum()

# n-arvot sarakeotsikoihin
for var in df4.columns:
    df4 = df4.rename(columns={var:f'{var}, n = {df[var].count()}'})

# Ulkoasun viimeistely
(df4*100).style.format('{:.1f} %', na_rep='-', decimal=',')

Unnamed: 0,"johto, n = 82","työtov, n = 81","työymp, n = 82","palkkat, n = 82","työteht, n = 82"
Erittäin tyytymätön,"8,5 %",-,"11,0 %","40,2 %","6,1 %"
Tyytymätön,"19,5 %","3,7 %","11,0 %","23,2 %","18,3 %"
Siltä väliltä,"36,6 %","19,8 %","36,6 %","23,2 %","35,4 %"
Tyytyväinen,"28,0 %","43,2 %","28,0 %","12,2 %","30,5 %"
Erittäin tyytyväinen,"7,3 %","33,3 %","13,4 %","1,2 %","9,8 %"
Yhteensä,"100,0 %","100,0 %","100,0 %","100,0 %","100,0 %"


## Lisätietoa

* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html

Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/

