In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2023-05-02 / Aki Taanila


# Dataframen muotoilua

Tämä Jypyter-notebook sisältää esimerkkejä dataframen muotoilusta **style**-ominaisuuden avulla.

In [2]:
import pandas as pd

df = pd.read_excel('http://taanila.fi/data1.xlsx')
df

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
77,78,1,22,1,3.0,0.0,1598,4,4.0,4,3,4,,1.0,1.0,
78,79,1,33,1,1.0,2.0,1638,1,3.0,2,1,2,1.0,,,
79,80,1,27,1,2.0,7.0,2612,3,4.0,3,3,3,1.0,,1.0,
80,81,1,35,2,2.0,16.0,2808,3,4.0,3,3,3,,,,


In [3]:
# Luon listat, joita tarvitsen jatkossa:
koulutus = ['Peruskoulu', '2. aste', 'Korkeakoulu', 'Ylempi korkeakoulu']
sukup = ['Mies', 'Nainen']
tyytyväisyys = ['Erittäin tyytymätön', 'Jokseenkin tyytymätön', 'Ei tyytymätön eikä tyytyväinen', 
                'Jokseenkin tyytyväinen', 'Erittäin tyytyväinen']

In [4]:
# Frekvenssitaulukko ilman muotoilua:
df1 = pd.crosstab(df['koulutus'], 'f')
df1.index = koulutus
df1.columns.name = ''
df1['%'] = df1/df1.sum()*100
df1

Unnamed: 0,f,%
Peruskoulu,27,33.333333
2. aste,30,37.037037
Korkeakoulu,22,27.160494
Ylempi korkeakoulu,2,2.469136


In [5]:
# Ristiintaulukointi ilman muotoilua:
df2 = pd.crosstab(df['koulutus'], df['sukup'], normalize='columns')
df2.index = koulutus
df2.columns = ['Mies', 'Nainen']
df2

Unnamed: 0,Mies,Nainen
Peruskoulu,0.354839,0.263158
2. aste,0.370968,0.368421
Korkeakoulu,0.241935,0.368421
Ylempi korkeakoulu,0.032258,0.0


In [6]:
# Tyytyväisyyksiä eri asiohin ilman muotoilua:
df3 = df['johto'].value_counts(sort=False, normalize=True).to_frame()
df3['työtov'] = df['työtov'].value_counts(sort=False, normalize=True)
df3['työymp'] = df['työymp'].value_counts(sort=False, normalize=True)
df3['palkkat'] = df['palkkat'].value_counts(sort=False, normalize=True)
df3['työteht'] = df['työteht'].value_counts(sort=False, normalize=True)
df3.index = tyytyväisyys
df3.loc['Yhteensä'] = df3.sum()
df3

Unnamed: 0,johto,työtov,työymp,palkkat,työteht
Erittäin tyytymätön,0.365854,0.197531,0.365854,0.231707,0.353659
Jokseenkin tyytymätön,0.085366,,0.109756,0.402439,0.060976
Ei tyytymätön eikä tyytyväinen,0.195122,0.037037,0.109756,0.231707,0.182927
Jokseenkin tyytyväinen,0.280488,0.432099,0.280488,0.121951,0.304878
Erittäin tyytyväinen,0.073171,0.333333,0.134146,0.012195,0.097561
Yhteensä,1.0,1.0,1.0,1.0,1.0


## Puuttuvien arvojen muotoilu

Puuttuvien arvojen muotoilu sujuu **highlight_null**-funktiolla:

In [7]:
df.style.highlight_null(color='lightgreen')

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
0,1,1,38,1,1.0,22.0,3587,3,3.0,3,3,3,,,,
1,2,1,29,2,2.0,10.0,2963,1,5.0,2,1,3,,,,
2,3,1,30,1,1.0,7.0,1989,3,4.0,1,1,3,1.0,,,
3,4,1,36,2,1.0,14.0,2144,3,3.0,3,3,3,1.0,,,
4,5,1,24,1,2.0,4.0,2183,2,3.0,2,1,2,1.0,,,
5,6,2,31,2,2.0,14.0,1910,4,4.0,5,2,4,1.0,1.0,,
6,7,1,49,1,2.0,16.0,2066,3,5.0,4,2,2,,,1.0,
7,8,1,55,1,1.0,0.0,2066,3,5.0,3,1,3,1.0,,,
8,9,1,40,2,1.0,23.0,2768,2,4.0,4,2,4,,1.0,,
9,10,1,33,1,1.0,16.0,2106,3,2.0,1,1,1,1.0,,,


Seuraavassa näytän **nan**-arvon sijasta väliviivan **-** käyttämällä **na_rep**-parametria. Samalla esitän arvot ilman desimaaleja **'{:.0f}'**.

In [8]:
df.style.format('{:.0f}', na_rep='-').highlight_null(color='lightgreen')

Unnamed: 0,nro,sukup,ikä,perhe,koulutus,palveluv,palkka,johto,työtov,työymp,palkkat,työteht,työterv,lomaosa,kuntosa,hieroja
0,1,1,38,1,1,22,3587,3,3,3,3,3,-,-,-,-
1,2,1,29,2,2,10,2963,1,5,2,1,3,-,-,-,-
2,3,1,30,1,1,7,1989,3,4,1,1,3,1,-,-,-
3,4,1,36,2,1,14,2144,3,3,3,3,3,1,-,-,-
4,5,1,24,1,2,4,2183,2,3,2,1,2,1,-,-,-
5,6,2,31,2,2,14,1910,4,4,5,2,4,1,1,-,-
6,7,1,49,1,2,16,2066,3,5,4,2,2,-,-,1,-
7,8,1,55,1,1,0,2066,3,5,3,1,3,1,-,-,-
8,9,1,40,2,1,23,2768,2,4,4,2,4,-,1,-,-
9,10,1,33,1,1,16,2106,3,2,1,1,1,1,-,-,-


## Värien nimiä ja koodeja

Värien nimiä ja koodeja löydät esimerkiksi seuraavista lähteistä:

https://matplotlib.org/3.1.0/gallery/color/named_colors.html
 
https://www.w3schools.com/colors/colors_picker.asp

https://htmlcolorcodes.com/

## Maksimi- ja minimiarvojen korostus

Maksimi- ja minimiarvojen korostus onnistuu **highlight_max** ja **highlight_min** funktioilla. Seuraavassa muotoilen %-sarakkeen luvut yhteen desimaalin ja lisään perään välilyönnin ja %-merkin **'{:.1f} %'**.

In [9]:
df1.style.format({'%':'{:.1f} %'})\
         .highlight_max(color='lightgreen')\
         .highlight_min(color='violet')

Unnamed: 0,f,%
Peruskoulu,27,33.3 %
2. aste,30,37.0 %
Korkeakoulu,22,27.2 %
Ylempi korkeakoulu,2,2.5 %


Jos en määritä väriä, niin oletus on keltainen.

In [10]:
(df2*100).style.format('{:.1f} %').highlight_max()

Unnamed: 0,Mies,Nainen
Peruskoulu,35.5 %,26.3 %
2. aste,37.1 %,36.8 %
Korkeakoulu,24.2 %,36.8 %
Ylempi korkeakoulu,3.2 %,0.0 %


Jos en halua kohdistaa menetelmää koko dataframeen, niin käytän **subset**-parametria. Esimerkiksi seuraavassa rajaan **highlight_max** muotoilun riveille alkaen 'Erittäin tyytymätön' ja päättyen 'Erittäin tyytyväinen'. Näin 'Yhteensä'-rivi jää muotoilun ulkopuolelle.

In [11]:
(df3*100).style.format('{:.1f} %', na_rep = '-')\
               .highlight_max(color='lightgreen', 
                              subset=pd.IndexSlice['Erittäin tyytymätön':'Erittäin tyytyväinen', :])

Unnamed: 0,johto,työtov,työymp,palkkat,työteht
Erittäin tyytymätön,36.6 %,19.8 %,36.6 %,23.2 %,35.4 %
Jokseenkin tyytymätön,8.5 %,-,11.0 %,40.2 %,6.1 %
Ei tyytymätön eikä tyytyväinen,19.5 %,3.7 %,11.0 %,23.2 %,18.3 %
Jokseenkin tyytyväinen,28.0 %,43.2 %,28.0 %,12.2 %,30.5 %
Erittäin tyytyväinen,7.3 %,33.3 %,13.4 %,1.2 %,9.8 %
Yhteensä,100.0 %,100.0 %,100.0 %,100.0 %,100.0 %


Edellä värjäsin sarakkeiden suurimmat. Rivien suurimmat saan lisäämälle **axis=1** -parametrin.

In [12]:
(df3*100).style.format('{:.1f} %', na_rep='-')\
               .highlight_max(color='gold', 
                              subset=pd.IndexSlice['Erittäin tyytymätön':'Erittäin tyytyväinen', :],
                              axis=1)

Unnamed: 0,johto,työtov,työymp,palkkat,työteht
Erittäin tyytymätön,36.6 %,19.8 %,36.6 %,23.2 %,35.4 %
Jokseenkin tyytymätön,8.5 %,-,11.0 %,40.2 %,6.1 %
Ei tyytymätön eikä tyytyväinen,19.5 %,3.7 %,11.0 %,23.2 %,18.3 %
Jokseenkin tyytyväinen,28.0 %,43.2 %,28.0 %,12.2 %,30.5 %
Erittäin tyytyväinen,7.3 %,33.3 %,13.4 %,1.2 %,9.8 %
Yhteensä,100.0 %,100.0 %,100.0 %,100.0 %,100.0 %


## Tiettyjen solujen muotoilu

Jos haluan muotoilla tietyt solut, niin muotoiluun käytän **set_properties**-funktiota, jonka avulla pääsen käyttämään **CSS**-tyyliohjeita (**CSS** eli Cascading Style Sheets on html-sivujen muotoiluun käytettävä tyyliohjeiden kokoelma).
Tyyliohjeet annan sanakirjana (dictionary) **'ominaisuus':'arvo'** pareina.

In [13]:
df1.style.format({'%':'{:.1f} %'})\
         .set_properties(**{'background-color':'navy', 'color' : 'white'},
                         subset = pd.IndexSlice['Korkeakoulu', '%'])

Unnamed: 0,f,%
Peruskoulu,27,33.3 %
2. aste,30,37.0 %
Korkeakoulu,22,27.2 %
Ylempi korkeakoulu,2,2.5 %


In [14]:
(df2*100).style.format('{:.1f} %')\
               .set_properties(**{'background-color':'navy', 'color':'white'},
                               subset = pd.IndexSlice['Peruskoulu':'2. aste', 'Mies'])\
               .set_properties(**{'background-color':'maroon', 'color':'white'},
                               subset = pd.IndexSlice['2. aste':'Korkeakoulu', 'Nainen'])

Unnamed: 0,Mies,Nainen
Peruskoulu,35.5 %,26.3 %
2. aste,37.1 %,36.8 %
Korkeakoulu,24.2 %,36.8 %
Ylempi korkeakoulu,3.2 %,0.0 %


## Matplotlib-värikarttojen käyttö

Värikartoista voit lukea lisää:

https://matplotlib.org/3.3.3/tutorials/colors/colormaps.html

Voin käyttää värikarttaa ehdolliseen muotoiluun **background_gradient**funktion avulla.

In [15]:
df1.style.format({'%':'{:.1f} %'}).background_gradient(cmap='Greens')

Unnamed: 0,f,%
Peruskoulu,27,33.3 %
2. aste,30,37.0 %
Korkeakoulu,22,27.2 %
Ylempi korkeakoulu,2,2.5 %


In [16]:
(df2*100).style.format('{:.1f} %').background_gradient(cmap='autumn')

Unnamed: 0,Mies,Nainen
Peruskoulu,35.5 %,26.3 %
2. aste,37.1 %,36.8 %
Korkeakoulu,24.2 %,36.8 %
Ylempi korkeakoulu,3.2 %,0.0 %


In [17]:
(df3*100).style.format('{:.1f} %', na_rep='-').background_gradient(cmap='Blues')

Unnamed: 0,johto,työtov,työymp,palkkat,työteht
Erittäin tyytymätön,36.6 %,19.8 %,36.6 %,23.2 %,35.4 %
Jokseenkin tyytymätön,8.5 %,-,11.0 %,40.2 %,6.1 %
Ei tyytymätön eikä tyytyväinen,19.5 %,3.7 %,11.0 %,23.2 %,18.3 %
Jokseenkin tyytyväinen,28.0 %,43.2 %,28.0 %,12.2 %,30.5 %
Erittäin tyytyväinen,7.3 %,33.3 %,13.4 %,1.2 %,9.8 %
Yhteensä,100.0 %,100.0 %,100.0 %,100.0 %,100.0 %


## Pylväät solujen sisään

Voin piirtää solujen lukuarvoja kuvaavat pylväät **bar**-funktiolla.

In [18]:
(df3*100).style.format('{:.1f} %', na_rep='-')\
               .bar(subset=pd.IndexSlice['Erittäin tyytymätön':'Erittäin tyytyväinen', :],
                    color='aquamarine', 
                    align='zero') 

Unnamed: 0,johto,työtov,työymp,palkkat,työteht
Erittäin tyytymätön,36.6 %,19.8 %,36.6 %,23.2 %,35.4 %
Jokseenkin tyytymätön,8.5 %,-,11.0 %,40.2 %,6.1 %
Ei tyytymätön eikä tyytyväinen,19.5 %,3.7 %,11.0 %,23.2 %,18.3 %
Jokseenkin tyytyväinen,28.0 %,43.2 %,28.0 %,12.2 %,30.5 %
Erittäin tyytyväinen,7.3 %,33.3 %,13.4 %,1.2 %,9.8 %
Yhteensä,100.0 %,100.0 %,100.0 %,100.0 %,100.0 %


## Lisätietoa

Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/