In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2024-03-30 / Aki Taanila


In [2]:
import pandas as pd

# Puuttuvat tai päällekkäiset aikaleimat ja havainnot

Aikasarjojen analysoinnissa ja aikasarjaennustamisessa puuttuvat ja päällekkäiset havainnot aiheuttavat ongelmia.

## Puuttuvat havainnot

Tarkastelen esimerkkinä kuukauden ensimmäisten päivien muodostamaa aikasarjaa, josta puuttuu välistä kahden kuukauden (huhtikuu ja toukokuu) tiedot.

In [3]:
# Avaan datan:
df1 = pd.read_excel('https://taanila.fi/aika1.xlsx')
df1

Unnamed: 0,date,value
0,2019-01-01,2
1,2019-02-01,3
2,2019-03-01,4
3,2019-06-01,7
4,2019-07-01,8
5,2019-08-01,9


In [4]:
# Siirrän aikaleimat indeksiin:
df1.index = pd.to_datetime(df1['date'])
df1 = df1.drop('date', axis=1)
df1

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2
2019-02-01,3
2019-03-01,4
2019-06-01,7
2019-07-01,8
2019-08-01,9


**resample()** lisää puuttuvat kuukaudet indeksiin. Aikafrekvenssi **'MS'** tarkoittaa kuukauden ensimmäisiä päivä (**M**onth**S**tart). Eri tilanteisiin sopivia aikafrekvenssejä löydät osoitteesta https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases.

**ffill()** täydentää puuttuvat arvot niitä edeltävällä arvolla.

In [5]:
df2 = df1.resample('MS').ffill()
df2

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2
2019-02-01,3
2019-03-01,4
2019-04-01,4
2019-05-01,4
2019-06-01,7
2019-07-01,8
2019-08-01,9


**bfill()** täydentää puuttuvat arvot niitä seuraavalla arvolla.

In [6]:
df3 = df1.resample('MS').bfill()
df3

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2
2019-02-01,3
2019-03-01,4
2019-04-01,7
2019-05-01,7
2019-06-01,7
2019-07-01,8
2019-08-01,9


**interpolate()** interpoloi puuttuvat arvot niitä edeltävän ja seuraavan arvon perusteella.

In [7]:
df4 = df1.resample('MS').interpolate()
df4

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
2019-01-01,2.0
2019-02-01,3.0
2019-03-01,4.0
2019-04-01,5.0
2019-05-01,6.0
2019-06-01,7.0
2019-07-01,8.0
2019-08-01,9.0


## Päällekkäiset havainnot

Tarkastelen seuraavaksi esimerkkiä päällekkäisistä havainnoista. Seuraavassa esimerkissä on puuttuvien kuukausien (huhtikuu ja toukokuu) lisäksi päällekkäinen havainto helmikuun kohdalla.

In [8]:
df5 = pd.read_excel('https://taanila.fi/aika2.xlsx')
df5.index = pd.to_datetime(df5['date'])
df5.drop('date', axis=1)
df5

Unnamed: 0_level_0,date,value
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2019-01-01,2019-01-01,2
2019-02-01,2019-02-01,3
2019-02-01,2019-02-01,5
2019-03-01,2019-03-01,4
2019-06-01,2019-06-01,7
2019-07-01,2019-07-01,8
2019-08-01,2019-08-01,9


**resample()** hoitaa myös päällekkäiset aikaleimat. Seuraavassa korvaan päällekkäiset havainnot keskiarvollaan ja puuttuvat havainnot interpoloin.

In [9]:
df6 = df5.resample('MS').mean().interpolate()
df6

Unnamed: 0_level_0,date,value
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2019-01-01,2019-01-01 00:00:00,2.0
2019-02-01,2019-02-01 00:00:00,4.0
2019-03-01,2019-03-01 00:00:00,4.0
2019-04-01,2019-03-31 16:00:00,5.0
2019-05-01,2019-05-01 08:00:00,6.0
2019-06-01,2019-06-01 00:00:00,7.0
2019-07-01,2019-07-01 00:00:00,8.0
2019-08-01,2019-08-01 00:00:00,9.0


## Lisätietoa

**resample()** on monipuolinen toiminto. Lue lisää https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.resample.html