In [1]:
from datetime import datetime
print(f'Päivitetty {datetime.now().date()} / Aki Taanila')

Päivitetty 2023-05-03 / Aki Taanila


Ajoneuvojen avoin data sisältää kaikkien liikennekäytössä olevien ajoneuvojen rekisteröinti-, hyväksyntä- ja teknisiä tietoja Traficomin ylläpitämästä liikenneasioiden rekisteristä. Datan laajuus on yli 5 miljoonaa riviä. Dataa päivitetään säännöllisesti. Data löytyy osoitteesta:

https://tieto.traficom.fi/fi/tietotraficom/avoin-data?toggle=Ajoneuvojen%20avoin%20data

Samasta osoitteesta löytyy myös aineistokuvaus, muuttujaluettelo Excel-muodossa ja käytetty merkistökoodaus (ISO8859-1).

Data on ladattavissa zip-pakettina. Seuraavassa oletetaan, että **Ajoneuvorekisteri.zip** on tallennettu samaan kansioon tämän muistion kanssa.

Poimin esimerkkinä datasta tiedot vuoden 2019 alusta eteenpäin rekisteröidyistä henkilöautoista. Mukaan otan vain osan muuttujista. Tallennan datan myöhempää käyttöä varten.

Lopuksi tutkin suosituimpia merkkejä ja värejä.

**Koodin suoritus kestää jonkin aikaa, koska ison datan lataaminen netistä on hidasta**.

In [2]:
# Jos et ole ladannut Ajoneuvorekisteri.zip -tiedostoa omalle koneellesi
# niin voit tehdä sen seuraavalla koodilla:

import requests
url = "https://opendata.traficom.fi/Content/Ajoneuvorekisteri.zip"
r = requests.get(url)
with open("Ajoneuvorekisteri.zip",'wb') as file:
    file.write(r.content)

In [3]:
import pandas as pd

In [4]:
# Mukaan otettavat muuttujat
cols = ['ajoneuvoluokka', 'ensirekisterointipvm', 'vari', 'korityyppi', 'omamassa', 
        'ajonKokPituus', 'ajonLeveys', 'ajonKorkeus', 'kayttovoima', 'suurinNettoteho', 
        'sahkohybridi', 'sahkohybridinluokka', 'merkkiSelvakielinen','mallimerkinta', 
        'vaihteisto', 'kaupallinenNimi', 'kunta', 'matkamittarilukema']

# Datan avaus (pandas osaa purkaa zip-paketin)
df = pd.read_csv('Ajoneuvorekisteri.zip', sep=';', encoding='ISO8859-1', usecols=cols)

  df = pd.read_csv('Ajoneuvorekisteri.zip', sep=';', encoding='ISO8859-1', usecols=cols)


In [5]:
# Tietoa muuttujista
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5163486 entries, 0 to 5163485
Data columns (total 18 columns):
 #   Column                Dtype  
---  ------                -----  
 0   ajoneuvoluokka        object 
 1   ensirekisterointipvm  object 
 2   vari                  object 
 3   korityyppi            object 
 4   omamassa              float64
 5   ajonKokPituus         float64
 6   ajonLeveys            float64
 7   ajonKorkeus           float64
 8   kayttovoima           object 
 9   suurinNettoteho       float64
 10  sahkohybridi          object 
 11  sahkohybridinluokka   float64
 12  merkkiSelvakielinen   object 
 13  mallimerkinta         object 
 14  vaihteisto            object 
 15  kaupallinenNimi       object 
 16  kunta                 float64
 17  matkamittarilukema    float64
dtypes: float64(8), object(10)
memory usage: 709.1+ MB


In [6]:
# Poimitaan datasta vain henkilöautot (ajoneuvoluokat M1 ja M1G)
df = df[df['ajoneuvoluokka'].isin(['M1', 'M1G'])]

In [7]:
# Varmistetaan, että päivämäärät tunnistuvat päivämääriksi
df['ensirekisterointipvm'] = pd.to_datetime(df['ensirekisterointipvm'], format='%Y-%m-%d')

In [8]:
# Rajoitutaan vuoden 2019 alusta lähtien rekisteröityihin
df = df[df['ensirekisterointipvm']>'2019-01-01'].sort_values('ensirekisterointipvm')

In [9]:
# Tallennus csv-muotoon
df.to_csv('autot.csv', index=False)

In [10]:
# Näytetään tulosteissa kaikki sarakkeet
pd.set_option.display_columns = None
df

Unnamed: 0,ajoneuvoluokka,ensirekisterointipvm,vari,korityyppi,omamassa,ajonKokPituus,ajonLeveys,ajonKorkeus,kayttovoima,suurinNettoteho,sahkohybridi,sahkohybridinluokka,merkkiSelvakielinen,mallimerkinta,vaihteisto,kaupallinenNimi,kunta,matkamittarilukema
4363237,M1,2019-01-02,1,AC,1647.0,4874.0,1820.0,1536.0,38.0,110.0,False,,Volkswagen,PASSAT Farmari (AC) 4ov 1390cm3 A,2,PASSAT,405.0,179375.0
4297425,M1,2019-01-02,0,AA,2031.0,4963.0,1890.0,1437.0,1.0,233.0,True,1.0,Volvo,S90 T8 Twin Engine Sedan (AA) 4ov 1969cm3 A,2,S90 T8 Twin Engine,297.0,72330.0
4317685,M1,2019-01-02,0,AB,1190.0,4158.0,1756.0,1498.0,1.0,73.5,False,,Ford,Fiesta Viistoperä (AB) 4ov 998cm3,1,Fiesta,753.0,51033.0
4023431,M1,2019-01-02,6,AC,1669.0,4525.0,1805.0,1605.0,2.0,104.0,False,,Kia,CARENS Farmari (AC) 5ov 1685cm3 A,2,CARENS,91.0,76026.0
4351770,M1,2019-01-02,6,AC,1408.0,4788.0,1844.0,1545.0,1.0,110.6,False,,Ford,Focus Farmari (AC) 4ov 1496cm3,1,Focus,91.0,34696.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5162089,M1,2022-12-31,9,AF,2072.0,4750.0,1921.0,1624.0,4.0,,False,,Tesla,Model Y Monikäyttöajoneuvo (AF) 5ov,8,Model Y,49.0,
5158637,M1,2022-12-31,0,AA,1919.0,4694.0,1850.0,1443.0,04,,False,,Tesla,Model 3 Sedan (AA) 4ov,8,Model 3,837.0,
5160973,M1,2022-12-31,8,AF,2539.0,5057.0,1999.0,1680.0,4.0,,False,,Tesla,Model X Monikäyttöajoneuvo (AF) 5ov,8,Model X,49.0,
5155994,M1,2022-12-31,2,AC,2118.0,4599.0,1852.0,1616.0,04,,False,,"Volkswagen, VW",ID.5 PRO 150 KW Farmari (AC) 5ov A,2,ID.5 PRO 150 KW,92.0,


In [11]:
# Värit selviävät aineistokuvauksesta
varit = ['Musta', 'Ruskea (beige)', 'Punainen', 'Oranssi','Keltainen', 'Vihreä', 'Sininen',
        'Violetti', 'Harmaa', 'Valkoinen', 'Monivär.', 'Hopea', 'Turkoosi']

In [12]:
# Kuinka suosittuja ovat eri värit olleet?
df1 = pd.crosstab(df['vari'], 'f')
df1.columns.name = ''

# Sijoitan värien nimet indeksiin, jossa alunperin on värien koodit
df1.index = varit

# Värit suosituimmuusjärjestyksessä
df1.sort_values('f', ascending = False)

Unnamed: 0,f
Valkoinen,140345
Harmaa,108845
Musta,103928
Sininen,58818
Punainen,48871
Hopea,30091
Ruskea (beige),19918
Vihreä,6241
Oranssi,4875
Keltainen,3846


In [13]:
# 20 suosituinta merkkiä
df2 = pd.crosstab(df['merkkiSelvakielinen'], 'f').nlargest(20, 'f' )
df2.columns.name = ''
df2

Unnamed: 0_level_0,f
merkkiSelvakielinen,Unnamed: 1_level_1
Toyota,66568
Volvo,56346
Mercedes-Benz,52108
"Volkswagen, VW",49881
Skoda,40506
BMW,36423
Kia,30981
Ford,25755
Audi,23338
Nissan,16448


Edellä huomataan, että Volkswagen esiintyy kahdella eri nimellä (Volkswagen ja Volkswagen, VW). Seuraavassa yhdistän molemmat saman nimen alle.

In [14]:
df['merkkiSelvakielinen'] = df['merkkiSelvakielinen'].replace({'Volkswagen, VW':'Volkswagen'})
df3 = pd.crosstab(df['merkkiSelvakielinen'], 'f').nlargest(20, 'f' )
df3.columns.name = ''
df3

Unnamed: 0_level_0,f
merkkiSelvakielinen,Unnamed: 1_level_1
Toyota,66568
Volvo,56346
Volkswagen,54300
Mercedes-Benz,52108
Skoda,40506
BMW,36423
Kia,30981
Ford,25755
Audi,23338
Nissan,16448


In [15]:
# Rajoitutaan vai suosituimpiin merkkeihin
df_suositut = df[df['merkkiSelvakielinen'].isin(df2.index)]

# Värit suosituilla merkeillä
df4 = pd.crosstab(df_suositut['merkkiSelvakielinen'], df_suositut['vari'])

# Sijoitan värien nimet sarakkeisiin
df4.columns = varit

# Värjätään kunkin merkin kohdalla suosituin väri
df4.style.highlight_max(color='lightgreen', axis=1)

Unnamed: 0_level_0,Musta,Ruskea (beige),Punainen,Oranssi,Keltainen,Vihreä,Sininen,Violetti,Harmaa,Valkoinen,Monivär.,Hopea,Turkoosi
merkkiSelvakielinen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Audi,6691,469,1150,47,119,394,2222,11,4672,6218,3,1189,13
BMW,12965,845,708,254,51,204,3978,10,6849,9157,5,1112,22
Citroen,836,264,814,8,3,320,761,3,1431,2553,0,28,3
Ford,3498,188,4477,90,96,88,4998,8,5694,6331,5,192,3
Hyundai,1454,1001,1992,126,67,222,1619,1,2931,3906,0,730,170
Kia,3959,793,4470,261,399,1018,4932,3,4662,6829,0,3632,2
Mazda,512,23,1831,0,1,2,337,1,1148,807,0,148,0
Mercedes-Benz,17821,909,2042,8,481,338,3188,47,13123,11260,10,2325,4
Mitsubishi,2885,869,1646,21,13,11,598,6,2551,3283,1,220,2
Nissan,2092,1168,2334,59,2,42,1610,516,2803,4078,446,1272,1


In [16]:
# Rajoitutaan vai suosituimpiin merkkeihin
df_suositut = df[df['merkkiSelvakielinen'].isin(df2.index)]

# Värit suosituilla merkeillä
df4 = pd.crosstab(df_suositut['merkkiSelvakielinen'], df_suositut['vari'])

# Sijoitan värien nimet sarakkeisiin
df4.columns = varit

# Värjätään kunkin merkin kohdalla suosituin väri
df4.style.highlight_max(color='lightgreen', axis=1)

Unnamed: 0_level_0,Musta,Ruskea (beige),Punainen,Oranssi,Keltainen,Vihreä,Sininen,Violetti,Harmaa,Valkoinen,Monivär.,Hopea,Turkoosi
merkkiSelvakielinen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Audi,6691,469,1150,47,119,394,2222,11,4672,6218,3,1189,13
BMW,12965,845,708,254,51,204,3978,10,6849,9157,5,1112,22
Citroen,836,264,814,8,3,320,761,3,1431,2553,0,28,3
Ford,3498,188,4477,90,96,88,4998,8,5694,6331,5,192,3
Hyundai,1454,1001,1992,126,67,222,1619,1,2931,3906,0,730,170
Kia,3959,793,4470,261,399,1018,4932,3,4662,6829,0,3632,2
Mazda,512,23,1831,0,1,2,337,1,1148,807,0,148,0
Mercedes-Benz,17821,909,2042,8,481,338,3188,47,13123,11260,10,2325,4
Mitsubishi,2885,869,1646,21,13,11,598,6,2551,3283,1,220,2
Nissan,2092,1168,2334,59,2,42,1610,516,2803,4078,446,1272,1


## Lisätietoa

Data-analytiikka Pythonilla https://tilastoapu.wordpress.com/python/