# Penggunaan `hidrokit.prep.read`

- Kategori: _data preparation_
- Tujuan: Membaca informasi dari tabel
- Dokumentasi: [readthedocs](https://hidrokit.readthedocs.io/en/stable/prep.html#module-prep.read)

## Informasi notebook

- __notebook name__: `taruma_hidrokit_prep_read`
- __notebook version/date__: `1.0.1`/`20190713`
- __notebook server__: Google Colab
- __hidrokit version__: `0.2.0`
- __python version__: `3.7`

## Instalasi hidrokit

In [0]:
### Instalasi melalui PyPI
!pip install hidrokit

### Instalasi melalui Github
# !pip install git+https://github.com/taruma/hidrokit.git

### Instalasi melalui Github (Latest)
# !pip install git+https://github.com/taruma/hidrokit.git@latest

Collecting hidrokit
  Downloading https://files.pythonhosted.org/packages/43/9d/343d2a413a07463a21dd13369e31d664d6733bbfd46276abef5d804c83d1/hidrokit-0.2.0-py2.py3-none-any.whl
Installing collected packages: hidrokit
Successfully installed hidrokit-0.2.0


## _Import Library_

In [0]:
import numpy as np
import pandas as pd

## Dataset

Digunakan dataset buatan menggunakan numpy.random

In [0]:
# Buat dataset sebanyak satu tahun (tahun 2001)
date_index = pd.date_range('20010101', '20011231')

# Generate random data
np.random.seed(1234)
data = np.random.rand(len(date_index), 6) * 100
data[data < 30] = np.nan
data = data.round()
data

array([[nan, 62., 44., 79., 78., nan],
       [nan, 80., 96., 88., 36., 50.],
       [68., 71., 37., 56., 50., nan],
       ...,
       [37., nan, 77., 93., 42., 52.],
       [nan, 43., nan, 48., 50., 49.],
       [79., nan, 72., 55., 34., 94.]])

In [0]:
# Ubah ke bentuk dataframe
dataset = pd.DataFrame(
    data=data,
    columns='sta_A sta_B sta_C sta_D sta_E sta_F'.split(),
    index=date_index
)
dataset.head(10)

Unnamed: 0,sta_A,sta_B,sta_C,sta_D,sta_E,sta_F
2001-01-01,,62.0,44.0,79.0,78.0,
2001-01-02,,80.0,96.0,88.0,36.0,50.0
2001-01-03,68.0,71.0,37.0,56.0,50.0,
2001-01-04,77.0,88.0,36.0,62.0,,37.0
2001-01-05,93.0,65.0,40.0,79.0,32.0,57.0
2001-01-06,87.0,44.0,80.0,,70.0,70.0
2001-01-07,,92.0,44.0,91.0,,
2001-01-08,,67.0,59.0,53.0,,56.0
2001-01-09,33.0,50.0,,61.0,57.0,
2001-01-10,62.0,91.0,79.0,99.0,96.0,79.0


# Fungsi `.missing_row()`

**Tujuan**: Memperoleh informasi index data yang hilang

**Sintaks**: `prep.read.missing_row(dataframe, date_index=True, date_format='%Y/%m/%d')`

**Return**: `dictionary`

**Dokumentasi**: [readthedocs](https://hidrokit.readthedocs.io/en/stable/prep.html#prep.read.missing_row)

### Fungsi dasar

In [0]:
# Import module
from hidrokit.prep import read

In [0]:
# Menampilkan dataset
dataset.head(10)

Unnamed: 0,sta_A,sta_B,sta_C,sta_D,sta_E,sta_F
2001-01-01,,62.0,44.0,79.0,78.0,
2001-01-02,,80.0,96.0,88.0,36.0,50.0
2001-01-03,68.0,71.0,37.0,56.0,50.0,
2001-01-04,77.0,88.0,36.0,62.0,,37.0
2001-01-05,93.0,65.0,40.0,79.0,32.0,57.0
2001-01-06,87.0,44.0,80.0,,70.0,70.0
2001-01-07,,92.0,44.0,91.0,,
2001-01-08,,67.0,59.0,53.0,,56.0
2001-01-09,33.0,50.0,,61.0,57.0,
2001-01-10,62.0,91.0,79.0,99.0,96.0,79.0


Dari dataset diatas, ingin diperoleh informasi pada tanggal berapa saja data yang hilang. 

Contoh: Pada stasiun A saya ingin memperoleh daftar tanggal yang mengalami kehilangan data. Dari tabel diatas terlihat pada bulan januari tanggal 1, 2, 7, dan 8 mengalami kehilangan data. 

In [0]:
# Menggunakan module read
data_hilang = read.missing_row(dataset)
print(data_hilang)

{'sta_A': ['2001/01/01', '2001/01/02', '2001/01/07', '2001/01/08', '2001/01/11', '2001/01/14', '2001/01/16', '2001/01/19', '2001/01/25', '2001/01/30', '2001/02/02', '2001/02/05', '2001/02/08', '2001/02/10', '2001/02/11', '2001/02/20', '2001/02/21', '2001/02/22', '2001/02/25', '2001/02/28', '2001/03/01', '2001/03/03', '2001/03/04', '2001/03/06', '2001/03/09', '2001/03/11', '2001/03/13', '2001/03/18', '2001/03/22', '2001/03/25', '2001/03/26', '2001/03/28', '2001/03/29', '2001/03/31', '2001/04/01', '2001/04/12', '2001/04/14', '2001/04/17', '2001/04/24', '2001/04/26', '2001/04/30', '2001/05/02', '2001/05/03', '2001/05/09', '2001/05/18', '2001/05/19', '2001/05/26', '2001/06/01', '2001/06/05', '2001/06/10', '2001/06/11', '2001/06/12', '2001/06/22', '2001/06/23', '2001/06/24', '2001/06/26', '2001/06/27', '2001/07/04', '2001/07/05', '2001/07/06', '2001/07/08', '2001/07/09', '2001/07/13', '2001/07/16', '2001/07/20', '2001/07/21', '2001/07/22', '2001/07/26', '2001/07/27', '2001/07/31', '2001/08/

In [0]:
# Menampilkan kehilangan 20 data pertama pada stasiun A 
print(data_hilang['sta_A'][:20])

['2001/01/01', '2001/01/02', '2001/01/07', '2001/01/08', '2001/01/11', '2001/01/14', '2001/01/16', '2001/01/19', '2001/01/25', '2001/01/30', '2001/02/02', '2001/02/05', '2001/02/08', '2001/02/10', '2001/02/11', '2001/02/20', '2001/02/21', '2001/02/22', '2001/02/25', '2001/02/28']


In [0]:
# Membaca data hilang pada bulan tertentu di stasiun B
data_hilang_januari = read.missing_row(dataset['20010101':'20010201'][:-1])
print(data_hilang_januari['sta_B'])

['2001/01/13', '2001/01/15', '2001/01/20', '2001/01/23']


### Argumen `date_format`

Dari hasil diatas diketahui format tanggal berupa `YYYY/MM/DD`. Karena kita tahu bahwa dataset ini pada tahun yang sama, maka informasi tahun bisa dihilangkan. Dan kita ingin mengganti format tanggal menjadi lebih sederhana dan jelas yaitu `MMM-DD` (contoh: `Jan-01`)

Kita bisa mengubah format tanggal menggunakan [penulisan strftime](http://strftime.org/).

In [0]:
# Membaca data hilang dengan format tanggal tertentu
data_hilang = read.missing_row(dataset, date_format='%b-%d')

# Menampilkan data yang hilang pada stasiun C dan D
print('Data yang hilang di stasiun C: ', data_hilang['sta_C'])
print('Data yang hilang di stasiun D: ', data_hilang['sta_D'][:10]) # 10 data hilang pertama

Data yang hilang di stasiun C:  ['Jan-09', 'Jan-12', 'Jan-13', 'Jan-17', 'Jan-22', 'Jan-23', 'Jan-24', 'Jan-26', 'Feb-02', 'Feb-04', 'Feb-08', 'Feb-10', 'Feb-11', 'Feb-16', 'Feb-18', 'Feb-22', 'Mar-06', 'Mar-07', 'Mar-08', 'Mar-10', 'Mar-19', 'Mar-20', 'Mar-21', 'Mar-22', 'Mar-24', 'Mar-26', 'Mar-27', 'Mar-28', 'Apr-04', 'Apr-07', 'Apr-11', 'Apr-15', 'Apr-17', 'Apr-18', 'Apr-23', 'Apr-24', 'Apr-26', 'Apr-27', 'Apr-28', 'Apr-30', 'May-11', 'May-13', 'May-17', 'May-19', 'May-24', 'May-28', 'May-29', 'May-31', 'Jun-05', 'Jun-06', 'Jun-10', 'Jun-14', 'Jun-15', 'Jun-18', 'Jun-20', 'Jun-22', 'Jun-23', 'Jun-25', 'Jun-28', 'Jul-03', 'Jul-05', 'Jul-08', 'Jul-09', 'Jul-10', 'Jul-11', 'Jul-12', 'Jul-13', 'Jul-18', 'Jul-27', 'Jul-30', 'Jul-31', 'Aug-02', 'Aug-06', 'Aug-14', 'Aug-20', 'Aug-24', 'Aug-26', 'Aug-29', 'Aug-30', 'Sep-08', 'Sep-12', 'Sep-15', 'Sep-21', 'Sep-24', 'Sep-27', 'Oct-02', 'Oct-03', 'Oct-04', 'Oct-05', 'Oct-09', 'Oct-13', 'Oct-14', 'Oct-15', 'Oct-21', 'Oct-23', 'Oct-26', 'Nov-02

---

# Changelog

```
- 20190713 - 1.0.1 - Informasi notebook
- 20190712 - 1.0.0 - Initial
```

#### Copyright Â© 2019 [Taruma Sakti Megariansyah](https://taruma.github.io)

Source code in this notebook is licensed under a [MIT License](https://opensource.org/licenses/MIT). Data in this notebook is licensed under a [Creative Common Attribution 4.0 International](https://choosealicense.com/licenses/cc-by-4.0/). 