# 1. 生命科学データ解析の歴史
Dr.Bonoの生命科学データ解析-読書会
2017/12/16 at 静岡
坊農秀雅 a.k.a. Dr.Bono
Note:
この章のタイトルどおり「生命科学データ解析の歴史」について語ります。
また、この章の後半に出てくる日本のデータベース統合化の動きについても紹介します。
---
## お前誰やねん
- 坊農秀雅 / Hidemasa Bono, PhD. / Dr.Bono
- Twitter: [@bonohu](https://twitter.com/bonohu) / [@drbonohu](https://twitter.com/drbonohu)
- [温泉インフォマティクス研究会](https://twitter.com/kubor_/status/860448923441221632) 主催
![bonohu](http://www.natureasia.com/static/ja-jp/scientificdata/img/papers-from-japan/fantom5/bono.jpg)
+++
### 紹介記事
- [FANTOM5データを誰でも活用できる形に](https://www.natureasia.com/ja-jp/scientificdata/papers-from-japan/fantom5) Scientific dataのインタビュー記事
- [ライフサイエンス分野におけるオープンサイエンスへの課題〜データインフラ整備だけでなく、研究者の意識改革に向けた議論へ〜](http://scirex.grips.ac.jp/newsletter/3-2016-11/05.html) SciREX Quarterly,3, 14-15 (2016)
- [誰もが“バイオインフォマティシャン”の時代](http://doi.org/10.1038/ndigest.2015.150122) Nature ダイジェストのインタビュー記事
---
### ライフサイエンス統合データベースセンター所属
- [Database Center for Life Science (DBCLS)](https://dbcls.rois.ac.jp/)
![DBCLS](http://leading.lifesciencedb.jp/wordpress/wp-content/uploads/2014/06/logo_en_c.png)
+++
### DBCLS
- 2007年4月設立
- 現在、柏の葉と三島の2拠点で活動
- ライフサイエンス分野DBとサービスの専門機関
- 国内を中心にDBの統合化と保全に努める
- 利用者の利便性を高めるための情報技術の研究開発やサービスの開発を行う
---
### DBCLS@三島
- 国立遺伝学研究所(静岡県三島市)内
- DNA DataBank of Japan(DDBJ)と連携
![DBCLS_DDBJ](http://dbcls.rois.ac.jp/wp-content/uploads/2014/02/076a3beb1ba39ef1b0a95339fc86ec72.png)
+++
### 三島で何をやってるの?
DNA配列や遺伝子発現データベースを使いやすくする技術開発
- [DBCLS SRA](http://sra.dbcls.jp/) Bono本 p34
- [AOE(葵)](http://aoe.dbcls.jp/) Bono本 p176の図5.10
- [GGRNA](http://ggrna.dbcls.jp/),[GGGenome](http://gggenome.dbcls.jp/) Bono本 p146
- [CRISPRdirect](http://crispr.dbcls.jp/) Bono本 p147
---
### こんなこともDBCLSで
- ライフサイエンス新着論文レビュー
- ライフサイエンス領域融合レビュー
- DB利用講習会 |
- DB使い方の動画チュートリアル作成 |
+++
### ライフサイエンス新着論文レビュー
Nature,Science,Cell などに代表されるトップジャーナルに掲載された日本人を著者とする生命科学分野の論文について,論文の著者自身の執筆による,専門分野の異なる生命科学研究者にむけた日本語によるレビューを,だれでも自由に閲覧・利用できるようWeb上にていち早く無料で公開
- http://first.lifesciencedb.jp/
+++
### ライフサイエンス領域融合レビュー
日本分子生物学会,日本蛋白質科学会,日本細胞生物学会,日本植物生理学会 との協力のもと,生命科学において注目される分野・学問領域について,第一線の研究者の執筆による,専門分野の異なる生命科学研究者にむけた日本語によるレビューを,だれでも自由に閲覧・利用できるようWeb上にて無料で公開
- http://leading.lifesciencedb.jp/
+++
### 統合データベース講習会AJACS
- 初心者向けの生命科学データベース利用講習会
- http://motdb.dbcls.jp/?AJACS
- 2018年1月16,17日に[浜松医科大学にて開催予定](https://events.biosciencedbc.jp/training/ajacs68)
+++
### 統合TV
- 生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト
- http://togotv.dbcls.jp/
- Togo Picture Gallery
- 生命科学分野のイラストをだれでも自由に閲覧・利用できるように無料で公開
- http://togotv.dbcls.jp/pics.html
---
## はなすこと
- なぜBono本を書いたのか
- 「1.生命科学データ解析の歴史」の紹介 |
- 1.1 なぜ今,データ解析か? |
- 1.2 バイオテクノロジーとデータ解析の歴史 |
---
### なぜこの本を書いたのか
- 生命科学データ解析界隈で本が出ない
- 日本だけじゃなくて世界的にも
- 翻訳すべき本が英語でも出ていない
- 監訳した [バイオインフォマティクス 第2版](http://www.amazon.co.jp/gp/product/4895924262?ie=UTF8&linkCode=as2&camp=1634&creative=6738&tag=dnamicroarray-22&creativeASIN=4895924262) 絶版のお知らせ
- [データサイエンティスト養成読本](http://www.amazon.co.jp/gp/product/4774183601?ie=UTF8&linkCode=as2&camp=1634&creative=6738&tag=dnamicroarray-22&creativeASIN=4774183601)の生命科学版があるといいのに
---
### 1.1 なぜ今,データ解析か ?
- ビッグデータとは? 1
- 生命科学分野のビッグデータの特徴 2
Note: データがデカイから
+++
### ビッグデータとは?
表1.1(p2)より
| | 生命科学 | SNS |
|---|---|---|
|各データサイズ|大きい|小さい|
|データ構造|複雑|単純|
|由来|機械|人間|
|即時性|低い|高い|
+++
### 生命科学分野のビッグデータの特徴
表1.2(p3)より一部改変
| DBの種類 | 総塩基数 |
|---|---|
| 国際塩基配列DB | 2.1×1012 (2.1 T) |
| 次世代シークエンサーからの塩基配列DB(公開分) | 4.5×1015 (4.5 P) |
| ヒトリファレンスゲノム配列 | 3.1×109 (3.1 G) |
---
### 1.2 バイオテクノロジーとデータ解析の歴史
- 配列解読手法の発明 4
- 配列データベースの誕生 6
- 配列データ解析手法の開発 7
- ヒトゲノム計画 9
- マイクロアレイの発明 13
- 次世代シークエンサーの誕生 14
- 日本のデータベース統合化の動き 18
- データ解析環境の変遷 20
---
### 配列解読手法の発明
| 年 | 出来事 |
|---|---|
| 1950 | エドマン分解(ペプチドシーケンス法) |
| 1965 | アミノ酸配列データベースが誕生 |
| 1970 | アミノ酸配列を大域的比較手法゙登場 |
| 1977 | 塩基配列決定法(サンガー法)の発明 |
---
### 配列データベースの誕生
- GenBank
- EMBL → ENA
- DDBJ
http://www.insdc.org/
---
### 配列データ解析手法の開発
| 年 | 出来事 |
|---|---|
| 1981〜 | DNA配列を局所的比較手法゙開発 |
| 1988 | FASTAの登場。配列類似性検索が可能に |
| 1990 | より高速なBLAST登場 by NCBI |
---
### ヒトゲノム計画
| 年 | 出来事 |
|---|---|
| 1990 | ゲノムプロジェクトの開始 |
| 1995〜 | 微生物ゲノムが次々と解読 |
| 1997 | BLAST2の登場 |
| 2000 | ヒトドラフトゲノム配列の公開 |
---
### マイクロアレイの発明
- 遺伝子の発現解析を行うマイクロアレイの登場(1990 年代後半)
- ChiP-chip 解析の開発
- マイクロアレイデータのDB化
---
### 次世代シークエンサーの誕生
- NGSの開発
- NGS配列を処理するツールやDBの登場
- 長い配列が読めるNGS登場
---
### 日本のデータベース統合化の動き
- DBCLS誕生 (2007)
- NBDC誕生 (2011)
- DBCLSの一部三島へ (2014)
---
### データ解析環境の変遷
- Linux (1990年代)
- MacOSがUNIX化 (2001年)
- スーパーコンピューター(スパコン)