パスウェイデータベースの紹介とKEGG PATHWAYの使い方

イベント・講習会の情報

AJACS薩摩 パスウェイデータベースの紹介とKEGG PATHWAYの使い方

情報・システム研究機構
ライフサイエンス統合データベースセンター
守屋 勇樹 moriya@dbcls.rois.ac.jp
2016/01/26 AJACS薩摩

--

講習会の流れ

今回の講習会ではパスウェイデータベースの紹介と、ウェブブラウザを使った3つのデータベースの操作を行います - パスウェイデータベースの概要 - BioCyc に触れてみる - データをパスウェイにマッピングする - Reactome に触れてみる - Analysis tool を用いてパスウェイにマッピングする - KEGG PATHWAY - KEGG Mapper を用いてパスウェイにマッピングする - BlastKOALA を用いて新規遺伝子の機能を推定し、パスウェイにマップングする


受講前アンケートにご協力いただき、ありがとうございます

|パスウェイ関連のデータベース使ったことがありますか|人数|割合| |:--|--:|:--:| |日常的に使っている|6 名|15 %| |今後使いたい|26 名|65 %| |使う予定はすぐにはないが使い方は覚えたい|8 名|20 %|

|KEGG を使ったことがありますか|人数|割合| |:--|--:|:--:| |使ったことがある|16 名|40 %| |知っている|6 名|15 %| |聞いたことがある|8 名|20 %| |知らない|10 名|25 %|


パスウェイデータベースとは

タンパク質や化合物等の分子間相互作用のネットワークをデータベース化、視覚化したもの

イメージ (KEGG) pathway

  • 可視化することで生命現象を理解しやすくなる
  • データベース化することで網羅的に扱えるようになる
  • ゲノムアノテーションや種間比較、遺伝子発現のエンリッチメント解析、モデル化、シミュレーションなどに利用できるようになる

ここではデータをパスウェイデータベースにマッピングして可視化することを目的とする


いろいろなパスウェイデータベース

pathguid

  • http://www.pathguide.org/
  • パスウェイリソースのリスト約 550 (2013)
  • Availability: 有料か無料か
  • Standards: 標準データ形式(BioPAX, SBML等)に準拠しているかどうか

歴史的には代謝経路の表現から始まった
現在ではタンパク質間相互作用、シグナル伝達系、遺伝子制御、環境シグナルなど様々なものが含まれる

  • タンパク質間相互作用
  • 代謝パスウェイ
  • シグナリングパスウェイ
  • パスウェイダイアグラム
  • 転写因子・遺伝子制御ネットワーク
  • タンパク質-化合物間相互作用
  • 遺伝的相互作用ネットワーク
  • アミノ酸配列解析
  • その他

pathway1

可視化の際、一般的に代謝パスウェイでは代謝産物をノード、酵素反応をエッジとして表現し、制御系ではタンパク質や遺伝子、その他の小分子がノード、その関係性(活性化、抑制、リン酸化など)がエッジとして表現される

パスウェイデータベースのデータ形式

XML で記述されていることが多い
- BioPAX (Biological Pathways Exchange) は静的なマップ表現 - Level 1:代謝パスウェイ - Level 2:タンパク質間相互作用 - Level 3:シグナル伝達 - SBML (Systems Biology Markup Language)、CellML、CSML (Cell System Markup Language)は kinetics も取り扱えるため、シミュレーションなどで利用可能 - PSI-MI (Proteomics Standards Initiative Molecular Interaction XML Format) はタンパク質間相互作用を記述 - KGML (KEGG Markup Language) は KEGG 独自のフォーマット

どのパスウェイデータベースを解析に使えば良いかは、対象生物や対象パスウェイ、目的によって異なる
ここでは BioCyc, Reactome, KEGG PATHWAY を紹介する


BioCyc

  • ウェブサイト:http://biocyc.org/
  • 開発:SRIインターナショナル(Stanford Research Institute)
  • 対象:大腸菌からヒトまで、7,600 種以上
  • 専門家が手作業で作成した文献ベースのデータ+自動ツール
  • 代謝パスウェイのみ
  • 利用:アカデミックフリー
  • データ形式:BioPAX

biocyc1

対象生物種を見てみよう

  • http://biocyc.org/biocyc-pgdb-list.shtml
  • 種毎の Database
    • Tier 1:専門家が手作業で作成した文献ベースのデータ
    • Tier 2:自動ツールで作成したデータを手作業で修正
    • Tier 3:自動ツールで作成
  • MetaCyc だけは 2,000 種以上から構築

好きな生物のパスウェイを見てみよう

  • 好きな生物種をクリック(例: EcoCyc
  • 右上の検索ボックスで "glycolysis" や "tca" などの生命現象関連の単語を入力し、Quick Search ボタンをクリック
  • biocyc6
  • パスウェイが存在する場合、リストが表示されるので、クリック
  • 代謝産物のパスウェイが表示される
  • More Detail ボタンをクリックすると、酵素の情報が追加され、もう一度 More Detail ボタンをクリックすると代謝産物の構造情報が追加される
  • 右の Options メニューから、表示のカスタマイズやダウンロードが可能
  • biocyc3

種間比較をしてみよう

  • 右の Option メニューの Species Comparison をクリック
  • 比較する種の選択画面が表示されるので、比較したい好きな種を入力し、OK をクリック
  • biocyc7
  • パスウェイや遺伝子、オペロン構造などが比較できる

好きな生物の Overview パスウェイを見てみよう

サンプル・データをマッピングしてみよう

  • 右のメニューの Overlay Experimental Data > Upload Data from File
  • 出てきた入力フォームのファイルアップロード部のすぐ下の (or "paste data" directly into form) のリンクをクリック
  • biocyc4
  • テキストエリアに切り替わるので、テキストエリア右上の Gene example をクリックすると、サンプル・データが入る
  • データのカラム(1〜3)を入力して Submit ボタンをクリック
  • biocyc5

詳細は BioCyc User's guide を参照


Reactome

  • ウェブサイト:http://www.reactome.org/
  • 開発:EMBLE-EBI 他
  • 対象:ヒトを中心に脊椎動物、酵母、植物、19 種
  • 専門家が手作業で作成した文献ベースのデータ(ヒト)
  • 代謝パスウェイ、シグナル伝達系、他
  • 利用:フリー
  • データ形式:BioPAX, SBML

reactome1

好きな生物のパスウェイを見てみよう

  • Browse Pathways ボタンをクリック
  • 初期画面はヒトのパスウェイなので、好きな種を選択
  • reactome2
  • 左のパスウェイのリスト、右のパスウェイマップが連動
  • 下層になると、ダイヤグラムが表示される
  • Reactome には代謝パスウェイの他に制御系も含むため、ノードとエッジの関係が複数ある
  • reactome5

パスウェイをハイライトさせてみよう

  • マップ左上の虫眼鏡アイコンをクリックして、 "glycolysis" や "tca" などの生命現象関連の単語を入力すると、候補がリストアップされるので選択
  • reactome3

サンプル・データをマッピングしてみよう

  • サンプルがヒトしか無いので、ヒトのパスウェイに移動
  • 上、右側の Analysis: アイコンをクリック
  • ファイルアップロード部のすぐ下の click here to paste your data... をクリック
  • reactome4
  • 右のサンプルをクリックして GO ボタンをクリック
  • ID リストの場合は Over-representation 解析 (ORA), Enrichment 解析
  • ID と数値のリストの場合は発現解析
    • 再生ボタンで、複数のカラムのデータを連続表示
  • reactome6

種間比較をしてみよう

  • Analysis tools から Species Comparison を選択
  • ヒトとその他の生物のパスウェイ比較が可能

詳細は Reactome User's Guide を参照

他のReactome - http://www.reactome.org/pages/about/other-reactomes/


KEGG PATHWAY

  • ウェブサイト:http://www.kegg.jp/
  • 開発:京都大学
  • 対象:ゲノムの決まった全生物種(真核生物、真性細菌、古細菌)4,000 種以上
  • 専門家が手作業で作成した文献ベースのデータ+自動ツール
    • リファレンスパスウェイ:専門家が手作業で文献ベースから作成(BioCyc の Tier 1(MetaCyc)に相当)
    • 種毎のパスウェイ(手動):自動ツールで作成し、手作業でキュレーション(BioCyc の Tier 2 に相当)
    • 種毎のパスウェイ(自動):自動ツールで作成(Buicyc の Tier 3 に相当)
  • 代謝パスウェイ、シグナル伝達系、他
  • 利用:アカデミックフリー
  • データ形式:KGML
  • KCPAVS KEGG-XML converter などで代謝パスウェイ、シグナル伝達などの多くのパスウェイを標準形式 に変換可能
  • [KEGGscape] (http://apps.cytoscape.org/apps/keggscape) でネットワーク可視化ソフト Cytoscape に読み込み可能

kegg1

KEGG はデータベースの集合

  • KEGG2 をクリック
  • KEGG PATHWAY を含むシステム情報データベースの他に、遺伝情報、化学情報、健康情報などのデータベースがリンクしている
  • ここでは PATHWAY 以外の詳細は省くので、それ以外の詳細は過去の AJACS 資料を参照
  • AJACS50
  • AJACS51付録資料
  • AJACS53
  • AJACS54

対象生物種を見てみよう

  • データベースのテーブルの下、KEGG organisms をクリック
  • KEGG では 3-4 文字の独自の生物種コードを使用している
  • 生物種コードのリンクをクリックすると、種の情報のページに飛ぶ
  • "Annotation" が manual -> 手作業(hsa等)、KOALA -> 自動ツール(pps等)
  • kegg5

  • 生物種リスト上の Draft をクリック

  • 真核生物のドラフトゲノムのリストで、ここは生物種コードではなくT番号で管理されている
  • Meta はメタゲノム

パスウェイマップを見てみよう

  • トップページ 上方の検索ボックスで "glycolysis" や "tca" などの生命現象関連の単語を入力し、Search ボタンをクリック
  • kegg4
  • KEGG データベース全体でヒットしたエントリーが全てリストアップされ、KEGG PATHWAY にヒットがあれば、一番上に表示されるのでクリック
  • パスウェイの情報が表示されるエントリーページに移動するので、マップ画像をクリック
  • この色のついていない白いパスウェイマップが、専門家が手作業で文献ベースから作成したリファレンスパスウェイ
  • ボックスが遺伝子やタンパク質などの配列情報、丸が代謝産物、環境物質などの化合物
  • 右上の Help でそれぞれの図形の意味を見てみよう

好きな生物のパスウェイを見てみよう

  • プルダウンメニューから好きな生物を選択して Go をクリック
  • 多すぎて選びにくい場合
  • < Sort below by alphabet > を選択して Go をクリックでリストをソート
  • < Set personalized menu > を選択して Go をクリックでポップアップウィンドウからリストの絞り込み
  • kegg6
    • ドラフトゲノム、メタゲノムはここからは選べないので、生物種リストのページから、種のページ、パスウェイリストへ移動
    • kegg7
  • 一部のボックスが緑色で塗られる、その生物の持つ遺伝子がマッピングされている

リファレンスパスウェイと種毎のパスウェイの関係

kegg2

kegg3

Overview マップを見てみよう

  • http://www.kegg.jp/kegg/pathway.html
  • 1.0 Global and overview maps の Metabolic pathways をクリック
  • 右の [KEGG Atlus] は Java で動くビューワーで、自由度が少し高い分、動作が重たい
  • 左にモジュールのリスト(KEGG におけるパスウェイの小さい機能単位)、右にマップが表示
  • 機能単位毎にパスウェイを強調表示できる

生物種毎の Overview マップを見てみよう

  • プルダウンメニューから生物を選択し、Go をクリック
  • 生物の持っていない経路は灰色になる

ヒトの疾患パスウェイを見てみよう

  • http://www.genome.jp/kegg/pathway.html#disease
  • がん、免疫系疾患、神経変性疾患など多因子性の疾患
  • 好きな疾患パスウェイをクリック(例:大腸がん
  • 赤字の遺伝子が疾患の病因遺伝子
  • プルダウンメニューから Homo sapiens (human) + Disease/drug を選択
  • ピンクのボックスは何らかの疾患で病因遺伝子となっている遺伝子
  • ライトブルーのボックスは何らかの疾患で医薬品のターゲットとなっている遺伝子

種間比較をしてみよう

  • http://www.genome.jp/kegg/kegg2.html
  • KEGG for pangenomes or genome comparison/combination のテキストボックスに "eco ecs" と入力して Go をクリック
  • eco:非病原性大腸菌 k-12
  • ecs:病原性大腸菌 O157
  • kegg12
  • 上のメニューの Pathway map をクリック
  • 好きなパスウェイをクリック
  • 前者が持っている遺伝子が緑、後者が持っている遺伝子がピンクで表示
  • Overview パスウェイの場合、両者が持っている遺伝子はライトブルーで表示
  • 戻って、Bacterial secretion system パスウェイをクリック
  • 病原性に関わる III型、VI型分泌装置が O157 側だけが持っているのがわかる

  • 戻って "api buc" を入力し、Valine, leucine and isoleucine biosynthesis パスウェイを見てみよう

  • api:アブラムシ
  • buc:ブフネラ
  • 共生生物間のパスウェイ補完によってアミノ酸合成が可能になっていることがわかる

3種以上の比較も可能

配列 ID を KEGG の遺伝子 ID に変換しよう

遺伝子 ID やタンパク質 ID を使ってパスウェイにマッピングしたいが KEGG のウェブサイトでは KEGG 遺伝子 ID が必要な場合もある
- Link DB - データベースエントリー ID 間のリンク情報を収集したデータベース - ID 変換にも利用可能 - 図の Genes をクリックすると、KEGG に登録されている遺伝子と関連のあるデータベースが表示される - linkdb1 - 表示されてたデータベースをクリックすると、下のフォームに選択したデータベースの内容が入るので、Download ボタンをクリックすると対応表がダウンロードできる - linkdb2

サンプル・データをマッピングしてみよう

  • KEGG Mapper
  • Pathway mapping tool の2番目の Search&Color Pathway をクリック
  • テキストエリア右の Examples: を選択して Exec ボタンをクリック
  • [配列 ID or 代謝産物 ID] 塗りつぶし色[,線の色]
    • 配列 ID は KEGG gene ID, NCBI-GeneID, NCBI-ProteinID, UniProt ID
    • 代謝産物 ID は KEGG Compound ID (C番号)のみ
    • 線の色はオプション
    • 色は16進数表記か基本的なカラーネームで記述
  • ヒットしたパスウェイのリストが表示、カッコの中はヒットした要素の数

チンパンジーの遺伝子 (NCBI-GeneID) をマッピングしてみよう
- 例 453039 red 104003784 coral 453645 gray,red 453565 blue,yellow 450453 #fbfb88 463861 #88ffbb

  • テキストボックスに上の例をコピー&ペースト
  • Search against: にチンパンジーの生物種コードを入れる
  • コードがわからないので、org ボタンをクリック
  • ポップアップウィンドウでに 種名を入力すると、下のボックスに候補が出るので、選択したああと Select をクリック
  • チンパンジーのコード "ptr" が入力されていることを確認
  • kegg8
  • Primry ID: で NCBI-GeneID を選択
  • Use uncolored diagrams のチェックボックスをチェック(生物種マップの緑色を消去)
  • Exec ボタンをクリック

自由に色を塗れる反面、色の定義付けなどは自分で行う必要がある

数値データをマッピングしてみよう
- Color Pathway をクリック - 右のサンプル CML-COSMIC をダウンロード - 中身は配列 ID と数値の対応リスト - Select KEGG pathway map: でパスウェイを指定(hsa05200) - Enter file name containing the data: でダウロードしたサンプルファイルを指定 - File type: で Numerical value を選択 - Exec ボタンをクリック - kegg9

数値がグラデーションになってマッピングされる

他の2つの Example: もマッピングしてみよう

Color Pathway WebGL も使ってみよう
- Example: を使って、どんな絵になるか試してみましょう

KEGG データベースにはない遺伝子をマッピングしてみよう

KEGG に登録されている配列データと類似性を計算し、自動で遺伝子機能を推定、パスウェイへのマッピングを行う

  • KAAS
  • 配列類似性の計算は BLAST, GhostX, GhostZ ベースの3つ
    • GhostX は BLAST より精度は劣るが 100 倍早い
    • GhostZ は GhostX より精度は劣るが2倍早い
  • 種間で両方向ベストヒットを利用して遺伝子機能を推定(片方向も可能)
  • kegg13

  • BlastKOALA, GhostKOALA

  • 配列類似性の計算は BLAST, GhostX ベース
  • クエリーからデータベースへの片方向の計算なのと、データベースを圧縮しているぶん KAAS より早い

BlastKOALA を使ったパスウェイへのマッピング - Annotate Sequence by BlastKOALA - Exapmle: の sequence.txt をコピー&ペースト、もすくはダウンロードしてファイルを選択 - Buchnera の仲間 - Family/Genus ボタンをクリック - サンプルが Buchnera の仲間なので、KEGG の Buchnera データを使う - 新たに開いたウィンドウで、Buchnera を探し、Taxonomy番号をクリック - kegg10 - Exec ボタンをクリック - 数分待つ(講習会用結果例) - Reconstruct Pathway から遺伝子がマッピングされたパスウェイを見ることができる - kegg11

遺伝子IDとK番号の対応表を保存しておけば、KEGG Mapper 使っていつでも KEGG PATHWAY へのマッピングができる
- Reconstruct Pathway - Example の genelist.txt は1生物の対応表 - genelist2.txt は4生物種の対応表で種間比較などに利用できる - データ形式 ```

organism1

gene1 K02874 gene7 K12864 gene12 …

organism2

gene2798 K11649 gene2799 K12816 gene2800 …

organism3

gene5398 K03627 gene5399 K02893 gene5400 … ```

せっかくなので、小野さんの講習マル秘遺伝子リストをマッピングしてみよう

  • DAVID から直接マッピング
  • Functional Annotation Tool で Gene Ontology の 代わりに Pathways を選択し、 KEGG_PATHWAY の Chart からマッピング(小野さんの資料参照)

  • DAVID でプローブ ID を KEGG で扱える ID に変換するして、KEGG でマッピング

  • DAVID で遺伝子リストを読み込み(小野さんの資料参照)
  • 上のメニューの Shortcut to DAVID Tools の Gene ID Conversion をクリック
  • Option 1 の変換 ID を ENTERZ_GENE_ID (NCBI GeneID) に変更
  • Submit to Conversion Tool ボタンをクリック
  • 変換リストが表示される
  • 右上の Download File を右クリックして、名前をつけて保存 ("gene_conv.txt")

  • タブ切りファイルの第二カラムを抜き出す

Windows のコマンドプロンプト(講習会会場の場合) ```

cd Downloads FOR /F "tokens=2" %i IN (gene_conv.txt) DO @ECHO %i >> gene_id.txt ```

Linux, Mac OS X のターミナル ```

ファイルのあるディレクトリへ移動

cut -f2 gene_conv.txt > gene_id.txt

```

できない方は変換済みファイル

  • KEGG Mapper でマッピング
  • Arabidopsis thaliana だったので、それに合わせて Search Against を選択
  • NCBi-GeneID に変換したので Primary ID を変更
  • コピペ、もしくはアップロード
  • Exec ボタンをクリック

KEGG REST API を使ってデータをダウンロードしてみよう

KEGG では FTP などで一括したデータのダウンロードはできないが、便利な API が容易されている - http://www.kegg.jp/kegg/rest/keggapi.html

  • ヒトの遺伝子一覧
  • http://rest.kegg.jp/list/hsa
  • ヒトのパスウェイ一覧
  • http://rest.kegg.jp/list/pathway/hsa
  • ヒトの遺伝子一覧とパスウェイの対応
  • http://rest.kegg.jp/link/hsa/pathway
  • ヒトの遺伝子 ID 対応表 (KEGG 遺伝子 ID 対 NCBI-GeneID)
  • http://rest.kegg.jp/conv/ncbi-geneid/hsa
  • NCBI-GeneID, NCBI-ProteinID, UniProt 以外は LinkDB で変換
  • ヒトのKGML形式のパスウェイのダウンロード(hsa00010)
  • http://rest.kegg.jp/get/hsa00010/kgml