実験データの生物学的解釈を助ける遺伝子発現DB・ウェブツールの使い方

イベント・講習会の情報

AJACS番町1 実験データの生物学的解釈を助ける遺伝子発現DB・ウェブツールの使い方

大学共同利用機関法人 情報・システム研究機構
データサイエンス共同利用基盤施設
ライフサイエンス統合データベースセンター
小野 浩雅
hono@dbcls.rois.ac.jp
2018年8月29日(水) AJACS番町1 @ JST東京本部(サイエンスプラザ)B1大会議室


これは統合データベース講習会 AJACS番町1「実験データの生物学的解釈を助ける遺伝子発現DB・ウェブツールの使い方」の講習資料です。
講習会全体のプログラムはこちらです。


概要

本講習は、だれでも自由に使うことができる公共データベースやウェブツールを活用して、研究のさまざまな場面で調べることの多い個々の遺伝子発現データを簡単に調べるための方法と基礎知識について学びます。
また、自ら行なった大規模発現解析の(あるいは公共データベースから取得・解析した)結果として得られた数百〜数千におよぶ遺伝子セットについて、生物学的な解釈をする方法とその結果の考察を実践します。


講習の流れ

今回の講習では、コンピュータを使って以下の内容について説明します。

  • 研究現場で頻繁に使われるデータベースやツールを知る
    • 統合TV
  • 個々の遺伝子の発現プロファイルを調べる
    • RefEx
      • 【実習1】RefExを使って、組織特異的遺伝子を検索する
  • 数十~数千の遺伝子群の生物学的解釈
    • ChIP-Atlas
      • 【実習2】ChIP-Atlasのin silico ChIP を使って、興味ある遺伝子リストを制御する可能性の高い転写因子を調べる

講義に際しての注意とお願い

  • みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。
    • 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
    • サイトの反応が悪い時はタイミングをずらして実行してみてください。
    • 反応が無いからと言って何度もクリックするとますます繋がらなくなってしまいます。おおらかな気持ちで臨みましょう。
  • こんなことは知ってて当たり前だと他の人に思われる質問を歓迎します。質問することのハードルを下げます。
    • 知っている人は講師を助けてください。サポート大歓迎です。
    • あなたが疑問に思ったことは、実は、隣の人やその隣の人もそう思っていることが多いです。
    • 当たり前に感じる質問や一見関係なさそうな質問がでると、「そういう質問をしてもよいのだ」という空気になり、この講義から得られる情報が増え、皆さんの受講満足度が上がります(たぶん)。
    • でも講師も知らないことは(多々)あります。(以下ループ)
  • 実験的な試みとしてWeb上で匿名で質問・コメントできるフォームを用意してみました。

受講前アンケートにご協力いただき、ありがとうございます (回答数 87)

|統合TVを知っていますか?|人数|割合| |:--|--:|:--:| |知らない|25 名|29 %| |聞いたことがある|8 名|9 %| |知っている|15 名|17 %| |使ったことがある|22 名|25 %| |使っている|13 名|15 %| |回答なし|4 名|5 %|


|自分で実験して得た、数十〜数千の遺伝子からなる
「遺伝子リスト」(例: 発現差のあった遺伝子など) を持っていますか?|人数|割合| |:--|--:|:--:| |これから実験をする・したい|16 名|18 %| |公共データを活用する・したい|28 名|32 %| |既に持っている|21 名|24 %| |大規模発現解析の予定はない|15 名|17 %| |回答なし|7 名|8 %|


研究現場で頻繁に使われるデータベースやツールを知る

統合TV

  • 生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト

    • http://togotv.dbcls.jp/ja/
    • 統合TVトップページ

    • YouTube版もあります http://www.youtube.com/user/togotv/

    • 統合TV YouTube支店
    • YouTubeのチャンネル登録をすると更新情報がメールで届きます。
  • ウェブサイトへのアクセスの仕方から結果の解釈まで、操作の一挙手一投足がわかります。

    • 1400本を超える動画が公開されており、YouTube版だけで のべ 1,000,000回以上 再生されています。(2018年5月末現在)
    • YouTube統計
  • 講義・講習などの参考資料や後輩指導の教材として利用できます。

  • 統合TVに掲載されているコンテンツについてご引用いただく際に、恒久的な URL として DOI (Digital Object Identifier) を使用することができます。

  • 2014年8月以降に開催された過去の講習会の資料・テキストと動画が「AJACS講習会資料」で閲覧できるようになり、受講生の復習のみならず、初学者の学習教材として活用できます。

  • 誰でも自由に利用可能なライフサイエンス分野のイラストが、統合TVから閲覧、利用することができるようになりました。「自由に使える画像を探す」

  • お探しの動画が見つからない or 統合TV未掲載の場合は、統合TV番組リクエストフォームへどうぞ!!

  • 統合TVを作ってみたい方、募集中です。(オンラインで完結する作成環境を整備しており、遠隔地でもOKです。謝金あり。)


習熟度ややりたいこと別にご参考ください


個々の遺伝子の発現プロファイルを調べる

RefEx (Reference Expression dataset)

  • 遺伝子発現解析の基準となるデータを快適に検索できるウェブツール

    Fig-2 fig-3' - 公共DBにある正常組織や細胞株における遺伝子発現データを再利用・整理 - 4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた正常組織、初代培養細胞、細胞株における遺伝子発現データを検索、閲覧可能 - 最近新たに、FANTOM5 CAGEデータが追加(ヒト556種、マウス286種) - 掲載しているデータやオリジナルデータなどの詳細については、RefExについて - このツールでできること - 正常組織における遺伝子発現データを調べる - 測定手法による遺伝子発現量の差異を比較する - 組織特異的遺伝子をワンタッチで検索可能 - 遺伝子発現解析などで見出された不詳な遺伝子群の機能および関係性を調べる - RefExで掲載されているデータはすべて再利用可能 - オリジナルデータの再処理方法の詳細はGitHubに - 再処理済みの発現データやサンプルアノテーション等のすべてのデータはfigshareに - 「The RefEx analysis」として論文に引用していただいた活用例 - Aberrant IDH3α expression promotes malignant tumor growth by inducing HIF-1-mediated metabolic reprogramming and angiogenesis, Oncogene, (22 December 2014) | doi:10.1038/onc.2014.411 @ Figure 6 - がん研究者が、発現解析実験で見出した数百個の治療標的・候補遺伝子の絞込みに使えないか検討した。 - これらの候補遺伝子の正常組織における発現量が低ければ、治療標的とした場合に悪影響・副作用が小さくなると仮説した。 - 実際に、これらの遺伝子の発現量をRefExで確認し、追加確認実験の優先順位付けを効率的に行うことができた。 - その他RefExを引用した論文の一覧はこちらでご覧いただけます。 - https://dbcls.rois.ac.jp/references.html#RefEx

参考文献

  • Hiromasa Ono, Osamu Ogasawara, Kosaku Okubo, Hidemasa Bono RefEx, a reference gene expression dataset as a web tool for the functional analysis of genes Scientific Data, 4:170105 DOI: 10.1038/sdata.2017.105
  • 川路 英哉、粕川 雄也、坊農 秀雅、小野 浩雅 「FANTOM5データを誰でも活用できる形に」 Scientific Data誌著者インタビュー (平成29年8月29日) https://www.natureasia.com/ja-jp/scientificdata/papers-from-japan/fantom5
  • 小野 浩雅・坊農 秀雅 「遺伝子発現解析の基準となるデータを快適に検索できるウェブツールRefEx」 ライフサイエンス新着論文レビュー (平成29年9月5日) DOI: 10.7875/first.author.2017.093
  • 統合TV 「RefExの使い方」DOI: 10.7875/togotv.2014.009

【実習1】RefExを使って、組織特異的遺伝子を検索する

  • 【復習用】RefExの使い方

  • http://refex.dbcls.jp/ を開きます。

  • 画面中央の「組織特異的に発現する遺伝子を見る」の臓器アイコンにカーソルを合わせると、更に詳細な部位のアイコンが出るので、調べたい臓器(例として肝臓)をクリックします。
  • http://gyazo.com/35c8f38340753e8f433cb8c4d8fd812b

  • 検索結果一覧が表示されます。検索結果一覧では、「ソート項目の切り替え」や「絞り込み検索」、「リストへの追加」ができます。(手順11以降で解説します。)

  • 各遺伝子の青字の部分(例 fibrinogen alpha chain)をクリックすると詳細情報を閲覧できます。
  • 「ヒートマップ on Bodyparts3D」では、表示する部位の切り替え(全身・体幹部・頭部)ができます。「皮膚・骨格筋を表示」もしくは「アニメーション表示」にチェックを入れるとどのように表示されるでしょうか。
  • 「組織40分類別データ」では、バーの上にマウスオーバーすると測定部位と発現値が表示されます。
  • 「Download」をクリックすると、表示中の遺伝子の組織40分類別の発現データがタブ区切り形式でダウンロードできます。
  • 「Probe set ID」のリンク先をクリックすると、どういう情報が参照できるでしょうか。
  • 遺伝子オントロジー(Gene Ontology:GO ID)をクリックすると、そのGO termを持つ他の遺伝子を一括で検索できます。
  • 例として、GO:0007596 blood coagulation をクリックしてみましょう。
  • 遺伝子詳細情報

  • 右側のFANTOM5 CAGEのタブをクリックすると、FANTOM5 CAGEデータのビューアに切り替わります。

  • ビューアは上部が拡大図で、下部が全体表示になっています。
  • 検索窓にキーワードを入れるとサンプル名を検索できます。ヒットしたサンプルはオレンジ色で強調されます。
  • 右側に、サンプル名と発現値、サンプル分類が表示されます。
  • RefEx用に整理したサンプル情報一覧も閲覧可能です。
  • FANTOM5 CAGE Viewer
  • 検索結果一覧に戻ります。ソート項目を切り替えて、どのように結果が変わるでしょうか。
  • 検索結果一覧
  • 様々な条件で検索結果を絞り込むことができます。絞り込み検索は左のバーから行えます。
  • 遺伝子名に「liver」を含むデータは何件あるでしょうか。
  • 「遺伝子名」の下の「条件なし」をクリックして表示されるウインドウに「liver」と入力し、「Include」をクリックし、「この条件で絞り込み」を押します。
  • 「遺伝子名」の項目で「Exclude」に「solute」を加えると、検索結果はどう変わるでしょうか。
  • 「組織」の項目で、データ元をRNA-seqに変更したり、臓器の指定を追加すると検索結果はどう変わるでしょうか。
  • 「必ず含むデータセット」の「ALL」にチェックを入れると、検索結果はどう変わるでしょうか。
  • 個々の遺伝子の詳細情報は、リストに追加することで並列に比較することができます。
  • 肝臓特異的遺伝子の検索結果一覧に移動して、3つの遺伝子を「リストに追加」してみましょう。
  • 追加した件数は「リストを見る」の横に表示されます。
  • 「リストを見る」をクリックするとリストに移動します。
  • 『並べて表示する』にチェックを入れて、「遺伝子を並べて表示」をクリックします。
  • 遺伝子発現データやGeneOntology情報を並列に比較することで見えてくる「違い」はなんでしょうか。その違いからどういうことが推測できるでしょうか。
  • 並列比較1
  • 並列比較2
  • 自分の研究テーマに関連する、また興味のある遺伝子について検索してみましょう。

数十~数千の遺伝子群の生物学的解釈

  • マイクロアレイやNGS実験を行うと大量の発現変動遺伝子 (Differentially Expressed Genes: DEGs)が得られます。
  • 一般的な遺伝子発現解析の第一歩は、実験条件によって得られた数十~数千のDEGsが生物学的にどういう意味を持つかを考えることです。
  • Gyazo

ChIP-Atlas

ChIP-Atlasは、論文などで報告された ChIP-seq データを閲覧し、利活用するためのウェブサービスです。データ処理の知識やスキルがない方でも簡単に利用できます。データソースは、公開 NGS データレポジトリ (NCBI, EMBL-EBI, DDBJ) に登録されたほぼ全ての ChIP-seq データです。ChIP-Atlas は、九州大学大学院医学研究院 発生再生学分野 (http://www.dev.med.kyushu-u.ac.jp) と DBCLS が共同で開発しています。
(http://chip-atlas.org/)

fig10

fig11

ChIP-Atlasの機能

Peak Browser
Target Genes
Colocalization
Enrichment Analysis
  • ユーザデータを受け付け、既存データとの比較解析をおこないます。たとえば、興味のある遺伝子リストを submit すると、それらをまとめて制御する転写因子候補が返されます。ほかにも BED 形式のファイルや、シーケンスモチーフを submit すると、それらに enrichment する転写因子群が返されます。

利用例

  • 論文として発表された ChIP-Seq データを閲覧したい
  • 興味のあるゲノム領域における、転写因子や修飾ヒストンの分布を知りたい
  • 興味のある転写因子の下流遺伝子や、複合体形成パートナーを知りたい 自身の研究データと公開 ChIP-seq データを用いて比較解析をおこないたい

参考文献

  • Source code and documentation
  • https://github.com/inutano/chip-atlas
  • Preprint
  • Shinya Oki, Tazro Ohta, et al. Integrative analysis of transcription factor occupancy at enhancers and disease risk loci in noncoding genomic regions. bioRxiv 262899; doi: https://doi.org/10.1101/262899
  • Database
  • Oki, S; Ohta, T (2015): ChIP-Atlas. http://dx.doi.org/10.18908/lsdba.nbdc01558-000
  • Publications citing ChIP-Atlas http://chip-atlas.org/publications

【実習2】ChIP-AtlasのEnrichment Analysis を使って、興味ある遺伝子リストを制御する可能性の高い転写因子を調べる

  • 「発現差のあった遺伝子リスト」を持っている想定で、それらの遺伝子に結合しうる、あるいは上流でそれらの遺伝子の発現を制御する可能性がある転写因子を検索する
  • 使用するデータ
  • 180627_List_of_GeneSymbol_txt
    • ある「興味ある遺伝子リスト」をGeneSymbolにID変換したデータ。
    • これを使って、もともとどういう遺伝子リストだったかを考察します。
  • ChIP-Atlas では、遺伝子IDとしてGeneSymbolのみを受け付けているので、それ以外のIDで遺伝子リストを持っている場合は、適宜変換が必要です。

  • ChIP-Atlas - Enrichment Analysisにアクセスする

  • 下図のようにオプションを設定する fig12
  • submit すると遺伝研スパコンへクエリが飛ぶ(ので、講義中は見てるだけにしてください)
  • submit したあとの画面 fig13
  • 計算が終わるまで待つ fig14
  • 計算が終わると、「Result URL」が有効になる
  • 今回の例では、 http://ddbj.nig.ac.jp/wabi/chipatlas/wabi_chipatlas_2018-0606-1701-36-865-010614?info=result&format=html
  • 結果の解釈をする
  • 今回は、どういう「興味ある遺伝子リスト」をクエリとしたか考察してみましょう。
  • 結果の見方としては、「p-valueが低く、Overlaps/My dataが多く、Fold Enrichmentが高い」転写因子がたくさんヒットしてくると入力した遺伝子群をまとめて制御する、マスター転写因子を抽出できている確度が高い

  • 答え合わせ

まとめ

  • つまみ食い的ではありますが、通り一遍の今日から使える便利な生命科学系公共データベース・ウェブツールを学びました。
  • 顕微鏡 や 実験試薬 などと同じ「道具(ツール)」
  • 便利な「道具」を知って、その使い方が分かれば、あとは情報分析力と想像力の勝負。
  • 仮説構築から始まり、実験計画・検証、データ解析、そして論文執筆(以下ループ)という研究サイクルを加速化・効率化していきましょう。
  • 困ったら、統合TV!! (※宣伝)
  • 研究に役立ったら、ぜひ引用・クレジットを!
  • DBCLSの提供するサービス(あるいはそれ以外でも)が、あなたの研究に役立ったら、どんなに些細な事でもぜひ引用(論文、URL等)してください。DBCLSの活動は、提供するサービスがどのくらい活用されたかについて主に引用数などで評価されており、利用者の方の積極的なサポートが必要不可欠です!!

もし時間が余れば

DAVID: The Database for Annotation, Visualization and Integrated Discovery

  • アメリカ国立アレルギー・感染症研究所が開発・運用
  • 原著論文 PMID: 19131956
  • 遺伝子リストのコピペで簡単にエンリッチメント解析 ( GO、KEGG など )
  • 対応生物種・遺伝子ID が 豊富。 ID変換ツールもある
  • IDリストしか投げられない (発現量込みやタイムコースデータは不可)
  • 2010年以来データ更新が止まっていたが、最近、アップデートされた。 DAVID 6.8 (current beta release) May. 2016

マイクロアレイデータの準備

  • サンプルデータとして、NCBI GEOから取得した公共の遺伝子発現データを用います。このデータは、ある実験の前後の2群間で有意に発現減少した遺伝子群のリストです。

    マル秘遺伝子リスト (右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)

  • このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!

【実習2】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 【復習用】DAVIDを使ってマイクロアレイデータを解析する 2012
  • 【復習用】DAVIDの使い方 実践編

  • DAVIDにアクセスし、上部メニューの「Start Analysis」をクリックします。

  • Gyazo

  • 画面左側バーで、probe IDリストをコピペ or ファイルを指定します。

  • リストのIDの種類タイプを選択します。 … 今回は、「AFFY_ID」と「Gene List」
  • Submit List をクリックするとリストが読み込まれます。

  • Gyazo

  • アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。

  • Gyazo

  • 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。

  • 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。

  • Gyazo

  • 今回は、GOTERM_BP_FAT (BP = Biological Process)に注目します。その右の「Chart」をクリックすると結果がポップアップされます。

  • Gyazo

  • タイトル行をクリックするとソートできます。

  • さらに、GOTERM_CC_FAT や GOTERM_MF_FAT を見て、上位にリストされたGOTermにどのような共通点・相違点があるでしょうか。
  • CC = Cellular Component
  • Gyazo
  • MF = Molecular Function
  • Gyazo
  • Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。

  • DAVIDで得られた結果を踏まえ、「ある実験」とはどのような実験であったか考察してみましょう。

  • マル秘遺伝子リストは「ある実験の前後の2群間で有意に発現減少した遺伝子群のリスト」
  • 生物種はArabidopsis thaliana (シロイヌナズナ)

答え合わせ