遺伝子発現DB・ウェブツールの使い方 応用・実践編

イベント・講習会の情報

AJACS御茶ノ水 遺伝子発現DB・ウェブツールの使い方 応用・実践編

日本大学生物資源科学部
動物生体機構学研究室
沖 嘉尚 oki@brs.nihon-u.ac.jp
2015年5月21日 AJACS御茶ノ水@東京医科歯科大学


概要

本講習は、誰でも自由に使うことができる公共データベースからマイクロアレイ解析のサンプルデータを検索し、ウェブツールを活用して発現差のある遺伝子群を抽出する方法について学びます。また、得られた数百〜数千におよぶ遺伝子群について、生物学的な解釈をする方法とその結果の考察を実践します。


講習の流れ

今回の講習では、コンピュータを使って以下の内容について説明します。

  • 公共の遺伝子発現データベース NCBI Gene Expression Omnibus(GEO)の使い方
    • NCBI GEO
      • 【実習1】GEOを使って、興味あるマイクロアレイの実験データセットを検索する
  • 遺伝子発現データ解析ツール GEO2R の使い方
    • NCBI GEO2R
      • 【実習2】GEO2Rを使って、GEOに登録されているマイクロアレイデータを解析する
  • 遺伝子群の機能解析ツール DAVID の使い方
    • DAVID
      • 【実習3】DAVIDを使って、発現データの解析結果を生物学的に解釈する
  • [予備]転写制御因子予測ツール TFactS の使い方
    • TFactS
      • 【実習4】TFactSを使って、遺伝子群を制御する転写因子を予測する

講習に際しての注意とお願い
  • みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。
    • 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
    • サイトの反応が悪い時はタイミングをずらして実行してみてください。
    • 反応が無いからと言って何度もクリックするとますます繋がらなくなってしまいます。おおらかな気持ちで臨みましょう。
  • わからないことがあったら挙手にてスタッフにお知らせください。
    • 遠慮は無用です(そのための講習会です!)。おいてけぼりは楽しくありません。

公共の遺伝子発現データベース NCBI Gene Expression Omnibus(GEO)の使い方

GEO

  • NCBIが提供・維持管理している世界最大の遺伝子発現情報(主にマイクロアレイ)のデータベース
  • http://www.ncbi.nlm.nih.gov/geo/
  • 自分の興味のある発現データセットや遺伝子プロファイルを検索することができるだけでなく、それらの生データを自由にダウンロードすることが可能です。

  • GEOのエントリについて(GEO ID番号の最初の3文字の意味)

    • GPL: Platform ー マイクロアレイチップの種類
    • GSM: Sample ー 1枚のマイクロアレイチップから得られたサンプルデータ
    • GSE: Series ー 1つの実験で得られたGSMのセット
    • GDS: DataSet ー NCBIのスタッフが解析可能なデータを集めて再編成したGSMのセット

【実習1】GEOを使って、興味あるマイクロアレイの実験データセットを検索する

Gyazo

  1. Platform(マイクロアレイの種類)の一覧画面が表示されるので、上部の「FIND PLATFORM」をクリックします。

Gyazo

  1. Platformの検索画面が現れるので、「Manufacturer」に "Affymetrix"、「organism」に "Homo sapiens" を選択し、「OK」をクリックします。

Gyazo

  1. Affymetrixのヒトのマイクロアレイの検索結果が表示されます。列見出しをクリックすると、各項目でソートできます。表の中央にある「Samples」あるいは「Series」を2回クリックすると、登録されている実験データが多い順にソートされます。

Gyazo

  1. [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array が最も多くデータが登録されているプラットホームであることがわかります。

  2. Series数"3855"をクリックすると、Filter に "Platform: GPL570" が表示され、「Affymetrix Human Genome U133 Plus 2.0 Array」を用いた実験データのみが表示されます。

Gyazo

  1. 今回は 『アルコール性肝炎』 に関連するデータを検索します。検索窓に "alcoholic hepatitis" を入力して、「Search」をクリックします。

Gyazo

  1. GSE28619 - Transcriptome Analysis Identifies Fn14, a TNF Superfamily Receptor Member, as a Therapeutic Target in Alcoholic Hepatitis というデータセットが見つかりました。左端にある「GSE28619」をクリックすると、そのデータセットの詳細情報が閲覧できます。

Gyazo

  1. GSE28619のページが表示されました。

Gyazo

  1. ページ下部の「Download family」の中にある「Series Matrix File(s)」をクリックすると、正規化済みのデータのダウンロードリンクが表示されます。
  2. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。

Gyazo

  1. 自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。

遺伝子発現データ解析ツール GEO2R の使い方

GEO2R

  • NCBIが提供しているマイクロアレイデータの解析ツール
  • http://www.ncbi.nlm.nih.gov/geo/
  • 統計解析ソフト R をベースに解析します。
  • GEOに登録されているデータセットの中から、それぞれのサンプルデータを比較したいグループに分け、統計解析することによって発現量に差がある遺伝子群のリストを取得できます。

【実習2】GEO2Rを使って、GEOに登録されているマイクロアレイデータを解析する

Gyazo

  1. ページ下部の「Analyze with GEO2R」をクリックし、GEO2Rのページに移動します。

Gyazo

  1. データセットに含まれるサンプルデータの一覧が表示されます。列見出しをクリックすると、各項目でソートできます。このデータセットには、健常者 7名・アルコール性肝炎患者 15名の肝臓から得られた22個のサンプルデータからなることがわかります。

Gyazo

  1. 比較したいグループを設定します。「Define groups」をクリックして、それぞれのグループ名を入力します。今回は、"Control" と "Alcoholic Hepatitis" をグループ名として、各サンプルをグループ化します。

Gyazo

  1. グループに入れたいサンプルをクリックやドラッグで選択してからグループ名をクリックすると、サンプルがグループに登録されます。

Gyazo

  1. 「Samples」をクリックして、サンプルデータの一覧画面を閉じます。「Value distribution」タブを選択し、「View」をクリックすると各サンプルの発現分布を調べることができます。(※ GEO2R では、投稿された生のデータを用いて解析されます。ジョブの実行は時間がかかるので要注意!)

Gyazo

  1. 発現分布が箱ひげ図で示されます。

Gyazo

  1. 「Export」 をクリックすると、箱ひげ図で与えられている値をまとめたタブ区切りテキストが表示されます。(※)

Gyazo

  1. GEO2R タブに戻り、「Top 250」をクリックすると、選択したグループ間で各遺伝子の発現量に差があるかどうか統計解析されます。(※)

Gyazo

  1. 結果が表示されました。t 検定の結果が P 値の小さい順に 250 件表示されます。

Gyazo

  1. "P.Value" は元の P 値、"adj.P.Val" は多重検定の補正をかけた後の P 値です。有意性の評価は adj.P.Val に基づいています。 "t" は普通の t の標準偏差を全遺伝子の標準偏差を用いて調整したもの (moderated-t) です。普通の t より精度が上がっていますが、普通の t 分布に従うものとして扱えます。 "B" は2つのグループで発現量が異なっている対数オッズ値です。exp(B)/(1+exp(B)) の値が、発現量が異なっている確率です。"logFC" は、発現量の差が何倍であるかを2底の対数にしたものです。つまり値が 2 なら 4 倍の差を示しています。ここでの解析では発現量が対数で与えられている必要がありますが、元のデータでは対数になっていないことがあります。そのような場合デフォルトでは自動検出し、対数変換して計算してくれます。その上でこのような表示がされます。

  2. 各行をクリックすると、その行の遺伝子の各サンプルでの発現量のグラフが見られます。

  3. 今回は健常者 vs アルコール性肝炎患者の間で最も差が大きいとされた遺伝子である AKR1B10(アルドケト還元酵素ファミリーの一つ)について見てみましょう。AKR1B10 は、健常者と比較してアルコール性肝炎患者で発現が高いことがわかります。

Gyazo

  1. また、2番目に発現差が大きいとされた遺伝子である SLC16A10(SLCトランスポーターの一つ)は、アルコール性肝炎患者で発現が低いことがわかります。

Gyazo

  1. 「Sample values」 をクリックすると、発現量の値が一覧できます。

Gyazo

  1. 「Select columns」 をクリックすると、表示するカラムを変更できます。 "t-statistic" と "B-value" を消し、 "GO:Process" を追加してみましょう。設定を変更したら、「Set」をクリックします。

Gyazo

  1. 表示するカラムを変更できました。

Gyazo

  1. 「Save all results」 をクリックすると、結果をテキストで表示・保存できます。

Gyazo

  1. Options タブをクリックすると、いくつかの設定を変更できます。左の項目は多重検定の補正法の選択です。デフォルトでは "Benjamini & Hochberg" の方法が使われています。中央はデータの対数をとるかどうかの選択です。デフォルトでは自動検出で対数になります。右の項目はプラットフォームの注釈の選択です。"NCBI generated" がある場合はそれの方が信頼できます。

Gyazo

  1. Options に変更を加えたら、GEO2R タブに戻って 「Recalculate」 をクリックします。(※ 今回は実行しません。)

Gyazo

  1. Profile graph の項目では、プローブ ID を元に、個々の遺伝子の発現状況を調べることができます。Enter ID の窓にプローブ IDをコピペし、「Set」をクリックすると発現量のグラフが表示されます。今回は例として、"ALDH2"(アルデヒド脱水素酵素のアイソザイム)のプローブ ID "201425_at" を検索してみましょう。

Gyazo

  1. 健常者の方がアルコール性肝炎患者よりも ALDH2 の発現量に高い傾向がみられました。(この操作では何の計算も実行されないので、検定の結果の P 値を調べることはできません。)

Gyazo

  1. R script タブをクリックすると、これまでに実際に実行された R のスクリプトを見ることができます。これを参考に、手元の R でパラメータを調整するなどして更なる解析を行うことができます。

Gyazo


遺伝子群の機能解析ツール DAVID の使い方

DAVID: The Database for Annotation, Visualization and Integrated Discovery

  • 実験によって得られた数十~数千の遺伝子群の機能解析ツール
  • http://david.abcc.ncifcrf.gov/
  • 個々の遺伝子に付与されているアノテーション情報(GO term)から遺伝子リストに含まれる生物学的機能を可視化し、直感的な分析が可能です。
マイクロアレイデータの準備
  • サンプルデータとして、【実習2】で解析した遺伝子発現データを用います。このデータは、多重比較法(Benjamini & Hochberg)を指定して、有意水準1%未満かつ2倍以上発現差のあった遺伝子群のリストです。

    → 「健常者>AH患者_遺伝子リスト」GEO2R_Ctrl.txt

    → 「AH患者>健常者_遺伝子リスト」GEO2R_AH.txt

(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)

  • このデータから、どのような機能の遺伝子群に発現差があるのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!

【実習3】DAVIDを使って、発現データの解析結果を生物学的に解釈する

Gyazo

  1. 画面左側バーで、「健常者>AH患者_遺伝子リスト」のプローブ IDをコピペ or ファイルを選択します。

Gyazo

  1. リストのIDの種類を選択します。 … 今回は、"AFFYMETRIX_3PRIME_IVT_ID" と "Gene List" を選択します。
  2. Submit List をクリックすると、リストが読み込まれます。

Gyazo

  1. アップロードしたリストは、コピペの場合、左側バーの "List Manager" で "List_1" として保存されています。ファイル選択の場合、「GEO2R_Ctrl」としてファイル名が表示されます。リストの削除やファイル名の変更もできます。

Gyazo

  1. バックグラウンドの種類タイプを選択します。 デフォルトでは "Homo sapiens" が設定されています。… 今回は "Human Genome U133 plus 2 Array" を選択します。

Gyazo

  1. バックグラウンドが変更されました。画面中央の「Functional Annotation Tool」をクリックします。

Gyazo

  1. Functional Annotation Tool のページが表示されました。"Gene Ontology" だけでなく、さまざまなアノテーション情報からの解析を閲覧できます。

  2. 「Gene Ontology」をクリックすると、Gene Ontologyを用いた解析の細かいメニューが表示されます。

Gyazo

  1. 今回は、GOTERM_BP_ALL(BP = Biological Process)に注目します。「Chart」をクリックすると、結果がポップアップされます。

Gyazo

  1. GOTERM_BP_ALL のチャートが表示されました。列見出しをクリックすると、各項目でソートできます。「Download File」をクリックすると、結果をテキストで表示できます。

Gyazo

  1. 解析結果が表示されました。テキストファイルとして保存することも可能です。

Gyazo

  1. チャート画面の Genes の横棒グラフをクリックすると、その GOTerm に関連する遺伝子のリストが表示されます。… 今回は、 "alcohol metabolic process" の遺伝子リストを見てみましょう。

Gyazo

  1. "alcohol metabolic process" の GOTerm に関連する遺伝子リストが表示されました。アップロードしたプローブ IDと、そのプローブに対応する遺伝子の名前がわかります。

Gyazo

  1. さらに、GOTERM_CC_ALL(CC = Cellular Component)や GOTERM_MF_ALL(MF = Molecular Function)を見てみます。  
  2. 結果:GOTERM_CC_ALL

Gyazo

  • 結果:GOTERM_MF_ALL

Gyazo

  1. Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみましょう。
  2. 同様に、「AH患者>健常者_遺伝子リスト」も解析してみましょう。

  3. 結果:GOTERM_BP_ALL Gyazo

  4. 結果:GOTERM_CC_ALL Gyazo
  5. 結果:GOTERM_MF_ALL Gyazo

  6. DAVIDで得られた結果を踏まえ、「健常者とアルコール性肝炎患者」の肝臓では、どのような違いがあるのか考察してみましょう。


[予備]転写制御因子予測ツール TFactS の使い方

TFactS

  • 実験によって得られた数十~数千の遺伝子群の転写制御因子予測ツール
  • http://www.tfacts.org/
  • TREDTRRDRAZARNFIregulomeDBなどのデータベースから得られた遺伝子リストに加えて、Pubmedの文献情報から得られたTFactS独自の遺伝子リストをベースに解析します。
  • 遺伝子の転写因子結合配列情報からではなく、遺伝子リストの情報からそれら遺伝子群を制御する転写因子の予測が可能です。
マイクロアレイデータの準備
  • サンプルデータは【実習3】と同様に、【実習2】で解析した遺伝子発現データから得られた遺伝子リストを用います。TFactS は Gene Symbol を使用するので、プローブ ID を Gene Symbol に変換した遺伝子リストを準備します。
  • 遺伝子のIDをSymbolに変換するには、DAVIDのGene ID Conversion Tool が便利です。統合TV 解説

    → 「健常者>AH患者_遺伝子リスト」DOWN_genes.txt

    → 「AH患者>健常者_遺伝子リスト」UP_genes.txt

(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。)

  • このデータから、どのような転写因子によって発現制御されているのかを TFactS を使って予測してみましょう!

【実習4】TFactSを使って、遺伝子群を制御する転写因子を予測する

  1. 画面中央の「ENTER」をクリックします。

Gyazo

  1. 画面左側バーで、「START Data Analysis」をクリックします。

Gyazo

  1. Catalogue Selection を選択します。
  2. Sign-Less catalogue は Regulated Transcription Factors (TF)、Sign-Sensitive catalogue は Activated TF と Repressed TF を解析します。…今回は "Sign-Less" を選択します。
  3. TFactS Mode では、"BatchTFactS"(遺伝子リストをzipファイルで一括アップロード)と "TFactS (Simple Mode)"(遺伝子リストをコピペしてアップロード) が選択できます。…今回は "TFactS (Simple Mode)" を選択します。

Gyazo

  1. Input Data では、Analysis Name と Gene List を記入します。
  2. Analysis Name に "AJACS53(なんでも良い)"と記入し、UP genes と Down genes には UP_genes.txt と DOWN_genes.txt の遺伝子リストの Gene Symbol をそれぞれコピペします。
  3. Negative control と Thresholds はパラメーターを設定します。…今回は初期設定のまま実行します。
  4. 「GO」 をクリックすると、解析が実行されます。(※)

Gyazo

  1. 解析結果のリンクが表示されました。

Gyazo

  1. ①「Results (P-value Tables)」をクリックします。
  2. アップロードしたリストの遺伝子群を制御すると予測された転写因子が Regulated Transcription Factors として表示されます。

Gyazo

  1. ②「Submitted Lists and the corresponding TFs」をクリックします。
  2. アップロードした遺伝子リストについて、個々の遺伝子に対応する転写因子が Gene List UP と Gene List DOWN としてそれぞれ表示されます。
  3. UP_genes

Gyazo

  • DOWN_genes

Gyazo

  1. ③「Export results」 をクリックすると、すべての解析結果がzipファイルでダウンロードできます。ファイル名は Analysis Name で設定した "AJACS53" になります。
  2. Sign-Less catalogue で得られた Regulated TF の結果を踏まえ、 Sign-Sensitive catalogue で Activated TF と Repressed TF も解析して、どのような違いがあるのか比較してみましょう。