ゲノム配列とそれに付与されたデータの使い方

イベント・講習会の情報

  • 開催日時: 2016-01-26
  • 講習会名: AJACS薩摩
  • 講師: 坊農 秀雅 ( 情報・システム研究機構 ライフサイエンス統合データベースセンター (DBCLS))
  • 会場: 鹿児島大学医学部共通教育棟6階マルチメディア情報演習室(桜ヶ丘キャンパス)
  • このテキストを引用する際はDOIをご利用ください。DOI: 10.7875/ajacs.2016.004
  • この講習に関連するタグ:実習 AJACS ゲノム

ゲノム配列とそれに付与されたデータの使い方 at AJACS薩摩

情報・システム研究機構 ライフサイエンス統合データベースセンター
坊農 秀雅 bono@dbcls.rois.ac.jp
2016年1月26日 鹿児島大学桜ヶ丘キャンパス


これは統合データベース講習会AJACS薩摩「ゲノム配列とそれに付与されたデータの使い方」の資料です。


概要

本講習は、だれでも自由に使うことができる公共データベース(DB)のうちゲノム配列に関して、それに付与されたデータの使い方を、ウェブツールを活用して、研究のさまざまな場面で使う方策について学びます。


講習の流れ

今回の講習では、コンピュータを使って以下の内容について説明します。

  • 研究現場で頻繁に使われるデータベースやツールを知る
  • ゲノム配列を探す
    • NCBI
  • ゲノム配列から探す
    • Web上で
      • BLAST
      • GGGenome
    • Local BLASTで(紹介のみ)
  • アノテーションを足して見る
    • UCSCのtrack
      • ENCODE TF Binding
      • TFBS Conserved
      • Resetのやり方
    • Ensemblへジャンプ
      • Synteny
      • Resequencing

講習に際しての注意とお願い
  • みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。
    • 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
    • サイトの反応が悪い時はタイミングをずらして実行してみてください。
    • 反応が無いからと言って何度もクリックするとますます繋がらなくなってしまいます。おおらかな気持ちで臨みましょう。
  • わからないことがあったら挙手にてスタッフにお知らせください。
    • 遠慮は無用です(そのための講習会です!)。おいてけぼりは楽しくありません。
  • 質問や個別の相談がある方は講習時間が終わったあとでも講師を捕まえて話してください。

研究現場で頻繁に使われるデータベースやツールを知る

統合TV

  • 生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト

    • http://togotv.dbcls.jp/ 統合TVトップページ

    • YouTube版もあります http://www.youtube.com/user/togotv/videos 統合TVYouTube支店

    • ウェブサイトへのアクセスから結果の見方まで、操作の一挙手一投足がわかります。
      • 講義・講習などの参考資料や後輩指導の教材として利用できます。
      • 本講習中、本家サイトが繋がらない時は、統合TVのYouTube版を見ればおおよその内容がわかるようになっています。
      • 今回の講習に関連する内容の多くは、統合TVのゲノム・核酸 配列解析 カテゴリーにあります。
      • 過去の講習会の内容はそのほとんどが統合TVに収録されており、いつでもどこでも繰り返し復習できるようになっています。
    • お探しの動画が見つからない or 統合TV未掲載の場合は、統合TV番組リクエストフォームへどうぞ!!
    • 統合TVを作ってみたい方、募集中です。ご連絡下さい。

ゲノム配列を探す

さまざまな生物種のゲノム配列が解読されています。それを自らの研究に利用しない手はありません。その利用の第一歩としてそれを探してくる方法を学びます。

NCBI

  • NCBI(National Center for Biotechnology Information)
    • http://www.ncbi.nlm.nih.gov/
  • アメリカ合衆国の予算(NIH)による分子生物学情報のリソース
  • いろんな調べ物、基本ここから

【実習1】NCBIからゲノム配列を検索、取得する

  1. 中東呼吸器症候群の原因ウイルスのゲノム配列を取得しましょう。日本語しかわからない場合は、NBDCのデータベース横断検索から英語名を調べましょう。その結果、出てくるMiddle East respiratory syndromeでNCBIから検索します
    Gyazo

  2. 検索結果を見ましょう。それぞれのDBの横にある数字は、検索ヒット数です。ゲノム配列が得たいので、Genomeの項目(ヒット数1件)をクリックして詳細を取得します
    https://gyazo.com/59d401eee38017a64719e9ae631ff113

  3. Middle East respiratory syndrome coronavirusのゲノム構造と各種リンクが表示されます。RefSeqのところにあるIDをクリックするとRefSeq(リファレンス配列(Reference Sequence)のデータベース)のレコードが表示されます
    Gyazo

  4. 得られるRefSeqのレコードを見ましょう。ゲノムにコードされているタンパク質配列などを確認しましょう

  5. そのレコードの一番下にゲノム配列が記述されています。ゲノム塩基配列を抜き出すには、最上部のFASTAをクリックします
    Gyazo

  6. MERSコロナウイルスのゲノム配列が得られました!
    Gyazo

蛇足: GOLD(Genomes Online Database)というゲノム塩基配列解読プロジェクトを集めたデータベースを使うと、すでに終了したプロジェクトだけでなく、現在進行中のゲノムプロジェクトやメタゲノムプロジェクトについても調べることができます 【参考】GOLD -Genomes Online Database- の使い方(統合TV)


ゲノム配列から探す

ゲノム配列が得られてもその中から欲しい領域を目で見つけてくること(眼grep(「めグレップ」)と呼んでいます)は容易ではありません。そこで、コンピュータの力を借りることになります。

Web上で

  • BLAST(Basic Local Alignment Search Tool)
    • http://blast.ncbi.nlm.nih.gov/
    • 前世紀から使われている配列類似性検索のデ・ファクト・スタンダード
    • かつては遠縁の配列相同性を検出するためのツール
    • 今はほぼ完全一致を探すために用いられることも多い

Gyazo (スライド出典: 「配列解析基礎」 by 坊農秀雅)

【余談】なぜ相同性じゃなく類似性か

  • 遺伝学では、相同性という言葉はタンパク質のアミノ酸配列や遺伝子の塩基配列が共通の祖先をもつときに用いる
  • バイオインフォマティクスでは、タンパク質やDNAでの相同性は、配列類似性に基づいて判断される
    • http://togetter.com/li/307635

Gyazo

  • 現在(2016年1月)のBLASTウェブインターフェース
    • Assembled Genomesに対する生物種ごとのBLAST検索が上位に
    • Basic BLAST(以下に説明)が下の方に

Gyazo (スライド出典: 「配列解析基礎」 by 坊農秀雅)

  • GGGenome
    • 「じぇじぇじぇのむ」と読みます(参考: GGRNA(「ぐぐるな」))
    • http://gggenome.dbcls.jp/
    • 上記のAssembled Genomesに対する高速検索のツール

【実習2】GGGenomeを使ってゲノム配列から探す

  1. http://gggenome.dbcls.jp/ にアクセスします
    Gyazo

  2. CTGACGGTCA(10塩基)を入力して「検索」ボタンを押します。この塩基配列がヒトゲノム中で何回出てくるか、簡単にわかります
    Gyazo

  3. 検索ボタンの右にある生物種をS.cerevisiaeにして検索しなおしましょう。ヒット数はどう変化するでしょうか?
    Gyazo

  4. 染色体と位置のところにリンクがあり、これをクリックするとUCSC Genome Browserの該当箇所になります。その使い方は次節で説明します

  5. 【復習用】高速配列検索 GGGenome《ゲゲゲノム》の使い方(統合TV)

  6. English version available here -> GGGenome: a fast and simple DNA sequence search engine(TogoTV)

(参考)LocalBLASTで

検索する質問配列の数が多くなると、いちいちウェブブラウザを開いて貼り付けてクリックして…が大変になります。それを克服する方法として、Local(自分のパソコン)にBLASTのプログラムをインストールしてBLASTを実行する方法(LocalBLAST)があります。詳しくはこちらの資料を御覧ください。実際にセットアップする統合TVもそこから紹介しています。


アノテーションを足して見る

ゲノム解読がなされて終わりではありません。どこに遺伝子がコードされているか、転写因子の結合領域はどこかなど、ゲノム上の座標に対して注釈付けがなされていきます。それがゲノムアノテーションです。

ゲノム配列にはバージョンがある

当然最新のものが一番ゲノム配列としては正確なものになっているはずなのですが、ゲノムアノテーションが最新のものに対しても遅滞なくきちんとなされているわけではなく、利用目的によってうまく選択しないといけないのが現状です。

  • Human
    • GRCh38/hg38
    • GRCh37/hg19
  • Mouse
    • GRCm38/mm10
    • NCBI37/mm9

ゲノムブラウザ

それを見る方法としてゲノムブラウザが使われます。ここではウェブブラウザ上で使えるゲノムブラウザとして有名なUCSC Genome Browser(「ゆーしーえすしー げのむ ぶらうざー」)とEnsembl Genome Browser(「あんさんぶる」)の使い方を学びます。

【実習3】UCSC & Ensembl Genome Browserに隠されたアノテーションを発掘する

  • Track HubでFANTOM5, cancer

  • http://genome.ucsc.edu/ にアクセスします

  • 上部のメニューバーのGenomesにマウスをのせると上述のヒトとマウスのアッセンブリが選択できますが、ここでは気にせずそのままクリックします。
  • groupにMammal、genomeにHuman、assemblyにFeb.2009 (GRCh37/hg19)を選び、search termにHIF1と入力すると入力補完されるので、一番上のHIF1Aを選び、submitボタンを押しましょう
    https://gyazo.com/6b98e53d802a833793e674ff37eb21bf

  • HIF1Aがコードされたゲノム上の領域が表示されます https://gyazo.com/bdbbb1a3cb3835e4db052b0c5843528f これがゲノムブラウザの基本画面です。このページにあるさまざまなボタンなどいろいろと操作して必要な情報を追加したり、見たくない情報を削除したりします。

  • 上部のnavigationボタンでmoveやzoom in/out等できますが、遺伝子名検索でたどり着いた場合、mRNAの領域に拡大されて表示されるので、zoom out 3xしておきましょう
    https://gyazo.com/1d6b096e08ec68e38ee8fae6e53f0e72

  • 画面下の方にあるのがアノテーションです。Phenotype and Literature カテゴリー中のCOSMICが'hide'になっているのをdenseに変えて、refreshボタンを押してみましょう https://gyazo.com/a4130a4abc68b93803584ce5aa2ff8bb

  • そうすると、上部のゲノム領域にこのゲノムアノテーション(COSMIC)が付加されて表示されます(画像中央、赤色) https://gyazo.com/8ae374468cf7f99b684496068319ffd9

  • dense,squich, pack, fullとなるに連れて、情報量が多くなります。fullにしてみると… https://gyazo.com/4375db31f539aba1af1af1777546123f

  • この図は見たい情報のところをクリックすると詳細情報が得られます。たとえば、COSMICの気になる部分のIDをクリックすると https://gyazo.com/2b52bd8f59a6b4256f1d069c3b69eff5 その個別のアノテーションの詳細情報が見れます。

  • このゲノムアノテーションそのものについて詳しく知りたい場合、さきほどshowに切り替えた選択画面の上にあったリンクをクリックしてみましょう。詳しい説明が得られます
    https://gyazo.com/7c21fba54853479d3d648d878f2fd11c このようにして必要な情報を足していって、自分のほしい情報を得ます。

  • いろいろいじってしまうと元に戻したい時があります。その場合は、default tracksボタンを押すとResetされ、元のゲノムアノテーションに簡単に戻せます
    https://gyazo.com/e37518349806c036f070a079b6dfa9cb

  • このページにあるゲノムアノテーションの検索は、その左のtrack searchボタンから可能です。cancerをキーワードに検索してみると… https://gyazo.com/24ef8682285d7879a8025c078f75bede

  • さらに、UCSC Genome Browserのサーバー上ではなく、外部で管理されているデータをゲノムブラウザ上に表示することもできます。上部のメニューの My Data の中にあるTrack Hubsをクリックした画面でcancerで検索すると以下の様な外部データが利用可能とわかります。 https://gyazo.com/0b434ffd362d5f9a846c1de2632a2c4c

  • また、上部のメニューのうち、Viewをクリックして出てくるEnsemblをクリックすると、今見ている領域のEnsembl Genome Browserの該当領域へジャンプします
    https://gyazo.com/07a9546a5bbf54abc0488348c71cafa9 が、HIF1A遺伝子が見当たりません。なぜでしょうか?

  • これはEnsemblに飛んだ先がGRCh38のゲノムアッセンブリで、UCSC側とバージョンが違っていて座標がずれているからです。しょうがないので、真ん中のGene:のところでHIF1Aを検索しましょう。 https://gyazo.com/5663fa4c073b5e119ac01a547c0ce1bb https://gyazo.com/f09fea3c99669a41bc3f334ba1022ceb 【重要】ゲノム配列はバージョンが同じならどこのサイトでも同一ですが、 アノテーションは提供サイトで異なります

  • 左カラムのメニュー中のComparative GenomicsのSyntenyをクリックすると、ヒトとマウスの間のシンテニーマップが表示されます
    https://gyazo.com/7266536d5e87a533918d7e95449e4fee

  • 【復習用】UCSC Genome Browserの使い方〜表示+ENCODE編〜 2012(統合TV)

ここまで出来て時間のある方は、自分の興味のある遺伝子やtrackを試してみましょう。余裕のある方は、ウイルスの持ち出した宿主の遺伝子配列がコードされている領域をアミノ酸配列レベルでゲノム中から探し当てる 2012(統合TV)で説明されているラウス肉腫ウイルスゲノム配列を取得、その痕跡をニワトリゲノムから探してみるのをやってみましょう。