次世代シーケンサー(NGS)と関連するデータベース・ツール

イベント・講習会の情報

  • 開催日時: 2015-09-25
  • 講習会名: AJACS伊予
  • 講師: 仲里 猛留 ( 情報・システム研究機構 ライフサイエンス統合データベースセンター (DBCLS))
  • 会場: 愛媛大学 総合情報メディアセンター 農学部分室(樽味地区)
  • このテキストを引用する際はDOIをご利用ください。DOI: 10.7875/ajacs.2015.031
  • この講習に関連するタグ:実習 AJACS NGS データベース

AJACS伊予 次世代シーケンサー(NGS)と関連するデータベース・ツール

情報・システム研究機構(ROIS)
ライフサイエンス統合データベースセンター(DBCLS)
仲里 猛留 nakazato@dbcls.rois.ac.jp
twitter: @chalkless

2015年9月25日 AJACS伊予@愛媛大学


AJACS伊予 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」


おことわり

  • このセクションではNGSの原理の話と関連するデータベース、解析の流れ(の概略)などについて触れます
  • 実際の解析のうち一部は次のセクションで触れます。
  • 今回(次のセクションも含めて)触れられない部分については以下を参照ください。

参考

次世代シーケンサ(とそのデータ)基礎知識

  • 言葉
  • 次世代シーケンサ
  • 次世代シーケンサー
  • 次世代シークエンサー
  • 新型シーケンサ
  • New-generation Sequencing (NGS)
  • Next-generation Sequiencing (NGS)
  • 他にmassively parallel DNA sequencing とか...
  • → だんだん「新型」でも「次世代」でもなくなっていく。。。
  • → 最近は、 Massively Parallel DNA sequencing か、High-throughput DNA sequencing (technology) をよく使う印象(略語はNGSのまま) 例:High-throughput sequencing technology, also called Next-generation sequencing (NGS), ...

何が新型/次世代なのか?

  • 90年代
  • ゲル板
  • ポリアクリルアミドゲル電気泳動 + 蛍光標識ダイデオキシヌクレオチド

- DNAシークエンシング - Wikipedia -- 検出も参照

NGSデータの規模

  • 【実習】どのくらいのデータ量になるか考えてみましょう
  • ゲル板:750 (base/lane) × 48/4 lanes = 9kbase
  • キャピラリ:500 (base/lane) × 96 lane = 48kbase
  • 次世代: 2 × 300 (base/seq) × 25M seq/run = 15Gbase = 15,000,000kbase
  • データ量の答えは計算式の右に白い字で書いてあるのでマウスでなぞってみるなどして確認してみてください
  • ↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
  • ↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
  • そして、その画像データはSRAには登録されていない

NGSの利用範囲

  • ゲノム、発現解析、メタゲノム解析、ChIP-Seq(転写因子解析)、SNP解析、...
  • 目的によって必要なデータ量も違う
  • 機器に合った利用を

NGS関連データベース

SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
  • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
  • NCBI(米): SRA
  • EBI(欧): ENA (European Nucleotide Archive)
  • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
  • 3局でデータの交換をしている
    • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
    • 個人情報にからむものは、実際の配列データはしかるべきところにしかない。(日本だとJGA。これの前のセクション参照)

[参考] NCBI SRAやめます事件(11/2/16 現地時間)

【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/ )

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
  • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
  • Keyword に興味のある語を入れてみましょう(例:variation)
  • Filtered by の document type で絞り込み:Study
  • Filtered by の organism で絞り込み:Homo sapiens
  • ACCESSION の SRP...... をクリック → 詳細が
  • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
  • データ構造(StudyとかExpとかRunとか)
  • ↑ これは昔のバージョン。今回は、簡単に理解するためにあえてこれで。 DDBJ Sequence Read Archive - Document - Metadataより
  • 実データ:FASTQ形式

    @DRR001107.1 GEZQ5FO01EEA7F length=77 GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN +DRR001107.1 GEZQ5FO01EEA7F length=77 C@BBBECCECDBBBAAAAA441111<?@?=?????44!00044322====22--..//6998222<7<3/!/!!!

  • 1行目: @ + タイトル

  • 2行目:塩基配列
  • 3行目: + (+ タイトル)
  • 4行目:シーケンスクオリティ
  • 実データ その2:SRA形式
  • FASTQ形式データはディスク容量を食うので圧縮した形式 → SRA ToolkitでFASTQ形式に変換して用いる
  • たまに変換にミスることがある。ダウンロードに失敗していないならば、ファイルが壊れてアップされていることがあるので、NCBI(か、手近にDDBJ)にクレームを入れましょう。

統計情報から検索する (DBCLS SRA: http://sra.dbcls.jp/ )

  • 統計情報の詳細: http://sra.dbcls.jp/trends.html
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)
  • 組合わせで
    • 【実習】Search SRA data 欄でいくつかの条件を組み合わせて検索してみる
  • 個々のプロジェクトの中身を見てみましょう
  • Sequencing Profileの欄から各々のRun(例:ERR030856)についてクリックして、詳細を見てみよう。→ FastQCによりQuality Checkをかけた結果です

文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • DBCLS SRA の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
  • NGS関連文献とそこで言及されているNGSデータのリスト
  • 目的/Platform/生物種で絞り込み可能
  • 目的:「使える」データをさがす
  • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
  • 生物種、目的に制限あり

疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
  • DBCLS SRAにアクセス
  • 下の方の Search by diseasesから

NGSデータの解析

概要

Quality Control (QC)

  • 主にFastQCといったソフトが使われます http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

fastqc -o SRR067385.qc -f fastq SRR067385.fastq

  • DBCLS SRAではあらかじめFastQCをかけた結果を表示できるように随時、処理をしています(自分でやらなくてよい!)
  • 例: http://sra.dbcls.jp/search/view/SRR067385

解析その1(Whole Genome, Transcriptomics)

  • その1:既知のゲノムに貼る (Reference Genome Mapping)
  • QCの結果をもとに、使わない部分(使い物にならない部分)を除去する ... FASTX-Toolkit などを用いる
  • マッピング... tophat2、bowtie、bwa などを用いる(どれを使えばいいか? → 速度と精度、目的によって使い分けます)

bowtie2 -x hg19. -U SRR1294107.fastq > SRR1294107.sam ← SRR1294107 を hg19 に対してマッピングしてSAM形式で出力

- FASTQ形式 → SAM形式
  • マッピング形式の可視化
    • 例:Integrative Genomics Viewer IGVを使い倒す ~マッピングデータを可視化する~ http://togotv.dbcls.jp/20140716.html#p01
  • SAM形式は必要に応じてバイナリ形式のBAM形式に変換して用います(逆にBAM形式を人間が読めるようにSAM形式にすることもある)

samtools view -Sb SRR1294107.sam -o SRR1294107.bam (SAMからBAMへの変換)

  • 発現量の定量 ... cufflinks などを用いる
  • control に対してサンプル(KOした、疾患状態、...)の発現はどう違うか? ... cufflinks のうちcuffdiff

    cuffdiff ensembl_gene.gtf -o result SRR1294107.bam control.bam ←controlに対してSRR1294107での発現がどう違うか?

  • ここでensembl_gene.gtf にはトランスクリプトームの情報が含まれています(アノテーション情報)

  • 転写単位ごとの発現量情報推定 ... cummeRbund (cufflinks の結果を解析するRパッケージ)
  • 多分、ここまで行き着かないだろうので、二階堂さんがAJACSで話した内容の統合TVを参考にしてください: http://togotv.dbcls.jp/20120926.html#p01
  • その2:一からつなげる(De novo Assemble)

DDBJ Read Annotation Pipelineの使い方

解析その2(ChIP-Seq、転写因子解析)

  • その1で書いたマッピングするところまでは発現解析と同じです(FASTQ → SAM → BAM)
  • binding site予測 ... macs2 などを用いる

    samtools sort oct4.bam oct4.sort ← 下準備:BAMファイルのソート
    samtools index oct4.sort.bam ← 下準備:インデックス作成
    macs2 -t Oct4.bowtie.sort.rmRepeat.bam -c GFP.bowtie.sort.rmRepeat.bam -f BAM -g mm -n Oct4 -B -q 0.01

  • 高次解析に進みます

  • 今回は時間がないと思うので、二階堂さんがAJACSで話した内容の統合TVを参考にしてください: http://togotv.dbcls.jp/20120926.html#p01

解析その3(SNV/Indel解析)

  • SNV: single nucleotide variation
  • その1で書いたマッピングするところまでは基本的に発現解析と同じです(FASTQ → SAM → BAM)
  • samtools を用いる場合
  • bwaでマッピング、samtoolsでSNP callという流れは割とみながやっている手法です

samtools mpileup -Bugf in_genome.fasta in_sorted.bam | ./bcftools view -bvcg - > out_raw.vcf

  • 参考:http://ameblo.jp/drosk/entry-11222753481.html
  • GATKを用いる場合
  • GATKはSNP解析、変異解析に特化したソフト
  • 流れ
    • Indel付近をリマッピング(一塩基のずれが結果に響くので丁寧にマッピングする)
    • SNV検出
    • アノテーション情報付与 ... SNPEff などを用いる
  • SAM/BAM形式 → vcf形式

得られたNGSデータの登録

SRAへのNGSデータの登録


AJACS伊予 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」