GalaxyはPenn State University Center for Comparative Genomics and Bioinformaticsで開発されている、ゲノムデータの統合解析ウェブアプリケーションです。DBCLSではこのGalaxyに独自ツールを加えたDBCLS Galaxyを提供しています。今回はDBCLS Galaxyを使って、特定の転写因子予測結合領域と遺伝子上流配列の共通領域をリストアップし、ゲノムブラウザに表示する方法を紹介しています。 まず、Galaxyから UCSC Table Browserにアクセスしてヒトの既知遺伝子(knowngene)の上流200bpをまずリストアップします(データセット1とします)。次に転写因子p53の予測結合領域を同じくUCSC Table Browserからヒトのデータだけに絞って取得します(データセット2)。そして、そのデータセット1と2をGalaxy 中の Tools である'Operate on Genomic Intervals 'の'Intersect the intervals of two queries'を用いてゲノム座標レベルで比較します。それにより、データセット1、2の共通領域がデータセット3として得られます。最後にデータセット3をワンクリックで UCSC Genome Browser にインポートして眺めます。データセット1を作成するときに遺伝子コード領域そのままのゲノム座標ではなく、上流領域のゲノム座標を指定している点がキーポイントです。今回は上流200bpとかなり狭い領域を指定していますがこれは自由に変更出来ます。また、今回例示したp53以外の別の転写因子の予測結合領域をリストアップすることも(UCSC Table Browserから計算結果が提供されていれば)同様の操作により可能です。また重なり具合も自由に設定出来ます。今回はUCSC Genome Browserにデータをインポートしましたが、他にも
Ensembl、
IGB、
RViewerでも同様に見ることができます。