Galaxyを使い倒す特定の転写因子予測結合領域と遺伝子上流領域の「交差点」をリストアップする

Galaxyは、Penn State University Center for Comparative Genomics and Bioinformaticsで開発されているゲノムデータの統合解析のためのメタサーバー(Metaserver for integrative analysis of genomic data)です。これを使うといろいろなことができますが、今回はDBCLSで公開予定のGalaxyサーバーを利用して、特定の転写因子予測結合領域と遺伝子上流領域の「交差点」をリストアップする方法を紹介しています(20090422追記:こちらのサーバーはログインを要求されるので、一時的に試す場合は本家のサーバーを利用するとよいでしょう)。具体的には、Galaxy のインターフェースから UCSC Table Browser(以前に統合TVでも「UCSC Table Browserを使い倒す」にて紹介)にアクセスして knownGeneという名で呼ばれているヒトの既知遺伝子のセットの上流200bpをまずリストアップします(データセット1とします)。その後に、転写因子p53の予測結合領域を同じくUCSC Table Browserからヒトのデータだけにフィルタして取得します(データセット2)。そして、そのデータセット1と2をGalaxy 中の Tools の Operate on Genomic Intervals の Intersect the intervals of two queries を用いてゲノム座標レベルで比較、1bpでも重なる「交差点」の領域がある場合に該当する予測結合領域をリストアップします(データセット3)。最後にデータセット3をワンクリックで UCSC Genome Browser にインポートして眺める、という一連の流れを説明しています。データセット1を作成するときに遺伝子コード領域そのまま、のゲノム座標ではなく、上流領域のゲノム座標を指定している点がキーポイントです。今回は上流200bpとかなり狭い領域を指定していますがこれは自由に変更出来ますし、今回例示したTP53以外の別の転写因子の予測結合領域をリストアップすることも(UCSC Table Browserから計算結果が提供されていれば)可能です。また重なり具合も自由に設定出来ます。

動画ファイルのダウンロード

090310galaxy1.mov

再利用時のライセンス

クリエイティブ・コモンズ CC-BY-4.0

スキル別コースから探す

    新着動画

      視聴ランキング