IGV 使い方 遺伝子位置や好きな位置への移動

バイオインフォ道場、くまぞうです。

IGVはリードのマッピング状況を視覚的に確認できるツールです。ゲノムデータ(fastaファイル)とアライメントデータ(bamファイル、及びbaiファイル)を準備すれば簡単に表示できますが、更に遺伝子の位置情報を読み込むともっと使いやすくなります。

スポンサーリンク



IGVでマッピングデータを表示する


[browser-shot url=”http://software.broadinstitute.org/software/igv/home” width=”600″]

IGVは、米Broad Instituteによって作成されたゲノムブラウザです。Javaの動作環境が必要です(IGVのインストールと起動:Linux編)。

リファレンスのゲノムデータ(fastaファイル)とアライメントデータ(bam・baiファイル)を準備してIGVにロードすれば表示可能です。あとは、目的の遺伝子などの位置を検索したり、ナビゲーション機能を利用することで移動し、マッピング状況を確認します。(IGVの使い方

IGVを便利に使おう!マッピングと遺伝子位置の表示

IGVには、目的に応じて様々な形式のファイルを読み込んで表示することができます(推奨ファイルリンク)。GFFファイルやGTFファイルを読み込むと、リードのマッピング情報とあわせて遺伝子などの位置を表示できるので便利です。また、BEDファイルをナビゲーション情報として読み込むことで、目的の遺伝子の位置へすぐに移動できて大変便利です。


GFFファイル・GTFファイルとは?

GFFとGTFは、どちらも、ゲノムや遺伝子の「位置・遺伝子名・エクソン番号など」の情報を1行毎に記述したファイルです。1行には9つの列があり、タブで区切られています。GFFとGTFの1〜8列目は同じ構造です。GFFの9列目には、遺伝子名などのグループ情報を記載します。GTFの9列目には、type/valueで対になった情報(必須:gene_id, transcript_id)を記載します。詳細(UCSC FAQ

1.seqname   : 例 Chr1, 1 ...
2.source    : 例 hg19(生成プログラム名など)
3.feature   : 例 gene, CDS, exon, ...
4.start     : 例 1, 1000 (開始位置。先頭は1)
5.end       : 例 100,999 (終了位置)
6.score     : 例 '.' (任意のスコア) 
7.strand    : 例 +, -, '.'
8.frame     : 例 0, 1, 2, '.' (翻訳開始塩基位置。0はコドン1番目)
g.attribute : 例 遺伝子名, gene_id="xxx", transcript_id="xxx"

GTFファイルの読み込みとGTFファイルのソート

メニューバーの「File」->「Load From File…」から、アノテーションファイルとしてGTFファイルをロードします。ロードが完了すると、トラックの一番下に遺伝子の位置情報が、マッピング情報と一緒に表示されます。

GTFファイルがソートされていないという警告が表示されたら、メニューバーの「Tools」->「Run igvtools…」を使うのが最も簡単です。igvtoolsでソート済みファイルが作成されるので、再度そのファイルをメニューバーからロードします。また、GTFファイルをsortコマンドでソートする方法も良く使われます。

ソートの警告

igvtoolsによるソート

コマンドを使ったソート

$ cat refGene.gtf  | sort -k1,1 -k4,4 > refGene.gtf.sorted

IGVを便利に使おう!ナビゲーション機能を使って移動

IGVには、目的に応じて様々な形式のファイルを読み込んで表示することができます(推奨ファイルリンク)。BEDファイルをナビゲーション情報として読み込むことで、目的の遺伝子の位置へすぐに移動できて大変便利です。

BEDファイルとは?

BEDは、ゲノムの位置情報を1行毎に記述したファイルです。1行のフォーマットは最低3列(染色体名・開始位置・終了位置)が必要で、最大12列まで定義されたタブ区切りのデータです。IGVで、ナビゲーション機能の利用としてRegonファイル(BED形式)を使う場合は、4列目に名前を加えた、染色体名・開始位置・終了位置・名前の構造があればOKです。詳細(UCSC FAQ

1.chrom     : 例 Chr1, 1 ...
2.chromStat : 例 0, 1(開始位置。先頭は0)
3.chromEnd  : 例 10, 100
4.name      : 例 遺伝子名

Regionファイルの作成と読込み(GTF形式からBED形式へ変換)

遺伝子の位置表示で使ったGTFファイルをBED形式にして使うと便利です。featureがgeneであるところでBED形式のファイルを作成してみます。

cat refGene.gtf | awk 'BEGIN{FS="\t"; OFS="\t"}; $3 ~ /gene/ {print $1, $4-1, $5, $9}' > my_region.bed

Navigator機能の使い方

メニューバーの「Regions」->「Import Regions」から、作成したBED形式のファイルを読込みます。移動に使う場合は、メニューバーの「Regions」->「Region Navigator」で「Region of Interest」のウィンドウが開くので、移動したいところを選択して「View」ボタンを押します。

IGVを便利に使おう!最新版のチェック

IGVは、機能も多く、とても便利なツールです。現時点の最新版はver 2.3.86ですが、1年に何度もbug fixや機能改善が行われています。もっと便利に使えるようになるかもしれませんね。IGVに関する最新の情報をサイトでチェックしてみましょう!

スポンサーリンク





今週よく読まれている記事

  1. 学会・会議で英語が絶望的にできなくて困るケース | オンライン開催で「英語力のなさ」を痛感した場合の対処法

    学会・会議で英語ができなくてに困るケース学会やイベント・会議などが、オンラインで開催される…
  2. r tidyverse 使い方 | 列 filter 絞り込み select関数 – dplyrパッケージ

    tidyverseで1つのデータフレームの列の絞り込みは、dplyrパッケージのselect関数を…
  3. プログラミングで疲れた脳をリフレッシュ 〜 鬼滅の刃「感動」と「やる気アップ」でストレス発散!

    ストレス発散は鬼滅で。「50%OFF」で読む!脳のパフォーマンスを上げるには、適度な休憩と…
  4. AWS ディスク容量不足 新しいボリュームを追加する

    バイオインフォマティクスでは大きなファイルを扱うことがあるので、ディスク不足に陥ることがあります。…
  5. 「知っている」と「知らない」とでは、もしものとき、大違いになる – コロナうつ対策

    コロナうつなどという言葉を聞くようになりましたが、派遣切り、解雇、リストラは、これから本格化します…

カテゴリー

人気記事

  1. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…
  2. R言語

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…
  3. Excel, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…

おすすめ記事

  1. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…
  2. シェルスクリプト

    シェルスクリプト | ファイル存在チェック・空ファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…
  3. awk, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…