IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう

スポンサーリンク

IGV(Integrative Genomics Viewer)は、マッピングデータを視覚的に確認することができる大変便利なツールです。

とにかく早く問題解決したい人はこちら>>直接、データ解析相談

IGVとは

IGVは、米Broad Instituteによって作成されたゲノムブラウザです。様々フォーマットのデータに対応し、直感的に操作できる使いやすいツールです。要Java動作環境。

IGV

IGVのインストールと起動

準備

IGV 2.3.xは、Java 7を要求します。今回は、Java 7/Java 8(Java 1.8へ更新)の両方で動作を確認しました。

$ java -version
java version "1.7.0_80"
Java(TM) SE Runtime Environment (build 1.7.0_80-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode)
$ java -version
java version "1.8.0_91"
Java(TM) SE Runtime Environment (build 1.8.0_91-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode)

インストール

今回は、ダウンロードのサイトから、「Binary Distribution」(IGV_2.3.80.zip)をダウンロードしました。zipファイルを展開してインストール完了です。

IGVを起動する

Linux(Ubuntu 14.04)で起動する際は、zipファイルを展開したフォルダに移動して、./igv.sh &で起動することが出来ます。

スポンサーリンク

IGVの使い方

リファレンスとなるゲノムファイル(及び、インデックス付与したfaiファイル)と、マッピング結果のソート済みbamファイル(及び、インデックスを付与したbaiファイル)を準備します。ゲノムファイルについて、代表的な生物(Human, Mouse, Rat)に関しては、あらかじめIGVでプリセットデータがあります。しかし、マッピングで用いたゲノムファイルやアノテーション情報があれば、ファイルからロードすることも出来ます。

igv

リファレンスファイルの読み込み

メニューバーのGenomes->Load Genome From File...から、fastaファイルをロードします。ロードが完了すると、メニューバー下の「switch the current genome」で、ロードしたゲノムへ切り替えできるようになります。(IGV:Loading a Genome

IGVで表示しやすいように、samtoolsで事前にindexの付与を済まして置くと良いです。IGVでロードする際、genome.faを指定しますが、対応するfaiファイル(インデックスファイル)を同じディレクトリに置いておきます。

$ samtools --version
samtools 1.3
Using htslib 1.3

# for genome
$ samtools faidx genome.fa

マッピングデータの読み込み

メニューバーのFile->Load From File...から、マッピングツールの結果ファイルをロードします。IGVでは様々なフォーマットをサポートしているようですが、今回はBAMファイルをロードしました。(tophat2を使ったマッピング -RNA-seq-

tophat2のマッピング結果は、accepted_hits.bamとして得られます。IGVで表示しやすいように、samtoolsで事前にsort・indexの付与を済まして置くと良いです。IGVでロードする際、accepted_hits.sort.bamを指定しますが、対応するbaiファイル(インデックスファイル)を同じディレクトリに置いておきます。

$ samtools --version
samtools 1.3
Using htslib 1.3

# for mapping data
$ samtools sort accepted_hits.bam -o accepted_hits.sort.bam -@ 4
$ samtools index accepted_hits.sort.bam 

アノテーションファイルの読み込み

メニューバーのFile->Load From File...から、アノテーションファイルをロードします(IGV:Recommended File Formats)。アノテーションファイルのロードが完了すると、トラックの一番下に遺伝子の位置情報がマッピング情報と一緒に表示されます。

表示記号の意味

IGVの表示は拡大・縮小ができます。様々な情報を分り易く表示するために、ハイライト表示が工夫されています。塩基配列の情報などが確認出来るほど十分に拡大すれば、変異や挿入・欠失などの情報を確認することができます。(IGV:Viewing Alignments

  • 変異リファレンスに対して異なる塩基配列をもつリードの該当塩基は、色分けされてハイライト表示されます。ズームアウトした場合は、縞模様のように表示されます。
  • Insertions挿入位置は「I」マークで表示されます。マウスを近くに持っていけば、挿入された塩基情報が表示されます。
  • Deletions欠失の位置は、「−」で表示されます。リファレンス配列を参照することで何が欠失しているか判ります。

表示色の意味

マッピング表示エリアの右クリックで、「Color alignment by」を選ぶと、リードのマッピング状況に従って色分けを行うことができます。リードのマークの大半は灰色で表示されますが、緑や赤・青などで色分け表示されるリードに特に注目すると色々な情報が得られるかもしれません。

insert_size_pairview

insert size

ペアエンド間の距離情報にしたがって色分けします。(IGV:Interpreting Color by Insert Size

  • deletion(赤)
  • insertions(青)
  • ペアとなるリードが他の染色体にマッピングされた場合(様々な色で表現)

pair orientation

ペアエンド間の特徴的な位置や方向にしたがって色分けします。(IGV:Interpreting Color by Pair Orientation

  • Inversions, Inverted Duplication(薄い青・濃い青)
  • Tandem Duplication, Translocation on the Same Chromosome(緑)
スポンサーリンク

移動する

IGVの移動は、メニューバーの下のコンボボックスによる染色体の選択・その隣の検索ボックスでの移動が主な移動手段です。特定の場所が表示されたら、マウスでドラッグすることによって近くを自由に移動することが出来ます。
search_box

検索ボックス

リファレンスをIGVのプリセット情報を利用したり、アノテーション情報を工夫することで、検索ボックスに遺伝子名などを入力して移動することができます。アノテーション情報などが不足する場合は、場所を直接入力することで特定の場所へ移動することが出来ます。染色体番号:start位置のように入力して「Go」を押します。

ナビゲーション機能

メニューバーの「Regions」を活用すると、移動が便利になります。「Regions」->「Region Navigator」に特定の位置を登録することが出来ます。登録したデータを選択して、「View」ボタンを押すことで特定の場所へ移動が可能です。
region_interest

位置をインポートする

たくさん位置を登録したい場合は、データをインポートする方が良いと思います。4つの項目をタブ区切りで記載し、名前.bedとしてファイルを保存します。「Regions」->「Import Regions…」でファイルを指定することで、「Region Navigator」に登録されます。

  1. 染色体番号
  2. start
  3. end
  4. description
データ例
gi|9626243|ref|NC_001416.1|	0	10	description 1	
gi|9626243|ref|NC_001416.1|	0	100	description 2
gi|9626243|ref|NC_001416.1|	100	1000	description 3
スポンサーリンク

こんなときどうする?

  • ペアエンドのリードの場所を調べるには?

    マッピング表示エリアで、ペアの場所を見たいリードを「コントロールキー」を押しながらクリックします。ペアのリードも同じ色で選択されます。ペアの関係がわかりにくい場合は、右クリックで「View as pairs」を選ぶとより見やすくなる場合があります。
    pair_select_view

  • 見たい場所をサクサク移動したいんだけど?

    IGVのメニュー「Regions」->「Region Navigator」に登録するか、「Regions」->「Import Regions…」でたくさんの登録位置を一括で登録します。どちらも、「Region Navigator」で選択して、何度でも簡単に特定の場所に移動することが出来るようになります。上記、「IGVの使い方」の「移動する」を参考にしてください。

  • マッピング表示エリアでポップアップを消したいんだけど?

    正式なやり方かは分かりませんが、「コントロールボタン」を押している間は、ポップアップが出ません。情報を見たいリードの上でコントロールボタンを離せば情報を見ることができます。

スポンサーリンク

論文・データ解析の支援

個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。

とにかく早く問題解決したい人はこちら>>直接、データ解析相談
とにかく早く問題解決したい人はこちら>>直接、論文相談

関連記事1

スポンサーリンク
IGV 使い方 遺伝子位置や好きな位置への移動
IGVはリードのマッピング状況を視覚的に確認できるツールです。ゲノムデータ(fastaファイル)とアライメントデータ(bamファイル、及びbaiファイル)を準備すれば簡単に表示できますが、更に遺伝子の位置情報を読み込むともっと使いやすくなり...
IGV 使い方 bowtieのマッピングデータをsamtoolsで変換してIGVに表示するまで
IGVを使って、bowtieのマッピング結果表示してみます。samtoolsを使ったbamへの変換やsortなど、IGVの表示に必要なステップを1つずつ確認しながら説明します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 ...

関連記事2

マッピング率が低いときの対応方法 - Trimmomatic 除去アダプターの登録方法
マッピング率が極端に低い場合は、使用しているシーケンサ特有のアダプター配列がリードに残っていないか確認するとうまくいくケースがあります。 特に、ライブラリーサイズが小さくなった場合は、シーケンサ内部のソフトで特有の配列が除去しきれずに残るケ...
fastqc memory error - java実行時により大きなメモリを割り当てる方法
bamファイルに対してfastqcを実行したら、メモリが足りないというエラーが発生しました。実行環境は十分にメモリーを積んでいたので、fastqc実行時のjavaのメモリーオプションを強制的に書き換えて実行したら、正常終了しました。 とにか...
FastQC 使い方 Fastq リードの評価
バイオインフォ道場、くまぞうです。 バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。 とにかく早く問題解決...
FastQC 使い方 コマンドラインでテキスト形式の結果を活用する
バイオインフォマティクスの解析を行う際、一番最初に行うのはリードの品質チェックです。代表的なツールはFastQCで結果を視覚的に確認できて非常に便利ですが、たくさんデータを使う場合はコマンドライン(command line)を活用して結果を...
FastQC - インストール
FastQCは、NGSのリードの品質をチェックするツールです。解析の直前で使用し、リードの品質に問題がなければ解析に進みます。もし、品質に問題があるようであれば、低品質の情報をトリミングツールで除去したり、対象となるデータを解析から外すなど...
blast 使い方 完全一致の連続領域を探索するには?
blastn で完全一致の連続領域を探索する方法 blastn オプション word_size blastnのパラメータ-word_sizeは、完全一致の初期長さを設定します。長さを指定すると、「完全一致が連続する場所」で「指定長さを満たす...
blast 使い方 エラーと解決 tblastx
バイオインフォマティクスの解析では、様々なツールを使います。たまにはエラーに遭遇してしまい、解決するのに時間がかかったりします。BLASTは、大変使用頻度の高いツールの1つですが、見慣れないエラーに遭遇したので、エラーと対応方法をまとめます...
blast 使い方 makeblastdb
blastを実行するには、事前にデータベースを構築する必要があります。データベースの対象となるfastaファイルを準備し、makeblastdbコマンドを実行してデータベースを作ります。 とにかく早く問題解決したい人はこちら>>直接、データ...
blast+ 使い方 best hitの算出 awkとoutfmt7
blastはよく使うツールの1つです。色んな機能があるし、オプションもたくさんあるので使いこなすのが大変です。よく苦労するのが「best hitを1個だけ取り出す」ことですが、実は「outfmt7」を使うと簡単に得ることができます!使用した...
blast 使い方 インストール blast+ v2.3.0
今回はblast+のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール マニュアルに従い、プリコンパイル版をインストールします。 場所 # cd /usr/local ...
シェルスクリプト FASTAファイルの分割 fastx_toolkit, sed, コマンドの活用例
バイオインフォマティクスでは、大きなファイルを扱う機会が多いです。小さなファイルに分割すれば、サーバーで分散処理して大幅な時間短縮を行うことが出来るかもしれません。いくつかのツールを組合せてFASTAファイルを小さく分割してみます。 とにか...
bowtie メモリー関連のエラー Warning: Exhausted best-first chunk memory for read
bowtieを--bestモードで実行したところ、メモリーに関するワーニング(警告)が大量に表示されました。エラーではないので処理は進んでいくのですが、「マッピング結果に影響を与えないか?」という点がとても気になりました。そこで、--chu...
bowtie 使い方 マッピングとオプション
bowtie は、代表的なマッピングソフトです。高速にマッピング処理を行うことが出来ます。ただし、ギャップは考慮しません。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Bowtie - 使い方 まずは、インデックスファイル...
bowtie2 使い方 アライメント情報(alignment summary)をファイルに保存する
bowtie2のアライメント情報(alignment summary)をファイル保存する方法について考えます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 bowtie2 アライメント情報と標準エラー出力 Linuxのコマ...
bowtie v1.1.2 - インストール
今回はbowtie v1.1.2のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール 場所 cd /usr/local ダウンロード wget 展開 unzip bow...
bowtie2 v2.2.6 使い方 インストール
今回はbowtie2 v2.2.6のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール マニュアルに従い、プリコンパイル版をインストールします。 cd /usr/loc...
gffread を使った transcripts fasta 転写物の配列取得
ゲノム配列から転写物の配列を取得 転写物(transcript)の配列を取得したい場合、染色体上の位置(開始位置〜終了位置)をたよりに配列情報を抜き出します。位置情報を管理する方法としてよく使われるのがGFF3やGTF形式のファイルです。領...
VCFtools 使い方 VCFファイルからの抽出(BEDファイル対応領域)
SNP Callerには、通常、領域指定オプションがあります。しかし、既に算出されたVCFデータが領域外のデータを含む場合、領域を参照しながら整理し直すのは面倒な作業です。そんなとき、vcftoolsを使えば、計算した後からでも簡単に領域の...
htseq-count 使い方 gene単位・transcript単位の数え方
RNA-Seq解析では、ゲノムに張りついたリードの数を数えます。 gene単位・transcript単位の数え方は、オプションで切り替えることができます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 htseq-count...
tophat2 使い方 エラーと対策
tophat2でマッピングしていたらエラー終了しました。一応解決したので報告します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Tophat2 マッピングで発生したエラー tophat2のマッピングをバックグラウンドで実...
tophat2 使い方 RNA-Seq マッピング
今回は、tophat2を使って、RNA-seqデータのマッピングに挑戦です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 tophat2とは tophat2は、代表的なマッピングツールの1つです。RNA-Seqのデータをス...
tophat2 v2.1.0 - インストール
今回は、Tophat2 v2.1.0 のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 準備 Tophat2が内部で利用する解析ツールを事前にインストールします。 bowtie2...
SRA_Toolkit 使い方 データ保存フォルダの変更
SRA Toolkiltのprefetchでデータをダウンロードする際の保存フォルダは変更可能です。vdb-configを使って設定します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 SRA_toolkit デフォルトフ...
SRA Toolkit 使い方 公開データのダウンロードとsra fastq変換
公開されているFastqデータを活用したい場合は、SRA_toolkitを使うと便利です。データのダウンロードやFastqへの展開がコマンド1つで簡単に実行できます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 SRA T...
UCSCのゲノム配列ファイル .2bitファイルの展開
UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 .2bit形式について 塩基を2ビットで表...
fastx_toolkit 使い方 FastqからFastaへ変換
Fastq・Fastaファイルともに、バイオインフォマティクスで良く使うファイル形式です。 FastqからFastaへ変換についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 FastqからFasta形式への変...
FASTX-Toolkit 使い方 インストール
FASTX-Toolkitは、次世代シーケンサのFASTA・FASTQの前処理に関連するツールを集めたものです。 トリミングやクリッピング、クオリティ処理に関するツールが提供されています。 インストール方法について手順を整理します。 とにか...
samtools 使い方 faidx Fastaから部分配列
塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。 今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部(部分配列)を取り出します。 開始・終...
samtools 使い方 mpileup ( calling SNPs ) & annotation
samtoolsを使ったVariant callingについてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 解析作業の流れ マッピングCalling SNPsフィルタリングアノテーション付与 主なツール Cal...
samtools 使い方 インストール
SAM tools のインストールについて、バージョン毎にまとめました。 手順は同じ。指定バージョンを探すのが面倒なので、それぞれ整理しました。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール インストール情報に...
hisat2 使い方 | index 作成
HISAT2のindexファイルを、hisat2-buildコマンドで自ら生成します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 HISAT2 pre-built index 以下の生物種については、HISAT2 Dow...
HISAT2 使い方 インストールとマッピング
HISAT2 インストール HISAT2のサイトにインストールが簡単なバイナリー版が準備してあるので、ダウンロードして使います。使用したのは、「Linux x86_64 binary」版です。 HISAT2 HISAT2 インストール手順 ...
SnpEff 使い方 アノテーション
samtoolsなどで予測されたVariantに、snpEffを使ってアノテーションをつけてみます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 snpEff snpEffとは、予測されたVariantにアノテーションやそ...
Miniconda 使い方 | インストール と 環境作成・環境利用
Miniconda install 公式サイトから、最新版 Miniconda installer(各OS毎)のシェルファイルをダウンロードします。 Miniconda $ wget $ bash Miniconda3-latest-Lin...
Trinity 使い方 RNA-seq de novo アセンブル
Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。 とにかく早く問題解決し...
Trinity Docker 面倒な「install作業なし」で一発起動!
Trinityを、一番「簡単に動かす方法」だと思います。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Trinity in Docker 使い方 アセンブルツール Trinity(de novo transcriptome...
Trinity v2.2.0, v2.4.0 インストール
Trinity v2.2.0、v2.4.0のインストールに挑戦です。 ソースダウンロードして、make作業を行なってインストールします。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール make関連 場所 cd ...
Trinotate インストール | conda/biocondaを使って簡単インストール
trinotateは、trinityのアセンブル結果にアノテーションをつけるツールです。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 trinotate install Trinotate 便利なツールなのですが、インスト...
fastp インストール・簡単な使い方・よく使うオプション
Fastqファイル用の高速前処理ツールです。クオリティの評価(トリミング前後)やトリミング処理を行います。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 fastp とは? fastp : fastp 使い方 簡単な使い方 ...
macs2 install & 使い方
MACS2、良く使われている ChIP-Seq 解析用の peak caller です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 macs2 色々なサイトで、macs2 のインストール方法や使い方がまとめられていますが...
freebayes インストール 簡単な使い方
freebayesは、代表的なSNP検出ツールの1つです。 ベイズ的アプローチでIndelを検出します。インストールと簡単な使い方についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 freebayes とは ...
htseq-count 使い方 よく使うオプション
htseq-countは、RNA-Seq解析などでゲノムに張りついたリードの数を数えるツールです。 よく使うオプションをまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 htseq-count 使い方 基本的な使い...
HTSeq htseq-count 使い方 インストール v0.7.2
htseq-countは、RNA-Seq解析などでリードをゲノムにマッピングしたとき、どこにどのくらい張り付いたかをカウントするプログラムです。 HTSeqのインストールには、いくつか事前にインストールしておくべきものがあります。 とにかく...
STAR RNA-seq aligner 使い方 インストール・index・マッピング
STARは、RNA-Seq用のマッピングソフトです。 非常に高速なマッピングが可能です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 STARとは? STAR インストール ダウンロードした圧縮ファイルにプリコンパイル版が...
塩基配列の表示幅を調整する - Fastaファイルの整形 -
Fastaファイルの整形についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 フォーマットを整える FASTX_Toolkitは、Fastq・Fasta形式のファイルについて前処理をしたり、ファイル整形をするの...
Fastq Fasta ファイル形式
Fastq・Fastaファイルともに、良く使うファイル形式です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 ファイル形式 Fastq形式 1本の配列は4行構成で記述されます。 1行目:「@」で始まる配列のID。以降に、説...
タイトルとURLをコピーしました