hisat2 使い方 | index 作成 | バイオインフォ道場 [bioinfo-Dojo]

HISAT2のindexファイルを、hisat2-buildコマンドで自ら生成します。

HISAT2は、高速かつ正確に次世代シーケンシング（NGS）データをリファレンスゲノムにマッピングするために広く使用されているツールです。特にRNA-seq解析など、イントロンを含む複雑な真核生物のゲノムに対応しています。このツールの効率的な使い方とインデックスファイルの生成方法、また解析データの可視化方法について解説します。

HISAT2のインデックスとマッピング結果
🌐 Sources
関連記事
論文・データ解析の支援

HISAT2のインデックスとマッピング結果

HISAT2の概要

HISAT2は、BWT（Burrows-Wheeler Transform）とFM-indexに基づいた効率的なアルゴリズムを使用して、膨大な数のリードを高速にリファレンスゲノムへマッピングします。このツールは、特にスプライスバリアントや複雑なゲノム構造に対して強力なパフォーマンスを発揮します。HISAT2は、真核生物ゲノムに対してもイントロン位置を考慮したマッピングを行うため、遺伝子発現解析やRNA-seqデータの解析に多く使用されます。

HISAT2の事前構築済みインデックスファイル

HISAT2では、いくつかの生物種について事前構築済みのインデックスファイルが提供されています。以下の生物種に関しては、公式サイトからインデックスファイルを直接ダウンロードすることが可能です：

Homo sapiens（ヒト）
Mus musculus（マウス）
Rattus norvegicus（ラット）
Drosophila melanogaster（ショウジョウバエ）
Caenorhabditis elegans（線虫）
Saccharomyces cerevisiae（酵母）

これらのインデックスファイルは、HISAT2公式サイトから簡単にダウンロードできます。事前構築済みインデックスを利用することで、解析にかかる時間を短縮できます[1]。

インデックスファイルの生成方法

もし、事前構築済みインデックスが利用できない場合や独自のゲノムデータを使用する場合、HISAT2はインデックス生成のためのツールを提供しています。hisat2-buildコマンドを使用して、FASTA形式のゲノム配列からインデックスファイルを生成します。

以下のコマンドは、ゲノムファイル genome.fa から8つのインデックスファイルを生成します：

hisat2-build genome.fa genome

このコマンドが正常に実行されると、genome.1.ht2 から genome.8.ht2 のファイルが作成されます。これらのインデックスファイルを利用して、後のリードマッピングを効率的に行うことができます[1]。

マッピングの実行

インデックスファイルが準備できたら、次にリードのマッピングを実行します。ペアエンドリードの場合、以下のコマンドでマッピングを行います：

hisat2 -x genome -1 read_1.fastq.gz -2 read_2.fastq.gz -S output.sam

このコマンドは、リファレンスゲノム（genomeインデックスファイル）に対して、read_1.fastq.gzおよびread_2.fastq.gzのリードをマッピングし、結果をSAMファイル形式で保存します。SAMファイルは後にSAMtoolsなどのツールを使用してソートやインデックス付けを行うことができます。

IGVを使ったマッピング結果の可視化

マッピング結果を視覚的に確認するためには、IGV（Integrative Genomics Viewer）などの可視化ツールが非常に便利です。IGVは、リファレンスゲノムに対してマッピングされたリードの配置やカバレッジを直感的に確認するためのツールです。特にRNA-seq解析において、スプライスバリアントの確認や遺伝子の発現状況の把握に役立ちます。

IGVでは、BAM形式のファイルやBAI形式のインデックスファイルを読み込み、ゲノム上でのリード配置を視覚化します。IGVの設定や使用方法については、こちらのガイドをご参照ください[2]。

トラブルシューティングと品質チェック

HISAT2の使用中にマッピング率が低下する問題が発生した場合、シーケンサ固有のアダプター配列がリードに残っている可能性があります。特にライブラリーサイズが小さい場合、シーケンサ内部のソフトウェアでアダプター配列が完全に除去されないことがあります。このような場合には、Trimmomaticなどのトリミングツールを使用してアダプター配列を除去し、再度マッピングを実行することで問題を解決できます[2]。

また、FastQCを使用してリードの品質を確認することも重要です。FastQCは、NGSデータのリード品質を視覚的にチェックし、問題があるリードを検出するためのツールです。FastQCの使い方や設定については、こちらをご参照ください。メモリ不足のエラーが発生する場合は、FastQCのメモリ設定を調整して再実行することで、正常に終了することがあります[2]。

HISAT2のサポートとデータ解析支援

HISAT2の利用中に問題が発生した場合、公式のサポートフォーラムやデータ解析支援サービスを活用することが推奨されます。特に複雑な解析や大量データの取り扱いにおいては、専門家のアドバイスが迅速な問題解決につながります。データ解析支援サービスを通じて、直接相談できるサポートも用意されています[1]。

まとめ

HISAT2は、高速で効率的なリードマッピングツールであり、事前構築済みのインデックスファイルやカスタムインデックスを活用して、多様な生物種に対応した解析を行うことができます。また、IGVなどの可視化ツールを併用することで、解析結果の理解を深め、問題が発生した場合には適切なトラブルシューティングを行うことで、解析の精度を向上させることが可能です。