バイオインフォ道場、くまぞうです。
バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。

リードの評価
一般的に、リードの評価については以下のようなことに着目します。
- 塩基の品質
- リードの長さ
- 特定配列の残存(アダプター配列・PolyA/T tail・N)
- 対象外の配列の混入
- PCRによるDuplicate
FastQCによるリードの評価
FastQCについて
次世代シーケンサから得られたリード情報の品質をチェックするツールです。FastQCから得た評価を基に、トリミング処理や除外処理などを行なって、リードの品質管理を行います。
関連事項
FastQCでは、リードの品質について複数の基準をもうけていて、それぞれが基準を満たしたかを評価します。結果は、fastqファイル毎にまとめられます。テキスト(summary・詳細)とHTML形式の結果が格納されます。HTML形式は、ブラウザでグラフを確認することができます。
評価結果
- 評価結果一覧(summary.txt)
- 評価とデータ:テキスト(fastqc_data.txt)
- 評価とデータ:HTML・グラフ(fastqc_report.html、データ群)
品質評価
下記の項目について、品質評価が行われます。バージョンによって項目が少し異なります。今回まとめたのは、FastQC v0.11.5です。PASS
が問題なし、WARN
・FAIL
が確認・対処が必要な項目です。
左から、評価・評価項目・対象Fastqファイル名です(summary.txt)。
PASS Basic Statistics sample1.fastq PASS Per base sequence quality sample1.fastq PASS Per tile sequence quality sample1.fastq PASS Per sequence quality scores sample1.fastq PASS Per base sequence content sample1.fastq PASS Per sequence GC content sample1.fastq PASS Per base N content sample1.fastq PASS Sequence Length Distribution sample1.fastq FAIL Sequence Duplication Levels sample1.fastq PASS Overrepresented sequences sample1.fastq PASS Adapter Content sample1.fastq FAIL Kmer Content sample1.fastq
評価結果については、必ず「評価項目の全てにPASSしないといけない」というわけではありません。対象とする解析内容と照らしあわせて、必要な項目をチェックします。例えば、塩基の品質「Per base sequence quality」では何れの解析でも「PASS」になる方が望ましいし、リードの重複度合いを示す「Sequence Duplication Levels」ではRNA-Seqで発現解析を行う場合は必ずしも「PASS」にはならないと思います。
評価項目
評価の詳細やWarning・Failの判断基準について、FastQCのサイトに説明があります。(評価方法)
- Basic Statistics
ファイル・リードの基本情報です。
- Per Base Sequence Quality・Per tile Sequence Quality
リードの位置における品質のばらつきを確認します。
品質の低い部位はトリミングや除去の対象になるかもしれません。 - Per Sequence Quality Scores
品質が安定しているかを確認します。
品質に明らかな変動がないかチェックしましょう。 - Per Base Sequence Content・Per Sequence GC Content
リードの各塩基・GCの割合です。
既知の理由以外で、割合が大きく変化する場合は、対象外の断片が含まれるかもしれません。 - Per Base N Content
ATGC以外の「N」の割合です。
- Sequence Length Distribution
リード長の分布です。短すぎるリードは除外の対象になるかもしれません。
- Sequence Duplication Levels
リードの重複の程度をチェックします。解析内容や他の指標と併せて判断しましょう。
- Overrepresented Sequences
異常にたくさん見つかる配列に、アダプターや特定のタグ・対象外の断片などが含まれないかチェックします。
- Adapter Content
シーケンサーの特定のアダプターが残存・混入していないかをチェックします。
- Kmer Content
解析によっては、理論値から大きく乖離して出現する特徴的配列に注意が必要かもしれません。
他の指標と併せて判断しましょう。
評価の例
FastQCのサイトに、FastQCを用いて評価した様々なデータ例があります。とても参考になるので、自分のデータと見比べてみましょう。(サイト中央付近:Example Reports)
FastQCの使い方
必要に応じて各種オプションを付与し、評価すべきfastqファイルを指定します。ファイルの指定にはワイルドカードを指定できるので、データファイルを一括で指定するのに便利です。尚、gz形式でファイルが圧縮されていても使うことができます。fastqファイルは圧縮されている場合もあるので、いちいち解凍しなくて良いので便利です。
使い方
fastqc -t 4 -o fastqc_results/ *.fastq
良く使うオプション
- -t
スレッドの使用数です。
マシンの性能に応じて適切に指定します。コア数が多いと、早く結果を得ることができます。 - -o
結果の出力先フォルダです。
指定した場合、フォルダが存在しないとエラーになります。
論文・データ解析の支援
個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。


関連記事1



関連記事2












































