FastQC 使い方 Fastq リードの評価

バイオインフォ道場、くまぞうです。

バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。

リードの評価
FastQCによるリードの評価
FastQCの使い方
1. 使い方
2. 良く使うオプション
論文・データ解析の支援
関連記事１
関連記事２

リードの評価

一般的に、リードの評価については以下のようなことに着目します。

塩基の品質
リードの長さ
特定配列の残存（アダプター配列・PolyA/T tail・N）
対象外の配列の混入
PCRによるDuplicate

FastQCによるリードの評価

FastQCについて

次世代シーケンサから得られたリード情報の品質をチェックするツールです。FastQCから得た評価を基に、トリミング処理や除外処理などを行なって、リードの品質管理を行います。

評価結果

評価結果一覧（summary.txt）
評価とデータ：テキスト（fastqc_data.txt）
評価とデータ：HTML・グラフ（fastqc_report.html、データ群）

品質評価

下記の項目について、品質評価が行われます。バージョンによって項目が少し異なります。今回まとめたのは、FastQC v0.11.5です。PASSが問題なし、WARN・FAILが確認・対処が必要な項目です。

左から、評価・評価項目・対象Fastqファイル名です（summary.txt）。

PASS    Basic Statistics                sample1.fastq
PASS    Per base sequence quality       sample1.fastq
PASS    Per tile sequence quality       sample1.fastq
PASS    Per sequence quality scores     sample1.fastq
PASS    Per base sequence content       sample1.fastq
PASS    Per sequence GC content         sample1.fastq
PASS    Per base N content              sample1.fastq
PASS    Sequence Length Distribution    sample1.fastq
FAIL    Sequence Duplication Levels     sample1.fastq
PASS    Overrepresented sequences       sample1.fastq
PASS    Adapter Content                 sample1.fastq
FAIL    Kmer Content                    sample1.fastq

評価結果については、必ず「評価項目の全てにPASSしないといけない」というわけではありません。対象とする解析内容と照らしあわせて、必要な項目をチェックします。例えば、塩基の品質「Per base sequence quality」では何れの解析でも「PASS」になる方が望ましいし、リードの重複度合いを示す「Sequence Duplication Levels」ではRNA-Seqで発現解析を行う場合は必ずしも「PASS」にはならないと思います。

評価項目

評価の詳細やWarning・Failの判断基準について、FastQCのサイトに説明があります。（評価方法）

Basic Statistics
ファイル・リードの基本情報です。
Per Base Sequence Quality・Per tile Sequence Quality
リードの位置における品質のばらつきを確認します。
品質の低い部位はトリミングや除去の対象になるかもしれません。
Per Sequence Quality Scores
品質が安定しているかを確認します。
品質に明らかな変動がないかチェックしましょう。
Per Base Sequence Content・Per Sequence GC Content
リードの各塩基・GCの割合です。
既知の理由以外で、割合が大きく変化する場合は、対象外の断片が含まれるかもしれません。
Per Base N Content
ATGC以外の「N」の割合です。
Sequence Length Distribution
リード長の分布です。短すぎるリードは除外の対象になるかもしれません。
Sequence Duplication Levels
リードの重複の程度をチェックします。解析内容や他の指標と併せて判断しましょう。
Overrepresented Sequences
異常にたくさん見つかる配列に、アダプターや特定のタグ・対象外の断片などが含まれないかチェックします。
Adapter Content
シーケンサーの特定のアダプターが残存・混入していないかをチェックします。
Kmer Content
解析によっては、理論値から大きく乖離して出現する特徴的配列に注意が必要かもしれません。
他の指標と併せて判断しましょう。

評価の例

FastQCのサイトに、FastQCを用いて評価した様々なデータ例があります。とても参考になるので、自分のデータと見比べてみましょう。（サイト中央付近：Example Reports）

FastQCの使い方

必要に応じて各種オプションを付与し、評価すべきfastqファイルを指定します。ファイルの指定にはワイルドカードを指定できるので、データファイルを一括で指定するのに便利です。尚、gz形式でファイルが圧縮されていても使うことができます。fastqファイルは圧縮されている場合もあるので、いちいち解凍しなくて良いので便利です。

リードの評価

FastQCによるリードの評価

FastQCについて

関連事項

評価結果

品質評価

評価項目

評価の例

FastQCの使い方

使い方

良く使うオプション

論文・データ解析の支援

関連記事１

関連記事２