Fastqのソースを表示
←
Fastq
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
FASTQ形式はテキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられる。 塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっている。この形式はWellcome Trust Sanger Instituteで開発されたもので、[[FASTA]]形式のデータにクオリティ情報を追加するためのものであった。しかし今日ではIllumina Genome Analyzerのような次世代シーケンサー等から出力された塩基配列のデータを保存する際のフォーマットとしてデファクトスタンダードとなっている。 ==形式== FASTQファイル内では、1本の配列は4行で記述される。1行目は文字「@」で始まり、その後ろに配列のIDと、オプションとして説明を記述する。2行目は塩基配列を記述する。3行目には文字「+」を記載する。またその後ろに配列のIDを記載することもある。 4行目には2行目に記述した配列のクオリティ値を記述する。このクオリティ値は2行目の配列と同じ文字数でなければならない。 最小のFASTQファイルは、以下のようなものである: <pre> @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 </pre> 元のSangerのFASTQファイルでは、塩基配列とクオリティ文字列の行の折り返しを許していた(その場合、数行飛びに分割される)。 しかし折り返しありのファイルでは、簡素な実装のプログラムではファイルのパージングの際にクオリティ行頭の「@」や「+」を誤ってID等の目印として認識してしまうものもあり、正確に折り返しに対応しようとすると実装が複雑となるため、折り返しありの形式は避けられることも少なくない。 ===イルミナの配列IDの形式=== [[Solexa|イルミナ]]のソフトウェアが出力した配列データでは、IDは以下で紹介するような規則で記述されている。 <pre> @HWUSI-EAS100R:6:73:941:1973#0/1 </pre> <table class='wikitable'> <tr><th>HWUSI-EAS100R<td>ユニークな機器名 <tr><th>6<td>フローセル内のレーン番号 <tr><th>73<td>レーン内のタイル番号 <tr><th>941<td>タイル内のクラスターの'x'-座標 <tr><th>1973<td>タイル内のクラスターの'y'-座標 <tr><th>#0<td>サンプルがマルチプレックスになっている場合のインデックス番号 (インデックスなしの場合は0) <tr><th>/1<td>ペアの番号, /1 または /2 ''(ペアエンド、メイトペアのリードのみ)'' </table> イルミナパイプラインのversion 1.4からは'''#0'''の代わりに'''#NNNNNN'''の形式がマルチプレックスのIDに使用されるようになった。なお'''NNNNNN'''はマルチプレックスで使用するタグ配列。 Casava 1.8では次のように変更になった: <pre> @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG </pre> <table class='wikitable'> <tr><th>EAS139<td>ユニークな機器名 <tr><th>136<td>Run ID <tr><th>FC706VJ<td>フローセルID <tr><th>2<td>フローセル内のレーン番号 <tr><th>2104<td>レーン内のタイル番号 <tr><th>15343<td>タイル内のクラスターの'x'-座標 <tr><th>197393<td>タイル内のクラスターの'y'-座標 <tr><th>1<td>ペアの番号, 1 or 2 ''(ペアエンド、メイトペアのリードのみ)'' <tr><th>Y<td>フィルタで落ちた場合はY (悪いリード), その他はN <tr><th>18<td>コントロールビットが立っていない場合は0、立っている場合は偶数 <tr><th>ATCACG<td>インデックス配列 </table> ===NCBI Sequence Read Archive=== [[国立生物工学情報センター|NCBI]]/[[欧州バイオインフォマティクス研究所|EBI]] の[[Sequence Read Archive]]のFASTQファイルは以下のように付随情報を含んでいることがある。 <pre> @SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC </pre> この例ではNCBIが付与したIDと、元の[[Solexa|Solexa/Illumina]]のID、そしてリード長が含まれている。 また、NCBIはSolexa/IlluminaのエンコーディングのFASTQデータをサンガー形式のエンコーディングに変換したものを提供している(下記のエンコーディングを参照)。 ==FASTQ形式のバリエーション== ===クオリティ=== クオリティ値''Q''は確率''p''を整数に変換したものである(確率''p''はそのベースコールが誤りである確率)。よく用いられるのはSangerの式によるスコアで、ベースコールの信頼性の指標として利用されており、このスコアは[[Phredクオリティスコア]]とも呼ばれる。 <math>Q_\text{sanger} = -10 \, \log_{10} p</math> Solexaパイプライン(Illumina Genome Analyzerに付属しているソフトウェア)の初期のバージョン(<version 1.3)ではSangerのスコアとは異なり、以下のようなオッズ比が''p''の代わりに用いられていた。(version1.3でスコアがPhred(Sanger)スコア対応になり、version 1.8以降はスコア、エンコーディングともSangerと同じになった) <math>Q_\text{solexa-prior to v.1.3} = -10 \, \log_{10} \frac{p}{1-p}</math> クオリティが高いところでは、これらのスコアはほぼ同じとなっているが、低いところでは違いが見られる(約 ''p''>0.05 または''Q''<13)。 [[File:Probability_metrics.svg|thumb|left|600px|alt=Relationship between Q and p| ''Q'' と ''p'' の間の関係。Sanger (赤) と Solexa (黒) の上述の計算式による. 縦方向の破線は ''p'' = 0.05を示し、''Q''で言えば ''Q'' ≈ 13.]] {{-}} ===エンコーディング=== *Sanger形式ではPhredクオリティスコアの0から93の値は、ASCIIコードでは33から126の間の文字としてエンコードされる。(実際のデータではPredクオリティスコアが60を超えることはまれで、ハイスコアが現れるとすればアセンブルされた配列や、マッピング結果中だろう)。このエンコーディングはSAM形式でも採用されている。<ref name="Sequence/Alignment Map format">Sequence/Alignment Map format Version 1.0, dated August 2009 [http://samtools.sourceforge.net/SAM1.pdf PDF]</ref> *Illumina 1.3+ 形式では[[Phredクオリティスコア]]の 0 から 62 を [[ASCII]] の64 から 126でエンコードする。 (しかし実際のReadのデータでは0-40の範囲にPhredスコアは収まる) *Illumina 1.5+ ではPhredスコアの0から2は少し違った意味を持っていた。0と1は使用されず、2はASCIIの66すなわち「B」としてエンコードされていた。そしてこの2も確率を表すものではなく、 ''Read Segment Quality Control Indicator''として使用されていた(一部のReadの末尾に、Readのクオリティスコアが信頼できないので使用しないように、という目印として''B''を付けた). ==References== {{reflist}} [[Category:バイオインフォマティクス]]
このページで使用されているテンプレート:
テンプレート:-
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
Fastq
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報