DRA/SRA

SRA(Sequence Read Archive) は超高速シーケンサーが出力したデータを貯蓄しているデータベースである。欧州の EBI と日本の DDBJ と同期を行っている。

シーケンサーが出力するデータはリードとクオリティからなる。リードは実際にシーケンサーが読み込んだ塩基断片のことであり、クオリティはリード中の各々の塩基がどのぐらいの信頼性で読み込まれたのかを表す。

サンプルの採取方法、実験環境やプラットフォームの種類などの違いによって、シーケンサーから得られるデータも異なってくる。そのため、SRA にはシーケンサーの出力データだけでなく、実験環境、実験手順、サンプルの詳細やプラットフォームの種類などのメタデータも保存されている。これらのメタデータは SRA で定まれる規則に従って記載される。

メタデータオブジェクト

シーケンサーの出力データ、サンプルの詳細や実験環境などはメタデータオブジェクトにまとめられて、SRA データベースに登録されている。これらのメタデータオブジェクトは全部で 6 種類あり、SRA、SRR、SRX、SRP、SRS、SRZ からなる。それぞれには以下のように定義されている。

SRA データを総括サマリーファイル。データの登録者の連絡先などが記載されている。
SRR リードとクオリティ情報が記載されている。FASTQ ファイルなどを入手したい場合は、SRR メタデータオブジェクトをダウンロードして NCBI toolkit で FASTQ に変換できる。1 ランにつき 1 ファイルとなる。従って、repilcate が存在するような実験の場合は、複数の SRR ファイルが存在する。他の研究グループが発表したデータを再解析する場合は、このデータオブジェクトを利用する。
SRX 使用した機械装置、ライブラリーの作成方法やデータの補正方法などが記載されている。SRR の親オブジェクトであり、1 つの SRX に対して 1 つ SRR ファイルが存在する。他の研究グループがどのような方法でサンプルを調整しているのか調べる場合は、このデータオブジェクトを中心に調べる。
SRP 研究やプロジェクトの詳細事項が記載されている。SRP は SRX の親オブジェクトであり、1 つの SRP に対して 1 つあるいは複数の SRX が存在する。
SRS サンプルの生物学的な情報が記載されている。
SRZ SRP に対して、解析した結果が記載されている。(解析結果を公開しない場合は SRZ が存在しない。)