群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)-(征求意見稿)_第1頁
群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)-(征求意見稿)_第2頁
群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)-(征求意見稿)_第3頁
群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)-(征求意見稿)_第4頁
群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)-(征求意見稿)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1群體測序多組學(xué)數(shù)據(jù)匯交標(biāo)準(zhǔn)本文件規(guī)定了醫(yī)院及科研機(jī)構(gòu)匯交基因組、轉(zhuǎn)錄組、表觀組、蛋白質(zhì)組、代謝組、宏基因組等群體多組學(xué)的原始數(shù)據(jù),以及經(jīng)規(guī)范化處理的初始結(jié)果文件的應(yīng)用標(biāo)準(zhǔn)。本文件適用于醫(yī)院及科研機(jī)構(gòu)匯交基因組、轉(zhuǎn)錄組、表觀組、蛋白質(zhì)組、代謝組、宏基因組等群體多組學(xué)的原始數(shù)據(jù)和經(jīng)規(guī)范化處理的初始結(jié)果文件,以及多組學(xué)數(shù)據(jù)信息的存儲、管理、交換與共享。2規(guī)范性引用文件下列文件中的內(nèi)容通過本文件的規(guī)范性引用而成為本文件必不可少的條款。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T39908-2021科技計劃形成的科學(xué)數(shù)據(jù)匯交通用代碼集GB/T39909-2021科技計劃形成的科學(xué)數(shù)據(jù)匯交通用數(shù)據(jù)元GB/T39912-2021科技計劃形成的科學(xué)數(shù)據(jù)匯交技術(shù)與管理規(guī)范GB/T42751-2023信息技術(shù)生物特征識別高通量測序基因分型系統(tǒng)規(guī)范GB/T35890-2018高通量測序數(shù)據(jù)序列格式規(guī)范GB/T29859-2013生物信息學(xué)術(shù)語3術(shù)語和定義下列術(shù)語及定義適用于本文件。3.1原始測序數(shù)據(jù)Rawsequencingdata通過堿基calling獲得的原始數(shù)據(jù),是FASTQ文件。3.2FASTQ格式FASTQformatFASTQ是基于文本的、保護(hù)生物序列(通常是核苷酸序列)和其測序質(zhì)量信息的、每四行表示一條序列的標(biāo)準(zhǔn)格式。3.3BAM格式BinaryAlignmentMapformatBAM文件是一個二進(jìn)制格式的文件,用于存儲DNA測序數(shù)據(jù)的比對信息。它通常包含測序讀段與參考基因組的比對位置、質(zhì)量得分等信息。3.4BED格式BrowserExtensibleDataformatBED文件是一種文本文件格式,通常用于描述基因組中的區(qū)域,如基因的外顯子、染色體上的特定功能區(qū)域等。23.5VCF格式TheVariantCallformat一種基因組變異數(shù)據(jù)的描述記錄格式。3.6測序覆蓋率Coverage測序總數(shù)據(jù)量除以測序基因組大小。3.71倍測序深度1X測序得到的堿基總量與基因組大小比值為1。3.820倍測序深度20X測序得到的堿基總量與基因組大小比值為20。3.9Q20測序數(shù)據(jù)中,堿基識別質(zhì)量值大于20的堿基占所有堿基的比例。注:堿基識別質(zhì)量值為20時,表示堿基的正確率為99%以上,Q20≥95%,則表示測序數(shù)據(jù)中95%以上的堿基質(zhì)量之大于20。3.10Q30測序數(shù)據(jù)中,堿基識別質(zhì)量值大于30的堿基占所有堿基的比例。注:堿基識別質(zhì)量值為30時,表示堿基的正確率為99.9%以上,Q30≥85%,則表示測序數(shù)據(jù)中85%以上的堿基質(zhì)量之大于30。3.11平均讀長Averagereadlength測序數(shù)據(jù)中所有序列的平均長度。一般以千堿基(kb)為單位,常見的讀長有20kb、30kb、50kb、150kb等。3.12中位數(shù)讀長ReadsN50中位數(shù)讀長是指將序列按照長度排序,從最長的序列開始加和,直到加和值占總長度50%的那個序列長度,該長度就是中位數(shù)讀長,即N50讀長。常見的N50讀長有20kb、30kb、50kb、150kb等。3.13測序數(shù)據(jù)量Sequencingdatavolume測序得到堿基總量,常見測序數(shù)據(jù)量有30G、45G、100G、1T等;或以測序芯片數(shù)計量,如一張芯片、五張芯片等。3.14單核苷酸多態(tài)性SingleNucleotidePolymorphism;SNP在基因組水平,由單個核苷酸位點的變異(替代、插入或缺失)所引起的脫氧核糖核苷酸序列多態(tài)性。3.15插入缺失突變Insertionanddeletion;Indel在基因組的某個位置上所發(fā)生的小片段序列的插入或者缺失,插入或缺失片段的長度在50bp3.16結(jié)構(gòu)變異StructuralVariation在基因組上發(fā)生的大于50bp的大片段變異,包括片段缺失、重復(fù)、插入、倒位、易位。3.17重復(fù)Duplication指基因組中存在兩個或更多類似或相同的基因序列。這些重復(fù)可以發(fā)生在同一染色體上,也可以發(fā)生在不同染色體之間。3.18倒位Invertion倒位指染色體上某一段序列發(fā)生了180度的顛倒。3.19易位Translocation易位是一種染色體結(jié)構(gòu)變異,指兩個非同源染色體之間的段落相互交換位置。3.20FAST5格式FAST5formatFAST5格式是納米孔測序所使用的一種原始數(shù)據(jù)格式,其包含了每個單分子讀取時產(chǎn)生的電信號信息。3.21POD5格式POD5formatPOD5格式是納米孔測序平臺推出的最新測序儀的輸出結(jié)果儲存格式,用于存儲讀取的測量信號數(shù)據(jù),以取代現(xiàn)有的FAST5格式。3.22mzML文件mzMLformatmzML格式是標(biāo)準(zhǔn)化的開放質(zhì)譜數(shù)據(jù)格式,該格式存儲原始質(zhì)譜數(shù)據(jù)和相關(guān)的元數(shù)據(jù),包括質(zhì)譜圖、質(zhì)譜峰和掃描參數(shù)等。3.23可移動遺傳元件ChromosomalMobilegeneticelements,cMGEs能夠在DNA分子內(nèi)部或之間移動的可移動基因元件,包括插入序列(IS)、轉(zhuǎn)座子(Tn)、整合子(In)、質(zhì)粒、噬菌體和整合接合元件(ICE)等。3.24基因組組裝Genomeassembly將序列測序產(chǎn)生的reads經(jīng)過一定規(guī)則地拼接,最后生成基因組的全堿基序列。基因組組裝可以分為從頭組裝(Denovogenomeassembly)和有參組裝(Referencegenomeassembly)兩種類型。3.25疊連群Contigs4不同的reads之間存在overlap交疊區(qū),根據(jù)overlap區(qū)域?qū)⒉煌瑀eads組裝起來,形成更大的一個片段就被稱為contig。3.26分箱Binning宏基因組組裝過程中得到的contigs是不同物種基因組序列的集合,將contigs按照不同物種分開歸類的過程叫做分箱(Binning),分箱得到的每個物種的基因組序列被稱為Bins。4縮略詞S—字符串類型(String)L—布爾類型(Boolean)N—數(shù)值類型(Number)D—日期類型(Date)T—時間類型(Time)DT—日期時間類型(Datetime)MD5—信息摘要算法(MD5Message-DigestAlgorithm)DNB—DNA納米球(DNANanoball)DNA—脫氧核糖核酸(deoxyribonucleicacid)cDNA—互補脫氧核糖核酸(complementaryDNA)mRNA—信使核糖核酸(messengerRNA)SNP—單核苷酸多態(tài)性(SingleNucleotidePolymorphism)INDEL—插入缺失突變(Insertions/Delections)SV—基因組結(jié)構(gòu)變異(StructuralVariants)5mC,m5C—5-甲基胞嘧啶(5-methylcytosine)LC-MS—液相色譜質(zhì)譜聯(lián)用(LiquidChromatography-MassSpectrometry)GC-MS—氣相色譜質(zhì)譜聯(lián)用(GasChromatography-MassSpectrometry)MAG—宏基因組組裝的基因組(metagenome-assembledgenomes)5總體要求5.1匯交原則5.1.1及時完整群體多組學(xué)數(shù)據(jù)應(yīng)在數(shù)據(jù)管理方規(guī)定期限內(nèi),遵循預(yù)定的規(guī)范流程,按時、完整匯交到數(shù)據(jù)管理方,確保數(shù)據(jù)匯交的及時性和完整性。5.1.2真實可靠群體多組學(xué)數(shù)據(jù)應(yīng)該按照實際產(chǎn)生的數(shù)據(jù)進(jìn)行匯交,確保所匯交的數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)的真實性和可靠性。5.1.3科學(xué)規(guī)范群體多組學(xué)數(shù)據(jù)應(yīng)按照本標(biāo)準(zhǔn)和相關(guān)科學(xué)數(shù)據(jù)匯交要求的標(biāo)準(zhǔn)進(jìn)行規(guī)范加工處理,確保匯交數(shù)據(jù)的可發(fā)現(xiàn)性、可獲取性、互操作性和可重復(fù)利用性。6匯交數(shù)據(jù)內(nèi)容匯交數(shù)據(jù)應(yīng)按照本標(biāo)準(zhǔn)規(guī)范加工處理,包括檢測設(shè)備的原始下機(jī)數(shù)據(jù)、基于原始數(shù)據(jù)通過規(guī)范5化加工處理獲取的可進(jìn)一步用于下游分析的數(shù)據(jù),也可包含其它相關(guān)分析結(jié)果。6.1二代基因組6.1.1匯交數(shù)據(jù)范圍二代基因組匯交數(shù)據(jù)包括高通量測序獲取的原始FASTQ格式數(shù)據(jù)和經(jīng)過規(guī)范化處理分析獲得的變異數(shù)據(jù)(一般以VCF格式存儲)。6.1.2元數(shù)據(jù)描述樣品、FASTQ數(shù)據(jù)、VCF數(shù)據(jù)獲取過程的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)FASTQ文件信息:宜匯交FASTQ文件編號,屬于單末端測序還是雙末端測序、FASTQ測序質(zhì)控標(biāo)準(zhǔn)信息、接頭含量等信息(表頭信息參考附錄A.3)。(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含何軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量信息過濾等,及其版本、參數(shù),例如使用SOAPnuke2.1.8默認(rèn)參數(shù),得到過濾后的FASTQ;使用何軟件進(jìn)行序列比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用BWA0.7.17默認(rèn)參數(shù),得到比對后的BAM文件;使用何軟件進(jìn)行變異檢測分析,及其版本、參數(shù),例如GATK3.7默認(rèn)參數(shù),得到變異檢測結(jié)果VCF(如表1所示)。表1.基因組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSSSSSSSS(5)VCF文件信息:應(yīng)明確匯交的變異結(jié)果文件屬于哪種變異,如單核苷酸多態(tài)性、短的插入/缺失或基因組結(jié)構(gòu)變異等,可匯交簡單且長度<=50bp的基因組變異,如SNP、INDEL,及長度>50bp的基因組結(jié)構(gòu)變異,例如插入、缺失、重復(fù)、倒位易位、可移動元件等。變異結(jié)果文件包含變異位點信息,變異類型、長度、質(zhì)量值、每個樣本的基因型(純合或雜合)等內(nèi)容(如表2所示)。表2.VCF文件元數(shù)據(jù)目錄及值域表6SSSSS6.1.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ文件、VCF文件,宜匯交BAM文件。6.2二代轉(zhuǎn)錄組6.2.1匯交數(shù)據(jù)范圍二代轉(zhuǎn)錄組匯交數(shù)據(jù)包括高通量測序獲取的FASTQ原始數(shù)據(jù)和和經(jīng)過規(guī)范化分析得到的基因及轉(zhuǎn)錄本的表達(dá)矩陣文件。6.2.2元數(shù)據(jù)描述樣品、FASTQ數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)分析結(jié)果獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)FASTQ文件信息:宜匯交FASTQ文件編號,屬于單末端測序還是雙末端測序、FASTQ測序質(zhì)控標(biāo)準(zhǔn)信息、接頭含量等信息(表頭信息參考附錄A.3)。(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用何軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量信息過濾等,及其版本、參數(shù),例如使用SOAPnuke2.1.8默認(rèn)參數(shù),得到過濾后的FASTQ;使用何軟件進(jìn)行序列比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用STAR2.7.11a默認(rèn)參數(shù),得到比對后的BAM文件;使用何種軟件對基因和轉(zhuǎn)錄本進(jìn)行定量,及其版本、參數(shù),例如使用Salmon1.4.0默認(rèn)參數(shù)基于比對到參考轉(zhuǎn)錄本的得到的BAM文件進(jìn)行定量,得到基因和轉(zhuǎn)錄本的表達(dá)矩陣(如表3所示)。(5)表達(dá)矩陣文件:宜匯交CSV格式的讀數(shù)計數(shù)(Readcount)、RPKM、FPKM或TPM等描述基因和轉(zhuǎn)錄本表達(dá)水平的文件。第一列為基因名稱,其他列名為樣本名,矩陣值為表達(dá)豐度(如表4所示)。表3.轉(zhuǎn)錄組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSS7SSSSSS表4.轉(zhuǎn)錄組表達(dá)矩陣文件元數(shù)據(jù)目錄及值域表SSSS6.2.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ文件,表達(dá)矩陣文件,宜匯交BAM文件、差異表達(dá)及富集分析結(jié)果等文件。6.3二代表觀組6.3.1匯交數(shù)據(jù)范圍二代表觀組匯交數(shù)據(jù)包括高通量測序獲取的FASTQ原始數(shù)據(jù)和經(jīng)過規(guī)范化分析得到的位點甲基化BED文件。6.3.2元數(shù)據(jù)描述樣品、FASTQ數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)分析結(jié)果獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)FASTQ文件信息:宜匯交FASTQ文件編號,屬于單末端測序還是雙末端測序、FASTQ測序質(zhì)控標(biāo)準(zhǔn)信息、接頭含量等信息(表頭信息參考附錄A.3)。(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用何軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量等信息過濾,及其版本、參數(shù),例如使用SOAPnuke2.1.8默認(rèn)參數(shù),得到過濾后的FASTQ;使用何軟件進(jìn)行序列比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用BWA0.7.17默認(rèn)參數(shù),得到比對后的BAM文件;使用何軟件提取甲基化信息,及其版本、參數(shù),例如MethylDackel0.6.1默認(rèn)參數(shù),得到包含甲基化位置信息的結(jié)果BED(如表5所示)。表5.表觀組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SS8SSSSSSSS(5)BED文件信息:應(yīng)明確匯交的甲基化位置文件包含甲基化坐標(biāo)、長度等內(nèi)容(如表6所示)。表6.BED文件元數(shù)據(jù)目錄及值域表SSS6.3.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ文件,甲基化位置信息BED文件,宜匯交BAM文件。6.4二代宏基因組6.4.1匯交數(shù)據(jù)范圍二代宏基因組匯交數(shù)據(jù)包括高通量測序獲取的FASTQ原始數(shù)據(jù)和群落物種功能組成分析結(jié)果數(shù)據(jù)。6.4.2元數(shù)據(jù)描述樣品、FASTQ數(shù)據(jù)、宏基因組數(shù)據(jù)分析結(jié)果獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)FASTQ文件信息:宜匯交FASTQ文件編號,屬于單末端測序還是雙末端測序、FASTQ測序質(zhì)控標(biāo)準(zhǔn)信息等信息(表頭信息參考附錄A.3)。(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用何軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量等信息過濾,及其版本、參數(shù),例如使用fastpv0.23.4默認(rèn)參數(shù),得到過濾后的FASTQ。使用何種軟件進(jìn)行去除宿主序列,及其版本、參數(shù),例如BWA0.7.17-r1188,設(shè)置默認(rèn)參數(shù),得到去除宿主后的FASTQ文件。如果對數(shù)據(jù)進(jìn)行組裝、分箱,請?zhí)峁┙M裝、分箱分析過程中所涉及的軟件、版本與參數(shù);如果未進(jìn)行組裝,請?zhí)峁┦褂煤畏N軟件進(jìn)行宏基因組群落分析,及其版本、參數(shù),例如使用MetaPhAn4/HUMAnN3,得到微生物物種和功能組成豐度表(如表7所示)。表7.宏基因組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSSSSSSSSSSSSSSSSS(5)物種和功能組成表:包括群落物種注釋豐度表,群落功能注釋豐度表等(如表8所示)。表8.物種和功能組成表元數(shù)據(jù)目錄及值域表SSSS功能注釋使用的S6.4.3數(shù)據(jù)實體應(yīng)匯交交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ文件、去除宿主污染后的FASTQ文件、物種組成分析、功能組成分析文件等。6.5三代基因組6.5.1匯交數(shù)據(jù)范圍三代基因組匯交數(shù)據(jù)包括OxfordNanopore測序和BaseCalling獲得的FASTQ原始數(shù)據(jù)、PacBio高通量測序BAM原始數(shù)據(jù)和經(jīng)過規(guī)范化分析的VCF變異數(shù)據(jù)。6.5.2元數(shù)據(jù)描述樣品、POD5/Fast5數(shù)據(jù)、FASTQ數(shù)據(jù)、VCF數(shù)據(jù)獲取過程的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)POD5/Fast5文件信息:宜匯交POD5/Fast5相關(guān)的測序信息。包括項目編號、文件編號、樣本編號和測序平臺等(如表9所示)。表9.POD5/Fast5文件元數(shù)據(jù)及值域表貼SSSSS(4)FASTQ/BAM文件信息:宜匯交FASTQ/BAM相關(guān)的測序類型、測序長度、N50長度、原始堿基數(shù)、質(zhì)控數(shù)據(jù)等信息(表頭信息參考附錄A.4)。(5)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量等信息過濾,及其版本、參數(shù),例如使用Guppy6.5.7/Doradov0.4.3,默認(rèn)參數(shù),得到過濾后的FASTQ;或使用lima2.7.2,設(shè)置去除接頭參數(shù),得到過濾后的BAM文件。使用何種軟件進(jìn)行序列比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用minimap22.22,設(shè)置適配平臺數(shù)據(jù)參數(shù),得到比對后的BAM文件;或使用pbmm21.10.0,默認(rèn)參數(shù),得到比對后的BAM文件。使用何軟件進(jìn)行變異檢測分析,及其版本、參數(shù),例如Sniffles1.0.12\CuteSV2.0.1,設(shè)置適配平臺數(shù)據(jù)參數(shù),得到變異檢測結(jié)果VCF(如表10所示)。表10.三代基因組規(guī)范化分析過程元數(shù)據(jù)及值域表SSSSSSSSSSSSSSSS(6)VCF文件信息:應(yīng)明確匯交的變異結(jié)果文件屬于哪種變異,變異結(jié)果文件包含變異位點信息,變異類型、長度、質(zhì)量值、每個樣本的基因型(純合或雜合)等內(nèi)容(如表2所示)。6.5.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ/BAM文件、VCF文件,宜匯交比對結(jié)果的BAM文件。6.6三代轉(zhuǎn)錄組6.6.1匯交數(shù)據(jù)范圍三代基因組匯交數(shù)據(jù)包括OxfordNanopore測序和BaseCalling獲得的FASTQ原始數(shù)據(jù)、PacBio高通量測序BAM原始數(shù)據(jù)和經(jīng)過規(guī)范化分析獲得的基因及轉(zhuǎn)錄本表達(dá)矩陣。6.6.2元數(shù)據(jù)描述樣品、POD5/Fast5數(shù)據(jù)、FASTQ數(shù)據(jù)、VCF數(shù)據(jù)獲取過程的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)POD5/Fast5文件信息:宜匯交POD5/Fast5相關(guān)的測序信息。包括項目編號、文件編號、樣本編號和測序平臺等(如表9所示)。(4)FASTQ/BAM文件信息:宜匯交FASTQ/BAM相關(guān)的測序類型、測序長度、N50長度、原始堿基數(shù)、質(zhì)控數(shù)據(jù)等信息(表頭信息參考附錄A.4)。(5)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用何種軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量等信息過濾,及其版本、參數(shù),例如使用Guppy6.5.7/Doradov0.4.3,默認(rèn)參數(shù),得到堿基識別后的FASTQ文件再使用nanofilt2.5過濾平均質(zhì)量低reads或使smartlink6.0.0默認(rèn)參數(shù)得到高質(zhì)量的hifireads的BAM文件;使用何種軟件識別全長轉(zhuǎn)錄本,及其版本、參數(shù),例如使用pychopper2.5設(shè)置默認(rèn)參數(shù)得到全長reads的FASTQ文件或使用iso-seq(lima,refine)4.0.0默認(rèn)參數(shù)得到全長reads的FASTQ文件;使用何種軟件將數(shù)據(jù)與參考基因組進(jìn)行比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用minimap22.17設(shè)置適配平臺數(shù)據(jù)參數(shù)得到比對后的BAM文件或使用hisat2.1.0默認(rèn)參數(shù)比對到參考基因組得到比對后的BAM文件;使用何種軟件對基因和轉(zhuǎn)錄本進(jìn)行定量,及其版本、參數(shù),例如使用Salmon1.4.0默認(rèn)參數(shù)基于比對到參考轉(zhuǎn)錄本的得到的BAM文件進(jìn)行定量,得到基因和轉(zhuǎn)錄本的表達(dá)矩陣或使用二代數(shù)據(jù)用stringtie2.14默認(rèn)參數(shù)定量(如表11所示)。表11.三代轉(zhuǎn)錄組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSSSSSSSSSSS(6)表達(dá)矩陣文件:應(yīng)匯交基因及轉(zhuǎn)錄本的表達(dá)矩陣的CSV文件(如表12所示)。表12.基因及轉(zhuǎn)錄本的表達(dá)矩陣文件元數(shù)據(jù)目錄及值域表SSReadcount、RPG10K、RPT10KSS6.6.3數(shù)據(jù)實體應(yīng)匯交元數(shù)據(jù)信息表,原始FASTQ/BAM文件,基因及轉(zhuǎn)錄本的表達(dá)矩陣,宜匯交比對結(jié)果的BAM文件及其他分析結(jié)果。6.7三代表觀組6.7.1匯交數(shù)據(jù)范圍三代表觀組匯交數(shù)據(jù)包括OxfordNanopore測序獲取的Fast5/POD5原始數(shù)據(jù)、甲基化BaseCalling、及經(jīng)過規(guī)范化分析的甲基化位置區(qū)域BED文件、PacBio高通量測序獲取的BAM原始數(shù)據(jù)和經(jīng)過規(guī)范化分析的甲基化位置區(qū)域BED文件。6.7.2元數(shù)據(jù)描述樣品、POD5/Fast5數(shù)據(jù)、FASTQ/BAM數(shù)據(jù)、BED文件獲取的規(guī)范信息,數(shù)據(jù)文件描述信息(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)POD5/Fast5文件信息:宜匯交POD5/Fast5相關(guān)的測序信息。包括項目編號、文件編號、樣本編號和測序平臺等(如表9所示)。(4)FASTQ/BAM文件信息:宜匯交FASTQ/BAM相關(guān)的測序類型、測序長度、N50長度、原始堿基數(shù)、質(zhì)控數(shù)據(jù)等信息(表頭信息參考附錄A.4)。(5)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用軟件對下機(jī)數(shù)據(jù)進(jìn)行去除接頭、低質(zhì)量等信息過濾,及其版本、參數(shù),例如使用Dorado0.3.4/Doradov0.4.3,默認(rèn)參數(shù),得到過濾后的甲基化BAM;或使用SMRTlink12,得到過濾后的含5mc的BAM文件。使用何種軟件進(jìn)行序列比對,及其版本、參數(shù),在參數(shù)中應(yīng)該注明比對時使用的參考基因組版本,例如使用minimap22.22,設(shè)置適配平臺數(shù)據(jù)參數(shù),得到比對后的BAM文件;或使用pbmm21.10.0,默認(rèn)參數(shù),得到比對后的BAM文件。使用何軟件進(jìn)行表觀分析,及其版本、參數(shù),例如使用modkit0.2.2,默認(rèn)參數(shù),得到包含甲基化位置信息的結(jié)果BED或使用pb-CpG-tools2.3.2,默認(rèn)參數(shù),包含甲基化位置信息的結(jié)果BED(如表13所示)。表13.表觀組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSSSSSSSSSSSSSS(6)BED文件信息:應(yīng)明確匯交的甲基化位置文件包含甲基化坐標(biāo)、長度等內(nèi)容(如表6所示)。6.7.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ/BAM文件,甲基化位置信息BED文件,宜匯交比對結(jié)果的BAM文件。6.8三代宏基因組6.8.1匯交數(shù)據(jù)范圍三代宏基因組匯交數(shù)據(jù)包括OxfordNanopore測序獲取的Fast5原始數(shù)據(jù)和BaseCalling獲得FASTQ原始數(shù)據(jù)、PacBio高通量測序BAM原始數(shù)據(jù)和經(jīng)過規(guī)范化分析的統(tǒng)計學(xué)數(shù)據(jù)。6.8.2元數(shù)據(jù)描述樣品、Fast5/POD5、FASTQ、BAM、統(tǒng)計學(xué)數(shù)據(jù)獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息,文庫構(gòu)建的試劑耗材、建庫平臺、文庫構(gòu)建策略、文庫選擇及測序儀型號等信息(表頭信息參考附錄A.2)。(3)POD5/Fast5文件信息:宜匯交POD5/Fast5相關(guān)的測序信息。包括項目編號、文件編號、樣本編號和測序平臺等(如表9所示)。(4)FASTQ/BAM文件信息:宜匯交FASTQ/BAM相關(guān)的測序類型、測序長度、N50長度、原始堿基數(shù)、質(zhì)控數(shù)據(jù)等信息(表頭信息參考附錄A.4)。(5)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含使用何種軟件對下機(jī)數(shù)據(jù)進(jìn)行堿基識別和低質(zhì)量數(shù)據(jù)過濾,及其版本、參數(shù),例如使用Guppy6.5.7/Doradov0.4.3,默認(rèn)參數(shù),得到堿基識別和過濾后的FASTQ文件;或使用CCSv3.4.1軟件過濾掉低質(zhì)量的reads,生成高質(zhì)量的HiFireads的BAM文件。使用何種軟件進(jìn)行樣本拆分和去除接頭序列,及其版本參數(shù)。例如使用lima2.7.2,進(jìn)行樣本拆分,設(shè)置去除接頭參數(shù),得到去接頭后的樣本的BAM文件。例如使用ont-guppy-barcoder軟件進(jìn)行樣本拆分和去除接頭序列,得到去除接頭后的樣本的FASTQ文件。使用何種軟件進(jìn)行去除宿主序列,及其版本、參數(shù),例如使用minimap22.22,設(shè)置默認(rèn)參數(shù),與宿主基因組進(jìn)行比對。使用samtoolsv1.4去除宿主污染序列,得到去除宿主后的FASTQ文件;使用何種軟件進(jìn)行數(shù)據(jù)組裝,及其版本、參數(shù),例如meta-flyev2.9.2組裝,Nextpolish1v1.4.1進(jìn)行基因組校正,設(shè)置適配數(shù)據(jù)參數(shù),得到組裝后FASTA;或使用hifiasm_meta0.3組裝,默認(rèn)參數(shù),得到組裝后的Contigs.fasta。使用何種軟件進(jìn)行宏基因組MAGs(宏基因組組裝的基因組)分析,及版本、參數(shù),例如使用metaMARPv1.3.2,默認(rèn)參數(shù),得到分箱處理的MAGs.fasta文件。使用何種軟件進(jìn)行宏基因組群落物種注釋和功能注釋,及其版本參數(shù),得到群落物種分類豐度表,功能分類豐度表等(如表14所示)。表14.三代宏基因組規(guī)范化分析過程元數(shù)據(jù)目錄及值域表信息分析過程中識別堿基序列并過濾低質(zhì)量數(shù)S信息分析過程中識別堿基序列并過濾低質(zhì)量數(shù)S信息分析過程中識別堿基序列并過濾低質(zhì)量數(shù)SSS信息分析過程中樣本拆分和去接頭軟件參數(shù)信SSSSS信息分析過程中所使用的基因組組裝軟件版本S信息分析過程中所使用的基因組組裝軟件參數(shù)SS信息分析過程中所使用的基因組分箱軟件版本S信息分析過程中所使用的基因組分箱軟件參數(shù)SSS信息分析過程中所使用物種注釋軟件的參數(shù)信SS信息分析過程中所使用基因功能注釋軟件版本S信息分析過程中所使用基因功能注釋軟件的參SS(6)物種和功能組成表:包括群落物種注釋豐度表,群落功能注釋豐度表等(如表8所示)。6.8.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、原始FASTQ文件、去除宿主污染后的FASTQ文件、物種組成分析、功能組成分析文件等。6.9蛋白質(zhì)組6.9.1匯交數(shù)據(jù)范圍蛋白質(zhì)組匯交數(shù)據(jù)包括原始質(zhì)譜數(shù)據(jù)mzML文件和分析結(jié)果數(shù)據(jù)。6.9.2元數(shù)據(jù)描述樣品、質(zhì)譜數(shù)據(jù)、蛋白組數(shù)據(jù)分析結(jié)果獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等。(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息、實驗參數(shù)、及質(zhì)譜儀型號等信息(如表15所示)。表15.蛋白組檢測信息元數(shù)據(jù)目錄及值域表樣品提取的實S描述蛋白質(zhì)質(zhì)譜實驗的離子化的方法如電噴霧(ESI)、大氣壓化學(xué)電離(APCI)等,以及質(zhì)譜儀的操作參數(shù),如離子源電壓、碰S質(zhì)譜儀名稱與S(3)原始質(zhì)譜數(shù)據(jù):宜匯交mzML的原始質(zhì)譜格式,mzML格式是標(biāo)準(zhǔn)化的開放質(zhì)譜數(shù)據(jù)格式,具有良好的跨平臺兼容性和可擴(kuò)展性。該格式存儲原始質(zhì)譜數(shù)據(jù)和相關(guān)的元數(shù)據(jù),包括質(zhì)譜圖、質(zhì)譜峰和掃描參數(shù)等。其他原始質(zhì)譜數(shù)據(jù)(如.RAW或.WIFF)應(yīng)轉(zhuǎn)換為開放的mzML格式,可由ProteoWizard軟件進(jìn)行格式轉(zhuǎn)換(如表16所示)。表16.mzML文件元數(shù)據(jù)目錄及值域表SSS質(zhì)譜數(shù)據(jù)獲得的來源。如果是其他原始質(zhì)譜格式格式轉(zhuǎn)換的,S(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含蛋白定量、鑒定、預(yù)處理(過濾、缺失值填充、標(biāo)準(zhǔn)化等)等過程(如表17所示)。表17.質(zhì)譜數(shù)據(jù)規(guī)范化分析過程元數(shù)據(jù)目錄及值域表SSSSSSSSS(5)蛋白表達(dá)豐度矩陣:宜提供CSV格式規(guī)范化的蛋白表達(dá)豐度矩陣,第一列為蛋白名稱,其他列名為樣本名,矩陣值為蛋白表達(dá)豐度(如表18所示)。表18.蛋白表達(dá)矩陣文件元數(shù)據(jù)目錄及值域表SSSS6.9.3數(shù)據(jù)實體應(yīng)匯交規(guī)定的元數(shù)據(jù)信息表、mzML文件,蛋白表達(dá)豐度矩陣CSV文件,宜匯交蛋白表達(dá)譜文件、差異表達(dá)及富集分析結(jié)果等文件。6.10代謝組6.10.1匯交數(shù)據(jù)范圍代謝組匯交數(shù)據(jù)包括原始質(zhì)譜數(shù)據(jù)mzML文件和分析結(jié)果數(shù)據(jù)。6.10.2元數(shù)據(jù)描述樣品、質(zhì)譜數(shù)據(jù)、代謝組數(shù)據(jù)分析結(jié)果獲取的規(guī)范信息,數(shù)據(jù)文件描述信息等(1)樣品信息:在匯交時應(yīng)整理準(zhǔn)確的樣品信息,包括樣品編號、樣品類型、樣品采集部位、采集地點、采集時間等,同時應(yīng)包括樣本所屬生物體的表型、年齡、性別、國籍、民族等重要特征信息(表頭信息參考附錄A.1)。(2)檢測信息:在匯交時應(yīng)整理樣品檢測的信息,如樣品提取的實驗平臺信息、實驗參數(shù)、及質(zhì)譜儀型號等信息(如表19所示)。表19.代謝組檢測信息元數(shù)據(jù)目錄及值域表實驗平臺信息S質(zhì)譜實驗參數(shù)描述代謝質(zhì)譜實驗的離子化的方法如離子化的方法,如電噴霧(ESI)、化學(xué)電離(CI)等等,以及質(zhì)譜儀的操作參數(shù),如離S質(zhì)譜儀名稱S(3)原始質(zhì)譜數(shù)據(jù):宜匯交mzML的原始質(zhì)譜格式,mzML格式是標(biāo)準(zhǔn)化的開放質(zhì)譜數(shù)據(jù)格式,具有良好的跨平臺兼容性和可擴(kuò)展性。該格式存儲原始質(zhì)譜數(shù)據(jù)和相關(guān)的元數(shù)據(jù),包括質(zhì)譜圖、質(zhì)譜峰和掃描參數(shù)等。其他原始質(zhì)譜數(shù)據(jù)(如.RAW或.WIFF)應(yīng)轉(zhuǎn)換為開放的mzML格式,可由ProteoWizard軟件進(jìn)行格式轉(zhuǎn)換(如表16所示)。(4)規(guī)范化分析過程信息:宜提供規(guī)范化的分析過程信息,包括使用的分析軟件,并提供軟件的版本和必要參數(shù)。具體包含代謝物定量、鑒定、預(yù)處理(過濾、缺失值填充、標(biāo)準(zhǔn)化等)等過程(如表(5)代謝物豐度矩陣:宜提供CSV格式規(guī)范化的代謝物豐度矩陣,第一列為代謝物名稱,其他列名為樣本名,矩陣值為代謝物豐度(如表20所示)。表20.代謝物豐度矩陣文件元數(shù)據(jù)目錄及值域表SSSS6.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論