illumina平臺建庫測序結(jié)題報告模板_第1頁
illumina平臺建庫測序結(jié)題報告模板_第2頁
illumina平臺建庫測序結(jié)題報告模板_第3頁
illumina平臺建庫測序結(jié)題報告模板_第4頁
illumina平臺建庫測序結(jié)題報告模板_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、旗開得勝讀萬卷書行萬里路1巳;讀萬卷書行萬里路1TOC o 1-5 h z HYPERLINK l bookmark0 摘要1 HYPERLINK l bookmark2 合同關(guān)鍵指標(biāo)1 HYPERLINK l bookmark4 分析結(jié)果概述1 HYPERLINK l bookmark6 1項(xiàng)目基本信息1 HYPERLINK l bookmark8 2實(shí)驗(yàn)流程1 HYPERLINK l bookmark10 3測序數(shù)據(jù)質(zhì)控33.1測序數(shù)據(jù)介紹3 HYPERLINK l bookmark18 3.2堿基測序質(zhì)量分布4 HYPERLINK l bookmark22 3.3堿基類型分布5 HYPE

2、RLINK l bookmark24 3.4低質(zhì)量數(shù)據(jù)過濾63.5數(shù)據(jù)質(zhì)量統(tǒng)計7 HYPERLINK l bookmark38 3.6NT庫比對7 HYPERLINK l bookmark40 4數(shù)據(jù)下載94.1數(shù)據(jù)下載方法9摘要合同關(guān)鍵指標(biāo)對XX個樣品進(jìn)行建庫測序,呆證每個樣品產(chǎn)生XXGb數(shù)據(jù)量,Q30達(dá)到80%。分析結(jié)果概述測序共獲得XXGbp的RawData,過濾后得到的CleanData為XXGbp,Q30達(dá)到XX%。1項(xiàng)目基本信息樣品信息樣品編號BMK編號XXR01XXR02注:BMK編號:百邁客對樣品的統(tǒng)一編號,實(shí)驗(yàn)建庫和后續(xù)信息分析均使用該編號。2實(shí)驗(yàn)流程實(shí)驗(yàn)流程按照Illumi

3、na公司提供的標(biāo)準(zhǔn)protocol執(zhí)行,包括樣品質(zhì)量檢測、文庫構(gòu)建、文庫質(zhì)量檢測和文庫測序等流程,具體流程圖如下:旗開得勝-讀萬卷書行萬里路1薙接產(chǎn)物預(yù)實(shí)驗(yàn)2-A文庫純優(yōu)去攝頭污染RtgonaraieCriJilarsiQniiii*S|unct!PaindCnd-上機(jī)測序?qū)嶒?yàn)流程圖樣品基因組DNA檢測合格后,用機(jī)械打斷的方法(超聲波)將DNA片段化,然后對片段化的DNA進(jìn)行片段純化、末端修復(fù)、3端加A、連接測序接頭,再用瓊脂糖凝膠電泳進(jìn)行片段大小選擇,進(jìn)行PCR擴(kuò)增形成測序文庫,建好的文庫先進(jìn)行文庫質(zhì)檢,質(zhì)檢合格的文庫用IlluminaHiSeq進(jìn)行測序。旗開得勝讀萬卷書行萬里路13測序數(shù)據(jù)

4、質(zhì)控3.1測序數(shù)據(jù)介紹高通量測序(如IllunimaHiSeq測序平臺)得到的原始圖像數(shù)據(jù)文件,經(jīng)堿基識別(BaseCalling)分析轉(zhuǎn)化為原始測序序列(SequencedReads),我們稱之為RawData或RawReads,結(jié)果以FASTQ(簡稱為fq)文件格式存儲,其中包含測HWI-700U55:133:C1PWW:4:2311:2D?72:9(l?841;Y:e:CTTACTCfllflCCTCTCCITCCTCTCIICCTCrCTCIATCnCACTCTrCTClCTCTCfiCTGlCnCGGGCflGTGCftfiGGGCGfiGftGGIGGGCGGCGGCGCflflG

5、CGGCn=;?7A+22R:DD&:?(AFE9:+3ft3AEflF9EaE?D?CDCDm*O?B0?ftEDDflfl&0RDED1;Ah3?31py8?mttltmOIIII序序列(Reads)的序列信息以及其對應(yīng)的測序質(zhì)量信息。測序樣品中真實(shí)數(shù)據(jù)隨機(jī)截取結(jié)果如下:FASTQ格式文件中每個Read由四行描述,其中第一行以“”開頭,隨后為Illumina測序識別符(SequenceIdentifiers)和描述文字(可選部分);第二行是堿基序列;第三行以“+”開頭,隨后為Illumina測序識別符(可選部分);第四行是對應(yīng)序列的測序質(zhì)量。Illumina測序識別符(SequenceId

6、entifiers)詳細(xì)信息如下:川umina測序標(biāo)識詳細(xì)信息HWI-7001455Uniqueinstrumentname110RunIDC3B41ACXXFlowcellIDFlowcelllane1101Tilenumberwithintheflowcelllane1401x-coordinateoftheclusterwithinthetile2163y-coordinateoftheclusterwithinthetile1Memberofapair,1or2(paired-endormate-pairreadsonly)NYifthereadfailsfilter(readisba

7、d),Notherwise00whennoneofthecontrolbitsareon,otherwiseitisanevennumberTAAGGCIndexsequence通過使用第四行中每個字符對應(yīng)的ASCII值進(jìn)行計算很卩得到對應(yīng)第二行堿基的測序質(zhì)量值。如果測序錯誤率用e表示,IllunimaHiSeq的堿基質(zhì)量值用Qphred表示,則有下列關(guān)系:公式一:Q=10log(e)phred10IllunimaCasava1.8版本測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系如下表所示:IllunimaCasava1.8版本測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系測序錯誤率測序質(zhì)量值對應(yīng)字符5%13.1%

8、2050.1%30?0.01%40I注:堿基識別(BaseCalling)分析軟件:IlluminaCasava1.8版本;測序參數(shù):雙端測序(Pairedend);測序序列讀長:151bp(或者單位為循環(huán)數(shù)(cycle)3.2堿基測序質(zhì)量分布,Qphred)通過公每個堿基測序錯誤率是通過測序Phred數(shù)值(Phredscore旗開得勝_讀萬卷書行萬里路1式一轉(zhuǎn)化得到,而Phred數(shù)值是在堿基識別(BaseCalling)過程通過一種預(yù)測堿基判別發(fā)生錯誤概率模型計算得到的,對應(yīng)關(guān)系如下表所顯示:預(yù)測堿基判別發(fā)生錯誤概率Phred分值不正確的堿基識別堿基正確識別率Q-sorce101/1090%

9、Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40在Hiseq測序系統(tǒng)測序時,首先會對文庫進(jìn)行芯片制備,目的是將文庫DNA模板固定到芯片上,在固定DNA模板的過程中,每個DNA分子會形成一個簇,一個簇就是一個測序位點(diǎn),在進(jìn)行固定過程中極少量的簇與簇之間物理位置會發(fā)生重疊,在測序時,測序軟件通過前4個堿基對這些重疊的點(diǎn)進(jìn)行分析和識別,將這些重疊點(diǎn)位置分開,保證每個點(diǎn)測到的是一個DNA分子,因此測序序列5端前幾個堿基的錯誤率相對較高。另外測序錯誤率會隨著測序序列(SequencedReads)的長度的增加而升高,這是由于測序過程中化學(xué)試劑的消耗而導(dǎo)

10、致的。因此在進(jìn)行堿基測序質(zhì)量分布分析時,樣品的堿基質(zhì)量分布在前4個堿基和后十幾個堿基的質(zhì)量值會低于中間測序堿基,但其質(zhì)量值都高于Q30%,根據(jù)質(zhì)量值和錯誤率的關(guān)系,我們將質(zhì)量值轉(zhuǎn)換成錯誤率,繪制錯誤率分布圖如下:旗開得勝3ReadsAverageErrorRatefR01)2Q10Qscq腳。Positionalongreads圖3樣品堿基錯誤率分布注:橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為單堿基錯誤率前151bp為雙端測序序列的第一端測序Reads的錯誤率分布情況,后151bp為另一端測序reads的錯誤率分布情況。3.3堿基類型分布堿基類型分布檢查用于檢測有無AT、GC分離現(xiàn)象,而這種現(xiàn)象

11、可能是測序或者建庫所帶來的,并且會影響后續(xù)分析。高通量所測序列為基因組隨機(jī)打斷后的DNA片段,由于位點(diǎn)在基因組上的分布是近似均勻的,同時,G/C、A/T含量也是近似均勻的。因此,根據(jù)大數(shù)定理,在每個測序循環(huán)上,GC、AT含量應(yīng)當(dāng)分別相等,且等于基因組的GC、AT含量。同樣因?yàn)橹丿B簇的關(guān)系會導(dǎo)致樣品前幾個堿基AT、GC不等波動較大,高于其他測序區(qū)段,而其它區(qū)段的GC、AT的含量相等,且分布均勻無分離現(xiàn)象,下圖所示:-怨萬行萬SB1旗開得勝Basescontentaionreads(ROl)O嘰ZflO300Fosiligrialong!reads1:圖4樣品各堿基比例分布注:橫坐標(biāo)為測序read

12、s的堿基位置,縱坐標(biāo)為堿基所占的比例;不同顏色代表不同的堿基類型,綠色代表堿基A,藍(lán)色代表堿基T,紅色代表堿基C,橙色代表堿基G,灰色代表測序中識別不出的堿基N。前150bp為雙端測序序列的第一端測序Reads的堿基分布,后150bp為另一端測序reads的堿基分布。每個cycle代表測序的每個堿基,如第一cycle即表示該項(xiàng)目所有測序reads在第一個堿基的A、T、G、C、N的分布情況。該圖的結(jié)果顯示AT、CG堿基基本不發(fā)生分離,且曲線較平緩,說明測序結(jié)果正常。3.4低質(zhì)量數(shù)據(jù)過濾測序得到的原始測序序列(SequencedReads)或者RawReads,里面含有帶接頭的、低質(zhì)量的Reads

13、,為了保證信息分析質(zhì)量,對RawReads進(jìn)行過濾,得到CleanReads,用于后續(xù)信息分析。數(shù)據(jù)過濾的主要步驟如下:(1)去除帶接頭(adapter)的reads。過濾N含量超過10%的reads和質(zhì)量值低于10的堿基_AF讀萬卷書行萬里路1旗開得勝”讀萬卷書行萬里路1超過50%的reads。(3)去除低質(zhì)量reads。3.5據(jù)質(zhì)量統(tǒng)計數(shù)據(jù)過濾統(tǒng)計表BMKIDRawReadsAdapterRelatedContainNLowQualityCleanReadsR01XXXXXXXXXXXXXR02XXXXXXXXXXXXX注:BMKID:百邁客對項(xiàng)目樣品的統(tǒng)一編號;RawReads:原始測序

14、reads數(shù);AdapterRelated:含接頭被過濾的reads數(shù);ContainN:由于N比例大于10%而被過濾的reads數(shù);LowQuality:質(zhì)量值過低被過濾的reads數(shù);CleanReads:過濾后剩余的reads數(shù)。各樣品測序產(chǎn)出數(shù)據(jù)質(zhì)量統(tǒng)計方法如下:RawReads:統(tǒng)計原始序列數(shù)據(jù),以四行為一個單位,統(tǒng)計Pair-end序列的個數(shù)。CleanReads:計算方法同RawReads,統(tǒng)計過濾后的序列文件用于后續(xù)生物信息學(xué)分析。Cleanbases:CleanReads數(shù)乘以序列長度。Q20(%)、Q30(%):分別計算Phred數(shù)值大于20、30的堿基占總體堿基的百分比。

15、GC(%):計算堿基G和C的數(shù)量總和占總的堿基數(shù)量的百分比。各樣品測序產(chǎn)出數(shù)據(jù)評估結(jié)果見下表:樣品測序數(shù)據(jù)評估統(tǒng)計旗開得勝讀萬卷書行萬里路1BMKIDRawReadsCleanReadsCleanBasesQ20(%)Q30(%)GC(%)R01XXXXXXXX%XX%XX%R02XXXXXXXX%XX%XX%注:BMK_ID:百邁客對項(xiàng)目樣品的統(tǒng)一編號;Raw_Reads:初始測序reads數(shù)目,以四行為一個單位,統(tǒng)計Pair-end序列的個數(shù);Clean_Reads:過濾后的reads數(shù),計算方法同RawReads;Clean_bases:過濾后的堿基數(shù),CleanReads數(shù)乘以序列長度;Q20(%):質(zhì)量值大于等于20的堿基占總堿基數(shù)的百分比;Q30(%):質(zhì)量值大于等于30的堿基占總堿基數(shù)的百分比;GC(%):樣品GC含量,即G和C類型的堿基占總堿基的百分比。3.6NT庫比對對過濾后的高質(zhì)量數(shù)據(jù)隨機(jī)抽取2000條Reads數(shù)據(jù),通過Blast軟件比對NT庫。結(jié)合本物種在NT庫中的注釋情況以及本次的比對結(jié)果,本項(xiàng)目沒有污染。具體結(jié)果如下表所示:表NT比對結(jié)果SampleHit1Hit2B332-R01SorghumbicolorSaccharumhybridB332-R02SorghumbicolorSaccharumhybrid注:Sa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論