版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄一、項(xiàng)目信 二、工作流 IlluminaMiseq實(shí)驗(yàn)流 2.1.1流 流程說 生物信息分析流 三、項(xiàng)目結(jié)果報(bào) 原始數(shù)據(jù)說 原始數(shù)據(jù)質(zhì) 原始數(shù)據(jù)質(zhì)量剪 數(shù)據(jù)統(tǒng) 組組 rRNA/tRNA查 預(yù) 功能注 各數(shù)據(jù)庫結(jié)果匯總 COG功能分 KEGG通路分 GO注釋統(tǒng) 四、附 附件說 文件解壓縮方 文件打開或?yàn)g覽方 一 項(xiàng)目信沈陽市沈河區(qū)文化路72-項(xiàng)目2015 二 工作流2.1.1流DNA→→片段化→→文庫構(gòu)建→→PCR→→IlluminaMiseq流程說 組DNA收完成組DNA抽提后,利用1%瓊脂糖凝膠電泳檢測(cè)收集組DNA 組DNA片段化約400~500bpDNAA&B瓊脂糖凝膠電泳進(jìn)行片段篩選,保留一端是A接頭、一端是B試劑:TruSeq?DNASamplePrepKit 另一端隨機(jī)與附近的另外一個(gè)引物互補(bǔ),也被固定住,形成" (bridge)PCRDNADNAMiseq加入改造過的DNA聚合酶和帶有4種熒光標(biāo)記的dNTP將"熒光基團(tuán)"和"終止基團(tuán)"化學(xué)切割,恢 3'端粘性,繼續(xù)聚合第二個(gè)核苷酸DNA片段的序列。試劑:TruseqSBSKitv3-HS(200cycles)本項(xiàng)目涉及到的生物信息學(xué)分析內(nèi)容見下表(√打勾部分√COG注√√GO注√√KEGG注√√√N(yùn)r注√三 項(xiàng)目結(jié)果報(bào)本項(xiàng)目采用IlluminaMiseq技術(shù)完成菌株的組掃描,構(gòu)建了IlluminaPE文庫(500bp文庫),F(xiàn)ASTQ文件為最原始的數(shù)據(jù)文件,文件包含read的序列信息以及質(zhì)量信息。FASTQ文件格式如下所示:@HWI-ST531R:144:D11RDACXX:4:1101:1212:19461:N:0:ATTCCT+HWI-ST531R:144:D11RDACXX:4:1101:1212:1946開頭;第三行中ID可以省略,但“+”不能省略),第二行為read的堿基序列,第四行是第二行中序列的每個(gè)堿基所對(duì)應(yīng)的質(zhì)量值。為方便保存和共享各產(chǎn)生的高通量數(shù)據(jù),NCBI數(shù)據(jù)中心建立了大容量的數(shù)據(jù)庫SRA(SequenceReadArchive, 通過生物信息統(tǒng)計(jì)學(xué)的方法,對(duì)所有reads的每個(gè)circle進(jìn)行堿基分布和質(zhì)量波動(dòng)的統(tǒng)計(jì),可以直觀的反映出樣本的質(zhì)量和文庫構(gòu)建質(zhì)量。下面是本項(xiàng)目IlluminaMiseq原始數(shù)據(jù)的質(zhì)控圖:分別為原始數(shù)據(jù)堿基組成分布圖(又稱為GC偏差圖)和原始數(shù)據(jù)堿基質(zhì)量分布圖。3-1原始數(shù)據(jù)堿基組成分布例注:橫坐reads堿基坐標(biāo),縱坐標(biāo)是所有readsA、C、G、T、N堿基分別占的百分比。每個(gè)位置上,A、C、G、T在開始有所波動(dòng),后面會(huì)趨于穩(wěn)定。一般情況下A與T相等,C與G相等,各堿基所占百分比會(huì)因物種差異而不同。組項(xiàng)從上圖可知,該文庫堿基分布均勻,N3-2原始數(shù)據(jù)堿基質(zhì)量分布例注:橫坐標(biāo)reads堿基坐標(biāo),縱reads的堿基質(zhì)量(SolexaScale40=Highest15=Lowest),圖中垂直紅線”Ⅰ”指定的范圍是所有reads堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加黑粗線是質(zhì)量值的中位數(shù)。采用lluminaMieq技術(shù)對(duì)樣品的DNA進(jìn)行paied-end(PE)建500bp于Illuminaieq的原始數(shù)據(jù)會(huì)存在一些質(zhì)量比較低的數(shù)據(jù),為了使后續(xù)的組裝更加準(zhǔn)確,會(huì)對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量剪切,具體步驟如下:5’A、G、C、T修剪質(zhì)量較低的reads末端(質(zhì)量值小于舍棄去adapter及質(zhì)量修剪后長(zhǎng)度小于25bp對(duì)經(jīng)過質(zhì)量剪切前后的數(shù)據(jù)分別進(jìn)序reads數(shù)、reads讀長(zhǎng)、總堿基數(shù)、文庫平均插入長(zhǎng)度、Q20%、平表3-1數(shù)據(jù)統(tǒng)計(jì)
Raw Raw
Clean Clean Clean pair totalbases pair single totalbases 首先,利用SOAPdenovov2.04(/)Kmer參數(shù)的拼接,得到最優(yōu)的組裝結(jié)果。其次,運(yùn)用GapCloserv1.12軟件對(duì)組裝結(jié)果進(jìn)行局部?jī)?nèi)洞填充和堿基校正。3-3SOAPdenovo組裝算法原理示意圖(LietalGenomeRes從而選擇K-mer為35的結(jié)果作為最終的組裝結(jié)果。最終組裝結(jié)果的統(tǒng)計(jì)如下表所示:3-2組裝結(jié)果各指標(biāo)統(tǒng)No.ofall Basesinall No.oflargescaffords(>1000 Basesinlarge Largest 292790Scaffold128892Scaffold43840G+CNNo.ofallBasesinallNo.oflargecontigs(>1000BasesinlargeLargest292790ContigContig注:N50、N90長(zhǎng)度的概念:將各個(gè)序列按長(zhǎng)度大小排序,從大至小逐一掃描各個(gè)序列的長(zhǎng)度值,進(jìn)行累加,當(dāng)該累加值第一次超過所有序列總長(zhǎng)的50%時(shí),此時(shí)掃描到的序列,其長(zhǎng)度值即N50值,N90值亦同理。N50、N90長(zhǎng)度值比Contig:群,拼接軟件基于reads之間的overlap區(qū)而拼在一起的序列,中間沒有Gap在一起形成的更長(zhǎng)序列,即為scaffold,中間可能有Gap(NNNNN……)分別利用Barrnap0.4.2和tRNAscan-SEv1.3.1軟件對(duì)組中包含的rRNA和tRNA進(jìn)行預(yù)測(cè),統(tǒng)計(jì)結(jié)果見3-3tRNA預(yù)測(cè)統(tǒng)計(jì)例tRNAAnti3-4rRNA預(yù)測(cè)統(tǒng)計(jì)例+利用Glimmer3.02( )軟件進(jìn)行細(xì)菌的預(yù)測(cè),預(yù)測(cè)結(jié)果文件詳見附件predict下的*.predict,預(yù)測(cè)的核苷酸序列詳見附件predict下的*ffn,對(duì)應(yīng)的氨基酸文件詳見附件predict下的*faa。預(yù)測(cè)結(jié)果的統(tǒng)計(jì)見下表,分別為數(shù)量,總長(zhǎng)度,GC含量,占組百分比,平均長(zhǎng)度,間區(qū)長(zhǎng)度,間區(qū)GC含量及間區(qū)占組百分比等。表3-5信息統(tǒng)計(jì)Gene Genetotal Geneaverage926Gene0.926genesperGCcontentingeneIntergeneticregion856467GCcontentinintergenetic各數(shù)據(jù)庫結(jié)果匯總將預(yù)測(cè)的蛋白序列分別與Nr、genes、string和GO數(shù)據(jù)庫進(jìn)行blastp比對(duì)(BLAST2.2.28+),從而獲得預(yù)測(cè)的注釋信息。上述所有數(shù)據(jù)庫比對(duì)結(jié)果的匯總信息見annotation.table.xls,詳細(xì)結(jié)果見annotation/文3-6annotation.table.xls文件各列含義說NameoftheQueryOrf序列編LengthoftheQueryOrf序列長(zhǎng)NameoftheTopHitfromNR庫中比對(duì)到的top目標(biāo)序列名DescriptionabouttheTopHitfromNR庫中比對(duì)到的top目標(biāo)序列描PercentageofSimilarBasesintheNR庫中比對(duì)到的top目標(biāo)序列的High-ScoringSegmentPairfrom NameofTheTopHitfrom Strings庫中比對(duì)到的top目標(biāo)序 DescriptionAboutTheTopHitfrom Strings庫中比對(duì)到的top目標(biāo)序 PercentageofSimilarBasesInTheHigh-ScoringSegmentPairfrom
Strings庫中比對(duì)到的top目標(biāo)序 ClustersofOrthologousGroupsof EukaryoticOrthologous KO號(hào)或 NameoftheKEGG COGCOG是ClustersofOrthologousGroupsofproteins的縮寫( nih./COG/)。COG是在對(duì)已完成組的物種的蛋白質(zhì)序列進(jìn)行相互比較的基礎(chǔ)上構(gòu)建的,COG數(shù)據(jù)庫選取的物種包括各個(gè)主要的系統(tǒng)進(jìn)化譜系。每個(gè)COG至少由來自3個(gè)系統(tǒng)進(jìn)化譜系的物種的蛋白所組成,所以一個(gè)COG對(duì)應(yīng)于一個(gè)古老注釋結(jié)果對(duì)蛋白進(jìn)行功能歸類,結(jié)果詳見COGannotation/COG_KOG/,本項(xiàng)目所用string數(shù)據(jù)庫的版本為 對(duì)樣品的組蛋白進(jìn)行COG功能歸類后的統(tǒng)計(jì)結(jié)果如下圖所示3-3COG功能分類統(tǒng)計(jì)例KEGG(KyotoEncyclopediaofGenesandGenomes,和組百科全書, KEGG將從NCBI等數(shù)據(jù)庫中獲得的包括完整和部分的組序列及其序列于KEGGgenes數(shù)據(jù)庫胞周期以及疾病相關(guān)通路等。此外,KEGGLIGAND數(shù)據(jù)庫中也收集了各種化學(xué)分子、酶以及酶促反應(yīng)等相關(guān)信在物體內(nèi),產(chǎn)物不是孤存在而自發(fā)揮作的,同物之間通有序的互協(xié)調(diào)一起行KEGG數(shù)據(jù)庫中豐富的通路信息將有助于我們從系統(tǒng)水平去了解的生物學(xué)功能,例如代謝途徑、遺傳信息傳遞以及細(xì)胞學(xué)過程等一些復(fù)雜的生物過程。運(yùn)用BLAST算法(blastx/blastp2.2.28+)將所獲得的預(yù)測(cè)與KEGG的數(shù)據(jù)庫(Genes)進(jìn)行比對(duì),根據(jù)比對(duì)得到的KO編號(hào)可以獲得相應(yīng)參與的具體生物學(xué)通路。KEGG數(shù)據(jù)庫注釋結(jié)果詳見3-5KEGG通路數(shù)據(jù)庫注:長(zhǎng)方形節(jié)點(diǎn)表示產(chǎn)物(如酶或一些RNA調(diào)節(jié)子),所有藍(lán)色背景的產(chǎn)物都屬于KEGGORTHOLOGY(KO)分GO是本體論GeneOntology的縮寫(見: 要花費(fèi)大量的時(shí)間和精力去分析生物學(xué)術(shù)語之間的聯(lián)系,而GeneOntology項(xiàng)目的目的就是為了標(biāo)準(zhǔn)化這些生物學(xué)術(shù)語,方便生物學(xué)家之間的相互交流。GO注釋包括3個(gè)方面的內(nèi)容:Cellularcomponent:thepartsofacelloritsextracellularMolecularfunction:theelementalactivitiesofageneproductatthemolecularlevel,suchasbindingorBiologicalprocess:operationsorsetsofmoleculareventswithadefinedbeginningandend,pertinenttothefunctioningofintegratedlivingunits:cells,tissues,organs,andorganisms.因此,GO注釋更加便于我們理解背后所代表的生物學(xué)意義。通過blast2go軟件對(duì)blast結(jié)果進(jìn)行了注釋分析,詳細(xì)的統(tǒng)計(jì)圖表見附件 ,下圖為GO統(tǒng)計(jì)圖例3-5GO功能注釋統(tǒng)計(jì)分布例||||--orf對(duì)應(yīng)GO號(hào)四 附 ||-- ||-- ||--*.scaf ||-- scaffold序列contig ||--* rRNA預(yù)測(cè)結(jié)果gff格式文件||--*rRNA ||-- ||-- ||-- Glimmer預(yù)測(cè)結(jié)果list文件,包含每一個(gè)orf在序列上的起始、終止位置||--* ||--* 其中每一個(gè)orf的序列頭都包含以下信息:orf編號(hào)、所在的contig ||-- 與||-- 與nr庫blastp比對(duì)結(jié)|||--*.nr.blastxlsx 根據(jù)預(yù)測(cè)的原始比對(duì)結(jié)果挑選出來的xlsx注釋文件,每個(gè)orf匹配上多個(gè)||-- |||--cog.list orf對(duì)應(yīng)COG|KOG|NOG號(hào)|||--cog.sumary |||-- orf比對(duì)到strings庫中某COG、KOGNOG的具體信息|||-- |||-- ||-- |||-- 每個(gè)比對(duì)到的KO編號(hào)、KO名字以及數(shù)據(jù)庫|||--kegg_table 每個(gè)比對(duì)到的KO編號(hào)和注釋到的通路|||--pathway_table |||--pathways/*html和 ||-- ||||orf比對(duì)GO庫中某個(gè)GO的具體功能信息||所有提供的文件均為L(zhǎng)inux系統(tǒng)下的文件,壓縮包使用“tar-zcv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 變更稅率協(xié)議書范本
- 北京建行商貸合同范本
- 果蔬鮮度管理
- 山西省名校聯(lián)盟2024-2025學(xué)年高二上學(xué)期期中聯(lián)考語文試卷(含答案)
- 瀘縣五中2024年秋期高一期中考試地理試題
- 廣東省廣州外國(guó)語、廣大附中、鐵一中學(xué)等三校2024-2025學(xué)年高三上學(xué)期期中聯(lián)考試題 歷史(含答案)
- 安徽省合肥市第四十二中學(xué)2024-2025學(xué)年七年級(jí)上學(xué)期期中綠色評(píng)價(jià)英語試題(含答案無聽力音頻及原文)
- 頭孢類抗菌藥物行業(yè)相關(guān)投資計(jì)劃提議范本
- 聚乙烯(PE)相關(guān)項(xiàng)目投資計(jì)劃書
- 麻疹、風(fēng)疹、腮腺炎聯(lián)合疫苗行業(yè)相關(guān)投資計(jì)劃提議
- 2024至2030年中國(guó)別墅行業(yè)投資前景分析預(yù)測(cè)及未來趨勢(shì)發(fā)展預(yù)測(cè)報(bào)告
- 初中七年級(jí)上冊(cè)綜合實(shí)踐活動(dòng) 低碳生活從我做起 教學(xué)設(shè)計(jì)
- 2024年金融貸款居間服務(wù)合同樣本(四篇)
- 2024中石油校園招聘高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 醫(yī)師定期考核(簡(jiǎn)易程序)練習(xí)及答案
- 2022-2023學(xué)年北京市海淀區(qū)清華附中八年級(jí)(上)期中數(shù)學(xué)試卷【含解析】
- 2024-2030年中國(guó)會(huì)計(jì)師事務(wù)所行業(yè)深度分析及發(fā)展前景與發(fā)展戰(zhàn)略研究報(bào)告
- 2024年國(guó)有企業(yè)新質(zhì)生產(chǎn)力調(diào)研報(bào)告
- 2024年安全員A證考試試題庫附答案
- 2024年國(guó)家開放大學(xué)電大《金融學(xué)》形考任務(wù)答案
- 2022版義務(wù)教育(歷史)課程標(biāo)準(zhǔn)(附課標(biāo)解讀)
評(píng)論
0/150
提交評(píng)論