有參結(jié)題報告大基因組_第1頁
有參結(jié)題報告大基因組_第2頁
有參結(jié)題報告大基因組_第3頁
有參結(jié)題報告大基因組_第4頁
有參結(jié)題報告大基因組_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目概 合同關(guān)鍵指 項目基本信 項目執(zhí)行情 項目結(jié)果概 項目流 實驗流 信息分析流 生物信息學(xué)分 3.1數(shù)據(jù)質(zhì) 原始數(shù)據(jù)介 堿基質(zhì)量分 堿基類型分 低質(zhì)量數(shù)據(jù)過 數(shù)據(jù)統(tǒng) 與參考組比對統(tǒng) 比對結(jié)果統(tǒng) 深度分布統(tǒng) 轉(zhuǎn)錄組文庫質(zhì)量評 mRN段化隨機性檢 片段長度檢 轉(zhuǎn)錄組數(shù)據(jù)飽和度檢 SNP檢測與注 樣品與參考組間SNP的檢 樣品之間SNP的檢 SNP結(jié)果注 結(jié)構(gòu)分 可變剪接分 結(jié)構(gòu)優(yōu)化分析 新分 新發(fā) 新功能注 表達量分 3.7.1表達定 樣品表達量總體分 差異表達分 差異表達篩 差異表達數(shù)目統(tǒng) 差異表達聚類分 關(guān)聯(lián)分 高質(zhì)量SNP篩 SNP-index方法關(guān)聯(lián)結(jié) ED方法關(guān)聯(lián)結(jié) 候選區(qū)域篩 候選區(qū)域的功能注 候選區(qū)域的SNP注 候選區(qū)域的注 候選區(qū)域內(nèi)的GO富集分 候選區(qū)域內(nèi)的KEGG富集分 候選區(qū)域內(nèi)COG分類統(tǒng) 候選區(qū)域內(nèi)可變剪接事件統(tǒng) 候選區(qū)域內(nèi)新分 候選區(qū)域內(nèi)差異表達分 候選區(qū)域內(nèi)差異表達數(shù)目統(tǒng) 候選區(qū)域內(nèi)差異表達功能注 結(jié)果可視 數(shù)據(jù)...........................................................................................................合同關(guān)鍵指產(chǎn)量不少于10GCleanData,每個子代混池數(shù)據(jù)產(chǎn)量不少于10GCleanData,Q3085%以上。與組比對:比對效率,組覆蓋度,組覆蓋深度統(tǒng)計完成表達量分析關(guān)聯(lián)分析:通過計算兩個混池間等位的型頻率確定與目標性狀關(guān)聯(lián)結(jié)構(gòu)分析:完成候選區(qū)域內(nèi)可變剪接分析和新分析SNPSNP注釋,包括位置信息和非同義突變信候選分析:完成候選區(qū)域內(nèi)的功能注釋、可變剪切事件的統(tǒng)計、新項目基本信樣品信息樣 BMK 混池 混池 注:BMK:百邁客對樣品的統(tǒng)一,實驗建庫和后續(xù)信息分析均使用該參考組信息根據(jù)小麥的組大小以及GC含量等信息,最終選取小麥組作為參考物種信息?。═riticumaestivum),實際組大小為17,000MbMb,參考物種信息:小麥(Triticumaestivum)[1]組,組裝出的組大小為14,547Mb,GC含量為46.05%,該組組裝到水平,有注釋信息,版本號為v1,地址:。項目執(zhí)行情樣品檢測合格時間為樣品信息到位時間為項目建庫啟動時間為20181209項目結(jié)果概完成4個樣品的轉(zhuǎn)錄組,共獲得54.14GbCleanData。Q30堿基百分比在91.12%及以上。樣品與參考組比對效率均在85%以上。、基于比對結(jié)果進行可變剪接預(yù)測分析結(jié)構(gòu)優(yōu)化分析以及新的發(fā)掘,發(fā)掘新12,717個。、SNP-index關(guān)聯(lián)算法,共得到9個與性狀相關(guān)的區(qū)域,總長度為30.39Mb;交集得到7個與性狀相關(guān)的區(qū)域,總長度為18.26Mb。關(guān)聯(lián)區(qū)域內(nèi)注釋到160個,其中非同義突變SNP位點的共18個,新共注釋到13個,差異表達基實驗流文庫質(zhì)量檢測和上機,具體流程見下圖:圖1轉(zhuǎn)錄組實驗流程Oligo(dT)的磁珠富集真核mRNAfragmentationbuffer將mRNAmRNA模板,合成cDNA雙鏈,cDNA純化后再進行末端修復(fù)、加A尾并連接接頭、片段大小選擇最后通過PCR富集得到cDNA文庫文庫經(jīng)質(zhì)檢合格后通過IlluminaHiSeqTM進序。信息分析流信息分析的內(nèi)容包括:數(shù)據(jù)質(zhì)量控制;通過與參考組比對,進行片段長度檢驗隨機性檢驗等文庫質(zhì)量評估進行結(jié)構(gòu)分析新發(fā)掘、表達量分析和差異表達分析等;基于SP分析,進行關(guān)聯(lián)分析獲得候選區(qū)域基因,并根據(jù)在不同樣品或不同樣品組中的表達量進行差異表達分析、差異表達功能注釋和功能富集等高級分析。BSR數(shù)據(jù)質(zhì)原始數(shù)據(jù)介。堿基識別(BaseCalling)分析轉(zhuǎn)化為原始序列(SequencedReads),我們稱之序列(Reads)的序列信息以及其對應(yīng)的質(zhì)量信息樣品中真實數(shù)據(jù)隨機截。@HWI-7001455:238:HA52PADXX:2:1205:15904:284671:N:0:CCGTCCIllumina識別符(SequenceIdentifiers)和描述文字(選擇性部分);第二行是行是對應(yīng)序列的質(zhì)量。Illumina識別符(SequenceIdentifiers)詳細信息見如下Illumina標識詳細信 Uniqueinstrument Run Flowcell Flowcell Tilenumberwithintheflowcell 'x'-coordinateoftheclusterwithinthe 'y'-coordinateoftheclusterwithinthe Memberofapair,1or2(paired-endormate-pairreads Yifthereadfailsfilter(readisbad),N 0whennoneofthecontrolbitsareon,otherwiseitisaneven IndexIllunimaQphred=-IllunimaCasava1.8版本錯誤率與質(zhì)量值簡明對應(yīng)關(guān)系如下表所示 對應(yīng)字 堿基識別(BaseCalling):IllunimaCasava1.8版本參數(shù):雙端(Pairedend,PE)堿基質(zhì)量分每個堿基錯誤率是通過Phred數(shù)值(Phredscore,Qphred)得到,在Hiseq4000系統(tǒng)時首先會對文庫進行目的是將文庫DNA個簇就是一個位點,在進行固定過程中極少量的簇與簇之間物理位置會發(fā)生重疊,在時,軟件通過前4個堿基對這些的點進行分析和識別,將這些點位置分開,保證每個點測到的是一個DNA分子,因此序列5′端前幾個堿基的錯誤率相對較高。另外錯誤率會隨著序列(SequencedReads)的長度的增加而升高,這是由于過程中化學(xué)試劑的消耗而導(dǎo)致的。因此在進行堿質(zhì)量分布分析時,樣品的堿基質(zhì)量分布4個堿基和后十幾個堿基的質(zhì)量值會低于中間堿基,但其質(zhì)量值都高于,根據(jù)質(zhì)量值和錯誤率的關(guān)系,我們將質(zhì)量值轉(zhuǎn)換成錯誤率,繪制錯誤率分布圖如下:樣品P注:橫坐標為reads的堿基位置,縱坐標為單堿基錯誤率,前151bp為雙端序列的第一端reads的錯誤率分布情況,后151bp為另一端reads的錯誤率分布情況。堿基類型分AT、GC分離現(xiàn)象,RNA-Seq所測的序列為隨機打斷的cDN段,因隨機性打斷及堿基互補配對原則,理論上,G和C、A和T的含量每個循環(huán)上應(yīng)分別相等,且整個過程穩(wěn)定不變,呈水平線。由于Reads5’端的前幾個堿基為隨機引物序列存在一定的偏,因此會在堿基分ATCG列的第一端reads的堿基分布,后151bp為另一端reads的堿基分布。每個cycle代表的每個堿基,如第一即表示該項目所有在第一個堿基的 該圖的結(jié)果顯示AT、CG堿本不發(fā)生分離,且曲線較平緩,說明結(jié)果低質(zhì)量數(shù)據(jù)過得到的原始序列(SequencedReads)或者RawReads,里面含有帶接該Pair-endreads。PM注K百客項樣的一a_eas始rad數(shù)dper_eaed頭過濾的radr_prcn:rneir_prnt:1%reds05%radea_easrad數(shù)據(jù)統(tǒng)PM與參考組比對統(tǒng)本項目使用指定的組組裝Sscrofa10.2作為參考進行序列比對及后續(xù)分析利用STAR[1]將CleanReads與參考組進行序列比對,獲取在參考組或組上的Reads稱為MappedReads,基于 Reads進行后續(xù)信息分析比對結(jié)果統(tǒng)各樣品數(shù)據(jù)與所選參考組的序列比對結(jié)果統(tǒng)計見下表BMK-TotalPM

Uniq

ReadsMapto ReadsMapto'- 考組上的Reads數(shù)目及在CleanReads中占的百分比;UniqMappedReads:比對到參考組唯一位置的中占的百分比。ReadsMapto'-':比對到參考組負鏈的Reads數(shù)目及在CleanReads中占的百分比。深度分布統(tǒng)將比對到不同上Reads進行位置分布統(tǒng)計繪制MappedReads在所選參考組上的覆蓋深度分布圖。樣品P的MappedReads在參考組上的MappedReads在參考組上的位置及覆蓋深度分布小窗口(Window),統(tǒng)計落在各個窗口內(nèi)的MappedReads作為其覆蓋深度。藍色為正鏈,綠色為負鏈。統(tǒng)計MappedReads在指定的參考組不同區(qū)(外顯子內(nèi)含子和間區(qū))的數(shù)目,繪制組不同區(qū)域上各樣品MappedReads的分布直方圖,如下:注圖中將組分為外顯子區(qū)間區(qū)內(nèi)含子區(qū)區(qū)域大小按Map到相應(yīng)區(qū)域的Reads在所有Mapped理論上,來自成熟mRNAReads應(yīng)比對到外顯子區(qū)。Reads比對到內(nèi)含子是由于mRNA前體和發(fā)生可變剪切的內(nèi)含子保留;Reads比對到間區(qū)是由于轉(zhuǎn)錄組文庫質(zhì)量評合格的轉(zhuǎn)錄組文庫是轉(zhuǎn)錄組的必要條件,為確保文庫的質(zhì)量,從以下3點通過片段的長度分布,評估片段長度的離散程度通過繪制飽和度圖,評估文庫容量和MappedDatamRN段化隨機性檢mRN段化后的片段大小選擇,是從mRNA序列中獨立隨機地抽取子序列,mRNARNA每個部分被抽通過MappedReads在各mRNA轉(zhuǎn)錄本上的位置分布模擬mRN段化結(jié)果,檢驗mRN段化的隨機程度。如果mRNA存在嚴重降解,被降解的堿基序列不能被,即無Reads比對上。因此,通過查看MappedReads在mRNA轉(zhuǎn)錄本上的位置分布可了解mRNAMappedReads在mRNA轉(zhuǎn)錄本上的位MappedReads在mRNA數(shù)目及所占的比例,圖中反映的是所有mRNA各個區(qū)間內(nèi)的MappedReads比例的匯總。從上圖可以看出各樣品的曲線較平滑說明mN段化隨機性較高曲線中間部分斜率較小,說明樣品的降解程度可接受。片段長度檢片段長度檢驗片段長度的離散程度能直接反映出文庫過程中磁珠純化的效果。通過片段兩端的Reads在參考組上的比對起止點之間的距離計算片段長度。大部分的真核生物為斷裂,外顯子被內(nèi)含子隔斷,而轉(zhuǎn)錄組得到的是無內(nèi)含子的成熟mRNAmRNA中跨內(nèi)含子的片段兩端的Reads比對到組上時,比對起止點之間的距離要大于片段長度。因此,在片段長度模擬1個或多個小峰。樣品P的片段長度模擬分布如下圖220bp附近,沒有偏離目標區(qū)域,且峰型較窄,說明插入片段長度的離散程度較小,片段大小選擇正常。轉(zhuǎn)錄組數(shù)據(jù)飽和度檢為了評估數(shù)據(jù)是否充足并滿足后續(xù)分析對得到的數(shù)進行飽和度檢測。由于一個物種的數(shù)目是有限的,且轉(zhuǎn)錄具有時間和空間特異性,因此隨著量的增加,檢測到的數(shù)目會趨于飽和。對于表達量越高的,越容易被檢測定量。因此,對于表達量越低的,需要更大的數(shù)據(jù)量才能被準確定量。使用各樣品的MappedData對檢測到的不同表達情況的數(shù)目飽和情況進行模擬,繪制曲線圖如下,可查看隨著數(shù)據(jù)量的增加,檢測到的不同表達量的基注:橫坐標代表定位到組上的Reads數(shù)占總reads數(shù)的百分比,縱坐標代表部分Reads和全部Reads的Gene表SNP檢測與注樣品與參考組間SNP的檢SNP的檢測主要使用GATK[2]軟件工具包實現(xiàn)根據(jù)CleanReads在參考組的Realignment)、堿基質(zhì)量值校正(BaseRecalibration)等預(yù)處理,以保證檢測得到的SNP準確性,再使用GATK進行單核苷酸多態(tài)性(SingleNucleotidePolymorphism,進行局部重新比對,校正由于缺失引起的比對結(jié)果錯誤使用GATK進行堿基質(zhì)量值再校準(BaseRecalibration),對堿基的質(zhì)量值使用GATK進行變異檢測(variantcalling),主要包括SNP和InDel變異結(jié)果使用vfvf其中注釋行包含文件數(shù)據(jù)行的IO和FT列中使用的各種標識符的意釋,而標題行和數(shù)據(jù)行包含各樣品的變異檢測結(jié)果信息,格式如下所示: .GA [ANNOTATIONS]0.AG [ANNOTATIONS]0.CT [ANNOTATIONS]0.AG [ANNOTATIONS]0 參考序列的名23.4G5A67過濾狀89樣品的型信SNPreads支持數(shù)目累積圖,右邊為相鄰SNP之間的距離累積圖SNP類型的變異分為轉(zhuǎn)換和顛換兩種,同種類型堿基之間突變稱為轉(zhuǎn)換于二倍體或者多倍體物種,若同源上的某一SNP位點均為同一種堿基,則該SNP位點稱為純合SNP位點;若同源上的SNP位點包含不同類型的堿基,則該SNP位點稱為雜合SNP位點。純合SNP數(shù)量越多,則樣品與參考組之間差異樣品之間SNP的檢根據(jù)樣品與參考組的比對結(jié)果,匯總樣品之間所有有差異的變異位點,各 CCTCCGGAGGAATAACNTCCTNCTTCCTCCTTCTTSNP型的編碼采用標準核苷酸符號,符號表如下所示 意A AC(aMinoCGCSG AT(WeakTGTC(notA)BcomesafterUGAT(notC)DcomesafterRGAACT(notG)HcomesafterYTCGCA(notT,notV(VcomesafterKGT AGCT樣品間SNPSNP結(jié)果注據(jù)變異位點在參考組上的位置以及參考組上的位置信息,可以得到變異位點在組發(fā)生的區(qū)域(間區(qū)、區(qū)或CDS區(qū)等),以及變異產(chǎn)生的影 Amino_Acid_Change|Amino_Acid_Length|Gene_Name|Gene_Coding|Transcript_ID|WARNINGS]|Genotype_Number[||||類 意 Effect 變異影響大?。℉igh,ModerateLowFunctional 功能分類(NONESILENTMISSENSE

編碼蛋白(CODING| Exon/Intron 變異的型位 。 Pvs B1vs 00M和B1vsB2為兩個樣品間存在的對應(yīng)類型的SNP數(shù)量。 間 非同義的起始子突 起始子丟 終止子獲 終止子丟 同義終止子突

由于gff文件中信息不完整而無法得到準確的 結(jié)構(gòu)分可變剪接分可變剪接事件預(yù)轉(zhuǎn)錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外這種轉(zhuǎn)錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternativesplicing)采用Cufflinks[6]對Tophat的比對結(jié)果進行拼接并使用Cufflinks 將CufflinksASprofile[7]存在的可變剪接類型及相應(yīng)表達量??勺兗艚宇愋腿缦聢D所示注:(A)外顯子跳躍和多外顯子跳躍;(B)單內(nèi)含子保留和多外顯子保留;(C)可變外顯子;(D)可變轉(zhuǎn)錄起始位點;(E)可變轉(zhuǎn)錄終止位點;其中紅色處為可變剪接類型。TranscriptionstarttranscriptionterminalIR_ON,IR_OFFMIR_ON,MIR_OFFXMIR_ON,XMIR_OFFAlternativeexon5'或3'Approximate5'或3'端剪切(模糊邊界可變剪接事件數(shù)量統(tǒng)該項目樣品PM12可變剪接事件結(jié)構(gòu)和表達量-0-0-0-0-0-0--注:(1)event_id:AS事件(2)event_type:AS事件類型(3)gene_id:cufflink組裝結(jié)果中(4)chrom:(5)event_start:AS事件起始位置(6)event_end:AS事件結(jié)束位(7)event_pattern:AS事件特征(8)strand:正負鏈信息(9)fpkm:此AS類型該表達結(jié)構(gòu)優(yōu)化分由于使用的軟件或數(shù)據(jù)的局限性,所選參考組的注釋往往不夠精確,這樣就有必要對原有注釋的結(jié)構(gòu)進行優(yōu)化。如果在原有邊界之外的區(qū)域有連續(xù)的MappedReads支持,將的非翻譯區(qū)(UntranslatedRegion,UTR)向上下游延伸,修正的邊界。此項目對12,991個結(jié)構(gòu)進行了優(yōu)化,部分結(jié)構(gòu)優(yōu)StrandUTROriginalOptimized 1645- 2991-2663- 4967-4967- 15628-15628- 25004-24699-注:GeneID:ID;GeneLocus:座;Strand:正負鏈;UTRsite:3'或5'UTR;Originalregion:原來的注釋的UTR起止坐標;Optimizedregion:延伸之后的UTR起止坐標。新分新發(fā)基于所選參考組序列,使用Cufflinks軟件對可比對Reads進行拼接,并與原有的組注釋信息進行比較,尋找原來沒有被注釋的轉(zhuǎn)錄區(qū),發(fā)掘該物種的新顯子的序列共發(fā)掘2671個新新的發(fā)掘能夠補充和完善原有的組注釋信息,組注釋信息通常使用GFF格式。新的GFF格式文件部分見新的GFF文chrA01CufflinksgenechrA01Cufflinksgene95997chrA01CufflinksmRNA95997chrA01CufflinksCDS95997chrA01CufflinksCDS96289chrA01CufflinksCDSchrA01CufflinksCDS.+ .+ .+ .+ .+ .+ 提供組注釋補充信息的同時,也提供以FASTA格式的新序列。新序列的FASTA文件部分見下表7:新序列FASTA文件(局部 后面緊接著ID;下面一行或多行為該的堿基序列。新功能注功能注釋概需要轉(zhuǎn)錄為RNA和翻譯為蛋白質(zhì)才能發(fā)揮其功能,因此,所謂的功能實際上是產(chǎn)物的功能。對于那些預(yù)測出來的尚未被實驗證實的,它們的數(shù)據(jù)庫中與新(轉(zhuǎn)錄本或蛋白質(zhì))序列相似度最高的同源序列,二者擁有相似或相同的功能,將同源序列的功能描述信息作為新的功能描述。在生物信息中,這種獲取功能描述信息的過程叫做功能注釋(GeneFunctionAnnotation)或功能預(yù)測(GeneFunctionPrediction)。新功能注釋統(tǒng)使用BLAST[8]軟件將發(fā)掘的新與NR[9],Swiss-Prot[10],GO[11],COG[12],KEGG[13]數(shù)據(jù)庫進行序列比對,獲得新的注釋信息。最終得到各數(shù)據(jù)庫注釋的新數(shù)量統(tǒng)計見下表Annotated NewGene 表達量分 表達定轉(zhuǎn)錄組可以模擬從一個樣品轉(zhuǎn)錄組的任意一段核酸序列上獨立地隨機抽[1]BinomialDistribution基于該數(shù)學(xué)模型使用Cufflinks軟件的Cuffquant和Cuffnorm組件通過MappedReads在上的位置信息對轉(zhuǎn)錄本和的表達水平進行定抽取轉(zhuǎn)錄本的片段數(shù)目與數(shù)據(jù)(或MappedData)量、轉(zhuǎn)錄本長度、轉(zhuǎn)錄本表達水平都有關(guān),為了讓片段數(shù)目能反映轉(zhuǎn)錄本表達水平,需要對樣品中的MappedReads的數(shù)目和轉(zhuǎn)錄本長度進行歸一化。Cuffquant和Cuffnorm采用FPKM[15](FragmentsPerKilobaseoftranscriptperMillionfragmentsmapped)作為衡量轉(zhuǎn)錄本或表達水平的指標,F(xiàn)PKM計算公式如下:公式中,cDNAFragments表示比對到某一轉(zhuǎn)錄本上的片段數(shù)目,即雙端Reads數(shù)目;MappedReads(Millions)MappedReads106為單位;TranscriptLength(kb)103個堿基為單位。候選區(qū)域內(nèi)的表達量部分結(jié)果見下表+++0+000+00+注:GeneID:ID號;Length:長度;FPKM:表達量;Gene_position:位置;Strand:正負鏈;raw_fragment_number:比對到該上的片段數(shù);normalized_count:校正后的片段數(shù)。樣品表達量總體分使用轉(zhuǎn)錄組數(shù)據(jù)檢測表達具有較高的靈敏度。通常情況下,能夠到的蛋白質(zhì)編碼表達水平橫跨6個數(shù)量級,即FPKM值從10-2到104不等[16]。FPKM從箱線圖中不僅可以查看單個樣品表達水平分布的離散程度,還可以直觀的比較不同樣品的整體表達水平。該項目兩個親本的FPKM分布箱線圖如下:FPKM差異表達分突變型、不同時間點、不同組織等)下,表達水平存在顯著差異的或轉(zhuǎn)錄本,稱之為差異表達(DifferentiallyExpressedGene,DEG)或差異表達轉(zhuǎn)錄或差異表達的過程叫做差異表達分析(DifferentialExpressionysis)。差異表達分析得到的集合叫做差異表達集,使用“A_vs_B”的方式命名。根據(jù)兩(組)樣品之間表達水平的相對高低,差異表達可以劃分為上調(diào)基B中的表達水平高于樣品(組)A中的表達水之為下調(diào)。上調(diào)和下調(diào)是相對的,由所給A和B的順序決定。差異表達篩檢測差異表達時,需要根據(jù)實際情況選取合適的差異表達。對于物學(xué)條件之間的差異表達集;對于沒有生物學(xué)重復(fù)的樣本,使用EBSeq[18]進行差異分析,獲得兩個樣品之間的差異表達集。在差異表達過程中將FoldChange≥2且FDR<0.01作為篩選標準差ChangeRate,F(xiàn)DR)p值(p-value)進行校正得到的。由于轉(zhuǎn)錄組測序的差異表達分析是對大量的表達值進行獨立的統(tǒng)計假設(shè)檢驗,會存在假陽性異表達篩選的關(guān)鍵指標。差異表達集部分結(jié)果見下表差異表達結(jié) 1.9952e- 6.1796e-03 3.0278e-08 2.3499e- - 下調(diào)(down)通過火山圖(VolcanoPlot)可以快速地查看候選區(qū)域內(nèi)在兩個(組)樣品PM間差異表達火山圖如下:注差表火圖的一點示個坐表某個兩品表量異數(shù)對值;縱標示達變的計顯性負數(shù)。標對越,明達在樣間表量倍差越;坐值大表差表越著篩到差表達越靠圖綠的代下調(diào)異達紅的代上差表達,色代非異達。通過MA圖可以直觀地查看的兩個(組)樣品的表達水平和差異倍數(shù)的整MA注:差異表達MA圖中每一個點代表一個。橫坐標為A值:log2(FPKM),即兩樣品中表達量均值的對數(shù)值;縱坐標為M值:log2(FC),即兩樣品間表達量差異倍數(shù)的對數(shù)值,用于衡量表達量差異的大小。圖中綠色的點代表下調(diào)差異表達,紅色的點代表上調(diào)差異表達,黑色的點代表非差異表達。差異表達數(shù)目統(tǒng)差異表達及數(shù)目統(tǒng)計結(jié)果見下表DEG DEG up- down-Pvs 注:DEGSet:差異表 集名稱;DEGNumber注:DEGSet:差異表 集名稱;DEGNumber:差異表 數(shù)目;up-regulated:上 的數(shù)目差異表達聚類分對篩選出的差異表達做層次聚類分析,將具有相同或相似表達模式的進行聚類,并使用K-means的方法對差異的表達量水平值log2(FPKM+1)進行聚類分析將具有相似表達水平變化趨勢的聚在同一類樣品P和M間差異表達基差異表達聚類注:橫坐標代表樣品名稱及樣品的聚類結(jié)果,縱坐標代表的差異及的聚類結(jié)果。圖中不同的列代表不對篩選出的所有差異表達的表達量做層次聚類分析,得到差異在不同實驗條件下的表達模式,表達模式相同或相近的成類。由于同類的可cluster的進行功能注釋及富集分析,可預(yù)測未知的功能或已知的未知關(guān)聯(lián)分在關(guān)聯(lián)分析前,首先對SNP進行過濾,過濾標準如下:首先過濾掉有多個型的SNP位點,其次過濾掉read支持度小于4的SNP位點,再次過濾掉混池之間型一致的SNP位點以及隱性混池不是來自于隱性親本的SNP位點,最終得到高質(zhì)SNPTotal

高質(zhì)量B1vs SNP-index方法關(guān)聯(lián)結(jié)SPindex是近年來的一種通過混池間的型頻率差異進行標記關(guān)聯(lián)分析的方法[19],主要是尋找混池之間型頻的顯著差異,用(SPindex)統(tǒng)計。標記SP與性狀關(guān)聯(lián)度越強,(SPindex)1。Maa表示aa池來源于母本的深度;Paa表示aaMabab池來源于母本的深度;Pab表示ab為了消除假陽性的位點,利用標記在組上的位置,可對同一條上標記的ΔSNP-index值進行擬合[19]本項目并采用DISTANCE方法對△SNP-index進行擬合,取每個SNP2M的SNP的△SNP-index的中值作為該位點擬合后池分別的SNP-index及△SNP-index的分布如下圖所示:SNP-index關(guān)聯(lián)值在上的分注:橫坐標為名稱,彩色的點代表計算出來的-iex(或index)值,黑色的線為擬合后的-ndex或inde)1混池的inde2inexindex0.99.95的.9根據(jù)計算機模擬實驗[8]計算結(jié)果,當置信度為0.95時,共得到1個區(qū)域,總長度為1.702Mbp,其中包含非同義突變SNP位點的共3個,同義突變SNP位點的共145個。的定位區(qū)域,利用擬合后△SNP-index的99百分位數(shù),共得到1個區(qū)域,總長度為1.602Mbp,其中包含非同義突變SNP位點的共1個,同義突變SNP位點的基因共211個,移碼突變的共0個。然而由于未達到理論閾值,這個區(qū)域很可ChromosomeGene--以Mb為單位;Genenumber:關(guān)聯(lián)區(qū)域內(nèi)的數(shù)量。ED方法關(guān)聯(lián)結(jié)歐式距離(EuclideanDistance,ED)算法,是利用數(shù)據(jù)尋找混池間存在顯ED0。ED方法的計算公式如下所示,ED值越大表明該標記在兩混Amut為A堿基在突變混池中的頻率,Awt為A堿基在野生型混池中的頻率;CmutC堿基在突變混池中的頻率,CwtC堿基在野生型混池中的頻率;Gmut為G堿基在突變混池中的頻率,Gwt為G堿基在野生型混池中的頻率;Tmut為T堿基在突變混池中的頻率,Twt為T堿基在野生型混池中的頻率。在進行分析時,利用兩混池間型存在差異的SNP位點,統(tǒng)計各個堿基在不EDED值進行乘方處理[22],本項目取原始ED的4次方作為關(guān)聯(lián)值以達到消除背景噪音的功能,然后采用局部線性回歸LOESS方法對ED值進行擬合,關(guān)聯(lián)值分布如下圖所示:注:橫坐標為名稱,彩色的點代表每個SNP位點的ED值,黑色的線為擬合后的ED值,紅色的虛線代表median+3SD作為分析的關(guān)聯(lián)閾值[7]0.18。根據(jù)關(guān)聯(lián)閾值判定,共得到16個區(qū)域,總長度為40.84Mb,共包含484個,其中非同義突變SNP位點的共63個。其中包含的區(qū)域列表如下:ChromosomeGene--以Mb為單位;Genenumber:關(guān)聯(lián)區(qū)域內(nèi)的數(shù)量。候選區(qū)域篩ChromosomeGene--以Mb為單位;Genenumber:關(guān)聯(lián)區(qū)域內(nèi)的數(shù)量。候選區(qū)域的SNP注本項目樣品間在候選區(qū)域內(nèi)的SNP候選區(qū)域內(nèi)SNPPvsB1vs4732 324400注:Type:SNP所在區(qū)域或類型;PvsM和B1vsB2為兩個樣品間在關(guān)聯(lián)區(qū)域內(nèi)存在的對應(yīng)類型的SNP據(jù)統(tǒng)計,親本間存在非同義突變的SNP3個,這些SNP很有可能與性狀直同義突變的SNP共3個,非同義突變共3個。候選區(qū)域的注對候選區(qū)間內(nèi)的編碼進行多個數(shù)據(jù)(NRSwiss-ProtGOKEGGCOG)的深度注釋通過詳細的注釋快速篩選候選候選區(qū)域內(nèi)共注釋到39個其中在親本間存在非同義突變共注釋到88個,注釋結(jié)果見下表AnnotatedGeneNon_SynGene4GeneNum:候選區(qū)域內(nèi)親本間存在非同義突變的數(shù)。候選區(qū)域內(nèi)的GO富集分GO數(shù)據(jù)庫是一個結(jié)構(gòu)化的標準生物學(xué)注釋系統(tǒng)建立了及其產(chǎn)物功能的標表的功能越具體。通過GO分析并按照Cellularcomponent、MolecularFunction、Biologicalprocess對進行分類。候選區(qū)域內(nèi)GO分類統(tǒng)計結(jié)果見下圖候選區(qū)域內(nèi)GO注釋聚類topGO有向無環(huán)圖能直觀展示關(guān)聯(lián)區(qū)域內(nèi)富集的GOterm及其層級關(guān)系。有向無環(huán)圖為關(guān)聯(lián)區(qū)域內(nèi)GO富集分析結(jié)果的圖形化展示方式,分支代表包含候選區(qū)域內(nèi)的Cellularcomponent的topGO有向無環(huán)圖如下候選區(qū)域內(nèi)的CellularcomponenttopGO有向無環(huán)圖分候選區(qū)域GO的富集分析結(jié)果見下表候選區(qū)域內(nèi)的topGO富集結(jié)果示意表(CellularATP2.0e-L-ascorbicacid42.5e-protein3.2e-proteinspecific0naringenin3-dioxygenase74ligase7isomerasemethionine1

注:注:GO.ID:GO節(jié)點 數(shù)DEG注釋到該功能的數(shù);Expected:注釋到該功能DEG數(shù)目的期望值;KS:富集節(jié)點的顯著性統(tǒng)計,KS候選區(qū)域內(nèi)的KEGG富集分在生物體內(nèi),不同相互協(xié)調(diào)來行使生物學(xué)功能,不同的間相同的作用通路為一個Pathway,基于Pathway分析有助于進一步解讀的功能。KEGG是關(guān)候選區(qū)域內(nèi)的KEGG注釋結(jié)果按照通路類型進行分類,分類圖如下候選區(qū)域內(nèi)的代謝通路結(jié)果見下圖注:紅色框標記的為關(guān)聯(lián)區(qū)域內(nèi)的,藍色框代表該通路所需要的所有的酶,說明對應(yīng)與此酶相關(guān),而 KEGG候選區(qū)域內(nèi)的KEGG富集部分結(jié) Proteinprocessinginendoplasmic Flavonoidbiosynthesis Plant-pathogeninteraction Limoneneandpinenedegradation Porphyrinandchlorophyllmetabolism Tyrosine Pyruvate 注:注:Pathway:KEGG通路名稱;KO:KEGG通 ent_Factor:富集因子;Q_value:富集的顯候選區(qū)域內(nèi)COG分類統(tǒng)數(shù)據(jù)庫可以對產(chǎn)物進行直系同源分類。關(guān)聯(lián)區(qū)域內(nèi)COG分類統(tǒng)計結(jié)果見候選區(qū)域內(nèi)COG注釋分類候選區(qū)域內(nèi)可變剪接事件統(tǒng)-0-0-0-0-0-0--注:(1)event_id:AS事件(2)event_type:AS事件類型(3)gene_id:cufflink組裝結(jié)果中(4)chrom:(5)event_start:AS事件起始位置(6)event_end:AS事件結(jié)束位(7)event_pattern:AS事件特征(8)strand:正負鏈信息(9)fpkm:此AS類型該表達候選區(qū)域內(nèi)新分定位區(qū)域內(nèi)共找到XX個,XX個新。分別對這些進行功能注釋,AnnotatedAnnotated 候選區(qū)域內(nèi)差異表達分候選區(qū)域內(nèi)差異表達數(shù)目統(tǒng)候選區(qū)域內(nèi)的差異表達及數(shù)目統(tǒng)計結(jié)果見下表DEG DEG up- down-Pvs 注:DEGSet:差異表達集名稱;DEGNumber:差異表達數(shù)目;up-regulated:上調(diào)的數(shù)目候選區(qū)域內(nèi)差異表達功能注在各數(shù)據(jù)庫獲得的候選區(qū)域內(nèi)差異表達注釋統(tǒng)計結(jié)果見下表Annotated AnnotatedGene 圖5親本間結(jié)果可視化在上的分注:從外到里依次為:第一圈:坐標,第二圈:差異表達分布,第三圈:SNP密度分布,第四圈數(shù)據(jù)上傳中有Readme.txt說明,詳細介紹了每個文件所代表的內(nèi)容。上傳的結(jié)果數(shù)據(jù)文件多以文本格式為主(fa文件、txt文件,detail文件,xls文件等)。在報告文件含有SVG格式的文件,SVG是矢量化的文件,可以隨意DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqaligner[J].Bioinformatics,2013,29(1):15-21McKennaA,HannaM,BanksE,SivachenkoA,etal.TomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata.GenomeRes.201020:1297-303Picard:JokeReumers,PeterDeRijk,etal.Optimizedfilteringreducestheerrorrateindetectinggenomicvariantsbyshort-readsequencing.NatureCingolaniP,PlattsA,WangleL,etal.Aprogramforannotatingandpredictingtheeffectsofsinglenucleotidepolymorphisms,SnpEff:SNPsinthegenomeofDrosophilamelanogasterstrainw1118;iso-2;iso-3.",Fly(Austin).2012Florea,L.,L.SongandS.L.Salzberg(2013).Thousandsofexonskipeventsdifferentiatesplicingpatternsinsixteenhumantissues.F1000Research2013,2:188TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511-515.AltschulSF,MaddenTL,Sch?fferAA,ZhangJ,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch1997,25(17):3389-3402.DengYY,LiJQ,WuSF,ZhuYP,etal.IntegratedNRDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering2006.,32(5):71-74.ApR,BairochA,WuCH,BarkerWC,etal.UniProt:theUniversalProteinknowledgebase.NucleicAcidsResearch2004Jan1;32(Databaseissue):D115-9.AshburnerM,BallCA,BlakeJA,BotsteinD,etal.Geneontology:toolfortheunificationofbiology.Naturegenetics2000,25(1):2529.TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch2000,28(1):33KanehisaM,GotoS,KawashimaS,OkunoY,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch2004,32(Databaseissue):D277Jiang,H..StatisticalinferencesforisoformexpressioninRNA-Seq.Bioinformatics2009,25:1026–1032.TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511515.Djebali,SarahandMortazavi,etal.Landscapeoftranscriptioninhumancells.Nature2012,489(7414).pp.101-108.ISSN0028-0836.AndersS,HuberW.Differentialexpressionysisforsequencecountdata.GenomeBiology2010,11:R106.Leng,N.,J.A.Dawson,J.A.Thomson,etal.EBSeq:AnempiricalBayeshierarchicalmodelforinferenceinRNA-seqexperiments,Bioinformatics,2013.Fekih,R.etal.MutMap+:GeneticMapandMutantIdentificationwithoutCrossinginRice.PLoSOne8,1–10(2013).Takagi,H.etal.QTL-seq:RapidmapoftativetraitlociinricebywholegenomeresequencingofDNAfromtwobulkedpopulations.PlantJ.74,174–183Hill,J.T.etal.MMAPPR:MutationMapysisPipelineforPooledRNA-seq.GenomeRes.23,687–697(2013).附表一: Nucleotidesequenceresultingfromthetranscriptionof omicDNAtomRNA.轉(zhuǎn)錄本

genecanhavedifferenttranscriptsorsplicevariantsresultingfromthealternativesplicingofdifferentexonsingenes.互補 ComplementaryDNA.DNAobtainedbyreversetranscriptionofaRNACodingSequence.TheportionofageneoranmRNAthatcodesforaprotein.Intronsare

codingsequences,norarethe5'or3'UTR.ThecodingsequenceinacDNAormaturemRNAincludeseverythingfromthestartcodonthroughtothestopcodon,inclusive.UntranslatedRegion.The5'UTRistheportionofanmRNAfromthe5'endtothepositionofthefirstcodonusedintranslation.The3'UTRistheportionofanmRNAfromthepositionofthelastcodonthatisusedintranslationtothe3'end.SingleNucleotidePolymorphism.StrictlyspeakingaSNPisavariationorpolymorphismintomesequenceinvolvingasinglenucleotidepositiondiffersbetweenmembersofabiologicalspeciesorpairedchromosomes. lele ternativeformofanucleotidesequence,ageneoralocusint otypereferstothepairofallelesforagivenregionof omethatan型ferenceAssembly)堿基識(Base(PhredQualitySco

Orthologuesaregenesderivedfromacommonancestorthroughverticaldescent.Thisisoftenstatedasthesamegeneindifferentspecies.Incontrast,paralogsaregeneswi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論