版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
工作進展1整理課件RNA-sequences分析方法
hisat+stringtie+ballgown2整理課件HISAT1:index算法基于BWT和以BWT為根底的FM
index:
FM算法是以BWT為根底,在計算的過程中加了兩個參數(shù),一個是OCC,Occ[c,r]表示在BWT〔T〕中第r行之前出現(xiàn)字符c的個數(shù),因為如果把整個基因組存進去,每次都要重頭數(shù)一遍,消耗量太大,所以是以幾百行為一組為一個checkpoint,這樣內(nèi)存就小了,也方便檢索;另外一個是SA,
記錄第r行在參考基因組中是什么位置,這個過程是在BWT操作中實現(xiàn)的。2:建立index的方式:全基因組FMindex和局部index〔特色,新的建索引庫策略〕核心算法會用到tophat3上HISAT在基因組范圍內(nèi)有48000個局部FMindex每個長度64k,通過測試數(shù)據(jù)和真實數(shù)據(jù)的比較,發(fā)現(xiàn)這是一個最快的軟件。HISAT的根本設(shè)計原理:HISAT利用bowtie2來建立很多低水平結(jié)果的FMindex,這些index包含兩種類型:1:全基因組index;2:大量的小FMindex,每個代表64k,也因為建了很多小的index,所以總的內(nèi)存使用情況也較低3:100bp的reads至少跨越兩個exon的占34.5%,分為三類:1:每個外顯子至少16bp〔25.1〕;每個外顯子8-15bp〔5.1〕,每個外顯子1-7bp〔4.2〕;另外跨越三個的3.1%。針對每種reads都有相應(yīng)的比對策略根本的比對策略的思想是先在眾多index中找,如果比對上多個地方,就往兩邊延伸;4:根本的性能比照速度:110,193條reads/s,tophat1,954;利用模擬數(shù)據(jù)正確比對率〔99.2%〕,tophat2(97.4);在跨越2個exon,只有1-7bp的reads來說;
uniq比對率HISAT〔94.4〕tophat2(77.8)另外敏感度和準(zhǔn)確性HISAT〔97.3,94.8〕Tophat2〔90.6,82.6〕100bp,20M的reads用時26.7min,tophat21170分鐘3整理課件stringtieStringTie和Cufflinks算法比照cufflinksparsimony算法
(簡約算法):生成最少的亞型,這種算法沒有考慮轉(zhuǎn)錄豐度,在isoforms方面算的不準(zhǔn)。其在算表達量的時候,按照圖上的說法是用了最大似然冗余算法。stringTie先將reads分為不同的類,然后再針對每個類的reads生成一個拼接圖來確定轉(zhuǎn)錄本,之后每個轉(zhuǎn)錄本產(chǎn)生一個流神經(jīng)網(wǎng)絡(luò)的最大流算法來評估表達水平這個算法的意思對應(yīng)過來就是在一個基因處的假設(shè)干個轉(zhuǎn)錄本,如何分配reads的數(shù)目才能讓每個轉(zhuǎn)錄本的數(shù)目都處在最多的狀態(tài)。這個算法是求解最優(yōu)化的。在RNA組裝方面優(yōu)劣勢比照在組裝方面StringTie具有一些優(yōu)勢,在低表達的局部,閾值過濾5%的StringTie比閾值過濾10%的準(zhǔn)確度和敏感度還要高〔這里的準(zhǔn)確度和敏感度是把原始數(shù)據(jù)隨機抽取出來一局部數(shù)據(jù),看看這兩組隨機抽出來的數(shù)據(jù)的重合度如何和ROC是一個事情〕關(guān)于組裝效果,StringTie要好于cufflinks,StringTie可以正確組裝10990長的轉(zhuǎn)錄本,cunfflinks組裝長度為7187,同時他們又遠遠好于其他軟件。性能比照時間上來說:StringTie30min,cufflink81min,比其他軟件快3倍,內(nèi)存比cufflink少一半,找出來的基因中,cufflink找出來的70%在StringTie中有重合,相比于cufflink,StringTie在基因重構(gòu)方面對三種類型的基因更有效,分別是:低冗余,高exon數(shù)目和多重轉(zhuǎn)錄本。StringTie之所以能取得好的效果,是因為模型中有個求最有的過程;其可以通過轉(zhuǎn)錄組的每個組裝平衡覆蓋度,算法自己可以通過合并覆蓋到的深度來限制組裝。4整理課件Ballgown
ballgown是一個R腳本,用來分析差異結(jié)果的,差異分布的結(jié)果是基于F-test來檢測的,和我們以前用的有些不同就測試內(nèi)存而言,cu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)權(quán)物業(yè)轉(zhuǎn)讓合同范例
- 小區(qū)蔬菜代售合同范例
- 餐飲合同項目合同范例
- 麻花銷售合同范例
- 特殊街道改造合同范例
- 鞋帽購銷合同范例
- 門窗公司聘用合同范例
- 承包私人土地合同范例
- 重開購車合同范例
- 取暖合同范例
- 數(shù)字信號實驗報告 IIR數(shù)字濾波器設(shè)計
- 子宮動靜脈瘺課件
- 國土資源調(diào)查與管理
- 水庫黑臭水體綜合整治工程項目建議書可行性研究報告
- GRR-計數(shù)型(范例填寫)
- 【徐福記集團企業(yè)內(nèi)部控制現(xiàn)狀及完善建議分析(11000字論文)】
- 焦度計的光學(xué)結(jié)構(gòu)原理
- GRR表格MSA第四版完整版
- 低值易耗品的驗收
- 公司年會節(jié)目單表格模板
- 抖音短視頻運營部門薪酬績效考核體系(抖音、快手、B站、西瓜視頻、小紅書短視頻運營薪酬績效)
評論
0/150
提交評論