版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
生物信息學(xué):預(yù)測1.生物信息學(xué)最核心的問題:預(yù)測2.生物信息學(xué)工具的作用:預(yù)測3.生物信息學(xué)所有的分析:預(yù)測4.基本假設(shè)(貝葉斯的哲學(xué)理念):我們能夠通過對(duì)已知世界的觀察,總結(jié)經(jīng)驗(yàn),并以此來預(yù)測未知世界已經(jīng)存在或者即將發(fā)生的事物/事件5.在生物信息學(xué)中的應(yīng)用:對(duì)現(xiàn)有的數(shù)據(jù),使用合適的算法,進(jìn)行訓(xùn)練,構(gòu)建計(jì)算模型和計(jì)算工具,預(yù)測未知的現(xiàn)象本章內(nèi)容提要1.統(tǒng)計(jì)學(xué)基礎(chǔ)2.序列模式3.預(yù)測性能檢驗(yàn)4.位點(diǎn)特異性打分矩陣(PSSM)5.模體發(fā)現(xiàn):GibbsSampler等6.馬爾科夫及隱馬爾科夫模型7.模式識(shí)別的其他算法簡介1.統(tǒng)計(jì)學(xué)基礎(chǔ)排列組合從N個(gè)物品中取出k個(gè)物品的排列數(shù)(排序):從N個(gè)物品中取出k個(gè)物品的組合數(shù)(不排序):概率模型概率模型:一個(gè)能夠通過不同的概率產(chǎn)生不同結(jié)果的模型。概率模型可以模擬或者仿真某一類型的所有事件,并且對(duì)每個(gè)事件賦予一個(gè)概率。色子模型:一個(gè)色子存在6個(gè)概率值:p1,p2,…,p6,其中,擲出i的概率為pi(i=1,2,…,6)。因此:pi≥0,且考慮三次連續(xù)的擲色子,結(jié)果為[1,6,3],則總概率為:p1p6p3概率分布1.考慮連續(xù)變量x,例如:物體的重量。則當(dāng)重量確切為1公斤時(shí)的概率,為0。2.變量的區(qū)間:P(x0≤x≤x1)3.當(dāng)區(qū)間無限小->0時(shí),上式:P(x-δx/2
≤x≤x+δx/2
)=f(x)δx4.f(x)稱為概率密度函數(shù)5.因此:且二項(xiàng)分布1.事件只有兩種可能出現(xiàn)的結(jié)果。例如擲硬幣,正面記為“1”,反面記為“0”。2.則,擲硬幣N次,有k次是1的概率為:二項(xiàng)分布的期望值期望值代表了隨機(jī)變量的“平均”值。它是把每個(gè)可能取值乘以對(duì)應(yīng)的概率,然后累加起來。期望值E(x)=μ二項(xiàng)分布的與標(biāo)準(zhǔn)方差標(biāo)準(zhǔn)方差描述了隨機(jī)變量中具有正概率值的分散性。所有可能的值離期望值的距離的平方,再乘以對(duì)應(yīng)的概率。方差VarX=σ2泊松分布1.稀有事件發(fā)生的概率:在一個(gè)連續(xù)的時(shí)間或空間中,稀有離散變量出現(xiàn)的概率2.N->∞,E(x)=μe=2.71828…泊松分布與二項(xiàng)分布的近似對(duì)于大的N及小的p值的二項(xiàng)分布,能夠相當(dāng)準(zhǔn)確地用一個(gè)參數(shù)為μ=Np的泊松分布近似。當(dāng)實(shí)驗(yàn)次數(shù)很多而概率很小時(shí):二項(xiàng)分布~泊松分布例1:鳥槍法的覆蓋率假設(shè):需要測序的BAC長度200kbp;總共測序的序列數(shù)量:N;每次測序:500bp;每次測序的覆蓋率p:500/200kbp=0.0025因此:總覆蓋率μ=Np(每個(gè)點(diǎn)平均覆蓋到的次數(shù))k:測序能夠覆蓋到點(diǎn)X的次數(shù)。鳥槍法:覆蓋率點(diǎn)X被覆蓋k次的概率:(二項(xiàng)分布~泊松分布)當(dāng)點(diǎn)X一次都不被覆蓋時(shí),k=0;此時(shí)的概率為:覆蓋率vs.準(zhǔn)確性泊松分布:例2Prof.Gene發(fā)現(xiàn)一條1mbp的序列上存在5個(gè)某種調(diào)控信號(hào),該調(diào)控信號(hào)在人的基因組上平均每500kbp出現(xiàn)一個(gè)。那么,完全是隨機(jī)產(chǎn)生該種情況的概率是多少?本例中,N=3.0*109bp->∞,E(x)=μ=2(1mbp)統(tǒng)計(jì)性顯著:p-value<0.05非常顯著:p-value<0.01超幾何分布與二項(xiàng)分布的區(qū)別:不放回抽樣。例:有N個(gè)球,其中紅球M個(gè),白球N-M個(gè),每次拿出一個(gè)球再放回,總共n次,其中有m個(gè)球是紅球的概率為(二項(xiàng)式分布):p=M/N超幾何分布(2)上例改為:有N個(gè)球,其中紅球M個(gè),白球N-M個(gè),每次拿出一個(gè)球不放回,總共n次,其中有m個(gè)球是紅球的概率為:并且,0≤m≤M<N超幾何分布右尾概率上例再改為:有N個(gè)球,其中紅球M個(gè),白球N-M個(gè),每次拿出一個(gè)球不放回,總共n次,其中有至少有m個(gè)球是紅球的概率為:并且,0≤m≤M<N超幾何分布左尾概率上例再改為:有N個(gè)球,其中紅球M個(gè),白球N-M個(gè),每次拿出一個(gè)球不放回,總共n次,其中有最多有m個(gè)球是紅球的概率為:并且,0≤m≤M<N超幾何分布雙尾概率方法一:所有出現(xiàn)概率<=觀察表概率的概率之和方法二:雙尾概率=2×min(左尾概率,右尾概率)超幾何分布:例Prof.Gene從26873個(gè)人的蛋白質(zhì)中預(yù)測了2264個(gè)具有某種特定功能的底物,并進(jìn)行進(jìn)一步的分析。其中,已知有421個(gè)人的蛋白質(zhì)具有某種功能結(jié)構(gòu)域D,而在預(yù)測的2264個(gè)底物中,有94個(gè)蛋白質(zhì)具有結(jié)構(gòu)域D。問:結(jié)構(gòu)域D在2264個(gè)底物中是顯著出現(xiàn),顯著不出現(xiàn),還是隨機(jī)出現(xiàn)?問題轉(zhuǎn)化:在26873個(gè)人的蛋白質(zhì)中有421個(gè)具有功能結(jié)構(gòu)域D,任意取出2264個(gè)蛋白質(zhì),其中至少有94個(gè)具有功能結(jié)構(gòu)域D的概率是多少?N=26873;n=2264;M=421;m=94;Fisher’sExactTest超幾何分布的精確概率計(jì)算:2X2表B2:抽樣B1:剩余A2:陽性A1:陰性超幾何分布計(jì)算公式p-value==如上例a+b+c+d=26873c+d=2264b+d=421d=94/fisher.htmFisherExact.jarCMD下輸入命令:java–jarFisherExact.jarNMnmFisher’sExactTest:再例假設(shè),我們調(diào)查了100個(gè)學(xué)生,比較是否男生比女生更喜歡玩電子游戲。數(shù)據(jù)統(tǒng)計(jì)如下:玩游戲不玩游戲男生4515女生2713P-value=0.496854471943056>0.05統(tǒng)計(jì)性不顯著!序列模式識(shí)別2.序列模式1.功能結(jié)構(gòu)域,functionaldomain2.模塊,BLOCK3.模體,motif4.模式,pattern/profile功能結(jié)構(gòu)域1.具有完整的、獨(dú)立的三級(jí)結(jié)構(gòu)2.具有特定的生物學(xué)功能3.一般長度,幾十到幾百個(gè)氨基酸4.允許插入/缺失,即允許存在gap模塊/BLOCK1.幾個(gè)到幾十個(gè)氨基酸2.無gap,從全局多序列比對(duì)的結(jié)果直接處理得到3.描述蛋白質(zhì)家族或者一類蛋白質(zhì)的序列保守性BLOCK模體/Motif1.不具有獨(dú)立的三級(jí)結(jié)構(gòu)2.具有特定的生物學(xué)功能:結(jié)合,修飾,細(xì)胞亞定位,維持結(jié)構(gòu),等3.長度一般幾個(gè)到幾十個(gè)氨基酸或者堿基;4.例如,SUMO化的序列模體:Ψ-K-X-E(Ψ:A,I,L,V,M,F,P;X:任意氨基酸)模式/Pattern/Profile1.在算法上用來描述一類功能結(jié)構(gòu)域、模體或者模塊的表示方式2.根據(jù)序列數(shù)據(jù),構(gòu)建的預(yù)測模型3.數(shù)據(jù)形式:正則表達(dá)式4.用來預(yù)測新的可能符合特定模式的序列5.例如,直接將Ψ-K-X-E視為SUMO化位點(diǎn)的,普適的“模式”,則可以預(yù)測所有包含該模式的蛋白質(zhì)序列3.預(yù)測性能的計(jì)算和檢驗(yàn)1.樣本/檢驗(yàn)數(shù)據(jù):陽性數(shù)據(jù)(P),陰性數(shù)據(jù)(N)a.陽性數(shù)據(jù)(P):真實(shí)的,被實(shí)驗(yàn)所證實(shí)的數(shù)據(jù)b.陰性數(shù)據(jù)(N):被實(shí)驗(yàn)所證明為無功能的數(shù)據(jù)2.對(duì)于預(yù)測結(jié)果的評(píng)測,定義:a.真陽性(TP):陽性數(shù)據(jù)中被預(yù)測為陽性的數(shù)據(jù)b.假陽性(FP):陰性數(shù)據(jù)中被預(yù)測為陽性的數(shù)據(jù)c.真陰性(TN):陰性數(shù)據(jù)中被預(yù)測為陰性的數(shù)據(jù)d.假陰性(FN):陽性數(shù)據(jù)中被預(yù)測為陰性的數(shù)據(jù)TPFPFNTNPositiveNegativeCutoff常用的檢驗(yàn)指標(biāo)1.靈敏度(Sensitivity,Sn)對(duì)于真實(shí)的數(shù)據(jù),能夠預(yù)測成“真”的比例是多少2.特異性(Specificity,Sp)對(duì)于陰性的數(shù)據(jù),能夠預(yù)測成“假”的比例是多少3.準(zhǔn)確性(Accuracy,Ac)對(duì)于整個(gè)數(shù)據(jù)集(包括陽性和陰性數(shù)據(jù)),預(yù)測總共的準(zhǔn)確比例是多少4.馬修相關(guān)系數(shù)(Mathewcorrelationcoefficient,MCC)
當(dāng)陽性數(shù)據(jù)的數(shù)量與陰性數(shù)據(jù)的數(shù)量差別較大時(shí),能夠更為公平的反映預(yù)測能力,值域[-1,1]常用的檢驗(yàn)指標(biāo)(2)ROCcurveX軸:1-SpY軸:SnROC的面積越大,表明其預(yù)測能力越強(qiáng)預(yù)測性能的計(jì)算Self-consistencyLeave-one-outvalidationn-foldcross-validationSelf-consistency1.將訓(xùn)練數(shù)據(jù)當(dāng)成測試數(shù)據(jù)訓(xùn)練數(shù)據(jù)中所有的陽性數(shù)據(jù)為測試數(shù)據(jù)中的陽性數(shù)據(jù)訓(xùn)練數(shù)據(jù)中所有的陰性數(shù)據(jù)為測試數(shù)據(jù)中的陰性數(shù)據(jù)2.反映當(dāng)前預(yù)測工具對(duì)目前已知的數(shù)據(jù)的預(yù)測能力3.假設(shè):根據(jù)目前已知的數(shù)據(jù)所構(gòu)建的計(jì)算模型能夠反映未知的數(shù)據(jù)的模式4.缺點(diǎn):不能反映計(jì)算模型的穩(wěn)定性Leave-one-outvalidation每次從數(shù)據(jù)集中去掉一個(gè)重新進(jìn)行訓(xùn)練,構(gòu)建預(yù)測模型,并對(duì)去除的數(shù)據(jù)進(jìn)行預(yù)測。保證每個(gè)數(shù)據(jù)去掉一次n-foldcross-validation將數(shù)據(jù)集分成n組,并保證陽性數(shù)據(jù)與陰性數(shù)據(jù)的比例與原數(shù)據(jù)相同隨意將n-1組作為訓(xùn)練數(shù)據(jù),1組作為檢驗(yàn)數(shù)據(jù),計(jì)算性能重復(fù)若干次,例如,重復(fù)20次計(jì)算平均值缺點(diǎn):每次計(jì)算結(jié)果有偏差預(yù)測性能及穩(wěn)定性1.Self-consistency:反映檢驗(yàn)性能(對(duì)已知數(shù)據(jù)的預(yù)測能力)2.Leave-one-outvalidation&n-foldcross-validation:反映預(yù)測系統(tǒng)的穩(wěn)定性(對(duì)未知數(shù)據(jù)的預(yù)測能力)3.預(yù)測性能vs.檢驗(yàn)性能a.差距較?。合到y(tǒng)穩(wěn)定b.差距過大:系統(tǒng)不穩(wěn)定,數(shù)據(jù)過訓(xùn)練過訓(xùn)練1.根據(jù)已知數(shù)據(jù)構(gòu)建的模型只能很好的適用于訓(xùn)練數(shù)據(jù)2.不適合用來預(yù)測未知數(shù)據(jù)3.對(duì)訓(xùn)練數(shù)據(jù)的微小改變對(duì)于預(yù)測性能影響過大4.預(yù)測工具過訓(xùn)練:只能很好的符合訓(xùn)練數(shù)據(jù),而對(duì)新數(shù)據(jù)則性能很差4.位點(diǎn)特異性打分矩陣(1)PositionSpecificScoringMatrix(PSSM)/WeightMatrixModel(WMM)(2)對(duì)蛋白質(zhì)家族進(jìn)行多序列比對(duì)分析,發(fā)現(xiàn)結(jié)果中保守的BLOCK(3)根據(jù)BLOCK序列推導(dǎo)相應(yīng)的PSSM(4)不考慮gap的影響(5)BLOCK長度一般在幾個(gè)~幾十個(gè)殘基/堿基BLOCK->PSSM代表每一列二十種氨基酸矩陣中的數(shù)值:當(dāng)前位置上,某種氨基酸出現(xiàn)的頻率的log值第二種PSSM每一個(gè)位置上顯示每種氨基酸或者堿基出現(xiàn)的頻率堿基的位置四種堿基第三種PSSM每一個(gè)位置顯示氨基酸/堿基出現(xiàn)的概率PSSM矩陣使用P(S|+),根據(jù)陽性訓(xùn)練數(shù)據(jù)計(jì)算出來的概率;未知序列:ACGGTACGG背景概率選擇,P(S|-)1.負(fù)樣本/陰性數(shù)據(jù)的概率計(jì)算2.計(jì)算方法:A.DNA序列,四種堿基出現(xiàn)的頻率B.蛋白質(zhì)序列,20種氨基酸出現(xiàn)的頻率OddsRatioLog-oddsRatio計(jì)算流程:滑動(dòng)窗口窗口寬度9bp,依次打分設(shè)定閾值(Threshold),凡是高于閾值的預(yù)測為陽性,低于閾值的預(yù)測為陰性5.模體發(fā)現(xiàn):GibbsSamplerGibbsSampler是一種Monte-Carlo類的方法
隨機(jī)抽樣對(duì)于輸入序列,找到一個(gè)最大的似然函數(shù)GibbsSampler算法(1)1.從每條序列上隨機(jī)的抽取一段序列,序列長度固定所有序列motifGibbsSampler算法(2)2.構(gòu)建PSSM/權(quán)重矩陣GibbsSampler算法(3)3.隨機(jī)挑選一條序列GibbsSampler算法(4)4.用構(gòu)建好的PSSM對(duì)該序列上所有可能的motif進(jìn)行打分(窗口滑動(dòng),每次1個(gè)氨基酸或者堿基)GibbsSampler算法(5)5.根據(jù)似然性的計(jì)算,得到似然值最大的模體,即新的motifGibbsSampler算法(6)6.更新PSSM矩陣GibbsSampler算法(7)7.反復(fù)迭代計(jì)算,直到似然性結(jié)果與PSSM不再發(fā)生變化StrongMotifACGTAGCAGibbsSampler:總結(jié)1.模體發(fā)現(xiàn)的一種隨機(jī)算法(MonteCarlo)2.尋找次優(yōu)解的算法3.根據(jù)PSSM/WMM對(duì)隨機(jī)抽取的序列進(jìn)行打分來調(diào)整采樣,直到結(jié)果收斂4.不能夠保證每次運(yùn)算的結(jié)果一致:需要多運(yùn)算幾次,并進(jìn)行比較5.對(duì)蛋白質(zhì)、DNA、RNA序列模體的發(fā)現(xiàn)有幫助期望最大化算法1.ExpectationMaximizationAlgorithm2.已開發(fā)工具:MultipleEMforMotifElicitation(MEME)3.motif大致的位置與長度是確定的4.重點(diǎn):確定motif在每條序列上的起始位置5.分為兩步:Estep:估計(jì)motif起始位置的期望最大化Mstep:motif似然性的期望最大化期望最大化算法(2)1.例,假設(shè)10條序列,長度20個(gè)堿基2.進(jìn)行多序列比對(duì),大致確定motif的位置3.待找motif長度為4個(gè)堿基Motif的概率vs.背景概率1.計(jì)算motif中每個(gè)位置的堿基的概率分布2.背景概率:根據(jù)剩下的序列計(jì)算四種堿基的概率分布似然性概率值的計(jì)算似然性概率值的計(jì)算(2)計(jì)算每條序列,在不同的起始位置,其似然性的概率值Estep:起始位置估計(jì)Z值:motif在不同位置起始的幾率值假設(shè),motif在任意位置起始的概率相同,則Z值最大化,即為“最可能的起始位置”Mstep:P值最大化根據(jù)選擇的最大Z值,重新計(jì)算矩陣,并計(jì)算P值最大的motif;P值最大原先的motifEM算法:迭代Gibbs&EM:總結(jié)1.基本假設(shè):所有序列都擁有,且僅擁有一個(gè)motif2.估算兩個(gè)關(guān)聯(lián)的函數(shù):Gibbs(WMM&似然性),EM(motif起始位置,Z值&似然性)3.利用兩個(gè)函數(shù)的其中之一修正另一個(gè),采取迭代/反復(fù)計(jì)算的方法,使結(jié)果收斂4.不保證得到的結(jié)果為最優(yōu),近似算法有待解決的問題1.給定的一組序列,可能的motif僅在部分序列中出現(xiàn),怎么解決?2.給定一組序列,其中存在某種motif可能在序列上出現(xiàn)兩次以上,如何解決?6.馬爾科夫及隱馬爾科夫模型1870年,俄國有機(jī)化學(xué)家VladimirV.Markovnikov首次提出馬爾科夫模型馬爾科夫模型馬爾科夫鏈隱馬爾科夫模型VladimirV.Markovnikov馬爾科夫模型馬爾科夫模型:隨機(jī)過程的一種,主要特點(diǎn)為“無后效性”,即根據(jù)當(dāng)前的狀態(tài)即可完全確定將來的狀態(tài)馬爾科夫性&馬爾科夫鏈1.定義:對(duì)于隨機(jī)變量X1,X2,X3…,這些變量的范圍,即他們所有可能取值的集合,被稱為“狀態(tài)空間”,而Xn的值則是在時(shí)間n的狀態(tài)。如果Xn+1對(duì)于過去狀態(tài)的條件概率分布僅是Xn的一個(gè)函數(shù),則符合馬爾科夫性:2.具有馬爾科夫性的過程稱為馬爾科夫過程3.時(shí)間(先后順序)和狀態(tài)都離散的馬爾科夫過程稱為馬爾科夫鏈馬爾科夫模型:參數(shù)估計(jì)轉(zhuǎn)移概率:K-order馬爾科夫模型一階馬爾科夫模型:當(dāng)前位置僅依賴前一位k階馬爾科夫模型:當(dāng)前位置依賴前一位,而前一位依賴前兩位,…,前k-1位依賴前k位0階馬爾科夫模型:位點(diǎn)獨(dú)立Markov&PSSM1.對(duì)真實(shí)的數(shù)據(jù)進(jìn)行訓(xùn)練,PSSM=~0階馬爾科夫模型2.對(duì)新序列的掃描:從頭至尾,每次移動(dòng)1~n位(窗口滑動(dòng)的方法)3.分別計(jì)算窗口內(nèi)的序列,是(+)和(-)的概率,計(jì)算log-oddsratio4.設(shè)定閾值,若高于閾值,則預(yù)測為陽性另外長度不確定!起始位置不知!Markovmodels&PSSM:Notwork!!!隱馬爾科夫模型(HMM)隱馬爾科夫模型:
1.表示狀態(tài)的可觀察符號(hào)出現(xiàn)概率已知
2.狀態(tài)之間的轉(zhuǎn)移概率未知與馬爾可夫模型的本質(zhì)區(qū)別: 隱馬模型觀察到的符號(hào)并不是與狀態(tài)一一對(duì)應(yīng),而是通過一組概率分布相聯(lián)系ProfileHMM1.多序列比對(duì)的結(jié)果中,氨基酸之間存在的關(guān)系有匹配(M),插入(I)和缺失(D):三種狀態(tài)2.HMM:三種狀態(tài)之間的轉(zhuǎn)換關(guān)系未知->hidden->轉(zhuǎn)移概率3.每個(gè)位置上的氨基酸/堿基以及插入、缺失的頻率/概率可以通過觀測求得->nothidden4.模型訓(xùn)練:通過訓(xùn)練,估算轉(zhuǎn)移概率例:CpG島的HMM1.CpG島:在人的基因組中,如果雙堿基對(duì)CG出現(xiàn),則C通常被甲基化。并且,甲基化的C很快會(huì)突變成T。因此基因組中CpG島非常少。然而,在基因的起始位置,例如promotor區(qū)域,因?yàn)楣δ艿谋J匦裕湫蛄泻苌偻蛔?,CpG的含量能夠保持在40~60%2.Howtopredict?PSSM&Markovarenotworkatall!CpG島:HMM存在兩種狀態(tài):是CpG島(CpGIsland,I),不是CpG島(Genome,G)CpG島:HMM1.Hidden:對(duì)當(dāng)前未知的堿基,跳轉(zhuǎn)到下一個(gè)位置,究竟是I還是G的概率,未知2.Observable:I和G中的四種堿基分布的概率能夠通過實(shí)際數(shù)據(jù)的觀測進(jìn)行計(jì)算轉(zhuǎn)移概率發(fā)散概率預(yù)測CpGIsland:Viterbi算法1.給定序列:ATCGCA,預(yù)測CpG的位置?初始概率:0.5CpGIsland:Viterbi算法(1)vATCGCAβ1C+G+A+0.1T+C-G-A-0.15T-0.5*0.20.5*0.3CpGIsland:Viterbi算法(2)vATCGCAβ1C+G+A+0.1T+0.015C-G-A-0.15T-0.02250.15*0.5*0.20.15*0.5*0.30.1*0.5*0.30.1*0.5*0.2CpGIsland:Viterbi算法(3)vATCGCAβ1C+0.0034G+A+0.1T+0.015C-0.00225G-A-0.15T-0.02250.0225*0.5*0.20.015*0.5*0.30.0225*0.5*0.30.015*0.5*0.2CpGIsland:Viterbi算法(4)vATCGCAβ1C+0.0034G+0.0005A+0.1T+0.015C-0.00225G-0.00034A-0.15T-0.02250.00225*0.5*0.20.00225*0.5*0.30.0034*0.5*0.20.0034*0.5*0.3CpGIsland:Viterbi算法(4)vATCGCAβ1C+0.00340.000075G+0.0005A+0.1T+0.015C-0.002250.00005G-0.00034A-0.15T-0.02250.0005*0.5*0.30.0005*0.5*0.20.0034*0.5*0.30.0034*0.5*0.2CpGIsland:Viterbi算法(5)vATCGCAβ1C+0.00340.000075G+0.0005A+0.10.0000075T+0.015C-0.002250.00005G-0.00034A-0.150.0000112T-0.02250.000075*0.5*0.20.000075*0.5*0.30.00005*0.5*0.30.00005*0.5*0.3CpGIsland:Viterbi算法(6)vATCGCAβ1C+0.00340.000075G+0.0005A+0.10.0000075T+0.015C-0.002250.00005G-0.00034A-0.150.0000112T-0.0225CpGIsland:預(yù)測結(jié)果1.ATCGCA:其中,CGC被預(yù)測為CpGIslandATCGCA2.Viterbi算法:求出在當(dāng)前結(jié)果最大的概率值,以及保存相應(yīng)的路線3.遞歸算法:動(dòng)態(tài)規(guī)劃的算法4.該例中,我們假設(shè)狀態(tài)轉(zhuǎn)移概率矩陣已知5.如何推算狀態(tài)的概率矩陣?參數(shù)估計(jì):
Baum-Welch(EM)算法目的:給定觀察值序列O,通過計(jì)算確定一個(gè)模型H,使得P(O|H)最大算法步驟: 1.初始模型(待訓(xùn)練模型)H0, 2.基于H0
以及觀察值序列O,訓(xùn)練新模型
H; 3.如果log
P(O
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物理-山東省淄博市2024-2025學(xué)年第一學(xué)期高三期末摸底質(zhì)量檢測試題和答案
- 小學(xué)一年級(jí)20以內(nèi)數(shù)學(xué)口算練習(xí)題大全
- 廈門第一中學(xué)初中英語八年級(jí)上冊(cè)-Unit-6基礎(chǔ)練習(xí)(培優(yōu)專題)
- 小學(xué)四年級(jí)數(shù)學(xué)乘除法豎式計(jì)算題
- 小學(xué)數(shù)學(xué)六年級(jí)上冊(cè)分?jǐn)?shù)乘除法計(jì)算單元小測試卷
- 普通高等學(xué)校招生全國統(tǒng)一考試(湖北卷)語文
- 《工業(yè)的區(qū)位選擇sk》課件
- 廣東省潮州市2023-2024學(xué)年高三上學(xué)期期末教學(xué)質(zhì)量檢測英語試題
- 環(huán)保企業(yè)保安工作內(nèi)容詳解
- 印刷行業(yè)印刷技術(shù)培訓(xùn)總結(jié)
- 光伏發(fā)電系統(tǒng)租賃合同范本
- 新教科版六年級(jí)上冊(cè)科學(xué)全冊(cè)知識(shí)點(diǎn)(期末總復(fù)習(xí)資料)
- 綠色建筑工程監(jiān)理實(shí)施細(xì)則
- 2024年安全員b證繼續(xù)教育考試
- 科研倫理與學(xué)術(shù)規(guī)范期末考試試題
- T-CPQS C010-2024 鑒賞收藏用潮流玩偶及類似用途產(chǎn)品
- 電商直播帶貨運(yùn)營方案(電商直播運(yùn)營部門職責(zé)說明與KPI指標(biāo) 電商直播運(yùn)營部門KPI績效考核指標(biāo))
- 110kV變電站專項(xiàng)電氣試驗(yàn)及調(diào)試方案
- 地質(zhì)勘探勞務(wù)分包合同
- 上海市徐匯區(qū)位育中學(xué)六年級(jí)上學(xué)期期末英語試題(含聽力)
- 2023中國光大銀行杭州分行招聘客戶經(jīng)理筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
評(píng)論
0/150
提交評(píng)論