版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
五節(jié)基因識(shí)別第1頁(yè)/共57頁(yè)
第五節(jié)基因識(shí)別第2頁(yè)/共57頁(yè)基因識(shí)別基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究?jī)?nèi)容基因識(shí)別問題,在近幾年受到廣泛的重視當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處理大量已測(cè)定的但未知功能或未經(jīng)注釋的DNA序列第3頁(yè)/共57頁(yè)原核基因識(shí)別 重點(diǎn)在于識(shí)別編碼區(qū)域第4頁(yè)/共57頁(yè)非翻譯區(qū)域(untranslatedregions,UTR)編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域
5’UTR---基因上游區(qū)域的非翻譯區(qū)域3’UTR---基因下游區(qū)域的非翻譯區(qū)域第5頁(yè)/共57頁(yè)對(duì)于任何給定的核酸序列(單鏈DNA或mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進(jìn)行解釋。例如,序列ATTCGATCGCAA這三種閱讀順序稱為閱讀框(readingframes)CAA
A
ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)第6頁(yè)/共57頁(yè)一個(gè)開放閱讀框(ORF,openreadingframe)是一個(gè)沒有終止編碼的密碼子序列。原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀框,或者說識(shí)別長(zhǎng)的編碼區(qū)域。第7頁(yè)/共57頁(yè)基于基因密碼子特性的識(shí)別方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率終止密碼子出現(xiàn)的期望次數(shù)為:每21個(gè)(64/3)密碼子出現(xiàn)一次終止密碼子
第8頁(yè)/共57頁(yè)基本思想:如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域?;舅惴ǎ簰呙杞o定的DNA序列,在三個(gè)不同的閱讀框中尋找較長(zhǎng)的ORF。遇到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡(jiǎn)單,不適合于處理短的ORF或者交疊的ORF。第9頁(yè)/共57頁(yè)識(shí)別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率
將一個(gè)隨機(jī)均勻分布的DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有6個(gè)、4個(gè)和1個(gè)密碼子但是在真實(shí)的氨基酸序列中,上述比例并不正確這說明DNA的編碼區(qū)域并非隨機(jī)第10頁(yè)/共57頁(yè)假設(shè)在一條DNA序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進(jìn)一步區(qū)分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,可以計(jì)算一個(gè)ORF成為編碼區(qū)域的可能性。第11頁(yè)/共57頁(yè)一個(gè)簡(jiǎn)單的統(tǒng)計(jì)模型
假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依賴關(guān)系。
令fabc代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率 給定序列
a1,b1,c1,a2,b2,c2,…,an+1,bn+1
從密碼子a1b1c1開始的閱讀框,其n個(gè)密碼子的出現(xiàn)概率為第12頁(yè)/共57頁(yè)第二種和第三種閱讀框n個(gè)密碼子出現(xiàn)的概率分別為第13頁(yè)/共57頁(yè)第i個(gè)閱讀框成為編碼閱讀框的概率 計(jì)算:算法: 在序列上移動(dòng)長(zhǎng)度為n的窗口,計(jì)算Pi
根據(jù)Pi的值識(shí)別編碼的閱讀框第14頁(yè)/共57頁(yè)基于編碼區(qū)域堿基組成特征的識(shí)別方法編碼序列與非編碼序列在堿基組成上有區(qū)別單個(gè)堿基的組成比例多個(gè)堿基的組成通過統(tǒng)計(jì)分析識(shí)別編碼序列第15頁(yè)/共57頁(yè)分析實(shí)例第16頁(yè)/共57頁(yè)第17頁(yè)/共57頁(yè)2、真核基因識(shí)別問題
真核基因遠(yuǎn)比原核基因復(fù)雜:一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。第18頁(yè)/共57頁(yè)第19頁(yè)/共57頁(yè)第20頁(yè)/共57頁(yè)基因識(shí)別基本思路
找出基因兩端的功能區(qū)域:
轉(zhuǎn)錄啟動(dòng)區(qū)終止區(qū)在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子識(shí)別轉(zhuǎn)錄剪切位點(diǎn)剪切給體位點(diǎn)剪切接受體位點(diǎn)第21頁(yè)/共57頁(yè)各種不同的方法有不同的適應(yīng)面,而不同的方法有時(shí)可以結(jié)合起來以提高基因識(shí)別的準(zhǔn)確率。關(guān)鍵問題是如何提高一個(gè)識(shí)別算法的敏感性(sensitivity,Sn)和特異性(specificity,Sp)。
第22頁(yè)/共57頁(yè)3、基因識(shí)別的主要方法兩大類識(shí)別方法:從頭算方法(或基于統(tǒng)計(jì)的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,通過統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域
基于同源序列比較的方法利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如EST序列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因。最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開發(fā)混合算法。第23頁(yè)/共57頁(yè)基因識(shí)別方法有:(1)基于規(guī)則的系統(tǒng)(2)語(yǔ)義學(xué)方法(3)線性辨別分析(LDA)(4)決策樹
(5)動(dòng)態(tài)規(guī)劃
(6)隱馬爾柯夫模型
(7)剪切對(duì)比排列(splicedalignment)第24頁(yè)/共57頁(yè)4、編碼區(qū)域識(shí)別兩類方法:基于特征信號(hào)的識(shí)別內(nèi)部外顯子 剪切位點(diǎn)5’端的外顯子一定在核心啟動(dòng)子的下游3’端的外顯子的下游包含多聚A信號(hào)和終止編碼基于統(tǒng)計(jì)度量的方法根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計(jì)度量等第25頁(yè)/共57頁(yè)
在一個(gè)基因中,第i個(gè)(i=1,64)密碼子相對(duì)使用傾向RSCUi的定義如下:Obsi是該基因中第i個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)
Expi是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù)
aai是統(tǒng)計(jì)的第i個(gè)密碼子出現(xiàn)的次數(shù) syni是所有與第i個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)RSCU大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于1則表示出現(xiàn)次數(shù)相對(duì)較少。(5-66)(5-65)
密碼子使用傾向第26頁(yè)/共57頁(yè)設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計(jì)度量IF6(i,j)定義為:
fk是從第k位開始的雙聯(lián)密碼的頻率
Fk是該雙聯(lián)密碼隨機(jī)出現(xiàn)的頻率(5-67)雙聯(lián)密碼統(tǒng)計(jì)度量第27頁(yè)/共57頁(yè)通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子EST(ExpressedSequenceTags)cDNA蛋白質(zhì)序列第28頁(yè)/共57頁(yè)目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相似性搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過程同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量
GRAIL
用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域第29頁(yè)/共57頁(yè)輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸出就是對(duì)一段DNA序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性第30頁(yè)/共57頁(yè)5、構(gòu)建基因模型基因識(shí)別最終任務(wù)是建立完整的基因結(jié)構(gòu)模型一個(gè)理想的基因識(shí)別程序應(yīng)該能夠發(fā)現(xiàn)完整的基因結(jié)構(gòu) (…,e1,i1,…,in-1,en,
…)ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG第31頁(yè)/共57頁(yè)基因剪切位點(diǎn)剪切給體(donor)位點(diǎn)-“gt”
接受體(acceptor)位點(diǎn)-“ag”第32頁(yè)/共57頁(yè)基因的可變剪切第33頁(yè)/共57頁(yè)geneA基因可變剪切示意第34頁(yè)/共57頁(yè)構(gòu)建基因模型方法
剪切位點(diǎn)形成外顯子和內(nèi)含子的邊界
搜集候選外顯子→候選基因第35頁(yè)/共57頁(yè)第36頁(yè)/共57頁(yè)候選基因是一條非相交的外顯子和內(nèi)含子的鏈,表示為(i0,e1,i1,…,en,in)
其中ij代表內(nèi)含子(0jn)
el代表外顯子(1ln)
i0和in并非真實(shí)的內(nèi)含子,它們分別代表基因兩側(cè)的非編碼序列第37頁(yè)/共57頁(yè)候選基因位于給定的DNA序列,并滿足下列一致性條件:(1)所有外顯子加起來的長(zhǎng)度是3的整數(shù)倍;(2)在各個(gè)外顯子內(nèi)部(除最后一個(gè)外顯子的最后一個(gè)密碼子),沒有終止編碼;(3)第一個(gè)內(nèi)含子-外顯子邊界(i0,e1)是翻譯起始編碼,而最后一個(gè)外顯子-內(nèi)含子邊界(en,in)是終止編碼。第38頁(yè)/共57頁(yè)位點(diǎn)圖(分層標(biāo)注剪切位點(diǎn))另設(shè)兩個(gè)特殊的頂點(diǎn),即起點(diǎn)(source)和終點(diǎn)(sink)。從起點(diǎn)到終點(diǎn)的任何一條路徑代表一個(gè)可能的基因結(jié)構(gòu)。第39頁(yè)/共57頁(yè)例如:位點(diǎn)圖上的路徑第40頁(yè)/共57頁(yè)候選基因所對(duì)應(yīng)的道路圖中的路徑第41頁(yè)/共57頁(yè)求最優(yōu)路徑每一條弧附加一個(gè)權(quán)值 外顯子、內(nèi)含子度量每個(gè)節(jié)點(diǎn)附加權(quán)值
剪切位點(diǎn)度量
綜合評(píng)價(jià)
第42頁(yè)/共57頁(yè)6、用于基因識(shí)別的HMM模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見的馬爾柯夫鏈,其當(dāng)前狀態(tài)的輸出是可見的。每個(gè)狀態(tài)按照一定的概率分布隨機(jī)地從字母表中取出字符并釋放。擴(kuò)展的隱藏馬爾柯夫模型(GHMMs)對(duì)HMM進(jìn)一步抽象,產(chǎn)生更一般的馬爾柯夫模型,以分析復(fù)雜的脊椎動(dòng)物基因。第43頁(yè)/共57頁(yè)(1)信號(hào)傳感器模型將剪切位點(diǎn)、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上的功能位點(diǎn)或者信號(hào)位點(diǎn),用HMM來進(jìn)行分析
第44頁(yè)/共57頁(yè)內(nèi)含子區(qū)域
外顯子區(qū)域
保守位點(diǎn)
第45頁(yè)/共57頁(yè)對(duì)前一節(jié)所介紹的HMM模型進(jìn)行修改,可以處理雙聯(lián)核苷酸的問題,即將4種概率分布擴(kuò)展為16種。假設(shè)一段序列為ACTGTC…,則P(ACTGTC…)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)…
其中p1是狀態(tài)1對(duì)于4種核苷酸的概率,p2(xy)狀態(tài)2的條件概率。第46頁(yè)/共57頁(yè)(2)編碼區(qū)模型第47頁(yè)/共57頁(yè)由于密碼子的長(zhǎng)度為3,因此密碼子模型的最后一個(gè)狀態(tài)應(yīng)該至少為2階。對(duì)于2階的狀態(tài),具有64種概率分布,可根據(jù)已知編碼區(qū)域進(jìn)行統(tǒng)計(jì)計(jì)算而得到64種分布。例如:
p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]
其中,c(xyz)是密碼子xyz的計(jì)數(shù)。這樣的模型可以檢測(cè)無結(jié)束編碼的區(qū)域,因?yàn)閷?duì)應(yīng)于三個(gè)結(jié)束編碼TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自動(dòng)為0。第48頁(yè)/共57頁(yè)(3)組合模型第49頁(yè)/共57頁(yè)將上述模型擴(kuò)展,使之可以識(shí)別具有多個(gè)外顯子的基因。改進(jìn)后的模型見下圖第50頁(yè)/共57頁(yè)第51頁(yè)/共57頁(yè)7、基于剪切比對(duì)的基因識(shí)別方法基本思想是:利用數(shù)據(jù)庫(kù)中的同源信息進(jìn)行基因識(shí)別,包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫(kù)。其方法是:首先通過分析所有可能的剪切接受體位點(diǎn)和剪切給體位點(diǎn),構(gòu)建一組候選的外顯子。然后進(jìn)一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個(gè)與已知目標(biāo)蛋白質(zhì)或其他表達(dá)序列最匹配的組合第52頁(yè)/共57頁(yè)一種半自動(dòng)的綜合方法識(shí)別基因過程:(1)選擇所有長(zhǎng)度大于50bp并介于保守的剪切接受位點(diǎn)和給體位點(diǎn)之間的ORF,作為候選的外顯子;
預(yù)選(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年專業(yè)鋼結(jié)構(gòu)廠房組裝協(xié)議模板
- 2024年車輛租賃結(jié)束協(xié)議樣本
- 2024年新車輛融資租賃協(xié)議概要
- 2024年技術(shù)教育合作協(xié)議模板
- 2024年建筑工人介紹服務(wù)協(xié)議范例
- DB11∕T 1948-2021 國(guó)土空間詳細(xì)規(guī)劃計(jì)算機(jī)輔助制圖標(biāo)準(zhǔn)
- 2024年專利技術(shù)使用權(quán)授權(quán)協(xié)議
- 西藏地圖課件教學(xué)課件
- 朗誦培訓(xùn)課件教學(xué)課件
- 二手電腦買賣合同
- 幼兒園轉(zhuǎn)課協(xié)議書范文范本
- 廣東省深圳市寶安區(qū)2024-2025學(xué)年三年級(jí)上學(xué)期月考數(shù)學(xué)試卷(10月份)
- 與薊州區(qū)幼兒園結(jié)對(duì)幫扶協(xié)議書(2篇)
- 安徽省2023-2024學(xué)年高一上學(xué)期期中考試物理試題(含答案)
- 一年級(jí)上冊(cè)勞動(dòng)《各種各樣的職業(yè)》課件
- 部編版《道德與法治》二年級(jí)上冊(cè)第9課《這些是大家的》課件(共50張課件)
- 2024年(每周一練)語(yǔ)文五年級(jí)上冊(cè)基礎(chǔ)練習(xí)題(含答案)
- 2024-2030年中國(guó)中低溫煤焦油行業(yè)現(xiàn)狀調(diào)研與發(fā)展前景預(yù)測(cè)分析研究報(bào)告
- 2025屆貴州省貴陽(yáng)市一中高三六校第一次聯(lián)考物理試卷含解析
- 旅游管理專業(yè)建設(shè)實(shí)施方案
- 一年級(jí)下冊(cè)道德與法治《分享真快樂》課件【新部編版】
評(píng)論
0/150
提交評(píng)論