轉(zhuǎn)錄剪切位點_第1頁
轉(zhuǎn)錄剪切位點_第2頁
轉(zhuǎn)錄剪切位點_第3頁
轉(zhuǎn)錄剪切位點_第4頁
轉(zhuǎn)錄剪切位點_第5頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、核酸序列分析及結(jié)構(gòu)預(yù)測核酸序列分析及結(jié)構(gòu)預(yù)測主 講 張 軍細(xì)胞生物學(xué)及遺傳學(xué)教研室第一節(jié)第一節(jié) 核酸序列的數(shù)據(jù)形式核酸序列的數(shù)據(jù)形式1. 串(string)符號或字符的有序排列,符號或字符來自有限集合A, T, G, C。序列(sequence)與串是同一概念。s=ATTGCATATG;串的長度|s|; 串s某個位置的字符表示為si ,1 i |s|。特別的,長度為0的串稱為空串(empty string),用符號 表示。2. 子串(substring)和子序列(subsequence),二者不是相同的概念。子串和超串s=ATGCGGTA; t=TGCGG; s是t的超串子序列和超序列s=AT

2、GCGGTA; t=TGTA; s是t的超序列區(qū)間(interval)s=ATGCGGTACGTATACG; u=CG, si, i+13. 串u和w的拼接(concatenation),表示為uw。例如s = ATGCGGTA; t=TGCGGst = ATGCGGTATGCGGts = TGCGGATGCGGTA串的冥s = AT;sss= AT AT AT=s3串的前綴(prefix)s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = 存在且只存在s的另1個子串u, 使得s=tu, t是u的前綴。串的后綴(suffix)s = ATGCGGTAG

3、Csuffix(s,3) =AGC; suffix(s,2) =GC ;suffix(s,0) = 存在且只存在s的另1個子串u, 使得s=ut, t是u的后綴。殺手因子(killer agent),假定存在1個特別的串 |-1 在與其它串拼接的時候,起到刪除相鄰字符的作用例如, s = ATGCGGTAGC s= TGCGGTAGCs = ATGCGGTAG ATGC GGTAG ? 無意義 (ATGC ) GGTAG ATGC ( GGTAG )stu=(st)u=s(tu); |s| -1, |t| -1, |u| -1 |st| = |s| + |t| ,s和t可以是任何串利用殺手因子

4、可以表示1個串的子串,前綴和后綴sij= i-1 s |s| -jprefix(s, k) = s |s| -kSuffic(s, k) = |s| -k s 第二節(jié)第二節(jié) 序序 列列 比比 較較序列比較的根本任務(wù): 發(fā)現(xiàn)序列之間的相似性 辨別序列之間的差異序列比較的目的: 相似序列 相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進化關(guān)系 序列的相似性同源(同源(homologyhomology)- - 具有共同的祖先具有共同的祖先直向同源(直向同源(OrthologousOrthologous ) 共生同源(共生同源(paralogousparalogous )相似(相似(si

5、milaritysimilarity)同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的進化趨同(同功能)進化趨同(同功能)直向同源(直向同源(a1 in species I, a1 in species II)共生同源(共生同源(a1 and a2 in species I)進化趨同進化趨同水平轉(zhuǎn)移水平轉(zhuǎn)移基因復(fù)制基因復(fù)制序列相似性的描述序列相似性的描述 定性的描述定性的描述 定量的數(shù)值定量的數(shù)值 相似性相似性 距離距離序列比較的基本操作是比對序列比較的基本操作是比對(Alignment) 兩個序列的比對是指這兩個序列中各個字符的兩個序列的比對是指這兩個序列

6、中各個字符的一種一一對應(yīng)關(guān)系,或字符的對比排列一種一一對應(yīng)關(guān)系,或字符的對比排列 。例如,設(shè)有兩個序列:s=GACGGATTAG,t=GATCGGAATAGAlignment2: GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG字母表和序列字母表和序列字母表字母表( (字符或符號集合字符或符號集合) )4字符DNA字母表:A, C, G, T擴展的遺傳學(xué)字母表或IUPAC編碼單字母氨基酸編碼符 號含 義說 明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPy

7、rimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny 擴展的遺傳學(xué)字母表或擴展的遺傳學(xué)字母表或IUPACIUPAC編碼編碼序列比對的生物學(xué)背景分子生物學(xué)實驗技術(shù)和大規(guī)模測序方法的發(fā)展,使復(fù)雜序列之間的比較成為實驗室的常規(guī)數(shù)據(jù)分析?;蚪M學(xué)的發(fā)

8、展,物理圖譜的構(gòu)建,DNA的拼接求。一個或一些序列與其它數(shù)據(jù)序列的比較。兩個序列之間是否存在相同的子串。個序列與數(shù)據(jù)庫中序列是否存在相似的子串。 序列比較可以分為五種基本情況序列比較可以分為五種基本情況:(1 1)兩條長度相近序列相似性分析,找出序列的差別)兩條長度相近序列相似性分析,找出序列的差別(2 2)判斷一條序列的前綴與另一條序列的后綴相似)判斷一條序列的前綴與另一條序列的后綴相似(3 3)判斷一條序列是否是另一條序列的子序列)判斷一條序列是否是另一條序列的子序列(4 4)判斷兩條序列中是否有非常相似的子序列)判斷兩條序列中是否有非常相似的子序列(5 5)對多個序列進行上述)對多個序列

9、進行上述4 4種分析種分析第三第三 節(jié)節(jié) 兩個序列的比較兩個序列的比較1. 全局比較基本算法通過全局比對(global alignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG ATATC記分系統(tǒng)的引入與比對打分匹配1空配2錯配1對s, t進行相似性比較,得到的最大記分值,稱為2序列的相似性,表示為sim(s, t)=maxscore is=ATTGCATATG; s=ATTGCATATG t=ATTG ATATC; t=ATTG ATATC8(-2)(-1)=5 4+ (-2) + (-1) 5 =-12. 局部比較序列

10、s和t的局部比較是通過局部比對(local alignment)實現(xiàn)的,是s和t子串之間的比對。例如,s=AATTGCATATG;t=ATTGT,對它們進行局部相似性比較,表示s(2,3,4,5)=t(1,2,3,4)3. 半全局部比較序列s和t的比對,序列長度相差較大例如,s=AATTGCATATG;t=ATTGT,對它們進行全局相似性比較,表示s=AATTGCATATG; s=AATTGCATATGt= - ATTGT - - - - - ; t= A- TTG - - T - - -半全局比對的核心是2個序列前綴與后綴第四第四 節(jié)節(jié) 相似性和距離相似性和距離1. 相似性 相似性的度量是基

11、于比對,2個序列的相似性可以由sim(s, t)maxscore i2. 距離 對任何的一個串實施一系列的變換后,可以轉(zhuǎn)化為另一個串 s t; t=AGCTT; s=TTA TTA - - TTA AGTTA AGCTAAGCTT變換的操作: 1 字符的替換 2 空格插入和刪除 給予每個變換特定的開銷(cost) dist(s,t)=mincost i擴展的編輯操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二條序列頭尾顛倒可以通過基本操作實現(xiàn) 反向互補序列反向互補序列RNA發(fā)夾式二級結(jié)構(gòu)發(fā)夾式二級結(jié)構(gòu)

12、第五節(jié)第五節(jié) 通過點矩陣進行序列比較通過點矩陣進行序列比較“矩陣作圖法矩陣作圖法” ” 或或 “ “對角線作圖對角線作圖” 序列序列1 序列序列2 實實 例例 序列序列1 序列序列1 自我比較自我比較滑動窗口技術(shù)滑動窗口技術(shù)兩條序列中有很多匹配的字符對,因而在點矩陣中兩條序列中有很多匹配的字符對,因而在點矩陣中會形成很多點標(biāo)記。會形成很多點標(biāo)記。滑動窗口技術(shù)滑動窗口技術(shù)使用滑動窗口代替一次一個位點的比較是解決這個使用滑動窗口代替一次一個位點的比較是解決這個問題的有效方法。問題的有效方法。假設(shè)窗口大小為假設(shè)窗口大小為1010,相似度閾值為,相似度閾值為8 8,則每次比較,則每次比較取取1010個

13、連續(xù)的字符,如相同的字符超過個連續(xù)的字符,如相同的字符超過8 8個,則標(biāo)個,則標(biāo)記記基于滑動窗口的點矩陣方法可以明顯地降低點陣圖基于滑動窗口的點矩陣方法可以明顯地降低點陣圖的噪聲,并且明確無誤的指示出了兩條序列間具有的噪聲,并且明確無誤的指示出了兩條序列間具有顯著相似性的區(qū)域。顯著相似性的區(qū)域。 (a a)對人類()對人類(Homo sapiensHomo sapiens)與黑猩猩()與黑猩猩(Pongo pygmaeusPongo pygmaeus)的)的球蛋白基球蛋白基因序列進行比較的完整點陣圖。(因序列進行比較的完整點陣圖。(b b)利用滑動窗口對以上的兩種球蛋白基)利用滑動窗口對以上的

14、兩種球蛋白基因序列進行比較的點陣圖,其中窗口大小為因序列進行比較的點陣圖,其中窗口大小為1010個核苷酸,相似度閾值為個核苷酸,相似度閾值為8 8。 (a) (b) 具有連續(xù)相似區(qū)域的兩條具有連續(xù)相似區(qū)域的兩條DNADNA序列的簡單點陣圖序列的簡單點陣圖第六節(jié)第六節(jié) DNA片斷的組裝片斷的組裝1. 生物學(xué)背景 DNA測序技術(shù)的發(fā)展2. 片斷的組裝(fragment assembly) 片斷(fragment)的產(chǎn)生理想情況 例如ATTGGGCA; CGATT; TGGGCAGA組裝 - - ATTGGGCA - -CGATT - - - - - - - - - - - TGGGCAGACGAT

15、TGGGCAGA 表決序列 復(fù)雜情況 堿基識別錯誤 序列方向未知 重復(fù)序列 缺乏覆蓋 序列污染 復(fù)雜情況的組裝模型 最短公共超串(shortest common superstring) 重構(gòu)(reconstruction) 多連疊(multicontig) DNA序列分析基因序列基因表達調(diào)控信息 尋找基因牽涉到兩個方面的工作尋找基因牽涉到兩個方面的工作 :識別與基因相關(guān)的特殊序列信號預(yù)測基因的編碼區(qū)域結(jié)合兩個方面的結(jié)果確定基因的位置和結(jié)構(gòu) 基因表達調(diào)控信息隱藏在基因上游區(qū)域,在組成上基因表達調(diào)控信息隱藏在基因上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。具有一定的特征,可以

16、通過序列分析識別這些特征。 在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結(jié)構(gòu)特征相關(guān)聯(lián),通常決定了DNA與蛋白質(zhì)或者DNA與RNA的相互作用。 存放這些信息的DNA片段稱為功能位點如啟動子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(Splice site)等。發(fā)現(xiàn)重復(fù)元素數(shù)據(jù)庫搜索分析功能位點序列組成統(tǒng)計分析綜合分析一個基本的DNA序列分析方案 功能序列分析的準(zhǔn)確性來自于對“功能序列”和“非功能序列”的辨別能力。 兩個集合: 訓(xùn)練集(training set) 用于建立完成識別任務(wù)的數(shù)學(xué)模型。測試集或控制集(control

17、 set) 用于檢驗所建模型的正確性。 用訓(xùn)練集中實例對預(yù)測模型進行訓(xùn)練,使之通過學(xué)習(xí)后具有正確處理和辨別能力。然后,用模型對測試集中的實例進行“功能”與“非功能”的判斷,根據(jù)判斷結(jié)果計算模識別的準(zhǔn)確性。收集已知的功能序列和非功能序列實例收集已知的功能序列和非功能序列實例(這些序列之間是非相關(guān)的(這些序列之間是非相關(guān)的 )訓(xùn)練集訓(xùn)練集(training set)測試集或控制集測試集或控制集(control set)建立完成識別任務(wù)的模型建立完成識別任務(wù)的模型檢驗所建模型的正確性檢驗所建模型的正確性對預(yù)測模型進行訓(xùn)練,對預(yù)測模型進行訓(xùn)練,使之通過學(xué)習(xí)后具有使之通過學(xué)習(xí)后具有正確處理和辨別能力。正

18、確處理和辨別能力。進行進行“功能功能”與與“非功能非功能”的的判斷,根據(jù)判斷結(jié)果計算判斷,根據(jù)判斷結(jié)果計算模識別的準(zhǔn)確性。模識別的準(zhǔn)確性。識別識別“功能序列功能序列”和和“非功能序列非功能序列”的過程的過程 Sn 敏感性敏感性 Sp 特異性特異性 Tp是正確識別的功能序列數(shù), Tn為正確識別的非功能序列數(shù), Fn是被錯誤識別為非功能序列的功能序列數(shù), Fp是被錯誤識別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異性的權(quán)衡 對于一個實用程序,既要求有較高的敏感性,也要求有較高的特異性。 如果敏感性很高,但特異性比較低,則在實際應(yīng)用中會產(chǎn)生高比率的假陽性; 相反,如果特異性

19、很高,而敏感性比較低,則會產(chǎn)生高比率的假陰性。 對于敏感性和特異性需要進行權(quán)衡,給出綜合評價指標(biāo)。 功能位點分析功能位點分析 功能位點(functional site) 與特定功能相關(guān)的位點,是生物分子序列上的一個功能單元,或者是生物分子序列上一個較短的片段。 功能位點又稱為功能序列(functional sequence)、序列模式(motif)、信號(signal)等。 核酸序列中的功能位點包括轉(zhuǎn)錄因子結(jié)合位點轉(zhuǎn)錄因子結(jié)合位點、轉(zhuǎn)錄剪切位點轉(zhuǎn)錄剪切位點、翻譯起始位點翻譯起始位點等。 在蛋白質(zhì)序列分析中,常使用序列模式這個名詞,蛋白質(zhì)的序列模式往往與蛋白質(zhì)結(jié)構(gòu)域或者作用部位有關(guān)。功能位點示意

20、功能位點示意 基因組序列中若干個相鄰的功能位點組合形成功能區(qū)域(functional region)。 功能位點分析的任務(wù) 發(fā)現(xiàn)功能位點特征 識別功能位點A 利用共有序列搜索功能位點 共有序列(common consensus)又稱一致性片段 共有序列是關(guān)于功能位點特征的描述,它描述了功能位點每個位置上核苷酸進化的保守性 例如: NTATN 利用共有序列進行功能位點分析牽涉到兩個方面的問題, 如何構(gòu)造共有序列 如何利用共有序列在給定的核酸序列上搜索尋找功能位點,并計算所找到的功能位點的可靠性 共有序列具有以下幾個方面的特征:(1)共有序列中既有保守的位置,也有可變的位置;(2)任何位置上的核苷

21、酸可以用15種類型之一來表示:核苷酸表示符號核苷酸表示符號符符 號號含含 義義說說 明明GG腺嘌呤腺嘌呤AA鳥嘌呤鳥嘌呤TT胸腺嘧啶胸腺嘧啶CC胞嘧啶胞嘧啶RG or A嘌呤嘌呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧基羧基SG or C強氫鍵強氫鍵(3個氫鍵個氫鍵)WA or T弱氫鍵弱氫鍵(2個氫鍵個氫鍵)HA or C or T非非GBG or T or C非非AVG or C or A非非T(非非U)DG or A or T非非CNG or A or T or C任意堿基任意堿基 共有序列構(gòu)造過程: (1) 初始化共有序列為一系列可變位置,以“N”代表(2) 在可變

22、位置尋找出現(xiàn)次數(shù)最多的核苷酸,并將該位置轉(zhuǎn)化為保守位置(3) 對當(dāng)前所得到的共有序列進行特異性檢查,若通過檢查,轉(zhuǎn)(5),否則轉(zhuǎn)(4)(4) 形成與當(dāng)前共有序列一致的位點子集,剔除不一致的位點子集,轉(zhuǎn)(2)(5) 從原位點集合中刪除與當(dāng)前共有序列一致的位點,用確定的堿基替換“N”;若還有剩余位點,則轉(zhuǎn)(1),構(gòu)造另外的共有序列。TTATGATATATACGCTTGTC TCCAC TTATGATATATACGCTTGTC TCCAC TNNNN tTATG tACGC tTGTC tCCAC tTATG tACGC tTGTC tCCAC TNNNC 1 2 3 4 2 3 NNNNNTNN

23、NN非特異非特異 TNNNC非特異非特異 tACGc tTGTc tCCAc 4 2 tACGc tTGTc tCCAc 3 TNSNC 特異特異 5 Consensus1: TNSNC 剩余位點:剩余位點: TTATG ATATA 5 Consensus2: NTATN TNSNC 在給定的序列中搜索與共有序列一致的序列片段 數(shù)據(jù)庫搜索 共有序列表示方法的缺點: 是關(guān)于序列特征的一種定性描述,對于DNA序列,它能夠說明序列每個位置可能出現(xiàn)的堿基類型,但是不能準(zhǔn)確地說明各位置上不同類型堿基出現(xiàn)的可能性大小。B 用感知矩陣分析功能位點 用權(quán)系數(shù)描述功能位點各位置上每種核苷酸的相對重要性 感知矩陣

24、(或加權(quán)矩陣) 根據(jù)一系列功能位點的多重對比排列結(jié)果而建立的 其大小為4n 4代表堿基的種類數(shù)目,n代表功能位點的長度 矩陣的每一個元素M(aj,j)的值代表第a種核苷酸在功能位點第j個位置上出現(xiàn)的得分,a A,T,G,C。123456A18227-319T26142-10G3110-50-19C5-916880感知矩陣示例感知矩陣示例 對于一個序列s=a1a2an,根據(jù)對應(yīng)位置上核苷酸的類型,取感知矩陣中對應(yīng)的權(quán)值,加和以后得到該序列的得分 設(shè)S=ATTGCA,則 Ws = 1+6+14-5+8+19=43 T功能位點閾值 T非功能位點閾值 如果Ws T,則S是功能位點; 如果Ws T,則S

25、是非功能位點。njjsjaMW1),(感知矩陣感知矩陣M的構(gòu)造算法的構(gòu)造算法令A(yù)+代表功能位點集合 A-代表非功能位點集合 過程如下: (1)初始化M為零矩陣; (2)執(zhí)行過程(3)-(6)的循環(huán); (3)逐步取訓(xùn)練集合中的每個實例Si,如果Si A+,轉(zhuǎn) 過程(4);如果Si A-,轉(zhuǎn)過程(5); (4)如果W(Si) T,M不變,否則根據(jù)Si的核苷酸分布將M中所有對應(yīng)元素的值加1;轉(zhuǎn)(6); (5)如果W(Si) T,M不變,否則根據(jù)Si的核苷酸分布將M中所有對應(yīng)元素的值減1;轉(zhuǎn)(6); (6)若訓(xùn)練集合中的所有實例都處理過,則循環(huán)結(jié)束,轉(zhuǎn)(7),否則繼續(xù)執(zhí)行循環(huán)體,直到處理完所有實例;

26、(7)如果M穩(wěn)定,則結(jié)束;否則轉(zhuǎn)(2)。 上述算法反復(fù)調(diào)整感知矩陣M的元素值,直到M矩陣能夠正確識別訓(xùn)練集中的所有功能位點和非功能位點。 對于最終得到的感知矩陣,要求其具有敏感性和特異性,每一列上的元素值應(yīng)該盡可能地有明顯的差別,以便反應(yīng)功能位點各個位置上的特點?;蜃R別的一般方法基因識別的一般方法 基因識別是生物信息學(xué)領(lǐng)域里的一個重要研基因識別是生物信息學(xué)領(lǐng)域里的一個重要研究內(nèi)容究內(nèi)容 生物學(xué)背景生物學(xué)背景 基因識別問題,在近幾年受到廣泛的重視基因識別問題,在近幾年受到廣泛的重視 當(dāng)當(dāng)基因組研究進入一個系統(tǒng)測序階段時,基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動的基因組序列翻譯解釋技急需可

27、靠自動的基因組序列翻譯解釋技術(shù),以處理大量已測定的但未知功能或術(shù),以處理大量已測定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 一個開放閱讀框(一個開放閱讀框(ORF,open reading frame)是一個沒有終止編碼的密碼子序)是一個沒有終止編碼的密碼子序列。列。 原核基因識別任務(wù)的重點是識別開放閱讀原核基因識別任務(wù)的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域???,或者說識別長的編碼區(qū)域。(一一) 基于基因密碼子特性的識別方法基于基因密碼子特性的識別方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法檢查終止密碼子的出現(xiàn)頻率檢查終止密碼子的出現(xiàn)頻率 終止密碼子

28、出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(個( 64/3)密碼子出現(xiàn)一次終止密碼子)密碼子出現(xiàn)一次終止密碼子 基本思想:基本思想: 如果能夠找到一個比較長的序列,其相應(yīng)如果能夠找到一個比較長的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。 基本算法:基本算法: 掃描給定的掃描給定的DNA序列,在三個不同的閱讀序列,在三個不同的閱讀框中尋找較長的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。 這種算法過于簡單,不適合于處理短的這種算法過于簡單,

29、不適合于處理短的ORF或者交疊的或者交疊的ORF。(二二) 識別編碼區(qū)域的另一種方法是分識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率析各種密碼子出現(xiàn)的頻率 例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個、個、4個和個和1個密碼子個密碼子將一個隨機均勻分布的將一個隨機均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比例應(yīng)該為6:4:1但是在真實的氨基酸序列中,上述比例并不正確但是在真實的氨基酸序列中,上述比例并不正確這說明這說明DNA的編碼區(qū)域并非隨機的編碼區(qū)域并非隨機 假

30、設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進一步,那么可以利用密碼子頻率進一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORF 利用這種方法,可以計算一個利用這種方法,可以計算一個ORF成成為編碼區(qū)域的可能性。為編碼區(qū)域的可能性。一個簡單的統(tǒng)計模型一個簡單的統(tǒng)計模型假設(shè)相繼的密碼子是獨立的,不存在前后依假設(shè)相繼的密碼子是獨立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框

31、,其開始的閱讀框,其n個密碼子個密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2221111第二種和第三種閱讀框第二種和第三種閱讀框n個密碼子出現(xiàn)的概率分別為個密碼子出現(xiàn)的概率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffp第第i個閱讀框成為編碼閱讀框的概率個閱讀框成為編碼閱讀框的概率計算:計算:算法:算法:在序列上移動長度為在序列上移動長度為3n的窗口,計算的窗口,計算Pi根據(jù)根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii(三三) 基于編碼區(qū)堿基組成特征的識別方法基于編碼區(qū)堿基組成特征的識別方

32、法 編碼序列與非編碼序列在堿基組成上有區(qū)別編碼序列與非編碼序列在堿基組成上有區(qū)別 單個堿基的組成比例單個堿基的組成比例 多個堿基的組成多個堿基的組成通過統(tǒng)計分析識別編碼序列通過統(tǒng)計分析識別編碼序列分析實例分析實例 真核基因識別的復(fù)雜性真核基因識別的復(fù)雜性 真核基因遠比原核基因復(fù)雜:真核基因遠比原核基因復(fù)雜: 一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個小片段。的,編碼區(qū)域被分割為若干個小片段。 另一方面,真核基因具有更加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)

33、域。 (一一) 基本思路基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)錄啟動區(qū)轉(zhuǎn)錄啟動區(qū) 終止區(qū)終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子在啟動區(qū)下游位置尋找翻譯起始密碼子 識別轉(zhuǎn)錄剪切位點識別轉(zhuǎn)錄剪切位點剪切給體位點剪切給體位點剪切接受體位點剪切接受體位點 各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時可以結(jié)合起來以提高基因同的方法有時可以結(jié)合起來以提高基因識別的準(zhǔn)確率。識別的準(zhǔn)確率。 關(guān)鍵問題是如何提高一個識別算法的敏關(guān)鍵問題是如何提高一個識別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。

34、)。 (二二) 真核基因識別的主要方法真核基因識別的主要方法兩大類識別方法:兩大類識別方法: 從頭計算方法從頭計算方法(或基于統(tǒng)計的方法)(或基于統(tǒng)計的方法) 根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別,通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子行識別,通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域及基因間區(qū)域 基于同源序列比較的方法基于同源序列比較的方法 利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如EST序列、蛋白質(zhì)序列),通過同源比較,序列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因。幫助發(fā)現(xiàn)新基因。 最理想的方法是綜合兩大類方法的優(yōu)點,開最理想

35、的方法是綜合兩大類方法的優(yōu)點,開發(fā)混合算法。發(fā)混合算法。(三三) 識別編碼區(qū)域識別編碼區(qū)域兩類方法兩類方法 : 基于特征信號的識別基于特征信號的識別 內(nèi)部外顯子內(nèi)部外顯子 剪切位點剪切位點 5端的外顯子一定在核心啟動子的下游端的外顯子一定在核心啟動子的下游 3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼 基于統(tǒng)計度量的方法基于統(tǒng)計度量的方法 根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向 雙聯(lián)密碼統(tǒng)計度量等雙聯(lián)密碼統(tǒng)計度量等(四) 構(gòu)建基因模型 基因識別最終任務(wù)是建立完整的基因結(jié)構(gòu)模型 一個理想的基因識別程序應(yīng)該能夠發(fā)現(xiàn)完整的基因結(jié)構(gòu) (,e1, i1, , in-1,

36、en , ) ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG 基因剪切位點基因剪切位點 剪切給體(剪切給體(donor)位點)位點- “gt” 接受體(接受體(acceptor)位點)位點- “ag”基因的可變剪切基因的可變剪切g(shù)ene A基因可變剪切示意基因可變剪切示意構(gòu)建基因模型方法構(gòu)建基因模型方法 剪切位點形成外顯子和內(nèi)含子的邊界剪切位點形成外顯子和內(nèi)含子的邊界 搜集候選外顯子搜集候選外顯子 候選基因候選基因 候選基因是一條非相交的外顯子和內(nèi)含候選基因是一條非相交的外顯子和內(nèi)含子的鏈,表示為子的鏈,表示為 (i0, e1, i1, , en, in) 其中其中ij代表內(nèi)含子(代表內(nèi)含子(0

37、 j n) el代表外顯子(代表外顯子(1 l n) i0和和in并非真實的內(nèi)含子,它們分別代表并非真實的內(nèi)含子,它們分別代表基因兩側(cè)的非編碼序列基因兩側(cè)的非編碼序列 候選基因位于給定的候選基因位于給定的DNA序列,并滿足下列一序列,并滿足下列一致性條件:致性條件: (1)所有外顯子加起來的長度是)所有外顯子加起來的長度是3的整數(shù)倍;的整數(shù)倍; (2)在各個外顯子內(nèi)部(除最后一個外顯子的)在各個外顯子內(nèi)部(除最后一個外顯子的最后一個密碼子),沒有終止編碼;最后一個密碼子),沒有終止編碼; (3)第一個內(nèi)含子)第一個內(nèi)含子-外顯子邊界(外顯子邊界(i0, e1)是翻譯)是翻譯起始編碼,而最后一個

38、外顯子起始編碼,而最后一個外顯子-內(nèi)含子邊界(內(nèi)含子邊界(en, in)是終止編碼。)是終止編碼。位點圖位點圖(分層標(biāo)注剪切位點)(分層標(biāo)注剪切位點)另設(shè)兩個特殊的頂點,即起點(另設(shè)兩個特殊的頂點,即起點(source)和終點()和終點(sink)。從起點到終點的任何一條路徑代表一個可能的基因結(jié)構(gòu)。從起點到終點的任何一條路徑代表一個可能的基因結(jié)構(gòu)。例如例如: 位點圖上的路徑位點圖上的路徑候選基因所對應(yīng)的道路圖中的路徑候選基因所對應(yīng)的道路圖中的路徑求最優(yōu)路徑求最優(yōu)路徑 每一條弧附加一個權(quán)值每一條弧附加一個權(quán)值外顯子、內(nèi)含子度量 每個節(jié)點附加權(quán)值每個節(jié)點附加權(quán)值剪切位點度量 綜合評價綜合評價 (五) 基于剪切比對的基因識別方法 基本思想是:利用數(shù)據(jù)庫中的同源信息進行基因識別,包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。 其方法是: 首先通過分析所有可能的剪切接受體位點和剪切給體位點,構(gòu)建一組候選的外顯子。 然后進一步分析候選外顯子,尋找所有可能的外顯子組合,尋找一個與已知目標(biāo)蛋白質(zhì)或其他表達序列最匹配的組合 ?;蜃R別程序介紹基因識別程序及訪問地址基因識別程序及訪問地址(HP主頁;主頁;ESE-mail服務(wù)器;服務(wù)器;WSweb服務(wù)器;服務(wù)器;CL客戶客戶/服務(wù)服務(wù)器協(xié)議;器協(xié)議;EX有可執(zhí)行代碼;有可執(zhí)行代碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論