版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、轉(zhuǎn)錄剪切位點(diǎn)2. 子串(substring)和子序列(subsequence),二者不是相同的概念。子串和超串s=ATGCGGTA; t=TGCGG; s是t的超串子序列和超序列s=ATGCGGTA; t=TGTA; s是t的超序列區(qū)間(interval)s=ATGCGGTACGTATACG; u=CG, si, i+13. 串u和w的拼接(concatenation),表示為uw。例如s = ATGCGGTA; t=TGCGGst = ATGCGGTATGCGGts = TGCGGATGCGGTA串的冥s = AT;sss= AT AT AT=s3串的前綴(prefix)s = ATGCGG
2、TAGC; prefix(s,3)=ATG; prefix(s,0) = 存在且只存在s的另1個(gè)子串u, 使得s=tu, t是u的前綴。串的后綴(suffix)s = ATGCGGTAGCsuffix(s,3) =AGC; suffix(s,2) =GC ;suffix(s,0) = 存在且只存在s的另1個(gè)子串u, 使得s=ut, t是u的后綴。殺手因子(killer agent),假定存在1個(gè)特別的串 |-1 在與其它串拼接的時(shí)候,起到刪除相鄰字符的作用例如, s = ATGCGGTAGC s= TGCGGTAGCs = ATGCGGTAG ATGC GGTAG ? 無意義 (ATGC )
3、GGTAG ATGC ( GGTAG )stu=(st)u=s(tu); |s| -1, |t| -1, |u| -1 |st| = |s| + |t| ,s和t可以是任何串利用殺手因子可以表示1個(gè)串的子串,前綴和后綴sij= i-1 s |s| -jprefix(s, k) = s |s| -kSuffic(s, k) = |s| -k s 第二節(jié)第二節(jié) 序序 列列 比比 較較序列比較的根本任務(wù): 發(fā)現(xiàn)序列之間的相似性 辨別序列之間的差異序列比較的目的: 相似序列 相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進(jìn)化關(guān)系 序列的相似性同源(同源(homologyhomology)
4、- - 具有共同的祖先具有共同的祖先直向同源(直向同源(Orthologous Orthologous ) 共生同源(共生同源(paralogous paralogous )相似(相似(similaritysimilarity)同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的進(jìn)化趨同(同功能)進(jìn)化趨同(同功能)直向同源(直向同源(a1 in species I, a1 in species II)共生同源(共生同源(a1 and a2 in species I)進(jìn)化趨同進(jìn)化趨同水平轉(zhuǎn)移水平轉(zhuǎn)移基因復(fù)制基因復(fù)制序列相似性的描述序列相似性的描述 定性的描述定性的
5、描述 定量的數(shù)值定量的數(shù)值 相似性相似性 距離距離序列比較的基本操作是比對序列比較的基本操作是比對(Alignment) 兩個(gè)序列的比對是指這兩個(gè)序列中各個(gè)字符的兩個(gè)序列的比對是指這兩個(gè)序列中各個(gè)字符的一種一一對應(yīng)關(guān)系,或字符的對比排列一種一一對應(yīng)關(guān)系,或字符的對比排列 。例如,設(shè)有兩個(gè)序列:s=GACGGATTAG,t=GATCGGAATAGAlignment2: GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG字母表和序列字母表和序列字母表字母表( (字符或符號集合字符或符號集合) )4字符DNA字母表:A, C, G, T擴(kuò)展
6、的遺傳學(xué)字母表或IUPAC編碼單字母氨基酸編碼符 號含 義說 明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny
7、 擴(kuò)展的遺傳學(xué)字母表或擴(kuò)展的遺傳學(xué)字母表或IUPACIUPAC編碼編碼序列比對的生物學(xué)背景分子生物學(xué)實(shí)驗(yàn)技術(shù)和大規(guī)模測序方法的發(fā)展,使復(fù)雜序列之間的比較成為實(shí)驗(yàn)室的常規(guī)數(shù)據(jù)分析?;蚪M學(xué)的發(fā)展,物理圖譜的構(gòu)建,DNA的拼接求。一個(gè)或一些序列與其它數(shù)據(jù)序列的比較。兩個(gè)序列之間是否存在相同的子串。個(gè)序列與數(shù)據(jù)庫中序列是否存在相似的子串。 序列比較可以分為五種基本情況序列比較可以分為五種基本情況:(1 1)兩條長度相近序列相似性分析,找出序列的差別)兩條長度相近序列相似性分析,找出序列的差別(2 2)判斷一條序列的前綴與另一條序列的后綴相似)判斷一條序列的前綴與另一條序列的后綴相似(3 3)判斷一條
8、序列是否是另一條序列的子序列)判斷一條序列是否是另一條序列的子序列(4 4)判斷兩條序列中是否有非常相似的子序列)判斷兩條序列中是否有非常相似的子序列(5 5)對多個(gè)序列進(jìn)行上述)對多個(gè)序列進(jìn)行上述4 4種分析種分析第三第三 節(jié)節(jié) 兩個(gè)序列的比較兩個(gè)序列的比較全局比較基本算法通過全局比對(global alignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG ATATC記分系統(tǒng)的引入與比對打分匹配1空配2錯(cuò)配1對s, t進(jìn)行相似性比較,得到的最大記分值,稱為2序列的相似性,表示為sim(s, t)=maxscore is=
9、ATTGCATATG; s=ATTGCATATG t=ATTG ATATC; t=ATTG ATATC8(-2)(-1)=5 4+ (-2) + (-1) 5 =-12. 局部比較序列s和t的局部比較是通過局部比對(local alignment)實(shí)現(xiàn)的,是s和t子串之間的比對。例如,s=AATTGCATATG;t=ATTGT,對它們進(jìn)行局部相似性比較,表示s(2,3,4,5)=t(1,2,3,4)3. 半全局部比較序列s和t的比對,序列長度相差較大例如,s=AATTGCATATG;t=ATTGT,對它們進(jìn)行全局相似性比較,表示s=AATTGCATATG; s=AATTGCATATGt= -
10、ATTGT - - - - - ; t= A- TTG - - T - - -半全局比對的核心是2個(gè)序列前綴與后綴第四第四 節(jié)節(jié) 相似性和距離相似性和距離相似性 相似性的度量是基于比對,2個(gè)序列的相似性可以由sim(s, t)maxscore i距離 對任何的一個(gè)串實(shí)施一系列的變換后,可以轉(zhuǎn)化為另一個(gè)串 s t; t=AGCTT; s=TTA TTA - - TTA AGTTA AGCTAAGCTT變換的操作: 1 字符的替換 2 空格插入和刪除 給予每個(gè)變換特定的開銷(cost) dist(s,t)=mincost i擴(kuò)展的編輯操作ACCGACAATATGCATA ATAGGTATAACAG
11、TCAACCGACAATATGCATA ACTGACAATATGGATA 第二條序列頭尾顛倒可以通過基本操作實(shí)現(xiàn) 反向互補(bǔ)序列反向互補(bǔ)序列RNA發(fā)夾式二級結(jié)構(gòu)發(fā)夾式二級結(jié)構(gòu)第五節(jié)第五節(jié) 通過點(diǎn)矩陣進(jìn)行序列比較通過點(diǎn)矩陣進(jìn)行序列比較“矩陣作圖法矩陣作圖法” ” 或或 “ “對角線作圖對角線作圖” 序列序列1 序列序列2 實(shí)實(shí) 例例 序列序列1 序列序列1 自我比較自我比較滑動(dòng)窗口技術(shù)滑動(dòng)窗口技術(shù)兩條序列中有很多匹配的字符對,因而在點(diǎn)矩陣中兩條序列中有很多匹配的字符對,因而在點(diǎn)矩陣中會形成很多點(diǎn)標(biāo)記。會形成很多點(diǎn)標(biāo)記?;瑒?dòng)窗口技術(shù)滑動(dòng)窗口技術(shù)使用滑動(dòng)窗口代替一次一個(gè)位點(diǎn)的比較是解決這個(gè)使用滑動(dòng)窗口
12、代替一次一個(gè)位點(diǎn)的比較是解決這個(gè)問題的有效方法。問題的有效方法。假設(shè)窗口大小為假設(shè)窗口大小為1010,相似度閾值為,相似度閾值為8 8,則每次比較,則每次比較取取1010個(gè)連續(xù)的字符,如相同的字符超過個(gè)連續(xù)的字符,如相同的字符超過8 8個(gè),則標(biāo)個(gè),則標(biāo)記記基于滑動(dòng)窗口的點(diǎn)矩陣方法可以明顯地降低點(diǎn)陣圖基于滑動(dòng)窗口的點(diǎn)矩陣方法可以明顯地降低點(diǎn)陣圖的噪聲,并且明確無誤的指示出了兩條序列間具有的噪聲,并且明確無誤的指示出了兩條序列間具有顯著相似性的區(qū)域。顯著相似性的區(qū)域。 (a a)對人類()對人類(Homo sapiensHomo sapiens)與黑猩猩()與黑猩猩(Pongo pygmaeusP
13、ongo pygmaeus)的)的球蛋白基球蛋白基因序列進(jìn)行比較的完整點(diǎn)陣圖。(因序列進(jìn)行比較的完整點(diǎn)陣圖。(b b)利用滑動(dòng)窗口對以上的兩種球蛋白基)利用滑動(dòng)窗口對以上的兩種球蛋白基因序列進(jìn)行比較的點(diǎn)陣圖,其中窗口大小為因序列進(jìn)行比較的點(diǎn)陣圖,其中窗口大小為1010個(gè)核苷酸,相似度閾值為個(gè)核苷酸,相似度閾值為8 8。 (a) (b) 具有連續(xù)相似區(qū)域的兩條具有連續(xù)相似區(qū)域的兩條DNADNA序列的簡單點(diǎn)陣圖序列的簡單點(diǎn)陣圖第六節(jié)第六節(jié) DNA片斷的組裝片斷的組裝生物學(xué)背景 DNA測序技術(shù)的發(fā)展片斷的組裝(fragment assembly) 片斷(fragment)的產(chǎn)生理想情況 例如ATTG
14、GGCA; CGATT; TGGGCAGA組裝 - - ATTGGGCA - -CGATT - - - - - - - - - - - TGGGCAGACGATTGGGCAGA 表決序列 復(fù)雜情況 堿基識別錯(cuò)誤 序列方向未知 重復(fù)序列 缺乏覆蓋 序列污染 復(fù)雜情況的組裝模型 最短公共超串(shortest common superstring) 重構(gòu)(reconstruction) 多連疊(multicontig) DNA序列分析基因序列基因表達(dá)調(diào)控信息 尋找基因牽涉到兩個(gè)方面的工作尋找基因牽涉到兩個(gè)方面的工作 :識別與基因相關(guān)的特殊序列信號預(yù)測基因的編碼區(qū)域結(jié)合兩個(gè)方面的結(jié)果確定基因的位置和
15、結(jié)構(gòu) 基因表達(dá)調(diào)控信息隱藏在基因上游區(qū)域,在組成上基因表達(dá)調(diào)控信息隱藏在基因上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。具有一定的特征,可以通過序列分析識別這些特征。 在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結(jié)構(gòu)特征相關(guān)聯(lián),通常決定了DNA與蛋白質(zhì)或者DNA與RNA的相互作用。 存放這些信息的DNA片段稱為功能位點(diǎn)如啟動(dòng)子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(diǎn)(Splice site)等。發(fā)現(xiàn)重復(fù)元素?cái)?shù)據(jù)庫搜索分析功能位點(diǎn)序列組成統(tǒng)計(jì)分析綜合分析一個(gè)基本的DNA序列分析方案 功能序列分析的準(zhǔn)確性
16、來自于對“功能序列”和“非功能序列”的辨別能力。 兩個(gè)集合: 訓(xùn)練集(training set) 用于建立完成識別任務(wù)的數(shù)學(xué)模型。測試集或控制集(control set) 用于檢驗(yàn)所建模型的正確性。 用訓(xùn)練集中實(shí)例對預(yù)測模型進(jìn)行訓(xùn)練,使之通過學(xué)習(xí)后具有正確處理和辨別能力。然后,用模型對測試集中的實(shí)例進(jìn)行“功能”與“非功能”的判斷,根據(jù)判斷結(jié)果計(jì)算模識別的準(zhǔn)確性。收集已知的功能序列和非功能序列實(shí)例收集已知的功能序列和非功能序列實(shí)例(這些序列之間是非相關(guān)的(這些序列之間是非相關(guān)的 )訓(xùn)練集訓(xùn)練集(training set)測試集或控制集測試集或控制集(control set)建立完成識別任務(wù)的模型
17、建立完成識別任務(wù)的模型檢驗(yàn)所建模型的正確性檢驗(yàn)所建模型的正確性對預(yù)測模型進(jìn)行訓(xùn)練,對預(yù)測模型進(jìn)行訓(xùn)練,使之通過學(xué)習(xí)后具有使之通過學(xué)習(xí)后具有正確處理和辨別能力。正確處理和辨別能力。進(jìn)行進(jìn)行“功能功能”與與“非功能非功能”的的判斷,根據(jù)判斷結(jié)果計(jì)算判斷,根據(jù)判斷結(jié)果計(jì)算模識別的準(zhǔn)確性。模識別的準(zhǔn)確性。識別識別“功能序列功能序列”和和“非功能序列非功能序列”的過程的過程 Sn 敏感性敏感性 Sp 特異性特異性 Tp是正確識別的功能序列數(shù), Tn為正確識別的非功能序列數(shù), Fn是被錯(cuò)誤識別為非功能序列的功能序列數(shù), Fp是被錯(cuò)誤識別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異
18、性的權(quán)衡 對于一個(gè)實(shí)用程序,既要求有較高的敏感性,也要求有較高的特異性。 如果敏感性很高,但特異性比較低,則在實(shí)際應(yīng)用中會產(chǎn)生高比率的假陽性; 相反,如果特異性很高,而敏感性比較低,則會產(chǎn)生高比率的假陰性。 對于敏感性和特異性需要進(jìn)行權(quán)衡,給出綜合評價(jià)指標(biāo)。 功能位點(diǎn)分析功能位點(diǎn)分析 功能位點(diǎn)(functional site) 與特定功能相關(guān)的位點(diǎn),是生物分子序列上的一個(gè)功能單元,或者是生物分子序列上一個(gè)較短的片段。 功能位點(diǎn)又稱為功能序列(functional sequence)、序列模式(motif)、信號(signal)等。 核酸序列中的功能位點(diǎn)包括轉(zhuǎn)錄因子結(jié)合位點(diǎn)轉(zhuǎn)錄因子結(jié)合位點(diǎn)、轉(zhuǎn)錄
19、剪切位點(diǎn)轉(zhuǎn)錄剪切位點(diǎn)、翻譯起始位點(diǎn)翻譯起始位點(diǎn)等。 在蛋白質(zhì)序列分析中,常使用序列模式這個(gè)名詞,蛋白質(zhì)的序列模式往往與蛋白質(zhì)結(jié)構(gòu)域或者作用部位有關(guān)。功能位點(diǎn)示意功能位點(diǎn)示意 基因組序列中若干個(gè)相鄰的功能位點(diǎn)組合形成功能區(qū)域(functional region)。 功能位點(diǎn)分析的任務(wù) 發(fā)現(xiàn)功能位點(diǎn)特征 識別功能位點(diǎn)A 利用共有序列搜索功能位點(diǎn) 共有序列(common consensus)又稱一致性片段 共有序列是關(guān)于功能位點(diǎn)特征的描述,它描述了功能位點(diǎn)每個(gè)位置上核苷酸進(jìn)化的保守性 例如: NTATN 利用共有序列進(jìn)行功能位點(diǎn)分析牽涉到兩個(gè)方面的問題, 如何構(gòu)造共有序列 如何利用共有序列在給定的核
20、酸序列上搜索尋找功能位點(diǎn),并計(jì)算所找到的功能位點(diǎn)的可靠性 共有序列具有以下幾個(gè)方面的特征:(1)共有序列中既有保守的位置,也有可變的位置;(2)任何位置上的核苷酸可以用15種類型之一來表示:核苷酸表示符號核苷酸表示符號符符 號號含含 義義說說 明明GG腺嘌呤腺嘌呤AA鳥嘌呤鳥嘌呤TT胸腺嘧啶胸腺嘧啶CC胞嘧啶胞嘧啶RG or A嘌呤嘌呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧基羧基SG or C強(qiáng)氫鍵強(qiáng)氫鍵(3個(gè)氫鍵個(gè)氫鍵)WA or T弱氫鍵弱氫鍵(2個(gè)氫鍵個(gè)氫鍵)HA or C or T非非GBG or T or C非非AVG or C or A非非T(非非U)DG o
21、r A or T非非CNG or A or T or C任意堿基任意堿基 共有序列構(gòu)造過程: (1) 初始化共有序列為一系列可變位置,以“N”代表(2) 在可變位置尋找出現(xiàn)次數(shù)最多的核苷酸,并將該位置轉(zhuǎn)化為保守位置(3) 對當(dāng)前所得到的共有序列進(jìn)行特異性檢查,若通過檢查,轉(zhuǎn)(5),否則轉(zhuǎn)(4)(4) 形成與當(dāng)前共有序列一致的位點(diǎn)子集,剔除不一致的位點(diǎn)子集,轉(zhuǎn)(2)(5) 從原位點(diǎn)集合中刪除與當(dāng)前共有序列一致的位點(diǎn),用確定的堿基替換“N”;若還有剩余位點(diǎn),則轉(zhuǎn)(1),構(gòu)造另外的共有序列。TTATGATATATACGCTTGTC TCCAC TTATGATATATACGCTTGTC TCCAC T
22、NNNN tTATG tACGC tTGTC tCCAC tTATG tACGC tTGTC tCCAC TNNNC 1 2 3 4 2 3 NNNNNTNN NN非特異非特異 TNNNC非特異非特異 tACGc tTGTc tCCAc 4 2 tACGc tTGTc tCCAc 3 TNSNC 特異特異 5 Consensus1: TNSNC 剩余位點(diǎn):剩余位點(diǎn): TTATG ATATA 5 Consensus2: NTATN TNSNC 在給定的序列中搜索與共有序列一致的序列片段 數(shù)據(jù)庫搜索 共有序列表示方法的缺點(diǎn): 是關(guān)于序列特征的一種定性描述,對于DNA序列,它能夠說明序列每個(gè)位置可能
23、出現(xiàn)的堿基類型,但是不能準(zhǔn)確地說明各位置上不同類型堿基出現(xiàn)的可能性大小。B 用感知矩陣分析功能位點(diǎn) 用權(quán)系數(shù)描述功能位點(diǎn)各位置上每種核苷酸的相對重要性 感知矩陣(或加權(quán)矩陣) 根據(jù)一系列功能位點(diǎn)的多重對比排列結(jié)果而建立的 其大小為4n 4代表堿基的種類數(shù)目,n代表功能位點(diǎn)的長度 矩陣的每一個(gè)元素M(aj,j)的值代表第a種核苷酸在功能位點(diǎn)第j個(gè)位置上出現(xiàn)的得分,a A,T,G,C。123456A18227-319T26142-10G3110-50-19C5-916880感知矩陣示例感知矩陣示例 對于一個(gè)序列s=a1a2an,根據(jù)對應(yīng)位置上核苷酸的類型,取感知矩陣中對應(yīng)的權(quán)值,加和以后得到該序列
24、的得分 設(shè)S=ATTGCA,則 Ws = 1+6+14-5+8+19=43 T功能位點(diǎn)閾值 T非功能位點(diǎn)閾值 如果Ws T,則S是功能位點(diǎn); 如果Ws T,則S是非功能位點(diǎn)。njjsjaMW1),(感知矩陣感知矩陣M的構(gòu)造算法的構(gòu)造算法令A(yù)+代表功能位點(diǎn)集合 A-代表非功能位點(diǎn)集合 過程如下: (1)初始化M為零矩陣; (2)執(zhí)行過程(3)-(6)的循環(huán); (3)逐步取訓(xùn)練集合中的每個(gè)實(shí)例Si,如果Si A+,轉(zhuǎn) 過程(4);如果Si A-,轉(zhuǎn)過程(5); (4)如果W(Si) T,M不變,否則根據(jù)Si的核苷酸分布將M中所有對應(yīng)元素的值加1;轉(zhuǎn)(6); (5)如果W(Si) T,M不變,否則根
25、據(jù)Si的核苷酸分布將M中所有對應(yīng)元素的值減1;轉(zhuǎn)(6); (6)若訓(xùn)練集合中的所有實(shí)例都處理過,則循環(huán)結(jié)束,轉(zhuǎn)(7),否則繼續(xù)執(zhí)行循環(huán)體,直到處理完所有實(shí)例; (7)如果M穩(wěn)定,則結(jié)束;否則轉(zhuǎn)(2)。 上述算法反復(fù)調(diào)整感知矩陣M的元素值,直到M矩陣能夠正確識別訓(xùn)練集中的所有功能位點(diǎn)和非功能位點(diǎn)。 對于最終得到的感知矩陣,要求其具有敏感性和特異性,每一列上的元素值應(yīng)該盡可能地有明顯的差別,以便反應(yīng)功能位點(diǎn)各個(gè)位置上的特點(diǎn)?;蜃R別的一般方法基因識別的一般方法 基因識別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研基因識別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究內(nèi)容究內(nèi)容 生物學(xué)背景生物學(xué)背景 基因識別問題,在近幾年受到
26、廣泛的重視基因識別問題,在近幾年受到廣泛的重視 當(dāng)當(dāng)基因組研究進(jìn)入一個(gè)系統(tǒng)測序階段時(shí),基因組研究進(jìn)入一個(gè)系統(tǒng)測序階段時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋技急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處理大量已測定的但未知功能或術(shù),以處理大量已測定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 一個(gè)開放閱讀框(一個(gè)開放閱讀框(ORF,open reading frame)是一個(gè)沒有終止編碼的密碼子序)是一個(gè)沒有終止編碼的密碼子序列。列。 原核基因識別任務(wù)的重點(diǎn)是識別開放閱讀原核基因識別任務(wù)的重點(diǎn)是識別開放閱讀框,或者說識別長的編碼區(qū)域???,或者說識別長的編碼區(qū)域。(一一) 基于基因密碼子特性的識別
27、方法基于基因密碼子特性的識別方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法檢查終止密碼子的出現(xiàn)頻率檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(gè)(個(gè)( 64/3)密碼子出現(xiàn)一次終止密碼子)密碼子出現(xiàn)一次終止密碼子 基本思想:基本思想: 如果能夠找到一個(gè)比較長的序列,其相應(yīng)如果能夠找到一個(gè)比較長的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。 基本算法:基本算法: 掃描給定的掃描給定的DNA序列,在三個(gè)不同的閱讀序列,在三個(gè)不同的閱讀框中尋找較長
28、的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。 這種算法過于簡單,不適合于處理短的這種算法過于簡單,不適合于處理短的ORF或者交疊的或者交疊的ORF。(二二) 識別編碼區(qū)域的另一種方法是分識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率析各種密碼子出現(xiàn)的頻率 例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個(gè)、個(gè)、4個(gè)和個(gè)和1個(gè)密碼子個(gè)密碼子將一個(gè)隨機(jī)均勻分布的將一個(gè)隨機(jī)均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比
29、例應(yīng)該為6:4:1但是在真實(shí)的氨基酸序列中,上述比例并不正確但是在真實(shí)的氨基酸序列中,上述比例并不正確這說明這說明DNA的編碼區(qū)域并非隨機(jī)的編碼區(qū)域并非隨機(jī) 假設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進(jìn)一步,那么可以利用密碼子頻率進(jìn)一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORF 利用這種方法,可以計(jì)算一個(gè)利用這種方法,可以計(jì)算一個(gè)ORF成成為編碼區(qū)域的可能性。為編碼區(qū)域的可能性。一個(gè)簡單的統(tǒng)計(jì)模型一個(gè)簡單的統(tǒng)計(jì)模型假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子
30、abc在編碼區(qū)域出現(xiàn)的頻率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框,其開始的閱讀框,其n個(gè)密碼子個(gè)密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2221111第二種和第三種閱讀框第二種和第三種閱讀框n個(gè)密碼子出現(xiàn)的概率分別為個(gè)密碼子出現(xiàn)的概率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffp第第i個(gè)閱讀框成為編碼閱讀框的概率個(gè)閱讀框成為編碼閱讀框的概率計(jì)算:計(jì)算:算法:算法:在序列上移動(dòng)長度為在序列上移動(dòng)長度為3n的窗口,計(jì)算
31、的窗口,計(jì)算Pi根據(jù)根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii(三三) 基于編碼區(qū)堿基組成特征的識別方法基于編碼區(qū)堿基組成特征的識別方法 編碼序列與非編碼序列在堿基組成上有區(qū)別編碼序列與非編碼序列在堿基組成上有區(qū)別 單個(gè)堿基的組成比例單個(gè)堿基的組成比例 多個(gè)堿基的組成多個(gè)堿基的組成通過統(tǒng)計(jì)分析識別編碼序列通過統(tǒng)計(jì)分析識別編碼序列分析實(shí)例分析實(shí)例 真核基因識別的復(fù)雜性真核基因識別的復(fù)雜性 真核基因遠(yuǎn)比原核基因復(fù)雜:真核基因遠(yuǎn)比原核基因復(fù)雜: 一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。的,編碼區(qū)域被分割為若干個(gè)小
32、片段。 另一方面,真核基因具有更加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 (一一) 基本思路基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)錄啟動(dòng)區(qū)轉(zhuǎn)錄啟動(dòng)區(qū) 終止區(qū)終止區(qū) 在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子 識別轉(zhuǎn)錄剪切位點(diǎn)識別轉(zhuǎn)錄剪切位點(diǎn)剪切給體位點(diǎn)剪切給體位點(diǎn)剪切接受體位點(diǎn)剪切接受體位點(diǎn) 各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時(shí)可以結(jié)合起來以提高基因同的方法有時(shí)可以結(jié)合起來以提高基因識別的準(zhǔn)確率。識別的準(zhǔn)確率。 關(guān)
33、鍵問題是如何提高一個(gè)識別算法的敏關(guān)鍵問題是如何提高一個(gè)識別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 (二二) 真核基因識別的主要方法真核基因識別的主要方法兩大類識別方法:兩大類識別方法: 從頭計(jì)算方法從頭計(jì)算方法(或基于統(tǒng)計(jì)的方法)(或基于統(tǒng)計(jì)的方法) 根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識別,通過統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子行識別,通過統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域及基因間區(qū)域 基于同源序列比較的方法基于同源序列比較的方法 利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的
34、信息(如EST序列、蛋白質(zhì)序列),通過同源比較,序列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因。幫助發(fā)現(xiàn)新基因。 最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開發(fā)混合算法。發(fā)混合算法。(三三) 識別編碼區(qū)域識別編碼區(qū)域兩類方法兩類方法 : 基于特征信號的識別基于特征信號的識別 內(nèi)部外顯子內(nèi)部外顯子 剪切位點(diǎn)剪切位點(diǎn) 5端的外顯子一定在核心啟動(dòng)子的下游端的外顯子一定在核心啟動(dòng)子的下游 3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼 基于統(tǒng)計(jì)度量的方法基于統(tǒng)計(jì)度量的方法 根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向 雙聯(lián)密碼統(tǒng)計(jì)度量等雙聯(lián)密碼
35、統(tǒng)計(jì)度量等(四) 構(gòu)建基因模型 基因識別最終任務(wù)是建立完整的基因結(jié)構(gòu)模型 一個(gè)理想的基因識別程序應(yīng)該能夠發(fā)現(xiàn)完整的基因結(jié)構(gòu) (,e1, i1, , in-1, en , ) ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG 基因剪切位點(diǎn)基因剪切位點(diǎn) 剪切給體(剪切給體(donor)位點(diǎn))位點(diǎn)- “gt” 接受體(接受體(acceptor)位點(diǎn))位點(diǎn)- “ag”基因的可變剪切基因的可變剪切g(shù)ene A基因可變剪切示意基因可變剪切示意構(gòu)建基因模型方法構(gòu)建基因模型方法 剪切位點(diǎn)形成外顯子和內(nèi)含子的邊界剪切位點(diǎn)形成外顯子和內(nèi)含子的邊界 搜集候選外顯子搜集候選外顯子 候選基因候選基因 候選基因是一條非相交的
36、外顯子和內(nèi)含候選基因是一條非相交的外顯子和內(nèi)含子的鏈,表示為子的鏈,表示為 (i0, e1, i1, , en, in) 其中其中ij代表內(nèi)含子(代表內(nèi)含子(0 j n) el代表外顯子(代表外顯子(1 l n) i0和和in并非真實(shí)的內(nèi)含子,它們分別代表并非真實(shí)的內(nèi)含子,它們分別代表基因兩側(cè)的非編碼序列基因兩側(cè)的非編碼序列 候選基因位于給定的候選基因位于給定的DNA序列,并滿足下列一序列,并滿足下列一致性條件:致性條件: (1)所有外顯子加起來的長度是)所有外顯子加起來的長度是3的整數(shù)倍;的整數(shù)倍; (2)在各個(gè)外顯子內(nèi)部(除最后一個(gè)外顯子的)在各個(gè)外顯子內(nèi)部(除最后一個(gè)外顯子的最后一個(gè)密碼
37、子),沒有終止編碼;最后一個(gè)密碼子),沒有終止編碼; (3)第一個(gè)內(nèi)含子)第一個(gè)內(nèi)含子-外顯子邊界(外顯子邊界(i0, e1)是翻譯)是翻譯起始編碼,而最后一個(gè)外顯子起始編碼,而最后一個(gè)外顯子-內(nèi)含子邊界(內(nèi)含子邊界(en, in)是終止編碼。)是終止編碼。位點(diǎn)圖位點(diǎn)圖(分層標(biāo)注剪切位點(diǎn))(分層標(biāo)注剪切位點(diǎn))另設(shè)兩個(gè)特殊的頂點(diǎn),即起點(diǎn)(另設(shè)兩個(gè)特殊的頂點(diǎn),即起點(diǎn)(source)和終點(diǎn)()和終點(diǎn)(sink)。從起點(diǎn)到終點(diǎn)的任何一條路徑代表一個(gè)可能的基因結(jié)構(gòu)。從起點(diǎn)到終點(diǎn)的任何一條路徑代表一個(gè)可能的基因結(jié)構(gòu)。例如例如: 位點(diǎn)圖上的路徑位點(diǎn)圖上的路徑候選基因所對應(yīng)的道路圖中的路徑候選基因所對應(yīng)的道路
38、圖中的路徑求最優(yōu)路徑求最優(yōu)路徑 每一條弧附加一個(gè)權(quán)值每一條弧附加一個(gè)權(quán)值外顯子、內(nèi)含子度量 每個(gè)節(jié)點(diǎn)附加權(quán)值每個(gè)節(jié)點(diǎn)附加權(quán)值剪切位點(diǎn)度量 綜合評價(jià)綜合評價(jià) (五) 基于剪切比對的基因識別方法 基本思想是:利用數(shù)據(jù)庫中的同源信息進(jìn)行基因識別,包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。 其方法是: 首先通過分析所有可能的剪切接受體位點(diǎn)和剪切給體位點(diǎn),構(gòu)建一組候選的外顯子。 然后進(jìn)一步分析候選外顯子,尋找所有可能的外顯子組合,尋找一個(gè)與已知目標(biāo)蛋白質(zhì)或其他表達(dá)序列最匹配的組合 ?;蜃R別程序介紹基因識別程序及訪問地址基因識別程序及訪問地址(HP主頁;主頁;ESE-mail服務(wù)器;服務(wù)器;WSweb服務(wù)器;服務(wù)器;CL客戶客戶/服務(wù)服務(wù)器協(xié)議;器協(xié)議;EX有可執(zhí)行代碼;有可執(zhí)行代碼;SC有源代碼)有源代碼)第九節(jié)第九節(jié) 生物信息分析工具生物信息分析工具GCG GCG (Genetics Computer Group) 軟件包是一個(gè)序列分析、數(shù)據(jù)庫管理、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城區(qū)冬季除雪服務(wù)協(xié)議樣本下載
- 拆遷實(shí)施合同范本
- 2024年精密鑄造工藝服務(wù)協(xié)議
- 個(gè)人開店合同范本
- 加裝電梯簽訂合同范本
- 家庭分房合同范本
- 齊齊哈爾大學(xué)《教育統(tǒng)計(jì)學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 申請危房合同范本
- 廚藝大師2024年聘用協(xié)議格式
- 東方航空配偶補(bǔ)助合同范本
- 住宅燃?xì)饧友b安全保護(hù)裝置施工方案(完整版)
- 第四講夏商周考古
- 微機(jī)原理與接口技術(shù)8259A練習(xí)題及答案
- 正方體的11種展開圖
- 第15章《分式》教材分析課件(32張)
- 商鋪裝修工程施工方案.
- 西門子RWD68說明書
- 醫(yī)院車輛加油卡管理制度
- 數(shù)獨(dú)題目高級50題(后附答案)【最新】
- 問題線索辦理呈批表
- 學(xué)、練、評一體化課堂模式下賽的兩個(gè)問題與對策
評論
0/150
提交評論