轉(zhuǎn)錄剪切位點

上傳人：朱*** IP屬地：江西上傳時間：2022-04-22 格式：PPT 頁數(shù)：106 大?。?.33MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩101頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、核酸序列分析及結構預測核酸序列分析及結構預測主講張軍細胞生物學及遺傳學教研室第一節(jié)第一節(jié) 核酸序列的數(shù)據(jù)形式核酸序列的數(shù)據(jù)形式1. 串（string）符號或字符的有序排列，符號或字符來自有限集合A, T, G, C。序列（sequence）與串是同一概念。s=ATTGCATATG；串的長度|s|; 串s某個位置的字符表示為si ，1 i |s|。特別的，長度為0的串稱為空串（empty string），用符號表示。2. 子串（substring）和子序列（subsequence），二者不是相同的概念。子串和超串s=ATGCGGTA; t=TGCGG; s是t的超串子序列和超序列s=AT

2、GCGGTA; t=TGTA； s是t的超序列區(qū)間（interval）s=ATGCGGTACGTATACG; u=CG, si, i+13. 串u和w的拼接(concatenation),表示為uw。例如s = ATGCGGTA; t=TGCGGst = ATGCGGTATGCGGts = TGCGGATGCGGTA串的冥s = AT；sss= AT AT AT=s3串的前綴（prefix）s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = 存在且只存在s的另1個子串u, 使得s=tu, t是u的前綴。串的后綴（suffix）s = ATGCGGTAG

3、Csuffix(s,3) =AGC； suffix(s,2) =GC ；suffix(s,0) = 存在且只存在s的另1個子串u, 使得s=ut, t是u的后綴。殺手因子(killer agent)，假定存在1個特別的串 |-1 在與其它串拼接的時候，起到刪除相鄰字符的作用例如, s = ATGCGGTAGC s= TGCGGTAGCs = ATGCGGTAG ATGC GGTAG ? 無意義 (ATGC ) GGTAG ATGC ( GGTAG )stu=(st)u=s(tu); |s| -1, |t| -1, |u| -1 |st| = |s| + |t| ,s和t可以是任何串利用殺手因子

4、可以表示1個串的子串，前綴和后綴sij= i-1 s |s| -jprefix(s, k) = s |s| -kSuffic(s, k) = |s| -k s 第二節(jié)第二節(jié) 序序列列比比較較序列比較的根本任務：發(fā)現(xiàn)序列之間的相似性辨別序列之間的差異序列比較的目的：相似序列相似的結構，相似的功能判別序列之間的同源性推測序列之間的進化關系序列的相似性同源（同源（homologyhomology）- - 具有共同的祖先具有共同的祖先直向同源（直向同源（OrthologousOrthologous ）共生同源（共生同源（paralogousparalogous ）相似（相似（si

5、milaritysimilarity）同源序列一般是相似的同源序列一般是相似的相似序列不一定是同源的相似序列不一定是同源的進化趨同（同功能）進化趨同（同功能）直向同源（直向同源（a1 in species I, a1 in species II)共生同源（共生同源（a1 and a2 in species I）進化趨同進化趨同水平轉(zhuǎn)移水平轉(zhuǎn)移基因復制基因復制序列相似性的描述序列相似性的描述定性的描述定性的描述定量的數(shù)值定量的數(shù)值相似性相似性距離距離序列比較的基本操作是比對序列比較的基本操作是比對（Alignment）兩個序列的比對是指這兩個序列中各個字符的兩個序列的比對是指這兩個序列

6、中各個字符的一種一一對應關系，或字符的對比排列一種一一對應關系，或字符的對比排列。例如，設有兩個序列：s=GACGGATTAG，t=GATCGGAATAGAlignment2: GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG字母表和序列字母表和序列字母表字母表( (字符或符號集合字符或符號集合) )4字符DNA字母表：A, C, G, T擴展的遺傳學字母表或IUPAC編碼單字母氨基酸編碼符號含義說明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPy

7、rimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny 擴展的遺傳學字母表或擴展的遺傳學字母表或IUPACIUPAC編碼編碼序列比對的生物學背景分子生物學實驗技術和大規(guī)模測序方法的發(fā)展，使復雜序列之間的比較成為實驗室的常規(guī)數(shù)據(jù)分析。基因組學的發(fā)

8、展，物理圖譜的構建，DNA的拼接求。一個或一些序列與其它數(shù)據(jù)序列的比較。兩個序列之間是否存在相同的子串。個序列與數(shù)據(jù)庫中序列是否存在相似的子串。序列比較可以分為五種基本情況序列比較可以分為五種基本情況：（1 1）兩條長度相近序列相似性分析，找出序列的差別）兩條長度相近序列相似性分析，找出序列的差別（2 2）判斷一條序列的前綴與另一條序列的后綴相似）判斷一條序列的前綴與另一條序列的后綴相似（3 3）判斷一條序列是否是另一條序列的子序列）判斷一條序列是否是另一條序列的子序列（4 4）判斷兩條序列中是否有非常相似的子序列）判斷兩條序列中是否有非常相似的子序列（5 5）對多個序列進行上述）對多個序列

9、進行上述4 4種分析種分析第三第三節(jié)節(jié) 兩個序列的比較兩個序列的比較1. 全局比較基本算法通過全局比對(global alignment)，了解序列的相似性例如，s=ATTGCATATG；t=ATTGATATCs=ATTGCATATGt=ATTG ATATC記分系統(tǒng)的引入與比對打分匹配1空配2錯配1對s, t進行相似性比較，得到的最大記分值，稱為2序列的相似性，表示為sim(s, t)=maxscore is=ATTGCATATG； s=ATTGCATATG t=ATTG ATATC; t=ATTG ATATC8(-2)(-1)=5 4+ (-2) + (-1) 5 =-12. 局部比較序列

10、s和t的局部比較是通過局部比對(local alignment)實現(xiàn)的，是s和t子串之間的比對。例如，s=AATTGCATATG；t=ATTGT，對它們進行局部相似性比較，表示s(2,3,4,5)=t(1,2,3,4)3. 半全局部比較序列s和t的比對，序列長度相差較大例如，s=AATTGCATATG；t=ATTGT，對它們進行全局相似性比較，表示s=AATTGCATATG； s=AATTGCATATGt= - ATTGT - - - - - ； t= A- TTG - - T - - -半全局比對的核心是2個序列前綴與后綴第四第四節(jié)節(jié) 相似性和距離相似性和距離1. 相似性相似性的度量是基

11、于比對，2個序列的相似性可以由sim(s, t)maxscore i2. 距離對任何的一個串實施一系列的變換后，可以轉(zhuǎn)化為另一個串 s t; t=AGCTT; s=TTA TTA - - TTA AGTTA AGCTAAGCTT變換的操作： 1 字符的替換 2 空格插入和刪除給予每個變換特定的開銷(cost) dist(s,t)=mincost i擴展的編輯操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二條序列頭尾顛倒可以通過基本操作實現(xiàn) 反向互補序列反向互補序列RNA發(fā)夾式二級結構發(fā)夾式二級結構

12、第五節(jié)第五節(jié) 通過點矩陣進行序列比較通過點矩陣進行序列比較“矩陣作圖法矩陣作圖法” ” 或或 “ “對角線作圖對角線作圖” 序列序列1 序列序列2 實實例例序列序列1 序列序列1 自我比較自我比較滑動窗口技術滑動窗口技術兩條序列中有很多匹配的字符對，因而在點矩陣中兩條序列中有很多匹配的字符對，因而在點矩陣中會形成很多點標記。會形成很多點標記?；瑒哟翱诩夹g滑動窗口技術使用滑動窗口代替一次一個位點的比較是解決這個使用滑動窗口代替一次一個位點的比較是解決這個問題的有效方法。問題的有效方法。假設窗口大小為假設窗口大小為1010，相似度閾值為，相似度閾值為8 8，則每次比較，則每次比較取取1010個

13、連續(xù)的字符，如相同的字符超過個連續(xù)的字符，如相同的字符超過8 8個，則標個，則標記記基于滑動窗口的點矩陣方法可以明顯地降低點陣圖基于滑動窗口的點矩陣方法可以明顯地降低點陣圖的噪聲，并且明確無誤的指示出了兩條序列間具有的噪聲，并且明確無誤的指示出了兩條序列間具有顯著相似性的區(qū)域。顯著相似性的區(qū)域。（a a）對人類（）對人類（Homo sapiensHomo sapiens）與黑猩猩（）與黑猩猩（Pongo pygmaeusPongo pygmaeus）的）的球蛋白基球蛋白基因序列進行比較的完整點陣圖。（因序列進行比較的完整點陣圖。（b b）利用滑動窗口對以上的兩種球蛋白基）利用滑動窗口對以上的

14、兩種球蛋白基因序列進行比較的點陣圖，其中窗口大小為因序列進行比較的點陣圖，其中窗口大小為1010個核苷酸，相似度閾值為個核苷酸，相似度閾值為8 8。 (a) (b) 具有連續(xù)相似區(qū)域的兩條具有連續(xù)相似區(qū)域的兩條DNADNA序列的簡單點陣圖序列的簡單點陣圖第六節(jié)第六節(jié) DNA片斷的組裝片斷的組裝1. 生物學背景 DNA測序技術的發(fā)展2. 片斷的組裝(fragment assembly) 片斷（fragment）的產(chǎn)生理想情況例如ATTGGGCA; CGATT; TGGGCAGA組裝 - - ATTGGGCA - -CGATT - - - - - - - - - - - TGGGCAGACGAT

15、TGGGCAGA 表決序列復雜情況堿基識別錯誤序列方向未知重復序列缺乏覆蓋序列污染復雜情況的組裝模型最短公共超串(shortest common superstring) 重構(reconstruction) 多連疊(multicontig) DNA序列分析基因序列基因表達調(diào)控信息尋找基因牽涉到兩個方面的工作尋找基因牽涉到兩個方面的工作：識別與基因相關的特殊序列信號預測基因的編碼區(qū)域結合兩個方面的結果確定基因的位置和結構基因表達調(diào)控信息隱藏在基因上游區(qū)域，在組成上基因表達調(diào)控信息隱藏在基因上游區(qū)域，在組成上具有一定的特征，可以通過序列分析識別這些特征。具有一定的特征，可以

16、通過序列分析識別這些特征。在DNA序列中，除了基因之外，還包含許多其它信息，這些信息大部分與核酸的結構特征相關聯(lián)，通常決定了DNA與蛋白質(zhì)或者DNA與RNA的相互作用。存放這些信息的DNA片段稱為功能位點如啟動子（Promoter）、基因終止序列（Terminator sequence）、剪切位點（Splice site）等。發(fā)現(xiàn)重復元素數(shù)據(jù)庫搜索分析功能位點序列組成統(tǒng)計分析綜合分析一個基本的DNA序列分析方案功能序列分析的準確性來自于對“功能序列”和“非功能序列”的辨別能力。兩個集合：訓練集（training set）用于建立完成識別任務的數(shù)學模型。測試集或控制集（control

17、 set）用于檢驗所建模型的正確性。用訓練集中實例對預測模型進行訓練，使之通過學習后具有正確處理和辨別能力。然后，用模型對測試集中的實例進行“功能”與“非功能”的判斷，根據(jù)判斷結果計算模識別的準確性。收集已知的功能序列和非功能序列實例收集已知的功能序列和非功能序列實例（這些序列之間是非相關的（這些序列之間是非相關的）訓練集訓練集（training set）測試集或控制集測試集或控制集（control set）建立完成識別任務的模型建立完成識別任務的模型檢驗所建模型的正確性檢驗所建模型的正確性對預測模型進行訓練，對預測模型進行訓練，使之通過學習后具有使之通過學習后具有正確處理和辨別能力。正

18、確處理和辨別能力。進行進行“功能功能”與與“非功能非功能”的的判斷，根據(jù)判斷結果計算判斷，根據(jù)判斷結果計算模識別的準確性。模識別的準確性。識別識別“功能序列功能序列”和和“非功能序列非功能序列”的過程的過程 Sn 敏感性敏感性 Sp 特異性特異性 Tp是正確識別的功能序列數(shù)， Tn為正確識別的非功能序列數(shù)， Fn是被錯誤識別為非功能序列的功能序列數(shù)， Fp是被錯誤識別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異性的權衡對于一個實用程序，既要求有較高的敏感性，也要求有較高的特異性。如果敏感性很高，但特異性比較低，則在實際應用中會產(chǎn)生高比率的假陽性；相反，如果特異性

19、很高，而敏感性比較低，則會產(chǎn)生高比率的假陰性。對于敏感性和特異性需要進行權衡，給出綜合評價指標。功能位點分析功能位點分析功能位點（functional site）與特定功能相關的位點，是生物分子序列上的一個功能單元，或者是生物分子序列上一個較短的片段。功能位點又稱為功能序列（functional sequence）、序列模式（motif）、信號（signal）等。核酸序列中的功能位點包括轉(zhuǎn)錄因子結合位點轉(zhuǎn)錄因子結合位點、轉(zhuǎn)錄剪切位點轉(zhuǎn)錄剪切位點、翻譯起始位點翻譯起始位點等。在蛋白質(zhì)序列分析中，常使用序列模式這個名詞，蛋白質(zhì)的序列模式往往與蛋白質(zhì)結構域或者作用部位有關。功能位點示意

20、功能位點示意基因組序列中若干個相鄰的功能位點組合形成功能區(qū)域（functional region）。功能位點分析的任務發(fā)現(xiàn)功能位點特征識別功能位點A 利用共有序列搜索功能位點共有序列（common consensus）又稱一致性片段共有序列是關于功能位點特征的描述，它描述了功能位點每個位置上核苷酸進化的保守性例如: NTATN 利用共有序列進行功能位點分析牽涉到兩個方面的問題，如何構造共有序列如何利用共有序列在給定的核酸序列上搜索尋找功能位點，并計算所找到的功能位點的可靠性共有序列具有以下幾個方面的特征：（1）共有序列中既有保守的位置，也有可變的位置；（2）任何位置上的核苷

21、酸可以用15種類型之一來表示：核苷酸表示符號核苷酸表示符號符符號號含含義義說說明明GG腺嘌呤腺嘌呤AA鳥嘌呤鳥嘌呤TT胸腺嘧啶胸腺嘧啶CC胞嘧啶胞嘧啶RG or A嘌呤嘌呤YT or C嘧啶嘧啶MA or C氨基氨基KG or T羧基羧基SG or C強氫鍵強氫鍵(3個氫鍵個氫鍵)WA or T弱氫鍵弱氫鍵(2個氫鍵個氫鍵)HA or C or T非非GBG or T or C非非AVG or C or A非非T(非非U)DG or A or T非非CNG or A or T or C任意堿基任意堿基共有序列構造過程: (1) 初始化共有序列為一系列可變位置，以“N”代表(2) 在可變

22、位置尋找出現(xiàn)次數(shù)最多的核苷酸，并將該位置轉(zhuǎn)化為保守位置(3) 對當前所得到的共有序列進行特異性檢查，若通過檢查，轉(zhuǎn)（5），否則轉(zhuǎn)（4）(4) 形成與當前共有序列一致的位點子集，剔除不一致的位點子集，轉(zhuǎn)（2）(5) 從原位點集合中刪除與當前共有序列一致的位點，用確定的堿基替換“N”；若還有剩余位點，則轉(zhuǎn)（1），構造另外的共有序列。TTATGATATATACGCTTGTC TCCAC TTATGATATATACGCTTGTC TCCAC TNNNN tTATG tACGC tTGTC tCCAC tTATG tACGC tTGTC tCCAC TNNNC 1 2 3 4 2 3 NNNNNTNN

23、NN非特異非特異 TNNNC非特異非特異 tACGc tTGTc tCCAc 4 2 tACGc tTGTc tCCAc 3 TNSNC 特異特異 5 Consensus1： TNSNC 剩余位點：剩余位點： TTATG ATATA 5 Consensus2： NTATN TNSNC 在給定的序列中搜索與共有序列一致的序列片段數(shù)據(jù)庫搜索共有序列表示方法的缺點：是關于序列特征的一種定性描述，對于DNA序列，它能夠說明序列每個位置可能出現(xiàn)的堿基類型，但是不能準確地說明各位置上不同類型堿基出現(xiàn)的可能性大小。B 用感知矩陣分析功能位點用權系數(shù)描述功能位點各位置上每種核苷酸的相對重要性感知矩陣

24、（或加權矩陣）根據(jù)一系列功能位點的多重對比排列結果而建立的其大小為4n 4代表堿基的種類數(shù)目，n代表功能位點的長度矩陣的每一個元素M(aj,j)的值代表第a種核苷酸在功能位點第j個位置上出現(xiàn)的得分,a A,T,G,C。123456A18227-319T26142-10G3110-50-19C5-916880感知矩陣示例感知矩陣示例對于一個序列s=a1a2an，根據(jù)對應位置上核苷酸的類型，取感知矩陣中對應的權值，加和以后得到該序列的得分設S=ATTGCA，則 Ws = 1+6+14-5+8+19=43 T功能位點閾值 T非功能位點閾值如果Ws T，則S是功能位點；如果Ws T，則S

25、是非功能位點。njjsjaMW1),(感知矩陣感知矩陣M的構造算法的構造算法令A+代表功能位點集合 A-代表非功能位點集合過程如下：（1）初始化M為零矩陣；（2）執(zhí)行過程（3）-（6）的循環(huán)；（3）逐步取訓練集合中的每個實例Si，如果Si A+，轉(zhuǎn) 過程（4）；如果Si A-，轉(zhuǎn)過程（5）；（4）如果W（Si） T，M不變，否則根據(jù)Si的核苷酸分布將M中所有對應元素的值加1；轉(zhuǎn)（6）；（5）如果W（Si） T，M不變，否則根據(jù)Si的核苷酸分布將M中所有對應元素的值減1；轉(zhuǎn)（6）；（6）若訓練集合中的所有實例都處理過，則循環(huán)結束，轉(zhuǎn)（7），否則繼續(xù)執(zhí)行循環(huán)體，直到處理完所有實例；

26、（7）如果M穩(wěn)定，則結束；否則轉(zhuǎn)（2）。上述算法反復調(diào)整感知矩陣M的元素值，直到M矩陣能夠正確識別訓練集中的所有功能位點和非功能位點。對于最終得到的感知矩陣，要求其具有敏感性和特異性，每一列上的元素值應該盡可能地有明顯的差別，以便反應功能位點各個位置上的特點。基因識別的一般方法基因識別的一般方法基因識別是生物信息學領域里的一個重要研基因識別是生物信息學領域里的一個重要研究內(nèi)容究內(nèi)容生物學背景生物學背景基因識別問題，在近幾年受到廣泛的重視基因識別問題，在近幾年受到廣泛的重視當當基因組研究進入一個系統(tǒng)測序階段時，基因組研究進入一個系統(tǒng)測序階段時，急需可靠自動的基因組序列翻譯解釋技急需可

27、靠自動的基因組序列翻譯解釋技術，以處理大量已測定的但未知功能或術，以處理大量已測定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列一個開放閱讀框（一個開放閱讀框（ORF,open reading frame）是一個沒有終止編碼的密碼子序）是一個沒有終止編碼的密碼子序列。列。原核基因識別任務的重點是識別開放閱讀原核基因識別任務的重點是識別開放閱讀框，或者說識別長的編碼區(qū)域?？?，或者說識別長的編碼區(qū)域。(一一) 基于基因密碼子特性的識別方法基于基因密碼子特性的識別方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法檢查終止密碼子的出現(xiàn)頻率檢查終止密碼子的出現(xiàn)頻率終止密碼子

28、出現(xiàn)的期望次數(shù)為：終止密碼子出現(xiàn)的期望次數(shù)為：每每21個（個（ 64/3）密碼子出現(xiàn)一次終止密碼子）密碼子出現(xiàn)一次終止密碼子基本思想：基本思想：如果能夠找到一個比較長的序列，其相應如果能夠找到一個比較長的序列，其相應的密碼子序列不含終止密碼子，則這段序的密碼子序列不含終止密碼子，則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。基本算法：基本算法：掃描給定的掃描給定的DNA序列，在三個不同的閱讀序列，在三個不同的閱讀框中尋找較長的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼子以后，回頭尋找起始密碼子。后，回頭尋找起始密碼子。這種算法過于簡單，不適合于處理短的這種算法過于簡單，

29、不適合于處理短的ORF或者交疊的或者交疊的ORF。(二二) 識別編碼區(qū)域的另一種方法是分識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率析各種密碼子出現(xiàn)的頻率例如，亮氨酸、丙氨酸、色氨酸分別有例如，亮氨酸、丙氨酸、色氨酸分別有6個、個、4個和個和1個密碼子個密碼子將一個隨機均勻分布的將一個隨機均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列，則在氨基酸序列中上述序列，則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應該為比例應該為6:4:1但是在真實的氨基酸序列中，上述比例并不正確但是在真實的氨基酸序列中，上述比例并不正確這說明這說明DNA的編碼區(qū)域并非隨機的編碼區(qū)域并非隨機假

30、設在一條假設在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF，那么可以利用密碼子頻率進一步，那么可以利用密碼子頻率進一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORF 利用這種方法，可以計算一個利用這種方法，可以計算一個ORF成成為編碼區(qū)域的可能性。為編碼區(qū)域的可能性。一個簡單的統(tǒng)計模型一個簡單的統(tǒng)計模型假設相繼的密碼子是獨立的，不存在前后依假設相繼的密碼子是獨立的，不存在前后依賴關系。賴關系。令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框

31、，其開始的閱讀框，其n個密碼子個密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2221111第二種和第三種閱讀框第二種和第三種閱讀框n個密碼子出現(xiàn)的概率分別為個密碼子出現(xiàn)的概率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffp第第i個閱讀框成為編碼閱讀框的概率個閱讀框成為編碼閱讀框的概率計算：計算：算法：算法：在序列上移動長度為在序列上移動長度為3n的窗口，計算的窗口，計算Pi根據(jù)根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii(三三) 基于編碼區(qū)堿基組成特征的識別方法基于編碼區(qū)堿基組成特征的識別方

32、法編碼序列與非編碼序列在堿基組成上有區(qū)別編碼序列與非編碼序列在堿基組成上有區(qū)別單個堿基的組成比例單個堿基的組成比例多個堿基的組成多個堿基的組成通過統(tǒng)計分析識別編碼序列通過統(tǒng)計分析識別編碼序列分析實例分析實例真核基因識別的復雜性真核基因識別的復雜性真核基因遠比原核基因復雜：真核基因遠比原核基因復雜：一方面，真核基因的編碼區(qū)域是非連續(xù)一方面，真核基因的編碼區(qū)域是非連續(xù)的，編碼區(qū)域被分割為若干個小片段。的，編碼區(qū)域被分割為若干個小片段。另一方面，真核基因具有更加豐富的基另一方面，真核基因具有更加豐富的基因調(diào)控信息，這些信息主要分布在基因因調(diào)控信息，這些信息主要分布在基因上游區(qū)域。上游區(qū)

33、域。 (一一) 基本思路基本思路找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)錄啟動區(qū)轉(zhuǎn)錄啟動區(qū) 終止區(qū)終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子在啟動區(qū)下游位置尋找翻譯起始密碼子識別轉(zhuǎn)錄剪切位點識別轉(zhuǎn)錄剪切位點剪切給體位點剪切給體位點剪切接受體位點剪切接受體位點各種不同的方法有不同的適應面，而不各種不同的方法有不同的適應面，而不同的方法有時可以結合起來以提高基因同的方法有時可以結合起來以提高基因識別的準確率。識別的準確率。關鍵問題是如何提高一個識別算法的敏關鍵問題是如何提高一個識別算法的敏感性（感性（sensitivity，Sn）和特異性）和特異性（specificity，Sp）。

34、）。 (二二) 真核基因識別的主要方法真核基因識別的主要方法兩大類識別方法：兩大類識別方法：從頭計算方法從頭計算方法（或基于統(tǒng)計的方法）（或基于統(tǒng)計的方法）根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別，通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子行識別，通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域及基因間區(qū)域基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫中現(xiàn)有與基因有關的信息（如利用數(shù)據(jù)庫中現(xiàn)有與基因有關的信息（如EST序列、蛋白質(zhì)序列），通過同源比較，序列、蛋白質(zhì)序列），通過同源比較，幫助發(fā)現(xiàn)新基因。幫助發(fā)現(xiàn)新基因。最理想的方法是綜合兩大類方法的優(yōu)點，開最理想

35、的方法是綜合兩大類方法的優(yōu)點，開發(fā)混合算法。發(fā)混合算法。(三三) 識別編碼區(qū)域識別編碼區(qū)域兩類方法兩類方法：基于特征信號的識別基于特征信號的識別內(nèi)部外顯子內(nèi)部外顯子剪切位點剪切位點 5端的外顯子一定在核心啟動子的下游端的外顯子一定在核心啟動子的下游 3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼基于統(tǒng)計度量的方法基于統(tǒng)計度量的方法根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等雙聯(lián)密碼統(tǒng)計度量等(四) 構建基因模型基因識別最終任務是建立完整的基因結構模型一個理想的基因識別程序應該能夠發(fā)現(xiàn)完整的基因結構（,e1, i1, , in-1,

36、en , ） ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG 基因剪切位點基因剪切位點剪切給體（剪切給體（donor）位點）位點- “gt” 接受體（接受體（acceptor）位點）位點- “ag”基因的可變剪切基因的可變剪切gene A基因可變剪切示意基因可變剪切示意構建基因模型方法構建基因模型方法剪切位點形成外顯子和內(nèi)含子的邊界剪切位點形成外顯子和內(nèi)含子的邊界搜集候選外顯子搜集候選外顯子候選基因候選基因候選基因是一條非相交的外顯子和內(nèi)含候選基因是一條非相交的外顯子和內(nèi)含子的鏈，表示為子的鏈，表示為（i0, e1, i1, , en, in）其中其中ij代表內(nèi)含子（代表內(nèi)含子（0

37、 j n） el代表外顯子（代表外顯子（1 l n） i0和和in并非真實的內(nèi)含子，它們分別代表并非真實的內(nèi)含子，它們分別代表基因兩側(cè)的非編碼序列基因兩側(cè)的非編碼序列候選基因位于給定的候選基因位于給定的DNA序列，并滿足下列一序列，并滿足下列一致性條件：致性條件：（1）所有外顯子加起來的長度是）所有外顯子加起來的長度是3的整數(shù)倍；的整數(shù)倍；（2）在各個外顯子內(nèi)部（除最后一個外顯子的）在各個外顯子內(nèi)部（除最后一個外顯子的最后一個密碼子），沒有終止編碼；最后一個密碼子），沒有終止編碼；（3）第一個內(nèi)含子）第一個內(nèi)含子-外顯子邊界（外顯子邊界（i0, e1）是翻譯）是翻譯起始編碼，而最后一個

38、外顯子起始編碼，而最后一個外顯子-內(nèi)含子邊界（內(nèi)含子邊界（en, in）是終止編碼。）是終止編碼。位點圖位點圖（分層標注剪切位點）（分層標注剪切位點）另設兩個特殊的頂點，即起點（另設兩個特殊的頂點，即起點（source）和終點（）和終點（sink）。從起點到終點的任何一條路徑代表一個可能的基因結構。從起點到終點的任何一條路徑代表一個可能的基因結構。例如例如：位點圖上的路徑位點圖上的路徑候選基因所對應的道路圖中的路徑候選基因所對應的道路圖中的路徑求最優(yōu)路徑求最優(yōu)路徑每一條弧附加一個權值每一條弧附加一個權值外顯子、內(nèi)含子度量每個節(jié)點附加權值每個節(jié)點附加權值剪切位點度量綜合評價綜合評價 (五) 基于剪切比對的基因識別方法基本思想是：利用數(shù)據(jù)庫中的同源信息進行基因識別，包括DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。其方法是：首先通過分析所有可能的剪切接受體位點和剪切給體位點，構建一組候選的外顯子。然后進一步分析候選外顯子，尋找所有可能的外顯子組合，尋找一個與已知目標蛋白質(zhì)或其他表達序列最匹配的組合。基因識別程序介紹基因識別程序及訪問地址基因識別程序及訪問地址（HP主頁；主頁；ESE-mail服務器；服務器；WSweb服務器；服務器；CL客戶客戶/服務服務器協(xié)議；器協(xié)議；EX有可執(zhí)行代碼；有可執(zhí)行代碼

人人文庫> 全部分類> 教育資料 > 課設設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

轉(zhuǎn)錄剪切位點

文檔簡介

溫馨提示

最新文檔

評論

轉(zhuǎn)錄剪切位點

文檔簡介

溫馨提示

最新文檔

評論

相關文檔