




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第5章基因組信息分析5.1 關于遺傳語言5.2 原核基因組特點5.3 真核基因組特點5.4 基因組序列分析5.5 基因識別方法5.6 非編碼區(qū)與分析和調控 元件建模第一部分:搜索遺傳語言;原核、真核基因組特點1、基因組、基因組DNA的奧秘的奧秘 遺傳信息存貯在遺傳信息存貯在4種字符組成的核酸序列中種字符組成的核酸序列中 “天書天書”用遺傳語言書寫的人類遺傳藍本用遺傳語言書寫的人類遺傳藍本包含的信息量巨大包含的信息量巨大更重要的是目前人類對它了解甚少更重要的是目前人類對它了解甚少天書中只有天書中只有4個字符(堿基個字符(堿基A、T、G、C)既沒有段落,也沒有標點符號既沒有段落,也沒有標點符號是一
2、個長度為是一個長度為3109的一維序列。的一維序列。 科學家對這本天書了解最多的部分就是遺傳密碼科學家對這本天書了解最多的部分就是遺傳密碼或者說掌握了或者說掌握了DNA對蛋白質編碼的規(guī)律對蛋白質編碼的規(guī)律 關于密碼子關于密碼子(1)密碼子的使用是非隨機的)密碼子的使用是非隨機的 如果密碼子的第一、第二位堿基是如果密碼子的第一、第二位堿基是A、U, 那么第三位將盡可能使用那么第三位將盡可能使用G、C;反之亦然。;反之亦然。 如果三位都用如果三位都用G、C,則配對容易,分解難;,則配對容易,分解難; 三位都用三位都用A、U,則相反。,則相反。 一般地說,高表達的基因,要求翻譯速度快,一般地說,高表
3、達的基因,要求翻譯速度快, 要求密碼子和反密碼子配對快、分手也快。要求密碼子和反密碼子配對快、分手也快。 (2)密碼子的使用有一定的統(tǒng)計規(guī)律)密碼子的使用有一定的統(tǒng)計規(guī)律 對同義密碼子的使用存在著偏愛對同義密碼子的使用存在著偏愛不同種屬偏愛的密碼子不同不同種屬偏愛的密碼子不同 人類基因組:人類基因組:密碼子第三位取密碼子第三位取A、U的情況占的情況占90%而第三位取而第三位取G、C僅占僅占10%密碼子的使用偏性與基因功能、蛋白密碼子的使用偏性與基因功能、蛋白質結構相關質結構相關 (3)密碼子中的密碼密碼子中的密碼 三個堿基的位置與所編碼的氨基酸性質存在著聯(lián)系三個堿基的位置與所編碼的氨基酸性質存
4、在著聯(lián)系例如:例如:芳香族氨基酸芳香族氨基酸以以U作為第一位堿基作為第一位堿基中間位置堿基的性質與氨基酸是親疏水性相關中間位置堿基的性質與氨基酸是親疏水性相關疏水氨基酸的密碼子,其第二位堿基是疏水氨基酸的密碼子,其第二位堿基是U親水氨基酸的密碼子,其第二位堿基是親水氨基酸的密碼子,其第二位堿基是A第二位堿基是第二位堿基是G、C的密碼子所編碼的氨基酸的密碼子所編碼的氨基酸親水性、疏水性居中。親水性、疏水性居中。 基因組信息基因組信息人類基因組:人類基因組: 編碼區(qū)域只占編碼區(qū)域只占1%-3%對于非編碼序列,尚不清楚其含義或功能對于非編碼序列,尚不清楚其含義或功能非編碼區(qū)域對于生命活動具有重要的意
5、義非編碼區(qū)域對于生命活動具有重要的意義 包括包括內含子內含子、簡單重復序列、移動元件、偽基因、簡單重復序列、移動元件、偽基因 重復序列重復序列: 衛(wèi)星(衛(wèi)星(satellite)DNA小衛(wèi)星(小衛(wèi)星(mini-satellite)DNA微衛(wèi)星(微衛(wèi)星(micro-satellite) 順式調控元件順式調控元件:啟動子、增強子、沉默子啟動子、增強子、沉默子2、探索遺傳語言、探索遺傳語言 用語言學的方法進行研究用語言學的方法進行研究自然語言自然語言計算機程序設計語言計算機程序設計語言遺傳語言遺傳語言二進制序列二進制序列0、1的長程關聯(lián)性分析結果:的長程關聯(lián)性分析結果:編碼區(qū)域編碼區(qū)域 自然語言自然
6、語言非編碼區(qū)域非編碼區(qū)域 程序設計語言程序設計語言蛋白質編碼區(qū)域所包含的信息相當于待加工的蛋白質編碼區(qū)域所包含的信息相當于待加工的“數(shù)據(jù)數(shù)據(jù)”數(shù)據(jù)經過加工處理以后產生對應的蛋白質;數(shù)據(jù)經過加工處理以后產生對應的蛋白質;而非編碼區(qū)域則相當于而非編碼區(qū)域則相當于“程序程序”或或“指令指令”,確定如何在時間和空間方,確定如何在時間和空間方面控制基因的表達和蛋白質的合成面控制基因的表達和蛋白質的合成 用密碼學方法進行研究用密碼學方法進行研究是否存在其它密碼?是否存在其它密碼?調控信息密碼?調控信息密碼?蛋白質結構的密碼?蛋白質結構的密碼? 編碼在編碼在DNA上的一維程序如何在四維時空上的一維程序如何在
7、四維時空中控制生命體的生長發(fā)育中控制生命體的生長發(fā)育3、關于生物復雜性、關于生物復雜性生物的復雜性不僅僅是基因的數(shù)目生物的復雜性不僅僅是基因的數(shù)目人類基因約為人類基因約為30000個個線蟲有線蟲有20000個基因個基因230000/220000=210000 103000 4、基因組計劃帶來的希望、基因組計劃帶來的希望 實驗數(shù)據(jù)的積累速度在迅速地增加實驗數(shù)據(jù)的積累速度在迅速地增加 計算機科學和技術也在不斷地發(fā)展計算機科學和技術也在不斷地發(fā)展 單個基因組分析單個基因組分析基因序列基因序列基因功能基因功能基因的表達調控基因的表達調控基因產物基因產物基因多態(tài)性基因多態(tài)性比較基因組分析比較基因組分析物
8、種關系物種關系物種進化物種進化物種起源物種起源人、鼠基因組比較人、鼠基因組比較 人基因組人基因組 鼠基因組鼠基因組 鼠染色體上的顏色和數(shù)字代表在人染色體上對應的片段.老鼠約老鼠約75%的基因的基因與人類相同。與人類相同。SARS 基因組基因組(Severe Acute Respiratory Syndrome)全基因組核酸搜索結果全基因組核酸搜索結果 分段核酸搜索結果分段核酸搜索結果 全基因組蛋白質搜索結果全基因組蛋白質搜索結果 原核基因組特點v 原核生物的遺傳物質大都是環(huán)狀DNA,它們基因組存在固有的特點,可以利用這些特點分辨物種,識別基因。長開放閱讀框長開放閱讀框 v 開放閱讀框開放閱讀框
9、(open reading frame) :結構基:結構基因內從起始密碼子開始到終止密碼子的一段因內從起始密碼子開始到終止密碼子的一段核苷酸區(qū)域,其間不存在任何終止密碼,可核苷酸區(qū)域,其間不存在任何終止密碼,可編碼完整的多肽鏈,這一區(qū)域被稱為編碼完整的多肽鏈,這一區(qū)域被稱為開放閱開放閱讀框讀框。vORF表明該區(qū)域可能對應于一個原核生物基表明該區(qū)域可能對應于一個原核生物基因的編碼序列。因的編碼序列。 長開放閱讀框v絕大部分原核生物蛋白質的長度大于60個氨基酸v在大腸桿菌E.coli中,蛋白質編碼區(qū)域平均長度為316.8個密碼子,不到1.8%的基因的長度小于60個密碼子 原核基因分析的簡單原則v若
10、終止密碼子出現(xiàn)在非編碼核酸序列中,大約每21個密碼子出現(xiàn)一次(3/64).v如果所有的密碼子在隨機的核酸序列中以相同的頻率出現(xiàn),則不含終止密碼子且長度為N個密碼子的序列出現(xiàn)的幾率為(61/64)N .v長度為N的ORF的95%顯著性置信度等價于5%“隨機”命中的可能性,即(61/64)N=0.05,這里N等于60,表示典型長度的ORF中密碼子的數(shù)目。 高基因密度高基因密度 v原核基因組中的基因密度非常高 v完全測序的細菌和古細菌的基因組數(shù)據(jù)表明,其中85到88的核酸序列與基因的編碼直接相關。 在大腸桿菌(E.coli)中總共有4,288個基因,平均編碼長度為950bp,而基因之間的平均間隔長度
11、只有118bp。 簡單的基因結構簡單的基因結構 原核基因為連續(xù)基因,其編碼區(qū)是一個完整的DNA 片段。 GC含量含量 v堿基G、C相對于A、T的豐度很早就被看作是區(qū)分細菌基因組的特征之一 .v不同的原核生物中,GC含量(GC content)從25%到75%,變化非常大。 v大部分細菌是通過從其它生物體大規(guī)模獲得基因(長度為幾萬甚至幾十萬個核苷酸)而進化的(水平轉移).v簡而言之,許多細菌基因組表現(xiàn)為具有不同GC含量的區(qū)域的組合物,這些區(qū)域反映了細菌的進化歷史。 真核基因組特點真核基因組特點v基因組規(guī)模大基因組規(guī)模大v非編碼序列大非編碼序列大v基因結構復雜基因結構復雜v基因轉錄調控方式復雜基因
12、轉錄調控方式復雜v可變剪接可變剪接vCpG島島 v等值區(qū)等值區(qū) v密碼子使用偏性密碼子使用偏性 基因組規(guī)模基因組規(guī)模 v真核細胞的細胞核中一般有多條線性染色體,而且通常包含每條染色體的雙拷貝。 v人的基因組總長度超過30億對堿基,而大腸桿菌的基因組只有500多萬個堿基。 非編碼序列非編碼序列巨大v真核生物具有復雜的基因組結構。v編碼區(qū)域在人類基因組所占的比例不超過3%。v其余97%是非編碼序列,而在非編碼序列中,各種重復序列占了很大一部分。 基因結構復雜基因結構復雜基因轉錄調控方式復雜基因轉錄調控方式復雜 v真核基因的表達涉及多種RNA聚合酶。v與原核生物只使用一種由多個蛋白聚合而成的RNA聚
13、合酶不同,真核生物至少使用由8到12個蛋白組成的三種不同類型的RNA聚合酶。vRNA 聚合酶I和III負責轉錄生成RNA分子,這些分子本身執(zhí)行重要的功能,在所有的真核細胞中需要始終保持相當恒定的水平。vRNA聚合酶II專門負責轉錄編碼蛋白質的基因。 vRNA聚合酶II識別的啟動子序列的多樣性反映了區(qū)別基因的復雜程度,即在特定類型的細胞中和在特定的時間,區(qū)別哪些基因該表達而哪些基因不該表達。 可變剪接可變剪接 v估計有20%或更多的人類基因因為可變剪接(alternative splicing)而產生兩種或多種不同的mRNA序列 .v有一個人類的基因已經被證明,相同的原始轉錄物可以產生64種不同
14、的mRNA CpG島島 v真核生物基因組的GC含量的差別沒有在原核生物間觀察到的那么明顯,但是CG兩聯(lián)核苷酸(常稱作CpG,以表明連接兩個核苷酸的磷酸二脂鍵)的出現(xiàn)頻率僅為其隨機出現(xiàn)的頻率的20%,而沒有發(fā)現(xiàn)其它核苷酸對有異常的出現(xiàn)頻率。 CpG島v許多人類基因5-端的12kb片段中發(fā)現(xiàn)CpG島(CpG island),此處CpG的密度達到隨機預測的水平。 v人類基因組全長序列的分析結果表明,大約有45,000這樣的島,并且有一半左右與已知的管家基因(housekeeping gene,指在所有組織和在發(fā)育的所有階段都高水平表達的基因)是有關聯(lián)的,其余的CpG島有許多似乎是和組織特異性基因的啟
15、動子相關聯(lián)的。CpG島很少出現(xiàn)在不含基因的區(qū)域和那些發(fā)生多次突變的基因中。 等值區(qū)等值區(qū) v定義:具有一致堿基組成的長區(qū)域 v特征 :等值區(qū)基因組序列的長度超過1,000,000對堿基雖然不同的等值區(qū)其GC含量差別顯著,但同一等值區(qū)的GC含量始終相對均衡 v人類基因組大約可以劃分為五個不同類型的等值區(qū):a) L1和L2,平均GC含量分別為39%和42%(欠GC) b) H1、H2和H3,GC含量平均值分別為46%、49%和54% (豐GC)密碼子使用偏性密碼子使用偏性 v每個氨基酸至少對應1種密碼子,最多有6種對應的密碼子 v不同物種、不同生物體的基因密碼子使用存在著很大的差異(酵母精氨酸偏好
16、AGA,果蠅偏好CGC)v從生物學基礎來看,不同的密碼子使用模式的形成可能與基因的GC含量有關。 DNA序列分析基因序列基因表達調控信息 尋找基因牽涉到兩個方面的工作尋找基因牽涉到兩個方面的工作 :識別與基因相關的特殊序列信號預測基因的編碼區(qū)域結合兩個方面的結果確定基因的位置和結構 基因表達調控信息隱藏在基因的上游區(qū)域,在組成上具有基因表達調控信息隱藏在基因的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。一定的特征,可以通過序列分析識別這些特征。 v在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結構特征相關聯(lián),通常決定了DNA與蛋白質或者DNA與RN
17、A的相互作用。v存放這些信息的DNA片段稱為功能位點如啟動子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(Splice site)等。發(fā)現(xiàn)重復元素數(shù)據(jù)庫搜索分析功能位點序列組成統(tǒng)計分析綜合分析一個基本的DNA序列分析方案v功能序列分析的準確性來自于對“功能序列”和“非功能序列”的辨別能力。v兩個集合: 訓練集(training set)v用于建立完成識別任務的數(shù)學模型。測試集或控制集(control set)v用于檢驗所建模型的正確性。v用訓練集中實例對預測模型進行訓練,使之通過學習后具有正確處理和辨別能力。然后,用模型對測試集中的實例進行“功能”與“
18、非功能”的判斷,根據(jù)判斷結果計算模識別的準確性。收集已知的功能序列和非功能序列實例收集已知的功能序列和非功能序列實例(這些序列之間是非相關的(這些序列之間是非相關的 )訓練集訓練集(training set)測試集或控制集測試集或控制集(control set)建立完成識別任務的模型建立完成識別任務的模型檢驗所建模型的正確性檢驗所建模型的正確性對預測模型進行訓練,對預測模型進行訓練,使之通過學習后具有使之通過學習后具有正確處理和辨別能力。正確處理和辨別能力。進行進行“功能功能”與與“非功能非功能”的的判斷,根據(jù)判斷結果計算判斷,根據(jù)判斷結果計算模識別的準確性。模識別的準確性。識別識別“功能序列
19、功能序列”和和“非功能序列非功能序列”的過程的過程 vSn 敏感性敏感性vSp特異性特異性vTp是正確識別的功能序列數(shù),vTn為正確識別的非功能序列數(shù),vFn是被錯誤識別為非功能序列的功能序列數(shù),vFp是被錯誤識別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異性的權衡v對于一個實用程序,既要求有較高的敏感性,也要求有較高的特異性。v如果敏感性很高,但特異性比較低,則在實際應用中會產生高比率的假陽性;v相反,如果特異性很高,而敏感性比較低,則會產生高比率的假陰性。v對于敏感性和特異性需要進行權衡,給出綜合評價指標。 v對于一個識別程序準確性可按下式進行綜合評價:v另一個綜
20、合評介指標為相關系數(shù),其計算計算公式為:2pnSSAC)()()()(nnpppnnppnnpFTFTFTFTFFTTCCv選擇訓練集和測試集在檢測算法的可行性時,需要從已知的數(shù)據(jù)中按照不同的方式選擇訓練集和測試集 v測試集的構成非常關鍵在不同的測試集上進行測試可能會得到不同的準確性結果,甚至準確性相差很大。 v建立標準的功能序列測試集合。如基因轉錄剪切位點的測試集合、編碼區(qū)域的測試集合等。 5.4.2 核苷酸關聯(lián)分析核苷酸關聯(lián)分析v對于一個給定的基因組,最簡單的計算就是統(tǒng)計DNA序列中各類核苷酸出現(xiàn)的頻率。v對于隨機分布的DNA序列,每種核苷酸的出現(xiàn)是均勻分布的出現(xiàn)頻率各為0.25。v而真實
21、基因組的核苷酸分布則是非均勻的核苷酸核苷酸 頻率頻率 A0.3248693727808 C0.1751306272192 G0.1751306272192 T0.3248693727808 酵母基因組核苷酸出現(xiàn)頻率酵母基因組核苷酸出現(xiàn)頻率v在統(tǒng)計過程中,如果同時計算DNA的正反兩條鏈,則根據(jù)堿基配對原則,A和T、C和G的出現(xiàn)頻率相同。v如果僅統(tǒng)計一條鏈,則雖然A和T、C和G的出現(xiàn)頻率不同,但是非常接近。核苷酸核苷酸 頻率頻率 A0.344C0.155G0.157T0.343 M.jannaschii單鏈核苷酸出現(xiàn)頻率單鏈核苷酸出現(xiàn)頻率基因和其它功能區(qū)域在正反兩條鏈上出現(xiàn)的可能性通常一樣 核苷酸
22、出現(xiàn)頻率也不應該有偏差 正反兩條鏈在信息的組織結構方面不應該有差別 單鏈上A和T、C和G的出現(xiàn)頻率相近。正反兩條鏈堿基互補的原則 單鏈上A和T、C和G的出現(xiàn)頻率相近的解釋兩聯(lián)核苷酸頻率 v不同基因組中兩個連續(xù)核苷酸出現(xiàn)的頻率也是不相同的v4種核苷酸可以組合成16種兩聯(lián)核苷酸酵母基因組兩聯(lián)核苷酸頻率表酵母基因組兩聯(lián)核苷酸頻率表對酵母基因組對酵母基因組兩聯(lián)核苷酸的兩聯(lián)核苷酸的統(tǒng)計結果統(tǒng)計結果其中核苷酸對其中核苷酸對出現(xiàn)頻率最高出現(xiàn)頻率最高的達到的達到0.119而出現(xiàn)頻率最而出現(xiàn)頻率最低的只有低的只有0.028令: Pij 代表兩聯(lián)核苷酸(i,j)的出現(xiàn)頻率 Pi 代表核苷酸i的出現(xiàn)頻率 則 : P
23、ij= Pij/(PiPj) 的值反應核苷酸i和j的關聯(lián)關系 如果Pij=1,則在兩個連續(xù)的位置上,核苷酸i和j的出現(xiàn)是相對獨立的。關聯(lián)性分析關聯(lián)性分析 v對于酵母基因組 PA=0.3248 PAA=0.1193 PAA =0.1193/(0.3248*0.3248) =1.131 1 表明在兩個連續(xù)位置上“A”的出現(xiàn)不是獨立的,而是相關的。關聯(lián)性分析關聯(lián)性分析 v同樣,對于相隔一定距離k(k代表核苷酸個數(shù))的兩個核苷酸,也可能具有一定的相關性。v假設Pij(k)代表核苷酸j出現(xiàn)在核苷酸i之后第k個位置的頻率,則可定義一個反應統(tǒng)計相關性的互信息I(k) vI(k)值得大小實際上反應了距離為k的
24、兩個核苷酸之間的相關性的程度41,2)(log)()(jijiijijppkpkpkI三聯(lián)核苷酸基因密碼子 v在進行編碼區(qū)域識別時,常常需要對三聯(lián)核苷酸進行統(tǒng)計分析,這實際上是分析密碼子的使用偏性。由于密碼子的簡并性(degeneracy),每個氨基酸至少對應1種密碼子,最多有6種對應的密碼子。在基因中,同義密碼子的使用并不是完全一致的。不同物種、不同生物體的基因密碼子使用存在著很大的差異v基因密碼子的使用與基因編碼的蛋白的結構和功能有關,與基因表達的生理功能有著密切的聯(lián)系 v蛋白的三級結構與密碼子使用概率有密切的關系通過對密碼子的聚類分析,可以很清晰地將具有不同三級結構蛋白質的編碼基因分成不
25、同的類,而具有相似三級結構蛋白的編碼基因則大致聚在同一類中,從而證明基因密碼子的使用偏性與蛋白質三級結構具有密切的相關性。 v在不同物種中,類型相同的基因具有相近的同義密碼子使用偏性對于同一類型的基因由物種引起的同義密碼子使用偏性的差異較小 針對酵母第一染色體的分析結果針對酵母第一染色體的分析結果第二部分v基因識別基因識別基因識別v基因識別是生物信息學領域里的一個重基因識別是生物信息學領域里的一個重要研究內容要研究內容 v基因識別問題,在近幾年受到廣泛的重基因識別問題,在近幾年受到廣泛的重視視 當人類基因組研究進入一個系統(tǒng)測序階段當人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動的基因組序列
26、翻譯解釋時,急需可靠自動的基因組序列翻譯解釋技術,以處理大量已測定的但未知功能或技術,以處理大量已測定的但未知功能或未經注釋的未經注釋的DNA序列序列 v原核基因識別原核基因識別重點在于識別編碼區(qū)域重點在于識別編碼區(qū)域v非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNA,有一部分被轉錄,有一部分被轉錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域但是不被翻譯,這一部分稱為非翻譯區(qū)域 v5UTR-基因上游區(qū)域的非翻譯區(qū)域基因上游區(qū)域的非翻譯區(qū)域 v3UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域v對于任何給定的核酸序列(單鏈DNA或
27、mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進行解釋。v例如,序列ATTCGATCGCAAv這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一個開放閱讀框(一個開放閱讀框(ORF,open reading frame)是一個沒有終止編碼的密碼子序)是一個沒有終止編碼的密碼子序列。列。原核基因識別任務的重點是識別開放閱讀原核基因識別任務的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域???,或者說識別長的編碼區(qū)域?;诨蛎艽a子特性的識別方法基于基因密碼子特性的識別方法v辨別編碼區(qū)域與非編碼區(qū)
28、域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(個( 64/3)密碼子出現(xiàn)一次終止密)密碼子出現(xiàn)一次終止密碼子碼子 基本思想:基本思想:如果能夠找到一個比較長的序列,其相應如果能夠找到一個比較長的序列,其相應的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。v基本算法:基本算法:掃描給定的掃描給定的DNA序列,在三個不同的閱讀序列,在三個不同的閱讀框中尋找較長的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼
29、子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短的這種算法過于簡單,不適合于處理短的ORF或者交疊的或者交疊的ORF。v識別編碼區(qū)域的另一種方法是分析各種識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率密碼子出現(xiàn)的頻率 將一個隨機均勻分布的將一個隨機均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應該為比例應該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個、個、4個和個和1個密碼子個密碼子但是在真實的氨基酸序列中,上述比例并不但是在真
30、實的氨基酸序列中,上述比例并不正確正確這說明這說明DNA的編碼區(qū)域并非隨機序列的編碼區(qū)域并非隨機序列v假設在一條假設在一條DNA序列中已經找到所有的序列中已經找到所有的ORF,那么可以利用密碼子頻率進一步,那么可以利用密碼子頻率進一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORFv馬爾柯夫鏈模型馬爾柯夫鏈模型v利用這種方法,可以計算一個利用這種方法,可以計算一個ORF成為成為編碼區(qū)域的可能性。編碼區(qū)域的可能性。v一個簡單的統(tǒng)計模型一個簡單的統(tǒng)計模型假設相繼的密碼子是獨立的,不存在前后依假設相繼的密碼子是獨立的,不存在前后依賴關系。賴關系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻
31、率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框,其開始的閱讀框,其n個密碼子個密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2211111v第二種和第三種閱讀框第二種和第三種閱讀框n個密碼子出現(xiàn)的概個密碼子出現(xiàn)的概率分別為率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i個閱讀框成為編碼閱讀框的概率個閱讀框成為編碼閱讀框的概率計算:計算:v算法:算法:在序列上移動長度為在序列上移動長度為n的窗口,計算的窗口,計算Pi根據(jù)
32、根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii基于編碼區(qū)域堿基組成特征的識別方法基于編碼區(qū)域堿基組成特征的識別方法v編碼序列與非編碼序列在堿基組成上編碼序列與非編碼序列在堿基組成上有區(qū)別有區(qū)別單個堿基的組成比例單個堿基的組成比例多個堿基的組成多個堿基的組成v通過統(tǒng)計分析識別編碼序列通過統(tǒng)計分析識別編碼序列分析實例分析實例2、真核基因識別問題、真核基因識別問題 真核基因遠比原核基因復雜:真核基因遠比原核基因復雜:v一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個小片段。的,編碼區(qū)域被分割為若干個小片段。v另一方面,真核基因具有更
33、加豐富的基另一方面,真核基因具有更加豐富的基因調控信息,這些信息主要分布在基因因調控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 基因識別基本思路基因識別基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉錄啟動區(qū)轉錄啟動區(qū) 終止區(qū)終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子在啟動區(qū)下游位置尋找翻譯起始密碼子 識別轉錄剪切位點識別轉錄剪切位點剪切給體位點剪切給體位點剪切接受體位點剪切接受體位點v各種不同的方法有不同的適應面,而不各種不同的方法有不同的適應面,而不同的方法有時可以結合起來以提高基因同的方法有時可以結合起來以提高基因識別的準確率。識別的準確率。v關鍵問題是如何提高一個識別算
34、法的敏關鍵問題是如何提高一個識別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 3、基因識別的主要方法、基因識別的主要方法兩大類識別方法:兩大類識別方法:v從頭算方法(或基于統(tǒng)計的方法)從頭算方法(或基于統(tǒng)計的方法)根據(jù)蛋白質編碼基因的一般性質和特征進行識別,根據(jù)蛋白質編碼基因的一般性質和特征進行識別,通過統(tǒng)計值區(qū)分外顯子、內含子及基因間區(qū)域通過統(tǒng)計值區(qū)分外顯子、內含子及基因間區(qū)域 v基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫中現(xiàn)有與基因有關的信息(如利用數(shù)據(jù)庫中現(xiàn)有與基因有關的信息(如EST序序列、蛋白質序列),通過同源
35、比較,幫助發(fā)現(xiàn)新列、蛋白質序列),通過同源比較,幫助發(fā)現(xiàn)新基因?;?。v最理想的方法是綜合兩大類方法的優(yōu)點,最理想的方法是綜合兩大類方法的優(yōu)點,開發(fā)混合算法。開發(fā)混合算法。4、編碼區(qū)域識別、編碼區(qū)域識別兩類方法兩類方法 :v基于特征信號的識別基于特征信號的識別 內部外顯子內部外顯子剪切位點剪切位點5端的外顯子一定在核心啟動子的下游端的外顯子一定在核心啟動子的下游3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼 v基于統(tǒng)計度量的方法基于統(tǒng)計度量的方法 根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等雙聯(lián)密碼統(tǒng)計度量等v在一個基因中,第在一個基因中,第i個(個(
36、i=1,64)密碼子相對使用)密碼子相對使用傾向傾向RSCUi的定義如下:的定義如下:vObsi是該基因中第是該基因中第i個密碼子實際出現(xiàn)的次數(shù)個密碼子實際出現(xiàn)的次數(shù)Expi是對應密碼子期望的出現(xiàn)次數(shù)是對應密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計的第是統(tǒng)計的第i個密碼子出現(xiàn)的次數(shù)個密碼子出現(xiàn)的次數(shù) syni是所有與第是所有與第i個密碼子同義密碼子出現(xiàn)的次數(shù)個密碼子同義密碼子出現(xiàn)的次數(shù)vRSCU大于大于1表示相應密碼子出現(xiàn)的次數(shù)比期望次數(shù)表示相應密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于高,而小于1則表示出現(xiàn)次數(shù)相對較少。則表示出現(xiàn)次數(shù)相對較少。iiiExpObsRSCU iiisynaaExp(5-66)
37、 (5-65) 密碼子使用傾向密碼子使用傾向v設一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為: fk是從第k位開始的雙聯(lián)密碼的頻率Fk是該雙聯(lián)密碼隨機出現(xiàn)的頻率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)雙聯(lián)密碼統(tǒng)計度量雙聯(lián)密碼統(tǒng)計度量通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed Sequence Tags)cDNA 蛋白質序列蛋白質序列v目前大多數(shù)預測程序都將數(shù)據(jù)庫相
38、似性目前大多數(shù)預測程序都將數(shù)據(jù)庫相似性搜索的信息結合進基因預測過程搜索的信息結合進基因預測過程v同時考慮序列特征信號和統(tǒng)計度量同時考慮序列特征信號和統(tǒng)計度量GRAIL用人工神經網(wǎng)絡識別編碼區(qū)域用人工神經網(wǎng)絡識別編碼區(qū)域人工神經網(wǎng)絡的概念人工神經網(wǎng)絡的概念v4、別名、別名v人工神經系統(tǒng)(人工神經系統(tǒng)(ANS)v神經網(wǎng)絡(神經網(wǎng)絡(NN)v自適應系統(tǒng)自適應系統(tǒng)(Adaptive Systems)、自適應網(wǎng))、自適應網(wǎng)(Adaptive Networks)v聯(lián)接模型(聯(lián)接模型(Connectionism)v神經計算機神經計算機(Neurocomputer)ANN ANN 具有學習(具有學習(Lear
39、ningLearning)能力)能力 v人工神經網(wǎng)絡可以根據(jù)所在的環(huán)境去改變它人工神經網(wǎng)絡可以根據(jù)所在的環(huán)境去改變它的行為的行為v自相聯(lián)的網(wǎng)絡自相聯(lián)的網(wǎng)絡v異相聯(lián)的網(wǎng)絡異相聯(lián)的網(wǎng)絡:它在接受樣本集合它在接受樣本集合A時,可時,可以抽取集合以抽取集合A中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的映射關系。映射關系?!俺橄蟪橄蟆惫δ堋9δ?。v不同的人工神經網(wǎng)絡模型,有不同的學習不同的人工神經網(wǎng)絡模型,有不同的學習/訓訓練算法練算法基本特征的自動提取基本特征的自動提取 v由于其運算的由于其運算的不精確性不精確性,表現(xiàn)成,表現(xiàn)成“去噪音、去噪音、容殘缺容殘缺”的能力,利用這種不精確性,比較的能
40、力,利用這種不精確性,比較自然地實現(xiàn)模式的自動分類。自然地實現(xiàn)模式的自動分類。v普化(普化(Generalization)能力與抽象能力)能力與抽象能力 適應性適應性( (Applicability)問題問題 v擅長兩個方面:擅長兩個方面:對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情況;況;必須學習一個復雜的非線性映射。必須學習一個復雜的非線性映射。v目前應用:目前應用:人們主要將其用于語音、視覺、知識處理、輔助人們主要將其用于語音、視覺、知識處理、輔助決策等方面。決策等方面。在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊
41、控制、求組合優(yōu)化問題的最佳解的近似解(不是最佳近求組合優(yōu)化問題的最佳解的近似解(不是最佳近似解)等方面也有較好的應用。似解)等方面也有較好的應用。 生物神經網(wǎng)生物神經網(wǎng)1、構成、構成胞體胞體(Soma)樹突(樹突(Dendrite)胞體胞體(Soma) 軸突(軸突(Axon)突觸(突觸(Synapse)生物神經網(wǎng)生物神經網(wǎng)v3、六個基本特征:、六個基本特征:1)神經元及其聯(lián)接神經元及其聯(lián)接;2)神經元之間的聯(lián)接強度決定神經元之間的聯(lián)接強度決定信號傳遞信號傳遞的強弱;的強弱;3)神經元之間的聯(lián)接強度是可以隨神經元之間的聯(lián)接強度是可以隨訓練訓練改變的;改變的;4)信號可以是起信號可以是起刺激刺激作
42、用的,也可以是起作用的,也可以是起抑制抑制作作用的;用的;5)一個神經元接受的信號的一個神經元接受的信號的累積效果累積效果決定該神經決定該神經元的狀態(tài);元的狀態(tài);6) 每個神經元可以有一個每個神經元可以有一個“閾值閾值”。人工神經元人工神經元 v神經元是構成神經網(wǎng)絡的最基本單元(構神經元是構成神經網(wǎng)絡的最基本單元(構件)。件)。v人工神經元模型應該具有生物神經元的六個人工神經元模型應該具有生物神經元的六個基本特性。基本特性。 人工神經元的基本構成人工神經元的基本構成 v人工神經元模擬生物神經元的人工神經元模擬生物神經元的一階特性一階特性。輸入:輸入:X=(x1,x2,xn)聯(lián)接權:聯(lián)接權:W=
43、(w1,w2,wn)T網(wǎng)絡輸入:網(wǎng)絡輸入: net=xiwi向量形式:向量形式: net=XWxn wnx1 w1x2 w2net=XW激活函數(shù)激活函數(shù)(Activation Function) v激活函數(shù)激活函數(shù)執(zhí)行對該神經元所獲得的網(wǎng)絡執(zhí)行對該神經元所獲得的網(wǎng)絡輸入的變換,也可以稱為激勵函數(shù)、活化函輸入的變換,也可以稱為激勵函數(shù)、活化函數(shù):數(shù): o=f(net) v1、線性函數(shù)(、線性函數(shù)(Liner Function) f(net)=k*net+c netooc4、S形函數(shù)形函數(shù) f(net)=a+b/(1+exp(-d*net)a,b,d為常數(shù)。它的飽和值為為常數(shù)。它的飽和值為a和和a
44、+b。最簡單形式為:最簡單形式為:f(net)= 1/(1+exp(-d*net) 函數(shù)的飽和值為函數(shù)的飽和值為0和和1。vS形函數(shù)有較好的增益控制形函數(shù)有較好的增益控制 4、S形函數(shù)形函數(shù) a+b o(0,c)netac=a+b/2簡單單級網(wǎng)簡單單級網(wǎng)x1x2xno1o2omwnmw11w1mw2mwn1輸出層輸出層輸入層輸入層簡單單簡單單級網(wǎng)級網(wǎng)W=(wij)輸出層的第輸出層的第j個神經元的網(wǎng)絡輸入記為個神經元的網(wǎng)絡輸入記為netj:netj=x1w1j+x2w2j+xnwnj其中其中, 1 j m。取。取NET=(net1,net2,netm)NET=XWO=F(NET)Neural n
45、etwork mathematicsInputsOutput),(),(),(),(14414133131221211111wxfywxfywxfywxfy),(),(),(231232212221121wyfywyfywyfy141312111yyyyy),(312wyfyOut2323232yyyy學習規(guī)則v有導師學習有導師學習在學習訓練過程中需要不斷給網(wǎng)絡成對提供一個輸入模式和一個期望網(wǎng)絡正確輸出的模式,稱為“教師信號”。當網(wǎng)絡的輸出與期望的教師信號不符時,則調整權值,能產生所期望的輸出。 BP神經網(wǎng)絡神經網(wǎng)絡是指基于誤差反向傳播算法的多層前饋神經網(wǎng)絡 v反向傳播算法反向傳播算法的基本思
46、路:學習過程由信號的正向傳播和反向傳播兩個過程組成。正向傳播時,輸入樣本由輸入層進入,經隱層處理后傳向輸出層。若實際輸出與教師信號不符,則轉入誤差的反向傳播階段。輸出誤差將通過隱層向輸入層逐層反傳,并把誤差分攤而得到各層單元的誤差信號,作為修正各單元權值的依據(jù)。權值的調整過程即BP網(wǎng)絡的學習過程,直到網(wǎng)絡輸出精度滿足要求為止。權值的更改梯度下降法的基本思想v首先設置權W的一組初值,然后,連接計算均方誤差相對于權的梯度,并按上式一小步小步地修正權值,當滿足一定的準則時(比如MSE進入到下限的某一范圍時)即停止。這時稱為算法收斂。對于梯度下降算法來說,最大的問題是不能保證收斂到全局最優(yōu)。 梯度下降
47、法的缺點輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸出就是對一段輸出就是對一段DNA序列是否是編碼區(qū)域的判別結果序列是否是編碼區(qū)域的判別結果神經網(wǎng)絡具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關神經網(wǎng)絡具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關性性生物信息中,神經網(wǎng)絡主要應用于: 序列編碼分析; 蛋白質二級結構預測; 單肽及其切割位點預測; 遺傳密碼的結構和起源分析; 真核生物基因尋找和內含子剪接位點預測。第三部分v調控元件識別序列模式v1. 功能結構域,functional domainv2. 模塊,BLO
48、CKv3. 模體,motifv4. 模式,pattern/profile功能結構域v1. 具有完整的、獨立的三級結構v2. 具有特定的生物學功能v3. 一般長度,幾十到幾百個氨基酸v4. 允許插入/缺失,即允許存在gap模塊/BLOCKv1. 幾個到幾十個氨基酸v2. 無gap,從全局多序列比對的結果直接處理得到v3. 描述蛋白質家族或者一類蛋白質的序列保守性BLOCK模體/Motifv1. 不具有獨立的三級結構v2. 具有特定的生物學功能:結合,修飾,細胞亞定位,維持結構,等v3. 長度一般幾個到幾十個氨基酸或者堿基;v4. 例如,SUMO化的序列模體:-K-X-E (:A, I, L, V
49、, M, F, P; X:任意氨基酸)模式/Pattern/Profilev1. 在算法上用來描述一類功能結構域,模體或者模塊的表示方式v2. 根據(jù)序列數(shù)據(jù),構建的預測模型v3. 數(shù)據(jù)形式:概率表示v4. 用來預測新的可能符合特定模式的序列v5. 例如,直接將-K-X-E視為SUMO化位點的,普適的“模式”,則可以預測所有包含該模式的蛋白質序列2. 位點特異性打分矩陣v(1) Position Specific Scoring Matrix (PSSM)/ Weight Matrix Model(WMM)v(2) 對蛋白質家族進行多序列比對分析,發(fā)現(xiàn)結果中保守的BLOCKv(3) 根據(jù)BLOC
50、K序列推導相應的PSSMv(4) 不考慮gap的影響v(5) BLOCK長度一般在幾個幾十個殘基/堿基鋅指功能結構域的PSSMBLOCK - PSSM代表每一列代表每一列二十種二十種氨基酸氨基酸矩陣中的數(shù)值:當前位置上,某矩陣中的數(shù)值:當前位置上,某種氨基酸出現(xiàn)的頻率的種氨基酸出現(xiàn)的頻率的log值值第二種PSSMv每一個位置上顯示每種氨基酸或者堿基出現(xiàn)的頻率堿基的位置堿基的位置四種堿基四種堿基第三種PSSMv每一個位置顯示氨基酸/堿基出現(xiàn)的概率 PSSM:思考與應用v1. 可以根據(jù)BLOCK推導得到的PSSM進行數(shù)據(jù)庫的搜索,發(fā)現(xiàn)包含該模式的新的蛋白質,并預測功能v2. 需要思考的問題:(1)
51、 PSSM必須能夠很好的反映BLOCK, Motif以及Domain的真實情況。然而,數(shù)據(jù)有限;如何解決?(2) 根據(jù)PSSM如何計算新的序列?(3) PSSM中究竟包含著何等信息?問題一Pseudocountsv1. 如果訓練數(shù)據(jù)中包含很多序列,并且每個位置上的氨基酸出現(xiàn)頻率合理,則根據(jù)該訓練數(shù)據(jù)得到的PSSM能夠很好的反映訓練數(shù)據(jù)的真實情況。否則,得到的PSSM可能會有明顯的偏差v2. 解決方案,引入偽計數(shù)(pseudocounts)A. pseudocounts太多,PSSM偏離真實情況太遠B. pseudocounts太少,許多可能的氨基酸變化就忽略了v3. 數(shù)據(jù)量大時,偽計數(shù)可以少一
52、些,反之則要增大為計數(shù)的比例v4. 一般的經驗,偽計數(shù)NPseudocounts (2)v針對特定的氨基酸,如何確定是否需要引入偽計數(shù)?v1. 方法一:令f(i)為氨基酸i在蛋白質數(shù)據(jù)庫(例如:UniProt)中的分布比例v2. 方法二:使用打分矩陣來衡量序列的相似性(GPS的思想)v3. 方法三:對其他的BLOCK分析,來估算當前BLOCK可能的氨基酸的分布v4. 方法四:blind guess問題二:PSSM-發(fā)現(xiàn)v1. 計算log-odds ratio/Odds ratiov2. Do not miss: 性能檢驗!v3. 結果需要計算Sn, Sp, Ac & Mccv4. 需要
53、計算Self-consistency, Leave-one-out validation & n-fold cross-validation計算log-odds ratiovP(S|+),根據(jù)陽性訓練數(shù)據(jù)計算出來的概率;Then, P(S|-)?v1. 負樣本/陰性數(shù)據(jù)的概率計算v2. 計算方法:A. DNA序列,四種堿基出現(xiàn)的頻率B. 蛋白質序列,20種氨基酸出現(xiàn)的頻率Odds RatioLog-odds Ratio計算流程:滑動窗口v設定域值;窗口寬度9bp;依次打分,預測例:剪切模型 (Splicing)計算log-odds ratio問題三:PSSM-信息?v1. PSSM/motif/domain/BLOCK:每一個位置上究竟包含了什么樣的信息?v2. 對于同一個motif/PSSM:有些位點較其他位點提供更多的信息,why?v3. 如何定量化“信息”?信息論:Claude Shannonv信息論的奠基人1,048,576個盒子:Yes/No? v1. 隨機將10000R
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報書課題進度表格
- 課題的項目申報書
- 翻譯課題項目申報書范文
- 腫瘤護理課題申報書
- 出租噴涂車間合同范本
- 變更土地合同范本
- 紅色文化產業(yè)課題申報書
- 內墻膩子合同范本
- 醫(yī)學課題申報書意見
- 合同范本 工商
- 2023年江蘇經貿職業(yè)技術學院單招職業(yè)適應性測試筆試題庫及答案解析
- 揭陽市基層診所醫(yī)療機構衛(wèi)生院社區(qū)衛(wèi)生服務中心村衛(wèi)生室地址信息
- 晉中項目投決會報告
- 二年級下冊數(shù)學課件-1.3 分草莓 北師大版(共14張PPT)
- 2022年中小學心理健康教育指導綱要
- 中國紅十字會救護員培訓理論考試試卷 (1)附答案
- 高架橋梁混凝土工程專項施工方案
- 銀行案件風險排查實施細則
- 亞馬遜品牌授權書(英文模板)
- 10級空乘《形體訓練3》課程標準(共14頁)
- 100以內不進位不退位加減法練習習題(直接打印)
評論
0/150
提交評論