基因組信息分析_第1頁
基因組信息分析_第2頁
基因組信息分析_第3頁
基因組信息分析_第4頁
基因組信息分析_第5頁
已閱讀5頁,還剩146頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第5章基因組信息分析5.1 關(guān)于遺傳語言5.2 原核基因組特點5.3 真核基因組特點5.4 基因組序列分析5.5 基因識別方法5.6 非編碼區(qū)與分析和調(diào)控 元件建模第一部分:搜索遺傳語言;原核、真核基因組特點1、基因組、基因組DNA的奧秘的奧秘 遺傳信息存貯在遺傳信息存貯在4種字符組成的核酸序列中種字符組成的核酸序列中 “天書天書”用遺傳語言書寫的人類遺傳藍本用遺傳語言書寫的人類遺傳藍本包含的信息量巨大包含的信息量巨大更重要的是目前人類對它了解甚少更重要的是目前人類對它了解甚少天書中只有天書中只有4個字符(堿基個字符(堿基A、T、G、C)既沒有段落,也沒有標(biāo)點符號既沒有段落,也沒有標(biāo)點符號是一

2、個長度為是一個長度為3109的一維序列。的一維序列。 科學(xué)家對這本天書了解最多的部分就是遺傳密碼科學(xué)家對這本天書了解最多的部分就是遺傳密碼或者說掌握了或者說掌握了DNA對蛋白質(zhì)編碼的規(guī)律對蛋白質(zhì)編碼的規(guī)律 關(guān)于密碼子關(guān)于密碼子(1)密碼子的使用是非隨機的)密碼子的使用是非隨機的 如果密碼子的第一、第二位堿基是如果密碼子的第一、第二位堿基是A、U, 那么第三位將盡可能使用那么第三位將盡可能使用G、C;反之亦然。;反之亦然。 如果三位都用如果三位都用G、C,則配對容易,分解難;,則配對容易,分解難; 三位都用三位都用A、U,則相反。,則相反。 一般地說,高表達的基因,要求翻譯速度快,一般地說,高表

3、達的基因,要求翻譯速度快, 要求密碼子和反密碼子配對快、分手也快。要求密碼子和反密碼子配對快、分手也快。 (2)密碼子的使用有一定的統(tǒng)計規(guī)律)密碼子的使用有一定的統(tǒng)計規(guī)律 對同義密碼子的使用存在著偏愛對同義密碼子的使用存在著偏愛不同種屬偏愛的密碼子不同不同種屬偏愛的密碼子不同 人類基因組:人類基因組:密碼子第三位取密碼子第三位取A、U的情況占的情況占90%而第三位取而第三位取G、C僅占僅占10%密碼子的使用偏性與基因功能、蛋白密碼子的使用偏性與基因功能、蛋白質(zhì)結(jié)構(gòu)相關(guān)質(zhì)結(jié)構(gòu)相關(guān) (3)密碼子中的密碼密碼子中的密碼 三個堿基的位置與所編碼的氨基酸性質(zhì)存在著聯(lián)系三個堿基的位置與所編碼的氨基酸性質(zhì)存

4、在著聯(lián)系例如:例如:芳香族氨基酸芳香族氨基酸以以U作為第一位堿基作為第一位堿基中間位置堿基的性質(zhì)與氨基酸是親疏水性相關(guān)中間位置堿基的性質(zhì)與氨基酸是親疏水性相關(guān)疏水氨基酸的密碼子,其第二位堿基是疏水氨基酸的密碼子,其第二位堿基是U親水氨基酸的密碼子,其第二位堿基是親水氨基酸的密碼子,其第二位堿基是A第二位堿基是第二位堿基是G、C的密碼子所編碼的氨基酸的密碼子所編碼的氨基酸親水性、疏水性居中。親水性、疏水性居中。 基因組信息基因組信息人類基因組:人類基因組: 編碼區(qū)域只占編碼區(qū)域只占1%-3%對于非編碼序列,尚不清楚其含義或功能對于非編碼序列,尚不清楚其含義或功能非編碼區(qū)域?qū)τ谏顒泳哂兄匾囊?/p>

5、義非編碼區(qū)域?qū)τ谏顒泳哂兄匾囊饬x 包括包括內(nèi)含子內(nèi)含子、簡單重復(fù)序列、移動元件、偽基因、簡單重復(fù)序列、移動元件、偽基因 重復(fù)序列重復(fù)序列: 衛(wèi)星(衛(wèi)星(satellite)DNA小衛(wèi)星(小衛(wèi)星(mini-satellite)DNA微衛(wèi)星(微衛(wèi)星(micro-satellite) 順式調(diào)控元件順式調(diào)控元件:啟動子、增強子、沉默子啟動子、增強子、沉默子2、探索遺傳語言、探索遺傳語言 用語言學(xué)的方法進行研究用語言學(xué)的方法進行研究自然語言自然語言計算機程序設(shè)計語言計算機程序設(shè)計語言遺傳語言遺傳語言二進制序列二進制序列0、1的長程關(guān)聯(lián)性分析結(jié)果:的長程關(guān)聯(lián)性分析結(jié)果:編碼區(qū)域編碼區(qū)域 自然語言自然

6、語言非編碼區(qū)域非編碼區(qū)域 程序設(shè)計語言程序設(shè)計語言蛋白質(zhì)編碼區(qū)域所包含的信息相當(dāng)于待加工的蛋白質(zhì)編碼區(qū)域所包含的信息相當(dāng)于待加工的“數(shù)據(jù)數(shù)據(jù)”數(shù)據(jù)經(jīng)過加工處理以后產(chǎn)生對應(yīng)的蛋白質(zhì);數(shù)據(jù)經(jīng)過加工處理以后產(chǎn)生對應(yīng)的蛋白質(zhì);而非編碼區(qū)域則相當(dāng)于而非編碼區(qū)域則相當(dāng)于“程序程序”或或“指令指令”,確定如何在時間和空間方,確定如何在時間和空間方面控制基因的表達和蛋白質(zhì)的合成面控制基因的表達和蛋白質(zhì)的合成 用密碼學(xué)方法進行研究用密碼學(xué)方法進行研究是否存在其它密碼?是否存在其它密碼?調(diào)控信息密碼?調(diào)控信息密碼?蛋白質(zhì)結(jié)構(gòu)的密碼?蛋白質(zhì)結(jié)構(gòu)的密碼? 編碼在編碼在DNA上的一維程序如何在四維時空上的一維程序如何在

7、四維時空中控制生命體的生長發(fā)育中控制生命體的生長發(fā)育3、關(guān)于生物復(fù)雜性、關(guān)于生物復(fù)雜性生物的復(fù)雜性不僅僅是基因的數(shù)目生物的復(fù)雜性不僅僅是基因的數(shù)目人類基因約為人類基因約為30000個個線蟲有線蟲有20000個基因個基因230000/220000=210000 103000 4、基因組計劃帶來的希望、基因組計劃帶來的希望 實驗數(shù)據(jù)的積累速度在迅速地增加實驗數(shù)據(jù)的積累速度在迅速地增加 計算機科學(xué)和技術(shù)也在不斷地發(fā)展計算機科學(xué)和技術(shù)也在不斷地發(fā)展 單個基因組分析單個基因組分析基因序列基因序列基因功能基因功能基因的表達調(diào)控基因的表達調(diào)控基因產(chǎn)物基因產(chǎn)物基因多態(tài)性基因多態(tài)性比較基因組分析比較基因組分析物

8、種關(guān)系物種關(guān)系物種進化物種進化物種起源物種起源人、鼠基因組比較人、鼠基因組比較 人基因組人基因組 鼠基因組鼠基因組 鼠染色體上的顏色和數(shù)字代表在人染色體上對應(yīng)的片段.老鼠約老鼠約75%的基因的基因與人類相同。與人類相同。SARS 基因組基因組(Severe Acute Respiratory Syndrome)全基因組核酸搜索結(jié)果全基因組核酸搜索結(jié)果 分段核酸搜索結(jié)果分段核酸搜索結(jié)果 全基因組蛋白質(zhì)搜索結(jié)果全基因組蛋白質(zhì)搜索結(jié)果 原核基因組特點v 原核生物的遺傳物質(zhì)大都是環(huán)狀DNA,它們基因組存在固有的特點,可以利用這些特點分辨物種,識別基因。長開放閱讀框長開放閱讀框 v 開放閱讀框開放閱讀框

9、(open reading frame) :結(jié)構(gòu)基:結(jié)構(gòu)基因內(nèi)從起始密碼子開始到終止密碼子的一段因內(nèi)從起始密碼子開始到終止密碼子的一段核苷酸區(qū)域,其間不存在任何終止密碼,可核苷酸區(qū)域,其間不存在任何終止密碼,可編碼完整的多肽鏈,這一區(qū)域被稱為編碼完整的多肽鏈,這一區(qū)域被稱為開放閱開放閱讀框讀框。vORF表明該區(qū)域可能對應(yīng)于一個原核生物基表明該區(qū)域可能對應(yīng)于一個原核生物基因的編碼序列。因的編碼序列。 長開放閱讀框v絕大部分原核生物蛋白質(zhì)的長度大于60個氨基酸v在大腸桿菌E.coli中,蛋白質(zhì)編碼區(qū)域平均長度為316.8個密碼子,不到1.8%的基因的長度小于60個密碼子 原核基因分析的簡單原則v若

10、終止密碼子出現(xiàn)在非編碼核酸序列中,大約每21個密碼子出現(xiàn)一次(3/64).v如果所有的密碼子在隨機的核酸序列中以相同的頻率出現(xiàn),則不含終止密碼子且長度為N個密碼子的序列出現(xiàn)的幾率為(61/64)N .v長度為N的ORF的95%顯著性置信度等價于5%“隨機”命中的可能性,即(61/64)N=0.05,這里N等于60,表示典型長度的ORF中密碼子的數(shù)目。 高基因密度高基因密度 v原核基因組中的基因密度非常高 v完全測序的細菌和古細菌的基因組數(shù)據(jù)表明,其中85到88的核酸序列與基因的編碼直接相關(guān)。 在大腸桿菌(E.coli)中總共有4,288個基因,平均編碼長度為950bp,而基因之間的平均間隔長度

11、只有118bp。 簡單的基因結(jié)構(gòu)簡單的基因結(jié)構(gòu) 原核基因為連續(xù)基因,其編碼區(qū)是一個完整的DNA 片段。 GC含量含量 v堿基G、C相對于A、T的豐度很早就被看作是區(qū)分細菌基因組的特征之一 .v不同的原核生物中,GC含量(GC content)從25%到75%,變化非常大。 v大部分細菌是通過從其它生物體大規(guī)模獲得基因(長度為幾萬甚至幾十萬個核苷酸)而進化的(水平轉(zhuǎn)移).v簡而言之,許多細菌基因組表現(xiàn)為具有不同GC含量的區(qū)域的組合物,這些區(qū)域反映了細菌的進化歷史。 真核基因組特點真核基因組特點v基因組規(guī)模大基因組規(guī)模大v非編碼序列大非編碼序列大v基因結(jié)構(gòu)復(fù)雜基因結(jié)構(gòu)復(fù)雜v基因轉(zhuǎn)錄調(diào)控方式復(fù)雜基因

12、轉(zhuǎn)錄調(diào)控方式復(fù)雜v可變剪接可變剪接vCpG島島 v等值區(qū)等值區(qū) v密碼子使用偏性密碼子使用偏性 基因組規(guī)?;蚪M規(guī)模 v真核細胞的細胞核中一般有多條線性染色體,而且通常包含每條染色體的雙拷貝。 v人的基因組總長度超過30億對堿基,而大腸桿菌的基因組只有500多萬個堿基。 非編碼序列非編碼序列巨大v真核生物具有復(fù)雜的基因組結(jié)構(gòu)。v編碼區(qū)域在人類基因組所占的比例不超過3%。v其余97%是非編碼序列,而在非編碼序列中,各種重復(fù)序列占了很大一部分。 基因結(jié)構(gòu)復(fù)雜基因結(jié)構(gòu)復(fù)雜基因轉(zhuǎn)錄調(diào)控方式復(fù)雜基因轉(zhuǎn)錄調(diào)控方式復(fù)雜 v真核基因的表達涉及多種RNA聚合酶。v與原核生物只使用一種由多個蛋白聚合而成的RNA聚

13、合酶不同,真核生物至少使用由8到12個蛋白組成的三種不同類型的RNA聚合酶。vRNA 聚合酶I和III負責(zé)轉(zhuǎn)錄生成RNA分子,這些分子本身執(zhí)行重要的功能,在所有的真核細胞中需要始終保持相當(dāng)恒定的水平。vRNA聚合酶II專門負責(zé)轉(zhuǎn)錄編碼蛋白質(zhì)的基因。 vRNA聚合酶II識別的啟動子序列的多樣性反映了區(qū)別基因的復(fù)雜程度,即在特定類型的細胞中和在特定的時間,區(qū)別哪些基因該表達而哪些基因不該表達。 可變剪接可變剪接 v估計有20%或更多的人類基因因為可變剪接(alternative splicing)而產(chǎn)生兩種或多種不同的mRNA序列 .v有一個人類的基因已經(jīng)被證明,相同的原始轉(zhuǎn)錄物可以產(chǎn)生64種不同

14、的mRNA CpG島島 v真核生物基因組的GC含量的差別沒有在原核生物間觀察到的那么明顯,但是CG兩聯(lián)核苷酸(常稱作CpG,以表明連接兩個核苷酸的磷酸二脂鍵)的出現(xiàn)頻率僅為其隨機出現(xiàn)的頻率的20%,而沒有發(fā)現(xiàn)其它核苷酸對有異常的出現(xiàn)頻率。 CpG島v許多人類基因5-端的12kb片段中發(fā)現(xiàn)CpG島(CpG island),此處CpG的密度達到隨機預(yù)測的水平。 v人類基因組全長序列的分析結(jié)果表明,大約有45,000這樣的島,并且有一半左右與已知的管家基因(housekeeping gene,指在所有組織和在發(fā)育的所有階段都高水平表達的基因)是有關(guān)聯(lián)的,其余的CpG島有許多似乎是和組織特異性基因的啟

15、動子相關(guān)聯(lián)的。CpG島很少出現(xiàn)在不含基因的區(qū)域和那些發(fā)生多次突變的基因中。 等值區(qū)等值區(qū) v定義:具有一致堿基組成的長區(qū)域 v特征 :等值區(qū)基因組序列的長度超過1,000,000對堿基雖然不同的等值區(qū)其GC含量差別顯著,但同一等值區(qū)的GC含量始終相對均衡 v人類基因組大約可以劃分為五個不同類型的等值區(qū):a) L1和L2,平均GC含量分別為39%和42%(欠GC) b) H1、H2和H3,GC含量平均值分別為46%、49%和54% (豐GC)密碼子使用偏性密碼子使用偏性 v每個氨基酸至少對應(yīng)1種密碼子,最多有6種對應(yīng)的密碼子 v不同物種、不同生物體的基因密碼子使用存在著很大的差異(酵母精氨酸偏好

16、AGA,果蠅偏好CGC)v從生物學(xué)基礎(chǔ)來看,不同的密碼子使用模式的形成可能與基因的GC含量有關(guān)。 DNA序列分析基因序列基因表達調(diào)控信息 尋找基因牽涉到兩個方面的工作尋找基因牽涉到兩個方面的工作 :識別與基因相關(guān)的特殊序列信號預(yù)測基因的編碼區(qū)域結(jié)合兩個方面的結(jié)果確定基因的位置和結(jié)構(gòu) 基因表達調(diào)控信息隱藏在基因的上游區(qū)域,在組成上具有基因表達調(diào)控信息隱藏在基因的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。一定的特征,可以通過序列分析識別這些特征。 v在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結(jié)構(gòu)特征相關(guān)聯(lián),通常決定了DNA與蛋白質(zhì)或者DNA與RN

17、A的相互作用。v存放這些信息的DNA片段稱為功能位點如啟動子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(Splice site)等。發(fā)現(xiàn)重復(fù)元素數(shù)據(jù)庫搜索分析功能位點序列組成統(tǒng)計分析綜合分析一個基本的DNA序列分析方案v功能序列分析的準(zhǔn)確性來自于對“功能序列”和“非功能序列”的辨別能力。v兩個集合: 訓(xùn)練集(training set)v用于建立完成識別任務(wù)的數(shù)學(xué)模型。測試集或控制集(control set)v用于檢驗所建模型的正確性。v用訓(xùn)練集中實例對預(yù)測模型進行訓(xùn)練,使之通過學(xué)習(xí)后具有正確處理和辨別能力。然后,用模型對測試集中的實例進行“功能”與“

18、非功能”的判斷,根據(jù)判斷結(jié)果計算模識別的準(zhǔn)確性。收集已知的功能序列和非功能序列實例收集已知的功能序列和非功能序列實例(這些序列之間是非相關(guān)的(這些序列之間是非相關(guān)的 )訓(xùn)練集訓(xùn)練集(training set)測試集或控制集測試集或控制集(control set)建立完成識別任務(wù)的模型建立完成識別任務(wù)的模型檢驗所建模型的正確性檢驗所建模型的正確性對預(yù)測模型進行訓(xùn)練,對預(yù)測模型進行訓(xùn)練,使之通過學(xué)習(xí)后具有使之通過學(xué)習(xí)后具有正確處理和辨別能力。正確處理和辨別能力。進行進行“功能功能”與與“非功能非功能”的的判斷,根據(jù)判斷結(jié)果計算判斷,根據(jù)判斷結(jié)果計算模識別的準(zhǔn)確性。模識別的準(zhǔn)確性。識別識別“功能序列

19、功能序列”和和“非功能序列非功能序列”的過程的過程 vSn 敏感性敏感性vSp特異性特異性vTp是正確識別的功能序列數(shù),vTn為正確識別的非功能序列數(shù),vFn是被錯誤識別為非功能序列的功能序列數(shù),vFp是被錯誤識別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異性的權(quán)衡v對于一個實用程序,既要求有較高的敏感性,也要求有較高的特異性。v如果敏感性很高,但特異性比較低,則在實際應(yīng)用中會產(chǎn)生高比率的假陽性;v相反,如果特異性很高,而敏感性比較低,則會產(chǎn)生高比率的假陰性。v對于敏感性和特異性需要進行權(quán)衡,給出綜合評價指標(biāo)。 v對于一個識別程序準(zhǔn)確性可按下式進行綜合評價:v另一個綜

20、合評介指標(biāo)為相關(guān)系數(shù),其計算計算公式為:2pnSSAC)()()()(nnpppnnppnnpFTFTFTFTFFTTCCv選擇訓(xùn)練集和測試集在檢測算法的可行性時,需要從已知的數(shù)據(jù)中按照不同的方式選擇訓(xùn)練集和測試集 v測試集的構(gòu)成非常關(guān)鍵在不同的測試集上進行測試可能會得到不同的準(zhǔn)確性結(jié)果,甚至準(zhǔn)確性相差很大。 v建立標(biāo)準(zhǔn)的功能序列測試集合。如基因轉(zhuǎn)錄剪切位點的測試集合、編碼區(qū)域的測試集合等。 5.4.2 核苷酸關(guān)聯(lián)分析核苷酸關(guān)聯(lián)分析v對于一個給定的基因組,最簡單的計算就是統(tǒng)計DNA序列中各類核苷酸出現(xiàn)的頻率。v對于隨機分布的DNA序列,每種核苷酸的出現(xiàn)是均勻分布的出現(xiàn)頻率各為0.25。v而真實

21、基因組的核苷酸分布則是非均勻的核苷酸核苷酸 頻率頻率 A0.3248693727808 C0.1751306272192 G0.1751306272192 T0.3248693727808 酵母基因組核苷酸出現(xiàn)頻率酵母基因組核苷酸出現(xiàn)頻率v在統(tǒng)計過程中,如果同時計算DNA的正反兩條鏈,則根據(jù)堿基配對原則,A和T、C和G的出現(xiàn)頻率相同。v如果僅統(tǒng)計一條鏈,則雖然A和T、C和G的出現(xiàn)頻率不同,但是非常接近。核苷酸核苷酸 頻率頻率 A0.344C0.155G0.157T0.343 M.jannaschii單鏈核苷酸出現(xiàn)頻率單鏈核苷酸出現(xiàn)頻率基因和其它功能區(qū)域在正反兩條鏈上出現(xiàn)的可能性通常一樣 核苷酸

22、出現(xiàn)頻率也不應(yīng)該有偏差 正反兩條鏈在信息的組織結(jié)構(gòu)方面不應(yīng)該有差別 單鏈上A和T、C和G的出現(xiàn)頻率相近。正反兩條鏈堿基互補的原則 單鏈上A和T、C和G的出現(xiàn)頻率相近的解釋兩聯(lián)核苷酸頻率 v不同基因組中兩個連續(xù)核苷酸出現(xiàn)的頻率也是不相同的v4種核苷酸可以組合成16種兩聯(lián)核苷酸酵母基因組兩聯(lián)核苷酸頻率表酵母基因組兩聯(lián)核苷酸頻率表對酵母基因組對酵母基因組兩聯(lián)核苷酸的兩聯(lián)核苷酸的統(tǒng)計結(jié)果統(tǒng)計結(jié)果其中核苷酸對其中核苷酸對出現(xiàn)頻率最高出現(xiàn)頻率最高的達到的達到0.119而出現(xiàn)頻率最而出現(xiàn)頻率最低的只有低的只有0.028令: Pij 代表兩聯(lián)核苷酸(i,j)的出現(xiàn)頻率 Pi 代表核苷酸i的出現(xiàn)頻率 則 : P

23、ij= Pij/(PiPj) 的值反應(yīng)核苷酸i和j的關(guān)聯(lián)關(guān)系 如果Pij=1,則在兩個連續(xù)的位置上,核苷酸i和j的出現(xiàn)是相對獨立的。關(guān)聯(lián)性分析關(guān)聯(lián)性分析 v對于酵母基因組 PA=0.3248 PAA=0.1193 PAA =0.1193/(0.3248*0.3248) =1.131 1 表明在兩個連續(xù)位置上“A”的出現(xiàn)不是獨立的,而是相關(guān)的。關(guān)聯(lián)性分析關(guān)聯(lián)性分析 v同樣,對于相隔一定距離k(k代表核苷酸個數(shù))的兩個核苷酸,也可能具有一定的相關(guān)性。v假設(shè)Pij(k)代表核苷酸j出現(xiàn)在核苷酸i之后第k個位置的頻率,則可定義一個反應(yīng)統(tǒng)計相關(guān)性的互信息I(k) vI(k)值得大小實際上反應(yīng)了距離為k的

24、兩個核苷酸之間的相關(guān)性的程度41,2)(log)()(jijiijijppkpkpkI三聯(lián)核苷酸基因密碼子 v在進行編碼區(qū)域識別時,常常需要對三聯(lián)核苷酸進行統(tǒng)計分析,這實際上是分析密碼子的使用偏性。由于密碼子的簡并性(degeneracy),每個氨基酸至少對應(yīng)1種密碼子,最多有6種對應(yīng)的密碼子。在基因中,同義密碼子的使用并不是完全一致的。不同物種、不同生物體的基因密碼子使用存在著很大的差異v基因密碼子的使用與基因編碼的蛋白的結(jié)構(gòu)和功能有關(guān),與基因表達的生理功能有著密切的聯(lián)系 v蛋白的三級結(jié)構(gòu)與密碼子使用概率有密切的關(guān)系通過對密碼子的聚類分析,可以很清晰地將具有不同三級結(jié)構(gòu)蛋白質(zhì)的編碼基因分成不

25、同的類,而具有相似三級結(jié)構(gòu)蛋白的編碼基因則大致聚在同一類中,從而證明基因密碼子的使用偏性與蛋白質(zhì)三級結(jié)構(gòu)具有密切的相關(guān)性。 v在不同物種中,類型相同的基因具有相近的同義密碼子使用偏性對于同一類型的基因由物種引起的同義密碼子使用偏性的差異較小 針對酵母第一染色體的分析結(jié)果針對酵母第一染色體的分析結(jié)果第二部分v基因識別基因識別基因識別v基因識別是生物信息學(xué)領(lǐng)域里的一個重基因識別是生物信息學(xué)領(lǐng)域里的一個重要研究內(nèi)容要研究內(nèi)容 v基因識別問題,在近幾年受到廣泛的重基因識別問題,在近幾年受到廣泛的重視視 當(dāng)人類基因組研究進入一個系統(tǒng)測序階段當(dāng)人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動的基因組序列

26、翻譯解釋時,急需可靠自動的基因組序列翻譯解釋技術(shù),以處理大量已測定的但未知功能或技術(shù),以處理大量已測定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 v原核基因識別原核基因識別重點在于識別編碼區(qū)域重點在于識別編碼區(qū)域v非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域但是不被翻譯,這一部分稱為非翻譯區(qū)域 v5UTR-基因上游區(qū)域的非翻譯區(qū)域基因上游區(qū)域的非翻譯區(qū)域 v3UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域v對于任何給定的核酸序列(單鏈DNA或

27、mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進行解釋。v例如,序列ATTCGATCGCAAv這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一個開放閱讀框(一個開放閱讀框(ORF,open reading frame)是一個沒有終止編碼的密碼子序)是一個沒有終止編碼的密碼子序列。列。原核基因識別任務(wù)的重點是識別開放閱讀原核基因識別任務(wù)的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域???,或者說識別長的編碼區(qū)域?;诨蛎艽a子特性的識別方法基于基因密碼子特性的識別方法v辨別編碼區(qū)域與非編碼區(qū)

28、域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(個( 64/3)密碼子出現(xiàn)一次終止密)密碼子出現(xiàn)一次終止密碼子碼子 基本思想:基本思想:如果能夠找到一個比較長的序列,其相應(yīng)如果能夠找到一個比較長的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。v基本算法:基本算法:掃描給定的掃描給定的DNA序列,在三個不同的閱讀序列,在三個不同的閱讀框中尋找較長的框中尋找較長的ORF。遇到終止密碼子以。遇到終止密碼

29、子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短的這種算法過于簡單,不適合于處理短的ORF或者交疊的或者交疊的ORF。v識別編碼區(qū)域的另一種方法是分析各種識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率密碼子出現(xiàn)的頻率 將一個隨機均勻分布的將一個隨機均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個、個、4個和個和1個密碼子個密碼子但是在真實的氨基酸序列中,上述比例并不但是在真

30、實的氨基酸序列中,上述比例并不正確正確這說明這說明DNA的編碼區(qū)域并非隨機序列的編碼區(qū)域并非隨機序列v假設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進一步,那么可以利用密碼子頻率進一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORFv馬爾柯夫鏈模型馬爾柯夫鏈模型v利用這種方法,可以計算一個利用這種方法,可以計算一個ORF成為成為編碼區(qū)域的可能性。編碼區(qū)域的可能性。v一個簡單的統(tǒng)計模型一個簡單的統(tǒng)計模型假設(shè)相繼的密碼子是獨立的,不存在前后依假設(shè)相繼的密碼子是獨立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻

31、率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框,其開始的閱讀框,其n個密碼子個密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2211111v第二種和第三種閱讀框第二種和第三種閱讀框n個密碼子出現(xiàn)的概個密碼子出現(xiàn)的概率分別為率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i個閱讀框成為編碼閱讀框的概率個閱讀框成為編碼閱讀框的概率計算:計算:v算法:算法:在序列上移動長度為在序列上移動長度為n的窗口,計算的窗口,計算Pi根據(jù)

32、根據(jù)Pi的值識別編碼的閱讀框的值識別編碼的閱讀框321ppppPii基于編碼區(qū)域堿基組成特征的識別方法基于編碼區(qū)域堿基組成特征的識別方法v編碼序列與非編碼序列在堿基組成上編碼序列與非編碼序列在堿基組成上有區(qū)別有區(qū)別單個堿基的組成比例單個堿基的組成比例多個堿基的組成多個堿基的組成v通過統(tǒng)計分析識別編碼序列通過統(tǒng)計分析識別編碼序列分析實例分析實例2、真核基因識別問題、真核基因識別問題 真核基因遠比原核基因復(fù)雜:真核基因遠比原核基因復(fù)雜:v一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個小片段。的,編碼區(qū)域被分割為若干個小片段。v另一方面,真核基因具有更

33、加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 基因識別基本思路基因識別基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)錄啟動區(qū)轉(zhuǎn)錄啟動區(qū) 終止區(qū)終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子在啟動區(qū)下游位置尋找翻譯起始密碼子 識別轉(zhuǎn)錄剪切位點識別轉(zhuǎn)錄剪切位點剪切給體位點剪切給體位點剪切接受體位點剪切接受體位點v各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時可以結(jié)合起來以提高基因同的方法有時可以結(jié)合起來以提高基因識別的準(zhǔn)確率。識別的準(zhǔn)確率。v關(guān)鍵問題是如何提高一個識別算

34、法的敏關(guān)鍵問題是如何提高一個識別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 3、基因識別的主要方法、基因識別的主要方法兩大類識別方法:兩大類識別方法:v從頭算方法(或基于統(tǒng)計的方法)從頭算方法(或基于統(tǒng)計的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別,根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進行識別,通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域通過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域 v基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫中現(xiàn)有與基因有關(guān)的信息(如EST序序列、蛋白質(zhì)序列),通過同源

35、比較,幫助發(fā)現(xiàn)新列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因?;?。v最理想的方法是綜合兩大類方法的優(yōu)點,最理想的方法是綜合兩大類方法的優(yōu)點,開發(fā)混合算法。開發(fā)混合算法。4、編碼區(qū)域識別、編碼區(qū)域識別兩類方法兩類方法 :v基于特征信號的識別基于特征信號的識別 內(nèi)部外顯子內(nèi)部外顯子剪切位點剪切位點5端的外顯子一定在核心啟動子的下游端的外顯子一定在核心啟動子的下游3端的外顯子的下游包含多聚信號和終端的外顯子的下游包含多聚信號和終止編碼止編碼 v基于統(tǒng)計度量的方法基于統(tǒng)計度量的方法 根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等雙聯(lián)密碼統(tǒng)計度量等v在一個基因中,第在一個基因中,第i個(個(

36、i=1,64)密碼子相對使用)密碼子相對使用傾向傾向RSCUi的定義如下:的定義如下:vObsi是該基因中第是該基因中第i個密碼子實際出現(xiàn)的次數(shù)個密碼子實際出現(xiàn)的次數(shù)Expi是對應(yīng)密碼子期望的出現(xiàn)次數(shù)是對應(yīng)密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計的第是統(tǒng)計的第i個密碼子出現(xiàn)的次數(shù)個密碼子出現(xiàn)的次數(shù) syni是所有與第是所有與第i個密碼子同義密碼子出現(xiàn)的次數(shù)個密碼子同義密碼子出現(xiàn)的次數(shù)vRSCU大于大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于高,而小于1則表示出現(xiàn)次數(shù)相對較少。則表示出現(xiàn)次數(shù)相對較少。iiiExpObsRSCU iiisynaaExp(5-66)

37、 (5-65) 密碼子使用傾向密碼子使用傾向v設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為: fk是從第k位開始的雙聯(lián)密碼的頻率Fk是該雙聯(lián)密碼隨機出現(xiàn)的頻率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)雙聯(lián)密碼統(tǒng)計度量雙聯(lián)密碼統(tǒng)計度量通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed Sequence Tags)cDNA 蛋白質(zhì)序列蛋白質(zhì)序列v目前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相

38、似性目前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相似性搜索的信息結(jié)合進基因預(yù)測過程搜索的信息結(jié)合進基因預(yù)測過程v同時考慮序列特征信號和統(tǒng)計度量同時考慮序列特征信號和統(tǒng)計度量GRAIL用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域人工神經(jīng)網(wǎng)絡(luò)的概念人工神經(jīng)網(wǎng)絡(luò)的概念v4、別名、別名v人工神經(jīng)系統(tǒng)(人工神經(jīng)系統(tǒng)(ANS)v神經(jīng)網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò)(NN)v自適應(yīng)系統(tǒng)(自適應(yīng)系統(tǒng)(Adaptive Systems)、自適應(yīng)網(wǎng))、自適應(yīng)網(wǎng)(Adaptive Networks)v聯(lián)接模型(聯(lián)接模型(Connectionism)v神經(jīng)計算機(神經(jīng)計算機(Neurocomputer)ANN ANN 具有學(xué)習(xí)(具有學(xué)習(xí)(Le

39、arningLearning)能力)能力 v人工神經(jīng)網(wǎng)絡(luò)可以根據(jù)所在的環(huán)境去改變它人工神經(jīng)網(wǎng)絡(luò)可以根據(jù)所在的環(huán)境去改變它的行為的行為v自相聯(lián)的網(wǎng)絡(luò)自相聯(lián)的網(wǎng)絡(luò)v異相聯(lián)的網(wǎng)絡(luò)異相聯(lián)的網(wǎng)絡(luò):它在接受樣本集合它在接受樣本集合A時,可時,可以抽取集合以抽取集合A中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的映射關(guān)系。映射關(guān)系?!俺橄蟪橄蟆惫δ堋9δ?。v不同的人工神經(jīng)網(wǎng)絡(luò)模型,有不同的學(xué)習(xí)不同的人工神經(jīng)網(wǎng)絡(luò)模型,有不同的學(xué)習(xí)/訓(xùn)訓(xùn)練算法練算法基本特征的自動提取基本特征的自動提取 v由于其運算的由于其運算的不精確性不精確性,表現(xiàn)成,表現(xiàn)成“去噪音、去噪音、容殘缺容殘缺”的能力,利用這種不精確性,比較

40、的能力,利用這種不精確性,比較自然地實現(xiàn)模式的自動分類。自然地實現(xiàn)模式的自動分類。v普化(普化(Generalization)能力與抽象能力)能力與抽象能力 適應(yīng)性適應(yīng)性( (Applicability)問題問題 v擅長兩個方面:擅長兩個方面:對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情對大量的數(shù)據(jù)進行分類,并且只有較少的幾種情況;況;必須學(xué)習(xí)一個復(fù)雜的非線性映射。必須學(xué)習(xí)一個復(fù)雜的非線性映射。v目前應(yīng)用:目前應(yīng)用:人們主要將其用于語音、視覺、知識處理、輔助人們主要將其用于語音、視覺、知識處理、輔助決策等方面。決策等方面。在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、

41、模糊控制、求組合優(yōu)化問題的最佳解的近似解(不是最佳近求組合優(yōu)化問題的最佳解的近似解(不是最佳近似解)等方面也有較好的應(yīng)用。似解)等方面也有較好的應(yīng)用。 生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)1、構(gòu)成、構(gòu)成胞體胞體(Soma)樹突(樹突(Dendrite)胞體胞體(Soma) 軸突(軸突(Axon)突觸(突觸(Synapse)生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)v3、六個基本特征:、六個基本特征:1)神經(jīng)元及其聯(lián)接神經(jīng)元及其聯(lián)接;2)神經(jīng)元之間的聯(lián)接強度決定神經(jīng)元之間的聯(lián)接強度決定信號傳遞信號傳遞的強弱;的強弱;3)神經(jīng)元之間的聯(lián)接強度是可以隨神經(jīng)元之間的聯(lián)接強度是可以隨訓(xùn)練訓(xùn)練改變的;改變的;4)信號可以是起信號可以是起刺激刺

42、激作用的,也可以是起作用的,也可以是起抑制抑制作作用的;用的;5)一個神經(jīng)元接受的信號的一個神經(jīng)元接受的信號的累積效果累積效果決定該神經(jīng)決定該神經(jīng)元的狀態(tài);元的狀態(tài);6) 每個神經(jīng)元可以有一個每個神經(jīng)元可以有一個“閾值閾值”。人工神經(jīng)元人工神經(jīng)元 v神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件)。件)。v人工神經(jīng)元模型應(yīng)該具有生物神經(jīng)元的六個人工神經(jīng)元模型應(yīng)該具有生物神經(jīng)元的六個基本特性。基本特性。 人工神經(jīng)元的基本構(gòu)成人工神經(jīng)元的基本構(gòu)成 v人工神經(jīng)元模擬生物神經(jīng)元的人工神經(jīng)元模擬生物神經(jīng)元的一階特性一階特性。輸入:輸入:X=(x1,x2,xn)聯(lián)接權(quán):聯(lián)接權(quán):

43、W=(w1,w2,wn)T網(wǎng)絡(luò)輸入:網(wǎng)絡(luò)輸入: net=xiwi向量形式:向量形式: net=XWxn wnx1 w1x2 w2net=XW激活函數(shù)激活函數(shù)(Activation Function) v激活函數(shù)激活函數(shù)執(zhí)行對該神經(jīng)元所獲得的網(wǎng)絡(luò)執(zhí)行對該神經(jīng)元所獲得的網(wǎng)絡(luò)輸入的變換,也可以稱為激勵函數(shù)、活化函輸入的變換,也可以稱為激勵函數(shù)、活化函數(shù):數(shù): o=f(net) v1、線性函數(shù)(、線性函數(shù)(Liner Function) f(net)=k*net+c netooc4、S形函數(shù)形函數(shù) f(net)=a+b/(1+exp(-d*net)a,b,d為常數(shù)。它的飽和值為為常數(shù)。它的飽和值為a和

44、和a+b。最簡單形式為:最簡單形式為:f(net)= 1/(1+exp(-d*net) 函數(shù)的飽和值為函數(shù)的飽和值為0和和1。vS形函數(shù)有較好的增益控制形函數(shù)有較好的增益控制 4、S形函數(shù)形函數(shù) a+b o(0,c)netac=a+b/2簡單單級網(wǎng)簡單單級網(wǎng)x1x2xno1o2omwnmw11w1mw2mwn1輸出層輸出層輸入層輸入層簡單單級網(wǎng)簡單單級網(wǎng)W=(wij)輸出層的第輸出層的第j個神經(jīng)元的網(wǎng)絡(luò)輸入記為個神經(jīng)元的網(wǎng)絡(luò)輸入記為netj:netj=x1w1j+x2w2j+xnwnj其中其中, 1 j m。取。取NET=(net1,net2,netm)NET=XWO=F(NET)Neural

45、 network mathematicsInputsOutput),(),(),(),(14414133131221211111wxfywxfywxfywxfy),(),(),(231232212221121wyfywyfywyfy141312111yyyyy),(312wyfyOut2323232yyyy學(xué)習(xí)規(guī)則v有導(dǎo)師學(xué)習(xí)有導(dǎo)師學(xué)習(xí)在學(xué)習(xí)訓(xùn)練過程中需要不斷給網(wǎng)絡(luò)成對提供一個輸入模式和一個期望網(wǎng)絡(luò)正確輸出的模式,稱為“教師信號”。當(dāng)網(wǎng)絡(luò)的輸出與期望的教師信號不符時,則調(diào)整權(quán)值,能產(chǎn)生所期望的輸出。 BP神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是指基于誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò) v反向傳播算法反向傳播算法的基

46、本思路:學(xué)習(xí)過程由信號的正向傳播和反向傳播兩個過程組成。正向傳播時,輸入樣本由輸入層進入,經(jīng)隱層處理后傳向輸出層。若實際輸出與教師信號不符,則轉(zhuǎn)入誤差的反向傳播階段。輸出誤差將通過隱層向輸入層逐層反傳,并把誤差分?jǐn)偠玫礁鲗訂卧恼`差信號,作為修正各單元權(quán)值的依據(jù)。權(quán)值的調(diào)整過程即BP網(wǎng)絡(luò)的學(xué)習(xí)過程,直到網(wǎng)絡(luò)輸出精度滿足要求為止。權(quán)值的更改梯度下降法的基本思想v首先設(shè)置權(quán)W的一組初值,然后,連接計算均方誤差相對于權(quán)的梯度,并按上式一小步小步地修正權(quán)值,當(dāng)滿足一定的準(zhǔn)則時(比如MSE進入到下限的某一范圍時)即停止。這時稱為算法收斂。對于梯度下降算法來說,最大的問題是不能保證收斂到全局最優(yōu)。 梯度

47、下降法的缺點輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù)輸出就是對一段輸出就是對一段DNA序列是否是編碼區(qū)域的判別結(jié)果序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性性生物信息中,神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于: 序列編碼分析; 蛋白質(zhì)二級結(jié)構(gòu)預(yù)測; 單肽及其切割位點預(yù)測; 遺傳密碼的結(jié)構(gòu)和起源分析; 真核生物基因?qū)ふ液蛢?nèi)含子剪接位點預(yù)測。第三部分v調(diào)控元件識別序列模式v1. 功能結(jié)構(gòu)域,functional domainv2. 模塊,B

48、LOCKv3. 模體,motifv4. 模式,pattern/profile功能結(jié)構(gòu)域v1. 具有完整的、獨立的三級結(jié)構(gòu)v2. 具有特定的生物學(xué)功能v3. 一般長度,幾十到幾百個氨基酸v4. 允許插入/缺失,即允許存在gap模塊/BLOCKv1. 幾個到幾十個氨基酸v2. 無gap,從全局多序列比對的結(jié)果直接處理得到v3. 描述蛋白質(zhì)家族或者一類蛋白質(zhì)的序列保守性BLOCK模體/Motifv1. 不具有獨立的三級結(jié)構(gòu)v2. 具有特定的生物學(xué)功能:結(jié)合,修飾,細胞亞定位,維持結(jié)構(gòu),等v3. 長度一般幾個到幾十個氨基酸或者堿基;v4. 例如,SUMO化的序列模體:-K-X-E (:A, I, L,

49、 V, M, F, P; X:任意氨基酸)模式/Pattern/Profilev1. 在算法上用來描述一類功能結(jié)構(gòu)域,模體或者模塊的表示方式v2. 根據(jù)序列數(shù)據(jù),構(gòu)建的預(yù)測模型v3. 數(shù)據(jù)形式:概率表示v4. 用來預(yù)測新的可能符合特定模式的序列v5. 例如,直接將-K-X-E視為SUMO化位點的,普適的“模式”,則可以預(yù)測所有包含該模式的蛋白質(zhì)序列2. 位點特異性打分矩陣v(1) Position Specific Scoring Matrix (PSSM)/ Weight Matrix Model(WMM)v(2) 對蛋白質(zhì)家族進行多序列比對分析,發(fā)現(xiàn)結(jié)果中保守的BLOCKv(3) 根據(jù)BL

50、OCK序列推導(dǎo)相應(yīng)的PSSMv(4) 不考慮gap的影響v(5) BLOCK長度一般在幾個幾十個殘基/堿基鋅指功能結(jié)構(gòu)域的PSSMBLOCK - PSSM代表每一列代表每一列二十種二十種氨基酸氨基酸矩陣中的數(shù)值:當(dāng)前位置上,某矩陣中的數(shù)值:當(dāng)前位置上,某種氨基酸出現(xiàn)的頻率的種氨基酸出現(xiàn)的頻率的log值值第二種PSSMv每一個位置上顯示每種氨基酸或者堿基出現(xiàn)的頻率堿基的位置堿基的位置四種堿基四種堿基第三種PSSMv每一個位置顯示氨基酸/堿基出現(xiàn)的概率 PSSM:思考與應(yīng)用v1. 可以根據(jù)BLOCK推導(dǎo)得到的PSSM進行數(shù)據(jù)庫的搜索,發(fā)現(xiàn)包含該模式的新的蛋白質(zhì),并預(yù)測功能v2. 需要思考的問題:(

51、1) PSSM必須能夠很好的反映BLOCK, Motif以及Domain的真實情況。然而,數(shù)據(jù)有限;如何解決?(2) 根據(jù)PSSM如何計算新的序列?(3) PSSM中究竟包含著何等信息?問題一Pseudocountsv1. 如果訓(xùn)練數(shù)據(jù)中包含很多序列,并且每個位置上的氨基酸出現(xiàn)頻率合理,則根據(jù)該訓(xùn)練數(shù)據(jù)得到的PSSM能夠很好的反映訓(xùn)練數(shù)據(jù)的真實情況。否則,得到的PSSM可能會有明顯的偏差v2. 解決方案,引入偽計數(shù)(pseudocounts)A. pseudocounts太多,PSSM偏離真實情況太遠B. pseudocounts太少,許多可能的氨基酸變化就忽略了v3. 數(shù)據(jù)量大時,偽計數(shù)可以

52、少一些,反之則要增大為計數(shù)的比例v4. 一般的經(jīng)驗,偽計數(shù)NPseudocounts (2)v針對特定的氨基酸,如何確定是否需要引入偽計數(shù)?v1. 方法一:令f(i)為氨基酸i在蛋白質(zhì)數(shù)據(jù)庫(例如:UniProt)中的分布比例v2. 方法二:使用打分矩陣來衡量序列的相似性(GPS的思想)v3. 方法三:對其他的BLOCK分析,來估算當(dāng)前BLOCK可能的氨基酸的分布v4. 方法四:blind guess問題二:PSSM-發(fā)現(xiàn)v1. 計算log-odds ratio/Odds ratiov2. Do not miss: 性能檢驗!v3. 結(jié)果需要計算Sn, Sp, Ac & Mccv4.

53、需要計算Self-consistency, Leave-one-out validation & n-fold cross-validation計算log-odds ratiovP(S|+),根據(jù)陽性訓(xùn)練數(shù)據(jù)計算出來的概率;Then, P(S|-)?v1. 負樣本/陰性數(shù)據(jù)的概率計算v2. 計算方法:A. DNA序列,四種堿基出現(xiàn)的頻率B. 蛋白質(zhì)序列,20種氨基酸出現(xiàn)的頻率Odds RatioLog-odds Ratio計算流程:滑動窗口v設(shè)定域值;窗口寬度9bp;依次打分,預(yù)測例:剪切模型 (Splicing)計算log-odds ratio問題三:PSSM-信息?v1. PSSM/motif/domain/BLOCK:每一個位置上究竟包含了什么樣的信息?v2. 對于同一個motif/PSSM:有些位點較其他位點提供更多的信息,why?v3. 如何定量化“信息”?信息論:Claude Shannonv信息論的奠基人1,048,576個盒子:Yes/No? v1. 隨機將10000R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論