



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精品文檔項(xiàng)目名稱:蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用首席科學(xué)家:劉斯奇中國科學(xué)院北京基因組研究所起止年限:2010 年 1 月-2014 年 8 月依托部門:中國科學(xué)院。1歡迎下載精品文檔一、研究?jī)?nèi)容關(guān)鍵科學(xué)問題本項(xiàng)目將以我國蛋白質(zhì)組學(xué)界產(chǎn)生的海量 MS/MS質(zhì)譜數(shù)據(jù)為基本分析材料,重點(diǎn)放在解析這些數(shù)據(jù)中的新的蛋白質(zhì)編碼基因和蛋白質(zhì)組定量信息。 我們將運(yùn)用計(jì)算化學(xué)、 工程方法學(xué)、 生物信息學(xué)、 質(zhì)譜學(xué)和生物分析化學(xué)等研究手段深入探討如何準(zhǔn)確地將 MS/MS質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為相對(duì)應(yīng)的肽段信息, 如何利用這些肽段補(bǔ)充和修訂基因組的蛋白質(zhì)編碼基因, 如何發(fā)掘這些肽段所賦予的定量信息,
2、 并建立兼有定性和定量信息的新型蛋白質(zhì)表達(dá)譜。 簡(jiǎn)言之,本項(xiàng)目擬解決的關(guān)鍵科學(xué)問題是, 如何發(fā)掘高精度 MS/MS質(zhì)譜鑒定的肽段中所蘊(yùn)含的大量生物學(xué)信息。主要研究?jī)?nèi)容1. 海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究從高精度 MS/MS數(shù)據(jù)出發(fā),通過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、 De Novo 技術(shù)、基因組數(shù)據(jù)庫搜索技術(shù)三個(gè)途徑來實(shí)現(xiàn)海量質(zhì)譜數(shù)據(jù)的深度解析, 具體研究:? 通過嚴(yán)格的對(duì)照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率, 優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程;? 研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;?綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列De Novo 分析技術(shù);? 利用基因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜
3、數(shù)據(jù)解析率。2高精度 MS/MS數(shù)據(jù)對(duì)基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂采用 De Novo 方法獨(dú)立演繹所測(cè)定肽段的氨基酸順序,進(jìn)一步反轉(zhuǎn)肽段信息至基因組,試圖補(bǔ)充和修訂基因組的蛋白質(zhì)編碼基因,具體研究:? 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;? 建立基于肽段信息注釋基因組的方法流程;? 利用 MS/MS所鑒定的肽段補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因。3 基于高精度質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達(dá)譜定量計(jì)算方法的研究及應(yīng)用以鑒定的肽段頻率為基礎(chǔ),發(fā)展兼顧準(zhǔn)確度與規(guī)?;姆菢?biāo)記定量蛋白質(zhì)學(xué)方法,同時(shí)開發(fā)以多肽質(zhì)譜數(shù)據(jù)為基礎(chǔ)的蛋白質(zhì)編碼基因的可視化標(biāo)識(shí)技術(shù),實(shí)現(xiàn)蛋白質(zhì)表達(dá)譜的定量化,具體研究:。2歡迎下載精品文檔? 蛋白
4、質(zhì)表達(dá)譜定量算法研究;? 蛋白質(zhì)組表達(dá)譜定量分析及可視化研究;? 建立以基因?yàn)橹行牡亩康鞍踪|(zhì)數(shù)據(jù)庫及分析平臺(tái)。4 基于質(zhì)譜數(shù)據(jù)的預(yù)測(cè)結(jié)論的實(shí)驗(yàn)驗(yàn)證研究運(yùn)用質(zhì)譜 學(xué)、生物化學(xué)、分子生物學(xué)和免疫學(xué)等手段系統(tǒng)驗(yàn)證基于 MS/MS 數(shù)據(jù)所分析的生物信息學(xué)結(jié)論, 同時(shí)為生物信息學(xué)的理論模型提供嚴(yán)格設(shè)計(jì)和控制的實(shí)驗(yàn)數(shù)據(jù),具體研究:? 建立先進(jìn)的 MRM技術(shù)平臺(tái)實(shí)現(xiàn)對(duì)蛋白質(zhì)定性和定量的高通量驗(yàn)證,發(fā)現(xiàn)和驗(yàn)證新的蛋白編碼基因,并提供相應(yīng)的定量蛋白質(zhì)組信息;? 利用先進(jìn)的質(zhì)譜技術(shù)平臺(tái)獲取高精度 MS/MS數(shù)據(jù)服務(wù)于質(zhì)譜譜圖的深度解析;? 建立通用技術(shù)平臺(tái)從核酸和蛋白質(zhì)水平上驗(yàn)證通過 MS/MS所鑒定的新基因;
5、? 建立通用技術(shù)平臺(tái)從不同技術(shù)角度上驗(yàn)證定量蛋白質(zhì)組。3歡迎下載精品文檔二、預(yù)期目標(biāo)1總體目標(biāo)本項(xiàng)目研究的總體目標(biāo)是, 發(fā)掘 MS/MS數(shù)據(jù)中的肽段信息, 開拓生物信息學(xué)在質(zhì)譜數(shù)據(jù)分析中的研究領(lǐng)域, 促進(jìn)高精度質(zhì)譜數(shù)據(jù)在基因組學(xué)和蛋白質(zhì)組學(xué)的應(yīng)用。本項(xiàng)目將通過高精度 MS/MS數(shù)據(jù)和 De Novo 方法獲取一系列與基因組注釋基因不相匹配的肽段, 并利用這些信息補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因; 將采用肽段頻率為定量蛋白質(zhì)組計(jì)算的基本數(shù)據(jù), 通過蛋白質(zhì)定量參數(shù)、 數(shù)學(xué)模型和可視化標(biāo)示等技術(shù)來建立定量蛋白質(zhì)表達(dá)譜, 并闡明其生物學(xué)意義。 通過本項(xiàng)目的執(zhí)行,我們將顯著提高 MS/MS數(shù)據(jù)的利用率,具
6、體回答若干相關(guān)的生物學(xué)問題,拓展生物信息學(xué)應(yīng)用于蛋白質(zhì)組學(xué)的思路和方法。 因此,本項(xiàng)目將促進(jìn)我國在蛋白質(zhì)組學(xué)、基因組學(xué)和生物信息學(xué)交叉領(lǐng)域的研究。2五年目標(biāo)1)發(fā)展一套針對(duì)高精度MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法;2)顯著提高海量 MS/MS數(shù)據(jù)的利用率,深入揭示高精度質(zhì)譜數(shù)據(jù)所蘊(yùn)含的物理化學(xué)和生物學(xué)意義;3)提升我國在質(zhì)譜信號(hào)解析和蛋白質(zhì)組生物信息學(xué)研究方面的水平。4)在國際主流雜志發(fā)表論文30 篇左右,并爭(zhēng)取 Nature 及其它國際知名科學(xué)期刊發(fā)表 10 篇論文。申請(qǐng)發(fā)明專利5 10 項(xiàng)。5)造就一支生物信息學(xué)和蛋白質(zhì)組領(lǐng)域中的高水平的科研隊(duì)伍,培養(yǎng)一批博士研究生 (10
7、-15 人 ) ,碩士研究生 (20-25 人) ,博士后研究人員 (5 10 人 ) 。4歡迎下載精品文檔三、研究方案1. 總體學(xué)術(shù)思路在蛋白質(zhì)組學(xué)誕生的短短幾年內(nèi), 這個(gè)學(xué)科已經(jīng)取得了重大進(jìn)展: 蛋白質(zhì)表達(dá)譜的建立,修飾蛋白質(zhì)的測(cè)定,和蛋白質(zhì)相互作用的分析等。但是,作為一門年輕的學(xué)科,蛋白質(zhì)組的分析技術(shù)還遠(yuǎn)未成熟。 其中一個(gè)主要的原因是人們?cè)诘鞍踪|(zhì)鑒定和定量分析上仍遭遇較大的技術(shù)困難。 近年來,高精度質(zhì)譜儀的出現(xiàn)給蛋白質(zhì)組學(xué)發(fā)展創(chuàng)造了一個(gè)新的發(fā)展契機(jī)。 如何深入解析高精度 MS/MS數(shù)據(jù)所蘊(yùn)含的豐富的生物學(xué)信息, 是擺在蛋白質(zhì)組生物信息學(xué)面前的重要課題。 本項(xiàng)目立足于我國蛋白質(zhì)組學(xué)界已產(chǎn)生
8、的海量 MS/MS數(shù)據(jù),運(yùn)用一系列的計(jì)算化學(xué)和生物信息學(xué)的方法,試圖發(fā)展一套針對(duì)高精度 MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法;并以此為基礎(chǔ)集中解決兩個(gè)在基因組學(xué)和蛋白質(zhì)組學(xué)亟需解決的問題,即利用肽段信息補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因和以肽段頻率為基礎(chǔ)計(jì)算定量蛋白質(zhì)表達(dá)譜。 本研究項(xiàng)目需要生物信息學(xué)、 蛋白質(zhì)組學(xué)和基因組學(xué)各交叉學(xué)科團(tuán)隊(duì)的通力合作,而她產(chǎn)生的科研成果又將施惠于各個(gè)研究領(lǐng)域。2. 技術(shù)途徑本項(xiàng)目的技術(shù)途徑包括海量 MS/MS數(shù)據(jù)的產(chǎn)生、生物信息軟件的設(shè)計(jì)和應(yīng)用、以及實(shí)驗(yàn)驗(yàn)證等 3 個(gè)層面的多種途徑。1) 海量 MS/MS數(shù)據(jù)的產(chǎn)生技術(shù) :LTQ、Orbitrap 、
9、FTMS 質(zhì)譜在蛋白質(zhì)組測(cè)定中的應(yīng)用, 多維高效液相層析, 高效蛋白質(zhì)提取技術(shù)平臺(tái),SDS-PAGE/LC串聯(lián)分析技術(shù),多重蛋白質(zhì)酶消化技術(shù)等。2 ) 生物信息軟件的設(shè)計(jì)和應(yīng)用技術(shù) :樣品處理和儀器操作流程控制,MS/MS譜圖的計(jì)算機(jī)識(shí)別,蛋白質(zhì)搜索引擎,De Novo 分析軟件,各種數(shù)據(jù)庫的構(gòu)建技術(shù)等。3) 實(shí)驗(yàn)驗(yàn)證技術(shù) :MRM技術(shù),穩(wěn)定同位素標(biāo)記定量技術(shù),化學(xué)修飾輔助蛋白質(zhì)末端序列測(cè)定技術(shù) , ELISA ,Western blot,基因克隆,重組蛋白質(zhì)制備技術(shù),單克隆抗體制備, Real-Time PCR,5-RACE等。本項(xiàng)目研究已具備了較好的技術(shù)平臺(tái)支撐,承擔(dān)單位擁有 2 個(gè)國家重
10、點(diǎn)實(shí)驗(yàn)室, 3 個(gè)部級(jí)重點(diǎn)實(shí)驗(yàn)室,項(xiàng)目所需的絕大部分實(shí)驗(yàn)儀器和實(shí)驗(yàn)手段均已具備,各承擔(dān)單位間有著長(zhǎng)期的良好合作關(guān)系和基礎(chǔ)。本項(xiàng)目具有豐富的前期工作積累。5歡迎下載精品文檔與相關(guān)研究成果及多學(xué)科背景的研究隊(duì)伍,已經(jīng)建立起成熟的研究手段和方法,有能力完成所計(jì)劃的研究任務(wù)。3. 創(chuàng)新性和特色本項(xiàng)目的創(chuàng)新之處集中表現(xiàn)在: 一整套針對(duì)于高精度 MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計(jì)算方法; 利用 MS/MS和 DeNovo 技術(shù)補(bǔ)充或修訂基因組蛋白質(zhì)編碼基因;建立兼有定性和定量數(shù)據(jù)的蛋白質(zhì)表達(dá)譜;和 Gene-centric 方法標(biāo)示組織或細(xì)胞蛋白質(zhì)表達(dá)譜。本項(xiàng)目的特色在于:?jiǎn)栴}明確、方法新穎、課
11、題間環(huán)環(huán)相扣。 我們立足于建立高精度串連質(zhì)譜數(shù)據(jù)解析的分析策略、 數(shù)據(jù)庫和算法,著眼于這些研究成果在具體生物學(xué)問題上的應(yīng)用, 結(jié)論于實(shí)驗(yàn)科學(xué)對(duì)理論分析結(jié)果的嚴(yán)格驗(yàn)證。同時(shí),我們將最大程度地發(fā)揮 “集體效應(yīng) ”優(yōu)勢(shì),整合我國在生物信息學(xué)、 蛋白質(zhì)學(xué)和基因組學(xué)優(yōu)秀團(tuán)隊(duì), 根據(jù)各團(tuán)隊(duì)的專長(zhǎng)來展開相關(guān)研究。4. 取得重大突破的可行性分析本項(xiàng)目瞄準(zhǔn)了當(dāng)前蛋白質(zhì)組學(xué)研究的熱點(diǎn)和重點(diǎn),試圖揭示高精度MS/MS數(shù)據(jù)所蘊(yùn)含的豐富的生物學(xué)信號(hào)。 在項(xiàng)目執(zhí)行過程中, 我們有信心在 MS/MS數(shù)據(jù)的有效利用率、 肽段信息對(duì)基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂、 質(zhì)譜譜圖在定量蛋白質(zhì)組中應(yīng)用、 定量蛋白質(zhì)組的圖形標(biāo)示技術(shù)等
12、方面取得突破。 我們的信心植根于: 1) 本項(xiàng)目計(jì)劃解決的幾個(gè)問題在國際間仍然懸而未決,我們和其他的競(jìng)爭(zhēng)者正處在同一起跑線上; 2)參與本項(xiàng)目的各個(gè)團(tuán)隊(duì)在相關(guān)的領(lǐng)域處在先進(jìn)水平,某些課題已取得了進(jìn)展; 3)在我國政府的支持下,在過去幾年中我國蛋白質(zhì)學(xué)界已積累了海量的 MS/MS數(shù)據(jù),無論在數(shù)據(jù)的質(zhì)量還是數(shù)量上,我國的MS/MS數(shù)據(jù)庫領(lǐng)先于其他國家; 4)參與的團(tuán)隊(duì)與國際優(yōu)秀的蛋白質(zhì)組學(xué)家形成了較好的合作關(guān)系,尤其在 MS/MS數(shù)據(jù)的共同開發(fā)上已取得重大進(jìn)展。同時(shí),項(xiàng)目首席科學(xué)家和課題組長(zhǎng)在科研項(xiàng)目的組織和協(xié)調(diào)方面具有豐富的經(jīng)驗(yàn),均承擔(dān)完成多項(xiàng)國內(nèi)或國外的重要科研項(xiàng)目。 本項(xiàng)目計(jì)劃是基于研究團(tuán)隊(duì)
13、的研究基礎(chǔ)和前期工作而提出的, 在本項(xiàng)目的申報(bào)過程中, 項(xiàng)目專家組及研究骨干多次研討,圍繞本研究計(jì)劃擬解決的重大科技問題, 制定了合理可行的研究方案和技術(shù)路線。 相信通過學(xué)科交叉、 集成多種研究方法, 我們研究團(tuán)隊(duì)完全有可能在本領(lǐng)域取得突破性進(jìn)展。6歡迎下載精品文檔5. 課題設(shè)置課題設(shè)置思路本項(xiàng)目擬在高精度MS/MS數(shù)據(jù)基礎(chǔ)上,采用各種數(shù)據(jù)分析手段, 從基因組蛋白質(zhì)編碼基因和蛋白質(zhì)組定量?jī)蓚€(gè)生物學(xué)問題著手,深入地了解和認(rèn)識(shí)MS/MS數(shù)據(jù)所蘊(yùn)含的肽段信息的生物學(xué)意義,為蛋白質(zhì)組的功能性研究提供新的方法和思路。本項(xiàng)目將設(shè)置四個(gè)課題, 分別為, 1)海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究; 2)高精度 MS
14、/MS數(shù)據(jù)對(duì)基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂; 3)基于高精度 MS/MS 質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達(dá)譜定量計(jì)算方法的研究及應(yīng)用; 4)基于質(zhì)譜數(shù)據(jù)的預(yù)測(cè)結(jié)論的實(shí)驗(yàn)驗(yàn)證研究。 建立質(zhì)譜數(shù)據(jù)的統(tǒng)計(jì)數(shù)學(xué)模型分析有賴于實(shí)驗(yàn)數(shù)據(jù)的精度和重現(xiàn)性。目前的質(zhì)譜數(shù)據(jù)廣泛存在兩個(gè)基本問題,一是缺乏不同的質(zhì)譜儀所產(chǎn)生的質(zhì)譜圖譜的共享標(biāo)準(zhǔn), 二是譜圖解讀和肽段判斷的標(biāo)準(zhǔn)沒有達(dá)到共識(shí)。因此,我們把質(zhì)譜數(shù)據(jù)分析的標(biāo)準(zhǔn)化放在本項(xiàng)目頭等重要的位置。在深度解析MS/MS數(shù)據(jù)的基礎(chǔ)上,我們?cè)O(shè)定兩個(gè)課題組具體研究如何發(fā)掘MS/MS信號(hào)所蘊(yùn)含的生物信息,即補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因及定量表達(dá)蛋白質(zhì)組。前者注重于剖析 MS/MS數(shù)據(jù),
15、通過 De Novo 方法直接分析與數(shù)據(jù)庫搜索獲得 MS/MS所含有的肽段序列信息,然后建立 MS/MS對(duì)應(yīng)的肽段數(shù)據(jù)庫, 并以此數(shù)據(jù)庫為基點(diǎn)開展基因組的相關(guān)研究;后者則集中于研究 MS/MS所產(chǎn)生的肽段頻率與蛋白質(zhì)豐度之間的相關(guān)性,試圖建立基于非標(biāo)記性肽段頻率的蛋白質(zhì)定量判據(jù), 并應(yīng)用于估算蛋白質(zhì)定量表達(dá)譜,同時(shí)還要開發(fā)具備定性和定量信息的蛋白質(zhì)表達(dá)譜的可視化標(biāo)示方法。本項(xiàng)目聚焦于如何運(yùn)用生物信息學(xué)方法處理高精度 MS/MS數(shù)據(jù),抽象和演繹出蛋白質(zhì)組相關(guān)的生物學(xué)信息。 與傳統(tǒng)的生物信息學(xué)研究項(xiàng)目不同的是, 我們還充分意識(shí)到,生物信息學(xué)的理論分析離不開對(duì)蛋白質(zhì)或肽段化學(xué)性質(zhì)的知識(shí)水平和實(shí)驗(yàn)數(shù)據(jù)
16、的支持, 為此設(shè)定了第四課題組, 專職與生物信息課題相配合, 對(duì)理論預(yù)測(cè)的結(jié)果進(jìn)行實(shí)驗(yàn)驗(yàn)證, 同時(shí)也通過方法學(xué)的探索為生物信息理論分析提供具有針對(duì)性的實(shí)驗(yàn)數(shù)據(jù),特別是高精度的 MS/MS數(shù)據(jù)。課題的關(guān)聯(lián)本項(xiàng)目的四個(gè)課題中,一個(gè)課題注重 MS/MS數(shù)據(jù)的標(biāo)準(zhǔn)化分析,為蛋白質(zhì)生物信息學(xué)研究提供可靠的肽段信息和計(jì)算工具; 兩個(gè)課題集中于肽段信息在具。7歡迎下載精品文檔體生物學(xué)問題中應(yīng)用研究; 另一個(gè)課題則從實(shí)驗(yàn)技術(shù)層面上對(duì)生物信息學(xué)的預(yù)測(cè)結(jié)果進(jìn)行系統(tǒng)的驗(yàn)證, 并為理論分析提供和補(bǔ)充相應(yīng)的實(shí)驗(yàn)數(shù)據(jù)。 本項(xiàng)目的各個(gè)課題之間既存在學(xué)術(shù)邏輯上必然聯(lián)系, 又有研究?jī)?nèi)容上的互為補(bǔ)充, 還有研究成果的相互驗(yàn)證。這
17、樣如圖一所示,四個(gè)課題之間形成了較為完整的研究關(guān)聯(lián)網(wǎng)絡(luò),在不同的層次和角度上共同發(fā)掘高精度 MS/MS數(shù)據(jù)在蛋白質(zhì)組學(xué)中的應(yīng)用以及它們的生物學(xué)意義。圖一:課題設(shè)置及各子課題之間的相關(guān)性課題 1.海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究課題背景海量質(zhì)譜數(shù)據(jù)的解析是蛋白質(zhì)組研究的基礎(chǔ),而自動(dòng)化的數(shù)據(jù)分析軟件是海量質(zhì)譜數(shù)據(jù)解析的基本工具。 蛋白質(zhì)組過去十年的研究歷程,主要依靠蛋白質(zhì)鑒定兩大商業(yè)軟件Mascot 和 SEQUEST來實(shí)現(xiàn)海量質(zhì)譜數(shù)據(jù)的基本解析,其最大的。8歡迎下載精品文檔問題在于:僅僅有 10%左右的質(zhì)譜數(shù)據(jù)可以得到肽鑒定結(jié)果, 其余數(shù)據(jù)無法解析,因而其中所蘊(yùn)涵的信息無法利用。造成這種局面的原因
18、是多方面的。 首先,對(duì)于分子生物學(xué)的規(guī)律, 比如基因水平上的基因預(yù)測(cè)、 基因突變、可變剪接及蛋白質(zhì)水平上的氨基酸突變、 翻譯后修飾等,目前還沒有完整、準(zhǔn)確的認(rèn)識(shí)。其次,對(duì)于包括樣品制備和質(zhì)譜儀操作在內(nèi)的質(zhì)譜數(shù)據(jù)生成過程的設(shè)計(jì)和規(guī)范化控制缺乏系統(tǒng)的研究, 加上質(zhì)譜儀的分辨率和準(zhǔn)確度不足, 造成原始數(shù)據(jù)質(zhì)量不高。 再次,數(shù)據(jù)分析方法和軟件發(fā)展滯后,表現(xiàn)在兩大商業(yè)軟件核心鑒定算法多年來沒有大的改進(jìn), 鑒定可信度評(píng)價(jià)方法沒有達(dá)到共識(shí)和規(guī)范化, 鑒定靈敏度研究長(zhǎng)期缺乏關(guān)注, 而鑒定速度不夠高則直接限制了對(duì)于海量質(zhì)譜數(shù)據(jù)的全面探索性分析, 比如非特異酶切、 可變翻譯后修飾的鑒定。近年來,質(zhì)譜技術(shù)發(fā)展迅速,
19、高精度質(zhì)譜儀 ( 如 FTMS、Orbitrap) ,配以基于電子的離子裂解新方式 ( 如電子捕獲裂解 ECD、電子轉(zhuǎn)運(yùn)裂解 ETD),已經(jīng)開始在國內(nèi)外和本項(xiàng)目申請(qǐng)單位安裝和應(yīng)用,因此質(zhì)譜數(shù)據(jù)質(zhì)量近期將會(huì)大大提高。同時(shí),由于認(rèn)識(shí)到基于數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定本質(zhì)上是一種特殊的信息檢索,而信息檢索領(lǐng)域的搜索引擎技術(shù)經(jīng)過了十多年的成功發(fā)展, 因此,海量質(zhì)譜數(shù)據(jù)的專用搜索引擎設(shè)計(jì)可以從中獲得充分的借鑒, 數(shù)據(jù)分析的速度和質(zhì)量有望大大提高。 本項(xiàng)目申請(qǐng)單位在過去幾年中參加過人類肝臟蛋白質(zhì)組表達(dá)譜的完整實(shí)驗(yàn)和數(shù)據(jù)分析,對(duì)于海量質(zhì)譜數(shù)據(jù)的解析積累了比較豐富的一手經(jīng)驗(yàn),而獨(dú)立自主開發(fā)蛋白質(zhì)鑒定軟
20、件系統(tǒng) pFind 則為進(jìn)一步設(shè)計(jì)新的搜索引擎奠定了基礎(chǔ)。這都為深度解析海量質(zhì)譜數(shù)據(jù)提供了希望。深度解析海量質(zhì)譜數(shù)據(jù), 首先要在嚴(yán)格對(duì)照實(shí)驗(yàn)的條件下認(rèn)識(shí)質(zhì)譜數(shù)據(jù)的規(guī)律,特別是質(zhì)譜數(shù)據(jù)有多大比例可以解析, 有多大比例可以得到可信的肽鑒定結(jié)果,在這個(gè)基礎(chǔ)上設(shè)計(jì)新一代搜索引擎并確立合理的解析率指標(biāo)。 新一代搜索引擎的設(shè)計(jì),立足于在現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫的基礎(chǔ)上充分解析質(zhì)譜數(shù)據(jù), 從而把現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫中沒有包含的新肽段的鑒定限定在未鑒定的質(zhì)譜數(shù)據(jù)上, 這是對(duì)基因組注釋最可能有意義的地方。 新肽段的鑒定分為兩種途徑, 一是不依賴蛋白質(zhì)數(shù)據(jù)庫,直接從串聯(lián)質(zhì)譜圖中提取肽段完整序列或者序列片段, 即所謂的 De
21、Novo 技術(shù);二是將搜索數(shù)據(jù)庫的范圍從蛋白質(zhì)組擴(kuò)展到基因組, 獲得更多的肽段序列。9歡迎下載精品文檔來達(dá)到鑒定更多質(zhì)譜數(shù)據(jù)的目的。通過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、DeNovo 技術(shù)、基因組數(shù)據(jù)庫搜索技術(shù)三個(gè)途徑來實(shí)現(xiàn)海量質(zhì)譜數(shù)據(jù)的深度解析,提高解析率,并進(jìn)一步利用控制實(shí)驗(yàn)來驗(yàn)證。研究目標(biāo)本課題的研究目標(biāo)是發(fā)展海量 MS/MS數(shù)據(jù)的深度解析技術(shù), 顯著提高數(shù)據(jù)解析率。具體分為四點(diǎn):一) 通過嚴(yán)格的對(duì)照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程;二)研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;三)綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列De Novo 分析技術(shù);四)利用基
22、因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率。研究?jī)?nèi)容一)通過嚴(yán)格的對(duì)照實(shí)驗(yàn)確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程MS/MS質(zhì)譜數(shù)據(jù)的鑒定成功率約為5%-15%,無鑒定結(jié)果的MS/MS質(zhì)譜數(shù)據(jù)中可能蘊(yùn)含著許多蛋白質(zhì)或肽段信息,如基因組數(shù)據(jù)庫中不存在的新蛋白質(zhì)或蛋白質(zhì)剪切體,或可能存在的錯(cuò)誤的注釋信息等。所以,確定無鑒定結(jié)果的MS/MS質(zhì)譜數(shù)據(jù)的產(chǎn)生原因并發(fā)掘其隱含信息極其必要和迫切。 此外,在蛋白質(zhì)表達(dá)譜中所普遍采用的 Shotgun 路線中,蛋白質(zhì)鑒定覆蓋率往往很低, 其原因也需要探索。計(jì)劃以高純度標(biāo)準(zhǔn)蛋白質(zhì)為樣本, 在優(yōu)化和規(guī)范化實(shí)驗(yàn)操作流程的基礎(chǔ)上,獲取蛋白酶切肽段 MS/MS數(shù)據(jù),明確
23、每一張串聯(lián)質(zhì)譜圖歸屬, 分析圖譜鑒定或未鑒定原因。合成若干類, 每類若干條具有代表性理化性質(zhì)肽段, 分析其單獨(dú)質(zhì)譜行為和在復(fù)雜體系中的質(zhì)譜行為和鑒定成功率, 找出未鑒定原因, 為發(fā)展新的數(shù)據(jù)分析算法 / 軟件和檢索工具提供依據(jù)。同時(shí)研究實(shí)驗(yàn)設(shè)計(jì)、樣品處理和儀器操作流程對(duì)于質(zhì)譜數(shù)據(jù)質(zhì)量及其解析的影響,在此基礎(chǔ)上優(yōu)化和規(guī)范實(shí)驗(yàn)操作流程。更具體地,計(jì)劃選取高純度標(biāo)注蛋白質(zhì)若干種作為初步研究分析對(duì)象。其中蛋白選取將主要考慮蛋白分子量、酶切肽段理化性質(zhì)等因素。采用Shotgun策略,首先分別對(duì)單個(gè)蛋白進(jìn)行質(zhì)譜數(shù)據(jù)采集,并將全部串聯(lián)圖譜進(jìn)行多搜索引。10歡迎下載精品文檔擎檢索和手工平行分析, 以確定全部圖
24、譜的身份和發(fā)現(xiàn)方法及其比例。 目前考慮到可能的原因包括:非肽段信號(hào)、未知修飾、碎片信息過差、非規(guī)則酶切肽段、混合碎片、非數(shù)據(jù)庫包含序列、檢索算法問題、未知因素等。在整合產(chǎn)生這些結(jié)果原因的基礎(chǔ)上初步設(shè)計(jì)相應(yīng)檢索分析軟件。之后將標(biāo)準(zhǔn)蛋白混合, 用于檢驗(yàn)分析效果,并進(jìn)行調(diào)整。進(jìn)一步選取簡(jiǎn)單模式生物標(biāo)本,如 E.Coli 、Yeast 等,采用軟件自動(dòng)分析結(jié)合手工分析, 完成全部串聯(lián)圖譜身份分析, 并再次調(diào)整分析策略和軟件。二)研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度基于蛋白質(zhì)序列庫搜索的蛋白質(zhì)鑒定軟件,本質(zhì)上是一個(gè)信息檢索系統(tǒng),其核心是搜索引擎。 現(xiàn)有的蛋白質(zhì)鑒定搜索引擎, 在質(zhì)譜
25、數(shù)據(jù)分析上面臨著很多挑戰(zhàn)和困難,比如質(zhì)譜圖解析率低、 鑒定結(jié)果可信度低、 數(shù)據(jù)庫搜索速度慢, 等。除了由于我們對(duì)肽段離子碎裂和串聯(lián)質(zhì)譜圖生成機(jī)制的認(rèn)識(shí)有限之外, 很重要的原因在于,目前廣泛應(yīng)用的蛋白質(zhì)鑒定搜索引擎沒有及時(shí)集成新方法和新技術(shù),從預(yù)處理到打分排序和可信度評(píng)價(jià)都普遍存在缺陷,比如沒有深入挖掘肽 - 譜匹配的特征,沒有利用機(jī)器學(xué)習(xí)和搜索引擎的新技術(shù)。 為此,我們將開展如下方面的研究。1) 提高蛋白質(zhì)鑒定搜索引擎的可信度通過對(duì)數(shù)據(jù)進(jìn)行深入的分析, 考察隨機(jī)匹配產(chǎn)生的原因, 在此基礎(chǔ)上提取特征,對(duì)隨機(jī)匹配的搜庫結(jié)果進(jìn)行分類處理, 建立理論性比較強(qiáng)的模型; 整合搜索引擎提供的多個(gè)匹配打分參數(shù)
26、, 建立適當(dāng)?shù)臄?shù)學(xué)模型, 為每個(gè)非冗余鑒定肽段賦予一個(gè)適當(dāng)?shù)呐袆e分值, 實(shí)現(xiàn)肽段水平的可信度控制; 利用隨機(jī)數(shù)據(jù)庫搜索等對(duì)單個(gè)搜索引擎和數(shù)據(jù)集肽段可信度控制結(jié)果, 構(gòu)建合適的算法模型, 實(shí)現(xiàn)對(duì)不同搜索引擎、不同數(shù)據(jù)集數(shù)據(jù)的整合; 考慮基于圖譜計(jì)數(shù)的半定量、 蛋白質(zhì)序列長(zhǎng)度、數(shù)據(jù)庫大小、蛋白質(zhì)的酶切肽段和鑒定肽段等信息構(gòu)建基于超幾何分布的蛋白質(zhì)鑒定可信度評(píng)估概率模型。2) 提高蛋白質(zhì)鑒定搜索引擎的靈敏度融合多種信息源, 提取和篩選有效的肽譜匹配特征, 基于機(jī)器學(xué)習(xí)技術(shù), 將肽打分函數(shù)構(gòu)造問題, 轉(zhuǎn)化為排序?qū)W習(xí)或者分類問題, 通過迭代搜索或者迭代打分,動(dòng)態(tài)地、自適應(yīng)地更新肽打分函數(shù), 從而使之能夠
27、更好地適應(yīng)不同特點(diǎn)的質(zhì)。11歡迎下載精品文檔譜數(shù)據(jù),在保證足夠可信度的條件下, 顯著提高肽鑒定的靈敏度和譜圖的解析率。對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行聚類研究,揭示譜圖間的相互關(guān)系, 建立譜圖數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。通過限制性譜圖聚類識(shí)別冗余譜圖,生成代表譜,改善譜圖的質(zhì)量,提高譜圖解析的精度。 通過非限制性聚類識(shí)別相關(guān)譜圖,發(fā)現(xiàn)含有修飾、 氨基酸突變的譜圖、以及由非特異酶切肽段產(chǎn)生的譜圖,以進(jìn)一步提高譜圖解析率。3) 提高蛋白質(zhì)鑒定搜索引擎的速度采用高效的數(shù)據(jù)索引技術(shù)及與之相配合的高效搜索流程設(shè)計(jì),以加速候選肽查詢的過程。 優(yōu)化肽譜匹配打分算法的實(shí)現(xiàn), 使之適應(yīng)多種翻譯后修飾以及非限定修飾、非特異性酶切等帶來的候
28、選肽規(guī)模膨脹問題。 采用以序列標(biāo)簽手段為主,對(duì)數(shù)據(jù)庫候選肽進(jìn)行過濾的方式, 突破傳統(tǒng)的搜索引擎框架。 通過實(shí)際典型數(shù)據(jù)的運(yùn)行時(shí)間測(cè)量, 確定搜索引擎流程模塊的運(yùn)行熱點(diǎn), 研究任務(wù)級(jí)并行的靜態(tài)和動(dòng)態(tài)負(fù)載均衡算法, 在此基礎(chǔ)上進(jìn)一步研究算法級(jí)負(fù)載均衡算法, 將鑒定流程中的熱點(diǎn)模塊分配到多個(gè)節(jié)點(diǎn)進(jìn)行運(yùn)算,以進(jìn)一步提高蛋白質(zhì)搜索引擎的速度,實(shí)現(xiàn) 12 個(gè)量級(jí)的加速。三)綜合利用實(shí)驗(yàn)、儀器和計(jì)算手段發(fā)展肽序列De Novo 測(cè)序技術(shù)蛋白質(zhì)鑒定從頭測(cè)序算法的主要思想是只利用串聯(lián)質(zhì)譜中的譜峰信息推斷肽段序列。 De Novo 方法不依賴于蛋白質(zhì)數(shù)據(jù)庫,在數(shù)據(jù)庫信息不完整的情況下 De Novo 比數(shù)據(jù)庫搜索
29、具有一定的優(yōu)勢(shì)。然而, De Novo 算法的應(yīng)用范圍有比較大的局限性, 它可以處理的數(shù)據(jù)通常為 CID 碎裂方式下的高質(zhì)量譜圖, 而且,DeNovo 方法的譜圖鑒定率相對(duì)比較低,通常情況下,對(duì)于質(zhì)量比較好的 MS/MS譜圖,利用從頭測(cè)序算法僅可以得到約 30%的正確鑒定結(jié)果。隨著質(zhì)譜儀精度的逐漸提高, 利用高精度譜圖的一系列優(yōu)勢(shì),提高鑒定序列的準(zhǔn)確性,越來越受到人們的關(guān)注。 另外,利用同一肽段不同碎裂方式等方法產(chǎn)生的多張譜圖的內(nèi)在聯(lián)系進(jìn)行從頭測(cè)序的方法也逐漸成為蛋白質(zhì)鑒定問題中的研究熱點(diǎn)。利用特殊化學(xué)修飾,如磺酸化修飾等,可以為De Novo提供更豐富的技術(shù)路線。為此,本課題將與課題4 密切
30、合作開展如下方面的研究。1) 利用高精度 MS/MS數(shù)據(jù)進(jìn)行 De Novo 測(cè)序利用課題 4 提供的 LTQ-Orbitrap高精度質(zhì)譜數(shù)據(jù),可以更有效地進(jìn)行從頭測(cè)序。首先,高度精確的母離子及碎片離子質(zhì)量使得不同氨基酸殘基的區(qū)分度更。12歡迎下載精品文檔好,提高了氨基酸殘基識(shí)別的可靠性; 利用離子峰同位素模式的差異, 可以進(jìn)一步區(qū)分質(zhì)量相似的氨基酸, 如谷氨酸與賴氨酸等。 其次,低精度質(zhì)譜儀下不同離子類型的碎片質(zhì)量可能重疊的現(xiàn)象, 在高精度情況下可能性大大降低, 從而可以進(jìn)一步提高從頭測(cè)序算法的精度。 此外,利用高精度的有效離子峰, 可以計(jì)算出離子的理論氨基酸組成,從而更有效地過濾候選肽序列
31、。2) 利用譜圖相關(guān)性信息進(jìn)行 De Novo 測(cè)序CID 與 EXD(如電子捕獲裂解ECD、電子轉(zhuǎn)運(yùn)裂解ETD等) 是蛋白質(zhì)或多肽在質(zhì)譜儀中的不同碎裂方式,通常 EXD碎裂方式可以更好地保存完整的修飾信息,而且碎裂譜峰有較好的連續(xù)性, 與 CID 的特性形成很好的互補(bǔ)。 利用課題 4 提供的同一肽段的 CID/ETD碎裂形成的譜圖,我們可以利用不同譜圖間的譜峰信息相互驗(yàn)證,區(qū)分有效峰與噪音峰, 進(jìn)而將不同碎裂方式下的譜峰進(jìn)行聚合, 可以提高譜圖的信噪比; 通過不同碎裂方式下相關(guān)離子的質(zhì)量差值, 可以識(shí)別譜峰所屬的離子類型;結(jié)合基于譜峰圖的從頭測(cè)序方法, 不僅可以提高鑒定肽段的置信度,而且可以
32、鑒定到單一碎裂方式下難以鑒定到的肽段。3) 利用化學(xué)修飾方法輔助 De Novo 測(cè)序近年來很多研究都通過各種化學(xué)小分子修飾策略來輔助肽段的裂解與質(zhì)譜測(cè)序。例如,通過磺酸化修飾在肽段上引入磺酸基, 不僅可以提高肽段的碎裂效率,還可以抑制其它離子的產(chǎn)生, 得到以 y 系列離子為主的 MS/MS數(shù)據(jù);利用嘧啶化合物修飾多肽羧基可以有效增強(qiáng)修飾譜譜峰的信號(hào)強(qiáng)度。因此,利用課題 4 提供的高清晰串聯(lián)質(zhì)譜數(shù)據(jù), 基于譜峰圖的方法進(jìn)行從頭測(cè)序, 不僅可以更準(zhǔn)確地挑選有效峰, 而且減少了單個(gè)譜峰匹配多種可能離子類型的風(fēng)險(xiǎn), 從而提高從頭測(cè)序算法的精度。四)利用基因組數(shù)據(jù)庫搜索進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率基于蛋白
33、質(zhì)數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定方法的成敗, 強(qiáng)烈依賴蛋白質(zhì)數(shù)據(jù)庫是否完整, 如果不存在相應(yīng)的條目, 即使是質(zhì)量很好的譜圖, 也無法得到鑒定。因此,在常規(guī)鑒定方法的基礎(chǔ)上擴(kuò)大搜索范圍,對(duì)更全面的 EST 或基因組數(shù)據(jù)庫進(jìn)行搜索,就成為提高質(zhì)譜鑒定率的另一種有效方法。目前存在各種不同的基因組學(xué)相關(guān)的數(shù)據(jù)庫: 原始基因組數(shù)據(jù),信息最全面,但數(shù)據(jù)量巨大,沒有可變剪接信息,所以目前一般只進(jìn)行原核生物的直接搜索;。13歡迎下載精品文檔表達(dá)序列標(biāo)簽 EST( Expressed Sequence Tag)庫,是指從不同組織來源的 cDNA 片段序列積累得到的數(shù)據(jù)庫, 可確定是轉(zhuǎn)錄水平的數(shù)據(jù), 且基本
34、覆蓋整個(gè)基因組;可變剪接數(shù)據(jù)庫,通過選取有可變剪接注釋的肽序列,進(jìn)行搜索、序列比對(duì)、篩選和分類構(gòu)建而成,可以看作基因組數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫的橋梁。針對(duì)不同層次的數(shù)據(jù)庫,可以對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行多步驟、多策略的迭代搜索:先對(duì)常規(guī)蛋白質(zhì)數(shù)據(jù)庫進(jìn)行搜索鑒定; 沒有得到解釋的質(zhì)譜數(shù)據(jù)再利用 EST庫和可變剪接數(shù)據(jù)庫進(jìn)行搜索; 對(duì)于仍然無法解釋的質(zhì)譜, 采用直接搜索六個(gè)開放閱讀框翻譯的氨基酸序列的方法進(jìn)行鑒定; 或通過譜圖解析得到肽片段信息, 再對(duì)基因進(jìn)行序列比對(duì)。最終鑒定出常規(guī)方法無法解釋的譜圖數(shù)據(jù)。基因庫搜索面臨的主要挑戰(zhàn)包括: 如何構(gòu)建面向多層次海量基因數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)?如何加快鑒定速度, 應(yīng)對(duì)劇烈膨脹
35、的數(shù)據(jù)庫搜索量?如何有效估計(jì)和控制譜圖解析的錯(cuò)誤率?為此本課題將與課題2 密切合作開展如下方面的研究。1)構(gòu)建多層次的、相互關(guān)聯(lián)的、海量的基因組- 蛋白質(zhì)組數(shù)據(jù)庫基因組數(shù)據(jù)非常龐大復(fù)雜, 如何有效設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)予以存儲(chǔ)和表達(dá),是非常關(guān)鍵的問題。本項(xiàng)目的課題 2 將構(gòu)建一個(gè)基于基因組序列的, 比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、 數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫; 而我們將通過設(shè)計(jì)索引數(shù)據(jù)格式和讀取接口, 解決海量規(guī)模數(shù)據(jù)庫的存儲(chǔ)和快速檢索問題。 借鑒現(xiàn)有成熟的蛋白質(zhì)和肽數(shù)據(jù)索引技術(shù)方案, 設(shè)計(jì)合理的數(shù)據(jù)結(jié)構(gòu), 便于系統(tǒng)內(nèi)數(shù)據(jù)的讀取、存儲(chǔ)、壓縮、表達(dá),查詢和關(guān)聯(lián)。2)提高蛋白質(zhì)鑒定引擎的搜索速度基因組或
36、 EST數(shù)據(jù)庫相對(duì)于傳統(tǒng)的蛋白質(zhì)數(shù)據(jù)庫, 規(guī)模擴(kuò)大了不止一個(gè)數(shù)量級(jí),面臨著搜索速度上的挑戰(zhàn)。除了利用各種常規(guī)思路對(duì)搜素引擎進(jìn)行加速外,重點(diǎn)利用基因和蛋白質(zhì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將常規(guī)蛋白數(shù)據(jù)庫搜索或者DeNovo測(cè)序鑒定出的肽段 / 蛋白質(zhì)映射到對(duì)應(yīng)的核酸序列上,然后枚舉出該基因區(qū)域經(jīng)過突變、 可變剪接、 翻譯等種種變化得到的所有可能的氨基酸序列,對(duì)沒有得到鑒定結(jié)果的譜圖進(jìn)行二次搜索,既可能提高譜圖解析率, 同時(shí)又可以大大減小基因組數(shù)據(jù)庫產(chǎn)生的候選肽規(guī)模,從而加速鑒定。3)研究搜索結(jié)果可靠性問題,有效估計(jì)和控制譜圖解析的錯(cuò)誤率。數(shù)據(jù)庫規(guī)模的擴(kuò)大, 不僅僅帶來速度問題: 基因組數(shù)據(jù)或 EST數(shù)據(jù)庫
37、遠(yuǎn)大于蛋白質(zhì)數(shù)據(jù)庫, 同時(shí)含有一定的測(cè)序誤差, 發(fā)生隨機(jī)匹配的概率更大; 并且因?yàn)椤?4歡迎下載精品文檔預(yù)測(cè)錯(cuò)誤的開放閱讀框和低質(zhì)量的 EST序列,以及串聯(lián)質(zhì)譜數(shù)據(jù)本身帶有的噪音和復(fù)雜性,將導(dǎo)致更多錯(cuò)誤的隨機(jī)匹配。 因此需要深入分析傳統(tǒng)方式下隨機(jī)誤匹配產(chǎn)生的原因,構(gòu)建模型提取特征,進(jìn)一步建立完善的估計(jì)檢驗(yàn)算法。課題承擔(dān)單位:中國科學(xué)院計(jì)算技術(shù)研究所課題參加單位:復(fù)旦大學(xué)課題負(fù)責(zé)人 :賀思敏科研骨干:孫瑞祥、趙屹、張揚(yáng)經(jīng)費(fèi)比例: 23%課題 2.高精度 MS/MS數(shù)據(jù)對(duì)基因組蛋白質(zhì)編碼基因的補(bǔ)充和修訂課題背景:基因組DNA序列的測(cè)定標(biāo)志著人類在探索生命之謎的征程中邁出了關(guān)鍵一步。 但是,解讀基因
38、組中所富含的遺傳秘密和生物功能信息的研究工作還剛剛開始。根據(jù) 2007 年在 PNAS上發(fā)表的研究表明, 人類基因組中的蛋白質(zhì)編碼基因數(shù)量可能會(huì)少于24,500; 而 Broad 研究所的研究指出,人類基因數(shù)據(jù)庫如Ensembl、RefSeq 和 Vega 包括了許多任意出現(xiàn)的而非蛋白質(zhì)編碼區(qū)域的開放閱讀框,實(shí)際上人類基因組中的蛋白質(zhì)編碼基因數(shù)目可能只有20,500 左右。 2007年康奈爾大學(xué)的研究人員發(fā)表在 GenomeResearch 的研究工作, 通過利用超級(jí)計(jì)算機(jī)比較人類、 小鼠、大鼠和雞的基因組部分, 發(fā)現(xiàn)了 300 個(gè)之前沒有確定的人類基因,還確定了幾百個(gè)已知基因的范圍。 這意味
39、著,有許多基因會(huì)在目前的生物分析方法下被漏掉。 傳統(tǒng)的基因注釋方法對(duì)廣泛表達(dá)基因的發(fā)現(xiàn)非常有效, 卻會(huì)遺漏只在特定器官表達(dá)或在胚胎發(fā)育早期表達(dá)的基因。傳統(tǒng)上,開放閱讀框( open reading frame , ORF)的一些原則正在受到大量實(shí)驗(yàn)數(shù)據(jù)的挑戰(zhàn),尤其是對(duì)于內(nèi)含子的可變剪切豐富的真核生物基因組而言, 基因組的注釋的缺陷尤其明顯。例如,即使是研究較透徹的模式生物果蠅,大概 30%的轉(zhuǎn)錄本都沒有被注釋。通過比對(duì)人的 EST和基因組, 產(chǎn)生了約 62000 個(gè)不相重疊的聚類, 但大多數(shù)。15歡迎下載精品文檔都不包含 ORF的 5端區(qū)域,提示了僅依靠測(cè)序cDNA來完整注釋動(dòng)物基因組是不切實(shí)
40、際的。普遍使用的基因預(yù)測(cè)軟件GENSCAN在對(duì)小鼠和人的ORF預(yù)測(cè)上正確率僅為 15%和 10%;在哺乳動(dòng)物基因預(yù)測(cè)方面表現(xiàn)最好的CONTRAST算法,對(duì)人的ORF預(yù)測(cè)也只有 58%的正確率。近年來,高精度質(zhì)譜儀( FT、Orbit-Trap)的發(fā)展以及肽段解析技術(shù)的進(jìn)步為基因組的蛋白質(zhì)編碼注釋開辟了新的研究方向。 采用 MS/MS數(shù)據(jù)注釋基因組有其獨(dú)到的技術(shù)優(yōu)勢(shì)。 首先,肽段反映的是基因最終表達(dá)的產(chǎn)物, 它比 RNA分子更為直接地傳遞了基因的編碼信息。 其次,大規(guī)模 MS/MS數(shù)據(jù)庫的建立, 使得傳統(tǒng)的一個(gè)基因一個(gè) cDNA一次測(cè)序的觀念受到?jīng)_擊,利用 De Novo 技術(shù)分析 MS/MS
41、數(shù)據(jù)庫,可能極大地豐富肽段信息。蛋白質(zhì)組基因組學(xué)是近幾年誕生的一門用蛋白質(zhì)組信息解構(gòu)基因組的新興學(xué)科。 MS/MS質(zhì)譜實(shí)驗(yàn)輔助基因組注釋已經(jīng)在多種物種中(原核生物,酵母,植物和人等)使用,涉及到基因組注釋的多個(gè)研究?jī)?nèi)容,如:確認(rèn)預(yù)測(cè)基因、發(fā)現(xiàn)新基因、判斷假基因、證實(shí)可變剪切等。此外,串聯(lián)質(zhì)譜數(shù)據(jù)還和基因預(yù)測(cè)算法整合,提高了基因預(yù)測(cè)準(zhǔn)確率。 然而必須認(rèn)識(shí)到, 蛋白質(zhì)組基因組學(xué)領(lǐng)域還存在很多技術(shù)上的挑戰(zhàn), 目前研究還大多局限于低等生物, 結(jié)果局限在對(duì)基因組注釋的補(bǔ)充與修訂,離全基因組水平基因注釋還相距很遠(yuǎn)。據(jù)估計(jì)約 40-60%的人類基因存在可變剪切, 但 Tanner 等從一千八百萬張 MS/M
42、S質(zhì)譜里只找到了 40 多個(gè)可變剪切。造成這樣結(jié)果的原因主要有: 1)質(zhì)譜鑒定肽段的過程一般利用數(shù)據(jù)庫搜索法,只有數(shù)據(jù)庫中存在的蛋白質(zhì)才可能被預(yù)測(cè)到; 2)肽段和蛋白質(zhì)的鑒定有一定的假陽性,錯(cuò)誤率隨著數(shù)據(jù)庫的增大而增大; 3)只有 10% 20%的質(zhì)譜能匹配到肽段, 絕大多數(shù)的質(zhì)譜都沒有被解讀。 課題 1 已就這些問題提出了一系列解決方案,著重解決公共蛋白質(zhì)數(shù)據(jù)庫局限性問題以及肽段鑒定算法覆蓋率和重復(fù)率低的問題。 本課題將密切與課題 1 合作,利用課題 1 剖析 MS/MS數(shù)據(jù)的研究成果,通過 De Novo 方法直接分析和改善數(shù)據(jù)庫搜索效率以獲得盡可能多的肽段序列信息,然后建立 MS/MS數(shù)
43、據(jù)所對(duì)應(yīng)的肽段數(shù)據(jù)庫, 基于此數(shù)據(jù)庫進(jìn)一步開展補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因的研究工作。研究目標(biāo)一) 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;。16歡迎下載精品文檔二) 建立基于肽段信息注釋基因組的方法流程;三) 利用 MS/MS所鑒定的肽段補(bǔ)充和修訂基因組蛋白質(zhì)編碼基因。研究?jī)?nèi)容一)蛋白質(zhì)序列數(shù)據(jù)庫的構(gòu)建為適應(yīng)蛋白質(zhì)數(shù)據(jù)庫搜索鑒定, 構(gòu)建一個(gè)基于基因組序列的, 比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、 數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫, 能使我們更有效地利用高通量蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)。 在這個(gè)方面, 我們和課題 1 既有密切合作, 又有各自專攻方向。 課題 1 通過設(shè)計(jì)索引數(shù)據(jù)格式和讀取接口, 提高蛋白質(zhì)鑒定引擎的
44、搜索速度,有效估計(jì)和控制譜圖解析的錯(cuò)誤率以解決海量規(guī)模數(shù)據(jù)庫的存儲(chǔ)和快速檢索問題,而本課題組則從如下幾個(gè)方面提供構(gòu)建綜合數(shù)據(jù)庫的策略:1) 整合現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫當(dāng)前蛋白質(zhì)序列公共數(shù)據(jù)庫,如 NCBI 蛋白質(zhì)數(shù)據(jù)庫, Uniprot 蛋白質(zhì)數(shù)據(jù)庫,以及 EMBL-EBI的 IPI 蛋白質(zhì)數(shù)據(jù)庫等囊括了絕大多數(shù)已知蛋白質(zhì)的序列信息。整理這些數(shù)據(jù)庫中的人類蛋白質(zhì)數(shù)據(jù), 包括不同庫間數(shù)據(jù)進(jìn)行相互補(bǔ)充和驗(yàn)證、通過 Blast 方法去除冗余蛋白質(zhì)、 統(tǒng)一蛋白質(zhì)編號(hào)、 使用 FASTA格式存儲(chǔ)包含對(duì)應(yīng)基因組定位信息在內(nèi)的蛋白質(zhì)序列信息, 從而構(gòu)建一個(gè)含有絕大多數(shù)已知人類蛋白質(zhì)序列的數(shù)據(jù)集合。2) 使用
45、 “六位移碼翻譯 ”方法得到全基因組 ORF數(shù)據(jù)集使用 “六位移碼翻譯 ”方法從基因序列中尋找潛在的 ORF,能最大范圍地覆蓋所有基因可能的轉(zhuǎn)錄本。從 NCBI基因組數(shù)據(jù)庫, Ensembl 基因組數(shù)據(jù)庫和 UCSC 基因組數(shù)據(jù)庫搜集到完整的基因組序列信息。 潛在的 ORF起始位點(diǎn)開始于每一個(gè)染色體的第一個(gè)堿基,每翻譯到終止密碼子時(shí)即為 ORF的終止位點(diǎn)。下一個(gè) ORF 的起始位點(diǎn)定為上一個(gè) ORF終止位點(diǎn)的下一個(gè)堿基。 基因組中不明確的堿基使用隨機(jī)方式以一種堿基代替。 這種方法應(yīng)用于基因組 DNA雙鏈的各三個(gè)閱讀框, 即“六位移碼翻譯 ”。每一個(gè) ORF均標(biāo)示出基因組的坐標(biāo)與方向, 便于將肽
46、段信息匹配到基因組上。從每一個(gè)染色體得到的氨基酸序列以 FASTA格式保存。3) 構(gòu)建可變剪切數(shù)據(jù)庫可變剪切是單個(gè)基因編碼眾多蛋白質(zhì)亞型的重要機(jī)制。通過多種方法構(gòu)建可變剪切數(shù)據(jù)庫對(duì)于驗(yàn)證已有的及發(fā)現(xiàn)新的可變剪切方式、發(fā)現(xiàn)新 ORF與新基因。17歡迎下載精品文檔具有重要意義。我們整合已有的(如 Ensembl 數(shù)據(jù)庫)和預(yù)測(cè)軟件(如 “AUGUSTUS”)預(yù)測(cè)的外顯子與內(nèi)含子信息, 構(gòu)建含有基因多種可變剪切模型的數(shù)據(jù)庫。具體步驟包括: 1)將基因(正鏈)的同一個(gè)轉(zhuǎn)錄本內(nèi)的已知與預(yù)測(cè)的外顯子按5' 至 3'順序排列后,依次按順序選取外顯子序列拼合組成所有可能的剪切方式;2)對(duì)于每一
47、種拼接結(jié)果,截取拼接點(diǎn)左右各90 個(gè)堿基序列(如果外顯子堿基數(shù)少于90,則取其全部序列,截取過程中保留拼接點(diǎn)位置信息),從該序列 5' 端每次移動(dòng)一個(gè)堿基共移動(dòng)三次分別按通用密碼子翻譯成含有近60 個(gè)氨基酸的肽段序列;3)去除不連續(xù)的無意義的蛋白質(zhì)序列; 4)位于反鏈上的基因?qū)⑵滢D(zhuǎn)錄本反轉(zhuǎn)成相應(yīng)的正鏈堿基序列后按照前三個(gè)步驟構(gòu)建可變剪切序列。為了應(yīng)對(duì)MS/MS搜索后續(xù)的結(jié)果評(píng)估,上述三個(gè)數(shù)據(jù)庫還會(huì)與一個(gè)將靶序列打亂( shuffle)生成的 “誘餌 ”(decoy )庫相結(jié)合,生成最終用于搜索的大型數(shù)據(jù)庫。任何一個(gè)在靶序列庫和誘餌序列庫中同時(shí)出現(xiàn)的8 氨基酸以上的序列都會(huì)被重新打亂 (
48、re-shuffled),以保證靶序列與誘餌序列之間的重合度最小,方便后續(xù)鑒定結(jié)果假陽性率(false-discovery rate, FDR)的估算。二)建立基于肽段信息注釋基因組的方法流程通過 De Novo方法直接分析和改善數(shù)據(jù)庫搜索效率, 我們將盡可能從高精度MS/MS數(shù)據(jù)獲得豐富的肽段序列,并建立 MS/MS對(duì)應(yīng)的肽段數(shù)據(jù)庫。以此數(shù)據(jù)庫為基點(diǎn)可通過與對(duì)應(yīng)的蛋白質(zhì)信息聯(lián)配( alignment )至基因組上,將這些肽段延伸成開放閱讀框(ORF),最終生成一個(gè)“蛋白質(zhì)組基因組學(xué)圖譜”( proteogenomic map)。這些基于肽段序列的基因組注釋方法學(xué)將主要包括下列七個(gè)方面:1)
49、鑒定已知蛋白質(zhì)的診斷( diagnostic )肽段結(jié)合完全匹配文本搜索和本地序列聯(lián)配方法 (如 Perl 編寫的正則表達(dá)式),可鑒定出映射到已知編碼區(qū)域的基因內(nèi)診斷肽段。由這種方法無法鑒定的肽段,運(yùn)用 TBLASTN(使用 PAM30矩陣)對(duì)它們親本( parent )基因的蛋白質(zhì)產(chǎn)物進(jìn)行聯(lián)配,只考慮 100%匹配的鑒定結(jié)果。2) 分類已知基因內(nèi)的新診斷肽段將不能聯(lián)配于任意已知蛋白質(zhì)的基因內(nèi)診斷肽段聯(lián)配到從 UCSC基因組網(wǎng)站上獲得的人類 ESTs庫,MEGABLAST使用步長(zhǎng) 12。新肽段完全包含在已注釋外顯。18歡迎下載精品文檔子之內(nèi)定義為IE ( intronic exon),肽段與已
50、注釋外顯子部分重疊分類為OE( overlappingexon ),而 完全 未處于已 注釋外顯 子中 的肽段定 義為NE( non-overlapping exon )。3) 定義新編碼區(qū)域?qū)υ\斷肽段 NE和 OE編碼區(qū)域兩側(cè)延伸 1000堿基對(duì)由 BLASTN聯(lián)配到 ESTs,只接受匹配重疊于肽段編碼區(qū)域且E 值小于 1e-6 的結(jié)果。新編碼區(qū)域的相應(yīng)基因位置來自于從重疊ESTs生成的最長(zhǎng)鄰近聯(lián)配窗。4)鑒定蛋白質(zhì)結(jié)構(gòu)域( domain)分類為 OE的診斷肽段以BLASTP聯(lián)配到他們的親本基因??赡馨码亩蔚南鄳?yīng)蛋白質(zhì)隨后被計(jì)算確定。 每個(gè)蛋白質(zhì)序列使用UNIPROT和 PROSITE搜
51、索其蛋白質(zhì)結(jié)構(gòu)域。從數(shù)據(jù)庫中挑出重疊到新肽段區(qū)域的蛋白質(zhì)結(jié)構(gòu)域。包括新OE肽段序列的理論蛋白質(zhì)亦基于如上所述的BLASTP相應(yīng)產(chǎn)物生成。這些理論蛋白質(zhì)也由 PROSITE分析,并與原始蛋白質(zhì)相比較, 以額外氨基酸殘基的存在確定引入蛋白質(zhì)結(jié)構(gòu)域的變化。5)校正開放閱讀框在當(dāng)前基因模型之外發(fā)現(xiàn)的新肽段中,當(dāng)有些新肽段位于已知的基因座( gene locus )時(shí),這些與基因座的編碼區(qū)域重合的肽段將位于一個(gè)新閱讀框內(nèi)。為了(至少在一定程度上) 證實(shí)這些被錯(cuò)誤預(yù)測(cè)的基因的存在, 我們用幾個(gè)特征篩選這些新肽段: 位于已知閱讀框外的新肽段要多次出現(xiàn), 超出閱讀框外的氨基酸個(gè)數(shù)至少為 3,與已知數(shù)據(jù)庫中的序
52、列沒有沖突。6) 分析基因的可變剪切可采用兩種策略,篩選跨越基因組上剪切位點(diǎn)邊界的肽段,對(duì)已知的基因可變剪切模式進(jìn)行注釋或發(fā)現(xiàn)基因的新剪切方式: 1)利用整合的現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫與使用 “六位移碼翻譯 ”方法得到全基因組ORF數(shù)據(jù)集,將高通量質(zhì)譜鑒定到的肽段以無間隙(no gap)方式匹配到這些蛋白質(zhì)序列。將匹配到的蛋白質(zhì)重新比對(duì)到基因組后得到這些肽段在基因組上的位置信息。2)直接利用構(gòu)建的 “可變剪切庫 ”及其保留的可變剪切位置信息,合并入一個(gè)競(jìng)爭(zhēng)性數(shù)據(jù)庫。 篩除最佳匹配出現(xiàn)在競(jìng)爭(zhēng)性數(shù)據(jù)庫中的肽段,篩出跨越可變剪切位點(diǎn)的肽段。7)整合肽段開發(fā)新的基因預(yù)測(cè)算法。19歡迎下載精品文檔將質(zhì)譜鑒定到的肽段用TBLASTN算法對(duì)齊到基因組序列上。根據(jù)肽段在基因組上的位置為每個(gè)核苷酸指派狀態(tài),用隱馬爾可夫方法建立基因預(yù)測(cè)模型,并估計(jì)模型參數(shù)。用此模型與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 牲畜屠宰業(yè)屠宰副產(chǎn)品開發(fā)利用考核試卷
- 竹材采運(yùn)信息化平臺(tái)建設(shè)與運(yùn)用考核試卷
- 玻璃制造中的人力資源管理及培訓(xùn)考核試卷
- 水輪機(jī)發(fā)電站繼電保護(hù)配置考核試卷
- 漁業(yè)產(chǎn)品出口實(shí)務(wù)考核試卷
- 毛皮制品的消費(fèi)者行為與市場(chǎng)調(diào)研考核試卷
- 家居紡織品人體工程學(xué)設(shè)計(jì)考核試卷
- 護(hù)工技能提升培訓(xùn)大綱
- 靜脈血栓濾網(wǎng)護(hù)理查房
- 關(guān)于年度校本工作計(jì)劃(3篇)
- DB32T3748-2020 35kV及以下客戶端變電所建設(shè)標(biāo)準(zhǔn)
- 家庭醫(yī)生簽約服務(wù)培訓(xùn)
- 《狼和鴨子》PPT課件小學(xué)幼兒園兒童故事表演幻燈片背景有音樂
- 中國近代三種建國方案
- 第2課+古代希臘羅馬(教學(xué)設(shè)計(jì))-【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- 工會(huì)制度牌模板
- 2024年高級(jí)統(tǒng)計(jì)實(shí)務(wù)考試真題及答案解析
- 《幽門螺桿菌檢測(cè)》課件
- 《日語零基礎(chǔ)學(xué)習(xí)》課件
- 前列腺癌護(hù)理個(gè)案查房課件
- 小兒肝臟間葉錯(cuò)構(gòu)瘤課件
評(píng)論
0/150
提交評(píng)論