


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用 摘 要 巴西固氮螺菌是重要的植物促生內(nèi)生菌之一。為了研究其未知基因,在巴西固氮螺菌和與其同源的五個菌種之間進(jìn)行系統(tǒng)發(fā)生足跡研究。由于單機(jī)任務(wù)執(zhí)行的串行性,效率較低。研究發(fā)現(xiàn),整個過程包含了大量重復(fù)的、沒有數(shù)據(jù)依賴的操作,如文本信息的提取,DNA序列的比較等。因此,提出了局域網(wǎng)環(huán)境下基于客戶機(jī)/服務(wù)器模式的多機(jī)并行實現(xiàn)的思路。在充分利用資源的同時,顯著提高了效率。 關(guān)鍵詞 巴西固氮螺菌;同源; 系統(tǒng)發(fā)生足跡; 客戶/服務(wù)器
2、模式; 并行 1 引言 1.1 巴西固氮螺菌 巴西固氮螺菌(Azospirillum brasilence)是重要的植物促生內(nèi)生菌之一,其質(zhì)體上的不同基因分別控制著其各種不同的特性。對巴西固氮螺菌的深入研究對我國農(nóng)業(yè)的發(fā)展有著深遠(yuǎn)的影響。 在巴西固氮螺菌的sp7菌株里,發(fā)現(xiàn)了兩個質(zhì)體,分子量分別為115 MDa (p115) 和90 MDa (p90)。 實驗表明:p115 質(zhì)體會自發(fā)地從
3、細(xì)菌細(xì)胞中消失,并且與原生型sp7比較,由p115的衍生物來代替p115沒有造成任何表現(xiàn)型如細(xì)菌的運(yùn)動性、化學(xué)向性等的差異,而對p90的替代卻使得細(xì)菌不能正常生存。由此得出結(jié)論:細(xì)胞存活必須的基因信息在p90質(zhì)體上。1 1.2 系統(tǒng)發(fā)生足跡技術(shù) P90的基因序列已經(jīng)被微生物與植物遺傳中心(KULeuven, Belgium)破譯,并且部分基因的位置和功能已經(jīng)確認(rèn),如exoB和exoC控制著外聚多糖的合成。然而還有一些基因如nodP和nodQ,它們的功能還有待確定。本文應(yīng)用系統(tǒng)發(fā)生足跡技術(shù)對p90 進(jìn)行研究。
4、 系統(tǒng)發(fā)生足跡是用來識別DNA序列中的調(diào)控因子(motif)的方法,它通過在多個同源基因的調(diào)控序列(基因間序列)中尋找保守區(qū)域來確定調(diào)控因子。系統(tǒng)發(fā)生足跡技術(shù)認(rèn)為:由于環(huán)境選擇的壓力,基因上的功能因子比那些非功能序列進(jìn)化的速率慢。因此,對于同源物種而言,那些保守區(qū)域?qū)⒊蔀楣δ?調(diào)控因子的主要侯選者。2 1.3 局域網(wǎng)多機(jī)并行實現(xiàn) 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,多機(jī)并行技術(shù)應(yīng)用日益廣泛。并行是指多計算機(jī)同時運(yùn)行,與單機(jī)串行運(yùn)行相比,并行能夠顯著的提高執(zhí)行速度。本系統(tǒng)構(gòu)建客戶/服務(wù)器模式的局域網(wǎng),即一臺服務(wù)器,
5、多臺客戶機(jī)。服務(wù)器安裝應(yīng)用程序和存儲必要的數(shù)據(jù)供客戶機(jī)使用,同時協(xié)調(diào)客戶機(jī)之間的同步運(yùn)行??蛻魴C(jī)從服務(wù)器上下載文件并在服務(wù)器的支配下并行執(zhí)行任務(wù)。 2 方法與設(shè)計 2.1 系統(tǒng)任務(wù)提出及方案論證 由于系統(tǒng)發(fā)生足跡是在同源基因的基因間序列中尋找調(diào)控因子,因此,首要的任務(wù)是尋找與p90同源的基因間序列。本系統(tǒng)中使用新月柄桿菌,根瘤菌, 深紅紅螺菌, 球形紅桿菌和淡水菌五種細(xì)菌作為與巴西固氮螺菌p90基因比較的對象。由于都屬于a-蛋白菌,可以在它們的基因中尋找同源基因,進(jìn)而找到這
6、些同源基因的基因間序列。 針對上述任務(wù),本系統(tǒng)發(fā)生足跡研究共分為4大模塊: 2.1.1 基因信息入庫 由于存儲在NCBI的基因信息是以文本文件的形式存放,為了便于計算機(jī)處理,需要將文本中的各項信息提取出來存入數(shù)據(jù)庫表中。 并行性分析:基因信息入庫是文本信息提取操作,信息量大,需要大量單一、重復(fù)的操作,必須借助計算機(jī)程序來高速、準(zhǔn)確的完成。由于每次提取操作只針對一個文本文件,因此文本文件的信息提取操作之間沒有任何數(shù)據(jù)依賴關(guān)系,可以將這
7、些文件按照數(shù)量均分給多臺計算機(jī)并行執(zhí)行以提高信息的提取速率。 2.1.2 蛋白質(zhì)比較 一般來說,如果兩個蛋白質(zhì)的序列相似,則其功能也相近?;蜷g序列對基因編碼起著重要的調(diào)節(jié)作用。如果兩個基因間序列調(diào)控的基因編碼的蛋白質(zhì)序列相似,即蛋白質(zhì)的功能相近,則說明這兩個編碼基因序列有可能是同源關(guān)系,那么就可以將它們相應(yīng)的基因間序列提取出來進(jìn)行系統(tǒng)發(fā)生足跡研究。因此需要尋找基因編碼的蛋白質(zhì)序列,由于蛋白質(zhì)序列在NCBI是以fasta 文件形式存儲,需要將文件中的信息進(jìn)行提取并存到數(shù)據(jù)庫表中。 &
8、#160; 對所有的蛋白質(zhì)序列進(jìn)行BLAST比較,尋找序列的相似性,結(jié)果如圖1: 圖1. BLAST比較結(jié)果 為了排除偶然因素造成的序列間的相似性,用期望值E來衡量結(jié)果的顯著性。E值越小,結(jié)果越顯著。 并行性分析:fasta文本信息的提取與基因信息提取相似,可以并行實現(xiàn);而序列間的BLAST比較只需要參與比較的蛋白質(zhì)序列信息,并不依賴與別的蛋白質(zhì)。因此,在保證所有的蛋白質(zhì)之間都能比較的前提下,可以把序列分組,由客戶機(jī)并行執(zhí)行。 2.1.
9、3 基因序列分組 根據(jù)BLAST計算出的相似度,用TribeMCL對蛋白質(zhì)進(jìn)行分組,序列相似的蛋白質(zhì)將被歸為一組。為了利用序列相似的傳遞性,將各蛋白質(zhì)之間的相似關(guān)系用圖來表示,蛋白質(zhì)作為結(jié)點(diǎn),而邊用來代表蛋白質(zhì)之間的相似度,并且用-log (E) 作為相似度的權(quán)值。將圖進(jìn)一步轉(zhuǎn)換為馬爾可夫矩陣,矩陣中的元素代表蛋白質(zhì)序列間的轉(zhuǎn)換概率。通過矩陣自乘進(jìn)一步尋找蛋白質(zhì)之間的親緣關(guān)系,避免將關(guān)系較遠(yuǎn)的蛋白質(zhì)遺漏 3。 得到蛋白質(zhì)的分組后,將蛋白質(zhì)轉(zhuǎn)換成其相應(yīng)的編碼基因,進(jìn)而得到基因分組,由于只需要與p90相關(guān)的基因組,再將包含p90基因的分組篩選出來存入數(shù)據(jù)庫中,結(jié)果如表1: 表1: 基因分組 并行性分析:蛋白質(zhì)分組需要將所有的蛋白質(zhì)相似度信息進(jìn)行比較,因此本模塊不能并行執(zhí)行,必須由一臺計算機(jī)獨(dú)立完成。 2.1.4 尋找motif 系統(tǒng)發(fā)生足跡是在與p90相關(guān)的基因間序列中尋找motif,得到了基因分組后,根據(jù)基因名稱將調(diào)控其編碼的基因間序列提取出來。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國棉布行業(yè)投資研究分析及發(fā)展前景預(yù)測報告
- 2025年蚯蚓種項目投資可行性研究分析報告
- 空氣濾網(wǎng)行業(yè)深度研究報告
- 2025年鐵制籃球架項目投資可行性研究分析報告
- 2025年人造纖維絲行業(yè)深度研究分析報告
- 小學(xué)解方程能力提升知識點(diǎn)專項訓(xùn)練500題
- 小學(xué)解方程能力提升練習(xí)題500道
- 小學(xué)解方程趣味學(xué)習(xí)500題
- 2024-2025年中國字符漢字顯示終端市場前景預(yù)測及投資規(guī)劃研究報告
- 2024年山東協(xié)和學(xué)院銀齡教師招聘筆試真題
- 【真題】2023年南京市中考語文試卷(含答案解析)
- 安徽安慶家鄉(xiāng)介紹
- 自動測試系統(tǒng)第1章第1節(jié)測試系統(tǒng)發(fā)展綜述
- 2024年河南省水務(wù)規(guī)劃設(shè)計研究有限公司人才招聘筆試參考題庫附帶答案詳解
- 山地光伏設(shè)計方案
- 2022廣州美術(shù)學(xué)院附屬中學(xué)(廣美附中)入學(xué)招生測試卷語文
- 北師大版(2019)選擇性必修第三冊Unit 7 Careers Topic Talk 導(dǎo)學(xué)案
- 春節(jié)復(fù)工復(fù)產(chǎn)安全教育培訓(xùn)
- 2024年廣西公務(wù)員考試行測真題及答案解析
- 護(hù)理質(zhì)量改進(jìn)項目
- 《礦產(chǎn)地質(zhì)勘查規(guī)范 花崗偉晶巖型高純石英原料》(征求意見稿)
評論
0/150
提交評論