基于二代測序的枇杷染色體步移研究_第1頁
基于二代測序的枇杷染色體步移研究_第2頁
基于二代測序的枇杷染色體步移研究_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于二代測序的枇杷染色體步移研究

據(jù)報道,枇杷篩選計劃始于2011年。近年來,以IlluminaHiseq為代表的二代測序的價格逐年降低,目前通過二代測序技術獲得6G基因組數(shù)據(jù)量的價格已經(jīng)低于千元。二代測序的單個Reads有150bp,雙端測序時可以含蓋200~500bp的DNA區(qū)域(根據(jù)需要,建庫時可以選擇更長的片段測序),這使得通過Reads的匹配來實現(xiàn)染色體步移成為可能。針對大量的測序數(shù)據(jù),目前已經(jīng)有一些工具可以使用,例如NCBI的Magicblast工具筆者對‘火炬’枇杷進行二代測序,獲得原始測序數(shù)據(jù)。首先使用Magicblast工具進行染色體步移,在此基礎上再使用生物信息學方法新開發(fā)了一款基于二代測序數(shù)據(jù)的啟動子序列快速挖掘的腳本程序,并對‘火炬’枇杷中8個基因的啟動子進行分離。最后通過PCR克隆和Sanger測序的方式進行驗證。在枇杷和其他未公布基因組的物種中,本研究有助于快速獲得相關基因的啟動子序列,提高實驗效率。1材料和方法1.1選擇適應性品種‘火炬’枇杷(Eriobotryajaponica‘Huoju’)為晚花耐寒品種,適合江浙滬地區(qū)種植。為了方便后續(xù)研究,選擇該品種為試驗材料,2018年4月采集幼嫩葉片,使用CTAB法提取基因組DNA1.2對所獲得的基因序列進行檢測Magicblast針對測序原始數(shù)據(jù)設計,所以包含CleanReads的fastq文件不需要額外處理,可以直接操作。使用Makeblastdb指令對需要檢索的基因序列前100bp進行建庫,在使用Magicblast主程序檢索測序獲得的CleanReads.fq,設置參數(shù)score為60?,F(xiàn)階段Magicblast并不能設置檢索到10個Reads后停止,只能等它運行完成??梢允謩咏Y束,但無法知曉它已經(jīng)獲得幾個匹配的Reads。運行一次后,收集匹配的Reads,使用Seqman軟件進行裝配1.3pc機病毒提取fpsd本研究新開發(fā)的腳本程序需要對CleanReads進行預處理。共設計開發(fā)3個Perl腳本程序,分別為Fastqtofasta.pl,Readsformate.pl和Promoter_Scan.pl。前兩者為Reads預處理腳本。所有腳本程序以及使用范例已經(jīng)上傳至百度云盤(鏈接:/s/13iB4RNom0IKjcF7aNzkLFQ,提取碼:gvnf)。Fastqtofasta.pl負責提取包含CleanReads的fastq文件里的序列信息形成fasta格式文件。Readsformate.pl從雙端測序的兩端Reads的序列文件中分別分離首尾的10bp序列建立索引文件,首部索引為其反向互補序列,后部索引為正常序列。每一對雙端測序Reads包含4個10bp的索引序列(圖1-A)。這樣Perl程序只需要先匹配10bp的序列,提前過濾不匹配的Reads,極大地提高了運行效率。由于需要遍歷整個測序數(shù)據(jù),耗時很長,本研究中60GB數(shù)據(jù)耗時約7h。該腳本只需要執(zhí)行1次即可。1.4索引序列匹配Promoter_Scan.pl為核心程序。它首先讀取目的基因的前100bp序列。按順序檢索每對Reads的4個10bp的索引序列,未匹配跳到下一個Reads。如果匹配,再次使用目的基因的前30bp序列(誘餌)和Reads進行匹配,再次匹配后觸發(fā)延伸指令,兩次匹配保證了準確性。在索引序列匹配過程中有兩種情況,左端或者右端Reads的后索引匹配(圖1-A),此時另一端Reads在下游,只能起校檢作用,本次延伸長度短。另一種情況為左端或者右端Reads的前索引匹配(圖1-B),前索引為反向互補序列,此時另一端Reads在上游,也進入拼接程序,中間未知部分使用N表示。本研究建庫時片段長度為200~500bp。兩端的Reads分別是150bp,所以中間部分為-100~200bp長度,平均為50bp。一輪拼接完成后,程序自動選擇新序列的前100bp進行檢索,直至延伸長度達到2000bp為止。從枇杷轉錄本中隨機挑選8個基因進行啟動子挖掘1.5pcr擴增測序根據(jù)步移結果設計引物(表1),使用PCR擴增獲得‘火炬’枇杷的啟動子序列進行驗證。PCR反應體系為20μL(10μLLATaqHSpremix,1μL上游引物,1μL下游引物,DNA樣品1μL,雙蒸水7μL)。PCR程序為:94℃5min;94℃30s,55℃30s,72℃2min30s,35個循環(huán)。通過電泳割膠回收產物。使用PromegapGEM-TEasy對PCR產物和PUC19載體進行連接,轉化到DH5α大腸桿菌,涂板挑選單克隆菌株送生工生物測序。使用Clustalx對預測和測序的序列進行比對2結果與分析2.1堿基數(shù)據(jù)獲得使用IlluminaHiseqXten測序儀進行二代基因組測序,過濾掉測序質量差的Reads后(0.07%),獲得2.06億對雙端150bp的Reads數(shù)據(jù),共計61.77GB的堿基數(shù)據(jù)。測序數(shù)據(jù)已經(jīng)上傳至中國科學院BIGD數(shù)據(jù)庫(BIGDataCenter:CRR056810)(/gsa)。前人估測枇杷基因組大小為700MB,所以測序深度約為85倍(表2)。2.2前端100p序列的檢索使用CL15890.Contig2(細胞壁擴展蛋白EjEXP3)為測試基因,從枇杷轉錄本文庫中找到該基因的序列,使用前端100bp序列建立Magicblast文庫并進行檢索。測試的‘火炬’枇杷二代測序數(shù)據(jù)超過60GB,整個數(shù)據(jù)的完全檢索需要花費超過5h,所以運行0.5h后手動終止,獲得部分檢索結果。序列拼接后往前延伸,根據(jù)新序列建立新文庫,循環(huán)延伸直至啟動子區(qū)域超過2000bp。整個檢索過程總共獲得147個匹配Reads,拼接19次,耗時9.5h。2.3轉錄本的使用為了估測Promoter_Scan所需要花費的時間,隨機挑選枇杷中8個基因進行測試。從轉錄組中獲得轉錄本,逐一使用Promoter_Scan對每個基因的啟動子區(qū)域進行染色體步移。統(tǒng)計延伸長度達到2000bp所需要拼接的次數(shù)和耗時。結果顯示拼接次數(shù)需要9到14次,平均11.8次。耗時從15.2~28.4min,平均21.3min。表3說明通過Promoter_Scan可以顯著提高實驗效率。2.48ejop3基因啟動子序列比對為了進一步驗證本研究中開發(fā)的方法,對拼接后的啟動子序列設計引物,通過克隆測序進行驗證。筆者首先對Magicblast,Promoter_Scan和克隆測序后的EjEXP3基因(CL15890.Contig2)啟動子序列進行比對(圖2)。篇幅限制僅展示部分比對結果,除了Promoter_Scan中含有一定的未知序列N外,其余序列高度一致。通過PCR方式擴增剩余7個基因,Sanger克隆測序結果與預測結果序列完全一致,說明Promoter_Scan得出的結果可靠。3基于二代測序數(shù)據(jù)的啟動子序列獲取枇杷基因組測序相關數(shù)據(jù)尚未公布,想要獲得相關基因的啟動子序列很難,這也是很多研究團隊進行基因組測序的原因。傳統(tǒng)方法多基于PCR法的染色體步移或者通過已公布近源種基因組同源克隆獲得。染色體步移實驗過程繁瑣,風險大基于此,本研究基于二代測序數(shù)據(jù)使用了兩種方法來獲取啟動子序列。通過Magicblast檢索耗時很長,但獲得的匹配Reads很多,通過拼接可以校正一些不正確的堿基。Magicblast已經(jīng)模塊化,所以只能依據(jù)檢索結果進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論