實(shí)驗(yàn)三基因組序列分析上課講義_第1頁(yè)
實(shí)驗(yàn)三基因組序列分析上課講義_第2頁(yè)
實(shí)驗(yàn)三基因組序列分析上課講義_第3頁(yè)
實(shí)驗(yàn)三基因組序列分析上課講義_第4頁(yè)
實(shí)驗(yàn)三基因組序列分析上課講義_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)驗(yàn)三基因組序列分析2實(shí)驗(yàn)項(xiàng)目三:基因序列分析實(shí)驗(yàn)項(xiàng)目三:基因序列分析一、 實(shí)驗(yàn)?zāi)康暮鸵螅?掌握基因可讀框的識(shí)別; 掌握啟動(dòng)子區(qū)域的預(yù)測(cè) 掌握CpG島的預(yù)測(cè) 掌握轉(zhuǎn)錄終止信號(hào)的預(yù)測(cè) 采用mRNA序列預(yù)測(cè)基因:Spidey的使用 掌握各預(yù)測(cè)服務(wù)器結(jié)果的分析6 例:What is Gene Prediction? Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein? AGCATCGAAGTTGCATGAC

2、GATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAG

3、CATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATG

4、ACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene 1gene 2gene 3exonintergenic regionintron78一一 開(kāi)放讀碼框的識(shí)別開(kāi)放讀碼框的識(shí)別 開(kāi)放讀碼框(open reading frame, ORF) 是一段起始密碼子和終止密碼子之間的堿基序列 ORF 是潛在的蛋白質(zhì)編碼區(qū)基因預(yù)測(cè)基因預(yù)測(cè)9基因開(kāi)放閱讀框基因開(kāi)放閱讀框/ /基因結(jié)構(gòu)分析識(shí)別工具基

5、因結(jié)構(gòu)分析識(shí)別工具Getorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用Plotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用ORF Finder /gorf/gorf.html NCBI通用BestORFhttp:/ Finder/tools/genefinder/Zhang lab人、小鼠、擬南芥、酵母FGENESHhttp:/ Ma

6、ryland原核FgeneSBhttp:/ /generation/ORNL原核FGENESH+http:/ Softberry原核GenomeScan /genomescan.html MIT脊椎、擬南芥、玉米GeneWise http:/www.ebi.ac.uk/Wise2/EBI人、蠕蟲(chóng)GRAIL/grailexp/ORNL人、小鼠、擬南芥、果蠅101. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析111. ORF Finder的使用及結(jié)果分析的使用

7、及結(jié)果分析121. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析131. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析141. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析151. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析Blast比對(duì)結(jié)果搜索到多個(gè)顯著相似的序列,故所預(yù)測(cè)的比對(duì)結(jié)果搜索到多個(gè)顯著相似的序列,故所預(yù)測(cè)的ORF的可信度較的可信度較高。如果要獲取該高。如果要獲取該ORF所編碼的蛋白質(zhì)序列,可以點(diǎn)擊所編碼的蛋白質(zhì)序列,可以點(diǎn)擊“Accept”按鈕后,按鈕后,在在“1GenBank”的下拉框中選擇的下拉框中選擇“3Fasta”,并點(diǎn)擊,并點(diǎn)擊“vie

8、w”,即可獲,即可獲取該取該ORF所編碼的蛋白質(zhì)序列。所編碼的蛋白質(zhì)序列。161. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析171. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析181. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析191. ORF Finder的使用及結(jié)果分析的使用及結(jié)果分析20提交序列提交序列提交序列文件提交序列文件運(yùn)行運(yùn)行GENSCAN選擇物種選擇物種顯示氨基酸或顯示氨基酸或CDS序列序列序列名稱(chēng)(可選)序列名稱(chēng)(可選)是否顯示非最優(yōu)外顯子是否顯示非最優(yōu)外顯子2. Genscan的使用及結(jié)果分析的使用及結(jié)果分析21基因、基因、外顯子外顯子及類(lèi)型

9、及類(lèi)型正鏈、正鏈、負(fù)鏈負(fù)鏈預(yù)測(cè)單元預(yù)測(cè)單元起始、終起始、終止及長(zhǎng)度止及長(zhǎng)度相位相位編碼編碼區(qū)打區(qū)打分值分值可信概率、可信概率、得分值得分值2. Genscan的結(jié)果分析的結(jié)果分析22http:/ FGENESH的使用及結(jié)果分析的使用及結(jié)果分析輸入序列的輸入序列的Fasta文件文件233. FGENESH的使用及結(jié)果分析的使用及結(jié)果分析起始外顯子起始外顯子中間及末端外顯子PolyA位點(diǎn)位點(diǎn)起始?jí)A基起始?jí)A基終止堿基終止堿基打分打分長(zhǎng)度長(zhǎng)度243. FGENESH的使用及結(jié)果分析的使用及結(jié)果分析253. FGENESH的使用及結(jié)果分析的使用及結(jié)果分析26二二. . 原核和真核生物基因轉(zhuǎn)錄起始位點(diǎn)上原

10、核和真核生物基因轉(zhuǎn)錄起始位點(diǎn)上游區(qū)結(jié)構(gòu)游區(qū)結(jié)構(gòu) 原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC區(qū)區(qū) CAAT區(qū)區(qū)mRNA14025110增強(qiáng)子增強(qiáng)子上游啟動(dòng)子元件,上游啟動(dòng)子元件,UPE核心啟動(dòng)子元件核心啟動(dòng)子元件轉(zhuǎn)錄起始轉(zhuǎn)錄起始位點(diǎn)位點(diǎn)27原核生物原核生物真核生物真核生物28二二. 啟動(dòng)子預(yù)測(cè)啟動(dòng)子預(yù)測(cè)輸入序列的輸入序列的Fasta文件文件29啟動(dòng)子預(yù)測(cè)結(jié)果啟動(dòng)子預(yù)測(cè)結(jié)果從預(yù)測(cè)結(jié)果可知,預(yù)測(cè)的啟動(dòng)子區(qū)在32564至32783之間,啟動(dòng)子閾值系統(tǒng)默認(rèn)為53.00,預(yù)測(cè)的啟動(dòng)子分值為84.69,高于閾值,分值越高,說(shuō)明預(yù)測(cè)的準(zhǔn)確性大。與該啟

11、動(dòng)子可能結(jié)合的轉(zhuǎn)錄因子如下所示30三 CpG島預(yù)測(cè) CpG島 CpG 島又稱(chēng)為HTF 島,是DNA上的一個(gè)區(qū)域,此區(qū)域富含GC,二者以磷酸酯鍵相連。 位于真核生物基因轉(zhuǎn)錄起始位點(diǎn)上游,GC含50% ,長(zhǎng)度200bp CpG島常出現(xiàn)在管家基因或頻繁表達(dá)的基因的啟動(dòng)子附近,在這些部位,CpG島具有阻止序列甲基化的作用,因此,搜索CpG島可以為基因及其啟動(dòng)子的預(yù)測(cè)提供線索。CpG Island 分析分析CpG Island http:/ finderhttp:/ 轉(zhuǎn)錄終止信號(hào)轉(zhuǎn)錄終止信號(hào) 加polyA信號(hào):AAUAAA 轉(zhuǎn)錄終止信號(hào):轉(zhuǎn)錄終止信號(hào):GC rich二重對(duì)稱(chēng)區(qū)、二重對(duì)稱(chēng)區(qū)、UUUUUUC

12、-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA53AAUAAACAAAAAAAAAAAAA成熟成熟mRNA53AAUAAACAGUmRNA前體前體533435轉(zhuǎn)錄終止信號(hào)預(yù)測(cè)轉(zhuǎn)錄終止信號(hào)預(yù)測(cè)Hcpolyahttp:/r.it/webgene/wwwHC_polya.htmlWeb POLYAHhttp:/ /tools/polyadq/polyadq_form.htmlWeb36POLYAH的使用及結(jié)果分析的使用及結(jié)果分析輸入序列的輸入序列的Fasta文件文件37POLYAH的使用及結(jié)果分析的使用及結(jié)果分析預(yù)測(cè)的預(yù)測(cè)的POL

13、YA位點(diǎn),位點(diǎn),LDF為權(quán)重為權(quán)重38內(nèi)含子內(nèi)含子/外顯子剪切位點(diǎn)識(shí)別外顯子剪切位點(diǎn)識(shí)別 對(duì)基因組序列的讀碼框區(qū)域進(jìn)行預(yù)測(cè) 內(nèi)含子5端供體位點(diǎn)(donor splice site): GT 內(nèi)含子3端受體位點(diǎn)(acceptor splice site): AG 預(yù)測(cè)工具: GENSCAN,GENEMARK NetGene2, Splice View3940mRNA剪切位點(diǎn)識(shí)別:spideyNCBI開(kāi)發(fā)的在線預(yù)測(cè)程序開(kāi)發(fā)的在線預(yù)測(cè)程序用于用于mRNA序列同基因組序列比對(duì)分析序列同基因組序列比對(duì)分析 /IEB/Research/Ostell/Sp

14、idey/index.html4142 序列在線提交形式: 界面中有兩個(gè)窗口: 上方窗口用于輸入基因組序列(直接粘貼序列或用Genbank ID/AC號(hào)) 下方窗口用于輸入cDNA/mRNA序列(直接粘貼序列或用Genbank ID/AC號(hào)) 可同時(shí)輸入多條cDNA/mRNA序列與同一條基因組序列進(jìn)行分析Spidey序列提交頁(yè)面序列提交頁(yè)面輸入基因組序列輸入基因組序列或序列數(shù)據(jù)庫(kù)號(hào)或序列數(shù)據(jù)庫(kù)號(hào)AC002390.143輸入相似輸入相似mRNA序列序列判斷用于分析的序列間的差異,判斷用于分析的序列間的差異,并調(diào)整比對(duì)參數(shù)并調(diào)整比對(duì)參數(shù)不受默認(rèn)內(nèi)含子長(zhǎng)度限制,不受默認(rèn)內(nèi)含子長(zhǎng)度限制,默認(rèn)長(zhǎng)度:內(nèi)部

15、內(nèi)含子默認(rèn)長(zhǎng)度:內(nèi)部?jī)?nèi)含子為為35kb, 末端內(nèi)含子為末端內(nèi)含子為100kb輸出格式輸出格式比對(duì)閾值比對(duì)閾值選擇物種選擇物種44第一條藍(lán)色序列為第一條藍(lán)色序列為基因組序列,橘黃基因組序列,橘黃色為外顯子色為外顯子45外顯子對(duì)應(yīng)于外顯子對(duì)應(yīng)于基因組上的基因組上的起始起始/結(jié)束位置結(jié)束位置外顯子對(duì)應(yīng)于外顯子對(duì)應(yīng)于mRNA/cDNA上的上的起始起始/結(jié)束位置結(jié)束位置供體、受體位點(diǎn)供體、受體位點(diǎn)外顯子外顯子序號(hào)序號(hào)外顯子外顯子長(zhǎng)度長(zhǎng)度一致性一致性百分比百分比錯(cuò)配和錯(cuò)配和gap46序列聯(lián)配結(jié)果序列聯(lián)配結(jié)果47使用NCBI ORF Finder 識(shí)別檢索號(hào)為L(zhǎng)03845的可讀框。寫(xiě)下擬南芥phyA序列最長(zhǎng)的ORF的起止區(qū)間,并粘貼此ORF編碼的蛋白質(zhì)序列的Fasta文件使用Genscan對(duì)檢索號(hào)為D17291的序列進(jìn)行基因預(yù)測(cè),標(biāo)出外顯子區(qū)和PolyA位點(diǎn),用FGENESH對(duì)該序列進(jìn)行預(yù)測(cè),寫(xiě)出預(yù)測(cè)為外顯子的序列區(qū)間。并比較兩個(gè)服務(wù)器預(yù)測(cè)的結(jié)果是否一致,寫(xiě)出二者都預(yù)測(cè)為外顯子的區(qū)段。作作 業(yè)業(yè)48使用CpGPlot,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論