核酸序列分析_第1頁
核酸序列分析_第2頁
核酸序列分析_第3頁
核酸序列分析_第4頁
核酸序列分析_第5頁
已閱讀5頁,還剩134頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

核酸序列分析第1頁/共139頁

核酸序列分析是生物信息學應(yīng)用中的一個重要方面,一般包括:DNA堿基組成、密碼子的偏向、內(nèi)部重復序列、特殊位點(限制性位點及轉(zhuǎn)錄、翻譯和表達調(diào)控相關(guān)信號)、編碼區(qū)分析、一二級結(jié)構(gòu)等。第2頁/共139頁第一節(jié)核酸序列的檢索第二節(jié)核酸序列的基本分析第三節(jié)核酸序列的電子延伸第四節(jié)基因的電子表達、定位分析第五節(jié)基因識別第六節(jié)核酸序列的提交第3頁/共139頁一、Entrez檢索系統(tǒng)

(/sites/gquery?itool=toolbar)二、SRS檢索系統(tǒng)

(http://srs.ebi.ac.uk)第一節(jié)核酸序列的檢索三、DBGET/LinkDB檢索第4頁/共139頁

通過軟件,如BioEdit(/BioEdit/)、DNAMAN(/)等獲得。第二節(jié)核酸序列的基本分析一、分子質(zhì)量、堿基組成、堿基分布第5頁/共139頁第6頁/共139頁第7頁/共139頁第8頁/共139頁二、序列變換第9頁/共139頁第10頁/共139頁第11頁/共139頁第12頁/共139頁三、限制性內(nèi)切酶分析

REBASE(RestrictionEnzymeDatabase)限制酶數(shù)據(jù)庫

()第13頁/共139頁第14頁/共139頁第15頁/共139頁第16頁/共139頁1.測序峰圖的查看澳大利亞ConorMcCarthy開發(fā)的Chromas.exe程序,且BioEdit軟件和DNAMAN軟件都可以查看。四、克隆測序的分析第17頁/共139頁第18頁/共139頁第19頁/共139頁第20頁/共139頁第21頁/共139頁第22頁/共139頁第23頁/共139頁第24頁/共139頁2.核酸測序載體序列的識別與去除第25頁/共139頁第26頁/共139頁第27頁/共139頁

測序克隆被宿主菌核酸序列污染,或目的克隆來自于宿主菌,可通過Blastn直接對GenBank或EMBL數(shù)據(jù)庫進行相似性分析進行判斷。第28頁/共139頁RepBase重復序列數(shù)據(jù)庫/server/RepBase/五、重復序列分析第29頁/共139頁第30頁/共139頁第31頁/共139頁第32頁/共139頁第33頁/共139頁第34頁/共139頁第35頁/共139頁第36頁/共139頁cDNA文庫EST較長cDNA全長cDNA第三節(jié)核酸序列的電子延伸第37頁/共139頁1.5Kb500bp500bp500bp500bp第38頁/共139頁基本過程:1.通過Blast搜索GenBank的EST數(shù)據(jù)庫,選擇與待分析的序列具有較高同源性的EST匹配序列;2.將匹配序列和待分析的序列裝配產(chǎn)生新序列;3.以新序列作為待分析的序列重復上述過程,直至沒有新的匹配序列,從而生成最后的新序列。第39頁/共139頁/Blast.cgi第40頁/共139頁第41頁/共139頁第42頁/共139頁第43頁/共139頁第四節(jié)基因的表達、定位分析原理:將待分析序列與EST數(shù)據(jù)庫進行序列對庫檢索,然后用與待分析核酸序列具有高同源性的EST序列所對應(yīng)的組織來源進行推斷而得到該基因的組織表達譜。一、基因的電子表達圖譜分析第44頁/共139頁基本步驟:1.通過Blast搜索GenBank的EST數(shù)據(jù)庫,選擇與待分析的序列具有最高同源性比分的EST序列;2.從NCBI的UniGene數(shù)據(jù)庫進行檢索,得到相應(yīng)的UniGene號;3.可通過參與形成UniGeneCluster的序列的組織/細胞來源間接反映待分析序列在哪種組織中表達。第45頁/共139頁第46頁/共139頁/unigene第47頁/共139頁第48頁/共139頁第49頁/共139頁第50頁/共139頁第51頁/共139頁第52頁/共139頁二、基因的電子定位分析通過序列標簽位點(STS)定位通過UniGene/RH技術(shù)定位利用基因組序列定位第53頁/共139頁利用NCBI的電子PCR資源(/sutils/e-pcr/forward.cgi)1.利用STS數(shù)據(jù)庫進行定位第54頁/共139頁第55頁/共139頁第56頁/共139頁第57頁/共139頁進入NCBI的電子PCR資源(/sutils/e-pcr/forward.cgi)輸入待分析的序列根據(jù)提供的STS信息進行定位步驟:第58頁/共139頁第59頁/共139頁第60頁/共139頁第61頁/共139頁第62頁/共139頁第63頁/共139頁第64頁/共139頁第65頁/共139頁第66頁/共139頁

獲得待分析序列對應(yīng)的UniGene編號,而大部分UniGene序列已經(jīng)具有明確的定位信息,可以得到待分析序列的基因定位。2.利用UniGene數(shù)據(jù)庫進行定位第67頁/共139頁/unigene第68頁/共139頁第69頁/共139頁第70頁/共139頁第71頁/共139頁第72頁/共139頁第73頁/共139頁第74頁/共139頁第75頁/共139頁

將待分析序列輸入基因組數(shù)據(jù)庫進行同源性檢索;得到確定的基因組序列后點擊“Genomeview”觀察基因組結(jié)構(gòu);點擊紅色標記所指示的染色體列表中選擇對應(yīng)的染色體及區(qū)域;瀏覽器中將顯示詳細的基因定位結(jié)果。3.利用基因組序列進行定位第76頁/共139頁BLAST搜索數(shù)據(jù)庫進行基因定位第77頁/共139頁第78頁/共139頁第79頁/共139頁第80頁/共139頁第81頁/共139頁第82頁/共139頁通過基因組數(shù)據(jù)庫定位---NCBI基因組數(shù)據(jù)庫第83頁/共139頁第84頁/共139頁第85頁/共139頁第86頁/共139頁第87頁/共139頁第88頁/共139頁基因定位第89頁/共139頁第90頁/共139頁第91頁/共139頁擬南芥基因組數(shù)據(jù)庫---基因定位第92頁/共139頁第93頁/共139頁第94頁/共139頁第95頁/共139頁酵母基因組數(shù)據(jù)庫---基因定位第96頁/共139頁第97頁/共139頁第98頁/共139頁第99頁/共139頁第100頁/共139頁步驟:獲取目的序列;預(yù)測可能的編碼區(qū)和非編碼區(qū);通過相關(guān)的數(shù)據(jù)以提高基因識別的準確性(數(shù)據(jù)庫搜索);利用生物信息學資源分析序列的功能。第五節(jié)基因識別策略:先尋找并去掉重復的和復雜性較性較低的序列,再尋找基因及相關(guān)調(diào)控區(qū)域。第101頁/共139頁exonintroexonexon5’3’增強子非翻譯區(qū)非翻譯區(qū)GC(-100)CAAT(-70)ATGTATA(-30)TAA/TAG/TGA帽位點(+1)終止位點polyA真核基因結(jié)構(gòu)模式圖第102頁/共139頁基因組外顯子識別從基因組DNA序別中識別出完整的蛋白質(zhì)編碼序列,即外顯子部分。外顯子與內(nèi)含子之間無絕對區(qū)分;同一基因不同發(fā)育時空,外顯子組成不相同;假基因的存在降低預(yù)測的準確率。EST策略的基因鑒定電子克隆最主要的途徑是從EST直接尋找新基因。確定目的EST,構(gòu)建包含EST的重疊群,再進行ORF的判定及蛋白結(jié)構(gòu)域等功能域的識別。一、生物信息學識別基因的兩種途徑第103頁/共139頁編碼區(qū)是由核糖體翻譯成蛋白質(zhì)的DNA序列原核基因:編碼區(qū)是一段不包含終止子的連續(xù)序列。真核基因:編碼區(qū)是由內(nèi)含子隔開的若干個可讀框架。二、編碼區(qū)的分析第104頁/共139頁終止密碼子(TGA、TAA或TAG)數(shù)量較少;ORF達到一定的長度;密碼子使用的偏好性,第3個堿基G/C出現(xiàn)的頻率較高;與已知基因比較有序列相似性;與模板序列的模式相匹配可能指示功能性位點的位置。編碼區(qū)的統(tǒng)計特征:第105頁/共139頁

轉(zhuǎn)錄起始點、核糖體結(jié)合位點、起始密碼子、RNA剪接位點、終止密碼子、poly(A)位點等。編碼區(qū)的一些信號:第106頁/共139頁

分析與基因表達調(diào)控相關(guān)的信息、各種功能位點及基因轉(zhuǎn)錄調(diào)控元件。DNA序列上特殊的片段,是蛋白質(zhì)因子作用的位點,是與基因轉(zhuǎn)錄、翻譯有關(guān)的信號序列。通過模式識別及生物信息軟件分析。

三、非編碼區(qū)的分析第107頁/共139頁啟動子啟動子轉(zhuǎn)錄區(qū)終止子外顯子內(nèi)含子基因的一般結(jié)構(gòu)TATAbox起始序列(TATAT/AAT/A)(C/TC/TCAA/GA/G)轉(zhuǎn)錄因子結(jié)合區(qū)CCAATGC第108頁/共139頁真核生物啟動子-30bp,TATAbox-80bp,CAATbox-80bp110bp,GCCACACCC或GGGCCGGGTATA盒使轉(zhuǎn)錄精確地起始CAAT盒和GC盒控制轉(zhuǎn)錄的起始頻率第109頁/共139頁http://www.epd.isb-sib.ch

第110頁/共139頁/molbio/proscan/

第111頁/共139頁第112頁/共139頁/molbio/signal/

信號肽第113頁/共139頁第114頁/共139頁AuthorsSequinBankItSequencedataGenBankAccessionnumber7daysDraftrecord第六節(jié)核酸序列的提交第115頁/共139頁BankItBankIt是NCBI提供的一個在線提交序列的工具。由一系列表單,包括聯(lián)絡(luò)信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數(shù)據(jù)條目,Genbank的新序列編號,以及完成注釋后的完整的數(shù)據(jù)記錄。第116頁/共139頁用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不用BankIt提交。第117頁/共139頁sequin

1.大量的序列提交可以由Sequin程序完成。

2.能方便的編輯和處理復雜注釋。

3.提交來自系統(tǒng)進化、種群和突變研究的序列,可以加入比對的數(shù)據(jù)。

4.用于序列的分析,F(xiàn)ASTA或ASN.1格式。第118頁/共139頁/guide/第119頁/共139頁第120頁/共139頁第121頁/共139頁第122頁/共139頁第123頁/共139頁第124頁/共139頁第125頁/共139頁第126頁/共139頁第127頁/共139頁第128頁/共139頁第129頁/共139頁第130頁/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論