蛋白質(zhì)蛋白質(zhì)相互作用第二章_第1頁
蛋白質(zhì)蛋白質(zhì)相互作用第二章_第2頁
蛋白質(zhì)蛋白質(zhì)相互作用第二章_第3頁
蛋白質(zhì)蛋白質(zhì)相互作用第二章_第4頁
蛋白質(zhì)蛋白質(zhì)相互作用第二章_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

蛋白質(zhì)蛋白質(zhì)相互作用第二章第1頁,共88頁,2023年,2月20日,星期二生物信息學(xué)數(shù)據(jù)庫的種類核酸、蛋白序列數(shù)據(jù)庫基因組數(shù)據(jù)庫生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫以上述數(shù)據(jù)庫及文獻為基礎(chǔ)的二次數(shù)據(jù)庫第2頁,共88頁,2023年,2月20日,星期二生物信息學(xué)數(shù)據(jù)庫資源截至2011年,生物信息學(xué)數(shù)據(jù)庫總數(shù)已經(jīng)達到1380個,其中少數(shù)大型數(shù)據(jù)庫存儲著大多數(shù)生物信息原始數(shù)據(jù),絕大多數(shù)的數(shù)據(jù)庫是針對特定領(lǐng)域的數(shù)據(jù)提供檢索與分析。自2000年以來,NecleticAcidsResearch雜志每年的第一期會收集全世界的生物信息數(shù)據(jù)庫信息,每年的第七期會出版全世界生物信息分析工具信息。第3頁,共88頁,2023年,2月20日,星期二核酸序列數(shù)據(jù)庫內(nèi)容包括世界上所有已公布的核酸序列及其翻譯產(chǎn)物序列報告和相關(guān)注釋GenBank美國基因數(shù)據(jù)銀行

/Embl歐洲分子生物實驗室

http://www.ebi.ac.uk/embl.htmlDDBJ日本國立遺傳研究所核酸數(shù)據(jù)庫

http://www.ddbj.nig.ac.jp第4頁,共88頁,2023年,2月20日,星期二蛋白質(zhì)序列數(shù)據(jù)庫SWISS-PROT(瑞士日內(nèi)瓦大學(xué))蛋白質(zhì)序列數(shù)據(jù)庫http://www.Expasy.chNCBI蛋白質(zhì)數(shù)據(jù)庫/entrezPIR蛋白質(zhì)序列信息資源庫(美、德)

內(nèi)容包括序列及功能信息、蛋白識別、蛋白質(zhì)結(jié)構(gòu)預(yù)測及其他功能第5頁,共88頁,2023年,2月20日,星期二NCBI數(shù)據(jù)庫NCBI(美國國家生物信息中心)成立于1988年,是NIH(國家衛(wèi)生研究院)的附屬機構(gòu)。主要任務(wù):建立公共數(shù)據(jù)庫(GenBank,dbSNP,OMIM等.)開展計算生物學(xué)方面的研究開發(fā)序列分析的軟件工具傳播生物醫(yī)學(xué)信息網(wǎng)址:第6頁,共88頁,2023年,2月20日,星期二在NCBI數(shù)據(jù)庫中查詢序列集成檢索系統(tǒng):

Entrez系統(tǒng)第7頁,共88頁,2023年,2月20日,星期二限定發(fā)表時間限定領(lǐng)域標簽限定數(shù)據(jù)庫限定基因組位置限定修改時間限定序列片段限定分子類型排除選項第8頁,共88頁,2023年,2月20日,星期二GenBankflatfile(GBFF)格式數(shù)據(jù)。GBFF格式數(shù)據(jù)可分為三部分:第一部分為描述信息,第二部分為序列特征信息,第三部分為序列本身。第9頁,共88頁,2023年,2月20日,星期二第10頁,共88頁,2023年,2月20日,星期二第11頁,共88頁,2023年,2月20日,星期二在NCBI中進行序列相似性比對序列相似性與功能相似性具有一定的相關(guān)性,但不絕對。對于某物種中新克隆的序列通過尋找其它物種中與之相似的序列有助于對該序列功能的預(yù)測。因此序列相似性比對常常是一個新克隆出的序列最先進行的生物信息學(xué)分析。第12頁,共88頁,2023年,2月20日,星期二序列相似性比對工具BLASTBLAST:是BasicLocalAlignmentSearchTool基本局部比對搜索工具的英文縮寫。NCBI提供了網(wǎng)絡(luò)版的BLAST搜索在線服務(wù)(/BLAST/),該服務(wù)方便、免費,缺點是不利于大批量數(shù)據(jù)的比對,并且也不能搜索自有的數(shù)據(jù)庫。NCBI提供該程序的單機版本,通過建立本地數(shù)據(jù)庫可以實現(xiàn)批量比對及搜索自有數(shù)據(jù)庫。BLAST包含5個子程序:

blastnblastpblastXtblastntblastX第13頁,共88頁,2023年,2月20日,星期二QuerySequence氨基酸序列DNA序列tBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated第14頁,共88頁,2023年,2月20日,星期二程序名搜索序列數(shù)據(jù)庫內(nèi)容備注blastpProteinProtein比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫使用取代矩陣尋找較遠的關(guān)系,進行SEG過濾blastnNucleotideNucleotide比較核酸序列與核酸數(shù)據(jù)庫尋找較高分值的匹配,對較遠的關(guān)系不太適用blastxNucleotideProtein比較核酸序列理論上的六個讀碼框的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列tblastnProteinNucleotide比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫,動態(tài)轉(zhuǎn)換為六個讀碼框的結(jié)果用于尋找數(shù)據(jù)庫中沒有標注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫序列tblastxNucleotideNucleotide比較核酸序列和核酸序列數(shù)據(jù)庫,經(jīng)過兩次動態(tài)轉(zhuǎn)換為六個讀碼框的結(jié)果轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫序列第15頁,共88頁,2023年,2月20日,星期二Blastx

目標序列為ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC6個讀碼框翻譯5’端到3’端第一位起始:ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3’端到5’端第一位起始:GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第16頁,共88頁,2023年,2月20日,星期二第17頁,共88頁,2023年,2月20日,星期二BLAST原理Query:

GTACTGGACATGGACCCTACAGGAAGTACTGGACATTACTGGACATGACTGGACATGGCTGGACATGGATGGACATGGACGGACATGGACCGACATGGACCCACATGGACCCTCATGGACCCTA

…….Minimumwordsize=7Blastndefault=11Megablastdefault=28第18頁,共88頁,2023年,2月20日,星期二序列匹配的最低標準核酸BLAST需要一個精確的匹配蛋白BLAST需要在40個氨基酸內(nèi)有兩個匹配NeighborhoodwordsExactwordmatchATCGCCATGCTTAATTGGGCTT

CATGCTTAATT一個匹配GTQITVEDLFYNI

SEI

YYN兩個匹配第19頁,共88頁,2023年,2月20日,星期二BLASTn缺點的一個反例第20頁,共88頁,2023年,2月20日,星期二在NCBI中進行序列相似性比對第21頁,共88頁,2023年,2月20日,星期二第22頁,共88頁,2023年,2月20日,星期二第23頁,共88頁,2023年,2月20日,星期二核酸數(shù)據(jù)庫參考RNA數(shù)據(jù)庫,參考染色體數(shù)據(jù)庫染色體數(shù)據(jù)庫est表達序列標簽數(shù)據(jù)庫基因組勘測數(shù)據(jù)庫高通量基因組測序數(shù)據(jù)庫專利序列數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)存儲數(shù)據(jù)庫alu_repeats數(shù)據(jù)庫序列標簽位點數(shù)據(jù)庫

全基因組鳥槍序列拼接數(shù)據(jù)庫

轉(zhuǎn)錄組鳥槍序列拼接數(shù)據(jù)庫16S核糖體RNA序列數(shù)據(jù)庫第24頁,共88頁,2023年,2月20日,星期二第25頁,共88頁,2023年,2月20日,星期二第26頁,共88頁,2023年,2月20日,星期二第27頁,共88頁,2023年,2月20日,星期二第28頁,共88頁,2023年,2月20日,星期二第29頁,共88頁,2023年,2月20日,星期二第30頁,共88頁,2023年,2月20日,星期二BlastP第31頁,共88頁,2023年,2月20日,星期二打分矩陣:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45PAM模型可用于尋找蛋白質(zhì)的進化起源,而BLOSUM模型則用于發(fā)現(xiàn)蛋白質(zhì)的保守域。第32頁,共88頁,2023年,2月20日,星期二進行比對的數(shù)據(jù)庫圖形化結(jié)果第33頁,共88頁,2023年,2月20日,星期二E值(E-value)表示僅僅因為隨機性造成獲得這一比對結(jié)果的可能性。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。第34頁,共88頁,2023年,2月20日,星期二基因開放讀碼框的識別/gorf/gorf.html第35頁,共88頁,2023年,2月20日,星期二第36頁,共88頁,2023年,2月20日,星期二第37頁,共88頁,2023年,2月20日,星期二第38頁,共88頁,2023年,2月20日,星期二/GENSCAN.html第39頁,共88頁,2023年,2月20日,星期二預(yù)測單位編號類型正負鏈起始終止位點長度分值及概率第40頁,共88頁,2023年,2月20日,星期二第41頁,共88頁,2023年,2月20日,星期二CpG島定義:位于多種脊椎動物已知基因轉(zhuǎn)錄起始位點周圍、由胞嘧啶(C)和鳥嘧啶(G)組成的串聯(lián)重復(fù)序列。CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作CpG島,在哺乳動物基因組中的1~2kb的DNA片段,它富含非甲基化的CpG雙倍體。CpG島主要位于基因的啟動子(promotor)和第一外顯子區(qū)域,約有60%以上基因的啟動子含有CpG島。GC含量大于50%,長度超過200bp。

第42頁,共88頁,2023年,2月20日,星期二CpG島區(qū)域預(yù)測http://www.ebi.ac.uk/Tools/emboss/cpgplot/第43頁,共88頁,2023年,2月20日,星期二第44頁,共88頁,2023年,2月20日,星期二轉(zhuǎn)錄終止信號預(yù)測在mRNA終止密碼子的下游位置上一般有加尾信號,其主要標志位AATAAA序列,稱為多聚腺苷酸信號,簡稱PolyA信號,據(jù)此可以預(yù)測基因終止位點。第45頁,共88頁,2023年,2月20日,星期二第46頁,共88頁,2023年,2月20日,星期二啟動子區(qū)域的預(yù)測/molbio/proscan/第47頁,共88頁,2023年,2月20日,星期二第48頁,共88頁,2023年,2月20日,星期二可變剪切和轉(zhuǎn)錄多樣性數(shù)據(jù)庫ASTD該數(shù)據(jù)庫是有EBI開發(fā)的可變剪切和轉(zhuǎn)錄多樣性數(shù)據(jù)庫(alternativesplicingandtranscriptdiversity,ASTD),能提供可變剪切時間(alternativesplicingevent),轉(zhuǎn)錄產(chǎn)物(transcriptproduct),選擇性轉(zhuǎn)錄起始位點(TSS)及polyA位點等詳細信息。第49頁,共88頁,2023年,2月20日,星期二電子克隆該方法基于EST和基因組數(shù)據(jù)庫,運用生物信息學(xué)知識和計算機技術(shù)對EST或基因組數(shù)據(jù)庫進行同源比對,然后拼接出基因的編碼序列。首先,我們要有某個基因的一段EST序列作為種子序列,通過它來電子克隆該基因。我們選用擬南芥中的AMP1基因作為起始序列,克隆油菜(Brassicanapa)的AMP1基因。第50頁,共88頁,2023年,2月20日,星期二第51頁,共88頁,2023年,2月20日,星期二比對獲得13條同源序列第52頁,共88頁,2023年,2月20日,星期二油菜的這些EST序列與擬南芥AMP1基因序列高度同源。第53頁,共88頁,2023年,2月20日,星期二第54頁,共88頁,2023年,2月20日,星期二將序列存儲為FASTA個格式的文件,下載下來。第55頁,共88頁,2023年,2月20日,星期二第56頁,共88頁,2023年,2月20日,星期二EST序列拼接對得到的13個EST按照它們的重疊區(qū)域進行序列拼接,合為一條長的序列。該過程被稱為Contig,可以使用的軟件是CAP3,網(wǎng)址為http://pbil.univ-lyon1.fr/cap3.php第57頁,共88頁,2023年,2月20日,星期二第58頁,共88頁,2023年,2月20日,星期二得到Contig1序列以后,重復(fù)進行Blastn比對油菜的EST序列,再次進行序列延長,直到序列不能再延長為止。第59頁,共88頁,2023年,2月20日,星期二以上做的是親緣關(guān)系較近的電子克隆,應(yīng)用Blastn比對程序較容易獲得比對結(jié)果,但如果對于物種親緣關(guān)系較遠的物種則上述方法就不容易找到匹配序列。我們可以嘗試使用tblastn和tblastx程序進行比對。下面我們應(yīng)用擬南芥的AMP1基因?qū)λ綞ST做電子克隆。第60頁,共88頁,2023年,2月20日,星期二第61頁,共88頁,2023年,2月20日,星期二第62頁,共88頁,2023年,2月20日,星期二第63頁,共88頁,2023年,2月20日,星期二第64頁,共88頁,2023年,2月20日,星期二堿基總數(shù)大于50000的序列的拼接應(yīng)用online的CAP3程序允許的最大堿基總數(shù)為50000,對于堿基總數(shù)大于50000的可選擇其它軟件進行拼接。這里我們用VectorNTI軟件進行拼接。第65頁,共88頁,2023年,2月20日,星期二打開ContigExpressProject程序,導(dǎo)入FASTA格式的文件第66頁,共88頁,2023年,2月20日,星期二第67頁,共88頁,2023年,2月20日,星期二第68頁,共88頁,2023年,2月20日,星期二第69頁,共88頁,2023年,2月20日,星期二第70頁,共88頁,2023年,2月20日,星期二......第71頁,共88頁,2023年,2月20日,星期二關(guān)于電子克隆的一些問題對于親緣關(guān)系較遠的物種宜選擇tblastx序列比對EST,這樣能獲得較多的同源EST。但如果EST數(shù)量太多,則需要設(shè)定一定條件篩選掉一部分匹配較差的EST。EST中經(jīng)?;煊休d體序列,應(yīng)注意在拼接前去除載體部分。第72頁,共88頁,2023年,2月20日,星期二克隆載體的去除載體的去除可以使用NCBI提供的網(wǎng)上工具VecScreen,網(wǎng)址為/VecScreen/VecScreen.html第73頁,共88頁,2023年,2月20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論