版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息期末總結(jié)1. 生物信息學(xué)(Bioinformatics)定義:(第一章)生物信息學(xué)是一門交叉科學(xué),它包含了生物信息的獲取、加工、 存儲(chǔ)、 分配、分析、 解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具來(lái)闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。(或:)生物信息學(xué)是運(yùn)用計(jì)算機(jī)技術(shù)和信息技術(shù)開發(fā)新的算法和統(tǒng)計(jì)方法,對(duì)生物實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,確定數(shù)據(jù)所含的生物學(xué)意義,并開發(fā)新的數(shù)據(jù)分析工具以實(shí)現(xiàn)對(duì)各種信息的獲取和管理的學(xué)科。( NSFC)2. 科研機(jī)構(gòu)及網(wǎng)絡(luò)資源中心:NCBI:美國(guó)國(guó)立衛(wèi)生研究院NIH下屬國(guó)立生物技術(shù)信息中心;EMBnet:歐洲分子生物學(xué)網(wǎng)絡(luò);EMBL-EBI :
2、歐洲分子生物學(xué)實(shí)驗(yàn)室下屬歐洲生物信息學(xué)研究所;ExPASy:瑞士生物信息研究所SIB下屬的蛋白質(zhì)分析專家系統(tǒng);(ExpertProtein Analysis System)Bioinformatics Links Directory ;PDB (Protein Data Bank);UniProt 數(shù)據(jù)庫(kù)3. 生物信息學(xué)的主要應(yīng)用:1 生物信息學(xué)數(shù)據(jù)庫(kù);2 序列分析;3 比較基因組學(xué);4 表達(dá)分析;5 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);6系統(tǒng)生物學(xué);7計(jì)算進(jìn)化生物學(xué)與生物多樣性。4. 什么是數(shù)據(jù)庫(kù):1、 定義: 數(shù)據(jù)庫(kù)是存儲(chǔ)與管理數(shù)據(jù)的計(jì)算機(jī)文檔、結(jié)構(gòu)化記錄形式的數(shù)據(jù)集合。(記錄 record、字段 field
3、、值 value)2、生物信息數(shù)據(jù)庫(kù)應(yīng)滿足5 個(gè)方面的主要需求:( 1)時(shí)間性;( 2)注釋;( 3)支撐數(shù)據(jù); ( 4)數(shù)據(jù)質(zhì)量; ( 5)集成性。3、生物學(xué)數(shù)據(jù)庫(kù)的類型:一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。(國(guó)際著名的一級(jí)核酸數(shù)據(jù)庫(kù)有 Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等; 蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT等;蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。)4、一級(jí)數(shù)據(jù)庫(kù)與二級(jí)數(shù)據(jù)庫(kù)的區(qū)別:1) 一級(jí)數(shù)據(jù)庫(kù):包括:a基因組數(shù)據(jù)庫(kù)-來(lái)自基因組作圖; b.核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù); c.生物大分子(主要是蛋白質(zhì))的三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù),(來(lái)自X-衍射 和核磁共振結(jié)構(gòu)測(cè)定);2)二級(jí)數(shù)據(jù)庫(kù):是對(duì)原始生物分
4、子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn) 數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。一般說(shuō)來(lái),一次數(shù)據(jù)庫(kù)的數(shù)據(jù)量大,更新速度快,用戶面廣,通常需要高性 能的計(jì)算機(jī)服務(wù)器、大容量的磁盤空間和專門的數(shù)據(jù)庫(kù)管理系統(tǒng)支撐。二次數(shù)據(jù)庫(kù)的容量則小得多,更新速度也不像一次數(shù)據(jù)庫(kù)那樣快,也可以不 用大型商業(yè)數(shù)據(jù)庫(kù)軟件支持,這類針對(duì)不同問(wèn)題開發(fā)的二次數(shù)據(jù)庫(kù)的最大特點(diǎn)是 使用方便,特別適用于計(jì)算機(jī)使用經(jīng)驗(yàn)不太豐富的生物學(xué)家。5、一個(gè)數(shù)據(jù)庫(kù)記錄(entry)一般由兩部分組成:1)原始序列數(shù)據(jù)(sequence data)2)描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation):注釋中包含的信息與相應(yīng)
5、的 序列數(shù)據(jù)同樣重要和有應(yīng)用價(jià)值。6、數(shù)據(jù)的完整性和注釋工作量:1)序列數(shù)據(jù)廣,序列注釋不夠完整;2)庫(kù)數(shù)據(jù)面窄,序列注釋全面.7、數(shù)據(jù)庫(kù)的動(dòng)態(tài)更新:1)不斷增加;2)不斷修正.5、幾個(gè)大型數(shù)據(jù)庫(kù)簡(jiǎn)介:NCBI、EBI、SIB (共點(diǎn):擁有龐大的一級(jí)數(shù)據(jù)庫(kù)、大量工具軟件和廣泛的外聯(lián)。) 1、NCBI ():NCBI是指美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information , NCBI),成立于1988年,其主要工作是開發(fā)以 GenBank為代表的 數(shù)據(jù)庫(kù),進(jìn)行計(jì)算生物學(xué)研究,開發(fā)用于分析基因
6、組數(shù)據(jù)的軟件工具, 發(fā)布生物 醫(yī)學(xué)信息。1) Entrez (集成化的數(shù)據(jù)庫(kù))(/gquery/)Entrez是NCBI著名的用于提取序列信息的工具,它將科學(xué)文獻(xiàn)、DNA和蛋白質(zhì)序列數(shù)據(jù)庫(kù)、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群研究數(shù)據(jù)以及全基因組組裝數(shù)據(jù) 整合成一個(gè)高度集成的系統(tǒng)。類似于 EBI的SRS (見下文),是一個(gè)查詢、提取 和顯示系統(tǒng)。The original version (原始版本)(1991) of Entrez had just 3 nods2)可查 Protein、PubMed (生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù))、Nucleotide、Geno
7、me Gene. Pathway等相關(guān)信息。Entrez重攵協(xié):“iRunMclB o oR s z lcl got: DePrGomomeStr Me; tu ir« ? DoiTTisins 3D Oonifkin.OM1MSISJF3UniSTSProbeS AtPopSet l_J ni G fe?r"I 4切F、二七無(wú)力寓門多史料干k曰sank口DB. Reffi«?qr PC曰iQ, tiK. EMQLL 口口曰J. R.«f.SWISS-AROT. F'lF?,尸匠F. FiOB個(gè)I" 丫 I,IE在 NCBI l 丁 列
8、威揪尸中的生岫侔 MMDS: 生妁得到的三紳igA+Aj CDD:快小蛋門網(wǎng)U收1-1 MMOB I IKj JftMl. * d在Mnn "口勺代之庭瀛曲E甲忸HnV廿畬F:J步歲U +小雁在工點(diǎn)U d M見仙邛與歲可敬耳愜人I 1和1,工燉扶:S J K1i 列股2、EMBL-EBI (www.ebi.ac.ukEMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)為世界 上第一個(gè)核酸序列數(shù)據(jù)庫(kù)(1980)。歐洲分子生物學(xué)實(shí)驗(yàn)室下屬歐洲生物信息學(xué)研究所(European BioinformaticsInstitu
9、te, EBI , 1992,英國(guó))EMBL-EBI核酸數(shù)據(jù)庫(kù)提供了序列搜索的服務(wù)。通 過(guò)它的序列提取系統(tǒng)一SRS6(搜索引擎),我們可以用十幾種不同的方法(如用 關(guān)鍵字)搜索我們想要的序列。EBI還資助了 Ensembl項(xiàng)目,Ensembl是一個(gè)用于對(duì)各類物種基因組進(jìn)行生物信息學(xué)分析的非常完備的網(wǎng)站。歐洲分子生物學(xué)實(shí)驗(yàn)室 EMBL (The European Molecular Biology Laboratory)。Services UniProt、 ArrayExpress、Ensembl、InterPro、PDBe 等界面。3、SIB (瑞士生物信息研究所(S
10、wiss Institue of Bioinformatics,SIB ,30 March 1998 )。 用于獲取蛋白質(zhì)序列和相關(guān)數(shù)據(jù)的最有用的資源之一就SIB提供的蛋白質(zhì)專家分析系統(tǒng):SWISS-PROT, ExPASy (Expert Protein Analysis System瑞士 日內(nèi)瓦 大學(xué)專家蛋白質(zhì)分析系統(tǒng)(http:/www.expasy.ch/)。6、核酸序列數(shù)據(jù)庫(kù):1、國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的 EMBL ;(2)美國(guó)生物技術(shù)信息中心的 GenBank;(3)日本遺傳研究所的 DDBJ, ( http:www.ddbj.nig.ac.jp/);
11、這三個(gè)數(shù)據(jù)庫(kù)是綜合性的 DNA和RNA序列數(shù)據(jù)庫(kù),每條記錄代表一個(gè)單 獨(dú)、連續(xù)、附有注釋的 DNA或RNA片段。三個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)基本一致,僅 在數(shù)據(jù)格式上有所差別,對(duì)于特定的查詢,三個(gè)數(shù)據(jù)庫(kù)的響應(yīng)結(jié)果一樣。2、INSDC國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì):1998年,GenBank、EMBL和DDBJ共同成立了國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì)(International Nucleotide Sequence Database CollaborationNSDC ),三大核酸數(shù) 據(jù)庫(kù)之間每天將新測(cè)定或更新的數(shù)據(jù)進(jìn)行交換共享, 保證數(shù)據(jù)信息的完整與同步, 每?jī)蓚€(gè)月更新一次版本。 (http:/www.insdc.o
12、rg/)7、蛋白質(zhì)序列數(shù)據(jù)庫(kù):1) PIR (Protein Information Resource); (http:/2) SWISS-PROT; (http:/www.expasy.ch/sprot/sprot-top.htm)3) TrEMBL ; (http:/www.ebi.ac.uk/trembl/index.html)是與 SWISS-PROT 相 關(guān)的一個(gè)數(shù)據(jù)庫(kù)。包含從 EMBL核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列(CDS)翻譯 而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫(kù)中;4) NCBI 美國(guó)國(guó)家生物技術(shù)信息中心( Nati
13、onal Center for Biotechnology Information, NCBI);5) UniProt;通用蛋白質(zhì)數(shù)據(jù)庫(kù)(/)包括:(Swiss-Prot、 TrEMBL、PIR)用戶可以通過(guò)文本查詢數(shù)據(jù)庫(kù),可以利用 BLAST程序 搜索數(shù)據(jù)庫(kù),也可以直接通過(guò) FTP下載數(shù)據(jù)。8、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù):1) PDB ( Protein Data Bank) ; (/)2) MMDB(Molecular Modeling Database) ; (/Structu
14、re/)9、其它生物分子數(shù)據(jù)庫(kù):1)單堿基多態(tài)性數(shù)據(jù)庫(kù) dbSNP; 2)基因組數(shù)據(jù)庫(kù)(GDB); 3)人類基因組數(shù)據(jù)庫(kù)Ensembl;4)表達(dá)序列標(biāo)記數(shù)據(jù)庫(kù)dbEST; 5)序列標(biāo)記位點(diǎn)數(shù)據(jù)庫(kù) dbSTS; 6) 面向基因聚類數(shù)據(jù)庫(kù)UniGene; 7) 蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)SCOP;8)蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)DSSP; 9)蛋白質(zhì)同源序列比對(duì)數(shù)據(jù)庫(kù)HSSP; 10)OMIM(Online Mendelian Inheritance in Man) ,是關(guān)于人類基因和遺傳疾病的分類 數(shù)據(jù)庫(kù)。 。 。 Nucleic Acid Research 附: 1、 NCBI 和 EBI 使用的搜索引擎分
15、別是什么?答: NCBI 使用的是Entrez, EBI 使用的是SRS。2、FASTA格式有哪些部分組成,以什么字符開始?答: 包含 gi number, Database identifiers Accession number; Locus name等部分,以字符開始。3、 NCBI 的 WEB 和離線序列提交軟件是什么?答:WEB提交工具:Bankit;離線提交:Sequin4、系統(tǒng)生物學(xué):答: 確定、 分析和整合生物系統(tǒng)在遺傳或環(huán)境擾動(dòng)下所有內(nèi)部元件間相互作用關(guān)系的一門學(xué)科。10、序列數(shù)據(jù)的文件格式:(第二章)格式主要有三種:DNA/RNA/ 氨基酸代碼的標(biāo)識(shí)(B、 Z) ;GenB
16、ank數(shù)據(jù)格式;FASTA 數(shù)據(jù)格式。一、GBFF (GenBank flatfile) GenBank平面文件格式:GenBank、 EMBL 、 DDBJ 每天都相互同步更新各自的數(shù)據(jù)庫(kù),那么它們是怎樣交換數(shù)據(jù)的呢?這里引入 GBFF (GenBank flatfile即GenBank平面文件)格 式。GBFF是GenBank數(shù)據(jù)庫(kù)的基本信息單位,是最為廣泛使用的生物信息學(xué)序 列格式之一。GBFF文件分為三部分:a.頭部包含整個(gè)記錄的信息(描述符); b.第二部分包含了注釋這一記錄的特性;c.第三部分是核甘酸序列本身。(注:所有序列數(shù)據(jù)庫(kù)記錄都在最后一行以“/ ”結(jié)尾。)檢索號(hào)Genban
17、k定義(標(biāo)題)1) GBFF: LOCUS 行PLN, 21-JUN-1999)(LOCUS , SCU49845, 5028 bp, DNA linear,所有GBFF者B起始于LOCUS行: 第一項(xiàng):是LOCUS名稱(SCU49845):現(xiàn)在唯一的作用是它在數(shù)據(jù)庫(kù)中是獨(dú)一無(wú)二的,已不再具 有任何實(shí) 際意義。大多數(shù)情況 下,它 僅使用檢索 號(hào)碼 (accesession number以滿足對(duì)LOCUS名稱的要求;第二項(xiàng)是序列長(zhǎng)度( 5028 bp):規(guī)定單條數(shù)據(jù)庫(kù)記錄的長(zhǎng)度不能超過(guò) 350kb。除歷史原因外,GenBank已經(jīng)很少接受長(zhǎng)度低于50bp的序列了;第三項(xiàng)表明分子類型(DNA):其
18、序列必須是一種單一的分子類型;第四項(xiàng)是GenBank分類碼(PLN):由3個(gè)字母組成。現(xiàn)在其作用僅限于在下載 數(shù)據(jù)庫(kù)時(shí)對(duì)數(shù)據(jù)庫(kù)作簡(jiǎn)單的分類。最后一項(xiàng)是其最后修訂日期(21-JUN-1999):有時(shí)也僅表示數(shù)據(jù)首次公開日期。2) GBFF: DEFINITION 行(definition)(DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Ax12P (AXL2) and Rev7P (REV7) genes, complete cds.)LOCUS行的下一行為 DEFINITION行:主要對(duì)GenBank記
19、錄中所含的生物 學(xué)意義做出總結(jié)。它的說(shuō)明內(nèi)容包括了來(lái)源物種、基因 /蛋白質(zhì)名稱。若序列是 非編碼區(qū),則包含對(duì)序列功能的簡(jiǎn)單描述; 若是一段編碼區(qū),則標(biāo)明該序列是部 分序列(partial cds)還是全序列(complete cds。3) GBFF : ACCESSION 行(accession 檢索號(hào)行(ACCESSION U49845)檢索號(hào)(accession是序列記錄的惟一指針。通常由 1個(gè)字母加5個(gè)數(shù)字(U12345)或由2個(gè)字母加6個(gè)數(shù)字(AF123456)組成。它在數(shù)據(jù)庫(kù)中是惟一而且不變的。有時(shí) ACCESSION 行中可能會(huì)出現(xiàn)多個(gè)檢索號(hào),可能是由于數(shù)據(jù)提交者提交了一條與原記錄
20、相關(guān)的新記錄或新提交的記錄覆蓋了原有的舊記錄。我們稱第一個(gè)檢索號(hào)為主檢索號(hào),其余的統(tǒng)稱為二級(jí)檢索號(hào)。4) GBFF: VERSION 行(version) 版本號(hào)行( VERSION U49845.1 GI:1293613)VERSION 行是版本號(hào), 格式為: 檢索號(hào).版本號(hào)。版本號(hào)用于識(shí)別數(shù)據(jù)庫(kù)中一條單一的特定核苷酸序列。在數(shù)據(jù)庫(kù)中,如某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變它的版本號(hào)也將增加,而其檢索號(hào)保持不變。版本號(hào)系統(tǒng)與其后的GI (geninfo identifier)號(hào)系統(tǒng)是平行運(yùn)行的。即當(dāng)一條序列改變后,它將被賦予一個(gè)新的GI 號(hào),其版本號(hào)也將增加。蛋白質(zhì)的翻譯發(fā)生任何變換,
21、核酸序列都將被賦予一個(gè)新的GI 號(hào)。5) GBFF: KEYWORDS 行(keywords) 關(guān)鍵詞行( KEYWORDS.)關(guān)鍵詞行是用來(lái)描述序列的。如果該行沒有任何內(nèi)容,那么就只包含一個(gè)“.由于沒有對(duì)照詞匯表,故 NCBI/GenBank 拒絕接受關(guān)鍵詞,它只存在于舊的記錄中。6) GBFF: OURCE 行( source) 來(lái)源行( SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomyc
22、otina; Saccharomycetes;Saccharomycetales; Saccharomycetaceae; Saccharomyc)es.對(duì)來(lái)源行(SOURCE)沒做特殊的規(guī)定,它通常包含序列來(lái)源生物的簡(jiǎn)稱,有時(shí)也包含分子類型。在下面以NCBI 的分類數(shù)據(jù)庫(kù)為依據(jù),指明物種的正式科學(xué)名稱。7) GBFF: REFERENCE 行 reference參考文獻(xiàn)行( REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J.and Lawrence,C.W. TITLE Cloning and se
23、quence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 787189)0參考文獻(xiàn)行將與該數(shù)據(jù)有關(guān)的參考文獻(xiàn)均收錄在內(nèi)。將最先發(fā)表的文獻(xiàn)列于第一位。如果序列數(shù)據(jù)沒有被相關(guān)文獻(xiàn)報(bào)道,該行將出現(xiàn)“unpublished” 或 “inpresS'。最后將有一個(gè)可能的PUBMED指針。8) GBFF: FEATURES 行(featur
24、es) 特性表行( FEATURESLocation/QualifiersCDS<1.206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRA VVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687.3158/gene="AXL2"特性表(features瞄述基
25、因和基因的產(chǎn)物以及與序列相關(guān)的生物學(xué)特性。特性表提供一個(gè)參考詞匯表以對(duì)合法的特性進(jìn)行注釋。這些特性包括:1、該序列是否執(zhí)行一個(gè)生物學(xué)功能;2、它是否與一個(gè)生物學(xué)功能的表達(dá)相關(guān);3、它是否與其它分子相互作用;4、它是否影響一條序列的復(fù)制;5、它是否與其他序列的重組相關(guān);6、它是否是一條已識(shí)別的重復(fù)序列;7、它是否有二級(jí)或三級(jí)結(jié)構(gòu);8、它是否存在變異或者它是否被修訂過(guò)。特性表格式是按表單的方式設(shè)計(jì)的,分三個(gè)主要部分:1)特性表關(guān)鍵詞(feature) ,簡(jiǎn)要說(shuō)明功能組;2)特性位置(location) ,指明在特性表中的什么地方可以找到相關(guān)特性,在此可以包含操作符(operator和功能性描述符(
26、descriptor)以指明序列需經(jīng)過(guò)怎樣的處理才能得到相應(yīng)的特性;3)限定詞(qualifier) ,相關(guān)特性的輔助信息,限定詞組使用一組標(biāo)準(zhǔn)化的對(duì)照詞匯表以利于計(jì)算機(jī)從中提取信息。(這段序列可以解讀為:該編碼序列( CDS) 起始于第1 堿基, 終止于第206堿基,它的產(chǎn)物是TCP1-beta ,基因名為“AXL2 ”。 )9) GBFF: ORIGIN ( origin)(ORIGIN1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg61 ccgacatgag acagttaggt atcgtcgaga
27、gttacaagct aaaacgagca gtagtcagct4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc)在GBFF文件的最后,以類似于FASTA格式的方式給出了所記錄的序列。二、FASTA 數(shù)據(jù)格式(FASTA format):Accession numbers are labels for sequences檢索號(hào))FASTA 格 h(???q *ub'QCIU*11FASTA 正義 f j3Dt>BJSWISS - PiROT “Ed Databc FIR PftF 口T 37具品 T'Cls
28、COC'CTT。廣RECCiCiTTATAC5-AATT AAAC2T*' A TjMTT AJUlHItTUC *T*TTU T TeTCT-THJjkttTTTCTi TATC3CTAT XJUUk-dlT AE if AF63.1 | SCUO 7X63£4T七 t-twTQICITMTCCAJ0UAAA 島 HTaTeGTqTAC-HT 盤-T心An11、RefSeq 資料庫(kù):(NCBI Reference Sequence Databas參考序歹!J數(shù)據(jù)庫(kù))RefSeq資料庫(kù)是NCBI將GenBank的序列再做詳細(xì)整理的non-redundent序 列資料庫(kù)
29、,它的序列格式和 GenBank幾乎完全相同,但因?yàn)槭峭耆煌莫?dú)立 資料庫(kù),為與 GenBank區(qū)別,RefSeq的Accession Number (檢索號(hào))格式和 GenBank的不同。該數(shù)據(jù)庫(kù)所收集的參考序列一直在不斷地被修改中,盡管如此,NCBI RefSeq仍是目前最可信賴的序列數(shù)據(jù)庫(kù)。GenBank中一個(gè)基因的索引號(hào)可能有上百個(gè),但對(duì)應(yīng)一個(gè)基因的RefSeq只有一個(gè)o (/RefSeq/)NCBI參考序列數(shù)據(jù)庫(kù)(RefSeq)旨在提供一個(gè)全面的、集成的、冗余,好的 注釋組序列,包括基因組 DNA、轉(zhuǎn)錄和蛋白質(zhì)。RefSeq是醫(yī)學(xué)
30、、功能和多樣性 研究的基礎(chǔ);它們提供一個(gè)穩(wěn)定的參考基因組注釋、基因識(shí)別和表征,突變和多 態(tài)性分析(特另J是RefSeqGene記錄),表達(dá)研究和比較分析。e.g. 數(shù)據(jù)庫(kù)檢索實(shí)例:搜索Genbank no. FJ798090獲得序列相關(guān)信息1 .進(jìn)入NCBI網(wǎng)站,選擇nucleotide: FJ798090搜索,得到相關(guān)信息;2 . 從 CDS 行可看到有關(guān)Aa 的信息,從ORIDIN 行可看到DNA 相關(guān)信息;3 .在原網(wǎng)頁(yè)上選擇右邊相關(guān)信息選擇框的PubMed,查看關(guān)聯(lián)文章;4 .主頁(yè)進(jìn)入DNA&RNA ,選擇tools,點(diǎn)第二個(gè)Batch Entrez,批量下載序列;5 .提交結(jié)
31、果,顯示參數(shù)與序列下載(Send選項(xiàng)、選File、然后選FASTA格式),下載序列,提交序列。12、提交序列:1、提交方式主要有三種:1) 、 Bankit 逐條提交、需要注冊(cè);2) 、 Sequin 10000條以下;3) 、 Tbl2asn 超過(guò) 1 萬(wàn)條、命令行。2、Bankit提交:先注冊(cè),后點(diǎn)New Submission (創(chuàng)建一個(gè)新提交),Sequencing Technology (測(cè)序技術(shù)),nucleotide (核酸),Organism (生 物體),Submission Category (提交類別),Source Modifiers (源寄存器修改),Primers (
32、引物),F(xiàn)eatures(特性),Review and Correct (檢查和糾正,3處)。3、Sequin DNA分析軟件:(A DNA Sequence Submission and Update ToOl序列提交:研究產(chǎn)生的新序列,需要遞交到公共數(shù)據(jù)庫(kù)保存;需要撰寫論文發(fā)表新序列時(shí),需要數(shù)據(jù)庫(kù)接受號(hào)。4、 WEB 在線提交工具:1、 NCBI 的 Bankit; 2、 EBI 的 WEBIN ; 3、 DDBJ的 SAKURA;5、離線提交:NCBI 的 Sequin。6、提交比較:Bankit 提交:使用簡(jiǎn)單,每個(gè)步驟有詳細(xì)說(shuō)明。但一次只能提交一個(gè)序列,長(zhǎng)度不能太長(zhǎng);Sequin:安
33、裝在用戶自己的計(jì)算機(jī)上,可同時(shí)遞交若干序列和較長(zhǎng)序列,而且整合了許多有用的序列注釋工具。13、引物設(shè)計(jì)及測(cè)序結(jié)果分析:(第三章)1、引物設(shè)計(jì)流程:1)序列查找與下載(GenBank) ;2)序列同源性比較(Blast/alignment);3)引物設(shè)計(jì)與篩選(primer 3/其他);4)引物加工與修飾(酶切、保護(hù)、標(biāo)簽、啟動(dòng)子等);5)引物評(píng)價(jià)分析(Oligo 6);6)引物二次篩選(blast);7)引物最終評(píng)估(band);2、引物設(shè)計(jì)原則:基本原則:1)引物與模板的序列要緊密互補(bǔ);2)引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu);3)引物不能在非靶點(diǎn)引發(fā)DNA聚合反應(yīng)。注意點(diǎn):1、引物
34、長(zhǎng)度在15-30bp之間;2、GC含量為40-60%之間;3、引物的特異性(3'端不能有連續(xù)的GGG或CCC);4、3'4G的絕對(duì)值不超過(guò)9,雙鏈形成所需自由能;5、密碼子的兼并:3'不要位于密碼子的第3位。3、引物設(shè)計(jì)軟件:1)在線工具 Primer 3、Primer-Blast;2)本地軟件 Primer Premier 5;3)引物評(píng)估軟件Oligo 6。e.g.在線設(shè)計(jì)引物:在Primer 3界面上將需要設(shè)計(jì)的序列粘貼復(fù)制進(jìn)入大方框, 確定基本參數(shù)和 結(jié)果參數(shù)后,點(diǎn)擊pick鍵后出現(xiàn)output頁(yè)面,將所需的序列即一定要 PCR出的 序列用中括號(hào)括上,再?gòu)?fù)制進(jìn)大
35、方框。這兩者的差別是第一個(gè)是隨機(jī)的引物, 而第二個(gè)選出的引物必然包含你所需的那一段KEYS (in order of precedence優(yōu)選引物:(* target , >>>>>> left primer ,<<<<<<right primer)4、Oligo 7手工設(shè)計(jì)引物: 上游 ATGGGAAAAGACTATTACAAAATC 下游 TCAATTCGGCAGCGTATCGTAGAG選擇引物長(zhǎng)度選定上下游引物 3'AG絕對(duì)值不能超過(guò) 9fDuplex Formation 二聚體分析、Hairpin form
36、ation發(fā)夾分析( G不能超過(guò)4.5)-成分和Tmf錯(cuò) 誤引發(fā)位點(diǎn)分析:一般在100 以下,若正確引發(fā)效率達(dá)到400,可承受超過(guò)100多點(diǎn)fPCR最終分析評(píng)價(jià)引物二次篩選 (上下游引物在ncbi中進(jìn)行blast分析 (搜索primer ncbi)并輸入設(shè)計(jì)的引物,選擇nr數(shù)據(jù)庫(kù))引物最終評(píng)估(大小、特異性、效率)-保護(hù)堿基與酶切位點(diǎn)(BamH I , Not I )。5、測(cè)序結(jié)果分析:(一、Sanger法測(cè)序;二、測(cè)序圖查看;三、序列拼接。) Sanger法測(cè)序:流程:(1.PCR擴(kuò)增;2.產(chǎn)物純化;3.測(cè)序反應(yīng);4.電泳分離);DNA 測(cè)序的實(shí)驗(yàn)方法:(末端終止法);測(cè)序圖查看軟件:Chr
37、omas、 Seqman, ;不好的結(jié)果:雜峰、套峰。eg序列拼接實(shí)例:1. SeqMan軟件啟動(dòng)界面;2.原始測(cè)序文件導(dǎo)入軟件;3. Assemble (裝配); 4. Strategy of Contig(重疊群策略)Contig-Strategy view 和 Contig-Alignment view-去除矛盾堿基和缺口(手動(dòng)刪除、修改可疑堿基)-導(dǎo)出拼接序列。14、核酸序列分析:( 第四章 )(常規(guī)分析、比對(duì)分析、基因結(jié)構(gòu)識(shí)別)1、常規(guī)分析:(序列的檢索、序列組分分析、序列變換、限制性酶切分析)1、核酸序列檢索:( Entrez、 SRS)2、核酸序列組分分析:(Bioedit-分子
38、量;DNAMAN 堿基組成;EditSeq堿 基分布)1) EditSeq (堿基組成:Goodies- DNA Statistic);2) Bioedit (堿基組成Sequence- Nucleic Acid Nucleotide composition) ;Bioedit: 一種對(duì)基因序列進(jìn)行分析加工或序列拼接的軟件。3、序列變換:(反向互補(bǔ)序列 EditSeqGoodies- Reverse complementt反向序歹U EditSeLGoodiesReverse Sequence4、限制性酶切分析:(BioEdit-SequenceNucleic Acid-Restrict Ma
39、p 在線:NEBcutter、WebCutter、Rebase2、比對(duì)分析:意義:推測(cè)基因和蛋白質(zhì)的進(jìn)化演變規(guī)律;推測(cè)基因和蛋白質(zhì)的結(jié)構(gòu)和功能; 基本假設(shè):序列的保守性一功能的保守性;工具:Blast 和 Clustal X;1) BLAST 比對(duì)(Basic Local Alignment Search Too基本局部比對(duì)搜索工具)Bxmc BLASTChg” a 9LAST abflgE g 2苴bl2str rrga辦Inst, di二七DEiguEiU,inrMagi=bla=t13Hti Swrcn pfGgin n潮ag"- po<3ii 華陽(yáng)y/jgwTfhma
40、blB3ipa psi-iiasi phi由dellE-blut:blastx £o-arcn prolsin dotabakq usiing a tran-s-Gatfid nu£.ic-o4i<iQ quarylbliiy<ntrAii«liii;iiii liiiGlflQElLlfi>i。4作 * tpfLrin&M 如Wu如 SfL 'iftuclmskle 制*口昌與學(xué) > 川r*g - LenaidlE micteiki qgy0Vl 在0LEkGTBLAST程序的中心思想是將序列切割成一段一段來(lái)比較。這兩段序
41、列長(zhǎng)度為W (分別來(lái)自提交序列,與數(shù)據(jù)庫(kù)),比對(duì)分值,T。主要分三步進(jìn)行:(第一步:由查詢序列生成的長(zhǎng)度固定(W=3)的字段編譯列 表(Score>T);第二步:在數(shù)據(jù)庫(kù)中掃描獲得與編譯列表中的字段匹配的序列記 錄,作為后續(xù)延伸的種子seed;第三步:對(duì)于每一對(duì)選擇出來(lái)的種子,將其向兩 邊延伸,使其在盡可能長(zhǎng)的距離得到盡可能多的分?jǐn)?shù)。)比對(duì)結(jié)果的判讀:比對(duì)結(jié)果的顯著性以E值(Expect value)來(lái)衡量,E值趨向 于0時(shí),說(shuō)明比對(duì)結(jié)果越顯著。E值的意義就是概率;比對(duì)得分(bit score):表明序列比對(duì)的得分,數(shù)值越高,兩序列越相似?!咀鳂I(yè):以纖維素酶基因序列為靶標(biāo),進(jìn)行核酸組分分
42、析,NCBI中比對(duì)你的序列,至少使用blastn, blastx并下載不少于十個(gè)比對(duì)出來(lái)的序列。】回頭來(lái)看NCBI參數(shù)選擇:(blastp、blastn)Limit by Entrez Query :任彳NCBI BLAST 搜索的范圍都可以用在 Entrez搜 索中使用的任何一種范圍限定詞來(lái)限定; Max target sequences比對(duì)之后顯示的最大的比對(duì)序列的數(shù)目; 期望expect期望值E是得分大于或等于某個(gè)分值 S的不同的比對(duì)的數(shù)目在 隨機(jī)的數(shù)據(jù)庫(kù)搜索中發(fā)生的可能性。這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這 一聯(lián)配結(jié)果的可能次數(shù)。對(duì)于 blastn、blasts blastxt和b
43、lastn期望值的默認(rèn)設(shè)置 是10。在這個(gè)E值下,隨機(jī)出現(xiàn)得分等于或高于比對(duì)得分 S的期望數(shù)為10個(gè)(這 里是假設(shè)用與實(shí)際的查詢序列長(zhǎng)度相等的隨機(jī)的查詢序列搜索數(shù)據(jù)庫(kù))。當(dāng)將期望選項(xiàng)值調(diào)小時(shí),返回的數(shù)據(jù)庫(kù)搜索結(jié)果將變少,匹配被搜索到的概率也會(huì)變小。 增大E值將返回更多的結(jié)果; 字段長(zhǎng)度word size:對(duì)于蛋白質(zhì)搜索,窗口大小可以被設(shè)定為3(默認(rèn)值)或者2。當(dāng)用一個(gè)查詢序列來(lái)進(jìn)行數(shù)據(jù)庫(kù)搜索時(shí),BLAST算法首先將查詢序列分割成一系列具有特定長(zhǎng)度(字段長(zhǎng)度)的小的序列段(字段)。實(shí)際應(yīng)用中對(duì)于蛋白 質(zhì)搜索很少需要改變字段的長(zhǎng)度;對(duì)于核酸序列,默認(rèn)的字段長(zhǎng)度是28, BLAST 的字長(zhǎng)缺省值為2
44、8,即BLASTN將掃描數(shù)據(jù)庫(kù),直到發(fā)現(xiàn)那些與未知序列的28 個(gè)連續(xù)堿基完全匹配的28個(gè)連續(xù)堿基長(zhǎng)度片段為止。然后這些片段(即字)被擴(kuò) 展。降低字段長(zhǎng)度將會(huì)使搜索變得更準(zhǔn)確同時(shí)也會(huì)變得更慢; 矩陣matrix:對(duì)于blastp的蛋白質(zhì)-蛋白質(zhì)搜索有5種氨基酸替代矩陣:PAM30、 PAM70、BLOSUM45、BLOSUM62(默認(rèn)值)以及 BLOSUM80。一些其他的 BLAST 服務(wù)器還提供了很多其他的替代矩陣,如 PAM250O通常情況下明智的選擇是在 一次BLAST搜索中使用幾種不同的打分矩陣;Compositional adjustments 這個(gè)選項(xiàng)是默認(rèn)選擇的,一般來(lái)說(shuō)可改善 E
45、值 的統(tǒng)計(jì)計(jì)算和提高靈敏度(減少返回的假陽(yáng)性結(jié)果的數(shù)目);2) blast2雙序列比對(duì):Blast比對(duì)后,當(dāng)數(shù)據(jù)庫(kù)中搜索到多個(gè)顯著相似的序列時(shí),檢測(cè)目的序列是 否與之有真正關(guān)聯(lián),可進(jìn)行雙序列比對(duì)Pairwise Aligment。Ncleotide: Hsp40 ORF VS bm40(改變參數(shù))戶網(wǎng)郵S照的iS ugW如町坪nes吸加利L士工七齡m密,jertes曲。咤工位飛廊i過(guò).S®巾r浙冏紳snesi求擊jOwosiaBLralccfitriy點(diǎn)陣圖Dot matrix view :連續(xù)線表示序列匹配指出,缺口表明量序列不匹配之處比對(duì)結(jié)果:H H * 口 d £ K
46、 5 LU L AJR.C1AJJ DDH. 1 尸 U4N 1 RJ-4J% L_M V MM TJK_A.3 VI V. B-' V. 1-1 1 JU2A M UV JL U 51 尸 P J 口J*-K j_s 3rH 養(yǎng)工: L 工34.工 X>L3 * . X UEk.'X B4 IH. V jELEn-K ¥31 UqPUdC C Jk."二" hBLK * ,JT. .- C. H MP £- 3 3-1 KVLKMKI t Y rm r lu-ct ! 'I' H CMMX>FE> I
47、V l>W V K IJFh I V Bl »-4 HF 3rAJNb” 人卻仁H ITK VIV AMA W V 3 W I,產(chǎn)用隗4%3n m yrw r»j Link n ce t- kit c41rgruvcH"3HHi“it r- h.t: cle a t r-ax 口 r r"G 丁 a k r if-qt-i:尸if口i ncKB*!(4BS z«Liuba。- v , if- ii pf , a t f-a w ' aKK! L ¥E»hJ44e E(»3V.4>MO<l-
48、<W aV-C3<»<B-CWr WTH h” 口 RAH LA口 F1 r4,A券 Fv 0:Uf1.1 i - f :*F"TnIW F i i* Ri一串"'VJi*1 T &ch-w * :f b iatH-i- 、 :勺*一I * irl wob v>Ja * d * OHH TT hST EZ-VL CM-ClT C*CD V h-H X - 3-9 A nH4.3THL= H 1- OXTQOI 1, 3- - .*e4?* e r h 目 L¥-ot在 dt 董 4= qc t工噂:/#,.,。15
49、曾 t-rwe&kvt,t Tfrrv> a ,a 新 40工a?>HIT* Qn* z EMDXrW L.KD3: gU IVZMSr 工二 ER V1 * 匚H * EHH Z>PTV LH 工 YA PGUUfc 口 H*田丁口口。*£ Pl H IjIp ¥V 1*B ?> 1 i-V MMMli Ia T KF>H V1 Hi Y 翼中K MMQKH TT VQ-KBE-B-a-iadaKm KYVJIh-E- 3 "VW 3E3K= IK73«-l'VHMW"IKM-K-3> =
50、O-EM/XHU K Xj3T Xa«-G>JK_XdC-O-W X BEWTrZ-aH; # 7spiA.I 'M H F1 Y h 1".ECm M P"1m.pv.百十 十 jur > * *7 *7: k r ljk r 1 1 >; : h n m k i1-ilk ri *V vf vmiTisrtiiuFflIB hP-rtvMTm n r>rn *r '("Jh.iK, i a -k -u-*. a -i < a " H Jac W 'fmAl M-ibV-QKM T T-
51、EJWI-aiB.B T VMSJ-T-T V MEI TQCKKSl-Ei F E>M.K? E-LIE% K nV- V S BTiT M F*-F»-E -T l-T? Q-C Jh. R OX t.V5t*K.K.* 1' * MX. KI E V M. » T V M.M U U L-a F PlUl! 2 M.口 JLW, U 工 I1_ * E> LHM> * I E«n U.E J.HZ. V 工:k" IE 'X、fLA-.XT A, J K 4-1XX' £: X!>UU1.
52、一 二'>kU U二一=X r.X- >'二 E XuH MU"、.ni2_ JL X_K-3-I 4 .3、基因結(jié)構(gòu)識(shí)別:包括:(ORF識(shí)別;啟動(dòng)子與轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析;重復(fù)序列分析;CpG island) 1) ORF識(shí)另1:Kozak原則:1、第四位的偏好堿基為 G; 2、ATG的5端約15bp范圍內(nèi)的 側(cè)翼序列內(nèi)不含堿基T; 3、在第3、6、9位,G為偏好堿基;4、除第3、6、9 位,在整個(gè)側(cè)翼序列中,c為偏好堿基。常見 ORF在線預(yù)測(cè)工具:(ORF Finder; GeneMark,hmm; Glimmer 原核生 物;Glimmer HMM
53、真核生物)(ORF的驗(yàn)證:Blast)。3M4 AST* n-nuQNF Fmd«r (Qf>*n Raadimo Fr*m< Flnd-rj2)啟動(dòng)子及轉(zhuǎn)錄因子結(jié)合分析:Promoter Scan3)重復(fù)序列分析:repeatmaske;r4) CpG island: CpGPlot; ( CpGisland 通常位于啟動(dòng)子附近)CpG 雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG 保持或高于正常概率,這些區(qū)段被稱作CpG 島。在哺乳動(dòng)物基因組中的12kb 的 DNA 片段, 它富含非甲基化的CpG 雙倍體。 CpG 島主要位于基因的啟動(dòng)子 ( p
54、romotor) 和第一外顯子區(qū)域,約有60%以上基因的啟動(dòng)子含有CpG 島。GC 含量大于50%,長(zhǎng)度超過(guò)200bp。15、DNA 雙序列比對(duì) Pairwise Sequence Alignmen原理:(第五章)1、比什么?給定兩條序列(DNA or protein)Seq 1: CATATTGCAGTGGTCCCGCGTCAGGCTSeq 2: TAAATTGCGTGGTCGCACTGCACGCT它們存在多大程度的相似?CATATTGCAGTGGTCCCGCGTCAGGCTTAAATTGCGT-GGTCGCACTGCACGCT2、為什么比?(發(fā)現(xiàn)功能、研究進(jìn)化、某條序列的關(guān)鍵特征、疾病的鑒定)3、序列變化:三種類型的變化包括:Substitution (點(diǎn)突變)、Insertion (插入)、Deletion (刪除),后兩個(gè)統(tǒng)稱為Indel (插入缺失)。4、為達(dá)到比對(duì)兩序列的目的,我們需要一個(gè)定量模型來(lái)評(píng)估兩序列,如何定量?jī)尚蛄虚g的相似性?1、 全局比對(duì)(Global alignment) :是對(duì)給定序列全長(zhǎng)進(jìn)行比較的方式。在待比較的兩個(gè)序列中引入空位( gap) ,使得對(duì)序列的全長(zhǎng)都得到比較,Needleman-Wunsch算法。全局序列比對(duì),比對(duì) 的是全部序列。建立一個(gè)得分矩陣,A序列在上方,B序列在左側(cè),方格(i,j)的數(shù)值是A(0-i)到B
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年滬教版選修5歷史下冊(cè)月考試卷含答案
- 2025年滬教新版高二地理下冊(cè)月考試卷含答案
- 2025年華師大版必修1歷史上冊(cè)階段測(cè)試試卷
- 2025年滬科版選擇性必修1歷史上冊(cè)階段測(cè)試試卷
- 2025年華師大新版選擇性必修1語(yǔ)文上冊(cè)階段測(cè)試試卷含答案
- 2025版南寧租賃市場(chǎng)住宅租賃合同模板(含違約責(zé)任)4篇
- 房座買賣合同(2篇)
- 2025年度醫(yī)療機(jī)構(gòu)消毒供應(yīng)中心運(yùn)營(yíng)承包合同書4篇
- 二零二五年度水利樞紐泥水工程勞務(wù)分包合同8篇
- 2025年度體育場(chǎng)館退休人員聘用合同
- 我的家鄉(xiāng)瓊海
- (2025)專業(yè)技術(shù)人員繼續(xù)教育公需課題庫(kù)(附含答案)
- 《互聯(lián)網(wǎng)現(xiàn)狀和發(fā)展》課件
- 【MOOC】計(jì)算機(jī)組成原理-電子科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 2024年上海健康醫(yī)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及答案解析
- 2024年湖北省武漢市中考語(yǔ)文適應(yīng)性試卷
- 非新生兒破傷風(fēng)診療規(guī)范(2024年版)解讀
- EDIFIER漫步者S880使用說(shuō)明書
- 上海市華東師大二附中2025屆高二數(shù)學(xué)第一學(xué)期期末統(tǒng)考試題含解析
- IP授權(quán)合作合同模板
- 2024中華人民共和國(guó)農(nóng)村集體經(jīng)濟(jì)組織法詳細(xì)解讀課件
評(píng)論
0/150
提交評(píng)論