生物信息學(xué)-資料_第1頁
生物信息學(xué)-資料_第2頁
生物信息學(xué)-資料_第3頁
生物信息學(xué)-資料_第4頁
生物信息學(xué)-資料_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE1生物信息學(xué)資料一.什么是生物信息學(xué)?答:它是利用計算機(jī)對生命科學(xué)工作者研究的生物作息進(jìn)行存儲、檢索和分析的科學(xué)?,F(xiàn)代生物信息學(xué)的定義:是現(xiàn)代生命科學(xué)與信息科學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)、物理學(xué)、化學(xué)等學(xué)科相互滲透而形成的交叉學(xué)科,是應(yīng)用計算機(jī)技術(shù)和信息論方法采集、存儲、傳遞、檢索、分析和解讀蛋白質(zhì)及核酸序列等各種生物信息,以幫助了解生物信息學(xué)和遺傳學(xué)信息的科學(xué)。真核生物基因組的結(jié)構(gòu)特點(diǎn):1多基因家族:指由一共同祖先基因經(jīng)過重組和變異所產(chǎn)生的一組基因,并成簇分布,其成員成簇集中在一條染色體上,也可以散布在不同的染色體上。2多重復(fù)序列:1)高度重復(fù)序列:反向重復(fù)序列、衛(wèi)星DNA、a-衛(wèi)星DNA、端粒DNA2)中度重復(fù)序列3轉(zhuǎn)座因子:在DNA分子內(nèi)部或兩個DAN分子之間移動的DNA片段4單拷貝序列:多為結(jié)構(gòu)基因,兩側(cè)為間隔序列和散在分布的重復(fù)序列。5DNA多態(tài)性:1)DNA多態(tài)性:限制性片段長度的多態(tài)性、高度可變區(qū)的DNA、單個核苷酸多態(tài)性2)DNA指紋圖譜:一種特殊的RFLP使用小衛(wèi)星DNA作為探針,與某種限制性酶酶切后,并經(jīng)電泳分離的基因組DNA進(jìn)行分子雜交,在放射自顯影的X光片上,每個個體都可呈現(xiàn)不同長度片段的雜交顯影帶。三.真核生物的基因結(jié)構(gòu):1.5’UTR區(qū):1)啟動子:基因DNA中一段特定的核苷酸序列,是RNA聚合酶在起始時對模板DNA的識別部位,也是轉(zhuǎn)錄起始時RNA聚合酶對模板DNA的結(jié)合部位,因此,是轉(zhuǎn)錄過程是否起始的決定部位。2)增強(qiáng)子:約200bp,為遠(yuǎn)距離作用,距離靶基因可幾十個kb,可位上、下游或基因內(nèi)部,無基因特異性,對各種基因的啟動子都可以發(fā)揮作用,常和多種轉(zhuǎn)錄調(diào)節(jié)蛋白結(jié)合后發(fā)揮作用。2轉(zhuǎn)錄起始點(diǎn):是模板DNA轉(zhuǎn)錄區(qū)中的第一個核苷酸,常標(biāo)以+1,往后類推。3起始密碼子:如ATG(編碼甲硫氨酸)4編碼區(qū):基因通過信使RNA來進(jìn)行蛋白質(zhì)的合成,信使RNA包含對應(yīng)蛋白質(zhì)氨基酸序列的一段核苷酸序列。5終止子:終止子在3’端終止密碼的下游有一個核苷酸順序為AATAAA,這一順序可能對mRNA的加尾有重要作用。AATAAA順序和它下游的反向重復(fù)順序合稱終止子,是轉(zhuǎn)錄終止的信號。終止密碼子有TGA、TAA、TAG。63’UTR區(qū),就是結(jié)束轉(zhuǎn)錄過程的信息。生物信息數(shù)據(jù)庫:答:1.生物信息學(xué)數(shù)據(jù)庫的類型:1)一級數(shù)據(jù)庫:記錄實驗結(jié)果和一些初步的解釋。2)二級數(shù)據(jù)庫:從生物大分子序列、結(jié)構(gòu)、功能數(shù)據(jù)庫中提取有用的信息。2.核酸序列數(shù)據(jù)庫:1.)GenBank序列數(shù)據(jù)庫,由國立生物技術(shù)信息中心(NCBI)維護(hù),建立在1988.11.42.)EMBL由歐洲生物信息研究所(EBI)維護(hù)。3.)DDBJ是日本唯一的DNA數(shù)據(jù)庫,建立在1949年。3.GenBank序列數(shù)據(jù)庫:1.)序列文件格式:FASTS又叫peasrson(FASTS的主要作者)格式。第一行,大于號(〉)表示一個新的序列文件開始,為標(biāo)記號。第二行,序列本身,DNA或蛋白質(zhì)的標(biāo)準(zhǔn)符號。2.)數(shù)據(jù)庫格式:GenBankflatfile格式(GBFF)是GenBank數(shù)據(jù)庫的基本信息單位。第一部分為描述符,從第一行LOCUS行到ORIGIN行,包含了關(guān)于整個記錄的信息;第二部分為特性表,從FEATURES行開始包含了注釋這一記錄的特性,是條目核心,第三部分是核苷酸序列本身。結(jié)尾都用//符號。例子:LOCUSAF486325477bpDNAlinearVRL12-AUG-2002LOCUS(locus):基因座位,某一特定的基因位于染色體或其他載體所在的位置,包含該基因的全部核苷酸序列。AF486325:該記錄的LOCUS的名稱。477bp:長度,從1到350000bpDNA:生物分子類型。通常DNA,RNA,也可以其他tRNA,rRNA,mRNA,uRNALinear:核苷酸的形狀,linear為直線狀。VRL:分類碼。三個字母組成,12-AUG-2002:數(shù)據(jù)第一次公開的日期。ACCESSION(accession)行:AF486325,檢索號。(不變的,只有一個)VERSIONAF486325.1GI:19744699VERSION(version)行:AF486325.1,檢索號、版本號,此為第1版,每次序列變,加1.GI:19744699,gi(基因信息號),一個gi號對應(yīng)一個核苷酸序列,序列改變,gi也改變。KEYWORDS(keywords):關(guān)鍵詞SOURCE(source)行:表示序列來源的生物名稱,生物的通用名或科學(xué)名稱。REFERENCE(reference):參考文獻(xiàn),每個GenBank記錄最少一篇。AUTHORS(authors):作者TITLE(title):標(biāo)題JOURNAL(joural):期刊名和日期MEDLINE/PUBMED(medline/pubmed):雜志編號。4.蛋白質(zhì)序列數(shù)據(jù)庫:除了GenBank外,主要還有PIR和SWISS-PORT1)PIR(蛋白質(zhì)信息資源):由MIPS和JIPID共同維護(hù),包含所有序列已知的自然界中野生型蛋白質(zhì)的信息??梢蕴峁┩葱院头诸悓W(xué)組織的綜合非冗余數(shù)據(jù)庫。PIR的數(shù)據(jù)庫的數(shù)據(jù)由NCBI翻譯自GenBank的DNA序列。2)SWISS-PORT:蛋白質(zhì)的序列和注釋SWISS-PORT數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,由SIB,EBL共同維護(hù)。提供高水平的蛋白質(zhì)序列數(shù)據(jù)分類和注釋和最低水平的冗余以及與其他數(shù)據(jù)庫的整合。注釋包括蛋白質(zhì)功能,翻譯后加工,結(jié)構(gòu)域特征,二級、三級結(jié)構(gòu),同源性,疾病相關(guān)的信息。(存在滯后性問題)。3)TrEMBL:是從EMBL庫中的核酸序列翻譯出來的氨基酸序列,已經(jīng)完成了自動注釋。(最小冗余,存在滯后性)4)PIR、SWISS-PORT、TrEMBL綜合,構(gòu)建成——UniProt(全球蛋白質(zhì)資源數(shù)據(jù)庫)5.蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:PDB,國際唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫。6.蛋白質(zhì)模型數(shù)據(jù)庫:MMDB四.什么是序列比對?同源序列?同功序列?方法是什么?兩種方法進(jìn)行對比?答:序列比對:序列聯(lián)配,其意義在從核酸、氨基酸的層次分析序列的相似性,推測其結(jié)構(gòu)功能及進(jìn)化上的聯(lián)系,是基因識別、分子進(jìn)化、生命起源研究的基礎(chǔ)。同源序列:指某一共同祖先經(jīng)趨同而來的序列。同功序列:兩條序列的相似性很高,但它們可能并不是同源序列,這兩條序列的相似性可能是由隨機(jī)因素產(chǎn)生的,這在進(jìn)化上稱為趨同。這樣一對序列則為同功序列。序列比對的基本思想:找出檢測序列和目標(biāo)序列的相似性。序列比對的方法:1從全局序列出發(fā),考慮序列的整體相似性,即整體比對。2考慮序列部分區(qū)域的相似性,即局部比對。如:BLAST與FASTA數(shù)據(jù)庫對比:局部相似性比對的生物學(xué)基礎(chǔ)是蛋白質(zhì)功能位點(diǎn)往往是由較短的序列片段組成的,這些部位的序列具有相當(dāng)大的保守性,盡管在序列的其他部位可能有插入、刪除或突變。此時,局部相似性比對往往比整體比對具有更高的靈敏度,其結(jié)果更具生物意義。什么是DNA序列分析?P171答:不是傳統(tǒng)意義上的DNA測序,而是借助生物信息學(xué)的方法,以計算機(jī)或網(wǎng)絡(luò)為載體,在已完成DNA測序并獲得一級結(jié)構(gòu)的目標(biāo)核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等的過程。ORF是什么意思?怎么測定?P172-173答:ORF為開放閱讀框架。ORF的預(yù)測即翻譯中對mRNA分子中核苷酸序列的閱讀方式,從起始密碼子開始,每三個相鄰的核苷酸作為一個密碼子。不同的閱讀方式可產(chǎn)生不同的翻譯結(jié)果。通常選擇沒有終止密碼子(TGA、TAA或TAG)的最大讀碼框。通過終止密碼子可判定ORF的結(jié)尾,但ORF的起始位點(diǎn)去不能僅根據(jù)起始密碼子ATG確定,因為ATG可以是起始密碼子,也可以編碼蛋氨酸。因此,有必要通過其他方式找到5’的、端編碼區(qū)的起始位點(diǎn)。要識別DNA中蛋白質(zhì)編碼區(qū),可采用以下一些規(guī)律:1隨機(jī)出現(xiàn)較長的ORF概率小,因此,當(dāng)ORF長度到達(dá)一定,可以認(rèn)定其為編碼區(qū)。2編碼序列起始部位是否有風(fēng)崎片段,也可以確定編碼區(qū)起始位點(diǎn)。3密碼子的偏愛性,不同物種之間的密碼子偏愛性區(qū)別較大。4許多物種密碼子第3個堿基偏向使用G或C,故該位置上G/C出現(xiàn)的頻率較高,可進(jìn)一步確定ORF。5若在起始密碼子上游發(fā)現(xiàn)核糖結(jié)合位點(diǎn),則可肯定找到一個ORF。6.與已知同源蛋白進(jìn)行序列比對,是基因識別最可靠的方法。按照6個閱卷框的規(guī)則將遺傳密碼可能的ORF識別出來?;蜃R別的兩種途徑?答:1.基因外顯子識別:通過基因組DNA分析來發(fā)現(xiàn)和尋找基因,也就是從無名的基因組DNA序列中識別出完整的蛋白質(zhì)編碼序列,也就是外顯子部分。2.EST策略的基因鑒定:電子克隆基因最主要的途徑就是從EST(表達(dá)序列標(biāo)簽)即CDNA的部分序列著手直接尋找新的基因,即利用計算機(jī)進(jìn)行同源性或一致性分析、尋找感興趣的EST,通過構(gòu)建包含這些EST區(qū)的重疊群,再進(jìn)行ORF的判定以及相關(guān)蛋白質(zhì)結(jié)構(gòu)域和模體等功能結(jié)構(gòu)域的識別。另外,還可以尋找與這個EST重疊群對應(yīng)的基因組DNA(gDNA)序列,從而明確這個CDNA的基因組結(jié)構(gòu),包含外顯子、內(nèi)含子和染色體的電子定位。EST的注意事項(缺點(diǎn))?和怎么判定是否新基因?答:分析EST序列時要注意以下幾點(diǎn):EST序列中除了AGCT外還可能出現(xiàn)未知堿基N。EST序列中可能出現(xiàn)錯誤的插入或缺失,導(dǎo)致翻譯時讀碼框移位。某個EST序列是數(shù)據(jù)庫中另一序列的一個片段。某個EST序列不在基因的編碼區(qū)。如果EST在數(shù)據(jù)庫尋找結(jié)果顯示沒有找到相似性程度較高的序列,這時并不意味著已經(jīng)找到一個新基因。因為這個EST也許是一個已知基因的非編碼區(qū),而這個非編碼區(qū)正好不在數(shù)據(jù)庫內(nèi)。如果通過數(shù)據(jù)庫搜索沒有找到匹配序列,那意味著兩種可能。一種可能是該EST是一個CDS,而數(shù)據(jù)庫內(nèi)尚無它的同源序列。另一種可能則是該EST是一段數(shù)據(jù)庫內(nèi)沒有收錄的非編碼序列。什么是基因組學(xué)?人類基因組計劃?克隆群?答:基因組學(xué):從整體上研究一個物種的所有基因結(jié)構(gòu)和功能的新科學(xué)。他包含結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)。人類基因組計劃:測定人類基因組全部DNA序列,從而解讀所有遺傳密碼,揭示生命的所有奧秘,是系統(tǒng)、全面地解讀和研究人類遺傳物質(zhì)DNA的全球性合作計劃??寺∪海阂步羞B續(xù)克隆系,為搞清某段DNA排列順序而建立的一組克隆。被克隆的DNA小片段有相互鄰接并部分重疊的關(guān)系,從而可能完全覆蓋該片段DNA。十一.圖譜P234答:1遺傳圖譜:又稱連鎖圖譜或遺傳連鎖圖譜,是指人類基因組內(nèi)基因以及專一的多態(tài)性DNA標(biāo)記相對位置的圖譜,它通過計算機(jī)連鎖的遺傳標(biāo)志之間的重組頻率,確定它們的相對距離,一般用厘摩(cM)表示。2物理圖譜:是確定各遺傳標(biāo)志之間物理距離(bp,kb,Mb)的圖譜。1)染色體圖譜:細(xì)胞遺傳圖譜,用原位雜交或熒光原位雜交FISH技術(shù)確定DNA片段在染色體上的區(qū)帶位置。2)長片段限制性酶切:標(biāo)明DNA分子上的限制位點(diǎn)、數(shù)目、限制片斷大小及其排列順序的圖譜。3)DNA克隆片段重疊群圖4)基于STS的物理圖譜(整合各圖譜的完整物理圖譜)3.序列圖譜:人類基因組的序列圖。4.基因圖譜:就是人類基因組中鑒別出占據(jù)2%~5%長度全部基因的位置、結(jié)構(gòu)與功能。主要通過基因產(chǎn)物的MRNA反找到染色體的位置。意義:它能有效的反映在正?;蚴芸貤l件中表達(dá)的全基因的時空圖。十二.人類基因組計劃測序的主要策略?答:霰彈法:一個高度計算機(jī)化的方法,先把基因組隨機(jī)分成已知長度(2000個堿基對、1萬個堿基對)的片段,然后用數(shù)學(xué)算法將這些片段組裝成毗鄰的大段并確定他們在基因組上的正確位置。克隆法:先復(fù)制更大段的人類基因序列,然后將他們繪制到基因組的適當(dāng)區(qū)域?;蚪M——隨機(jī)打斷——組裝——定位——基因組裝——序列(逐步克隆測序法,全基因鳥槍法)十三.測序的主要方法?1鏈未端終止法(雙脫氧法)1)單鏈DNA分子及引物的準(zhǔn)備2)DNA合成原料四種dNTP還要四種雙脫氧核苷酸ddNTP3)合成反應(yīng)分為四組進(jìn)行。每一組加入一種ddNTP及四種正常的dNTP4)電泳分離2化學(xué)降解法(裂解法):化學(xué)試劑降解DNA片段,片段未端用放謝性同位素標(biāo)記,再測出序列。3自動測序:如ALFexpressTM全自動激光熒光核酸測序儀,利用電泳原理把熒光標(biāo)記的DNA片段通過測序膠電泳分離。4其他新的測序技術(shù):如DNA芯片雜交法等。十四.什么叫蛋白質(zhì)組學(xué)?蛋白質(zhì)組研究的理論基礎(chǔ)和技術(shù)路線?答:蛋白質(zhì)組學(xué)是以蛋白質(zhì)組為研究對象的新的研究領(lǐng)域,它分為:1表達(dá)蛋白質(zhì)組學(xué):研究細(xì)胞、組織中的蛋白,建立蛋白定量表達(dá)圖譜。2細(xì)胞圖譜蛋白質(zhì)組學(xué):確定蛋白質(zhì)在亞細(xì)胞結(jié)構(gòu)中的位置3功能蛋白質(zhì)組學(xué):細(xì)胞內(nèi)與某個功能有關(guān)或在某種條件下的一群蛋白質(zhì)。P264蛋白質(zhì)組研究的三大關(guān)鍵核心技術(shù)是:雙向凝膠電泳、質(zhì)譜鑒定技術(shù)、計算機(jī)圖像數(shù)據(jù)處理與蛋白質(zhì)組數(shù)據(jù)庫。蛋白質(zhì)組研究的理論基礎(chǔ):1從mRNA表達(dá)水平并不能預(yù)測蛋白表達(dá)水平。2蛋白質(zhì)的動態(tài)修飾和加工并非必須來自基因序列。3蛋白質(zhì)組是動態(tài)反映生物系統(tǒng)所處的狀態(tài)。蛋白質(zhì)組研究的技術(shù)路線:1蛋白質(zhì)組研究中的樣品制備:通常采用細(xì)胞或組織中的全蛋白質(zhì)組分進(jìn)行蛋白質(zhì)組分析。也可以根據(jù)蛋白質(zhì)溶解性和蛋白質(zhì)在細(xì)胞中不同的細(xì)胞器定位進(jìn)行分級。2雙向聚丙烯酰胺凝膠電泳:根據(jù)蛋白質(zhì)的等電點(diǎn)和分子量大小不同,進(jìn)行兩次電泳將之分離。第一向是等電聚焦,第二向是SDS-聚丙烯酰胺凝膠電泳。3蛋白質(zhì)點(diǎn)的染色:常用的方法有考馬斯亮染色法、銀染法、同位素標(biāo)記法。4凝膠圖像分析:將2-DE電泳結(jié)果通過圖像掃描儀、激光光密度儀等進(jìn)行數(shù)字化,建立雙向凝膠電泳圖譜。5蛋白質(zhì)特異點(diǎn)鑒定:1)氨基酸組成分析2)蛋白質(zhì)和多肽的N端、C端氨基酸序列分析3)質(zhì)譜技術(shù)6蛋白質(zhì)數(shù)據(jù)庫配比分析:在相關(guān)的蛋白質(zhì)數(shù)據(jù)庫查看相應(yīng)信息。十五.重要概念:1序列示蹤位點(diǎn)(STS):在人類基因組中只出現(xiàn)一次的的位置和序列已知的長約200~500bp的短DNA序列片段。2.信息學(xué):研究計算機(jī)和統(tǒng)計學(xué)技術(shù)在信息處理的應(yīng)用的科學(xué)。在基因組計劃中,信息學(xué)的內(nèi)容包括快速搜索數(shù)據(jù)庫方法的開發(fā)、DNA序列信息分析方法開發(fā)。3雙重序列對比:兩序列間的對比分析。常用的方法為Needle-Wunsch。4生物信息學(xué):是分子生物學(xué),信息技術(shù)與科學(xué),物理,教學(xué)等學(xué)科交叉、結(jié)合的產(chǎn)物。其研究核心是基因組信息及蛋白質(zhì)組學(xué)。研究目標(biāo)是揭示基因組信息的結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律。5人類基因組計劃(HGP):HGP目標(biāo):提供公開的,完全的,高質(zhì)量的含有30億bp的人類基因組全序列。2001.2完成并公布了準(zhǔn)確,清晰完整的人類基因組圖譜。6全基因組鳥槍法:首先把從細(xì)胞核中分離出來的DNA中每條染色體用超聲波分為小片段,打每一片段自動輸入一臺計算機(jī)進(jìn)行調(diào)整解碼,完成后的結(jié)果通過電子郵件傳給超級電腦,由其把一片段重新組裝成人體的23對染色體。7基因作圖:對DNA分子中基因的相對位置和距離進(jìn)行確定的過程。8基因組學(xué):某一物種的一套完整染色體組中的所有遺傳物質(zhì)。大小一般以堿基對總數(shù)表示。9.后基因組時代:揭示基因組及包含的全部基因的功能,以及對基因產(chǎn)物蛋白質(zhì)結(jié)構(gòu)和功能的研究和預(yù)測。10蛋白質(zhì)組:動態(tài)的概念:1和基因不一樣,不同組織和不同發(fā)育時期都不一樣。2基因在轉(zhuǎn)錄后,還有一系列的修飾,翻譯等過程都可以影響蛋白質(zhì)的表達(dá)。通過對蛋白質(zhì)組的研究,在此基礎(chǔ)上更能闡明遺傳、發(fā)育、進(jìn)行、功能調(diào)控等及與人類健康和疾病相關(guān)問題。11.測序標(biāo)簽位點(diǎn):(STS):一段長約200~500bp的特定DNA序列,每個STS序列位點(diǎn)對應(yīng)于基因組一個單獨(dú)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論