基因組序列注釋課件_第1頁
基因組序列注釋課件_第2頁
基因組序列注釋課件_第3頁
基因組序列注釋課件_第4頁
基因組序列注釋課件_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章基因組序列注釋1)搜尋基因2)基因功能預(yù)測3)基因功能檢測4)功能基因組研究1ppt課件.5.1搜尋基因基因注釋的依據(jù)1)根據(jù)基因結(jié)構(gòu)特征搜尋基因2)同源基因查詢3)實(shí)驗(yàn)確認(rèn)基因2ppt課件.5.1.1根據(jù)基因結(jié)構(gòu)特征搜尋基因開放讀框(openreadingframe)-隨機(jī)堿基排列的ORF長度預(yù)計(jì)不超過50個(gè)密碼子-基因的ORF一般多于100個(gè)密碼子內(nèi)含子與外顯子-密碼子偏愛:不同種屬之間使用同義密碼的頻率有很大差異,特定種屬有特征性的密碼子偏愛,這些序列在編碼區(qū)常常出現(xiàn)。-外顯子-內(nèi)含子邊界:內(nèi)含子5’端常見序列為AGGTAAGT,3’端常見序列為PyPyPyPyPyPyCAG(Py為T或C).3ppt課件.

密碼子偏愛4ppt課件.針對個(gè)別生物的策略

1)脊椎動(dòng)物許多基因的上游都有CpG島。2)水稻基因5’端含有很高的GC含量。5ppt課件.5.1.2同源基因查詢同源查詢:利用已存入數(shù)據(jù)庫中的基因序列與待查的基因組序列進(jìn)行比較,從中查找可與之匹配的堿基序列或蛋白質(zhì)序列及其比例用于識別基因的方法。同源查詢的依據(jù)是:現(xiàn)有生物的不同種屬之間具有功能或結(jié)構(gòu)相似的同源基因成員,它們在起源上一脈相承,存在保守的序列組成。一般認(rèn)為氨基酸的一致性或相似性在25%以上可視為同源基因。6ppt課件.

同源性,一致性和相似性的定義1)同源(homological)基因系指起源于同一祖先但順序已經(jīng)發(fā)生變異的基因成員,分布在不同物種間的同源基因又稱直系基因.同一物種的同源基因則稱水平基因,水平基因由重復(fù)后趨異產(chǎn)生.2)基因同源性只有“是”和“非”的區(qū)別,無所謂百分比.3)一致性(identity)系指同源DNA順序的同一堿基位置的相同的堿基成員,或者蛋白質(zhì)的同一氨基酸位置的相同的氨基酸成員,可用百分比表示.4)相似性(similarity)系指同源蛋白質(zhì)的氨基酸順序中一致性氨基酸和可取代氨基酸所占的比例.可取代氨基酸系指具有相同性質(zhì)如極性氨基酸或非極性氨基酸的成員,它們之間的代換不影響蛋白質(zhì)(或酶)的生物學(xué)功能.7ppt課件.相似性與一致性249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTV

IS--TS

GS注:紅色為一致性氨基酸,藍(lán)色為可取代氨基酸,白色為趨異氨基酸.

一致性氨基酸百分比為紅色氨基酸所占的比例.

相似性氨基酸百分比為紅色和藍(lán)色氨基酸相加所占的比例.8ppt課件.

同源查詢(DNA順序)1CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1802CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1151ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT2402ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT1759ppt課件.

同源查詢(氨基酸順序)氨基酸的同源性比DNA更為可靠,因?yàn)榻^大多數(shù)同源基因在功能上具有相似性,這種相似性體現(xiàn)在關(guān)鍵的氨基酸通常占據(jù)相同的位置。10ppt課件.

現(xiàn)有基因注釋軟件的特點(diǎn)1)目前基因注釋程序的編寫主要依據(jù)兩種信息內(nèi)涵:

1.signalterms(信號指令),如起始密碼,終止密碼,終止信號,剪接受體位與供體位順序,多聚嘧啶順序等保守的順序組成;2.contentterms(內(nèi)容指令),如密碼子使用偏好.2)常用的注釋軟如GenScan主要偏重于內(nèi)容指令,而FgeneSH則著重于信號指令.

對結(jié)構(gòu)緊湊的小基因組上述注釋軟件效果不錯(cuò),但對大基因組特別是超長基因的注釋有很大困難.在一個(gè)長度數(shù)十或數(shù)百kb的內(nèi)含子中,存在許多可能誤判的信號指令.在超長基因注釋中常出現(xiàn)正向錯(cuò)誤(false-positive,多注釋)或負(fù)向錯(cuò)誤(false-negetive,少注釋).

引自:NatureReviews/Genetics,4:741-749,2003.11ppt課件.基因自動(dòng)注釋軟件的問題1)基因注釋一般包括如下內(nèi)容:基因組DNA順序中確切的轉(zhuǎn)錄為mRNA的順序;外顯子和內(nèi)含子的位置;基因編碼的蛋白質(zhì)順序.2)在目前即使已有很好研究基礎(chǔ)的生物中,最好的計(jì)算機(jī)基因注釋程序?qū)γ總€(gè)外顯子注釋的準(zhǔn)確率也只能達(dá)到80%.如果一個(gè)基因有5個(gè)外顯子,整個(gè)基因注釋的準(zhǔn)確率為0.85=33%.3)基因注釋的軟件通常容易犯誤拼和誤拆的錯(cuò)誤,即將兩個(gè)基因歸在一個(gè),或者反過來.4)容易遺漏很小的外顯子,特別是保守性不強(qiáng)的基因.5)容易忽略小基因,尤其是基因內(nèi)基因.6)無法預(yù)測mRNA中5’-和3-’非翻譯區(qū)(UTR)的邊界,即很難確定轉(zhuǎn)錄起點(diǎn)與終點(diǎn).12ppt課件.不同注釋軟件比較1)目前基因組注釋的軟件絕大多數(shù)都是根據(jù)已有基因結(jié)構(gòu)的數(shù)據(jù)編寫的,具有很多的經(jīng)驗(yàn)成分.2)由于各家采用的注釋軟件不同,注釋結(jié)果有很大的差別,如人類基因組測序計(jì)劃(HGP)注釋的基因與Celara公司注釋的基因僅2/3一致.13ppt課件.不同注釋軟件之間的效率Performanceofthreepopulargenepredictionprogramson42semiartificialgenomicsequencescontaining178knownhumangenesequences(900exons).Sensitivity(敏感性)ispercentageofexonsthatarepredictedcorrectly.Specificity(專一性)ispercentageofpredictedexonsthatarecorrect.ReproducedwithchangesfromYadaetal.,2002ColdSpringHarborGenomeSequencingandBiologyMeeting,May7-11,2002.FGENESHisbyfarthemostaccurateofthreeprograms.效率與準(zhǔn)確率比較------------------------------------------------------------------------------------------programsensitivityspecificitymissedexon(%)wrongexon(%)------------------------------------------------------------------------------------------FGENESH77.165.79.623.2GenScan66.544.912.040.9HMMGene69.536.615.555.5------------------------------------------------------------------------------------------引自:/berry.phtml

14ppt課件.

5.1.3實(shí)驗(yàn)確認(rèn)基因?qū)嶒?yàn)確認(rèn)基因的依據(jù):任何基因都可轉(zhuǎn)錄為RNA拷貝。實(shí)驗(yàn)確認(rèn)基因的方法(1)分子雜交可確定DNA片段是否含表達(dá)序列(2)由EST和cDNA指認(rèn)基因(3)全長cDNA邊界序列文庫的構(gòu)建-確定基因的邊界15ppt課件.

(1)分子雜交確認(rèn)基因?qū)NA經(jīng)瓊脂糖凝膠電泳分離,然后轉(zhuǎn)移到雜交膜上,將待測DNA樣品標(biāo)記后與RNA雜交,如果RNA中含有DNA的轉(zhuǎn)錄產(chǎn)物,會(huì)顯示明顯的信號。16ppt課件.

(2)由EST和cDNA指認(rèn)基因EST(expressedsequencetag,表達(dá)序列標(biāo)簽):基因轉(zhuǎn)錄產(chǎn)物的一段cDNA序列。由于EST和cDNA是基因轉(zhuǎn)錄加工后的產(chǎn)物,可以確切無疑地代表相應(yīng)基因成員的存在。EST和cDNA是特定組織器官基因的表達(dá)產(chǎn)物,可初步判斷基因表達(dá)的場所,為基因功能研究提供線索。17ppt課件.(3)基因邊界的確定構(gòu)建全長cDNA邊界序列文庫,或稱基因鑒別信號(geneidentificationsignature,GIS):分離每個(gè)全長cDNA5’端和3’端各20個(gè)堿基序列。--------------------------基因1基因2基因318ppt課件.幾種模式生物注釋的基因總數(shù)大腸桿菌(E.coli):4800酵母(yeast):6200線蟲(nematode):19000果蠅(fly):13600擬南芥(Arabidopsis):25000水稻(rice):60000玉米(maize):59000(估計(jì)數(shù))老鼠(mouse):3000019ppt課件.5.1.4基因的命名和分類迄今為止國際上還沒有一個(gè)普遍公認(rèn)的適合所有生物種屬的基因命名規(guī)則.由于歷史,習(xí)慣以及其它各種原因,基因命名中常常存在許多同名歧義,或者同義歧名的現(xiàn)象.許多基因在生物的不同發(fā)育階段具有不同的功能,這一點(diǎn)也給準(zhǔn)確的基因命名造成了實(shí)際困難.很多科學(xué)家都希望基因的命名標(biāo)準(zhǔn)化,曾經(jīng)在1997年和1999年舉行了兩次有關(guān)基因命名的研討會(huì),但因研究領(lǐng)域的不同以及基因命名本身存在的復(fù)雜問題,無法達(dá)成一個(gè)統(tǒng)一的意見。目前不同生物種屬的基因命名規(guī)則仍由各相關(guān)領(lǐng)域的專家討論分別制定,然后推薦給研究者選擇采用.20ppt課件.基因注釋水平的分類Knowngene(已知基因):

與已知cDNA和蛋白質(zhì)順序同源的基因.Novelgene(新基因):

與其他物種cDNA或蛋白質(zhì)同源的基因.Noveltranscripts(新轉(zhuǎn)錄物):

與novel基因相似,但缺少明確的ORF.Putativegene(可能的基因):

有同源EST支持,但缺少cDNA或ORF.Predictedgene(預(yù)測基因):

數(shù)據(jù)庫中至少有一個(gè)外顯子支持,但缺少cDNA或明確的ORF.Pseudogene(假基因):與已知蛋白質(zhì)有50%的同源性,但

cDNA殘缺,在其它位點(diǎn)存在正常的同源基因的順序.

引自:Nature414:865-871,2001(人類22號染色體注釋)21ppt課件.5.2基因功能預(yù)測傳統(tǒng)的基因功能的研究方法是逐個(gè)進(jìn)行的,需要通過一系列的突變體篩選、基因功能互補(bǔ)等遺傳學(xué)和分子生物學(xué)程序予以檢測和驗(yàn)證。采用生物信息學(xué)進(jìn)行同源性比較來預(yù)測基因功能,蛋白質(zhì)結(jié)構(gòu)域是預(yù)測基因功能的主要依據(jù)。22ppt課件.同源基因都擁有一個(gè)共同的祖先基因,在漫長的進(jìn)化歲月中它們?nèi)匀槐3衷械纳飳W(xué)功能。同源基因有2類-直向同源基因:不同物種之間的同源基因,它們來自物種分隔之前的同一祖先。-共生同源基因:同一種生物內(nèi)部的同源基因,它們常常是多基因家族的不同成員。同源基因23ppt課件.1)任何基因編碼的蛋白質(zhì)都由一些在高級結(jié)構(gòu)水平具有特征性的功能域組成,如信號肽,

受體區(qū),激酶區(qū),DNA或RNA結(jié)合域等.2)功能域具有很強(qiáng)的保守性,關(guān)鍵的氨基酸組成及其排列位置是相當(dāng)保守的,是鑒定功能域的主要標(biāo)識.3)功能域是目前確定基因功能的主要依據(jù)之一.4)已由許多專門的功能域注釋軟件,可用于基因組順序的注釋.蛋白質(zhì)結(jié)構(gòu)域在功能預(yù)測中的意義24ppt課件.什么是結(jié)構(gòu)域或功能域(domain)?定義:結(jié)構(gòu)域指蛋白質(zhì)結(jié)構(gòu)中具有相對獨(dú)立的亞結(jié)構(gòu)區(qū),通常含有數(shù)個(gè)二級結(jié)構(gòu)基序,具有相對獨(dú)立的功能。1)Regionofaproteinwithadistincttertiarystructure(e.g,globularorrodlike)andcharacterristicactivity;homolgousdomainsmayoccurindifferentprotein.(引自“MolecularCellBiology”)2)Adiscretecontinuouspartoftheaminoacidsequenceofaproteinthatcanbeequatedwithaparticularfuction.(引自“GeneVII”)3)Portionofaproteinthathasatertiarystructureofitsown.Inlargerproteinseachdomainisconnectedtootherdomainbyshortflexibleregionsofpolypeptide.(引自“MolecularBiologyofTheCell”)25ppt課件.

RRM結(jié)合域26ppt課件.5.3基因功能檢測1.

基因剔除2.基因過表達(dá)3.突變體庫構(gòu)建4.抑制差減雜交5.RNA干擾與基因功能檢測27ppt課件.5.3.1基因剔除(knock-out)外源基因表達(dá)載體導(dǎo)入細(xì)胞后的命運(yùn)1)同源重組;2)隨機(jī)重組;3)未發(fā)生重組.如何識別與篩選轉(zhuǎn)化處理不同結(jié)局的胚胎干細(xì)胞?正負(fù)篩選法。28ppt課件.轉(zhuǎn)基因剔除胚胎干細(xì)胞的篩選29ppt課件.正負(fù)選擇法(postive-negativeselection)在基因打靶載體中克隆上兩個(gè)選擇標(biāo)記基因。neo基因叫做正選擇標(biāo)記基因,它編碼的新霉素磷酸轉(zhuǎn)移酸可抑制抗菌素G418的活性。因此,獲得了neo基因的轉(zhuǎn)化細(xì)胞,能夠在含有G418抗菌素的選擇培養(yǎng)基中生長、存活。HSV-tk基因叫做負(fù)選擇標(biāo)記基因,它編碼的單純瘧疾病毒胸苷激酶可以把核苷類似物GCV(聯(lián)合丙氧鳥苷)磷酸化,三磷酸化的GCV可通過抑制DNA合成酶活性或摻入DNA鏈中中止鏈的延長,從而造成細(xì)胞中毒死亡。因此,選擇培養(yǎng)基中的GCV能夠持異性地殺死表達(dá)HSV-tk基因的轉(zhuǎn)化細(xì)胞。30ppt課件.

基因剔

操作流程

31ppt課件.5.3.2基因的過表達(dá)用于功能檢測用兩種技術(shù)可使基因過量表達(dá)-增加基因的拷貝數(shù)-采用強(qiáng)啟動(dòng)子使基因超表達(dá)。32ppt課件.33ppt課件.5.3.3突變體庫構(gòu)建技術(shù)路線:1)利用天然的DNA轉(zhuǎn)座子構(gòu)建表達(dá)載體轉(zhuǎn)化受體細(xì)胞,當(dāng)轉(zhuǎn)座子活化時(shí)可被動(dòng)轉(zhuǎn)座并隨機(jī)插入受體細(xì)胞基因組引起基因突變.2)將轉(zhuǎn)化的發(fā)生轉(zhuǎn)座事件的細(xì)胞系再生獲得可遺傳的轉(zhuǎn)化子后代,觀測突變再生植株的表型變化,分離與克隆插入突變基因的結(jié)構(gòu)與功能.3)采用轉(zhuǎn)座子突變技術(shù)可重復(fù)地大規(guī)模誘導(dǎo)和篩選插入突變株系,進(jìn)行全基因組范圍的基因功能研究.34ppt課件.植物DNA轉(zhuǎn)座子35ppt課件.Ac-Ds突變體庫技術(shù)存在的問題1)程序復(fù)雜,需構(gòu)建多套轉(zhuǎn)化載體系統(tǒng)和轉(zhuǎn)化株系.2)必需經(jīng)過組織培養(yǎng)和細(xì)胞再生,容易激活內(nèi)源轉(zhuǎn)座子,產(chǎn)生干擾的非目標(biāo)的轉(zhuǎn)座事件.3)因植物基因組,特別是谷類作物均有高比例的重復(fù)冗余基因,可掩蓋插入突變的效應(yīng).4)插入突變絕大多數(shù)為隱性突變,需在純合條件下才可發(fā)現(xiàn)突變表型,周期較長.5)因插入位點(diǎn)的位置效應(yīng),易造成轉(zhuǎn)基因沉默.36ppt課件.5.3.4抑制差減雜交(SSH)程序(1)37ppt課件.抑制差減雜交(SSH)原理(2)1)TcDNA與過量DcDNA第一次雜交,凡與D群體相同的cDNA片段均被復(fù)性除去,剩余的為T群體特異的cDNA.2)TcDNA與過量DcDNA第一次雜交進(jìn)一步富集T群體特異cDNA片段.3)削減雜交后,TcDNA群體中存在a,b和c三種類型.4)混合A和B兩個(gè)TcDNA群體后,只有e類型可擴(kuò)增.38ppt課件.5.3.5RNAi在基因功能分析中的應(yīng)用1)如何發(fā)現(xiàn)RNAi2)什么是RNAi3)RNAi的分子機(jī)制39ppt課件.RNAi是如何發(fā)現(xiàn)的?RNA干擾現(xiàn)象最初發(fā)現(xiàn)于1995年,Cornell大學(xué)的研究人員Guo和Kemphues研究阻斷秀麗新小桿線蟲中的par-1基因時(shí),利用反義RNA(AntisenseRNA)技術(shù)特異性地阻斷par-1基因的表達(dá),同時(shí)在對照實(shí)驗(yàn)注射正義RNA(SenseRNA)以期觀察到基因表達(dá)的增強(qiáng)。但結(jié)果是二者都同樣地切斷了par-1

基因的表達(dá)途徑,這與傳統(tǒng)上對反義RNA技術(shù)的解釋相矛盾,但他們沒能給出合理解釋。直到1998年2月,AndrewFire和CraigMello首次揭開謎底,并把這種現(xiàn)象首次命名。他們證實(shí),Guo等遇到的正義RNA抑制基因表達(dá)的現(xiàn)象,以及過去有關(guān)反義RNA對基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論