生物信息學(xué)new07基因組分析_第1頁
生物信息學(xué)new07基因組分析_第2頁
生物信息學(xué)new07基因組分析_第3頁
生物信息學(xué)new07基因組分析_第4頁
生物信息學(xué)new07基因組分析_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章基因組分析什么是基因組(genome)?基因組分析及數(shù)據(jù)庫建立路線原核生物基因組的特征及其分析真核生物基因組的特征及其分析功能基因組學(xué)比較基因組學(xué)第一節(jié)什么是基因組(genome)?基因組(genome)是指包含在一種生物的DNA(部分病毒是RNA)中的全部遺傳信息。絕大部分基因組,包括所有的細(xì)胞生命形式的基因組,是由DNA組成;一些病毒具有RNA基因組;真核生物:指一個物種的單倍體染色體所含有的一整套基因和非編碼DNA;原核生物:一般只有一個環(huán)狀DNA分子,其上所有的基因和非編碼DNA為一個基因組;真核生物細(xì)胞中的細(xì)胞器(如葉綠體、線粒體等)中的DNA也為環(huán)狀,構(gòu)成葉綠體基因組、線粒體基因組?;蚪M的大小用堿基對(basepair,bp)的數(shù)量來表示:103為kb,106為Mb?;蚪M基因組大小(kb)型式病毒MS4單鏈RNASV405環(huán)狀雙鏈DNAX1745環(huán)狀單鏈DNASARS-CoV30單鏈RNA單純皰疹病毒152線性雙鏈DNAT2、T4、T6165天花267細(xì)菌支原體(M.hominis)760大腸桿菌(E.coli)4,600環(huán)狀雙鏈DNA真核生物單倍體染色體數(shù)目酵母(S.cerevisiae)13,00016線蟲(C.elegans)100,0006擬南芥(A.thaliana)100,0005果蠅(D.melanognater)165,0004人(H.sapiens)3,000,00023玉米(Z.mays)4,500,00010蠑螈(A.spp.)76,000,00014不同生物基因組大小的比較基因組大小與物種的關(guān)系基因組的大小大致上與物種進(jìn)化的復(fù)雜性相關(guān);大多數(shù)真核生物的基因組都比原核生物的基因組大,比原核生物的基因組復(fù)雜;隨著動物或植物進(jìn)化程度的上升,每個單倍體的DNA含量一般趨于增加,但是存在例外(C值佯謬);思考:為什么會出現(xiàn)“C值佯謬”?基因數(shù)目與物種的關(guān)系基因數(shù)目的多少大致上與物種進(jìn)化的復(fù)雜性相關(guān);在高等動植物中,巨大的基因組并不意味著有巨量的基因數(shù)目。人類究竟有多少個基因?理論上:根據(jù)基因組的大小,可具有106個基因“生物體的復(fù)雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?!?G.Rubin)5萬,6萬,7萬,8萬,14萬!……?4萬,3萬,……?打賭!基因數(shù)目猜獎(GeneSweepstake)生物學(xué)家們?yōu)槿祟惢虻臄?shù)目打賭生物學(xué)家們對基因組里到底有多少基因的猜測一直有極大的不同。2000年,在紐約冷泉港召開的一個會議上,他們設(shè)立了一美元一個(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由J.Watson親筆簽名的皮革封面《雙螺旋》一書。如果基因組是生命的天書,那么基因就是寫成這本書的詞匯。生物學(xué)家們一直假設(shè),微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬到10萬個基因。但是UCBerkly的果蠅基因組計劃的主任G.Rubin指出,果蠅的基因比我們所認(rèn)為的最簡單的線蟲少了5,000個。他警告說:“生物體的復(fù)雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?!?/p>

德國分子生物技術(shù)研究所的A.Rosenthal說,我們得出的結(jié)論是整個基因組有不多于4萬個基因。法國的分子遺傳學(xué)家H.R.Crollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計:在27,700與34,300之間。華盛頓大學(xué)的基因?qū)W家P.Green提出人類基因數(shù)大約為35,000。美國國家人類基因組研究所主任F.Collins表示他同意Green的估計,將他1美元的賭金下在48,011個基因上。但Rockville的基因組研究所(TIGR)的J.Quackenbush根據(jù)TIGR的人類基因指數(shù)的估計,將他的1美元賭在118,259個基因上。加州IncyteGenomics公司的S.LaBrie賭的基因數(shù)是153,478個,該公司在1999年9月曾宣布人類基因至少有14萬個。但是支持人類基因數(shù)目是一個較小數(shù)的科學(xué)家們也不灰心,他們爭論說生物體的復(fù)雜性來自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身。Rosenthal解釋說:“我們不需要那么多的基因成為高等動物,”他賭的是38,000個。你賭多少呢?基因輪盤賭(GeneSweepstake)

TheGeneSweepstakewillrunbetween2000and2003.Therulesare:Itcosts$1tomakeabetin2000,$5in2001and$20in2002.Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.Onebetperperson,peryear.Yeardefinedasacalendaryear.Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastGenesweepVotesVotedistributionWhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.Rowen'swagerat25,947isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,847.Likeallgoodgamblers,hernumberwas"astab";onerunner-uppicked27,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.HumangenenumberwagerwonGeneticistsdrawsweepstakedespiteuncertaintyoverfinaltally

3June2003人類基因數(shù)目之謎目前已經(jīng)發(fā)現(xiàn)和定位了26,000多個功能基因,其中尚有42%的基因尚不知道功能。原先曾經(jīng)預(yù)測人類約有14萬個基因,Celera公司現(xiàn)將人類基因總數(shù)定在26,383到39,114個之間,只是線蟲或果蠅基因數(shù)量的兩倍,人有而鼠沒有的基因只有300個。根據(jù)Ensembl數(shù)據(jù)庫得到的計算結(jié)果,目前的最新估計數(shù)目是24,847?;蚪M的大小和基因的數(shù)量在生命進(jìn)化上可能不具有特別重大的意義;人類的基因較其他生物體更“有效”。人類的復(fù)雜性更主要的體現(xiàn)在蛋白質(zhì)的復(fù)雜網(wǎng)絡(luò)中,即蛋白質(zhì)就是構(gòu)成生命的基本構(gòu)件。Celera公司首席科學(xué)家Venter認(rèn)為:“大部分的生物學(xué)行為發(fā)生在蛋白質(zhì)水平,而不是基因水平?!痹S多其他物種的基因組測序已經(jīng)完成或正在進(jìn)行。當(dāng)今已經(jīng)進(jìn)入后基因組時代,即功能基因組時代。種類數(shù)目備注古細(xì)菌(Archaea)53/78/124/160真細(xì)菌(Bacteria)619/985/1845/2528其中有的測定了2個以上的菌株真核生物(Eukaryo)76/100/152/170包括酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus)1527/2112/2685/3445包括不同亞類或不同株系類病毒(Viroid)47/51/56/58包括不同亞類或不同株系噬菌體(Phage)426/550/892/1464包括不同亞類或不同株系細(xì)胞器(Organelle)1412/2170/3240/4559包括線粒體和葉綠體質(zhì)粒(Plasmid)597/835/1021/1044(年2月/2010年4月/20132012年2月/2013年11月目前已完成測序10,000多個基因組Genomesthatspanthetreeoflifearebeingsequencedatarapidrate.Thereareseveralweb-basedresourcesthatdocumenttheprogress,including:GNN GenomeNewsNetwork

GOLD GenomesOnlineDatabase

PEDANT ProteinExtraction,Description&AnalysisTool

GenomeresourcesonlineTherearethreemainresourcesforgenomes:EBI EuropeanBioinformaticsInstitute

NCBI NationalCenterforBiotechnologyInformation

TIGR TheInstituteforGenomicResearch

Genomeresourcesonline[1]Selectionofgenomesforsequencing[2]Sequenceoneindividualgenome,orseveral?[3]Howbigaregenomes?[4]Genomesequencingcenters[5]Sequencinggenomes:strategies[6]Whenhasagenomebeenfullysequenced?[7]Repositoryforgenomesequencedata[8]Genomeannotation第二節(jié)基因組分析及數(shù)據(jù)庫建立路線[1]Selectionofgenomesforsequencingisbasedoncriteriasuchas:genomesize(someplantsare>>>humangenome)costrelevancetohumandisease(orotherdisease)relevancetobasicbiologicalquestionsrelevancetoagriculture[2]Sequenceoneindividualgenome,orseveral?Tryone…--Eachgenomecentermaystudyonechromosomefromanorganism--Itisnecessarytomeasurepolymorphisms(e.g.SNPs)inlargepopulations(November5)Forviruses,thousandsofisolatesmaybesequenced.Forthehumangenome,costistheimpediment.[3]Howbigaregenomes?Viralgenomes:1kbto350kb(Mimivirus:1181kb)Bacterialgenomes:0.5Mbto13MbEukaryoticgenomes:8Mbto686Mb(discussedfurtheronMonday,October17)virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidebasepairs10410810510610710111010109Thesizeofthehumangenomeis~3X109bp;almostallofitscomplexityisinsingle-copyDNA.Thehumangenomeisthoughttocontain~30,000-40,000genes.bonyfishamphibians

[4]20Genomesequencingcenterscontributedtothepublicsequencingofthehumangenome.ManyofthesearelistedattheEntrezgenomessite.[5]TherearetwomainstragiesforsequencinggenomesWholeGenomeShotgun(fromtheNCBIwebsite)Anapproachusedtodecodeanorganism'sgenomebyshreddingitintosmallerfragmentsofDNAwhichcanbesequencedindividually.Thesequencesofthesefragmentsarethenordered,basedonoverlapsinthegeneticcode,andfinallyreassembledintothecompletesequence.The'wholegenomeshotgun'(WGS)methodisappliedtotheentiregenomeallatonce,whilethe'hierarchicalshotgun'methodisappliedtolarge,overlappingDNAfragmentsofknownlocationinthegenome.HierarchicalshotgunmethodAssemblecontigsfromvariouschromosomes,thensequenceandassemblethem.Acontigisasetofoverlappingclonesorsequencesfromwhichasequencecanbeobtained.Thesequencemaybedraftorfinished.AcontigisthusachromosomemapshowingthelocationsofthoseregionsofachromosomewherecontiguousDNAsegmentsoverlap.Contigmapsareimportantbecausetheyprovidetheabilitytostudyacomplete,andoftenlargesegmentofthegenomebyexaminingaseriesofoverlappingcloneswhichthenprovideanunbrokensuccessionofinformationaboutthatregion.[6]Whenhasagenomebeenfullysequenced?Atypicalgoalistoobtainfivetoten-foldcoverage.Finishedsequence:acloneinsertiscontiguouslysequencedwithhighqualitystandardoferrorrate0.01%.Thereareusuallynogapsinthesequence.Draftsequence:clonesequencesmaycontainseveralregionsseparatedbygaps.Thetrueorderandorientationofthepiecesmaynotbeknown.[7]RepositoryforgenomesequencedataRawdatafrommanygenomesequencingprojectsarestoredatthetracearchiveatNCBIorEBI(mainNCBIpage,bottomright)BlastnsearchofhumantracearchivewithhumanRBP4[8]GenomeannotationInformationcontentingenomicDNAincludes:--repetitiveDNAelements--nucleotidecomposition(GCcontent)--protein-codinggenes,othergenesThesetopicswillbediscussedlater.第三節(jié)原核生物基因組的特征及其分析一、原核生物基因組結(jié)構(gòu)的特點1、原核生物基因組一般比真核生物基因組小得多E.coli的基因組(4.6Mb)約為酵母基因組(12.1Mb)的2/52、絕大部分原核生物基因組由一個單一的環(huán)狀DNA分子組成3、原核生物的基因通常比真核生物的少E.coli:4000多個基因,人:~25000個4、基因組結(jié)構(gòu)緊密,重復(fù)序列遠(yuǎn)少于真核生物的基因組。例子:E.coliK-12

雙鏈環(huán)狀DNA分子,全基因組長為4,600kb;目前已經(jīng)定位的基因有4,289個;非編碼區(qū)占的比例約為11.4%。5、長開放閱讀框(ORF,openreadingframe)若終止密碼子出現(xiàn)在非編碼核酸序列中,大約每21個密碼子出現(xiàn)一次(3/64)絕大部分原核生物蛋白質(zhì)的長度大于60個氨基酸;——(E.coli:蛋白質(zhì)編碼區(qū)域平均長度為316.8個密碼子,不到1.8%的基因的長度小于60個密碼子)長ORF表明該區(qū)域可能對應(yīng)于一個原核生物基因的編碼序列——從統(tǒng)計學(xué)角度來看,如果所有的密碼子在隨機的核酸序列中以相同的頻率出現(xiàn),則不含終止密碼子且長度為N個密碼子的序列出現(xiàn)的概率為(61/64)N。長度為N的ORF的95%顯著性置信度等價于5%“隨機”命中的可能性,即(61/64)N=0.05,這里N等于60,表示典型長度的ORF中密碼子的數(shù)目。6、高基因密度原核生物基因組的許多信息都是為了維持細(xì)胞的基本功能,如構(gòu)造和復(fù)制DNA,產(chǎn)生新蛋白質(zhì),以及獲得和存儲能量。完全測序的細(xì)菌和古細(xì)菌的基因組數(shù)據(jù)表明,其中85%到88%的核酸序列與基因的編碼直接相關(guān)。例如,在E.coli中總共有4,289個基因,平均編碼長度約為950bp,而基因之間的平均間隔長度只有~120bp。7、連續(xù)的基因結(jié)構(gòu)與真核基因結(jié)構(gòu)相比較,原核基因的結(jié)構(gòu)相對簡單。原核基因為連續(xù)基因,其編碼區(qū)是一個完整的DNA片段。但原核基因的轉(zhuǎn)錄起始、翻譯起始的調(diào)控機制比較復(fù)雜。完整的基因結(jié)構(gòu)從基因的5’-端啟動子區(qū)域開始,到3’-端終止區(qū)結(jié)束?;虻霓D(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定,轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束,轉(zhuǎn)錄的內(nèi)容包括5’UTR、開放閱讀框以及3’UTR。基因翻譯的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框。8、原核基因組中的GC含量堿基G、C相對于A、T的豐度很早就被看作是區(qū)分細(xì)菌基因組的特征之一。不同的原核生物中,GC含量(GCcontent)從25%到75%,變化非常大。每種細(xì)菌的GC含量與其在漫長的進(jìn)化過程中DNA聚合酶的突變偏性以及DNA修復(fù)機制有關(guān)。因此,在整個細(xì)菌基因組中堿基對G/C與A/T的相對比值通常是一致的。隨著越來越多的原核生物基因組測序的完成,對其GC含量的分析表明,大部分細(xì)菌是通過從其它生物體大規(guī)模獲得基因(長度為幾萬甚至幾十萬個核苷酸)而進(jìn)化的,這個過程稱為基因水平轉(zhuǎn)移(horizontalgenetransfer)。因此,細(xì)菌基因組中具有不同GC含量的區(qū)域可以反映細(xì)菌的進(jìn)化歷史。二、原核生物基因組研究的主要方法1、原核基因組的測序獲得所研究生物的全基因組DNA序列測序方法:鏈終止法。一次測序反映只能測幾百個堿基對。序列的拼接方法。2、原核基因組的序列解讀通過結(jié)合計算機分析、試驗驗證等手段,初步定位基因及其調(diào)控區(qū)并闡明基因的功能。發(fā)展原核基因組的基因及其功能識別算法是基因組的計算機分析的重要目標(biāo)。三、當(dāng)前著名的原核基因預(yù)測軟件1、GeneMark系列軟件(包括最新版本GeneMarkS)Borodovsky等,1993~2001

2、Glimmer2.02(Salzberg等,1999),downloadfrom:

3、ZCURVE1.0,張春霆等,1991-2003,downloadfrom:

4、FGENESB:BacterialOperonandGenePredictionrams&subgroup=gfindb一、真核生物基因組的特征基因組規(guī)模大第四節(jié)真核生物基因組的特征及其分析Thehaploidgenomesizeofeukaryotes,calledtheCvalue,variesenormously.Smallgenomesinclude:Encephalotiozooncuniculi(2.9Mb)Avarietyoffungi(10-40Mb)Takifugurubripes(pufferfish)(365Mb)(samenumberofgenesasotherfishorasthehumangenome,but1/10ththesize)Largegenomesinclude:Pinusresinosa(Canadianredpine)(68Gb)Protopterusaethiopicus(Marbledlungfish)(140Gb)Amoebadubia(amoeba)(690Gb)一、真核生物基因組的特征基因組規(guī)模大復(fù)雜的基因結(jié)構(gòu)、基因調(diào)控和可變剪接方式密碼子使用偏性CpG島和等值區(qū)第三節(jié)真核生物基因組的特征及其分析真核生物基因組的GC含量的差別沒有在原核生物間觀察到的那么明顯,但是CG兩聯(lián)核苷酸(常稱作CpG,以表明連接兩個核苷酸的磷酸二脂鍵)的出現(xiàn)頻率僅為其隨機出現(xiàn)的頻率的20%,而沒有發(fā)現(xiàn)其它核苷酸對有異常的出現(xiàn)頻率。然而,在許多人類基因5’-端的1~2kb片段中發(fā)現(xiàn)一個有趣的例外,即CpG島(CpGisland)。這些CpG島的密度達(dá)到隨機預(yù)測的水平。對人類基因組全長序列的分析結(jié)果表明,大約有45,000這樣的島,并且有一半左右與已知的管家基因(housekeepinggene,指在所有組織和在發(fā)育的所有階段都高水平表達(dá)的基因)是有關(guān)聯(lián)的,其余的CpG島有許多似乎是和組織特異性基因的啟動子相關(guān)聯(lián)的。CpG島很少出現(xiàn)在不含基因的區(qū)域和那些發(fā)生多次突變的基因中。20304050607080GCcontent(%)VertebratesInvertebratesPlantsBacteria3510NumberofspeciesineachGCclass5105GCcontentvariesacrossgenomes在大多數(shù)真核細(xì)胞DNA中,CpG島與一種重要的化學(xué)修飾—甲基化(methylation)密切相關(guān)。甲基化作用似乎是導(dǎo)致CpG在整個基因組中含量極少的主要原因,因為甲基化后的胞嘧啶特別容易發(fā)生突變(特別是突變成TpG和CpA)。DNA甲基化水平高的區(qū)域中組蛋白(真核細(xì)胞中重要的DNA組裝蛋白)乙?;降?,反之也成立。低水平的DNA甲基化及高水平的組蛋白乙?;c基因高水平表達(dá)也有很強的相關(guān)性。5.巨大的非編碼序列

就人類基因組而言,編碼區(qū)域在人類基因組所占的比例不超過3%。其余97%是非編碼序列,而在非編碼序列中,各種重復(fù)序列占了近50%。FivemainclassesofrepetitiveDNAInterspersedrepeatsProcessedpseudogenesSimplesequencerepeatsSegmentalduplicationsBlocksoftandemrepeatsFivemainclassesofrepetitiveDNAInterspersedrepeats(transposon-derivedrepeats)constitute~45%ofthehumangenome.TheyinvolveRNAintermediates(retroelements)orDNAintermediates(DNAtransposons).Long-terminalrepeattransposons(RNA-mediated)Longinterspersedelements(LINEs); theseencodeareversetranscriptaseShortinterspersedelements(SINEs)(RNA-mediated); theseincludeAlurepeatsDNAtransposons(3%ofhumangenome)FivemainclassesofrepetitiveDNAInterspersedrepeats(transposon-derivedrepeats)FivemainclassesofrepetitiveDNAInterspersedrepeats(transposon-derivedrepeats)Examplesincluderetrotransposedgenesthatlackintrons,suchas:ADAM20 NM_003814 14q(originalgeneon8p)Cetn1 NM_004066 18p(originalgeneonXq)Glud2 NM_012084 Xq(originalgeneon10q)Pdha2 NM_005390 4q(originalgeneonXp)FivemainclassesofrepetitiveDNAProcessedpseudogenesThesegeneshaveastopcodonorframeshiftmutationanddonotencodeafunctionalprotein.Theycommonlyarisefromretrotransposition,orfollowinggeneduplicationandsubsequentgeneloss.Forasuperbon-lineresource,visitMarkGerstein’swebsite,FivemainclassesofrepetitiveDNA3.SimplesequencerepeatsMicrosatellites:fromonetoadozenbasepairs Examples:(A)n,(CA)n,(CGG)n Thesemaybeformedbyreplicationslippage.Minisatellites:adozento500basepairsSimplesequencerepeatsofaparticularlengthandcompositionoccurpreferentiallyindifferentspecies.Inhumans,anexpansionoftripletrepeatssuchasCAGisassociatedwithatleast14disorders(includingHuntington’sdisease).Exampleofasimplesequencerepeat(CCCAorGGGT)inhumangenomicDNAFivemainclassesofrepetitiveDNA4.Segmentalduplications(pseudogene,geneduplicates)Theseareblocksofabout1kilobaseto300kbthatarecopiedintra-orinterchromosomally.EvanEichlerandcolleaguesestimatethatabout5%ofthehumangenomeconsistsofsegmentalduplications.Duplicatedregionsoftenshareveryhigh(99%)sequenceidentity.Asanexample,consideragroupoflipocalingenesonhumanchromosome9.Successivetandemgeneduplications(afterLacazetteetal.,2000)observedtodaySuccessivetandemgeneduplications(afterLacazetteetal.,2000)Successivetandemgeneduplications(afterLacazetteetal.,2000)FivemainclassesofrepetitiveDNA5.BlocksoftandemrepeatsTheseincludetelomericrepeats(e.g.TTAGGGinhumans)andcentromericrepeats(e.g.a171basepairrepeatofasatelliteDNAinhumans).SuchrepetitiveDNAcanspanmillionsofbasepairs,anditisoftenspecies-specific.Exampleoftelomericrepeats(obtainedbytblastnsearchingTTAGGG4)FivemainclassesofrepetitiveDNA5.BlocksoftandemrepeatsIntwoexceptionalcases,chromosomeslacksatelliteDNA:Saccharomycescerevisiae(verysmallcentromeres)Neocentromeres(anectopiccentromere;60havebeendescribedinhuman,oftenassociatedwithdisease)1.RepetitiveDNAsearching:RepeatMaskerisaprogramthatsearchesDNAqueriesagainstRepBase.TherearemanyRepeatMaskersitesavailableon-line.

Wewilluse100,000basepairsfromhumanchromosome10asanexample.Thisregion(fromNT_008769)includestheretinol-bindingprotein4gene.二、真核生物基因組分析及相關(guān)軟件RepeatMaskeridentifiessimplesequencerepeatsRepeatMaskeridentifiesAlurepeatsRepeatMaskermasksrepetitiveDNA(FASTAformat)2.SNPsearching:

/sites/entrez?db=snp&TabCmd=Limits3.CpGislandssearching:

4.Transcriptionfactorssearching:EPD-EukaryoticPromoterdb

TRANSFAC-Transcriptionfactorsdb(Requireslog-in)

TESS:TranscriptionElementSearchSystem

Twoofthebiggestchallengesinunderstandinganyeukaryoticgenomearedefiningwhatageneis,andidentifyinggeneswithingenomicDNA5.GenefindingTypesofgenesincludeprotein-codinggenespseudogenesfunctionalRNAgenes --tRNA transferRNA --rRNA ribosomalRNA --snoRNA smallnucleolarRNA --snRNA smallnuclearRNA --miRNA microRNA5.GenefindingtRNAscan-SEidentifies99to100%oftRNAmolecules,witharateof1falsepositiveper15gigabases.VisitProtein-codinggenesarerelativelyeasytofindinprokaryotes,becausethegenedensityishigh(aboutonegeneperkilobase).Ineukaryotes,genedensityislower,andexonsareinterruptedbyintrons.Thereareseveralkindsofexons: --noncoding --initialcodingexons --internalexons --terminalexons --somesingle-exongenesareintronless5.GenefindingEukaryoticgenepredictionalgorithmsdistinguishseveralkindsofexonsGene-findingalgorithmsHomology-basedsearches(“extrinsic”) RelyonpreviouslyidentifiedgenesAlgorithm-basedsearches(“intrinsic”) Investigatenucleotidecomposition,open- readingframes,andotherintrinsic propertiesofgenomicDNA常用真核基因預(yù)測軟件(1)、FGENEH作者:Solovyev等,1995所用算法:LDA(LinearDiscriminantAnalysis)方法(2)、GeneID作者:Guigo等,1992所用算法:法則系統(tǒng)(Rule-basedSystem)算法(3)、GeneParser作者:Snyder和Stormo,1993所用算法:動態(tài)規(guī)劃算法(DynamicProgramming)(4)、Genie作者:Henderson等,1997所用算法:廣義隱Markov模型(GeneralizedHiddenMarkovModel)方法、動態(tài)規(guī)劃算法(5)、GenLang作者:Dong和Searls,1994所用算法:語言學(xué)方法(Linguistic)(6)、GENESCAN作者:Burge和Karlin,1997所用算法:隱Markov模型(HiddenMarkovModel)方法、動態(tài)規(guī)劃算法(7)、HEXON作者:Solovyev等,1994所用算法:LDA(LinearDiscriminantAnalysis)方法、動態(tài)規(guī)劃算法(8)、VEIL作者:Krogh等,1994所用算法:隱Markov模型(HiddenMarkovModel)方法、動態(tài)規(guī)劃算法(9)、GRAIL作者:EdUberbacher等,1996atoolthatidentifiesexons,polyAsites,promoters,CpGislands,repetitiveelements,andframeshifterrorsinDNAsequencesbycomparingthemtoadatabaseofknownhumanandmousesequenceelements目前常用軟件的基因預(yù)測結(jié)果評估(Rogic等,2001)目前的各種算法還存在許多缺陷需進(jìn)一步改進(jìn),主要表現(xiàn)在以下兩點:(1)、這些算法對基因中的非編碼區(qū)(即內(nèi)含子)和基因間的序列不加任何區(qū)別,所以預(yù)測出的基因是不完全的,而對5’和3’非翻譯區(qū)(UTR)的預(yù)測基本上還是空白;(2)、這些算法的學(xué)習(xí)依賴性較強。如同源比較算法是完全依賴于已知的基因序列,而HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進(jìn)行學(xué)習(xí)或訓(xùn)練。

Tryusingtheon-linegenomeannotationpipelineofferedbyOakRidgeNationalLaboratory.GoogleORNLpipeline,orvisit

5.GenefindingOakRidgeNationalLaboratory(ORNL)offersanon-lineannotationpipelineWeused100,000basepairsofhumanDNA.ThepipelinecorrectlyidentifiedseveralexonsofRBP4,butfailedtogenerateacompletegenemodel.

功能基因組學(xué)是指在全基因組序列測定的基礎(chǔ)上,從整體基因水平研究基因及基因組非編碼序列的功能,包括基因在不同時間、空間、條件的結(jié)構(gòu)與功能的關(guān)系及活動規(guī)律的學(xué)科。第五節(jié)功能基因組學(xué)(一)鑒定DNA序列中的基因(二)同源搜索預(yù)測基因功能(三)實驗性鑒定基因功能(四)基因表達(dá)的時空及調(diào)控模式主要具體內(nèi)容包括以下方面功能基因組學(xué)研究策略及主要內(nèi)容基因表達(dá)數(shù)據(jù)的網(wǎng)絡(luò)資源歐洲生物信息學(xué)研究所(EBI)與德國腫瘤研究中心(DKFZ)在1999年成立了MGED討論組(TheMicroarrayGeneExpressionData)。MGED()是一個國際性的成員聯(lián)盟。收集、存貯微陣列基因表達(dá)數(shù)據(jù)的最有影響的數(shù)據(jù)庫和網(wǎng)站是:GEO(/geo)是由NCBI在2000年開發(fā)的一個基因表達(dá)和雜交微陣列數(shù)據(jù)倉庫。

ArrayExpress(ss/)是基于基因表達(dá)數(shù)據(jù)的微陣列公共知識庫,目的是存儲被注釋的數(shù)據(jù),當(dāng)前包含多個基因表達(dá)數(shù)據(jù)集和與實驗相關(guān)的原始圖像集。SMD()存儲有微陣列實驗的原始數(shù)據(jù)、歸一化數(shù)據(jù)和對應(yīng)的圖像文件。比較基因組學(xué)(comparativegenomics)是通過對不同物種整個基因組的比較、分析,來研究每個基因組結(jié)構(gòu)、功能和進(jìn)化關(guān)系的學(xué)科。

Comparativegenomicsisthestudyofthedifferencesandsimilaritiesingenomestructureandorganizationindifferentorganisms.Comparativegenomicsistheanalysisandcomparisonofgenomesfromdifferentspecies.Thepurposeistogainabetterunderstandingofhowspecieshaveevolvedandtodeterminethefunctionofgenesandnoncodingregionsofthegenome.第六節(jié)比較基因組學(xué)比較基因組學(xué)(Comparativegenomics)1

種間比較基因組學(xué)研究1.1

全基因組的比較研究1.2

系統(tǒng)發(fā)生的進(jìn)化關(guān)系分析2

種內(nèi)比較基因組學(xué)研究2.1

單核苷酸多態(tài)性2.2

拷貝數(shù)多態(tài)性1.種間比較基因組學(xué)研究

通過對不同親緣關(guān)系物種的基因組序列進(jìn)行比較,能夠鑒定出編碼序列、非編碼調(diào)控序列及給定物種獨有的序列。而基因組范圍之內(nèi)的序列比對,可以了解不同物在核苷酸組成、同線性關(guān)系和基因順序方面的異同,進(jìn)而得到基因分析預(yù)測與定位、生物系統(tǒng)發(fā)生進(jìn)化關(guān)系等方面的信息。1.1全基因組的比較研究比較基因組學(xué)的基礎(chǔ)是相關(guān)生物基因組的相似性。兩種具有較近共同祖先的生物,它們之間具有種屬差別的基因組是由祖先基因組進(jìn)化而來,兩種生物在進(jìn)化的階段上越接近,它們的基因組相關(guān)性就越高。如果生物之間存在很近的親緣關(guān)系,那么它們的基因組就會表現(xiàn)出同線性(synteny),即基因序列的部分或全部保守。這樣就可以利用?;蚪M之間編碼順序上和結(jié)構(gòu)上的同源性,通過已知基因組的作圖信息定位另外基因組中的基因,從而揭示基因潛在的功能、闡明物種進(jìn)化關(guān)系及基因組的內(nèi)在結(jié)構(gòu)。1.2系統(tǒng)發(fā)生的進(jìn)化關(guān)系分析比較基因組學(xué)同樣以進(jìn)化理論作為理論基石,同時其研究結(jié)果又前所未有地豐富和發(fā)展了進(jìn)化理論。當(dāng)在兩種以上的基因組間進(jìn)行序列比較時,實質(zhì)上就得到了序列在系統(tǒng)發(fā)生樹中的進(jìn)化關(guān)系。基因組信息的增多使得在基因組水平上研究分子進(jìn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論