版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第八章基因組測序與分析第一節(jié)基因組計劃1、人類基因組計劃簡介人類基因組計劃準備用15年時間,投入30億美元,完成人類全部24條染色體的3×109脫氧核苷酸對(bp)的序列測定,主要任務包括作圖(遺傳圖譜、物理圖譜的建立及轉(zhuǎn)錄圖譜的繪制)、測序和基因識別。其中還包括模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組的作圖和測序,以及信息系統(tǒng)的建立。作圖和測序是基本的任務,在此基礎上解讀和破譯生物體生老病死以及和疾病相關的遺傳信息基因組——一個物種中所有基因的整體組成采集5個自愿者的DNA樣品構建3種不同插入子大小的基因組文庫2Kb,10Kb和50Kb完成約2700萬次插入子末端測序,總長14800MbGeneBank下載104018個BAC末端順序PFP發(fā)表的公開數(shù)據(jù)主要為BAC克隆的順序,共4443.3Mb隨機測序與序列組裝方法指導測序與序列組裝方法相結合進行序列組裝A.CeleraGenomics人類基因組的測序策略B國際人類基因組測序策略構建BAC克隆↓限制性酶處理獲得指紋↓根據(jù)指紋重疊方法組建BAC克隆重疊群↓根據(jù)STS標記,將BAC克隆重疊群標定在物理圖上↓每個BAC克隆內(nèi)部采用鳥槍法測序,組裝↓將BAC插入順序與BAC克隆指紋極重疊群對比,將已閱讀的順序錨定到物理圖上兩種策略的比較鳥槍法策略指導測序策略不需背景信息構建克隆群
(遺傳、物理圖譜)時間短需要幾年的時間需要大型計算機得到的是草圖(Draft)得到精細圖譜4.單核苷酸多態(tài)性人類99.9%的基因密碼是相同的,而差異不到0.1%,不同人群僅有140萬個核苷酸差異。這些差異是由“單一核苷酸多樣性”(SNP)產(chǎn)生的,它構成了不同個體的遺傳基礎,個體的多樣性被認為是產(chǎn)生遺傳疾病的原因。在整個基因組序列中,人與人之間的變異僅為萬分之一,從而說明人類不同“種屬”之間并沒有本質(zhì)上的區(qū)別。
5.Shotgun測序及分析DNA的提取和純化載體預備:和DNA片斷結合,從而能夠在細菌中擴增。DNA片段的制備:將DNA用超聲波切成能夠測序的小片斷轉(zhuǎn)化培養(yǎng):小片斷和載體結合,植入細菌中進行擴增。提質(zhì)粒:從細菌中提取出繁殖好的質(zhì)粒電泳檢測:檢測質(zhì)量的好壞測序:上測序儀測序還沒有完!拼接!?。∫驗檎麄€基因組太長(上M),而每次只能測得一個500的小片斷(read)問題:如何根據(jù)read恢復原始順序?類比:10本圣經(jīng),都從隨機點起始剪成500個字母左右的小紙條,問:給你這么一堆小紙條,你能讀出圣經(jīng)來嗎?但是都會拼錯!Shotgun法序列拼接ConsensusSequenceGap
LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)拼接錯誤:Repeat的存在
各重疊群間仍有間隙
順序間隙
物理間隙
↓↓
載體或宿主菌選用不當而被丟失的序列測序時遺漏的測序解決辦法:通過相鄰已知順序作為探針篩選已有的基因組文庫解決辦法:利用其它宿主菌與載體重新構建文庫運用計算機軟件進行序列拼接FrancisCollinsVS.J.CraigVenter7.模式生物的基因組測序酵母大腸桿菌果蠅線蟲老鼠
水稻基因組測序水稻是全球半數(shù)以上人口的主食,對解決全球糧食問題具有重要意義。2002年我國科學家完成了水稻基因組定序和初步分析。出人意料的是,水稻的基因竟比人類基因還要多得多。人類基因大約有3萬多個,水稻有4萬多個基因。水稻基因組可說是繼人類基因組之后,完成定序的最大基因組,也是至今已知最大的植物基因組。8.人類基因組計劃對醫(yī)學事業(yè)的影響
促進對致病基因的克隆疾病的預測與診斷如果掌握了與某種疾病相關的基因及突變,則可以對該疾病進行預測、診斷?;虔煼ǖ陌l(fā)展與應用通過生物學、醫(yī)學等技術對疾病相關基因進行抑制或調(diào)控,即可達到治療某一疾病的效果。第二節(jié)DNA片段組裝大規(guī)?;蚪M測序得到待測序列的一系列序列片段這些序列片段覆蓋待測序列序列片段之間也存在著相互覆蓋或者重疊。
目標序列序列碎片(1)堿基標識錯誤1.片段組裝的4個主要問題
(4)缺少覆蓋(gap)2、序列片段組裝過程 序列片段組裝過程三個步驟:首先進行序列片段的兩兩比較,確定可能的片段之間的覆蓋(或者重疊);確定所有片段統(tǒng)一的覆蓋模式,即確定各個序列片段的相對位置;最后確定片段組裝結果,即確定目標序列。
1、基因組DNA的奧秘遺傳信息存貯在4種字符組成的核酸序列中“天書”——用遺傳語言書寫的人類遺傳藍本 包含的信息量巨大 更重要的是目前人類對它了解甚少 天書中只有4個字符(堿基A、T、G、C) 既沒有段落,也沒有標點符號 是一個長度為3×109的一維序列。
第三節(jié)基因組DNA序列分析科學家對這本天書了解最多的部分就是遺傳密碼密碼子的特點(1)密碼子的使用是非隨機的 如果密碼子的第一、第二位堿基是A、U,那么第三位將盡可能使用G、C;反之亦然。如果三位都用G、C,則配對容易,分解難;三位都用A、U,則相反。一般地說,高表達的基因,要求翻譯速度快,要求密碼子和反密碼子配對快、分手也快。(2)密碼子的使用有一定的統(tǒng)計規(guī)律對同義密碼子的使用存在著偏愛不同種屬偏愛的密碼子不同人類基因組: 密碼子第三位取A、U的情況占90%
而第三位取G、C僅占10%密碼子的使用偏愛性與基因功能
蛋白質(zhì)結構相關
(3)密碼子中的密碼三個堿基的位置與所編碼的氨基酸性質(zhì)存在著聯(lián)系例如:芳香族氨基酸——以U作為第一位堿基中間位置堿基的性質(zhì)與氨基酸是親疏水性相關疏水氨基酸的密碼子,其第二位堿基是U親水氨基酸的密碼子,其第二位堿基是A第二位堿基是G、C的密碼子所編碼的氨基酸親水性、疏水性居中。
基因組信息人類基因組:編碼區(qū)域只占1%-3%
對于非編碼序列,尚不清楚其含義或功能非編碼區(qū)域?qū)τ谏顒泳哂兄匾囊饬x包括內(nèi)含子、簡單重復序列、移動元件、偽基因重復序列:
衛(wèi)星(satellite)DNA
小衛(wèi)星(mini-satellite)DNA
微衛(wèi)星(micro-satellite)順式調(diào)控元件:
啟動子、增強子、沉默子2、探索遺傳語言
用語言學的方法進行研究 自然語言 計算機程序設計語言 遺傳語言二進制序列0、1的長程關聯(lián)性分析結果: 編碼區(qū)域——自然語言蛋白質(zhì)編碼區(qū)域所包含的信息相當于待加工的“數(shù)據(jù)”,數(shù)據(jù)經(jīng)過加工處理以后產(chǎn)生對應的蛋白質(zhì); 非編碼區(qū)域——程序設計語言而非編碼區(qū)域則相當于“程序”或“指令”,確定如何在時間和空間方面控制基因的表達和蛋白質(zhì)的合成
用密碼學方法進行研究 是否存在其它密碼?
——調(diào)控信息密碼?
——蛋白質(zhì)結構的密碼?編碼在DNA上的一維程序如何在四維時空中控制生命體的生長發(fā)育???3、關于生物復雜性
生物的復雜性不僅僅是基因的數(shù)目 人類基因約為30000個 線蟲有20000個基因230000/220000=210000≌103000
4、基因組計劃帶來的希望實驗數(shù)據(jù)的積累速度在迅速地增加計算機科學和技術也在不斷地發(fā)展
單個基因組分析
基因序列
基因功能 基因的表達調(diào)控 基因產(chǎn)物 基因多態(tài)性比較基因組分析
物種關系 物種進化 物種起源人、鼠基因組比較人基因組鼠基因組注:鼠染色體上的顏色和數(shù)字代表在人染色體上對應的片段。老鼠約75%的基因與人類相同。第四節(jié)基因組序列詮釋問題基因組序列所包含的全部遺傳信息是什么?基因組作為一個整體如何行使其功能?用什么方法尋找基因,研究基因地功能呢?主要內(nèi)容尋找基因獲取基因的全長cDNA序列確定DNA順序中基因的位置研究基因的功能基因表達蛋白質(zhì)組學1.尋找基因1.1根據(jù)開放讀碼框預測基因
起始密碼子ATG第一個ATG的確定則依據(jù)Kozak規(guī)則(基于已知數(shù)據(jù)的統(tǒng)計結果,即第一個ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計規(guī)律。)若將第一個ATG中的堿基A,T,G分別標為1,2,3位,則Kozak規(guī)則可描述如下:第4位的偏好堿基為G;ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;在-3,-6和-9位置,G是偏好堿基;除-3,-6和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基。信號肽分析
信號肽分析軟件(SignalPhttp://)把預測過程中證實含完整mRNA5’端的Contig翻譯為蛋白序列;
然后用SignalP軟件對前50個氨基酸序列(從第一個ATG對應的甲硫氨酸Met開始)進行評估,如果SignalP分析給出正面結果,則測試序列有可能為信號肽;
假如在該測試序列的第一個Met5’端存在終止密碼子,該序列為信號肽的可能性更大。終止密碼子
終止密碼子:TAA,TAG,TGAGC%=50%終止密碼子每64bp出現(xiàn)一次;
GC%>50%終止密碼子每100-200bp
出現(xiàn)一次;由于多數(shù)基因ORF均多于50個密碼子,因此最可能的選擇應該是ORF不少于100個密碼子。
3’端的確認
3’端的確認主要根據(jù)Poly(A)尾序列,若測試Contig不含Poly(A)序列,則根據(jù)加尾信號序列“AATAAA”和BLAST同源性比較結果共同判斷。非編碼序列、內(nèi)含子
高等真核生物多數(shù)外顯子長度不少于100個密碼子,有的不到50個密碼子甚至更少;密碼子偏愛性
編碼同一氨基酸的不同密碼子稱為同義密碼,其差別僅在密碼子的第3位堿基不同。不同種屬間使用同義密碼的頻率有很大差異,如人類基因中,丙氨酸(Ale)密碼子多為GCA,GCC或GCT,而GCG很少使用。外顯子-內(nèi)含子邊界
外顯子和內(nèi)含子的邊界有一些明顯的特征,如:內(nèi)含子的5‘端或稱供體位(donorsite)常見的順序為5’-AG↓GTTAAGT-3’;3’端又稱受體位(acceptorsite),多為5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);上游控制順序幾乎所有基因(或操縱子)上游都有調(diào)控序列,它們可與DNA結合蛋白作用,控制基因表達。另外個別生物的基因組特有組成也可作為判別依據(jù),如脊椎動物基因組許多基因的上游都有CpG島。1.2mRNA的5’端即轉(zhuǎn)錄起始位點區(qū)
通過同源性比較來預測mRNA的5’端,最常用的與轉(zhuǎn)錄起始位點相關的數(shù)據(jù)庫是真核啟動子數(shù)據(jù)庫。TheTRADATProject,EukaryoticPromoterDatabase,EPD.()1.3同源查詢途徑通過已存入數(shù)據(jù)庫中的基因順序與待查的基因組序列進行比較,從中查找可與之匹配的堿基順序及其比例,用于界定基因的方法稱為同源查詢。同源有如下幾種情況:DNA序列某些片段完全相同;開放讀碼框(ORF)排列類似,如有長外顯子;開放讀碼框翻譯成氨基酸序列的相似性;模擬多肽高級結構相似
1.4試驗分析Northern雜交確定DNA片段是表達序列:注意事項:
當某一基因的轉(zhuǎn)錄產(chǎn)物進行可變剪接時,由于連接的外顯子不同,會產(chǎn)生好幾條長度不一的雜交帶,如果該基因是某一基因家族的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省隨州市部分高中2024-2025學年高一上學期1月期末聯(lián)考政治試題(含答案)
- 2025年度離職員工保密協(xié)議及離職后競業(yè)限制執(zhí)行合同
- 二零二五年度輪車市場調(diào)研買賣合同
- 2025年度企業(yè)員工停車場車位租賃專項合同
- 二零二五年度電商企業(yè)直播帶貨合作合同
- 2025年度購房貸款審批及放款合同
- 二零二五年度汽車租賃行業(yè)信用體系建設合同
- 分娩的臨床經(jīng)過
- MS02.023飛機地面設備安全技術規(guī)范的規(guī)定
- 企業(yè)治安管理
- 酒店人防管理制度
- 古詩詞誦讀 《錦瑟》公開課一等獎創(chuàng)新教學設計統(tǒng)編版選擇性必修中冊
- GB/T 24478-2023電梯曳引機
- 食堂經(jīng)營方案(技術標)
- 代收實收資本三方協(xié)議范本
- 人教版八年級英語下冊全冊課件【完整版】
- 乒乓球比賽表格
- 商務接待表格
- 腸梗阻導管治療
- word小報模板:優(yōu)美企業(yè)報刊報紙排版設計
- 漢語教學 《成功之路+進步篇+2》第17課課件
評論
0/150
提交評論