后基因組時代的生物信息(1)_第1頁
后基因組時代的生物信息(1)_第2頁
后基因組時代的生物信息(1)_第3頁
后基因組時代的生物信息(1)_第4頁
后基因組時代的生物信息(1)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、編輯ppt 1 1 后基因組時代的生物信息后基因組時代的生物信息 編輯ppt2 2 HGPHGP人類基因組計劃人類基因組計劃 這張解剖圖將包括4張小 圖,包括了人類基因組計 劃的全部主要內容,它們 分別是遺傳圖(連鎖圖)、 物理圖、序列圖和轉錄圖。 3 3 編輯ppt 后基因組時代的生物信息學后基因組時代的生物信息學 2003年HGP測序工作全部完成后,生命科學進入后基 因組時代。 后基因組時代的工作重點是:在整體水平上對基 因組的功能進行研究。由此誕生了功結構基因組學功結構基因組學 能基因學能基因學,結構是功能的基礎,又產生了。 在功能基因組學的基礎上又產生了蛋白組學蛋白組學和 RNARNA

2、組學組學。 前基因組時代的前基因組時代的“釣魚釣魚”和后基因和后基因 組時代的組時代的“撈魚撈魚” 6 6 編輯ppt 在全細胞的水平,識別所有基因組表達產物:在全細胞的水平,識別所有基因組表達產物: mRNA: cDNA 陣列 蛋白質:二維電泳 質譜 研究生物大分子相互作用:研究生物大分子相互作用: 闡明基因組表達在發(fā)育過程中的時、空的整體調控網(wǎng) 絡。 蛋白質組學:蛋白質組學: 高通量解析蛋白質的高級結構,是連接基因組功能研 究和新藥開發(fā)的橋梁。 7 7 編輯ppt 基因組學、生物信息學與新藥研制基因組學、生物信息學與新藥研制 未來的藥物研究過程將是基于生物信息未來的藥物研究過程將是基于生物

3、信息 知識挖掘的過程知識挖掘的過程 數(shù)據(jù)處理和 關聯(lián)分析 發(fā)現(xiàn)藥物 作用對象 確定靶目標 分子 針對靶目標 進行合理的 藥物設計 8 8 編輯ppt CDNA CDNA 微陣列微陣列 基因表達數(shù)據(jù)的網(wǎng)絡資源 GEO ( /geo ) ArrayExpress( http:/www.ebi.ac.uk/arrayexpress/ ) SMD ( / ) 除了以上 3 個綜合性的基因表達數(shù)據(jù)倉庫外,還有一些專門的基因表 達數(shù)據(jù)庫,例如 YMD (Yale Microarray Datab

4、ase , / microarray/) ArrayDB ( /arraydb/ ) BodyMap ( http:/bodymap.ims.u-tokyo.ac.jp/ ) ExpressDB( /ExpressDB/ ) HuGE Index(Human Gene Expression Index ,/welcome/index.html) 9 9 編輯ppt 差異表達基因的選擇差異表達基因的選擇

5、 篩選差異基因包括: 表達數(shù)據(jù)的獲取和標準化 標記物的差異、熒光標記檢測效能的差異以 及樣品RNA的原始濃度的差異。 基因表達矩陣的構建 mn的基因表達矩陣,用以記錄基因在不同 的實驗條件下的表達譜。通常m為基因的數(shù) 目,n為實驗的次數(shù)或芯片的數(shù)目。 差異表達基因的篩選:t-檢驗和 方差分析 1010 編輯ppt 基因表達數(shù)據(jù)的聚類分析基因表達數(shù)據(jù)的聚類分析 聚類分析可將具有相似表達模式的基因聚在一起, 分析同類基因的功能,并對未知基因的功能和生物學 特性進行推測。 1111 編輯ppt 幾種常用的聚類方法幾種常用的聚類方法 分層聚類(hierarchical clustering,HCL)

6、K-均值聚類(K-mean clustering,KMC) SOM聚類(self-organizing map clustering, SOM) 1212 編輯ppt 分層聚類分層聚類 分裂或凝聚 算法運行到某一階段,類別劃分結果達到聚類標準時即可停止算法運行到某一階段,類別劃分結果達到聚類標準時即可停止 分裂或凝聚分裂或凝聚; ; 1313 編輯ppt 層次聚類優(yōu)缺點層次聚類優(yōu)缺點 優(yōu)點:優(yōu)點:所得結果可方便地進行可視化觀察。 缺點:缺點:選取某一水平( 即某一類間距離)的類數(shù)作最 終結果,此一步較為主觀,很難確定哪個水平可給出 最好的結果。此方法的復雜度與所分析表達譜數(shù)目的 平方呈正比,對

7、于現(xiàn)在數(shù)據(jù)集的大小而言是一大問題。 1414 編輯ppt K-K-均值聚類均值聚類 1515 編輯ppt 優(yōu)點:優(yōu)點:思想簡單易行,時間復雜性接近線性,對大規(guī)模 數(shù)據(jù)的挖掘具有高效性和可伸縮性。 缺點:缺點:該算法要求預指定類數(shù),而實際應用中很難預 測類數(shù),因此需要通過試誤,即使用多套不同的參數(shù) 設定,比較其結果,并且從生物學角度對結果進行驗 證。 K-K-均值聚類均值聚類 1616 編輯ppt SOMSOM聚類聚類 SOM(自組織映射)的由來: 1991,Kohonen提出,模擬人腦中的神經元層; 人腦中不同的神經元區(qū)域負責不同的功能; 一旦有外部刺激,與刺激相關的神經元會被激勵,并 且其附

8、近神經元也會受到激勵; 編輯ppt 1717 SOM聚類(一) 輸入數(shù)據(jù) 獲勝神經元 臨近神經元 1 2 編輯ppt 1818 SOM SOM聚類聚類(二) 輸入數(shù)據(jù) 獲勝神經元 臨近神經元 不同的神經元區(qū)域代表不同的輸入數(shù)據(jù)模式 3 4 編輯ppt 1919 SOM SOM聚類的優(yōu)缺點聚類的優(yōu)缺點 優(yōu)點:優(yōu)點:可以實現(xiàn)實時學習,網(wǎng)絡具有自穩(wěn)定性,無須 外界給出評價函數(shù),能夠識別向量空間中最有意義的 特征,抗噪音能力強。 缺點:缺點:與K-均值聚類相似,它也需要預先指定參數(shù) ( 結點群的拓撲構形),因而遇到與之相似的困難 2020 編輯ppt 基因網(wǎng)絡研究的前提假定和基本原理基因網(wǎng)絡研究的前提

9、假定和基本原理 什么是基因調控網(wǎng)絡? 細胞、DNA、蛋白質、基因、基因網(wǎng)絡 為什么要研究基因調控網(wǎng)絡? 從分子水平認識細胞組織的功能。 我完全不懂生物學;我為什么要講這個?我完全不懂生物學;我為什么要講這個? 了解基因調控網(wǎng)絡,對我們有什么啟發(fā)?了解基因調控網(wǎng)絡,對我們有什么啟發(fā)? 2121 編輯ppt 基因和蛋白質 基因網(wǎng)絡研究的前提假定和基本原理基因網(wǎng)絡研究的前提假定和基本原理 2222 編輯ppt 基因表達的調控:不同層次 基因網(wǎng)絡研究的前提假定和基本原理基因網(wǎng)絡研究的前提假定和基本原理 2323 編輯ppt 基因調控網(wǎng)絡是指一組調控因子如何調控一套基因表 達的過程. 機體的功能發(fā)展來緣

10、于遺傳網(wǎng)絡間的互作。 基因網(wǎng)絡研究的前提假定和基本原理基因網(wǎng)絡研究的前提假定和基本原理 2424 編輯ppt 基因調控網(wǎng)絡研究的目的基因調控網(wǎng)絡研究的目的 識別和推斷基因網(wǎng)絡的結構、特性和調控關系 認識復雜的分子調控過程 理解支配基因表達和功能的基本規(guī)則 揭示基因表達過程中的信息傳輸規(guī)律 整體的框架下研究基因的功能 2525 編輯ppt 基因調控網(wǎng)絡構建的方法基因調控網(wǎng)絡構建的方法 布爾網(wǎng)絡模型: 線性組合模型: 加權矩陣模型: )()(tXwttX j j iji )( 1 1 ) 1( jjj tra i e tu j jiji tuWtr)()( 2626 編輯ppt 近年來發(fā)表的基于微

11、陣列數(shù)據(jù)進行基因近年來發(fā)表的基于微陣列數(shù)據(jù)進行基因 調控網(wǎng)絡構建和分析的軟件包調控網(wǎng)絡構建和分析的軟件包 2727 編輯ppt 2828 編輯ppt 基因調控網(wǎng)絡整合分析基因調控網(wǎng)絡整合分析 基因表達數(shù)據(jù) DNA 序列 轉錄因子與順式調控元件相互作用 蛋白蛋白相互作用 蛋白在細胞中的定位等 再結合生物學實驗驗證生物學實驗驗證,可以完善基因調控網(wǎng)絡。經 過若干次的建模模擬實驗循環(huán)可以逼近真實的生 物學基因調控網(wǎng)絡。 2929 編輯ppt 第二節(jié)第二節(jié) 功能基因與蛋白質信息的文本挖掘功能基因與蛋白質信息的文本挖掘 3030 編輯ppt 文本挖掘的提出文本挖掘的提出 雷諾氏?。菏且环N治療方法和病因學

12、都未知的血液 系統(tǒng)疾病,表現(xiàn)為血液循環(huán)紊亂,血液黏度升高。 其他文獻中發(fā)現(xiàn)食用魚油可以降低血液黏度。 Swanson把這兩種知識聯(lián)系起來提出食用魚油應該 對雷諾氏病病人有幫助的假設。 3年后有人通過臨床實驗證實了這一點 從文獻中可以發(fā)現(xiàn)或者挖掘到以前未知的知識 3131 編輯ppt 文本挖掘的方法文本挖掘的方法 基于文獻的生物信息分析最重要一點就是如何找出隱 含的、具有語義關聯(lián)的生物概念進行下一步的推理, 這也是最為復雜的步驟。主要有以下方法: 基于統(tǒng)計的方法 基于自然語言處理的方法 基于關聯(lián)規(guī)則挖掘的方法 于模式識別的方法 3232 編輯ppt 基于統(tǒng)計方法的文本挖掘基于統(tǒng)計方法的文本挖掘

13、基于統(tǒng)計的方法是通過詞的共現(xiàn)對已知 基因或者其他生物信息關系進行聚類分析, 得到新的基因或生物功能相互作用關系,或 通過查找彼此間經常同時出現(xiàn)但不是隨機出 現(xiàn)的實體,進而鑒別出關系。 3333 編輯ppt CHAUSSABELCHAUSSABEL等提等提 出了一種用文獻輪出了一種用文獻輪 廓挖掘微陣列表達廓挖掘微陣列表達 數(shù)據(jù)技術數(shù)據(jù)技術 3434 編輯ppt PUBGENE(HTTP:/WWW.PUBGENE.ORG/PUBGENE(HTTP:/WWW.PUBGENE.ORG/) 3535 編輯ppt 基于自然語言處理的方法基于自然語言處理的方法 基于自然語言處理的系統(tǒng):通過分析語法結構進行

14、關 系抽取,對句子從詞法、句法和語義上進行解析,把自然 語言分解為可以從中提取出關系的結構。 例子: Medstract EngCG 3636 編輯ppt 基于關聯(lián)規(guī)則挖掘的方法基于關聯(lián)規(guī)則挖掘的方法 關聯(lián)規(guī)則相對于其他在基因芯片數(shù)據(jù)分析中使用 的數(shù)據(jù)挖掘技術(例如聚類分析、主成份分析、因子 分析等)而言,能夠推測基因之間表達關聯(lián)關系。 關聯(lián)規(guī)則一般形式是LHSRHS S。 例子: geneA geneB ,geneC 3737 編輯ppt 基于模式識別的方法基于模式識別的方法 基于模式識別的方法是對與已知有關系的實體 相鄰近的文本進行模式的抽象,再利用生成的模式對 測試語料集文本進行模式匹配

15、,最終得到基因或蛋白 質關系結果。 例子: RLIMSP 3838 編輯ppt 第三節(jié)第三節(jié) 分子進化和系統(tǒng)發(fā)育分析分子進化和系統(tǒng)發(fā)育分析 3939 編輯ppt 分子進化和系統(tǒng)發(fā)育分析分子進化和系統(tǒng)發(fā)育分析 我們學醫(yī),又不研究物種,學進化有什么用?我們學醫(yī),又不研究物種,學進化有什么用? 廣西地區(qū)動物HEV基因型及亞型分布 過度繁殖有限的生活條件 + 導致導致 生存斗爭+ 變異 導致導致 適者生存+有利性狀遺傳 導致導致 生物新類型出現(xiàn) 達爾文把這種在生存斗爭中,適者生存、不適者被淘汰的過達爾文把這種在生存斗爭中,適者生存、不適者被淘汰的過 程,叫做程,叫做自然選擇自然選擇。 過度繁殖 生存斗

16、爭 遺傳變異 適者生存 達爾文的達爾文的“自然選擇自然選擇”學說學說 基因突變基因突變 1、核苷酸替代、插 入/缺失、重組 2、基因轉換 固定在生物個體固定在生物個體 以及物種內以及物種內 遺傳漂變遺傳漂變 自然選擇自然選擇 傳遞給后代傳遞給后代 產生新的形態(tài)、性狀產生新的形態(tài)、性狀 分子系統(tǒng)學是研究進化機制的一個重要工具。分子系統(tǒng)學是研究進化機制的一個重要工具。 生物進化的分子機制生物進化的分子機制 a b c d abcd 拓撲結構:拓撲結構: 有根樹:有根樹:反映時間順序反映時間順序 無根樹:無根樹:反映距離反映距離 理論上,一個理論上,一個DNA序列在物種形成或基因復制時,分裂序列在物

17、種形成或基因復制時,分裂 成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。 一般考慮二歧的樹結構:二歧樹一般考慮二歧的樹結構:二歧樹 分支:分支: 內部分支內部分支 外部分支外部分支 節(jié)點:節(jié)點: 內部節(jié)點內部節(jié)點 外部節(jié)點外部節(jié)點 1、特征數(shù)據(jù)特征數(shù)據(jù)(character data): 提供了基因、個體、群體或物種的信息提供了基因、個體、群體或物種的信息 2、距離數(shù)據(jù)距離數(shù)據(jù)(distance data)或或相似性數(shù)據(jù)相似性數(shù)據(jù)(similarity data): 涉及的則是成對基因、個體、群體或物種的信息。涉及的則是成對基因、個體、群體或物種的信息。 距

18、離矩陣距離矩陣 距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。 反之反之? 1、特征數(shù)據(jù)特征數(shù)據(jù)(character data): 提供了基因、個體、群體或物種的信息提供了基因、個體、群體或物種的信息 2、距離數(shù)據(jù)距離數(shù)據(jù)(distance data)或或相似性數(shù)據(jù)相似性數(shù)據(jù)(similarity data): 涉及的則是成對基因、個體、群體或物種的信息。涉及的則是成對基因、個體、群體或物種的信息。 距離矩陣距離矩陣 距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。距離數(shù)據(jù)可以由特征數(shù)據(jù)計算得到。 反之反之? 編輯ppt 4545 paralogs orthologs 4646 編輯ppt

19、分子進化與系統(tǒng)發(fā)育分析軟件分子進化與系統(tǒng)發(fā)育分析軟件 4747 編輯ppt 第四節(jié)第四節(jié) 單核苷酸多態(tài)性與連鎖不平衡單核苷酸多態(tài)性與連鎖不平衡 4848 編輯ppt 人類基因組多態(tài)性人類基因組多態(tài)性 4949 編輯ppt 遺傳信息檢驗遺傳信息檢驗 風險估計風險估計 5050 編輯ppt 研究研究 臨床醫(yī)學轉換臨床醫(yī)學轉換 分子遺傳流行病學分子遺傳流行病學 Is there a familial aggregation ? Is it genetic ? Which genetic model ? Which genes ? Contribution in general population

20、Clinical observation Case-control study Twin study Adoption study Migration study Segregation study Linkage study Association study Gene-gene Gene-environment 基因分型基因分型 分析DNA序列的變異性 人類DNA序列99.9%都是一樣的 3000 000 核酸存在差異 通常定義為多態(tài)性SNP其較低等位位點頻率 1% 遺傳變異研究的目的 挖掘遺傳性疾病的病因以及預防預測 進行個性化醫(yī)療 通過位點確定疾病基因 一般術語一般術語 5454 編輯

21、ppt 連鎖不平衡(連鎖不平衡( LD LD) 在某一群體中,不同座 位上某兩個等位基因出現(xiàn) 在同一條單元型上的頻率 與預期的隨機頻率之間存 在明顯差異的現(xiàn)象。 5555 編輯ppt 微衛(wèi)星標記微衛(wèi)星標記 2-4個核苷酸重復 GAACGTACTGAACGTACTCACACACACACACACACACACACACACATTTGACTTTGAC TTCGATGATATTCGATGATAGATAGATAGATAGATAGATAGATAGATAGATACGTCGT 重復數(shù)( 30) 具有高度多態(tài)性 均勻分布在整個基因組 通過PCR就可以鑒別出來 A C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C C G T C T T A A A Paternal chromosome A C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C G G T C T T A A A Paternal chromosome A C G T G T C C G T C T T A A A Maternal chromosome A C G T G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論