生物數據整合與挖掘為復旦大學出版社出版發(fā)行_第1頁
生物數據整合與挖掘為復旦大學出版社出版發(fā)行_第2頁
生物數據整合與挖掘為復旦大學出版社出版發(fā)行_第3頁
生物數據整合與挖掘為復旦大學出版社出版發(fā)行_第4頁
生物數據整合與挖掘為復旦大學出版社出版發(fā)行_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物數據整合與挖掘為復旦大學出版社出版發(fā)行。生物數據整合與挖掘內容簡介 :生物信息學應用計算機技術對各種生物數據進行管理和分析,以期發(fā)現生物數據所反映的生物規(guī)律,促進生命科學的發(fā)展。一方面,生命科學實驗產生的巨量的生物數據保存在世界各地的相關研究機構中,或隱含在浩瀚的科學文獻里。這些數據反映了生命科學研究的整體進展和成果,有重疊更相互補充,這就需要將這些生物數據整合在一起。另一方面,生物信息學也希望采用數據挖掘技術對生物數據進行分析,以期發(fā)現生物規(guī)律,因此根據生命科學的需要和領域知識,設計出有效的生物數據挖掘算法和軟件工具是一個重要的研究內容。本書較為系統地介紹了生物數據整合與挖掘的技術框架,

2、主要介紹了作者在這方面的研究成果,包括:生物數據抽取技術、生物數據整合技術、生物序列數據挖掘、基因表達譜芯片數據挖掘、轉錄因子及順式調控元件挖掘、生物數據模型和數據庫管理系統等內容,還介紹了一個生物數據整合系統、一個基因表達譜芯片數據庫和數據挖掘系統、一個轉錄因子及順式調控元件的挖掘分析平臺等等的設計與實現。本書的讀者對象為從事生物信息學研究的科學工作者。本書也可以作為生物信息學專業(yè)研究生的教學參考書和生物軟件工程技術人員的參考書。生物數據整合與挖掘作者簡介 :朱揚勇,1963年生,浙江武義人。1994年于復旦大學獲計算機軟件專業(yè)理學博士學位?,F為復旦大學計算機科學技術學院教授;上海市政府信息

3、化專家;上海生物信息技術研究中心學術委員會委員;上海市計算機學會理事;上海市生物信息學會理事等。長期從事數據庫、數據挖掘、生物信息等方面的研究,已發(fā)表論文100余篇,出版數據庫系統設計與開發(fā)等教材5本。作為項目負責人,主持國家自然科學基金、“863計劃”、上海市科委重點發(fā)展基金等10多項課題的研究工作。目前主要從事數據科學的研究,是該領域的主要倡導者。目錄 :第1章 背景知識1.1 生物信息學1.1.1 基本概念1.1.2 研究內容1.1.3 研究方法1.1.4 研究機構1.2 數據整合1.2.1 數據資源1.2.2 數據整合的動因1.2.3 數據整合的概念1.2.4 數據整合的內容1.3 數

4、據挖掘1.3.1 數據挖掘的定義1.3.2 數據挖掘的任務1.3.3 數據挖掘的類型1.3.4 相關技術的差異第2章 數據整合與數據挖掘方法2.1 數據整合的方法2.1.1 數據整合的方式2.1.2 數據整合的步驟2.2 數據挖掘的方法2.2.1 數據挖掘過程示例2.2.2 數據挖掘過程模型2.2.3 數據挖掘應用方式2.3 數據清潔技術2.3.1 數據的質量問題2.3.2 數據清潔的主要工作2.4 數據倉庫技術2.4.1 數據倉庫的概念2.4.2 數據組織2.4.3 主題設計2.4.4 數據加載2.4.5 數據規(guī)約2.5 小結第3章 生物數據源3.1 生物數據3.1.1 生物序列數據3.1.

5、2 生物分子結構數據3.1.3 芯片及基因表達數據3.1.4 生物網絡數據3.2 生物數據組織3.2.1 生物數據的數據庫組織形式3.2.2 生物數據的互聯網組織形式3.3 生物數據庫3.3.1 生物序列數據庫3.3.2 基因組數據庫3.3.3 結構數據庫3.3.4 芯片和基因表達數據庫3.3.5 生物文獻數據庫3.4 生物數據源的特征3.5 小結第4章 復雜生物數據源的數據抽取4.1 生物數據抽取4.1.1 生物數據抽取面臨的問題4.1.2 包裝器的要素4.1.3 抽取算法4.1.4 元數據生成與包裝器生成工具4.2 包裝器的設計4.2.1 基于實例切分的抽取算法4.2.2 基于定位器多結點

6、共享的數據抽取模型4.2.3 數據抽取模型描述4.2.4 元數據的生成和維護4.2.5 數據抽取模型表達能力4.3 包裝器解決方案4.3.1 面向無噪聲復雜數據源的解決方案4.3.2 面向含噪聲復雜數據源的解決方案4.3.3 rede和l-樹包裝器生成工具的架構4.3.4 rede和l-樹包裝器生成工具的實現技術4.4 l-樹匹配:面向復雜數據源的數據抽取算法4.4.1 l-樹上的數據映射機制4.4.2 l-樹匹配算法的相關概念4.4.3 l-樹匹配算法4.4.4 l-樹匹配算法舉例4.5 基于l-樹的包裝器生成工具4.5.1 將ere擴充成數據抽取腳本語言4.5.2 可視化編輯調試環(huán)境4.5

7、.3 ere的可視化構建4.5.4 ere的邏輯檢查4.5.5 抽取結果的可視化評價4.5.6 以xml格式輸出抽取結果4.6 小結第5章 生物數據整合案例5.1 生物數據整合系統的設計5.1.1 生物數據整合的關鍵問題分析5.1.2 生物數據整合目標的確立5.1.3 生物數據整合方式和技術的設計5.2 基于go的數據整合5.2.1 go簡介5.2.2 db2go表5.2.3 語義相似數據庫表5.2.4 以go統一數據的邏輯和語義5.3 數據抽取和增量更新5.3.1 數據抽取5.3.2 數據的增量更新5.4 基于go的查詢技術5.4.1 異構生物數據庫的語義查詢5.4.2 biodw中語義查詢

8、的體系結構5.4.3 go語義相似性度量方法5.4.4 語義相似性查詢5.5 biodw系統5.5.1 biodw的系統結構5.5.2 biodw的系統的數據規(guī)模5.5.3 biodw的數據查詢5.6 小結第6章 生物序列數據挖掘進展6.1 生物序列數據挖掘的基本概念和內容6.1.1 生物序列相似性6.1.2 生物序列模式挖掘6.1.3 生物序列聚類分析6.1.4 生物序列分類分析6.1.5 生物序列關聯分析6.1.6 生物序列異常分析6.2 生物序列數據挖掘的研究階段6.2.1 基于統計技術的數據挖掘方法的應用階段6.2.2 一般化數據挖掘方法的應用階段6.2.3 專門數據挖掘技術的設計階段

9、6.3 生物序列數據挖掘研究與應用現狀6.3.1 生物序列模式挖掘方面6.3.2 生物序列聚類分析方面6.3.3 生物序列分類分析方面6.3.4 生物序列關聯分析方面6.3.5 生物序列異常分析方面6.4 生物序列數據挖掘研究趨勢6.5 小結第7章 生物序列數據挖掘技術7.1 序列數據源7.2 生物序列模式挖掘7.2.1 生物序列模式挖掘問題7.2.2 基于多支持度的生物序列模式挖掘框架7.2.3 基于多支持度的生物序列模式挖掘算法7.3 生物序列聚類分析7.3.1 生物序列聚類問題分析7.3.2 蛋白質序列聚類7.3.3 基因序列聚類7.4 生物序列分類分析7.4.1 生物序列分類問題分析7

10、.4.2 轉錄因子分類7.4.3 基于支持向量機的轉錄因子分類算法7.5 小結第8章 基因芯片數據挖掘8.1 基因表達譜芯片數據挖掘8.1.1 基因表達譜數據分析8.1.2 基因表達相似性分析8.1.3 基因表達共發(fā)生分析8.1.4 基因表達路徑分析8.1.5 特殊表達基因分析8.2 基因表達譜數據庫建設8.2.1 基因表達譜芯片數據的標準8.2.2 基因表達譜數據庫建設的難點8.2.3 數據庫結構設計8.2.4 數據加載與數據管理8.2.5 自動導入數據8.3 基因表達譜數據挖掘系統8.3.1 數據挖掘框架8.3.2 bdmapa架構擴展8.3.3 基因表達譜芯片數據挖掘系統8.4 小結第9

11、章 轉錄因子、順式調控元件挖掘系統9.1 轉錄因子、順式調控元件挖掘原理9.1.1 轉錄因子、順式調控元件挖掘原理9.1.2 順式調控元件文本挖掘原理9.2 轉錄因子、順式調控元件挖掘系統設計9.2.1 數據挖掘軟件9.2.2 數據分析服務9.2.3 綜合的轉錄因子、順式調控元件數據庫9.3 小結第10章 生物序列數據庫管理系統10.1 生物數據處理面臨的問題10.1.1 生物數據存儲方式10.1.2 生物序列數據庫的查詢需求10.2 生物序列數據模型bioseg10.2.1 數據結構10.2.2 代數操作10.2.3 open builtin函數10.2.4 等價規(guī)則10.2.5 biose

12、g模型的特點10.3 生物序列數據庫管理系統的設計10.3.1 代數查詢實例10.3.2 查詢語言10.3.3 體系結構10.4 小結參考文獻致謝書摘插圖 :第1章背景知識諾貝爾獎獲得者dulbecc0于1986年在science雜志上發(fā)表的一篇短文中率先提出了人類基因組計劃。該計劃在探討生命奧秘的過程中,使得自動化的dna測序技術、生物數據挖掘分析技術、基因組數據庫和分析軟件、基因芯片技術的一些工具性技術獲得了快速發(fā)展,并使生物信息學作為一個學科領域獲得了公認。本章介紹生物信息學、數據整合與數據挖掘方面的背景知識和基本概念。 1.1 生物信息學生命科學實驗產生了大量生物數據,如何在數學、計算

13、機科學等的支持下充分利用這些生物數據更有效地開展生命的探討是一個很有意義的問題。于是,生物數據處理技術獲得了發(fā)展,并最終產生了生物信息學。1.1.1 基本概念生物信息學(bioinformatics)是指生命科學與數學科學、計算機科學和信息科學等交匯融合所形成的一門交叉學科。它應用先進的數據管理技術、數學分析模型和計算機軟件對各種生物數據進行提取、存儲、處理和分析,旨在掌握復雜生命現象的形成模式與演化規(guī)律。該定義是rashidi等人于2000年給出的。由于生命科學研究者各自從事的具體領域不同,對其存在不同的理解,因此至今仍沒有一個關于生物信息學的統一定義。但其基本的研究內容和研究方法還是比較統

14、一的,就是通過研究生物數據來促進生命科學的研究。隨著生命科學研究的深入,生物信息學也受到廣泛關注。事實上,生物信息學起源要早很多。1953年4月25日,waston和crick提出dna(deoxyribo nucleic acid)雙螺旋結構和自我復制機制,揭開了分子生物學研究的新篇章。1956年,在美國田納西州蓋特林堡召開首次“生物學中的信息理論研討會”,萌生了生物信息學概念。20世紀60年代,研究者開始搜集生物信息,并應用計算方法對其進行分析,發(fā)現其中反映生命現象的重要規(guī)律。隨后,生物學的研究手段發(fā)生了革命性的變化,由單純的觀察和實驗研究轉向與生物數據分析相結合。70年代到80年代初,數

15、學統計方法和計算機技術得到了較快發(fā)展,研究者開始應用計算機技術解決生物學問題,生物信息學初步形成。1986年,美國科學家首次提出“人類基因組計劃”(human genome project,hgp),促進了生物信息學的迅速發(fā)展。1987年,hwa a.lim博士首次將這一學科命名為“bioinformatics”(生物信息學)。正如dulbecco 1986年所說:“人類的dna序列是人類的真諦,這個世界上發(fā)生的一切事情,都與這一序列息息相關?!钡@些由數以億計acgt符號組成的dna序列中包含著什么信息?基因組中的這些信息怎樣控制有機體的發(fā)育?基因組本身又是怎樣進化的?要完全破譯這一序列以及

16、相關的內容,人類還有相當長的路要走。生物信息學成為可能揭開謎底的重要方法之一。1.1.2研究內容生物信息學的目標是指導生命科學研究,以揭示生物數據中蘊含的生物學知識和規(guī)律,讀懂基因組的遺傳信息。其研究內容主要包括以下兩大方面。1.生物數據的存儲、管理和整合生物數據主要有生物序列數據(如dna序列、蛋白質序列等)、生物分子結構數據、芯片及基因表達數據、生物網絡數據(如蛋白質相互作用網絡、調控網絡、代謝網絡等)、生物文獻數據等。目前在國際上總共約有1 000多個生物數據庫,存放數百tb(tera byte)的生物數據。由于大多數生物數據的含義目前還不為人們所知,因此大量的生物學研究將基于生物數據進

17、行。生物學研究手段由單純的觀察和實驗轉向現代信息學方法,即將生物的實驗變成了數據的計算。生物數據是一種非結構化數據,數據量巨大、種類繁多、數據操作類型復雜等是其主要的特征。其表達和存儲方式是生物數據訪問和處理的關鍵。目前,生物數據的存儲方式有兩種:一種是采用文本文件方式存儲;另一種是采用關系數據庫、xml(extensible markup language)數據庫或者面向對象數據庫等存儲方式,但是由于沒有合適的數據模型或數據類型,生物數據在這種存儲方式中也只是用數據庫管理系統(database management system,dbms)中提供的文本字段來存儲。就是說,兩者本質上是一樣的,

18、都是文本方式。文本方式對復雜的生物數據操作(如:生物序列相似性查詢、motif查詢等)而言,處理效率是難以令人滿意的,也即目前的數據庫技術(包括xml數據庫技術)都不適合生物數據的存儲、管理和處理,這直接影響了生物信息學軟件的有效性和實用性,進而影響了生命科學和生物技術的發(fā)展。另外,文本方式的存儲在生物數據的處理能力和處理性能上也都不能滿足要求。因此,如何有效地管理和處理生物數據是一個亟待解決的問題。針對生物數據的特點,建立生物數據庫管理系統是一個關系生命科學與技術發(fā)展的重要課題。由于生物數據產生于世界各地的研究機構,存儲在各種生物數據庫中,因此為完成一項研究工作,需要整合這些分散在各研究機構

19、中的生物數據。但因為生物數據庫數量眾多且規(guī)模龐大,所以生物數據整合是一項艱巨的計算機工程任務。2.生物數據挖掘和分析生物信息學領域的核心內容是研究如何通過對生物數據的分析,以期發(fā)現生物數據中的規(guī)律(如dna序列、結構及其與生物功能之間的關系等),并對分析結果進行解釋和可視化,其研究范圍涉及基因組學、蛋白質組學、系統生物學、比較基因組學等,挖掘和分析的內容包括生物序列數據的分析和挖掘、蛋白質結構數據的分析和挖掘、生物網絡系統的分析和挖掘、芯片和基因表達數據分析等內容。(1)生物序列數據的分析和挖掘序列比對:序列相似性研究是生物序列數據分析和挖掘研究的核心內容,其中一個主要的應用問題是給定一條生物

20、序列,在序列數據庫中查詢與其相似程度大于一定閾值的序列(比較兩個或兩個以上的序列的相似性),即生物序列相似性查詢。序列比對是最基本、最重要的方法之一,它根據給定的相似矩陣(pam250,blosum62等),同時考慮可能的插入、刪除和突變,找出序列間的最優(yōu)聯配。序列比對主要有全局比對和局部比對兩種策略:全局比對是對序列的全長進行比對,適用于全局水平上相似性程度較高的序列;典型的算法有needleman-wunsch算法等;局部比對是尋找序列間相似性最大的子序列,典型的算法有基于動態(tài)規(guī)劃思想的smith-waterman算法以及啟發(fā)式的兩序列比對數據庫相似性搜索算法fasta和blast(bas

21、ic local alignment search t001)等。多序列比對是將一組序列同時進行比對,發(fā)現序列間的相似程度,大多采用啟發(fā)式算法,具有代表性的主要是漸進比對方法和迭代比對方法。功能元件分析:基因識別是識別dna序列上的具有生物學特征的片段,識別對象包括蛋白質編碼(即基因的范圍和在序列中的位置),也包括其他具有一定生物學功能的功能元件,如轉錄因子、順式調控元件等。功能元件能夠表征序列的功能特征。序列上的功能元件主要包括編碼序列元功能片段和非編碼序列元功能片段等。其中,編碼序列可被轉錄并執(zhí)行一定的生物學功能;調控序列控制編碼序列的動態(tài)行為,如轉錄調控序列控制編碼序列的表達速率等。目前,“dna元件百科全書”(encyclopedia of dna elements,encode)計劃已開展人類基因組中功能元件的分析工作,但該計劃正處于初期,積累的數據仍然較少。(2)蛋白質結構數據的分析和挖掘人類基因工程的目的之一是要了解人體內蛋白質的結構、功能、相互作用以及與各種人類疾病之間的關系。雖然蛋白質由氨基酸的線性序列組成,但是只有折疊成特定的空間構象才能具有相應的生物學功能。由于蛋白質的三維結構比其一級結構在進化中更穩(wěn)定,同時也包含了較氨基酸序列(一級結構)更多的信息,因此,蛋白質結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論