生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行

上傳人：灰*** IP屬地：寧夏上傳時(shí)間：2021-10-07 格式：DOC 頁(yè)數(shù)：22 大小：40.02KB 積分：15 舉報(bào) 版權(quán)申訴

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第2頁(yè)

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第3頁(yè)

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第4頁(yè)

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第5頁(yè)

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行。生物數(shù)據(jù)整合與挖掘內(nèi)容簡(jiǎn)介：生物信息學(xué)應(yīng)用計(jì)算機(jī)技術(shù)對(duì)各種生物數(shù)據(jù)進(jìn)行管理和分析，以期發(fā)現(xiàn)生物數(shù)據(jù)所反映的生物規(guī)律，促進(jìn)生命科學(xué)的發(fā)展。一方面，生命科學(xué)實(shí)驗(yàn)產(chǎn)生的巨量的生物數(shù)據(jù)保存在世界各地的相關(guān)研究機(jī)構(gòu)中，或隱含在浩瀚的科學(xué)文獻(xiàn)里。這些數(shù)據(jù)反映了生命科學(xué)研究的整體進(jìn)展和成果，有重疊更相互補(bǔ)充，這就需要將這些生物數(shù)據(jù)整合在一起。另一方面，生物信息學(xué)也希望采用數(shù)據(jù)挖掘技術(shù)對(duì)生物數(shù)據(jù)進(jìn)行分析，以期發(fā)現(xiàn)生物規(guī)律，因此根據(jù)生命科學(xué)的需要和領(lǐng)域知識(shí)，設(shè)計(jì)出有效的生物數(shù)據(jù)挖掘算法和軟件工具是一個(gè)重要的研究?jī)?nèi)容。本書較為系統(tǒng)地介紹了生物數(shù)據(jù)整合與挖掘的技術(shù)框架，

2、主要介紹了作者在這方面的研究成果，包括：生物數(shù)據(jù)抽取技術(shù)、生物數(shù)據(jù)整合技術(shù)、生物序列數(shù)據(jù)挖掘、基因表達(dá)譜芯片數(shù)據(jù)挖掘、轉(zhuǎn)錄因子及順式調(diào)控元件挖掘、生物數(shù)據(jù)模型和數(shù)據(jù)庫(kù)管理系統(tǒng)等內(nèi)容，還介紹了一個(gè)生物數(shù)據(jù)整合系統(tǒng)、一個(gè)基因表達(dá)譜芯片數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘系統(tǒng)、一個(gè)轉(zhuǎn)錄因子及順式調(diào)控元件的挖掘分析平臺(tái)等等的設(shè)計(jì)與實(shí)現(xiàn)。本書的讀者對(duì)象為從事生物信息學(xué)研究的科學(xué)工作者。本書也可以作為生物信息學(xué)專業(yè)研究生的教學(xué)參考書和生物軟件工程技術(shù)人員的參考書。生物數(shù)據(jù)整合與挖掘作者簡(jiǎn)介：朱揚(yáng)勇，1963年生，浙江武義人。1994年于復(fù)旦大學(xué)獲計(jì)算機(jī)軟件專業(yè)理學(xué)博士學(xué)位。現(xiàn)為復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授；上海市政府信息

3、化專家；上海生物信息技術(shù)研究中心學(xué)術(shù)委員會(huì)委員；上海市計(jì)算機(jī)學(xué)會(huì)理事；上海市生物信息學(xué)會(huì)理事等。長(zhǎng)期從事數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、生物信息等方面的研究，已發(fā)表論文100余篇，出版數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)等教材5本。作為項(xiàng)目負(fù)責(zé)人，主持國(guó)家自然科學(xué)基金、“863計(jì)劃”、上海市科委重點(diǎn)發(fā)展基金等10多項(xiàng)課題的研究工作。目前主要從事數(shù)據(jù)科學(xué)的研究，是該領(lǐng)域的主要倡導(dǎo)者。目錄：第1章背景知識(shí)1.1 生物信息學(xué)1.1.1 基本概念1.1.2 研究?jī)?nèi)容1.1.3 研究方法1.1.4 研究機(jī)構(gòu)1.2 數(shù)據(jù)整合1.2.1 數(shù)據(jù)資源1.2.2 數(shù)據(jù)整合的動(dòng)因1.2.3 數(shù)據(jù)整合的概念1.2.4 數(shù)據(jù)整合的內(nèi)容1.3 數(shù)

4、據(jù)挖掘1.3.1 數(shù)據(jù)挖掘的定義1.3.2 數(shù)據(jù)挖掘的任務(wù)1.3.3 數(shù)據(jù)挖掘的類型1.3.4 相關(guān)技術(shù)的差異第2章數(shù)據(jù)整合與數(shù)據(jù)挖掘方法2.1 數(shù)據(jù)整合的方法2.1.1 數(shù)據(jù)整合的方式2.1.2 數(shù)據(jù)整合的步驟2.2 數(shù)據(jù)挖掘的方法2.2.1 數(shù)據(jù)挖掘過(guò)程示例2.2.2 數(shù)據(jù)挖掘過(guò)程模型2.2.3 數(shù)據(jù)挖掘應(yīng)用方式2.3 數(shù)據(jù)清潔技術(shù)2.3.1 數(shù)據(jù)的質(zhì)量問(wèn)題2.3.2 數(shù)據(jù)清潔的主要工作2.4 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)2.4.1 數(shù)據(jù)倉(cāng)庫(kù)的概念2.4.2 數(shù)據(jù)組織2.4.3 主題設(shè)計(jì)2.4.4 數(shù)據(jù)加載2.4.5 數(shù)據(jù)規(guī)約2.5 小結(jié)第3章生物數(shù)據(jù)源3.1 生物數(shù)據(jù)3.1.1 生物序列數(shù)據(jù)3.1.

5、2 生物分子結(jié)構(gòu)數(shù)據(jù)3.1.3 芯片及基因表達(dá)數(shù)據(jù)3.1.4 生物網(wǎng)絡(luò)數(shù)據(jù)3.2 生物數(shù)據(jù)組織3.2.1 生物數(shù)據(jù)的數(shù)據(jù)庫(kù)組織形式3.2.2 生物數(shù)據(jù)的互聯(lián)網(wǎng)組織形式3.3 生物數(shù)據(jù)庫(kù)3.3.1 生物序列數(shù)據(jù)庫(kù)3.3.2 基因組數(shù)據(jù)庫(kù)3.3.3 結(jié)構(gòu)數(shù)據(jù)庫(kù)3.3.4 芯片和基因表達(dá)數(shù)據(jù)庫(kù)3.3.5 生物文獻(xiàn)數(shù)據(jù)庫(kù)3.4 生物數(shù)據(jù)源的特征3.5 小結(jié)第4章復(fù)雜生物數(shù)據(jù)源的數(shù)據(jù)抽取4.1 生物數(shù)據(jù)抽取4.1.1 生物數(shù)據(jù)抽取面臨的問(wèn)題4.1.2 包裝器的要素4.1.3 抽取算法4.1.4 元數(shù)據(jù)生成與包裝器生成工具4.2 包裝器的設(shè)計(jì)4.2.1 基于實(shí)例切分的抽取算法4.2.2 基于定位器多結(jié)點(diǎn)

6、共享的數(shù)據(jù)抽取模型4.2.3 數(shù)據(jù)抽取模型描述4.2.4 元數(shù)據(jù)的生成和維護(hù)4.2.5 數(shù)據(jù)抽取模型表達(dá)能力4.3 包裝器解決方案4.3.1 面向無(wú)噪聲復(fù)雜數(shù)據(jù)源的解決方案4.3.2 面向含噪聲復(fù)雜數(shù)據(jù)源的解決方案4.3.3 rede和l-樹(shù)包裝器生成工具的架構(gòu)4.3.4 rede和l-樹(shù)包裝器生成工具的實(shí)現(xiàn)技術(shù)4.4 l-樹(shù)匹配：面向復(fù)雜數(shù)據(jù)源的數(shù)據(jù)抽取算法4.4.1 l-樹(shù)上的數(shù)據(jù)映射機(jī)制4.4.2 l-樹(shù)匹配算法的相關(guān)概念4.4.3 l-樹(shù)匹配算法4.4.4 l-樹(shù)匹配算法舉例4.5 基于l-樹(shù)的包裝器生成工具4.5.1 將ere擴(kuò)充成數(shù)據(jù)抽取腳本語(yǔ)言4.5.2 可視化編輯調(diào)試環(huán)境4.5

7、.3 ere的可視化構(gòu)建4.5.4 ere的邏輯檢查4.5.5 抽取結(jié)果的可視化評(píng)價(jià)4.5.6 以xml格式輸出抽取結(jié)果4.6 小結(jié)第5章生物數(shù)據(jù)整合案例5.1 生物數(shù)據(jù)整合系統(tǒng)的設(shè)計(jì)5.1.1 生物數(shù)據(jù)整合的關(guān)鍵問(wèn)題分析5.1.2 生物數(shù)據(jù)整合目標(biāo)的確立5.1.3 生物數(shù)據(jù)整合方式和技術(shù)的設(shè)計(jì)5.2 基于go的數(shù)據(jù)整合5.2.1 go簡(jiǎn)介5.2.2 db2go表5.2.3 語(yǔ)義相似數(shù)據(jù)庫(kù)表5.2.4 以go統(tǒng)一數(shù)據(jù)的邏輯和語(yǔ)義5.3 數(shù)據(jù)抽取和增量更新5.3.1 數(shù)據(jù)抽取5.3.2 數(shù)據(jù)的增量更新5.4 基于go的查詢技術(shù)5.4.1 異構(gòu)生物數(shù)據(jù)庫(kù)的語(yǔ)義查詢5.4.2 biodw中語(yǔ)義查詢

8、的體系結(jié)構(gòu)5.4.3 go語(yǔ)義相似性度量方法5.4.4 語(yǔ)義相似性查詢5.5 biodw系統(tǒng)5.5.1 biodw的系統(tǒng)結(jié)構(gòu)5.5.2 biodw的系統(tǒng)的數(shù)據(jù)規(guī)模5.5.3 biodw的數(shù)據(jù)查詢5.6 小結(jié)第6章生物序列數(shù)據(jù)挖掘進(jìn)展6.1 生物序列數(shù)據(jù)挖掘的基本概念和內(nèi)容6.1.1 生物序列相似性6.1.2 生物序列模式挖掘6.1.3 生物序列聚類分析6.1.4 生物序列分類分析6.1.5 生物序列關(guān)聯(lián)分析6.1.6 生物序列異常分析6.2 生物序列數(shù)據(jù)挖掘的研究階段6.2.1 基于統(tǒng)計(jì)技術(shù)的數(shù)據(jù)挖掘方法的應(yīng)用階段6.2.2 一般化數(shù)據(jù)挖掘方法的應(yīng)用階段6.2.3 專門數(shù)據(jù)挖掘技術(shù)的設(shè)計(jì)階段

9、6.3 生物序列數(shù)據(jù)挖掘研究與應(yīng)用現(xiàn)狀6.3.1 生物序列模式挖掘方面6.3.2 生物序列聚類分析方面6.3.3 生物序列分類分析方面6.3.4 生物序列關(guān)聯(lián)分析方面6.3.5 生物序列異常分析方面6.4 生物序列數(shù)據(jù)挖掘研究趨勢(shì)6.5 小結(jié)第7章生物序列數(shù)據(jù)挖掘技術(shù)7.1 序列數(shù)據(jù)源7.2 生物序列模式挖掘7.2.1 生物序列模式挖掘問(wèn)題7.2.2 基于多支持度的生物序列模式挖掘框架7.2.3 基于多支持度的生物序列模式挖掘算法7.3 生物序列聚類分析7.3.1 生物序列聚類問(wèn)題分析7.3.2 蛋白質(zhì)序列聚類7.3.3 基因序列聚類7.4 生物序列分類分析7.4.1 生物序列分類問(wèn)題分析7

10、.4.2 轉(zhuǎn)錄因子分類7.4.3 基于支持向量機(jī)的轉(zhuǎn)錄因子分類算法7.5 小結(jié)第8章基因芯片數(shù)據(jù)挖掘8.1 基因表達(dá)譜芯片數(shù)據(jù)挖掘8.1.1 基因表達(dá)譜數(shù)據(jù)分析8.1.2 基因表達(dá)相似性分析8.1.3 基因表達(dá)共發(fā)生分析8.1.4 基因表達(dá)路徑分析8.1.5 特殊表達(dá)基因分析8.2 基因表達(dá)譜數(shù)據(jù)庫(kù)建設(shè)8.2.1 基因表達(dá)譜芯片數(shù)據(jù)的標(biāo)準(zhǔn)8.2.2 基因表達(dá)譜數(shù)據(jù)庫(kù)建設(shè)的難點(diǎn)8.2.3 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)8.2.4 數(shù)據(jù)加載與數(shù)據(jù)管理8.2.5 自動(dòng)導(dǎo)入數(shù)據(jù)8.3 基因表達(dá)譜數(shù)據(jù)挖掘系統(tǒng)8.3.1 數(shù)據(jù)挖掘框架8.3.2 bdmapa架構(gòu)擴(kuò)展8.3.3 基因表達(dá)譜芯片數(shù)據(jù)挖掘系統(tǒng)8.4 小結(jié)第9

11、章轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng)9.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理9.1.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理9.1.2 順式調(diào)控元件文本挖掘原理9.2 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng)設(shè)計(jì)9.2.1 數(shù)據(jù)挖掘軟件9.2.2 數(shù)據(jù)分析服務(wù)9.2.3 綜合的轉(zhuǎn)錄因子、順式調(diào)控元件數(shù)據(jù)庫(kù)9.3 小結(jié)第10章生物序列數(shù)據(jù)庫(kù)管理系統(tǒng)10.1 生物數(shù)據(jù)處理面臨的問(wèn)題10.1.1 生物數(shù)據(jù)存儲(chǔ)方式10.1.2 生物序列數(shù)據(jù)庫(kù)的查詢需求10.2 生物序列數(shù)據(jù)模型bioseg10.2.1 數(shù)據(jù)結(jié)構(gòu)10.2.2 代數(shù)操作10.2.3 open builtin函數(shù)10.2.4 等價(jià)規(guī)則10.2.5 biose

12、g模型的特點(diǎn)10.3 生物序列數(shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)10.3.1 代數(shù)查詢實(shí)例10.3.2 查詢語(yǔ)言10.3.3 體系結(jié)構(gòu)10.4 小結(jié)參考文獻(xiàn)致謝書摘插圖：第1章背景知識(shí)諾貝爾獎(jiǎng)獲得者dulbecc0于1986年在science雜志上發(fā)表的一篇短文中率先提出了人類基因組計(jì)劃。該計(jì)劃在探討生命奧秘的過(guò)程中，使得自動(dòng)化的dna測(cè)序技術(shù)、生物數(shù)據(jù)挖掘分析技術(shù)、基因組數(shù)據(jù)庫(kù)和分析軟件、基因芯片技術(shù)的一些工具性技術(shù)獲得了快速發(fā)展，并使生物信息學(xué)作為一個(gè)學(xué)科領(lǐng)域獲得了公認(rèn)。本章介紹生物信息學(xué)、數(shù)據(jù)整合與數(shù)據(jù)挖掘方面的背景知識(shí)和基本概念。 1.1 生物信息學(xué)生命科學(xué)實(shí)驗(yàn)產(chǎn)生了大量生物數(shù)據(jù)，如何在數(shù)學(xué)、計(jì)算

13、機(jī)科學(xué)等的支持下充分利用這些生物數(shù)據(jù)更有效地開(kāi)展生命的探討是一個(gè)很有意義的問(wèn)題。于是，生物數(shù)據(jù)處理技術(shù)獲得了發(fā)展，并最終產(chǎn)生了生物信息學(xué)。1.1.1 基本概念生物信息學(xué)（bioinformatics）是指生命科學(xué)與數(shù)學(xué)科學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算機(jī)軟件對(duì)各種生物數(shù)據(jù)進(jìn)行提取、存儲(chǔ)、處理和分析，旨在掌握復(fù)雜生命現(xiàn)象的形成模式與演化規(guī)律。該定義是rashidi等人于2000年給出的。由于生命科學(xué)研究者各自從事的具體領(lǐng)域不同，對(duì)其存在不同的理解，因此至今仍沒(méi)有一個(gè)關(guān)于生物信息學(xué)的統(tǒng)一定義。但其基本的研究?jī)?nèi)容和研究方法還是比較統(tǒng)

14、一的，就是通過(guò)研究生物數(shù)據(jù)來(lái)促進(jìn)生命科學(xué)的研究。隨著生命科學(xué)研究的深入，生物信息學(xué)也受到廣泛關(guān)注。事實(shí)上，生物信息學(xué)起源要早很多。1953年4月25日，waston和crick提出dna（deoxyribo nucleic acid）雙螺旋結(jié)構(gòu)和自我復(fù)制機(jī)制，揭開(kāi)了分子生物學(xué)研究的新篇章。1956年，在美國(guó)田納西州蓋特林堡召開(kāi)首次“生物學(xué)中的信息理論研討會(huì)”，萌生了生物信息學(xué)概念。20世紀(jì)60年代，研究者開(kāi)始搜集生物信息，并應(yīng)用計(jì)算方法對(duì)其進(jìn)行分析，發(fā)現(xiàn)其中反映生命現(xiàn)象的重要規(guī)律。隨后，生物學(xué)的研究手段發(fā)生了革命性的變化，由單純的觀察和實(shí)驗(yàn)研究轉(zhuǎn)向與生物數(shù)據(jù)分析相結(jié)合。70年代到80年代初，數(shù)

15、學(xué)統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)得到了較快發(fā)展，研究者開(kāi)始應(yīng)用計(jì)算機(jī)技術(shù)解決生物學(xué)問(wèn)題，生物信息學(xué)初步形成。1986年，美國(guó)科學(xué)家首次提出“人類基因組計(jì)劃”（human genome project，hgp），促進(jìn)了生物信息學(xué)的迅速發(fā)展。1987年，hwa a.lim博士首次將這一學(xué)科命名為“bioinformatics”（生物信息學(xué)）。正如dulbecco 1986年所說(shuō)：“人類的dna序列是人類的真諦，這個(gè)世界上發(fā)生的一切事情，都與這一序列息息相關(guān)?！钡@些由數(shù)以億計(jì)acgt符號(hào)組成的dna序列中包含著什么信息？基因組中的這些信息怎樣控制有機(jī)體的發(fā)育？基因組本身又是怎樣進(jìn)化的？要完全破譯這一序列以及

16、相關(guān)的內(nèi)容，人類還有相當(dāng)長(zhǎng)的路要走。生物信息學(xué)成為可能揭開(kāi)謎底的重要方法之一。1.1.2研究?jī)?nèi)容生物信息學(xué)的目標(biāo)是指導(dǎo)生命科學(xué)研究，以揭示生物數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識(shí)和規(guī)律，讀懂基因組的遺傳信息。其研究?jī)?nèi)容主要包括以下兩大方面。1.生物數(shù)據(jù)的存儲(chǔ)、管理和整合生物數(shù)據(jù)主要有生物序列數(shù)據(jù)（如dna序列、蛋白質(zhì)序列等）、生物分子結(jié)構(gòu)數(shù)據(jù)、芯片及基因表達(dá)數(shù)據(jù)、生物網(wǎng)絡(luò)數(shù)據(jù)（如蛋白質(zhì)相互作用網(wǎng)絡(luò)、調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)等）、生物文獻(xiàn)數(shù)據(jù)等。目前在國(guó)際上總共約有1 000多個(gè)生物數(shù)據(jù)庫(kù)，存放數(shù)百tb（tera byte）的生物數(shù)據(jù)。由于大多數(shù)生物數(shù)據(jù)的含義目前還不為人們所知，因此大量的生物學(xué)研究將基于生物數(shù)據(jù)進(jìn)

17、行。生物學(xué)研究手段由單純的觀察和實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)代信息學(xué)方法，即將生物的實(shí)驗(yàn)變成了數(shù)據(jù)的計(jì)算。生物數(shù)據(jù)是一種非結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)量巨大、種類繁多、數(shù)據(jù)操作類型復(fù)雜等是其主要的特征。其表達(dá)和存儲(chǔ)方式是生物數(shù)據(jù)訪問(wèn)和處理的關(guān)鍵。目前，生物數(shù)據(jù)的存儲(chǔ)方式有兩種：一種是采用文本文件方式存儲(chǔ)；另一種是采用關(guān)系數(shù)據(jù)庫(kù)、xml（extensible markup language）數(shù)據(jù)庫(kù)或者面向?qū)ο髷?shù)據(jù)庫(kù)等存儲(chǔ)方式，但是由于沒(méi)有合適的數(shù)據(jù)模型或數(shù)據(jù)類型，生物數(shù)據(jù)在這種存儲(chǔ)方式中也只是用數(shù)據(jù)庫(kù)管理系統(tǒng)（database management system，dbms）中提供的文本字段來(lái)存儲(chǔ)。就是說(shuō)，兩者本質(zhì)上是一樣的，

18、都是文本方式。文本方式對(duì)復(fù)雜的生物數(shù)據(jù)操作（如：生物序列相似性查詢、motif查詢等）而言，處理效率是難以令人滿意的，也即目前的數(shù)據(jù)庫(kù)技術(shù)（包括xml數(shù)據(jù)庫(kù)技術(shù)）都不適合生物數(shù)據(jù)的存儲(chǔ)、管理和處理，這直接影響了生物信息學(xué)軟件的有效性和實(shí)用性，進(jìn)而影響了生命科學(xué)和生物技術(shù)的發(fā)展。另外，文本方式的存儲(chǔ)在生物數(shù)據(jù)的處理能力和處理性能上也都不能滿足要求。因此，如何有效地管理和處理生物數(shù)據(jù)是一個(gè)亟待解決的問(wèn)題。針對(duì)生物數(shù)據(jù)的特點(diǎn)，建立生物數(shù)據(jù)庫(kù)管理系統(tǒng)是一個(gè)關(guān)系生命科學(xué)與技術(shù)發(fā)展的重要課題。由于生物數(shù)據(jù)產(chǎn)生于世界各地的研究機(jī)構(gòu)，存儲(chǔ)在各種生物數(shù)據(jù)庫(kù)中，因此為完成一項(xiàng)研究工作，需要整合這些分散在各研究機(jī)構(gòu)

19、中的生物數(shù)據(jù)。但因?yàn)樯飻?shù)據(jù)庫(kù)數(shù)量眾多且規(guī)模龐大，所以生物數(shù)據(jù)整合是一項(xiàng)艱巨的計(jì)算機(jī)工程任務(wù)。2.生物數(shù)據(jù)挖掘和分析生物信息學(xué)領(lǐng)域的核心內(nèi)容是研究如何通過(guò)對(duì)生物數(shù)據(jù)的分析，以期發(fā)現(xiàn)生物數(shù)據(jù)中的規(guī)律（如dna序列、結(jié)構(gòu)及其與生物功能之間的關(guān)系等），并對(duì)分析結(jié)果進(jìn)行解釋和可視化，其研究范圍涉及基因組學(xué)、蛋白質(zhì)組學(xué)、系統(tǒng)生物學(xué)、比較基因組學(xué)等，挖掘和分析的內(nèi)容包括生物序列數(shù)據(jù)的分析和挖掘、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘、生物網(wǎng)絡(luò)系統(tǒng)的分析和挖掘、芯片和基因表達(dá)數(shù)據(jù)分析等內(nèi)容。（1）生物序列數(shù)據(jù)的分析和挖掘序列比對(duì)：序列相似性研究是生物序列數(shù)據(jù)分析和挖掘研究的核心內(nèi)容，其中一個(gè)主要的應(yīng)用問(wèn)題是給定一條生物

20、序列，在序列數(shù)據(jù)庫(kù)中查詢與其相似程度大于一定閾值的序列（比較兩個(gè)或兩個(gè)以上的序列的相似性），即生物序列相似性查詢。序列比對(duì)是最基本、最重要的方法之一，它根據(jù)給定的相似矩陣（pam250，blosum62等），同時(shí)考慮可能的插入、刪除和突變，找出序列間的最優(yōu)聯(lián)配。序列比對(duì)主要有全局比對(duì)和局部比對(duì)兩種策略：全局比對(duì)是對(duì)序列的全長(zhǎng)進(jìn)行比對(duì)，適用于全局水平上相似性程度較高的序列；典型的算法有needleman-wunsch算法等；局部比對(duì)是尋找序列間相似性最大的子序列，典型的算法有基于動(dòng)態(tài)規(guī)劃思想的smith-waterman算法以及啟發(fā)式的兩序列比對(duì)數(shù)據(jù)庫(kù)相似性搜索算法fasta和blast（bas

21、ic local alignment search t001）等。多序列比對(duì)是將一組序列同時(shí)進(jìn)行比對(duì)，發(fā)現(xiàn)序列間的相似程度，大多采用啟發(fā)式算法，具有代表性的主要是漸進(jìn)比對(duì)方法和迭代比對(duì)方法。功能元件分析：基因識(shí)別是識(shí)別dna序列上的具有生物學(xué)特征的片段，識(shí)別對(duì)象包括蛋白質(zhì)編碼（即基因的范圍和在序列中的位置），也包括其他具有一定生物學(xué)功能的功能元件，如轉(zhuǎn)錄因子、順式調(diào)控元件等。功能元件能夠表征序列的功能特征。序列上的功能元件主要包括編碼序列元功能片段和非編碼序列元功能片段等。其中，編碼序列可被轉(zhuǎn)錄并執(zhí)行一定的生物學(xué)功能；調(diào)控序列控制編碼序列的動(dòng)態(tài)行為，如轉(zhuǎn)錄調(diào)控序列控制編碼序列的表達(dá)速率等。目前，“dna元件百科全書”（encyclopedia of dna elements，encode）計(jì)劃已開(kāi)展人類基因組中功能元件的分析工作，但該計(jì)劃正處于初期，積累的數(shù)據(jù)仍然較少。（2）蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘人類基因工程的目的之一是要了解人體內(nèi)蛋白質(zhì)的結(jié)構(gòu)、功能、相互作用以及與各種人類疾病之間的關(guān)系。雖然蛋白質(zhì)由氨基酸的線性序列組成，但是只有折疊成特定的空間構(gòu)象才能具有相應(yīng)的生物學(xué)功能。由于蛋白質(zhì)的三維結(jié)構(gòu)比其一級(jí)結(jié)構(gòu)在進(jìn)化中更穩(wěn)定，同時(shí)也包含了較氨基酸序列（一級(jí)結(jié)構(gòu)）更多的信息，因此，蛋白質(zhì)結(jié)

人人文庫(kù)> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔