第一章 緒論(化學信息學相關(guān)概念)_第1頁
第一章 緒論(化學信息學相關(guān)概念)_第2頁
第一章 緒論(化學信息學相關(guān)概念)_第3頁
第一章 緒論(化學信息學相關(guān)概念)_第4頁
第一章 緒論(化學信息學相關(guān)概念)_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.1化學信息和化學信息學化學信息和化學信息學 自從化學學科出現(xiàn)以來,信息的記載、組織與交流對化學學科的發(fā)展起了重要的作用,同時也成為化學學科的一個重要組成部分。這是因為化學實驗的記錄資料具有長遠的時間意義。在化學學科中,化學家根據(jù)百年以前的記錄資料從事科學研究的例子并不罕見。另外,化學物質(zhì)結(jié)構(gòu)的記錄與檢索需要建立獨特的記錄系統(tǒng)。隨著計算機技術(shù)的發(fā)展,化學家必須建立自己的信息表示、記錄與管理系統(tǒng),以適應時代的要求。 .2化學信息化學信息化學信息可分為兩大組成部分:化學物質(zhì)的化學信息化學物質(zhì)的化學信息:利用科學的原理和方法通過測量得到的化學成分的相關(guān)信息,如物質(zhì)的物理、化學性質(zhì),物質(zhì)中各成分的定性

2、、定量以及結(jié)構(gòu)信息,分子間的相互作用信息,化學反應的信息等。媒體形式的化學信息媒體形式的化學信息:化學信息的記錄形式,如圖書、期刊、專刊、專利、數(shù)據(jù)庫以及音像資料等,通過化學信息的傳播使化學家們共享測量的原理、方法及測量結(jié)果。 化學信息學是近年來發(fā)展起來的新學科,它的產(chǎn)生與發(fā)展是基于化學信息量指數(shù)般增長,特別是組合化學及高通量篩選的迅速發(fā)展?;瘜W信息學的產(chǎn)生與發(fā)展是與藥物研究與開發(fā)息息相關(guān)的,但它的應用卻覆蓋化學學科的各個領(lǐng)域,如農(nóng)業(yè)化學、分析化學、合成化學、物理化學等。近年來,國際上已出版與化學信息學有關(guān)的雜志,出現(xiàn)眾多的化學信息學公司,許多大學紛紛開設化學信息學課程,培養(yǎng)化學信息學人才。

3、.31.1 化學信息學的起源及歷史化學信息學的起源及歷史1.1.1 信息學的起源信息學的起源上世紀40年代,以申農(nóng)(CEShannon)通訊的數(shù)學理論、維納(NWeiner)控制論動物和機器中的通訊與控制問題問世為標志,信息論誕生了,它是科學發(fā)展史上的里程碑,其偉大貢獻和深遠影響是前所未有的。1959年,美國賓夕法尼亞大學莫爾電子工程學院首先應用了“信息科學”的概念,這一概念既包括了信息理論又包括了信息技術(shù)。出現(xiàn)了:以計算機為代表的“計算機信息科學”;以文獻處理自動化為代表的“圖書館信息科學”和以申農(nóng)通訊信號計量理論為核心的“全信息信息科學”。三者的共同特征是:僅研究特定領(lǐng)域中的某些信息,對其

4、它領(lǐng)域中的信息不予充分的關(guān)注與考慮。上世紀60年代初,以申農(nóng)信息論為基礎(chǔ)的信息科學得到了一定的發(fā)展,新概念和新理論不斷涌現(xiàn) 。.420世紀80年代以來,在申農(nóng)原有信息論的基礎(chǔ)上分別在模糊信息、概率與非概率信息、語法信息、語義信息、語用信息等方面做了大量的工作。在此基礎(chǔ)上,人們提出了廣義信息論。1982年美國普林斯頓大學的馬克盧普(FMchlup)在美國聚集了當時不同信息研究領(lǐng)域的眾多學者發(fā)起了一個信息的多學科交叉的研究運動,信息理論的研究開始向其它科學領(lǐng)域滲透和擴展,誕生了40多種部門信息學,并發(fā)表了繼申農(nóng)、維納之后的又一本經(jīng)典著作信息研究:學科之間的通訊。 1994年,德國一批學者又發(fā)起了一

5、個新的交叉信息科學的研究運動,開拓了部門信息學的一些新領(lǐng)域。雖然,研究的范圍更加廣泛,但是,并沒有做出實質(zhì)性的評論與創(chuàng)新性的理論。 90年代后期,部門信息學得到了蓬勃的發(fā)展,除了增加了新成員,而且,關(guān)涉到了自然科學和社會科學的眾多前沿問題。其中較有影響的部門學科是:生物信息學,物理信息學,還有經(jīng)濟信息學,人類信息學等等。據(jù)統(tǒng)計目前大概已有50余種部門信息學。.51.1.2 化學信息學的起源與歷史化學信息學的起源與歷史 20世紀60年代以來,計算機與化學結(jié)合形成了計算機化學。經(jīng)過近40年的發(fā)展,計算機化學幾乎在化學的每一分支領(lǐng)域都獲得了豐碩的成果,計算機已成為化學研究的重要工具之一。20世紀80

6、年代以來,Internet飛速發(fā)展,逐步成為各種信息資源傳遞的重要載體,包括基于的化學信息網(wǎng)站、化學信息數(shù)據(jù)庫、遠程化學教學等內(nèi)容的化學信息網(wǎng)絡化趨勢也日趨形成?;瘜W與internet成為一個非?;钴S、進展驚人的新興交叉領(lǐng)域。隨著計算機化學的不斷發(fā)展和化學信息網(wǎng)絡化的不斷普及,一個嶄新的化學分支學科“化學信息學(Chemoinfiormatics)”應運而生。 “化學信息學”首次出現(xiàn)于1987年諾貝爾化學獎獲得者J. M. Lehn教授的獲獎報告中。JMLehn在研究復雜分子的反應過程中發(fā)現(xiàn)分子具有自組織、自識別的化學智能反應現(xiàn)象,識別的概念包含著信息的展示、傳遞、鑒別和響應等過程,這就是化學

7、信息學研究的開始。 .6化學界的專家學者們正試圖以新的方式和方法建立化學信息周期表。 國外一些大學開設了化學信息學課程并確定為研究生的研究方向,從事研究、管理和開發(fā)化學信息的團體、機構(gòu)和公司也相繼出現(xiàn)。美國化學會化學信息分會和圖書館協(xié)會在Indiana大學成立了化學信息教學資料交換中心(The Clearinghouse for Chemical Information Instructional Materials (CCIIM)),負責收集、發(fā)布和分發(fā)化學信息源。美國化學會還設立了化學信息教育委員會(American Chemical Society Division of Chemica

8、l Information Education Committee)。美國、歐洲、澳大利亞的很多大學開設了化學信息學類的課程。在國內(nèi),化學教學指導委員會已將化學信息學列入化學教學的基本內(nèi)容,北京大學化學學院已設置課程并編寫了講義,南京大學、復旦大學及我校等高校也相繼開設了該課程。.71.2 化學信息學的概念及研究內(nèi)容化學信息學的概念及研究內(nèi)容1.2.1 化學信息學的概念化學信息學的概念 1987年J. M. Lehn教授首次提出化學信息學的概念以后并沒有進一步深入研究這一概念的本質(zhì),但我們可以看出,當時化學信息的內(nèi)在含義應為分子間的相互作用或相互識別的有關(guān)信息,而化學信息學應為研究分子間相互作

9、用實質(zhì)或識別機理的一個學科,主要目的是為解釋超分子的形成過程提供依據(jù)。 目前化學信息學的內(nèi)容更加強調(diào)了化學文獻、化學信息數(shù)據(jù)庫、特別是Internet中的化學資源等內(nèi)容。 .8 化學信息學還沒有統(tǒng)一的被廣泛接受的定義及英文名稱。目前最通用的為Chemoinformatics及Chemical informatics。也有用Cheminformatics, Chemi informatics。也有人把Chemical information Science及Molecular Informatics稱為化學信息學。與化學信息學有關(guān)的術(shù)語有 chemi-informatics,chemometri

10、cs,computational chemistry,chemical informatics,chemical information management/science,和cheminformatics等等。 美國印第安那大學(Indiana University)在國際上最早在化學圖書館科學的基礎(chǔ)上開設化學信息課程及培養(yǎng)化學信息學研究生,他們把化學信息學定義為:化學信息學包括從利用傳統(tǒng)的圖書館科學方法組織化學信息到利用現(xiàn)代計算機技術(shù)產(chǎn)生、存儲、檢索及可視化化學信息。 .9定義定義1:Frank Brown于1998年把化學信息學定義為:應用信息技術(shù)和信息處理方法已成為藥物發(fā)現(xiàn)過程中的一

11、個很重要的部分,化學信息學實際上是一種信息源的混合體。把各種化學數(shù)據(jù)轉(zhuǎn)化為信息,把信息提升為知識,其主要目的是在藥物先導化合物的發(fā)現(xiàn)及組織過程變得更有效。 這個定義太偏重于藥物化學,事實上,化學信息學在其他領(lǐng)域如農(nóng)業(yè)化學也有廣泛的應用。(“The use of information technology and management has become a critical part of the drug discovery process. Chemoinformatics is the mixing of those information resources to transfor

12、m data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and organization” F. Brown, Annual Reports in Medicinal Chemistry, 33, 375-384 (1998).10 定義定義2: M. Hann 和R. Green 認為化學信息學是處理化學老問題的一種新名稱(“Chemoinfo

13、rmatics - a new name for an old problem ”, Current Opinion in Chemical Biology, 3, 379-383 (1999))。定義定義3: Greg Paris在1999年8月的ACS會議上提出了一個更一般性的定義,他認為:化學信息學是個一般的術(shù)語,它包括化學信息的設計、建立、組織、管理、檢索、分析、判別、可視化及使用。(“Chem(o)informatics is a generic term that encompasses the design, creation, organization, management,

14、 retrieval, analysis, dissemination, visualization and use of chemical information” G. Paris (August 1999 ACS meeting)。 .11 定義定義4: 將計算機技術(shù)應用到化學中的一門組合技術(shù),利用統(tǒng)計 模 型 、 計 算 和 分 析 科 學 來 理 解 化 學 數(shù) 據(jù) 的 重 要 性(“Chemoinformatics is the application of computer technology to chemistry; a combination of techniques

15、and models in statistical, computational, and analytical sciences to understand the significance of chemical data.”)。定義定義5: “化學信息學是近幾年發(fā)展起來的一個新的化學分支,它利用計算機和計算機網(wǎng)絡技術(shù),對化學信息進行表示、管理、分析、模擬和傳播,以實現(xiàn)化學信息的提取、轉(zhuǎn)化與共享,揭示化學信息的內(nèi)在實質(zhì)與內(nèi)在聯(lián)系,促進化學學科的知識創(chuàng)新?!?化學信息學是化學學科的分支學科,其研究對象和研究目的均屬于化學的學科領(lǐng)域。它的研究手段為計算機技術(shù)和計算機網(wǎng)絡技術(shù),研究內(nèi)容則包括如何

16、利用計算機和計算機網(wǎng)絡技術(shù)對化學信息進行表示、管理、分析、模擬和傳播等。同時,化學信息學的目的是為了實現(xiàn)化學信息的提取、轉(zhuǎn)化以及化學家之間的資源共享,從而為促進化學學科的發(fā)展與知識創(chuàng)新做出貢獻。.121.2.2 化學信息學的研究內(nèi)容化學信息學的研究內(nèi)容 (1)化學信息的組織、管理、檢索和使用化學信息的組織、管理、檢索和使用:化學信息可分為與傳媒有關(guān)的信息(如文獻、圖書資料、網(wǎng)絡信息等)及與物質(zhì)有關(guān)的信息(各種實驗數(shù)據(jù),包括化學反應有關(guān)數(shù)據(jù),譜學數(shù)據(jù),射線晶體學數(shù)據(jù),化學與物理性質(zhì)數(shù)據(jù),毒性及生物活性數(shù)據(jù),與環(huán)境有關(guān)的數(shù)據(jù)等)?;瘜W信息的形式包括:文字、符號、數(shù)字、形貌、圖形及表格等。這些化學信

17、息最主要的組織、管理形式是形成數(shù)據(jù)庫數(shù)據(jù)庫。 最早的化學數(shù)據(jù)庫是各種譜學數(shù)據(jù)庫及劍橋晶體結(jié)構(gòu)數(shù)據(jù)庫。目前最完善的化學信息系統(tǒng)是MDL系統(tǒng)、Beilstein系統(tǒng)及CA系統(tǒng)。據(jù)統(tǒng)計目前化學信息中58%已經(jīng)組織為各種數(shù)據(jù)庫系統(tǒng),但其中只有12%可以相互轉(zhuǎn)換,而化學信息常常是需要結(jié)合使用的,要完成一項化學研究工作需要調(diào)用多種有關(guān)的數(shù)據(jù)庫。 .13 化學信息學的重要內(nèi)容之一是如何實現(xiàn)化學信息間的關(guān)聯(lián)及轉(zhuǎn)化?;瘜W信息的管理、檢索及使用包括化學信息的快速有效的檢索及推理、判斷。主要涉及人工智能方法,最重要的是化化學專家系統(tǒng)學專家系統(tǒng)。一個專家系統(tǒng)包括化學知識信息處理,化學知識利用系統(tǒng)、知識的推理能力及咨詢

18、解釋能力。20世紀60年代開發(fā)的化學專家系統(tǒng)DENDRAL系統(tǒng)是最早的專家系統(tǒng)。目前已有多種化學專家系統(tǒng)用于不同的目的,如圖譜解析專家系統(tǒng)、反應路線設計專家系統(tǒng)等。(2) 分子結(jié)構(gòu)的編碼、描述、三維結(jié)構(gòu)的構(gòu)建分子結(jié)構(gòu)的編碼、描述、三維結(jié)構(gòu)的構(gòu)建:巨大數(shù)目分子結(jié)構(gòu)編碼及三維結(jié)構(gòu)模型的構(gòu)建及各種形式的結(jié)構(gòu)表達,并能快速連接到合成路線,譜學數(shù)據(jù),純化技術(shù)等是化學信息學的基礎(chǔ)工作。 .14(3)化學信息的加工、處理及深化化學信息的加工、處理及深化:化學信息的加工處理包括數(shù)據(jù)的預處理,回歸分析,主成分分析,偏最小二乘,信號分析,模式識別,神經(jīng)網(wǎng)絡,遺傳算法,模糊及隨機算法等。它們可以幫助化學家正確分析、

19、評價、利用現(xiàn)有的化學信息并從中獲取最大量的有用結(jié)果,實現(xiàn)從數(shù)據(jù)到信息,從信息到知識的轉(zhuǎn)換。計算機模擬技術(shù)包括量子化學、分子動力學、蒙特卡羅方法及各種優(yōu)化技術(shù),近年來已取得重大進展,在藥物開發(fā),功能材料的研制及生命科學領(lǐng)域都取得許多突破性的成果。化學體系涉及分子、超分子、超分子聚集體及聚集態(tài)等。在不同尺度及層次的化學體系會表現(xiàn)出不同的性質(zhì),稱尺度效應。過去化學家主要著眼于微觀體系,化學工程學家主要關(guān)注宏觀體系,對于聯(lián)系宏觀與微觀的介觀體系沒有受到應有的重視,因此有關(guān)介觀體系的信息及多尺度研究也應是化學信息學關(guān)注的重要問題。.15(4)計算組合化學計算組合化學:組合化學是當前化學家關(guān)注的熱門領(lǐng)域。

20、它的特點是以比較短的時間及較少的經(jīng)費為快速合成大量的化合物提供大量的化學信息。但它面臨組合的數(shù)目過大,所謂組合爆炸,如此巨大數(shù)目的組合化學合成仍需要消耗大量的人力與物力,萬一失敗就造成巨大的浪費,因此需要通過計算組合化學方法建立虛擬的組合化學庫,然后在計算機上進行篩選,選擇較少數(shù)目的化合物進行組合化學合成。虛擬庫的構(gòu)建要考慮分子的相似性及差異性。虛擬庫的篩選包括基于靶酶結(jié)構(gòu)利用分子對接方法進行篩選,或利用神經(jīng)網(wǎng)絡方法把已成藥的化合物作為訓練集,把虛擬組合化學庫作為預測集,把化合物區(qū)分為類藥分子(Drug Like)及非成藥分子(Non Drug compounds)。一個組合化學計算機系統(tǒng)應包

21、括組合合成庫的設計,高維化學空間差異性質(zhì)計算及影射,化學反應數(shù)據(jù)庫系統(tǒng)和知識庫系統(tǒng),綜合性化學多樣性信息及生物實驗數(shù)據(jù)管理系統(tǒng),分子對接及構(gòu)效關(guān)系研究等。 .16(5)化學體系中信息的交換及傳遞化學體系中信息的交換及傳遞:諾貝爾獎金獲得者Lehn在1987年諾貝爾獲獎演說中提出信息化學(Semiochemistry)的概念。他認為化學信息寓于分子中,在分子間相互作用時讀出化學信息,這些化學信息對于化學反應及性能起著調(diào)控的作用。這方面的研究涉及分子識別、超分子建筑、分子構(gòu)造學、晶體工程、分子器件等方面的內(nèi)容。但目前在國外的文獻中較少有人把這方面的內(nèi)容納入化學信息學的范疇。 .17(6)分子的物理

22、化學性質(zhì)預測分子的物理化學性質(zhì)預測:目前已合成的化合物的數(shù)目已超過5107個,而虛擬的組合化學庫的化合物數(shù)目可達億萬個。如此巨大數(shù)目的化合物無法全部完成它們的物理化學性質(zhì)的實驗測定,因此根據(jù)化合物的結(jié)構(gòu)預測化合物的性質(zhì)有重要的意義和價值。利用量子化學及分子力學方法可預測許多重要的分子性質(zhì),如:鍵長、鍵角、二面角、三維結(jié)構(gòu)、藥效構(gòu)象、反應中間體、過渡態(tài)、電子性質(zhì)、電荷分布、偶極矩、離子化勢、電子親和性、質(zhì)子親和性、極化、靜電勢、分子間相互作用、Wood World Hoffman規(guī)則、結(jié)合能、大分子間的結(jié)合位點、pKa、分子能量、生成熱、焓、活化能、勢能面、反應途徑、溶劑化能、光譜性質(zhì)、振動頻率

23、、紅外及拉曼強度、ESR常數(shù)、激活能、消光系數(shù)、傳輸性質(zhì)、親脂性、分子體積、分子表面積等等。.181.3 化學信息學常用方法化學信息學常用方法 最早的化學信息學的方法和應用都是發(fā)表在美國的Journal of Chemical Information & Computer Science(Journal of Chemical Information and modeling)雜志上?;瘜W信息學研究的最早內(nèi)容之一是象結(jié)構(gòu)描述符一類的化學結(jié)構(gòu)的計算機表示。1.3.1 描述符和化學結(jié)構(gòu)數(shù)據(jù)庫的獲取描述符和化學結(jié)構(gòu)數(shù)據(jù)庫的獲取 20世紀80年代以前,計算機的速度較慢,對化合物的結(jié)構(gòu)和子結(jié)構(gòu)的

24、搜尋是一個很難的問題,因為它們的計算量都很大。為了找到在較慢的計算機上能夠進行化合物的結(jié)構(gòu)和子結(jié)構(gòu)搜索的非常切實可行的辦法,化學家們嘗試了許多方法以便能夠找到一個簡潔的結(jié)構(gòu)表示方法,如結(jié)構(gòu)的線性表示等。這種方法將化合物的結(jié)構(gòu)圖轉(zhuǎn)化成計算機很容易識別和搜索的字符串。數(shù)據(jù)搜索的方法可以過濾掉許多不符合條件的化合物,然后在小范圍里再根據(jù)逐個原子搜索的方法就會將搜尋的化合物縮小到一定的范圍。 . 線性符號線性符號 結(jié)構(gòu)線性符號在一系列的規(guī)則下將化學結(jié)構(gòu)的連接表轉(zhuǎn)化為具有一定序列的字符串。最早的線性符號是Wiswesser 線性符號(WLN)。在上世紀60年代中期到80年代,WLN被認

25、為是最好的表示化學結(jié)構(gòu)的工具。雖然WLN很有效的壓縮了化學結(jié)構(gòu)數(shù)據(jù),并且非常適合低性能的計算機的存儲和搜索,但是,它的編碼讓非專業(yè)人員很難看懂。后來Weininger又提出了一個新的線性符號編碼系統(tǒng)SMILES。由于SMILES和自然語言很接近,因此有機化學家廣泛的應用該方法建立化學結(jié)構(gòu)數(shù)據(jù)庫。要想成功地表示化學結(jié)構(gòu),線性符號必須具有唯一性,即線性符號和化學結(jié)構(gòu)之間必須是一一對應的關(guān)系,WLN和SMILES就具有這樣的特點。. 規(guī)范化規(guī)范化 WLN和SMILES都能夠通過字符串匹配的方法解決結(jié)構(gòu)搜索的問題。一個分子的2D結(jié)構(gòu)圖可以通過數(shù)學算法規(guī)范化地變成一個實數(shù),這些實數(shù)就被

26、稱為分子的拓撲指數(shù)。但是兩個不同的分子可能具有相同的拓撲指數(shù),因此,拓撲指數(shù)只能用于對分子的篩選。拓撲指數(shù)的概念最早是在QSAR和QSPR研究中提出的。Wiener在1947年第一個報導了分子的拓撲指數(shù)。如果分子和拓撲指數(shù)之間是一一對應的關(guān)系,那么結(jié)構(gòu)搜索就可以通過數(shù)據(jù)的比較來完成。但是,子結(jié)構(gòu)的搜索仍然要通過一個一個原子匹配的算法來進行,這樣就非常耗時。為了增強化學數(shù)據(jù)庫的搜索功能,必須要找到較好的結(jié)構(gòu)篩選技術(shù)。 . 篩選與搜索篩選與搜索 為了避免使用逐個原子匹配,目前大都使用篩選的方法。這種方法的思路是先定義一組子結(jié)構(gòu)(官能團),用來過濾掉一些不可能的結(jié)構(gòu)。這些預先定義的

27、結(jié)構(gòu)叫做搜索關(guān)鍵詞。目前這些關(guān)鍵詞都被MDL結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)收集采用,在MDL結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)中,有166個搜索關(guān)鍵詞和960個擴展搜索關(guān)鍵詞。 開始這166個搜索關(guān)鍵詞是用166個字符串來表示的,后來發(fā)現(xiàn)使用166個二進制位比使用166個字符串更有效,因為計算機處理邏輯位操作要比處理字符串快的多。. 指紋指紋 這種方法的思想是用一些二進制位來表示指定的子結(jié)構(gòu),如果有這種子結(jié)構(gòu)該位置的二進制數(shù)據(jù)為1,它表示相應的子結(jié)構(gòu)在此位置,0代表此位置沒有指定的子結(jié)構(gòu)。 這種二進制映射被稱指紋。 有許多類型的分子指紋,其類型依靠使用的是一套什么樣的子結(jié)構(gòu),例如:Daylight 使用的指紋表

28、示的是由Daylight Fingerprint 軟件包產(chǎn)生出來的子結(jié)構(gòu),而MDL指紋表示的是MACCS搜索關(guān)鍵詞定義出來的子結(jié)構(gòu)。指紋的方法大大地提高了化學結(jié)構(gòu)數(shù)據(jù)庫的搜索性能。從線性符號字符串到指紋的轉(zhuǎn)變是化學信息學的具有重要意義的發(fā)展,有了指紋技術(shù)之后,我們可以計算兩個不同大小的分子結(jié)構(gòu)的相似性。盡管兩個分子可能具有不同的原子數(shù)和鍵數(shù),它們有可能有相同數(shù)目的指紋,占用相同的存儲空間。. 結(jié)構(gòu)描述符及化合物結(jié)構(gòu)庫結(jié)構(gòu)描述符及化合物結(jié)構(gòu)庫 制藥公司在上世紀90年帶開始采用高通量篩選技術(shù)??焖贅?gòu)造出包含數(shù)千個化合物結(jié)構(gòu)的數(shù)據(jù)庫已經(jīng)成為一個重要的課題,構(gòu)造這樣數(shù)據(jù)庫的目的是為了

29、解決下列問題: (1) 一個數(shù)據(jù)庫里有多少種各類化合物?(2) 在數(shù)據(jù)庫中的化合物和市場的化合物相比有多少相似性?(3)應該怎樣選擇出一個子庫,使其在結(jié)構(gòu)上能表示整個庫?(4)外來的數(shù)據(jù)庫能否作為該庫在結(jié)構(gòu)上的補充? 早期的化學信息學使用了化學數(shù)據(jù)庫的概念,例如MACCS基于指紋的搜索關(guān)鍵詞和Daylight指紋,這些工具都能進行化學結(jié)構(gòu)的差異性分析。目前,子結(jié)構(gòu)的二進制映射不僅可以表示結(jié)構(gòu)描述符,也可以表示任何的結(jié)構(gòu)性質(zhì):如拓撲性質(zhì)和3D性質(zhì)的各種分子指數(shù)、分子量和H-給體數(shù)等,現(xiàn)在有許多的計算各種各樣結(jié)構(gòu)描述符的免費和商業(yè)工具。 結(jié)構(gòu)描述符是概括化學結(jié)構(gòu)數(shù)據(jù)庫的最基本的工具,而差異性則是現(xiàn)

30、代化學信息學的主要內(nèi)容。.241.3.2 降維和描述符的選擇降維和描述符的選擇(Dimension reduction and descriptor selection) 從數(shù)學角度而言,一個數(shù)據(jù)庫若有n個化合物,而每個化合物用m (m 3)個描述符來表示,那么該庫就是一個nm的矩陣。雖然我們都喜歡從各種各樣的圖上來分析數(shù)據(jù),但我們沒有辦法用圖形來表示它們。為了解決這個問題,我們必須使用降維技術(shù)將數(shù)據(jù)轉(zhuǎn)化為2D或3D。目前有許多的降維方法,下面作一個介紹。 多維規(guī)范化處理多維規(guī)范化處理(MDS) 多維規(guī)范化處理(MDS)或人工神經(jīng)網(wǎng)絡(ANN)方法都是傳統(tǒng)的用于絳維的方法。MDS

31、是一種非線性的映射方法。它不是一種精確的方法,實際上是將研究的對象移到一個指定維數(shù)的定義的空間上,然后檢查對象之間在新的空間中表示距離能否和原空間的順序一致。換句話說,MDS使用函數(shù)最小化算法計算具有最大擬合目的不同空間中的數(shù)據(jù)。. 自組織映射自組織映射(SOM) 自組織映射(SOM)是人工神經(jīng)網(wǎng)絡的一種。它是一種有效的向量定量化算法,在高維輸入空間中建立參考向量,并用一種規(guī)則的方式在影射空間中用該參考向量近似輸入模式。定義參考向量間的局部順序關(guān)系使得它們之間互相依賴,這樣它們近鄰的值好象都落在一個假設“彈性面”上。SOM 通過保留輸入數(shù)據(jù)的局部本質(zhì)特征能夠?qū)碗s的高維空間的

32、數(shù)據(jù)壓縮或影射到二維空間上。.2 主成分分析與因子分析主成分分析與因子分析(PCA,F(xiàn)A) 主成分分析 (PCA) 與因子分析 (FA) 在定量分析中通常用于過濾多余描述符、排除包含信息量很少的描述符。PCA能將大量的具有潛在相關(guān)性的變量(描述符)轉(zhuǎn)變成一些相對獨立變量,并且可以根據(jù)這些變量所包含信息量的多少進行排列。 經(jīng)過變換的變量包含了所有變量的絕大部分信息,因此被稱為主成分。第一個主成分包含的信息最多,接下來的每一個主成分都包含有一定的信息,后面的成分所包含的信息往往很少,可以舍掉而不會失去多少信息。 因子分析(FA)是通過對一數(shù)據(jù)矩陣進行特征分析、旋轉(zhuǎn)變換等操作,以獲得

33、有關(guān)信息的數(shù)學方法。 所獲得的因子是原始變量的線性組合,其數(shù)目總是比原始變量的數(shù)目少。如果在PCA中的主成分數(shù)和FA中的因子數(shù)少于4,那么多維的數(shù)據(jù)就可以在2D或3D空間中用圖形表示了。雖然PCA和FA都可以用于數(shù)據(jù)的降維,但這種降維方法并不是適用于任何情況,因此我們需要一種方法能將數(shù)據(jù)點和化學結(jié)構(gòu)之間對應起來, 這就是所謂的化學結(jié)構(gòu)相關(guān)數(shù)據(jù)的可視化。.2 可視化化學結(jié)構(gòu)可視化化學結(jié)構(gòu) 化學結(jié)構(gòu)圖是化學家們的自然語言。 由于將數(shù)據(jù)庫里的每一個化合物影射二維平面中的一個點,因此很有必要找到一種容易的方法來識別每一個點所對應的化合物的結(jié)構(gòu)。這種方法已經(jīng)被一些軟件如Spotfire

34、解決。 描述符的選擇描述符的選擇(Descriptor selection) 成功的數(shù)據(jù)挖掘往往是建立在選擇良好的能反映分子結(jié)構(gòu)和性質(zhì)特征的描述符的基礎(chǔ)之上的。如果用一些不合適的描述符來表示分子,就不可能得到一個合理可靠的預測結(jié)果。要想正確的選擇描述符,必須要求對所要解決的問題中的一些計算關(guān)系有足夠的理解,通常相關(guān)性分析(Correlation analysis)及有關(guān)的分析方法能夠幫助我們對問題的理解。選擇描述符時應遵循以下原則: .28(1)所選擇的描述符應該與生物活性有關(guān)(通常要進行相關(guān)性分析);(2)所選擇的描述符應該覆蓋面較廣(即數(shù)據(jù)集有各種各樣的分布);(3)所選擇的

35、描述符相互之間應該是相對獨立的(如果有兩個描述符之間具有很好的相關(guān)性,建立的模型所預測的性質(zhì)就會出現(xiàn)偏差)(4)所選擇的描述符應該是比較容易獲得,且易于化學家解釋,不會發(fā)生變化或不相關(guān)轉(zhuǎn)換的,對噪音不太敏感的,同時該描述符還應該在不同種類的模式(模型)中起不同的作用。 一些研究表明,2D描述符有時比3D描述符在建模時更有效。數(shù)據(jù)挖掘的目的就是建立與活性或性質(zhì)有關(guān)的模式。在分析數(shù)據(jù)的時候,我們會把化合物庫里的化合物分成幾組,在同一組里的化合物應具有共同的特征。這就要求分類,而模式識別算法就是用于分類。 .291.3.3 分類和模式識別分類和模式識別(Classifications and pat

36、tern recognition) 數(shù)據(jù)挖掘的核心技術(shù)是模式識別。在化學信息學中,回歸分析和分類是最常用的模式識別技術(shù)?;貧w分析通常用于具有連續(xù)數(shù)據(jù)的變量中,但是多數(shù)的結(jié)構(gòu)描述符都是離散的或是布爾(Boolean)變量,因此就不得不采用分類的方法來解決,如有指導的和無指導的學習算法。下面我們先來了解什么是模式(patterns)。 模式模式 研究人員要想從眾多的數(shù)據(jù)挖掘工具中找出合適的模式,必須先對所研究的問題有足夠的了解,即研究者應該事先知道他們研究問題的模式類型。 .30.3 相似或距離矩陣相似或距離矩陣(Similarity or Distance metr

37、ics) 許多的模式識別技術(shù)需要距離或相似性度量方法來定量地衡量兩個研究對象(象化學中常常研究的分子)的相似性。一般而言,Euclidean 距離,Mahalanobis 距離和相關(guān)系數(shù)是最常用的距離度量方法,Tanimoto系數(shù)常用于計算布爾邏輯型(Boolean logic)數(shù)據(jù)之間的相似性,它們的計算方法如下: (1.1) (1.2) (1.3) (1.4)niiibaBAD12)(),(1)()(),(TiiiibabaBADniniiiniiibabaBAR11221),(),(BAT.3 聚類聚類(Clustering) 聚類分析(CA)是由Tryon在1939第一

38、個使用,事實上CA 包含了大量的分類算法。一個最普通的是如何使用分類學將實驗數(shù)據(jù)分成有意義的不同類別。CA的方法就是為了解決這個問題。目前,已有許多的CA算法,總的可以分成兩類:即分級聚類和不分級聚類。分級聚類將研究的對象按樹狀結(jié)構(gòu)進行重新安排。 Javis-Patrick是最早使用CA對化學結(jié)構(gòu)進行聚類的。正確的聚類分析要依靠下面三點: (1)選用適當?shù)慕Y(jié)構(gòu)表示;(2)選用合適的數(shù)據(jù)標準化方法;(3)選擇合適的聚類分析算法和適當?shù)膮?shù)設置。當大量的實驗數(shù)據(jù)的實驗條件和量剛不一樣時,數(shù)據(jù)標準化是這些數(shù)據(jù)能夠進行比較的基礎(chǔ)。 .33minmaxminminmax)()(minXXXxXXiiXx

39、niiixxix1|)(xxiix線性標準化: 比例標準化: Z-score標準化: 一般地,線性標準化使用的較多,Z-score標準化必須要求xi 符合Gaussian 分布。聚類分析的一個缺點是在進行聚類分析之前必須先確定數(shù)據(jù)應該分成幾類,并且不容許出現(xiàn)奇異數(shù)據(jù)。 .3 分割聚類分割聚類(Partition clustering) 分割算法也有許多種,如二杈樹,非參數(shù)法等。由于很難使用回歸或參數(shù)分類法對奇異數(shù)據(jù)類型進行分類,過多的描述符也使得聚類分析無法進行,一般就用二杈樹方法解決這類問題。目前最常用的二杈樹算法是遞歸分割(recursive partitioning ,R

40、P)。有文章報道使用遞歸分割算法在一個小時內(nèi)能將超過100,000 化合物和2,000,000 描述符進行分類。遞歸分割算法也可用于建立多元回歸模型。一個最大的優(yōu)點就是分割算法和和聚類分析算法一樣能夠解決許多分類問題。.351.4 化學信息學軟件開發(fā)及常用軟件化學信息學軟件開發(fā)及常用軟件 計算機與化學的結(jié)合在上世紀60年代就開始為人們所重視,80年代以來得到快速發(fā)展。近二十多年來,由于計算機及網(wǎng)絡技術(shù)的不斷發(fā)展,計算機技術(shù)與化學之間的相互滲透已成為化學和計算機科學工作者的研究熱點,從而形成了一門新興的分支學科化學信息學。 利用Internet這種全球化的工具,化學工作者在自己的辦公室或家中就可

41、以快速地獲取過去難于獲得或者需要通過許多方法和渠道才能獲得的信息,也可以通過Internet網(wǎng)快速地發(fā)表自己的觀點、研究成果等。 計算機技術(shù)在化學中的應用對化學工作者的傳統(tǒng)工作方法及思維模式產(chǎn)生了很大的沖擊,改變了化學工作者的研究手段及工作環(huán)境,使得原來難以解決的問題變得更加容易,如結(jié)構(gòu)化學中的許多計算。如今計算機技術(shù)在化學中已得到廣泛的應用,各種應用軟件的大量出現(xiàn)使得化學工作者愈來愈依靠這種技術(shù)來解決化學中的問題??偟膩矸?,目前化學信息學應用軟件的主要包括為以下兩個方面: .36 計算機開始用于處理化學中的復雜計算計算機開始用于處理化學中的復雜計算將計算機技術(shù)與化學儀器相結(jié)合從而到分析測試的

42、自動將計算機技術(shù)與化學儀器相結(jié)合從而到分析測試的自動化、智能化是當前新儀器、新設備的設計與制造的重要發(fā)展化、智能化是當前新儀器、新設備的設計與制造的重要發(fā)展趨勢趨勢。 隨著計算機技術(shù)的不斷發(fā)展與功能的完善,計算機不再是一種簡單的計算工具,它正向智能化、網(wǎng)絡化方向發(fā)展,這使得應用計算機技術(shù)能解決的化學問題也愈來愈多。由于計算機主要是用數(shù)學的方法通過計算來解決問題,其特點是能快速地進行大量復雜、繁瑣的數(shù)學計算,而化學是對化學物質(zhì)進行認識、分析、合成及利用。因此,要想將計算機技術(shù)應用到化學中就必須解決化學與計算機的結(jié)合問題。這方面的研究包括兩方面的內(nèi)容,即計算機與化學儀器的接口、化學類應用軟件程序包

43、的開發(fā)。 .37(1)計算機與化學儀器的接口。 其任務是研制計算機與化學儀器相接時的軟硬件運行環(huán)境,它包括實驗數(shù)據(jù)的采集與處理兩方面的內(nèi)容。其方法是使用A/D或D/A轉(zhuǎn)化技術(shù)將化學測量中的模擬信號轉(zhuǎn)化為計算機可識別的數(shù)字信號或?qū)⒂嬎銠C發(fā)出的數(shù)字信號轉(zhuǎn)化為化學儀器可識別的模擬信號,進而實現(xiàn)對測試及工藝過程的控制。測試儀器接口系統(tǒng)今后向模塊式、智能化測試系統(tǒng)方向發(fā)展將是一種必然趨勢。.38(2)對采集數(shù)據(jù)的處理,是通過不同目的的化學類應用軟件程序包系統(tǒng)實現(xiàn)。 化學信息學類應用軟件程序包,主要是設計具有工具性的應用軟件程序包和處理化學問題的數(shù)學程序。 這方面國外有很多,如Chemoffice、Che

44、mWindow、ChemSketch、Scivision、Chemdraw、ISIS Draw系列化學辦公軟件、HyperChem系列程序、Tripos公司的Sybyl系列程序、Caussian系列程序、Mopac系列程序、DENDRAL、CHEMICS、CASE、EXSPEC、PARIS等。由加拿大的Advanced Chemistry Development Inc.公司制作Chem Sketch軟件,其1.0版已作為免費軟件向大眾推出,該軟件可以從Internet上免費下載:http:/WWW 我國在這方面起步較晚,唐敖慶等編制的結(jié)構(gòu)化學軟件是我國較早自己設計的化學類工具軟件。 清華大學

45、CAI中心實驗室開發(fā)的寫作系統(tǒng)THCAI,可以用它開發(fā)包括化學類的CAI課件; 安登魁等設計的計算藥物分析程序包,它包含35個常用方法,可用于各種類型的化學統(tǒng)計分析、分光光度分析、最優(yōu)化、因子分析、聚類分析及模式識別的計算。 目前,在量子化學研究中用得最廣泛的計算程序是由1998年Noble化學獎獲得者之一Pople設計的Gaussian系列程序.。 .401.5 化學信息學的應用化學信息學的應用 1.5.1 化學信息學在化學的應用化學信息學在化學的應用 就其研究內(nèi)容看來,化學信息學在化學研究中的應用一般可分為四個方面,即,計算機與計算化學、計算機與應用化學、計算機與化學工程、化學數(shù)據(jù)庫與專家

46、系統(tǒng)。1.5.2 藥物設計中的應用(藥物設計中的應用(Applications in drug discovery) 化合物的選擇(Compound selection),虛擬庫的建立(Virtual library generation),虛擬篩選(Virtual screening)。 .411.6 化學信息學的現(xiàn)狀及未來化學信息學的現(xiàn)狀及未來 化學信息學是用計算機研究化學反應和物質(zhì)變化規(guī)律,實現(xiàn)化學知識創(chuàng)新的科學。以計算機及其網(wǎng)絡系統(tǒng)為工具,建立由化學化工信息發(fā)現(xiàn)新知識和實現(xiàn)知識傳播的理論和方法;認識物質(zhì)、改造物質(zhì)、創(chuàng)造新物質(zhì)和認識反應、控制反應過程和創(chuàng)造新反應、新過程是化學信息學研究的

47、主體?;瘜W數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、計算機輔助結(jié)構(gòu)解析、分子設計和合成路線設計等是當前化學信息學的主要研究方向。1.6.1 計算機和信息技術(shù)大量用于計算機和信息技術(shù)大量用于藥物篩選藥物篩選 傳統(tǒng)的藥物篩選過程是先對動物進行多種指標的試驗,再進入人體臨床試驗,過程長,組合種類少,效率低。現(xiàn)在計算機技術(shù)甚至大型計算機應用于藥物篩選,分子設計和建立基因圖譜庫等,大大提高了效率。上海藥物所采用神威2號超大型計算機用于藥物篩選,原來需要幾年的計算量,現(xiàn)在僅用幾周時間。大量基因藥物用計算機與基因圖譜做對比,便于分析、基因修復和分子設計。因此,信息技術(shù)手段的廣泛采用將是醫(yī)藥產(chǎn)業(yè)未來發(fā)展的重點。 .421.6.2 生物學為化學信息學生物學為化學信息學帶來新的機遇帶來新的機遇 生物基因工程特別是人類基因組計劃的完成為化學信息學帶來新的機遇。許多化學信息學公司,已經(jīng)開始了藥物開發(fā)信息學平臺的研究,但是 很難得到生物信息學方面的合作伙伴。目前這個領(lǐng)域的競爭非常的激烈,真正的勝出者將是那些能夠快速消除生物信息學和化學信息學鴻溝的企業(yè)。1.7 化學信息學的發(fā)展方向化學信息學的發(fā)展方向1.7.1 并行優(yōu)化并行優(yōu)化技術(shù)技術(shù) 在過去的十

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論