




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.1化學信息和化學信息學化學信息和化學信息學 自從化學學科出現以來,信息的記載、組織與交流對化學學科的發(fā)展起了重要的作用,同時也成為化學學科的一個重要組成部分。這是因為化學實驗的記錄資料具有長遠的時間意義。在化學學科中,化學家根據百年以前的記錄資料從事科學研究的例子并不罕見。另外,化學物質結構的記錄與檢索需要建立獨特的記錄系統(tǒng)。隨著計算機技術的發(fā)展,化學家必須建立自己的信息表示、記錄與管理系統(tǒng),以適應時代的要求。 .2化學信息化學信息化學信息可分為兩大組成部分:化學物質的化學信息化學物質的化學信息:利用科學的原理和方法通過測量得到的化學成分的相關信息,如物質的物理、化學性質,物質中各成分的定性
2、、定量以及結構信息,分子間的相互作用信息,化學反應的信息等。媒體形式的化學信息媒體形式的化學信息:化學信息的記錄形式,如圖書、期刊、??@?、數據庫以及音像資料等,通過化學信息的傳播使化學家們共享測量的原理、方法及測量結果。 化學信息學是近年來發(fā)展起來的新學科,它的產生與發(fā)展是基于化學信息量指數般增長,特別是組合化學及高通量篩選的迅速發(fā)展。化學信息學的產生與發(fā)展是與藥物研究與開發(fā)息息相關的,但它的應用卻覆蓋化學學科的各個領域,如農業(yè)化學、分析化學、合成化學、物理化學等。近年來,國際上已出版與化學信息學有關的雜志,出現眾多的化學信息學公司,許多大學紛紛開設化學信息學課程,培養(yǎng)化學信息學人才。
3、.31.1 化學信息學的起源及歷史化學信息學的起源及歷史1.1.1 信息學的起源信息學的起源上世紀40年代,以申農(CEShannon)通訊的數學理論、維納(NWeiner)控制論動物和機器中的通訊與控制問題問世為標志,信息論誕生了,它是科學發(fā)展史上的里程碑,其偉大貢獻和深遠影響是前所未有的。1959年,美國賓夕法尼亞大學莫爾電子工程學院首先應用了“信息科學”的概念,這一概念既包括了信息理論又包括了信息技術。出現了:以計算機為代表的“計算機信息科學”;以文獻處理自動化為代表的“圖書館信息科學”和以申農通訊信號計量理論為核心的“全信息信息科學”。三者的共同特征是:僅研究特定領域中的某些信息,對其
4、它領域中的信息不予充分的關注與考慮。上世紀60年代初,以申農信息論為基礎的信息科學得到了一定的發(fā)展,新概念和新理論不斷涌現 。.420世紀80年代以來,在申農原有信息論的基礎上分別在模糊信息、概率與非概率信息、語法信息、語義信息、語用信息等方面做了大量的工作。在此基礎上,人們提出了廣義信息論。1982年美國普林斯頓大學的馬克盧普(FMchlup)在美國聚集了當時不同信息研究領域的眾多學者發(fā)起了一個信息的多學科交叉的研究運動,信息理論的研究開始向其它科學領域滲透和擴展,誕生了40多種部門信息學,并發(fā)表了繼申農、維納之后的又一本經典著作信息研究:學科之間的通訊。 1994年,德國一批學者又發(fā)起了一
5、個新的交叉信息科學的研究運動,開拓了部門信息學的一些新領域。雖然,研究的范圍更加廣泛,但是,并沒有做出實質性的評論與創(chuàng)新性的理論。 90年代后期,部門信息學得到了蓬勃的發(fā)展,除了增加了新成員,而且,關涉到了自然科學和社會科學的眾多前沿問題。其中較有影響的部門學科是:生物信息學,物理信息學,還有經濟信息學,人類信息學等等。據統(tǒng)計目前大概已有50余種部門信息學。.51.1.2 化學信息學的起源與歷史化學信息學的起源與歷史 20世紀60年代以來,計算機與化學結合形成了計算機化學。經過近40年的發(fā)展,計算機化學幾乎在化學的每一分支領域都獲得了豐碩的成果,計算機已成為化學研究的重要工具之一。20世紀80
6、年代以來,Internet飛速發(fā)展,逐步成為各種信息資源傳遞的重要載體,包括基于的化學信息網站、化學信息數據庫、遠程化學教學等內容的化學信息網絡化趨勢也日趨形成?;瘜W與internet成為一個非常活躍、進展驚人的新興交叉領域。隨著計算機化學的不斷發(fā)展和化學信息網絡化的不斷普及,一個嶄新的化學分支學科“化學信息學(Chemoinfiormatics)”應運而生。 “化學信息學”首次出現于1987年諾貝爾化學獎獲得者J. M. Lehn教授的獲獎報告中。JMLehn在研究復雜分子的反應過程中發(fā)現分子具有自組織、自識別的化學智能反應現象,識別的概念包含著信息的展示、傳遞、鑒別和響應等過程,這就是化學
7、信息學研究的開始。 .6化學界的專家學者們正試圖以新的方式和方法建立化學信息周期表。 國外一些大學開設了化學信息學課程并確定為研究生的研究方向,從事研究、管理和開發(fā)化學信息的團體、機構和公司也相繼出現。美國化學會化學信息分會和圖書館協(xié)會在Indiana大學成立了化學信息教學資料交換中心(The Clearinghouse for Chemical Information Instructional Materials (CCIIM)),負責收集、發(fā)布和分發(fā)化學信息源。美國化學會還設立了化學信息教育委員會(American Chemical Society Division of Chemica
8、l Information Education Committee)。美國、歐洲、澳大利亞的很多大學開設了化學信息學類的課程。在國內,化學教學指導委員會已將化學信息學列入化學教學的基本內容,北京大學化學學院已設置課程并編寫了講義,南京大學、復旦大學及我校等高校也相繼開設了該課程。.71.2 化學信息學的概念及研究內容化學信息學的概念及研究內容1.2.1 化學信息學的概念化學信息學的概念 1987年J. M. Lehn教授首次提出化學信息學的概念以后并沒有進一步深入研究這一概念的本質,但我們可以看出,當時化學信息的內在含義應為分子間的相互作用或相互識別的有關信息,而化學信息學應為研究分子間相互作
9、用實質或識別機理的一個學科,主要目的是為解釋超分子的形成過程提供依據。 目前化學信息學的內容更加強調了化學文獻、化學信息數據庫、特別是Internet中的化學資源等內容。 .8 化學信息學還沒有統(tǒng)一的被廣泛接受的定義及英文名稱。目前最通用的為Chemoinformatics及Chemical informatics。也有用Cheminformatics, Chemi informatics。也有人把Chemical information Science及Molecular Informatics稱為化學信息學。與化學信息學有關的術語有 chemi-informatics,chemometri
10、cs,computational chemistry,chemical informatics,chemical information management/science,和cheminformatics等等。 美國印第安那大學(Indiana University)在國際上最早在化學圖書館科學的基礎上開設化學信息課程及培養(yǎng)化學信息學研究生,他們把化學信息學定義為:化學信息學包括從利用傳統(tǒng)的圖書館科學方法組織化學信息到利用現代計算機技術產生、存儲、檢索及可視化化學信息。 .9定義定義1:Frank Brown于1998年把化學信息學定義為:應用信息技術和信息處理方法已成為藥物發(fā)現過程中的一
11、個很重要的部分,化學信息學實際上是一種信息源的混合體。把各種化學數據轉化為信息,把信息提升為知識,其主要目的是在藥物先導化合物的發(fā)現及組織過程變得更有效。 這個定義太偏重于藥物化學,事實上,化學信息學在其他領域如農業(yè)化學也有廣泛的應用。(“The use of information technology and management has become a critical part of the drug discovery process. Chemoinformatics is the mixing of those information resources to transfor
12、m data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and organization” F. Brown, Annual Reports in Medicinal Chemistry, 33, 375-384 (1998).10 定義定義2: M. Hann 和R. Green 認為化學信息學是處理化學老問題的一種新名稱(“Chemoinfo
13、rmatics - a new name for an old problem ”, Current Opinion in Chemical Biology, 3, 379-383 (1999))。定義定義3: Greg Paris在1999年8月的ACS會議上提出了一個更一般性的定義,他認為:化學信息學是個一般的術語,它包括化學信息的設計、建立、組織、管理、檢索、分析、判別、可視化及使用。(“Chem(o)informatics is a generic term that encompasses the design, creation, organization, management,
14、 retrieval, analysis, dissemination, visualization and use of chemical information” G. Paris (August 1999 ACS meeting)。 .11 定義定義4: 將計算機技術應用到化學中的一門組合技術,利用統(tǒng)計 模 型 、 計 算 和 分 析 科 學 來 理 解 化 學 數 據 的 重 要 性(“Chemoinformatics is the application of computer technology to chemistry; a combination of techniques
15、and models in statistical, computational, and analytical sciences to understand the significance of chemical data.”)。定義定義5: “化學信息學是近幾年發(fā)展起來的一個新的化學分支,它利用計算機和計算機網絡技術,對化學信息進行表示、管理、分析、模擬和傳播,以實現化學信息的提取、轉化與共享,揭示化學信息的內在實質與內在聯(lián)系,促進化學學科的知識創(chuàng)新?!?化學信息學是化學學科的分支學科,其研究對象和研究目的均屬于化學的學科領域。它的研究手段為計算機技術和計算機網絡技術,研究內容則包括如何
16、利用計算機和計算機網絡技術對化學信息進行表示、管理、分析、模擬和傳播等。同時,化學信息學的目的是為了實現化學信息的提取、轉化以及化學家之間的資源共享,從而為促進化學學科的發(fā)展與知識創(chuàng)新做出貢獻。.121.2.2 化學信息學的研究內容化學信息學的研究內容 (1)化學信息的組織、管理、檢索和使用化學信息的組織、管理、檢索和使用:化學信息可分為與傳媒有關的信息(如文獻、圖書資料、網絡信息等)及與物質有關的信息(各種實驗數據,包括化學反應有關數據,譜學數據,射線晶體學數據,化學與物理性質數據,毒性及生物活性數據,與環(huán)境有關的數據等)。化學信息的形式包括:文字、符號、數字、形貌、圖形及表格等。這些化學信
17、息最主要的組織、管理形式是形成數據庫數據庫。 最早的化學數據庫是各種譜學數據庫及劍橋晶體結構數據庫。目前最完善的化學信息系統(tǒng)是MDL系統(tǒng)、Beilstein系統(tǒng)及CA系統(tǒng)。據統(tǒng)計目前化學信息中58%已經組織為各種數據庫系統(tǒng),但其中只有12%可以相互轉換,而化學信息常常是需要結合使用的,要完成一項化學研究工作需要調用多種有關的數據庫。 .13 化學信息學的重要內容之一是如何實現化學信息間的關聯(lián)及轉化?;瘜W信息的管理、檢索及使用包括化學信息的快速有效的檢索及推理、判斷。主要涉及人工智能方法,最重要的是化化學專家系統(tǒng)學專家系統(tǒng)。一個專家系統(tǒng)包括化學知識信息處理,化學知識利用系統(tǒng)、知識的推理能力及咨詢
18、解釋能力。20世紀60年代開發(fā)的化學專家系統(tǒng)DENDRAL系統(tǒng)是最早的專家系統(tǒng)。目前已有多種化學專家系統(tǒng)用于不同的目的,如圖譜解析專家系統(tǒng)、反應路線設計專家系統(tǒng)等。(2) 分子結構的編碼、描述、三維結構的構建分子結構的編碼、描述、三維結構的構建:巨大數目分子結構編碼及三維結構模型的構建及各種形式的結構表達,并能快速連接到合成路線,譜學數據,純化技術等是化學信息學的基礎工作。 .14(3)化學信息的加工、處理及深化化學信息的加工、處理及深化:化學信息的加工處理包括數據的預處理,回歸分析,主成分分析,偏最小二乘,信號分析,模式識別,神經網絡,遺傳算法,模糊及隨機算法等。它們可以幫助化學家正確分析、
19、評價、利用現有的化學信息并從中獲取最大量的有用結果,實現從數據到信息,從信息到知識的轉換。計算機模擬技術包括量子化學、分子動力學、蒙特卡羅方法及各種優(yōu)化技術,近年來已取得重大進展,在藥物開發(fā),功能材料的研制及生命科學領域都取得許多突破性的成果。化學體系涉及分子、超分子、超分子聚集體及聚集態(tài)等。在不同尺度及層次的化學體系會表現出不同的性質,稱尺度效應。過去化學家主要著眼于微觀體系,化學工程學家主要關注宏觀體系,對于聯(lián)系宏觀與微觀的介觀體系沒有受到應有的重視,因此有關介觀體系的信息及多尺度研究也應是化學信息學關注的重要問題。.15(4)計算組合化學計算組合化學:組合化學是當前化學家關注的熱門領域。
20、它的特點是以比較短的時間及較少的經費為快速合成大量的化合物提供大量的化學信息。但它面臨組合的數目過大,所謂組合爆炸,如此巨大數目的組合化學合成仍需要消耗大量的人力與物力,萬一失敗就造成巨大的浪費,因此需要通過計算組合化學方法建立虛擬的組合化學庫,然后在計算機上進行篩選,選擇較少數目的化合物進行組合化學合成。虛擬庫的構建要考慮分子的相似性及差異性。虛擬庫的篩選包括基于靶酶結構利用分子對接方法進行篩選,或利用神經網絡方法把已成藥的化合物作為訓練集,把虛擬組合化學庫作為預測集,把化合物區(qū)分為類藥分子(Drug Like)及非成藥分子(Non Drug compounds)。一個組合化學計算機系統(tǒng)應包
21、括組合合成庫的設計,高維化學空間差異性質計算及影射,化學反應數據庫系統(tǒng)和知識庫系統(tǒng),綜合性化學多樣性信息及生物實驗數據管理系統(tǒng),分子對接及構效關系研究等。 .16(5)化學體系中信息的交換及傳遞化學體系中信息的交換及傳遞:諾貝爾獎金獲得者Lehn在1987年諾貝爾獲獎演說中提出信息化學(Semiochemistry)的概念。他認為化學信息寓于分子中,在分子間相互作用時讀出化學信息,這些化學信息對于化學反應及性能起著調控的作用。這方面的研究涉及分子識別、超分子建筑、分子構造學、晶體工程、分子器件等方面的內容。但目前在國外的文獻中較少有人把這方面的內容納入化學信息學的范疇。 .17(6)分子的物理
22、化學性質預測分子的物理化學性質預測:目前已合成的化合物的數目已超過5107個,而虛擬的組合化學庫的化合物數目可達億萬個。如此巨大數目的化合物無法全部完成它們的物理化學性質的實驗測定,因此根據化合物的結構預測化合物的性質有重要的意義和價值。利用量子化學及分子力學方法可預測許多重要的分子性質,如:鍵長、鍵角、二面角、三維結構、藥效構象、反應中間體、過渡態(tài)、電子性質、電荷分布、偶極矩、離子化勢、電子親和性、質子親和性、極化、靜電勢、分子間相互作用、Wood World Hoffman規(guī)則、結合能、大分子間的結合位點、pKa、分子能量、生成熱、焓、活化能、勢能面、反應途徑、溶劑化能、光譜性質、振動頻率
23、、紅外及拉曼強度、ESR常數、激活能、消光系數、傳輸性質、親脂性、分子體積、分子表面積等等。.181.3 化學信息學常用方法化學信息學常用方法 最早的化學信息學的方法和應用都是發(fā)表在美國的Journal of Chemical Information & Computer Science(Journal of Chemical Information and modeling)雜志上?;瘜W信息學研究的最早內容之一是象結構描述符一類的化學結構的計算機表示。1.3.1 描述符和化學結構數據庫的獲取描述符和化學結構數據庫的獲取 20世紀80年代以前,計算機的速度較慢,對化合物的結構和子結構的
24、搜尋是一個很難的問題,因為它們的計算量都很大。為了找到在較慢的計算機上能夠進行化合物的結構和子結構搜索的非常切實可行的辦法,化學家們嘗試了許多方法以便能夠找到一個簡潔的結構表示方法,如結構的線性表示等。這種方法將化合物的結構圖轉化成計算機很容易識別和搜索的字符串。數據搜索的方法可以過濾掉許多不符合條件的化合物,然后在小范圍里再根據逐個原子搜索的方法就會將搜尋的化合物縮小到一定的范圍。 . 線性符號線性符號 結構線性符號在一系列的規(guī)則下將化學結構的連接表轉化為具有一定序列的字符串。最早的線性符號是Wiswesser 線性符號(WLN)。在上世紀60年代中期到80年代,WLN被認
25、為是最好的表示化學結構的工具。雖然WLN很有效的壓縮了化學結構數據,并且非常適合低性能的計算機的存儲和搜索,但是,它的編碼讓非專業(yè)人員很難看懂。后來Weininger又提出了一個新的線性符號編碼系統(tǒng)SMILES。由于SMILES和自然語言很接近,因此有機化學家廣泛的應用該方法建立化學結構數據庫。要想成功地表示化學結構,線性符號必須具有唯一性,即線性符號和化學結構之間必須是一一對應的關系,WLN和SMILES就具有這樣的特點。. 規(guī)范化規(guī)范化 WLN和SMILES都能夠通過字符串匹配的方法解決結構搜索的問題。一個分子的2D結構圖可以通過數學算法規(guī)范化地變成一個實數,這些實數就被
26、稱為分子的拓撲指數。但是兩個不同的分子可能具有相同的拓撲指數,因此,拓撲指數只能用于對分子的篩選。拓撲指數的概念最早是在QSAR和QSPR研究中提出的。Wiener在1947年第一個報導了分子的拓撲指數。如果分子和拓撲指數之間是一一對應的關系,那么結構搜索就可以通過數據的比較來完成。但是,子結構的搜索仍然要通過一個一個原子匹配的算法來進行,這樣就非常耗時。為了增強化學數據庫的搜索功能,必須要找到較好的結構篩選技術。 . 篩選與搜索篩選與搜索 為了避免使用逐個原子匹配,目前大都使用篩選的方法。這種方法的思路是先定義一組子結構(官能團),用來過濾掉一些不可能的結構。這些預先定義的
27、結構叫做搜索關鍵詞。目前這些關鍵詞都被MDL結構數據庫系統(tǒng)收集采用,在MDL結構數據庫系統(tǒng)中,有166個搜索關鍵詞和960個擴展搜索關鍵詞。 開始這166個搜索關鍵詞是用166個字符串來表示的,后來發(fā)現使用166個二進制位比使用166個字符串更有效,因為計算機處理邏輯位操作要比處理字符串快的多。. 指紋指紋 這種方法的思想是用一些二進制位來表示指定的子結構,如果有這種子結構該位置的二進制數據為1,它表示相應的子結構在此位置,0代表此位置沒有指定的子結構。 這種二進制映射被稱指紋。 有許多類型的分子指紋,其類型依靠使用的是一套什么樣的子結構,例如:Daylight 使用的指紋表
28、示的是由Daylight Fingerprint 軟件包產生出來的子結構,而MDL指紋表示的是MACCS搜索關鍵詞定義出來的子結構。指紋的方法大大地提高了化學結構數據庫的搜索性能。從線性符號字符串到指紋的轉變是化學信息學的具有重要意義的發(fā)展,有了指紋技術之后,我們可以計算兩個不同大小的分子結構的相似性。盡管兩個分子可能具有不同的原子數和鍵數,它們有可能有相同數目的指紋,占用相同的存儲空間。. 結構描述符及化合物結構庫結構描述符及化合物結構庫 制藥公司在上世紀90年帶開始采用高通量篩選技術??焖贅嬙斐霭瑪登€化合物結構的數據庫已經成為一個重要的課題,構造這樣數據庫的目的是為了
29、解決下列問題: (1) 一個數據庫里有多少種各類化合物?(2) 在數據庫中的化合物和市場的化合物相比有多少相似性?(3)應該怎樣選擇出一個子庫,使其在結構上能表示整個庫?(4)外來的數據庫能否作為該庫在結構上的補充? 早期的化學信息學使用了化學數據庫的概念,例如MACCS基于指紋的搜索關鍵詞和Daylight指紋,這些工具都能進行化學結構的差異性分析。目前,子結構的二進制映射不僅可以表示結構描述符,也可以表示任何的結構性質:如拓撲性質和3D性質的各種分子指數、分子量和H-給體數等,現在有許多的計算各種各樣結構描述符的免費和商業(yè)工具。 結構描述符是概括化學結構數據庫的最基本的工具,而差異性則是現
30、代化學信息學的主要內容。.241.3.2 降維和描述符的選擇降維和描述符的選擇(Dimension reduction and descriptor selection) 從數學角度而言,一個數據庫若有n個化合物,而每個化合物用m (m 3)個描述符來表示,那么該庫就是一個nm的矩陣。雖然我們都喜歡從各種各樣的圖上來分析數據,但我們沒有辦法用圖形來表示它們。為了解決這個問題,我們必須使用降維技術將數據轉化為2D或3D。目前有許多的降維方法,下面作一個介紹。 多維規(guī)范化處理多維規(guī)范化處理(MDS) 多維規(guī)范化處理(MDS)或人工神經網絡(ANN)方法都是傳統(tǒng)的用于絳維的方法。MDS
31、是一種非線性的映射方法。它不是一種精確的方法,實際上是將研究的對象移到一個指定維數的定義的空間上,然后檢查對象之間在新的空間中表示距離能否和原空間的順序一致。換句話說,MDS使用函數最小化算法計算具有最大擬合目的不同空間中的數據。. 自組織映射自組織映射(SOM) 自組織映射(SOM)是人工神經網絡的一種。它是一種有效的向量定量化算法,在高維輸入空間中建立參考向量,并用一種規(guī)則的方式在影射空間中用該參考向量近似輸入模式。定義參考向量間的局部順序關系使得它們之間互相依賴,這樣它們近鄰的值好象都落在一個假設“彈性面”上。SOM 通過保留輸入數據的局部本質特征能夠將復雜的高維空間的
32、數據壓縮或影射到二維空間上。.2 主成分分析與因子分析主成分分析與因子分析(PCA,FA) 主成分分析 (PCA) 與因子分析 (FA) 在定量分析中通常用于過濾多余描述符、排除包含信息量很少的描述符。PCA能將大量的具有潛在相關性的變量(描述符)轉變成一些相對獨立變量,并且可以根據這些變量所包含信息量的多少進行排列。 經過變換的變量包含了所有變量的絕大部分信息,因此被稱為主成分。第一個主成分包含的信息最多,接下來的每一個主成分都包含有一定的信息,后面的成分所包含的信息往往很少,可以舍掉而不會失去多少信息。 因子分析(FA)是通過對一數據矩陣進行特征分析、旋轉變換等操作,以獲得
33、有關信息的數學方法。 所獲得的因子是原始變量的線性組合,其數目總是比原始變量的數目少。如果在PCA中的主成分數和FA中的因子數少于4,那么多維的數據就可以在2D或3D空間中用圖形表示了。雖然PCA和FA都可以用于數據的降維,但這種降維方法并不是適用于任何情況,因此我們需要一種方法能將數據點和化學結構之間對應起來, 這就是所謂的化學結構相關數據的可視化。.2 可視化化學結構可視化化學結構 化學結構圖是化學家們的自然語言。 由于將數據庫里的每一個化合物影射二維平面中的一個點,因此很有必要找到一種容易的方法來識別每一個點所對應的化合物的結構。這種方法已經被一些軟件如Spotfire
34、解決。 描述符的選擇描述符的選擇(Descriptor selection) 成功的數據挖掘往往是建立在選擇良好的能反映分子結構和性質特征的描述符的基礎之上的。如果用一些不合適的描述符來表示分子,就不可能得到一個合理可靠的預測結果。要想正確的選擇描述符,必須要求對所要解決的問題中的一些計算關系有足夠的理解,通常相關性分析(Correlation analysis)及有關的分析方法能夠幫助我們對問題的理解。選擇描述符時應遵循以下原則: .28(1)所選擇的描述符應該與生物活性有關(通常要進行相關性分析);(2)所選擇的描述符應該覆蓋面較廣(即數據集有各種各樣的分布);(3)所選擇的
35、描述符相互之間應該是相對獨立的(如果有兩個描述符之間具有很好的相關性,建立的模型所預測的性質就會出現偏差)(4)所選擇的描述符應該是比較容易獲得,且易于化學家解釋,不會發(fā)生變化或不相關轉換的,對噪音不太敏感的,同時該描述符還應該在不同種類的模式(模型)中起不同的作用。 一些研究表明,2D描述符有時比3D描述符在建模時更有效。數據挖掘的目的就是建立與活性或性質有關的模式。在分析數據的時候,我們會把化合物庫里的化合物分成幾組,在同一組里的化合物應具有共同的特征。這就要求分類,而模式識別算法就是用于分類。 .291.3.3 分類和模式識別分類和模式識別(Classifications and pat
36、tern recognition) 數據挖掘的核心技術是模式識別。在化學信息學中,回歸分析和分類是最常用的模式識別技術。回歸分析通常用于具有連續(xù)數據的變量中,但是多數的結構描述符都是離散的或是布爾(Boolean)變量,因此就不得不采用分類的方法來解決,如有指導的和無指導的學習算法。下面我們先來了解什么是模式(patterns)。 模式模式 研究人員要想從眾多的數據挖掘工具中找出合適的模式,必須先對所研究的問題有足夠的了解,即研究者應該事先知道他們研究問題的模式類型。 .30.3 相似或距離矩陣相似或距離矩陣(Similarity or Distance metr
37、ics) 許多的模式識別技術需要距離或相似性度量方法來定量地衡量兩個研究對象(象化學中常常研究的分子)的相似性。一般而言,Euclidean 距離,Mahalanobis 距離和相關系數是最常用的距離度量方法,Tanimoto系數常用于計算布爾邏輯型(Boolean logic)數據之間的相似性,它們的計算方法如下: (1.1) (1.2) (1.3) (1.4)niiibaBAD12)(),(1)()(),(TiiiibabaBADniniiiniiibabaBAR11221),(),(BAT.3 聚類聚類(Clustering) 聚類分析(CA)是由Tryon在1939第一
38、個使用,事實上CA 包含了大量的分類算法。一個最普通的是如何使用分類學將實驗數據分成有意義的不同類別。CA的方法就是為了解決這個問題。目前,已有許多的CA算法,總的可以分成兩類:即分級聚類和不分級聚類。分級聚類將研究的對象按樹狀結構進行重新安排。 Javis-Patrick是最早使用CA對化學結構進行聚類的。正確的聚類分析要依靠下面三點: (1)選用適當的結構表示;(2)選用合適的數據標準化方法;(3)選擇合適的聚類分析算法和適當的參數設置。當大量的實驗數據的實驗條件和量剛不一樣時,數據標準化是這些數據能夠進行比較的基礎。 .33minmaxminminmax)()(minXXXxXXiiXx
39、niiixxix1|)(xxiix線性標準化: 比例標準化: Z-score標準化: 一般地,線性標準化使用的較多,Z-score標準化必須要求xi 符合Gaussian 分布。聚類分析的一個缺點是在進行聚類分析之前必須先確定數據應該分成幾類,并且不容許出現奇異數據。 .3 分割聚類分割聚類(Partition clustering) 分割算法也有許多種,如二杈樹,非參數法等。由于很難使用回歸或參數分類法對奇異數據類型進行分類,過多的描述符也使得聚類分析無法進行,一般就用二杈樹方法解決這類問題。目前最常用的二杈樹算法是遞歸分割(recursive partitioning ,R
40、P)。有文章報道使用遞歸分割算法在一個小時內能將超過100,000 化合物和2,000,000 描述符進行分類。遞歸分割算法也可用于建立多元回歸模型。一個最大的優(yōu)點就是分割算法和和聚類分析算法一樣能夠解決許多分類問題。.351.4 化學信息學軟件開發(fā)及常用軟件化學信息學軟件開發(fā)及常用軟件 計算機與化學的結合在上世紀60年代就開始為人們所重視,80年代以來得到快速發(fā)展。近二十多年來,由于計算機及網絡技術的不斷發(fā)展,計算機技術與化學之間的相互滲透已成為化學和計算機科學工作者的研究熱點,從而形成了一門新興的分支學科化學信息學。 利用Internet這種全球化的工具,化學工作者在自己的辦公室或家中就可
41、以快速地獲取過去難于獲得或者需要通過許多方法和渠道才能獲得的信息,也可以通過Internet網快速地發(fā)表自己的觀點、研究成果等。 計算機技術在化學中的應用對化學工作者的傳統(tǒng)工作方法及思維模式產生了很大的沖擊,改變了化學工作者的研究手段及工作環(huán)境,使得原來難以解決的問題變得更加容易,如結構化學中的許多計算。如今計算機技術在化學中已得到廣泛的應用,各種應用軟件的大量出現使得化學工作者愈來愈依靠這種技術來解決化學中的問題??偟膩矸?,目前化學信息學應用軟件的主要包括為以下兩個方面: .36 計算機開始用于處理化學中的復雜計算計算機開始用于處理化學中的復雜計算將計算機技術與化學儀器相結合從而到分析測試的
42、自動將計算機技術與化學儀器相結合從而到分析測試的自動化、智能化是當前新儀器、新設備的設計與制造的重要發(fā)展化、智能化是當前新儀器、新設備的設計與制造的重要發(fā)展趨勢趨勢。 隨著計算機技術的不斷發(fā)展與功能的完善,計算機不再是一種簡單的計算工具,它正向智能化、網絡化方向發(fā)展,這使得應用計算機技術能解決的化學問題也愈來愈多。由于計算機主要是用數學的方法通過計算來解決問題,其特點是能快速地進行大量復雜、繁瑣的數學計算,而化學是對化學物質進行認識、分析、合成及利用。因此,要想將計算機技術應用到化學中就必須解決化學與計算機的結合問題。這方面的研究包括兩方面的內容,即計算機與化學儀器的接口、化學類應用軟件程序包
43、的開發(fā)。 .37(1)計算機與化學儀器的接口。 其任務是研制計算機與化學儀器相接時的軟硬件運行環(huán)境,它包括實驗數據的采集與處理兩方面的內容。其方法是使用A/D或D/A轉化技術將化學測量中的模擬信號轉化為計算機可識別的數字信號或將計算機發(fā)出的數字信號轉化為化學儀器可識別的模擬信號,進而實現對測試及工藝過程的控制。測試儀器接口系統(tǒng)今后向模塊式、智能化測試系統(tǒng)方向發(fā)展將是一種必然趨勢。.38(2)對采集數據的處理,是通過不同目的的化學類應用軟件程序包系統(tǒng)實現。 化學信息學類應用軟件程序包,主要是設計具有工具性的應用軟件程序包和處理化學問題的數學程序。 這方面國外有很多,如Chemoffice、Che
44、mWindow、ChemSketch、Scivision、Chemdraw、ISIS Draw系列化學辦公軟件、HyperChem系列程序、Tripos公司的Sybyl系列程序、Caussian系列程序、Mopac系列程序、DENDRAL、CHEMICS、CASE、EXSPEC、PARIS等。由加拿大的Advanced Chemistry Development Inc.公司制作Chem Sketch軟件,其1.0版已作為免費軟件向大眾推出,該軟件可以從Internet上免費下載:http:/WWW 我國在這方面起步較晚,唐敖慶等編制的結構化學軟件是我國較早自己設計的化學類工具軟件。 清華大學
45、CAI中心實驗室開發(fā)的寫作系統(tǒng)THCAI,可以用它開發(fā)包括化學類的CAI課件; 安登魁等設計的計算藥物分析程序包,它包含35個常用方法,可用于各種類型的化學統(tǒng)計分析、分光光度分析、最優(yōu)化、因子分析、聚類分析及模式識別的計算。 目前,在量子化學研究中用得最廣泛的計算程序是由1998年Noble化學獎獲得者之一Pople設計的Gaussian系列程序.。 .401.5 化學信息學的應用化學信息學的應用 1.5.1 化學信息學在化學的應用化學信息學在化學的應用 就其研究內容看來,化學信息學在化學研究中的應用一般可分為四個方面,即,計算機與計算化學、計算機與應用化學、計算機與化學工程、化學數據庫與專家
46、系統(tǒng)。1.5.2 藥物設計中的應用(藥物設計中的應用(Applications in drug discovery) 化合物的選擇(Compound selection),虛擬庫的建立(Virtual library generation),虛擬篩選(Virtual screening)。 .411.6 化學信息學的現狀及未來化學信息學的現狀及未來 化學信息學是用計算機研究化學反應和物質變化規(guī)律,實現化學知識創(chuàng)新的科學。以計算機及其網絡系統(tǒng)為工具,建立由化學化工信息發(fā)現新知識和實現知識傳播的理論和方法;認識物質、改造物質、創(chuàng)造新物質和認識反應、控制反應過程和創(chuàng)造新反應、新過程是化學信息學研究的
47、主體。化學數據挖掘和知識發(fā)現、計算機輔助結構解析、分子設計和合成路線設計等是當前化學信息學的主要研究方向。1.6.1 計算機和信息技術大量用于計算機和信息技術大量用于藥物篩選藥物篩選 傳統(tǒng)的藥物篩選過程是先對動物進行多種指標的試驗,再進入人體臨床試驗,過程長,組合種類少,效率低?,F在計算機技術甚至大型計算機應用于藥物篩選,分子設計和建立基因圖譜庫等,大大提高了效率。上海藥物所采用神威2號超大型計算機用于藥物篩選,原來需要幾年的計算量,現在僅用幾周時間。大量基因藥物用計算機與基因圖譜做對比,便于分析、基因修復和分子設計。因此,信息技術手段的廣泛采用將是醫(yī)藥產業(yè)未來發(fā)展的重點。 .421.6.2 生物學為化學信息學生物學為化學信息學帶來新的機遇帶來新的機遇 生物基因工程特別是人類基因組計劃的完成為化學信息學帶來新的機遇。許多化學信息學公司,已經開始了藥物開發(fā)信息學平臺的研究,但是 很難得到生物信息學方面的合作伙伴。目前這個領域的競爭非常的激烈,真正的勝出者將是那些能夠快速消除生物信息學和化學信息學鴻溝的企業(yè)。1.7 化學信息學的發(fā)展方向化學信息學的發(fā)展方向1.7.1 并行優(yōu)化并行優(yōu)化技術技術 在過去的十
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年春部編版語文八年級下冊教學計劃
- 英語教材優(yōu)化教研計劃
- 快餐連鎖食品安全培訓計劃
- 2025年中國毛紡前紡設備行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國出入控制系統(tǒng)行業(yè)投資潛力分析及行業(yè)發(fā)展趨勢報告
- 2025年中國正反轉開關行業(yè)市場規(guī)模及未來投資方向研究報告
- 2025年中國路面冷再生機行業(yè)市場全景評估及發(fā)展戰(zhàn)略規(guī)劃報告
- 軟磁合金項目風險分析和評估報告
- 2025年中國絲紡面料行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國硅膠花灑行業(yè)市場全景評估及投資前景展望報告
- 【MOOC】電路原理-東北大學 中國大學慕課MOOC答案
- 問診課件教學課件
- 船舶維修現場安全生產應急預案
- 糖尿病足的評估
- 心腦血管疾病預防課件
- 畜禽解剖生理5消化系統(tǒng)課件
- 2024年技術服務費簡單合同范本
- 2《永遇樂-京口北固亭懷古》公開課一等獎創(chuàng)新教學設計統(tǒng)編版高中語文必修上冊
- 腦室分流術后護理
- 短視頻素材購買合同
- 子午流注針法智慧樹知到答案2024年南方醫(yī)科大學
評論
0/150
提交評論