版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),化學(xué)信息和化學(xué)信息學(xué),自從化學(xué)學(xué)科出現(xiàn)以來,信息的記載、組織與交流對(duì)化學(xué)學(xué)科的發(fā)展起了重要的作用,同時(shí)也成為化學(xué)學(xué)科的一個(gè)重要組成部分。這是因?yàn)榛瘜W(xué)實(shí)驗(yàn)的記錄資料具有長遠(yuǎn)的時(shí)間意義。在化學(xué)學(xué)科中,化學(xué)家根據(jù)的記錄資料從事科學(xué)研究的例子并不罕見。另外,化學(xué)物質(zhì)結(jié)構(gòu)的記錄與檢索需要建立獨(dú)特的記錄系統(tǒng)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,化學(xué)家必須建立自己的信息表示、記錄與系統(tǒng),以適應(yīng)時(shí)代的要求。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),化學(xué)信息 化學(xué)信息可分為兩大組成部分: 化學(xué)物質(zhì)的化學(xué)信息:利用科學(xué)的原理和方法通過測(cè)量得到的化學(xué)成分的相關(guān)信息,如物質(zhì)的物理、化學(xué)性質(zhì),物質(zhì)中各
2、成分的定性、定量以及結(jié)構(gòu)信息,分子間的相互作用信息,化學(xué)反應(yīng)的信息等。 媒體形式的化學(xué)信息:化學(xué)信息的記錄形式,如圖書、期刊、???、專利、數(shù)據(jù)庫以及音像資料等,通過化學(xué)信息的傳播使化學(xué)家們共享測(cè)量的原理、方法及測(cè)量結(jié)果。 化學(xué)信息學(xué)是近年來發(fā)展起來的新學(xué)科,它的產(chǎn)生與發(fā)展是基于化學(xué)信息量指數(shù)般增長,特別是組合化學(xué)及高通量篩選的迅速發(fā)展?;瘜W(xué)信息學(xué)的產(chǎn)生與發(fā)展是與藥物研究與開發(fā)息息相關(guān)的,但它的應(yīng)用卻覆蓋化學(xué)學(xué)科的各個(gè)領(lǐng)域,如農(nóng)業(yè)化學(xué)、分析化學(xué)、合成化學(xué)、物理化學(xué)等。近年來,國際上已出版與化學(xué)信息學(xué)有關(guān)的雜志,出現(xiàn)眾多的化學(xué)信息學(xué)公司,許多大學(xué)紛紛開設(shè)化學(xué)信息學(xué)課程,培養(yǎng)化學(xué)信息學(xué)人才。,第一章
3、 緒論(化學(xué)信息學(xué)相關(guān)概念),1.1 化學(xué)信息學(xué)的起源及歷史 1.1.1 信息學(xué)的起源 上世紀(jì)40年代,以申農(nóng)(CEShannon)通訊的數(shù)學(xué)理論、維納(NWeiner)控制論動(dòng)物和機(jī)器中的通訊與控制問題問世為標(biāo)志,信息論誕生了,它是科學(xué)發(fā)展史上的里程碑,其偉大貢獻(xiàn)和深遠(yuǎn)影響是前所未有的。 1959年,美國賓夕法尼亞大學(xué)莫爾電子工程學(xué)院首先應(yīng)用了“信息科學(xué)”的概念,這一概念既包括了信息理論又包括了信息技術(shù)。出現(xiàn)了:以計(jì)算機(jī)為代表的“計(jì)算機(jī)信息科學(xué)”;以文獻(xiàn)處理自動(dòng)化為代表的“圖書館信息科學(xué)”和以申農(nóng)通訊信號(hào)計(jì)量理論為核心的“全信息信息科學(xué)”。三者的共同特征是:僅研究特定領(lǐng)域中的某些信息,對(duì)其它
4、領(lǐng)域中的信息不予充分的關(guān)注與考慮。 上世紀(jì)60年代初,以申農(nóng)信息論為基礎(chǔ)的信息科學(xué)得到了一定的發(fā)展,新概念和新理論不斷涌現(xiàn) 。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),20世紀(jì)80年代以來,在申農(nóng)原有信息論的基礎(chǔ)上分別在模糊信息、概率與非概率信息、語法信息、語義信息、語用信息等方面做了大量的工作。在此基礎(chǔ)上,人們提出了廣義信息論。 1982年美國普林斯頓大學(xué)的馬克盧普(FMchlup)在美國聚集了當(dāng)時(shí)不同信息研究領(lǐng)域的眾多學(xué)者發(fā)起了一個(gè)信息的多學(xué)科交叉的研究運(yùn)動(dòng),信息理論的研究開始向其它科學(xué)領(lǐng)域滲透和擴(kuò)展,誕生了40多種部門信息學(xué),并發(fā)表了繼申農(nóng)、維納之后的又一本經(jīng)典著作信息研究:學(xué)科之間的通訊。
5、 1994年,德國一批學(xué)者又發(fā)起了一個(gè)新的交叉信息科學(xué)的研究運(yùn)動(dòng),開拓了部門信息學(xué)的一些新領(lǐng)域。雖然,研究的范圍更加廣泛,但是,并沒有做出實(shí)質(zhì)性的評(píng)論與創(chuàng)新性的理論。 90年代后期,部門信息學(xué)得到了蓬勃的發(fā)展,除了增加了新成員,而且,關(guān)涉到了自然科學(xué)和社會(huì)科學(xué)的眾多前沿問題。其中較有影響的部門學(xué)科是:生物信息學(xué),物理信息學(xué),還有經(jīng)濟(jì)信息學(xué),人類信息學(xué)等等。據(jù)統(tǒng)計(jì)目前大概已有50余種部門信息學(xué)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.1.2 化學(xué)信息學(xué)的起源與歷史,20世紀(jì)60年代以來,計(jì)算機(jī)與化學(xué)結(jié)合形成了計(jì)算機(jī)化學(xué)。經(jīng)過近40年的發(fā)展,計(jì)算機(jī)化學(xué)幾乎在化學(xué)的每一分支領(lǐng)域都獲得了豐碩的成果,
6、計(jì)算機(jī)已成為化學(xué)研究的重要工具之一。20世紀(jì)80年代以來,Internet飛速發(fā)展,逐步成為各種信息資源傳遞的重要載體,包括基于的化學(xué)信息網(wǎng)站、化學(xué)信息數(shù)據(jù)庫、遠(yuǎn)程化學(xué)教學(xué)等內(nèi)容的化學(xué)信息網(wǎng)絡(luò)化趨勢(shì)也日趨形成?;瘜W(xué)與internet成為一個(gè)非?;钴S、進(jìn)展驚人的新興交叉領(lǐng)域。隨著計(jì)算機(jī)化學(xué)的不斷發(fā)展和化學(xué)信息網(wǎng)絡(luò)化的不斷普及,一個(gè)嶄新的化學(xué)分支學(xué)科“化學(xué)信息學(xué)(Chemoinfiormatics)”應(yīng)運(yùn)而生。 “化學(xué)信息學(xué)”首次出現(xiàn)于1987年諾貝爾化學(xué)獎(jiǎng)獲得者J. M. Lehn教授的獲獎(jiǎng)報(bào)告中。JMLehn在研究復(fù)雜分子的反應(yīng)過程中發(fā)現(xiàn)分子具有自組織、自識(shí)別的化學(xué)智能反應(yīng)現(xiàn)象,識(shí)別的概念包含
7、著信息的展示、傳遞、鑒別和響應(yīng)等過程,這就是化學(xué)信息學(xué)研究的開始。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),化學(xué)界的專家學(xué)者們正試圖以新的方式和方法建立化學(xué)信息周期表。 國外一些大學(xué)開設(shè)了化學(xué)信息學(xué)課程并確定為研究生的研究方向,從事研究、管理和開發(fā)化學(xué)信息的團(tuán)體、機(jī)構(gòu)和公司也相繼出現(xiàn)。 美國化學(xué)會(huì)化學(xué)信息分會(huì)和圖書館協(xié)會(huì)在Indiana大學(xué)成立了化學(xué)信息教學(xué)資料交換中心(The Clearinghouse for Chemical Information Instructional Materials (CCIIM)),負(fù)責(zé)收集、發(fā)布和分發(fā)化學(xué)信息源。 美國化學(xué)會(huì)還設(shè)立了化學(xué)信息教育委員會(huì)(Ame
8、rican Chemical Society Division of Chemical Information Education Committee)。 美國、歐洲、澳大利亞的很多大學(xué)開設(shè)了化學(xué)信息學(xué)類的課程。 在國內(nèi),化學(xué)教學(xué)指導(dǎo)委員會(huì)已將化學(xué)信息學(xué)列入化學(xué)教學(xué)的基本內(nèi)容,北京大學(xué)化學(xué)學(xué)院已設(shè)置課程并編寫了講義,南京大學(xué)、復(fù)旦大學(xué)及我校等高校也相繼開設(shè)了該課程。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.2 化學(xué)信息學(xué)的概念及研究內(nèi)容 1.2.1 化學(xué)信息學(xué)的概念,1987年J. M. Lehn教授首次提出化學(xué)信息學(xué)的概念以后并沒有進(jìn)一步深入研究這一概念的本質(zhì),但我們可以看出,當(dāng)時(shí)化學(xué)信息的
9、內(nèi)在含義應(yīng)為分子間的相互作用或相互識(shí)別的有關(guān)信息,而化學(xué)信息學(xué)應(yīng)為研究分子間相互作用實(shí)質(zhì)或識(shí)別機(jī)理的一個(gè)學(xué)科,主要目的是為解釋超分子的形成過程提供依據(jù)。 目前化學(xué)信息學(xué)的內(nèi)容更加強(qiáng)調(diào)了化學(xué)文獻(xiàn)、化學(xué)信息數(shù)據(jù)庫、特別是Internet中的化學(xué)資源等內(nèi)容。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),化學(xué)信息學(xué)還沒有統(tǒng)一的被廣泛接受的定義及英文名稱。目前最通用的為Chemoinformatics及Chemical informatics。也有用Cheminformatics, Chemi informatics。也有人把Chemical information Science及Molecular Info
10、rmatics稱為化學(xué)信息學(xué)。與化學(xué)信息學(xué)有關(guān)的術(shù)語有 chemi-informatics,chemometrics,computational chemistry,chemical informatics,chemical information management/science,和cheminformatics等等。 美國印第安那大學(xué)(Indiana University)在國際上最早在化學(xué)圖書館科學(xué)的基礎(chǔ)上開設(shè)化學(xué)信息課程及培養(yǎng)化學(xué)信息學(xué)研究生,他們把化學(xué)信息學(xué)定義為:化學(xué)信息學(xué)包括從利用傳統(tǒng)的圖書館科學(xué)方法組織化學(xué)信息到利用現(xiàn)代計(jì)算機(jī)技術(shù)產(chǎn)生、存儲(chǔ)、檢索及可視化化學(xué)信息。,第一章
11、緒論(化學(xué)信息學(xué)相關(guān)概念),定義1:Frank Brown于1998年把化學(xué)信息學(xué)定義為:應(yīng)用信息技術(shù)和信息處理方法已成為藥物發(fā)現(xiàn)過程中的一個(gè)很重要的部分,化學(xué)信息學(xué)實(shí)際上是一種信息源的混合體。把各種化學(xué)數(shù)據(jù)轉(zhuǎn)化為信息,把信息提升為知識(shí),其主要目的是在藥物先導(dǎo)化合物的發(fā)現(xiàn)及組織過程變得更有效。 這個(gè)定義太偏重于藥物化學(xué),事實(shí)上,化學(xué)信息學(xué)在其他領(lǐng)域如農(nóng)業(yè)化學(xué)也有廣泛的應(yīng)用。(“The use of information technology and management has become a critical part of the drug discovery process. Che
12、moinformatics is the mixing of those information resources to transform data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and organization” F. Brown, Annual Reports in Medicinal Chemistry, 33, 375-3
13、84 (1998),第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),定義2: M. Hann 和R. Green 認(rèn)為化學(xué)信息學(xué)是處理化學(xué)老問題的一種新名稱(“Chemoinformatics - a new name for an old problem ”, Current Opinion in Chemical Biology, 3, 379-383 (1999))。 定義3: Greg Paris在1999年8月的ACS會(huì)議上提出了一個(gè)更一般性的定義,他認(rèn)為:化學(xué)信息學(xué)是個(gè)一般的術(shù)語,它包括化學(xué)信息的設(shè)計(jì)、建立、組織、管理、檢索、分析、判別、可視化及使用。(“Chem(o)informatics
14、is a generic term that encompasses the design, creation, organization, management, retrieval, analysis, dissemination, visualization and use of chemical information” G. Paris (August 1999 ACS meeting)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),定義4: 將計(jì)算機(jī)技術(shù)應(yīng)用到化學(xué)中的一門組合技術(shù),利用統(tǒng)計(jì)模型、計(jì)算和分析科學(xué)來理解化學(xué)數(shù)據(jù)的重要性(“Chemoinformatics is the appl
15、ication of computer technology to chemistry; a combination of techniques and models in statistical, computational, and analytical sciences to understand the significance of chemical data.”)。 定義5: “化學(xué)信息學(xué)是近幾年發(fā)展起來的一個(gè)新的化學(xué)分支,它利用計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),對(duì)化學(xué)信息進(jìn)行表示、管理、分析、模擬和傳播,以實(shí)現(xiàn)化學(xué)信息的提取、轉(zhuǎn)化與共享,揭示化學(xué)信息的內(nèi)在實(shí)質(zhì)與內(nèi)在聯(lián)系,促進(jìn)化學(xué)學(xué)科的知識(shí)
16、創(chuàng)新?!?化學(xué)信息學(xué)是化學(xué)學(xué)科的分支學(xué)科,其研究對(duì)象和研究目的均屬于化學(xué)的學(xué)科領(lǐng)域。它的研究手段為計(jì)算機(jī)技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),研究內(nèi)容則包括如何利用計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)對(duì)化學(xué)信息進(jìn)行表示、管理、分析、模擬和傳播等。同時(shí),化學(xué)信息學(xué)的目的是為了實(shí)現(xiàn)化學(xué)信息的提取、轉(zhuǎn)化以及化學(xué)家之間的資源共享,從而為促進(jìn)化學(xué)學(xué)科的發(fā)展與知識(shí)創(chuàng)新做出貢獻(xiàn)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.2.2 化學(xué)信息學(xué)的研究內(nèi)容 (1)化學(xué)信息的組織、管理、檢索和使用:化學(xué)信息可分為與傳媒有關(guān)的信息(如文獻(xiàn)、圖書資料、網(wǎng)絡(luò)信息等)及與物質(zhì)有關(guān)的信息(各種實(shí)驗(yàn)數(shù)據(jù),包括化學(xué)反應(yīng)有關(guān)數(shù)據(jù),譜學(xué)數(shù)據(jù),射線晶體學(xué)數(shù)據(jù),化學(xué)與
17、物理性質(zhì)數(shù)據(jù),毒性及生物活性數(shù)據(jù),與環(huán)境有關(guān)的數(shù)據(jù)等)。化學(xué)信息的形式包括:文字、符號(hào)、數(shù)字、形貌、圖形及表格等。這些化學(xué)信息最主要的組織、管理形式是形成數(shù)據(jù)庫。 最早的化學(xué)數(shù)據(jù)庫是各種譜學(xué)數(shù)據(jù)庫及劍橋晶體結(jié)構(gòu)數(shù)據(jù)庫。目前最完善的化學(xué)信息系統(tǒng)是MDL系統(tǒng)、Beilstein系統(tǒng)及CA系統(tǒng)。據(jù)統(tǒng)計(jì)目前化學(xué)信息中58%已經(jīng)組織為各種數(shù)據(jù)庫系統(tǒng),但其中只有12%可以相互轉(zhuǎn)換,而化學(xué)信息常常是需要結(jié)合使用的,要完成一項(xiàng)化學(xué)研究工作需要調(diào)用多種有關(guān)的數(shù)據(jù)庫。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),化學(xué)信息學(xué)的重要內(nèi)容之一是如何實(shí)現(xiàn)化學(xué)信息間的關(guān)聯(lián)及轉(zhuǎn)化?;瘜W(xué)信息的管理、檢索及使用包括化學(xué)信息的快速有效的檢
18、索及推理、判斷。主要涉及人工智能方法,最重要的是化學(xué)專家系統(tǒng)。一個(gè)專家系統(tǒng)包括化學(xué)知識(shí)信息處理,化學(xué)知識(shí)利用系統(tǒng)、知識(shí)的推理能力及咨詢解釋能力。20世紀(jì)60年代開發(fā)的化學(xué)專家系統(tǒng)DENDRAL系統(tǒng)是最早的專家系統(tǒng)。目前已有多種化學(xué)專家系統(tǒng)用于不同的目的,如圖譜解析專家系統(tǒng)、反應(yīng)路線設(shè)計(jì)專家系統(tǒng)等。 (2) 分子結(jié)構(gòu)的編碼、描述、三維結(jié)構(gòu)的構(gòu)建:巨大數(shù)目分子結(jié)構(gòu)編碼及三維結(jié)構(gòu)模型的構(gòu)建及各種形式的結(jié)構(gòu)表達(dá),并能快速連接到合成路線,譜學(xué)數(shù)據(jù),純化技術(shù)等是化學(xué)信息學(xué)的基礎(chǔ)工作。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(3)化學(xué)信息的加工、處理及深化:化學(xué)信息的加工處理包括數(shù)據(jù)的預(yù)處理,回歸分析,主成分
19、分析,偏最小二乘,信號(hào)分析,模式識(shí)別,神經(jīng)網(wǎng)絡(luò),遺傳算法,模糊及隨機(jī)算法等。它們可以幫助化學(xué)家正確分析、評(píng)價(jià)、利用現(xiàn)有的化學(xué)信息并從中獲取最大量的有用結(jié)果,實(shí)現(xiàn)從數(shù)據(jù)到信息,從信息到知識(shí)的轉(zhuǎn)換。計(jì)算機(jī)模擬技術(shù)包括量子化學(xué)、分子動(dòng)力學(xué)、蒙特卡羅方法及各種優(yōu)化技術(shù),近年來已取得重大進(jìn)展,在藥物開發(fā),功能材料的研制及生命科學(xué)領(lǐng)域都取得許多突破性的成果?;瘜W(xué)體系涉及分子、超分子、超分子聚集體及聚集態(tài)等。在不同尺度及層次的化學(xué)體系會(huì)表現(xiàn)出不同的性質(zhì),稱尺度效應(yīng)。過去化學(xué)家主要著眼于微觀體系,化學(xué)工程學(xué)家主要關(guān)注宏觀體系,對(duì)于聯(lián)系宏觀與微觀的介觀體系沒有受到應(yīng)有的重視,因此有關(guān)介觀體系的信息及多尺度研究也
20、應(yīng)是化學(xué)信息學(xué)關(guān)注的重要問題。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(4)計(jì)算組合化學(xué):組合化學(xué)是當(dāng)前化學(xué)家關(guān)注的熱門領(lǐng)域。它的特點(diǎn)是以比較短的時(shí)間及較少的經(jīng)費(fèi)為快速合成大量的化合物提供大量的化學(xué)信息。但它面臨組合的數(shù)目過大,所謂組合爆炸,如此巨大數(shù)目的組合化學(xué)合成仍需要消耗大量的人力與物力,萬一失敗就造成巨大的浪費(fèi),因此需要通過計(jì)算組合化學(xué)方法建立虛擬的組合化學(xué)庫,然后在計(jì)算機(jī)上進(jìn)行篩選,選擇較少數(shù)目的化合物進(jìn)行組合化學(xué)合成。虛擬庫的構(gòu)建要考慮分子的相似性及差異性。虛擬庫的篩選包括基于靶酶結(jié)構(gòu)利用分子對(duì)接方法進(jìn)行篩選,或利用神經(jīng)網(wǎng)絡(luò)方法把已成藥的化合物作為訓(xùn)練集,把虛擬組合化學(xué)庫作為預(yù)測(cè)集,
21、把化合物區(qū)分為類藥分子(Drug Like)及非成藥分子(Non Drug compounds)。一個(gè)組合化學(xué)計(jì)算機(jī)系統(tǒng)應(yīng)包括組合合成庫的設(shè)計(jì),高維化學(xué)空間差異性質(zhì)計(jì)算及影射,化學(xué)反應(yīng)數(shù)據(jù)庫系統(tǒng)和知識(shí)庫系統(tǒng),綜合性化學(xué)多樣性信息及生物實(shí)驗(yàn)數(shù)據(jù)管理系統(tǒng),分子對(duì)接及構(gòu)效關(guān)系研究等。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(5)化學(xué)體系中信息的交換及傳遞:諾貝爾獎(jiǎng)金獲得者Lehn在1987年諾貝爾獲獎(jiǎng)演說中提出信息化學(xué)(Semiochemistry)的概念。他認(rèn)為化學(xué)信息寓于分子中,在分子間相互作用時(shí)讀出化學(xué)信息,這些化學(xué)信息對(duì)于化學(xué)反應(yīng)及性能起著調(diào)控的作用。這方面的研究涉及分子識(shí)別、超分子建筑、分子
22、構(gòu)造學(xué)、晶體工程、分子器件等方面的內(nèi)容。但目前在國外的文獻(xiàn)中較少有人把這方面的內(nèi)容納入化學(xué)信息學(xué)的范疇。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(6)分子的物理化學(xué)性質(zhì)預(yù)測(cè):目前已合成的化合物的數(shù)目已超過5107個(gè),而虛擬的組合化學(xué)庫的化合物數(shù)目可達(dá)億萬個(gè)。如此巨大數(shù)目的化合物無法全部完成它們的物理化學(xué)性質(zhì)的實(shí)驗(yàn)測(cè)定,因此根據(jù)化合物的結(jié)構(gòu)預(yù)測(cè)化合物的性質(zhì)有重要的意義和價(jià)值。利用量子化學(xué)及分子力學(xué)方法可預(yù)測(cè)許多重要的分子性質(zhì),如:鍵長、鍵角、二面角、三維結(jié)構(gòu)、藥效構(gòu)象、反應(yīng)中間體、過渡態(tài)、電子性質(zhì)、電荷分布、偶極矩、離子化勢(shì)、電子親和性、質(zhì)子親和性、極化、靜電勢(shì)、分子間相互作用、Wood Worl
23、d Hoffman規(guī)則、結(jié)合能、大分子間的結(jié)合位點(diǎn)、pKa、分子能量、生成熱、焓、活化能、勢(shì)能面、反應(yīng)途徑、溶劑化能、光譜性質(zhì)、振動(dòng)頻率、紅外及拉曼強(qiáng)度、ESR常數(shù)、激活能、消光系數(shù)、傳輸性質(zhì)、親脂性、分子體積、分子表面積等等。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.3 化學(xué)信息學(xué)常用方法,最早的化學(xué)信息學(xué)的方法和應(yīng)用都是發(fā)表在美國的Journal of Chemical Information & Computer Science(Journal of Chemical Information and modeling)雜志上?;瘜W(xué)信息學(xué)研究的最早內(nèi)容之一是象結(jié)構(gòu)描述符一類的化學(xué)結(jié)構(gòu)的計(jì)算
24、機(jī)表示。 1.3.1 描述符和化學(xué)結(jié)構(gòu)數(shù)據(jù)庫的獲取 20世紀(jì)80年代以前,計(jì)算機(jī)的速度較慢,對(duì)化合物的結(jié)構(gòu)和子結(jié)構(gòu)的搜尋是一個(gè)很難的問題,因?yàn)樗鼈兊挠?jì)算量都很大。為了找到在較慢的計(jì)算機(jī)上能夠進(jìn)行化合物的結(jié)構(gòu)和子結(jié)構(gòu)搜索的非常切實(shí)可行的辦法,化學(xué)家們嘗試了許多方法以便能夠找到一個(gè)簡(jiǎn)潔的結(jié)構(gòu)表示方法,如結(jié)構(gòu)的線性表示等。這種方法將化合物的結(jié)構(gòu)圖轉(zhuǎn)化成計(jì)算機(jī)很容易識(shí)別和搜索的字符串。數(shù)據(jù)搜索的方法可以過濾掉許多不符合條件的化合物,然后在小范圍里再根據(jù)逐個(gè)原子搜索的方法就會(huì)將搜尋的化合物縮小到一定的范圍。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 線性符號(hào) 結(jié)構(gòu)線性符號(hào)在一系列的規(guī)則下將化學(xué)
25、結(jié)構(gòu)的連接表轉(zhuǎn)化為具有一定序列的字符串。最早的線性符號(hào)是Wiswesser 線性符號(hào)(WLN)。在上世紀(jì)60年代中期到80年代,WLN被認(rèn)為是最好的表示化學(xué)結(jié)構(gòu)的工具。雖然WLN很有效的壓縮了化學(xué)結(jié)構(gòu)數(shù)據(jù),并且非常適合低性能的計(jì)算機(jī)的存儲(chǔ)和搜索,但是,它的編碼讓非專業(yè)人員很難看懂。后來Weininger又提出了一個(gè)新的線性符號(hào)編碼系統(tǒng)SMILES。由于SMILES和自然語言很接近,因此有機(jī)化學(xué)家廣泛的應(yīng)用該方法建立化學(xué)結(jié)構(gòu)數(shù)據(jù)庫。要想成功地表示化學(xué)結(jié)構(gòu),線性符號(hào)必須具有唯一性,即線性符號(hào)和化學(xué)結(jié)構(gòu)之間必須是一一對(duì)應(yīng)的關(guān)系,WLN和SMILES就具有這樣的特點(diǎn)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念
26、), 規(guī)范化 WLN和SMILES都能夠通過字符串匹配的方法解決結(jié)構(gòu)搜索的問題。一個(gè)分子的2D結(jié)構(gòu)圖可以通過數(shù)學(xué)算法規(guī)范化地變成一個(gè)實(shí)數(shù),這些實(shí)數(shù)就被稱為分子的拓?fù)渲笖?shù)。但是兩個(gè)不同的分子可能具有相同的拓?fù)渲笖?shù),因此,拓?fù)渲笖?shù)只能用于對(duì)分子的篩選。拓?fù)渲笖?shù)的概念最早是在QSAR和QSPR研究中提出的。Wiener在1947年第一個(gè)報(bào)導(dǎo)了分子的拓?fù)渲笖?shù)。如果分子和拓?fù)渲笖?shù)之間是一一對(duì)應(yīng)的關(guān)系,那么結(jié)構(gòu)搜索就可以通過數(shù)據(jù)的比較來完成。但是,子結(jié)構(gòu)的搜索仍然要通過一個(gè)一個(gè)原子匹配的算法來進(jìn)行,這樣就非常耗時(shí)。為了增強(qiáng)化學(xué)數(shù)據(jù)庫的搜索功能,必須要找到較好的結(jié)構(gòu)篩選技術(shù)。,第一章 緒論(化
27、學(xué)信息學(xué)相關(guān)概念), 篩選與搜索 為了避免使用逐個(gè)原子匹配,目前大都使用篩選的方法。這種方法的思路是先定義一組子結(jié)構(gòu)(官能團(tuán)),用來過濾掉一些不可能的結(jié)構(gòu)。這些預(yù)先定義的結(jié)構(gòu)叫做搜索關(guān)鍵詞。目前這些關(guān)鍵詞都被MDL結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)收集采用,在MDL結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)中,有166個(gè)搜索關(guān)鍵詞和960個(gè)擴(kuò)展搜索關(guān)鍵詞。 開始這166個(gè)搜索關(guān)鍵詞是用166個(gè)字符串來表示的,后來發(fā)現(xiàn)使用166個(gè)二進(jìn)制位比使用166個(gè)字符串更有效,因?yàn)橛?jì)算機(jī)處理邏輯位操作要比處理字符串快的多。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 指紋 這種方法的思想是用一些二進(jìn)制位來表示指定的子結(jié)構(gòu),如果有這種
28、子結(jié)構(gòu)該位置的二進(jìn)制數(shù)據(jù)為1,它表示相應(yīng)的子結(jié)構(gòu)在此位置,0代表此位置沒有指定的子結(jié)構(gòu)。 這種二進(jìn)制映射被稱指紋。 有許多類型的分子指紋,其類型依靠使用的是一套什么樣的子結(jié)構(gòu),例如:Daylight 使用的指紋表示的是由Daylight Fingerprint 軟件包產(chǎn)生出來的子結(jié)構(gòu),而MDL指紋表示的是MACCS搜索關(guān)鍵詞定義出來的子結(jié)構(gòu)。指紋的方法大大地提高了化學(xué)結(jié)構(gòu)數(shù)據(jù)庫的搜索性能。從線性符號(hào)字符串到指紋的轉(zhuǎn)變是化學(xué)信息學(xué)的具有重要意義的發(fā)展,有了指紋技術(shù)之后,我們可以計(jì)算兩個(gè)不同大小的分子結(jié)構(gòu)的相似性。盡管兩個(gè)分子可能具有不同的原子數(shù)和鍵數(shù),它們有可能有相同數(shù)目的指紋,占用相同的存儲(chǔ)空
29、間。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 結(jié)構(gòu)描述符及化合物結(jié)構(gòu)庫 制藥公司在上世紀(jì)90年帶開始采用高通量篩選技術(shù)??焖贅?gòu)造出包含數(shù)千個(gè)化合物結(jié)構(gòu)的數(shù)據(jù)庫已經(jīng)成為一個(gè)重要的課題,構(gòu)造這樣數(shù)據(jù)庫的目的是為了解決下列問題: (1) 一個(gè)數(shù)據(jù)庫里有多少種各類化合物?(2) 在數(shù)據(jù)庫中的化合物和市場(chǎng)的化合物相比有多少相似性?(3)應(yīng)該怎樣選擇出一個(gè)子庫,使其在結(jié)構(gòu)上能表示整個(gè)庫?(4)外來的數(shù)據(jù)庫能否作為該庫在結(jié)構(gòu)上的補(bǔ)充? 早期的化學(xué)信息學(xué)使用了化學(xué)數(shù)據(jù)庫的概念,例如MACCS基于指紋的搜索關(guān)鍵詞和Daylight指紋,這些工具都能進(jìn)行化學(xué)結(jié)構(gòu)的差異性分析。目前,子結(jié)構(gòu)的二進(jìn)制映射不
30、僅可以表示結(jié)構(gòu)描述符,也可以表示任何的結(jié)構(gòu)性質(zhì):如拓?fù)湫再|(zhì)和3D性質(zhì)的各種分子指數(shù)、分子量和H-給體數(shù)等,現(xiàn)在有許多的計(jì)算各種各樣結(jié)構(gòu)描述符的免費(fèi)和商業(yè)工具。 結(jié)構(gòu)描述符是概括化學(xué)結(jié)構(gòu)數(shù)據(jù)庫的最基本的工具,而差異性則是現(xiàn)代化學(xué)信息學(xué)的主要內(nèi)容。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.3.2 降維和描述符的選擇(Dimension reduction and descriptor selection) 從數(shù)學(xué)角度而言,一個(gè)數(shù)據(jù)庫若有n個(gè)化合物,而每個(gè)化合物用m (m 3)個(gè)描述符來表示,那么該庫就是一個(gè)nm的矩陣。雖然我們都喜歡從各種各樣的圖上來分析數(shù)據(jù),但我們沒有辦法用圖形來表示它們。為了解
31、決這個(gè)問題,我們必須使用降維技術(shù)將數(shù)據(jù)轉(zhuǎn)化為2D或3D。目前有許多的降維方法,下面作一個(gè)介紹。 多維規(guī)范化處理(MDS) 多維規(guī)范化處理(MDS)或人工神經(jīng)網(wǎng)絡(luò)(ANN)方法都是傳統(tǒng)的用于絳維的方法。MDS是一種非線性的映射方法。它不是一種精確的方法,實(shí)際上是將研究的對(duì)象移到一個(gè)指定維數(shù)的定義的空間上,然后檢查對(duì)象之間在新的空間中表示距離能否和原空間的順序一致。換句話說,MDS使用函數(shù)最小化算法計(jì)算具有最大擬合目的不同空間中的數(shù)據(jù)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 自組織映射(SOM) 自組織映射(SOM)是人工神經(jīng)網(wǎng)絡(luò)的一種。它是一種有效的向量定量化算法,
32、在高維輸入空間中建立參考向量,并用一種規(guī)則的方式在影射空間中用該參考向量近似輸入模式。定義參考向量間的局部順序關(guān)系使得它們之間互相依賴,這樣它們近鄰的值好象都落在一個(gè)假設(shè)“彈性面”上。SOM 通過保留輸入數(shù)據(jù)的局部本質(zhì)特征能夠?qū)?fù)雜的高維空間的數(shù)據(jù)壓縮或影射到二維空間上。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 主成分分析與因子分析(PCA,F(xiàn)A) 主成分分析 (PCA) 與因子分析 (FA) 在定量分析中通常用于過濾多余描述符、排除包含信息量很少的描述符。PCA能將大量的具有潛在相關(guān)性的變量(描述符)轉(zhuǎn)變成一些相對(duì)獨(dú)立變量,并且可以根據(jù)這些變量所包含信息量的多少進(jìn)行排列。 經(jīng)過變
33、換的變量包含了所有變量的絕大部分信息,因此被稱為主成分。第一個(gè)主成分包含的信息最多,接下來的每一個(gè)主成分都包含有一定的信息,后面的成分所包含的信息往往很少,可以舍掉而不會(huì)失去多少信息。 因子分析(FA)是通過對(duì)一數(shù)據(jù)矩陣進(jìn)行特征分析、旋轉(zhuǎn)變換等操作,以獲得有關(guān)信息的數(shù)學(xué)方法。 所獲得的因子是原始變量的線性組合,其數(shù)目總是比原始變量的數(shù)目少。如果在PCA中的主成分?jǐn)?shù)和FA中的因子數(shù)少于4,那么多維的數(shù)據(jù)就可以在2D或3D空間中用圖形表示了。雖然PCA和FA都可以用于數(shù)據(jù)的降維,但這種降維方法并不是適用于任何情況,因此我們需要一種方法能將數(shù)據(jù)點(diǎn)和化學(xué)結(jié)構(gòu)之間對(duì)應(yīng)起來, 這就是所謂的化學(xué)結(jié)構(gòu)相關(guān)數(shù)據(jù)
34、的可視化。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 可視化化學(xué)結(jié)構(gòu) 化學(xué)結(jié)構(gòu)圖是化學(xué)家們的自然語言。 由于將數(shù)據(jù)庫里的每一個(gè)化合物影射二維平面中的一個(gè)點(diǎn),因此很有必要找到一種容易的方法來識(shí)別每一個(gè)點(diǎn)所對(duì)應(yīng)的化合物的結(jié)構(gòu)。這種方法已經(jīng)被一些軟件如Spotfire 解決。 描述符的選擇(Descriptor selection) 成功的數(shù)據(jù)挖掘往往是建立在選擇良好的能反映分子結(jié)構(gòu)和性質(zhì)特征的描述符的基礎(chǔ)之上的。如果用一些不合適的描述符來表示分子,就不可能得到一個(gè)合理可靠的預(yù)測(cè)結(jié)果。要想正確的選擇描述符,必須要求對(duì)所要解決的問題中的一些計(jì)算關(guān)系有足夠的理解,通常相關(guān)性分析
35、(Correlation analysis)及有關(guān)的分析方法能夠幫助我們對(duì)問題的理解。選擇描述符時(shí)應(yīng)遵循以下原則:,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(1)所選擇的描述符應(yīng)該與生物活性有關(guān)(通常要進(jìn)行相關(guān)性分析); (2)所選擇的描述符應(yīng)該覆蓋面較廣(即數(shù)據(jù)集有各種各樣的分布); (3)所選擇的描述符相互之間應(yīng)該是相對(duì)獨(dú)立的(如果有兩個(gè)描述符之間具有很好的相關(guān)性,建立的模型所預(yù)測(cè)的性質(zhì)就會(huì)出現(xiàn)偏差) (4)所選擇的描述符應(yīng)該是比較容易獲得,且易于化學(xué)家解釋,不會(huì)發(fā)生變化或不相關(guān)轉(zhuǎn)換的,對(duì)噪音不太敏感的,同時(shí)該描述符還應(yīng)該在不同種類的模式(模型)中起不同的作用。 一些研究表明,2D描述符有時(shí)比
36、3D描述符在建模時(shí)更有效。數(shù)據(jù)挖掘的目的就是建立與活性或性質(zhì)有關(guān)的模式。在分析數(shù)據(jù)的時(shí)候,我們會(huì)把化合物庫里的化合物分成幾組,在同一組里的化合物應(yīng)具有共同的特征。這就要求分類,而模式識(shí)別算法就是用于分類。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.3.3 分類和模式識(shí)別(Classifications and pattern recognition) 數(shù)據(jù)挖掘的核心技術(shù)是模式識(shí)別。在化學(xué)信息學(xué)中,回歸分析和分類是最常用的模式識(shí)別技術(shù)?;貧w分析通常用于具有連續(xù)數(shù)據(jù)的變量中,但是多數(shù)的結(jié)構(gòu)描述符都是離散的或是布爾(Boolean)變量,因此就不得不采用分類的方法來解決,如有指導(dǎo)的和無指導(dǎo)的學(xué)習(xí)算法。
37、下面我們先來了解什么是模式(patterns)。 模式 研究人員要想從眾多的數(shù)據(jù)挖掘工具中找出合適的模式,必須先對(duì)所研究的問題有足夠的了解,即研究者應(yīng)該事先知道他們研究問題的模式類型。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 相似或距離矩陣(Similarity or Distance metrics) 許多的模式識(shí)別技術(shù)需要距離或相似性度量方法來定量地衡量兩個(gè)研究對(duì)象(象化學(xué)中常常研究的分子)的相似性。一般而言,Euclidean 距離,Mahalanobis 距離和相關(guān)系數(shù)是最常用的距離度量方法,Tanimoto系數(shù)常用于計(jì)算
38、布爾邏輯型(Boolean logic)數(shù)據(jù)之間的相似性,它們的計(jì)算方法如下: (1.1) (1.2) (1.3) (1.4),第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 聚類(Clustering) 聚類分析(CA)是由Tryon在1939第一個(gè)使用,事實(shí)上CA 包含了大量的分類算法。一個(gè)最普通的是如何使用分類學(xué)將實(shí)驗(yàn)數(shù)據(jù)分成有意義的不同類別。CA的方法就是為了解決這個(gè)問題。目前,已有許多的CA算法,總的可以分成兩類:即分級(jí)聚類和不分級(jí)聚類。分級(jí)聚類將研究的對(duì)象按樹狀結(jié)構(gòu)進(jìn)行重新安排。 Javis-Patrick是最早使用CA對(duì)化學(xué)結(jié)構(gòu)進(jìn)行聚類的。正確的聚類分析要依靠下面三點(diǎn): (1
39、)選用適當(dāng)?shù)慕Y(jié)構(gòu)表示;(2)選用合適的數(shù)據(jù)標(biāo)準(zhǔn)化方法;(3)選擇合適的聚類分析算法和適當(dāng)?shù)膮?shù)設(shè)置。當(dāng)大量的實(shí)驗(yàn)數(shù)據(jù)的實(shí)驗(yàn)條件和量剛不一樣時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是這些數(shù)據(jù)能夠進(jìn)行比較的基礎(chǔ)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),線性標(biāo)準(zhǔn)化:,比例標(biāo)準(zhǔn)化:,Z-score標(biāo)準(zhǔn)化:,一般地,線性標(biāo)準(zhǔn)化使用的較多,Z-score標(biāo)準(zhǔn)化必須要求xi 符合Gaussian 分布。聚類分析的一個(gè)缺點(diǎn)是在進(jìn)行聚類分析之前必須先確定數(shù)據(jù)應(yīng)該分成幾類,并且不容許出現(xiàn)奇異數(shù)據(jù)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念), 分割聚類(Partition clustering) 分割算法也有許多種,如二杈樹,非參數(shù)法
40、等。由于很難使用回歸或參數(shù)分類法對(duì)奇異數(shù)據(jù)類型進(jìn)行分類,過多的描述符也使得聚類分析無法進(jìn)行,一般就用二杈樹方法解決這類問題。目前最常用的二杈樹算法是遞歸分割(recursive partitioning ,RP)。有文章報(bào)道使用遞歸分割算法在一個(gè)小時(shí)內(nèi)能將超過100,000 化合物和2,000,000 描述符進(jìn)行分類。遞歸分割算法也可用于建立多元回歸模型。一個(gè)最大的優(yōu)點(diǎn)就是分割算法和和聚類分析算法一樣能夠解決許多分類問題。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.4 化學(xué)信息學(xué)軟件開發(fā)及常用軟件 計(jì)算機(jī)與化學(xué)的結(jié)合在上世紀(jì)60年代就開始為人們所重視,80年代以來得到快速發(fā)展。近二十多年來,由于
41、計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,計(jì)算機(jī)技術(shù)與化學(xué)之間的相互滲透已成為化學(xué)和計(jì)算機(jī)科學(xué)工作者的研究熱點(diǎn),從而形成了一門新興的分支學(xué)科化學(xué)信息學(xué)。 利用Internet這種全球化的工具,化學(xué)工作者在自己的辦公室或家中就可以快速地獲取過去難于獲得或者需要通過許多方法和渠道才能獲得的信息,也可以通過Internet網(wǎng)快速地發(fā)表自己的觀點(diǎn)、研究成果等。 計(jì)算機(jī)技術(shù)在化學(xué)中的應(yīng)用對(duì)化學(xué)工作者的傳統(tǒng)工作方法及思維模式產(chǎn)生了很大的沖擊,改變了化學(xué)工作者的研究手段及工作環(huán)境,使得原來難以解決的問題變得更加容易,如結(jié)構(gòu)化學(xué)中的許多計(jì)算。如今計(jì)算機(jī)技術(shù)在化學(xué)中已得到廣泛的應(yīng)用,各種應(yīng)用軟件的大量出現(xiàn)使得化學(xué)工作者愈來愈
42、依靠這種技術(shù)來解決化學(xué)中的問題。總的來分,目前化學(xué)信息學(xué)應(yīng)用軟件的主要包括為以下兩個(gè)方面:,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),計(jì)算機(jī)開始用于處理化學(xué)中的復(fù)雜計(jì)算 將計(jì)算機(jī)技術(shù)與化學(xué)儀器相結(jié)合從而到分析測(cè)試的自動(dòng)化、智能化是當(dāng)前新儀器、新設(shè)備的設(shè)計(jì)與制造的重要發(fā)展趨勢(shì)。 隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與功能的完善,計(jì)算機(jī)不再是一種簡(jiǎn)單的計(jì)算工具,它正向智能化、網(wǎng)絡(luò)化方向發(fā)展,這使得應(yīng)用計(jì)算機(jī)技術(shù)能解決的化學(xué)問題也愈來愈多。由于計(jì)算機(jī)主要是用數(shù)學(xué)的方法通過計(jì)算來解決問題,其特點(diǎn)是能快速地進(jìn)行大量復(fù)雜、繁瑣的數(shù)學(xué)計(jì)算,而化學(xué)是對(duì)化學(xué)物質(zhì)進(jìn)行認(rèn)識(shí)、分析、合成及利用。因此,要想將計(jì)算機(jī)技術(shù)應(yīng)用到化學(xué)中就必須
43、解決化學(xué)與計(jì)算機(jī)的結(jié)合問題。這方面的研究包括兩方面的內(nèi)容,即計(jì)算機(jī)與化學(xué)儀器的接口、化學(xué)類應(yīng)用軟件程序包的開發(fā)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(1)計(jì)算機(jī)與化學(xué)儀器的接口。 其任務(wù)是研制計(jì)算機(jī)與化學(xué)儀器相接時(shí)的軟硬件運(yùn)行環(huán)境,它包括實(shí)驗(yàn)數(shù)據(jù)的采集與處理兩方面的內(nèi)容。其方法是使用A/D或D/A轉(zhuǎn)化技術(shù)將化學(xué)測(cè)量中的模擬信號(hào)轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)字信號(hào)或?qū)⒂?jì)算機(jī)發(fā)出的數(shù)字信號(hào)轉(zhuǎn)化為化學(xué)儀器可識(shí)別的模擬信號(hào),進(jìn)而實(shí)現(xiàn)對(duì)測(cè)試及工藝過程的控制。測(cè)試儀器接口系統(tǒng)今后向模塊式、智能化測(cè)試系統(tǒng)方向發(fā)展將是一種必然趨勢(shì)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),(2)對(duì)采集數(shù)據(jù)的處理,是通過不同目的的化學(xué)類
44、應(yīng)用軟件程序包系統(tǒng)實(shí)現(xiàn)。 化學(xué)信息學(xué)類應(yīng)用軟件程序包,主要是設(shè)計(jì)具有工具性的應(yīng)用軟件程序包和處理化學(xué)問題的數(shù)學(xué)程序。 這方面國外有很多,如Chemoffice、ChemWindow、ChemSketch、Scivision、Chemdraw、ISIS Draw系列化學(xué)辦公軟件、HyperChem系列程序、Tripos公司的Sybyl系列程序、Caussian系列程序、Mopac系列程序、DENDRAL、CHEMICS、CASE、EXSPEC、PARIS等。由加拿大的Advanced Chemistry Development Inc.公司制作Chem Sketch軟件,其1.0版已作為免費(fèi)軟件
45、向大眾推出,該軟件可以從Internet上免費(fèi)下載:http:/WWW 更多的軟件及介紹可參見:,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),我國在這方面起步較晚,唐敖慶等編制的結(jié)構(gòu)化學(xué)軟件是我國較早自己設(shè)計(jì)的化學(xué)類工具軟件。 清華大學(xué)CAI中心實(shí)驗(yàn)室開發(fā)的寫作系統(tǒng)THCAI,可以用它開發(fā)包括化學(xué)類的CAI課件; 安登魁等設(shè)計(jì)的計(jì)算藥物分析程序包,它包含35個(gè)常用方法,可用于各種類型的化學(xué)統(tǒng)計(jì)分析、分光光度分析、最優(yōu)化、因子分析、聚類分析及模式識(shí)別的計(jì)算。 目前,在量子化學(xué)研究中用得最廣泛的計(jì)算程序是由1998年Noble化學(xué)獎(jiǎng)獲得者之一Pople設(shè)計(jì)的Gaussian系列程序.。,第一章 緒論(化學(xué)
46、信息學(xué)相關(guān)概念),1.5 化學(xué)信息學(xué)的應(yīng)用 1.5.1 化學(xué)信息學(xué)在化學(xué)的應(yīng)用 就其研究內(nèi)容看來,化學(xué)信息學(xué)在化學(xué)研究中的應(yīng)用一般可分為四個(gè)方面,即,計(jì)算機(jī)與計(jì)算化學(xué)、計(jì)算機(jī)與應(yīng)用化學(xué)、計(jì)算機(jī)與化學(xué)工程、化學(xué)數(shù)據(jù)庫與專家系統(tǒng)。 1.5.2 藥物設(shè)計(jì)中的應(yīng)用(Applications in drug discovery) 化合物的選擇(Compound selection),虛擬庫的建立(Virtual library generation),虛擬篩選(Virtual screening)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.6 化學(xué)信息學(xué)的現(xiàn)狀及未來 化學(xué)信息學(xué)是用計(jì)算機(jī)研究化學(xué)反應(yīng)和物
47、質(zhì)變化規(guī)律,實(shí)現(xiàn)化學(xué)知識(shí)創(chuàng)新的科學(xué)。以計(jì)算機(jī)及其網(wǎng)絡(luò)系統(tǒng)為工具,建立由化學(xué)化工信息發(fā)現(xiàn)新知識(shí)和實(shí)現(xiàn)知識(shí)傳播的理論和方法;認(rèn)識(shí)物質(zhì)、改造物質(zhì)、創(chuàng)造新物質(zhì)和認(rèn)識(shí)反應(yīng)、控制反應(yīng)過程和創(chuàng)造新反應(yīng)、新過程是化學(xué)信息學(xué)研究的主體?;瘜W(xué)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)、計(jì)算機(jī)輔助結(jié)構(gòu)解析、分子設(shè)計(jì)和合成路線設(shè)計(jì)等是當(dāng)前化學(xué)信息學(xué)的主要研究方向。 1.6.1 計(jì)算機(jī)和信息技術(shù)大量用于藥物篩選 傳統(tǒng)的藥物篩選過程是先對(duì)動(dòng)物進(jìn)行多種指標(biāo)的試驗(yàn),再進(jìn)入人體臨床試驗(yàn),過程長,組合種類少,效率低?,F(xiàn)在計(jì)算機(jī)技術(shù)甚至大型計(jì)算機(jī)應(yīng)用于藥物篩選,分子設(shè)計(jì)和建立基因圖譜庫等,大大提高了效率。上海藥物所采用神威2號(hào)超大型計(jì)算機(jī)用于藥物篩選,原來需要幾年的計(jì)算量,現(xiàn)在僅用幾周時(shí)間。大量基因藥物用計(jì)算機(jī)與基因圖譜做對(duì)比,便于分析、基因修復(fù)和分子設(shè)計(jì)。因此,信息技術(shù)手段的廣泛采用將是醫(yī)藥產(chǎn)業(yè)未來發(fā)展的重點(diǎn)。,第一章 緒論(化學(xué)信息學(xué)相關(guān)概念),1.6.2 生物學(xué)為化學(xué)信息學(xué)帶來新的機(jī)遇 生物基因工程特別是人類基因組計(jì)劃的完成為化學(xué)信息學(xué)帶來新的機(jī)遇。許多化學(xué)信息學(xué)公司,已經(jīng)開始了藥物開發(fā)信息學(xué)平臺(tái)的研究,但是 很難得到生物信息學(xué)方面的合作伙伴。目前這個(gè)領(lǐng)域的競(jìng)爭(zhēng)非常的激烈,真正的勝出者將是那些能夠快速消除生物信息學(xué)和化學(xué)信息學(xué)鴻溝的企業(yè)。 1.7 化學(xué)信息學(xué)的發(fā)展方向 1.7.1 并行優(yōu)化技術(shù) 在過去的十年中,化學(xué)信息學(xué)在化學(xué)差異
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 櫥柜衣柜增補(bǔ)合同范例
- 書畫代理人合同范例
- 廣告?zhèn)髅胶献鲄f(xié)議合同范例
- 多人合作產(chǎn)品合同范例
- 修建性規(guī)劃設(shè)計(jì) 合同范例
- 債加入合同范例
- 委托種植合同范例簡(jiǎn)化
- 農(nóng)墾復(fù)墾合同范例
- 學(xué)校廣告物料制作合同范例
- 林地養(yǎng)護(hù)合同范例
- GB/T 8350-2008輸送鏈、附件和鏈輪
- GB/T 532-1997硫化橡膠或熱塑性橡膠與織物粘合強(qiáng)度的測(cè)定
- 諸子爭(zhēng)鳴到新文化運(yùn)動(dòng)(秦暉)
- 2023年國旗護(hù)衛(wèi)隊(duì)工作計(jì)劃三篇
- 法商財(cái)富論壇法商產(chǎn)說會(huì)精簡(jiǎn)版天安人壽逸享人生課件
- 艱苦邊遠(yuǎn)地區(qū)范圍和類別表
- NPUAP壓瘡指南更新的解讀
- 漢語拼音過關(guān)分類檢測(cè)(直接打印)
- 傳統(tǒng)針刺手法及鄭氏針法臨床應(yīng)用解讀67張課件
- 五年級(jí)上冊(cè)數(shù)學(xué)課件-9.3 多邊形的面積總復(fù)習(xí)丨蘇教版 (共23張PPT)
- 天津市河西區(qū) 2020-2021學(xué)年度第一學(xué)期九年級(jí)期末質(zhì)量調(diào)查物理試卷(PDF打印版+含答案)
評(píng)論
0/150
提交評(píng)論