版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、景德鎮(zhèn)陶瓷學院本科生畢業(yè)設計(論文)中文題目:二聯(lián)體偽氨基酸成分的藥物-GPCR靶標結(jié)合軟件設計 英文題目: DRUG TARGET TWO CIS-GPCR PSEUDO AMINO ACID COMPOSITION COMBINEDWITH SOFTWARE DESIGN 院 系: 專 業(yè): 姓 名: 學 號: 指導教師: 完成時間: 摘 要摘要參與許多疾病如癌癥,糖尿病,神經(jīng)退行性,炎癥和呼吸道疾病,G蛋白偶聯(lián)受體(GPCRs)是治療藥物中最常見的目標。它是費時和昂貴的確定是否藥物和受體之間的相互作用是在蜂窩網(wǎng)絡中純粹的實驗技術手段。雖然一些計算方法在這方面的知識的基礎上開發(fā)的3D(三維
2、)的結(jié)構蛋白,不幸的是他們的使用非常有限,因為大多數(shù)的G蛋白偶聯(lián)受體的三維結(jié)構是未知的。為了克服這種情況,一個基于序列的分類器,被稱為“igpcr藥”,是在蜂窩網(wǎng)絡的G蛋白偶聯(lián)受體與藥物的相互作用預測。在預測中,該藥物組合物由2D(二維)制定通過256d向量的指紋,通過PseAAC(偽氨基酸組成)受體與灰色模型理論的產(chǎn)生,并預測發(fā)動機由模糊K近鄰算法操作。此外,為igpcr藥物一個用戶友好的Web服務器是建立在http:www.jci-bioinfo CN / igpcr藥物。對于大多數(shù)實驗科學家便利,一步一步的指導是提供如何使用Web服務器不需要遵循本文只是對其完整性的復雜的數(shù)學方程,獲得期
3、望的結(jié)果??傮w成功率的igpcr藥物通過Jackknife檢驗達到了85.5%,這是高于率由現(xiàn)有同類方法2010雖然沒有Web服務器是否建立了它。預計igpcr藥物可能會成為一個有用的高吞吐量的工具和藥物開發(fā)的基本研究,和這里介紹的方法也可以擴展到其他藥物靶相互作用網(wǎng)絡的研究關鍵詞:g-protein-couple受體(GPCRs) 灰色模型 分子指紋圖譜 模糊K近鄰算法 偽氨基酸組成 igpcr藥物 ABSTRACTAbstractInvolved in many diseases such as cancer, diabetes, neurodegenerative, inflammato
4、ry and respiratory disorders, G-protein-coupled receptors (GPCRs) are among the most frequent targets of therapeutic drugs. It is time-consuming and expensive to determine whether a drug and a GPCR are to interact with each other in a cellular network purely by means of experimental techniques. Alth
5、ough some computational methods were developed in this regard based on the knowledge of the 3D (dimensional) structure of protein, unfortunately their usage is quite limited because the 3D structures for most GPCRs are still unknown. To overcome the situation, a sequence-based classifier, called “iG
6、PCR-drug”, was developed to predict the interactions between GPCRs and drugs in cellular networking. In the predictor, the drug compound is formulated by a 2D (dimensional) fingerprint via a 256D vector, GPCR by the PseAAC (pseudo amino acid composition) generated with the grey model theory, and the
7、 prediction engine is operated by the fuzzy K-nearest neighbour algorithm. Moreover, a user-friendly web-server for iGPCR-drug was established at http:/www.jci- For the convenience of most experimental scientists, a step-by-step guide is provided on how to use the web-server to get the desired resul
8、ts without the need to follow the complicated math equations presented in this paper just for its integrity. The overall success rate achieved by iGPCR-drug via the jackknife test was 85.5%, which is higher than the rate by the existing peer method developed in 2010 although no web server was ever e
9、stablished for it. It is anticipated that iGPCR-Drug may become a useful high throughput tool for both basic research and drug development, and that the approach presented here can also be extended to study other drug target interaction networks Keywords: G-protein-couple receptors (GPCRs); Grey Mod
10、el; Molecular fingerprints; Fuzzy K-Nearest Neighbour algorithm; Pseudo amino acid composition; iGPCR-Drug目錄1緒論4l引言42 GPCR與藥物對結(jié)合的材料和方法72.1基準數(shù)據(jù)集72.2樣品的表征72.3模糊K近鄰算法153 結(jié)果與討論213.1績效評估指標213.2 交叉驗證223.3用戶指南234 結(jié) 論27附錄一36附錄二38附錄三431緒論l引言隨著破譯生命密碼的人類基因組計劃的完成,生命科學進入后基因組時代,科學家們又全力以赴投入到了生物學下一個挑戰(zhàn)性領域的研究:蛋白質(zhì)組學是在
11、人類基因組計劃研究發(fā)展的基礎上形成的新興學科,主要是在整體水平上研究細胞內(nèi)蛋白質(zhì)的組成及其活動規(guī)律。人類細胞中的全部基因稱為基因組,由全套基因組編碼控制的蛋白質(zhì)則相應地被稱為蛋白質(zhì)組。由于生物功能的主要實現(xiàn)者是蛋白質(zhì),而蛋白質(zhì)又有自身特有的活動規(guī)律,所以僅僅從基因的角度來研究是不夠的。人類基因組圖譜并沒有告訴我們所有基因的身份以及它們所編碼的蛋白質(zhì)。人體內(nèi)真正發(fā)揮作用的是蛋白質(zhì),蛋白質(zhì)扮演著構筑生命角色,其中可能藏著開發(fā)疾病診斷方法和新藥的方法。蛋白質(zhì)是生命的物質(zhì)基礎,是生理功能的執(zhí)行者,是與各種形式的生命活動緊密聯(lián)系在一起的物質(zhì)。從前,科學家認為一個基因負責制造一種蛋白質(zhì),知道基因就足以知道
12、蛋白質(zhì),然而事實并非那么簡單,人類基因組圖譜初步分析結(jié)果表明,人體只有大約3萬個基因,科學家據(jù)此認為,基因可能由許多可以按照不同組合方式拼接的片段組成,一個基因可以產(chǎn)生多種蛋白質(zhì)。2001年2月,人類蛋白質(zhì)組組織成立,編輯在Nature雜志發(fā)布人類基因組框架圖的消息的同一版面上登載了這條消息。蛋白質(zhì)組學(proteomics)的研究對象是蛋白質(zhì),其最終目標就是破譯蛋白質(zhì)的結(jié)構與功能?;趯嶒灥姆椒ǔ杀靖?效率低,已經(jīng)不能滿足當前生物學的發(fā)展需要,新的思路是從理論出發(fā),再返回到實驗當中,探索理論和計算的方法模擬和預測出這些信息或提供與之相關的輔助信息。從蛋白質(zhì)的序列出發(fā)用計算的方法直接預測蛋白質(zhì)
13、的結(jié)構與功能并不是一件容易的事情。目前由于科學和技術上尚存在許多難以克服的問題,如果無法找到高同源性序列作為模板,要獲得其結(jié)構和功能信息將非常困難。于是人們開始致力于研究蛋白質(zhì)的一些相對粗糙層面的特征問題,即蛋白質(zhì)分類問題。作為蛋白質(zhì)組學研究的一個分支,蛋白質(zhì)分類問題近年來受到生物學家和計算機專家們越來越多的關注。蛋白質(zhì)分類研究在生物化學、細胞生物學、分子生物學、醫(yī)學和藥理學中起著非常重要的作用,是全面掌握蛋白質(zhì)結(jié)構與功能的前提和基礎。本論文就是主要圍繞該主題,作出了一些有意義的探索和研究。1.2研究背景1.2.1G蛋白偶聯(lián)受體分類G蛋白偶聯(lián)受體(GproteineouPledreeePtor
14、s,GPCRs),又稱為七a螺旋跨膜蛋白受體,是體內(nèi)最大的蛋白質(zhì)超家族。GPCRs因能結(jié)合和調(diào)節(jié)G蛋白活性而得名。GPCRs的配體多種多樣,包括核昔酸、肽類、糖蛋白、脂類、生物胺、離子和蛋白酶等。各種光、嗅、味的信號分子也由GPCRs調(diào)節(jié)與控制。大多數(shù)GPCRs通過G蛋白調(diào)節(jié)細胞內(nèi)信號傳遞,例如調(diào)節(jié)鉀及鈣離子通道的活性,刺激或抑制腺昔酸環(huán)化酶和活化磷脂酶的活性。G蛋白偶聯(lián)受體是一個重要的藥物靶標,超過50%的現(xiàn)有藥物都與G蛋白偶聯(lián)受體作用。很多藥物方面的研究瞄準它們的結(jié)構與功能的關系,但是由于GPCR難于結(jié)晶,同時,這些蛋白在一般的溶劑中溶解度都 不大,使得核磁共振也無法使用,大多數(shù)GPCRs
15、的三級結(jié)構仍然是未知的。隨著人類基因組以及其他種類生物基因組計劃的開展,大量的蛋白質(zhì)序列數(shù)據(jù)已經(jīng)獲得,迄今在Swiss一Prot和腸EMBL數(shù)據(jù)庫共收錄了超過七千條序列。如何利用這些已知結(jié)構和功能的序列信息,成為生物信息學的研究熱點之一。1.3蛋白質(zhì)序列分析的國內(nèi)外研究進展蛋白質(zhì)一級序列包含了大量的功能信息,從蛋白質(zhì)序列出發(fā),提取相關特征信息,并用數(shù)學方法描述這些信息,進而設計高效算法預測未知屬性蛋白質(zhì)的結(jié)構和功能,是生物信息學進行蛋白質(zhì)序列分析的思路。氨基酸組成是指20種氨基酸在一條蛋白質(zhì)序列中各自出現(xiàn)的頻率。蛋白質(zhì)的結(jié)構和功能類與氨基酸組成之間有一定的關聯(lián)性,這在蛋白質(zhì)分類研究過程中,被不
16、同研究者在各自不同的研究領域里所證實。1986年Nakashima等人將蛋白質(zhì)序列描述在一個20維歐氏空間里,提出了氨基酸成分空間的概念。在隨后幾年當中,這種基于氨基酸組成預測蛋白質(zhì)結(jié)構及功能的方法很快得到推廣。氨基酸組成反映了序列的全局特性,是一種最基本的蛋白質(zhì)序列特征,也是目前普遍使用的序列特征描述方法。氨基酸組成計算簡單,大部分現(xiàn)有算法僅僅是建立在20個氨基酸成分的基礎上的。雖然這是一種合理的近似方法而且確實也產(chǎn)生了一些很好的效果,但是把所有的序列長度和順序信息都丟失掉了,而序列排序信息也是很重要的。為了進一步挖掘信息,在傳統(tǒng)的氨基酸組成成分的基礎上,人們致力于研究氨基酸順序和偶合信息對
17、分類的影響。Nakashimalls的研究中采用400維的二聯(lián)體成分大大提高了預測成功率。Fujiwara和APogea用ANN融入蛋白質(zhì)序列的氨基酸成分,用HMM記錄氨基酸殘基順序信息,建立了混合模型。顯而易見,氨基酸殘基的生物化學和物理化學特性對蛋白質(zhì)的結(jié)構和功能有著很大的影響,因此考慮氨基酸殘基的物理化學性質(zhì)也是一個有效途徑。其思路為先用氨基酸數(shù)據(jù)庫中的一組氨基酸殘基指數(shù)值,將蛋白質(zhì)符號序列映射為數(shù)值序列,之后提取序列特征值。Chou根據(jù)氨基酸之間的距離偶合因子,首先提出了偽氨基酸成分的概念并應用于提高亞細胞定位的預測質(zhì)量。Gao利用氨基酸殘基的蛋白質(zhì)序列,由其自相關函數(shù)值表征序列特性。
18、Fen提出了基于氨基酸殘基疏水性和極性的三維空間曲線和從中提取的參數(shù)來描述氨基酸序列。雖然經(jīng)過生物信息學家不斷努力,已經(jīng)在生物數(shù)據(jù)序列分析領域取得了不少成績,但是目前為止還沒有從根本上解決如何從不同長度的序列中提取有效特征的問題。藥物研究是生物信息學研究中最具應用前景的領域,利用生物信息學手段研究和開發(fā)新的治療性藥物,將是21 世紀生物醫(yī)藥發(fā)展的總的趨勢。傳統(tǒng)的藥物研究,從發(fā)現(xiàn)新藥到該藥物的臨床應用,大約需要10 年左右的時間,其研發(fā)費用更是高達幾億甚至十幾億美元。生物信息學應用基因序列比對、蛋白質(zhì)結(jié)構預測等方法對獲得的這些基因和蛋白質(zhì)的數(shù)據(jù)進行分析和計算,從中發(fā)現(xiàn)能夠與藥物相結(jié)合的關鍵的蛋白
19、質(zhì)結(jié)構或功能性基因,即藥物的作用靶點,到目前為止,根據(jù)人類基因組研究結(jié)果預測的藥物靶標可達5000-10000 個。在此基礎上,藥物研發(fā)人員一方面可以利用計算機模擬的方式,將所獲得的蛋白質(zhì)結(jié)構或功能性基因信息直接用于新藥物的篩選,如磷脂酶A2 抑制藥物的篩選;另一方面, 也可以將所獲得的蛋白質(zhì)結(jié)構或功能性基因信息加以分析, 直接涉及出可能的藥物, 最后經(jīng)人工合成或其它方法獲得實際藥物, 這一方法已應用于反義寡核苷酸藥物的研制。顯而易見,正是由于生物信息學的介入, 使得藥物研究在藥物靶點發(fā)現(xiàn)、 藥物篩選和藥物設計等方面產(chǎn)生了巨大的變革, 不僅減少了前期研究和開發(fā)的盲目性,更有效縮短了藥物研發(fā)周期
20、,節(jié)約了大量的人力、物力。就人類基因組來說, 得到序列僅僅是第一步, 后一步的工作是所謂后基因組時代的任務,即收集、整理、檢索和分析序列中表達的蛋白質(zhì)結(jié)構與功能的信息, 找出規(guī)律。本文主要致力于藥物與靶標結(jié)合預測軟件的設計。新!為您提供類似表述,查看示例用法: 分享到 翻譯結(jié)果重試抱歉,系統(tǒng)響應超時,請稍后再試· 支持中英、中日、泰英、日英在線互譯 · 支持網(wǎng)頁翻譯,在輸入框輸入網(wǎng)頁地址即可 · 提供一鍵清空、復制功能、支持雙語對照查看,使您體驗更加流暢2222222222222 GPCR與藥物對結(jié)合的材料和方法建立一個蛋白系統(tǒng)的統(tǒng)計預測,我們需要考慮以下程序:(
21、一)建設或選擇一個有效的基準數(shù)據(jù)訓練集和測試的預測;(二)建立一個有效的,能真正體現(xiàn)其內(nèi)在關聯(lián)的屬性可預測的數(shù)學表達式制定的蛋白質(zhì)樣品;(三)引進和發(fā)展一個強大的算法(或發(fā)動機)進行預測;(四)進行交叉驗證測試客觀評價預測預期的準確性;(五)建立的預測,是向公眾開放的一個用戶友好的Web服務器。下面,我們描述了如何處理這些步驟。2.1基準數(shù)據(jù)集基準數(shù)據(jù)集可歸結(jié)為 (1)積極的子集,包括交互式GPCR藥物唯一對,而消極的子集包含的非交互式的GPCR藥物對,和符號代表的集合。在這里互動對指其兩相互制約的藥物靶標網(wǎng)絡在http:/www.kegg.jp/kegg/ KEGG數(shù)據(jù)庫定義的;而非互動對意
22、味著其兩不相互作用的藥物靶標網(wǎng)絡。積極的數(shù)據(jù)集包含620 GPCR藥物對,消極的數(shù)據(jù)集包含1240個非交互式的GPCR藥物對,并按下列步驟做:分離每對單藥和G蛋白偶聯(lián)受體;(二)重新耦合各單藥與每一個單GPCRs的方式,他們沒有發(fā)生成對;(三)隨機抽取形成直到他們到達數(shù)的兩倍,作為對。620互動GPCR藥物的對和1240個非交互式的GPCR藥物對在線支持信息S1了。該化合物或藥物可以通過他們的代碼發(fā)現(xiàn)在KEGG數(shù)據(jù)庫的所有詳細信息。2.2樣品的表征由于目前的網(wǎng)絡系統(tǒng),每個樣品含有G蛋白成分的藥物,下列兩種方法分別代表對GPCR藥物樣品的組合。分子相似性基于分子相似性的虛擬篩選核心是“ 相似性假
23、設” ,這個假設首先由 Johns on和 Maggi ora提出,即結(jié)構類似的化合物具有類似的物化性質(zhì)和生物活性。相似性方法在藥學領域極具價值,并且在最近20多年得到了穩(wěn)步發(fā)展,其定義和計算方法發(fā)展迅速并日漸成熟,已經(jīng)有很多涉及分子相似性或是將其作為章節(jié);并且有相當一部分文獻綜述了分子相似性及其在化學研究中的重要性。在使用關鍵詞“molecular si milarity” 對 Pubmed數(shù)據(jù)庫進行搜索時,可以得到圖 1所示的數(shù)據(jù)表。圖 1顯示的是在標題或文摘中,含有“molecular si milari2ty” 的文獻數(shù)量。圖中數(shù)據(jù)表明,隨著時間的推移,相似性方法得到越來越廣泛的應用。
24、描述符 ( descri p t ors)是分子相似性方法中的基本要素 10 。目前已經(jīng)有大量的描述符應用于分子相似性研究中 ,從描述符性質(zhì)特征上看 ,描述符主要分為以下 3個方面: 1) 1D描述符:由化合物本身屬性衍生而來 ,如表示分子物化屬性的 lg P,摩爾折射率等; 2) 2D描述符:由 2D分子圖形或者結(jié)構片斷計算得來的,如拓撲指數(shù) , 2D分子指紋 ,連接表 ,圖 (或子圖 ) , (子 )結(jié)構描述符等; 3) 3D描述符:分子形狀 ,QSCD (Quantized Surface Comp lemen2tarity Diversity) ,MQS (Molecular Quan
25、tum Si milari2ty) ,分子總表面積和電壓等。圖 1每年出版物中包含“分子相似性 ” 的數(shù)量,白色表示出現(xiàn)在標題中,黑色表示出現(xiàn)在文摘或者標題中。 在這些描述符中 ,由于 2D分子指紋具有特征性強 ,計算速度快的特點 ,使得以 2D分子指紋進行相似性搜索成為最簡便的虛擬篩選手段。主要分為二個階段 ,首先需對分子結(jié)構進行編碼 ,使其成為字節(jié)字符串的分子指紋 ,然后使用函數(shù) (如Tani mot o系數(shù) )對其進行量化。例如 ,假設 Tani mo2t o系數(shù)為 0,表示兩分子結(jié)構間沒有相同的字節(jié)編碼;當系數(shù)為 1時 ,則表示有相同的字節(jié)編碼 ,也就意味著有相同的分子結(jié)構片斷。因為功
26、能簡單 ,運算快捷 ,所以基于 2D分子指紋的相似性方法可以用于上百萬個化合物組成的大型分子庫的虛擬篩選 ,提高篩選的效率。1122D分子指紋2D分子指紋通常依據(jù)計算類型分為兩種 ,基于片斷字典法 13 和基于 Hash方法 14 。前者的特點是: 1)每個字節(jié)位點與特殊子結(jié)構片斷相關; 2)較少出現(xiàn)的片段可能更有用 ,如 BC I fingerp rint。這類分子指紋在很早之前就應用于化學信息學;后者特點是: 1)不取決于設定的字典; 2)能對每個片斷進行編碼 ,如 Unity fingerp rint, Daylight finger2p rint,Aval on fingerp rin
27、t (由 Novartis開發(fā) ,包括原子、 強化原子、 原子三聯(lián)體和聯(lián)通路徑 )等。最常見的 2D分子指紋描述符包括 MACCS、BCI fingerp rint、 Daylight finger p rint、 Unity finger p rint等。因為歷史原因 ,許多出版物把 Daylight finger2p rints當作實驗標準 ,如 Schoonjans等 15 在嘗試使用紅外光譜對化合物相似性進行分析時 ,在實驗中采用了 Daylight finger p rint作為參考標準。2D指紋方法還包括 Mol p rint 2D 和 Property descri p t or
28、value range2 derived fingerp rint ( PDR2 FP)。Mol p rint2D是一種復雜原子環(huán)境指紋 ,而 PDR2 FP是一種低復雜性指紋 ,是使用多重參考化合物進行相似性搜索的描述符 ,其計算過程不受分子大小的約束 16 。對于一系列參考化合物 , PDR2 FP以較高頻率出現(xiàn)的字節(jié)位點表示活性參考化合物和化合物庫中化合物之間的子結(jié)構衍變 ,然后通過記錄活性類別字節(jié)頻率來生成搜索字符串 ,因此基于活性的搜索字符串代表了需要進行訓練的活性化合物的指紋 ,然后將其與化合物庫中的化合物指紋進行比較。此外 ,還有一種程序 CDK生成一種結(jié)構指紋,該結(jié)構指紋是用二
29、進制向量對小分子的化學和拓撲特征進行編碼 ,然后用 Tani mot o系數(shù)對其相似9 7 1學 報 Journal of China Phar m aceutical Univer sity 第 40卷性進行打分 17 。目前比較新穎的 2D分子指紋是Extended2 connectivity finger p rints ( ECFPs)和 Func2ti onal connectivity finger p rints ( FCFPs) 18 。它們是由 Morgan算法衍生而來 ,而 Morgan算法是分子對比的原始方法之一。它們具有許多顯著特點:計算快速便捷;可以代表很大數(shù)目 (超
30、過 40億 )的不同特征 ,這些特征可以事先設定 ,能夠代表新結(jié)構的不同之處;可以代表立體化學信息;可以描述特殊子結(jié)構;分子結(jié)構更容易被解釋;不同的起始原子標識符可以產(chǎn)生不同使用價值的指紋。2.2.1代表2D分子指紋的藥物雖然藥物的數(shù)量是非常大的,他們中的大多數(shù)是有機小分子,是有一些固定的小結(jié)構。小分子結(jié)構的識別可以用于檢測藥物靶相互作用。分子指紋的位串表示的是分子結(jié)構和性能。在目前的研究中,我們普遍采用2D分子指紋代表藥物分子,如下所述:首先,對每種藥物而言,我們通過它的代碼可以從KEGG數(shù)據(jù)庫獲得包含化學結(jié)構的詳細信息。第二,我們可以通過使用化學工具箱軟件稱為openbabel,openb
31、abel的當前版本可以生成四種類型的指紋:FP2,F(xiàn)P3和MACCS。在目前的研究中,我們用FP2指紋格式。這是一個基于路徑的指紋識別,基于線性和環(huán)形結(jié)構并使用一個散列函數(shù)的小分子片段(有點類似于日光指紋)將它們映射到一個字符串。這是一個長度為256位的十六進制字符串或一個256位的矢量,其分量的值是0和15之間的整數(shù)。讓我們假設V1是256位向量第一個向量,V2,第二個向量,等等。因此,256位向量可以轉(zhuǎn)換為數(shù)字信號。為了找到藥品的指紋特性,我們實現(xiàn)的離散傅里葉變換,給出的頻域值 (2)其中J代表虛數(shù)單位,是一個復雜的數(shù)的復數(shù)模量或振幅 (3)這里才是真正的部分和相應的圖像的一部分。因此我們
32、可以產(chǎn)生離散傅里葉譜給出 (4)傅里葉譜數(shù)據(jù)包含了關于數(shù)字信號的大量信息,因此可以用來反映藥物的某些特征。因此,藥物化合物現(xiàn)在可歸結(jié)為一個256-d(維)載體的數(shù) (5)這里有相同的含義在公式4的藥物化合物D,和T矩陣的轉(zhuǎn)置算子中。2.2.2代表與灰色模型的偽氨基酸組成的GPCR序列灰色系統(tǒng)理論的基本概念各類研究中系統(tǒng)中,研究者一般是根據(jù)研究對象所屬的領域或研究方法命名的。在控制論中,學者們在表示信息的的明確程度時常用顏色的深淺來表示,如對于內(nèi)部信息缺乏的對象和系統(tǒng)用黑箱來表示,目前此稱謂已被人們所接受并大量使用,因此一般用“白”表示信息完全明確或知道,“黑”表示信息完全缺乏或不知道,對于那些
33、信息不完全、不充分的,也就是說產(chǎn)對象或系統(tǒng)中部分信息明確、部分信息不明確,我們稱之為“灰”。相應地,稱信息完全明確、知道的對象或系統(tǒng)為白色系統(tǒng),稱信息全部未知的對象或系統(tǒng)為黑色系統(tǒng),稱其中部分信息明確,其中部分不明確,也即信息不完全的對象或系統(tǒng)為灰色系統(tǒng)?!靶畔⒉煌耆?一般是包括以下4個方面的意思:系統(tǒng)中部分因素明確、部分因素不明確;系統(tǒng)因素間的關系或映射不完全清楚;系統(tǒng)結(jié)構或內(nèi)部影響因素不完全知道;系統(tǒng)的作用原理或發(fā)生機理不完全明了。因此,灰色系統(tǒng)理論是對“部分信息未知,部分信息已知”的“貧信息”不確定性系統(tǒng)進行研究,它通過對灰色系統(tǒng)中“部分”的已掌握的已知信息的數(shù)據(jù)序列生成、開發(fā)、分析和
34、建模實現(xiàn)對系統(tǒng)的認知和正確描述?;覕?shù)是灰色系統(tǒng)的基本“細胞”或“單元”。把只知道大概范圍或取值趨勢而不知道其具體準確值的數(shù)稱為灰數(shù)。在實際應用中,灰數(shù)實際上是指在某個區(qū)間或某個數(shù)集內(nèi)不確定取值的數(shù)。通常用記號“? ”表示灰數(shù),例如“這個人的年齡50歲左右,50歲左右就是灰數(shù),可記為? (50)?;疑到y(tǒng)理論的基本原理在灰色系統(tǒng)理論創(chuàng)立和發(fā)展過程中,鄧聚龍教授提出并提煉出了灰色系統(tǒng)理論的基本原理,主要有以6個方面公理1(差異伯息原理)“差異”是信息,凡信息必有差異。我們說“事物A不同于事物B”,即包含有事物A相對于事物B之特殊的有差異的信息。客觀世界中事物之間的“差異”為我們提供了認識世界的基本
35、信息。公理2 (解的非唯一性原理)信息不完全,不確定的解是非唯一的?!敖獾姆俏ㄒ恍栽怼笔腔疑到y(tǒng)理論解決實際問題所遵循的基本法則,是給予人們靈活性的法寶,使人們處處取得實效。“解的非唯一性原理”在決策上的體現(xiàn)是灰靶思想,灰靶是目標非惟一與目標可約束的統(tǒng)一?!敖獾姆俏ㄒ恍栽怼币彩悄繕丝山咏?、信息可補充、方案可完善、關系可協(xié)調(diào)、思維可多向、認識可深化、途徑可優(yōu)化的具體體現(xiàn)。在面對多種可能的解時,能夠通過定性分析和求解,補充信息,確定出一個或幾個滿意解。因此,“非唯一性”的求解途徑是定性分析與定量分析相結(jié)合的求解途徑。公理3 (最少信息原理)灰色系統(tǒng)理論的特點是充分利用開發(fā)已有的“最少信息”。灰
36、色系統(tǒng)理論是研究“小樣本”、“貧信息”不確定性問題,其立足點是“有限信息空間”,“最少信息”是灰色系統(tǒng)的基本思路。公理4(認知根據(jù)原理)信息是認知的根據(jù)。認知必須以信息為依據(jù),沒有信息,無以認知。以完全、準確的信息為依據(jù),可以獲得完全確定的認知,以不完全、不確定的信息的信息為依據(jù)為依據(jù),也只能得到不完全、不確定的灰認知。公理5 (新信息優(yōu)先原理)新信息對認知的作用大于老信息?!靶滦畔?yōu)先原理”是灰色系統(tǒng)理論的信息觀,賦予新信息的較大權重可以提高灰色建模、灰色預測、灰色分析等的功效,新信息的補充為灰元白化提供了基本動力?!靶滦畔?yōu)先原理”是信息的時效性的具體體現(xiàn)。公理6 (灰性不滅原理)信息不完
37、全(灰)是絕對的。信息不完全、不確定性(即具有灰性)具有普遍性。信息完全是相對的、暫時的,原有的不確定性消失,新的不確定性又會出現(xiàn),這是人類對客觀世界的認識規(guī)律,即通過信息的不斷補充而一次又一次的升華,信息無窮盡,灰性永不滅?;疑到y(tǒng)理論是系統(tǒng)分析、建模、預測、決策和控制的一種有效方法,是一門橫斷面大、滲透性強的新興邊緣學科,其主要內(nèi)容包括以灰色騰朧集為基礎的理論體系,以灰色關聯(lián)空間為依托的分析體系,以灰色序列生成為基礎的方法體系,以灰色模型(GM)為核心的模型體系,有著廣泛的應用。參與這項研究的NRS序列在在線支持信息S2里?,F(xiàn)在的問題是如何有效地表達這些受體,當前研究的序列,一般來說,有兩
38、種方法制定蛋白質(zhì)序列:序列模型和非連續(xù)或離散模型。一個殘基的蛋白質(zhì)樣品的最典型的順序表示的是它的整個氨基酸序列,可以歸結(jié)為 (6)在代表蛋白質(zhì)序列的第一個殘基,第二個殘基,等等,制定蛋白質(zhì)可以包含最完整的信息。這是一個明顯的優(yōu)勢的順序表示。為了獲得期望的結(jié)果,基于序列相似性搜索工具,如BLAST,通常被用來進行預測。然而,當查詢的蛋白質(zhì)沒有已知特征明顯的同源性蛋白時,這種方法沒有作用。因此,人們提出了各種非連續(xù)表示模型。最簡單的非順序的模型蛋白質(zhì)是基于其氨基酸組成(AAC),定義為 (7)的20種氨基酸蛋白,具有相同的含義方程。AAC離散模型被廣泛用于識別蛋白質(zhì)的各種屬性。然而,從中可以看出進
39、行了使用AAC離散模型的所有的序列順序的影響。這是它的主要缺點。完全避免失去的序列順序信息,偽氨基酸組合物(PseAAC)提出了來代替簡單的氨基酸組合物(AAC)代表樣本的一種蛋白質(zhì)。由于PseAAC的概念是在2001提出的,它已被廣泛用于研究蛋白質(zhì)的各種屬性,如判別外膜蛋白預測金屬蛋白酶家族,預測蛋白質(zhì)結(jié)構類,鑒別細菌毒力蛋白,預測蛋白質(zhì)的亞細胞定位,預測膜蛋白類型,確定GPCRs及其類型,識別蛋白質(zhì)四級結(jié)構屬性,預測蛋白質(zhì)submitochondria位置,識別細胞周期蛋白,預測GABA(A)受體蛋白等等。最近,PseAAC的概念進一步擴展為代表DNA和核苷酸,以及其他生物樣品。因為它得到
40、了日益廣泛的應用,最近的兩個強大的軟件稱為。PseAAC生成器建立了產(chǎn)生各種特殊的偽氨基酸組合物,除了Web服務器PseAAC。根據(jù)最近的一項審查,制定提取一種蛋白質(zhì)的氨基酸組成成分特征的一般形式 (8)這里的下標是一個整數(shù),其值以及部分將取決于如何從氨基酸序列中提取所需的信息(參見公式6)。下面,通過有關G蛋白偶聯(lián)受體我們描述了從基準數(shù)據(jù)集和在線支持信息S2如何提取有用的信息確定樣品公式8。首先,讓我們通過一系列的實數(shù)表示蛋白質(zhì)序列。表1中所列的理化性質(zhì)通常用于識別蛋白質(zhì)屬性。在目前的研究中,然而,它是經(jīng)過初步測試發(fā)現(xiàn),當?shù)谑睦砘再|(zhì)(即平均極性)的使用,是觀察到的最好的預測質(zhì)量。因此,表
41、1中的平均極性20值被用在GPCR序列編碼的20種氨基酸。注意,以確保這些數(shù)字代碼是一個正數(shù)的灰色模型的要求后,在編碼過程中,在表1的平均極性值的增加1.20。因此,對于一個給定的氨基酸序列(參見公式6 GPCR),我們可以將它轉(zhuǎn)換成一系列實數(shù)所制定的 (9)的第一個氨基酸殘基的G蛋白偶聯(lián)受體蛋白,如平均極性的價值,如果第一個殘基是一個,然后我們;是為第二個氨基酸殘基的加1.20的平均極性價值;等等?,F(xiàn)在,我們可以用灰色系統(tǒng)模型提取有用的信息,通過公式8制定PseAAC。根據(jù)灰色系統(tǒng)理論,如果一個系統(tǒng)的調(diào)查的信息是完全已知的,它被稱為白;如果完全未知的,它被稱黑;如果部分已知稱灰色系統(tǒng)。該模型
42、基于這樣的理論被稱為灰色模型,它是一種非線性動態(tài)模型的微分方程的制定。灰色模型解決復雜問題的,缺乏足夠的信息,或者需要處理不確定性信息和減少采集的數(shù)據(jù)的隨機效應?;疑到y(tǒng)理論中的一個重要和普遍使用的模型,稱為GM(1,1)。遵循類似的程序,公式8會成為特征向量和它的每個部件的定義 (10)在這里有公式7相同的意義的權重因子(我們選擇以獲得最好的結(jié)果,在這項研究中),并給出了 (12)和2.2.3表示對GPCR藥物現(xiàn)在一個G蛋白偶聯(lián)受體蛋白和藥物化合物D之間的對可通過公式5和公式8制定方程,給出 (14)其中G表示的GPCR藥物對,正交和權重系數(shù)為1 / 7000在這項研究中得到最好的結(jié)果,并給
43、出在公式10。2.3模糊K近鄰算法根據(jù) SWISSPROT 庫和 GPCRDB 所采用的分類原則,GPCR分為六類。具體步驟如下: 1.登陸(/7tm/),下載6類GPCR子家族數(shù)據(jù),這6類數(shù)據(jù)分別為(1)rhodopsin-like;(2) secretin-like;(3)metabotrophic/glutamate /pheromone; (3)fungal pheromone; (4)cAMP receptor; (5)frizzled/ smoothemed family。 2.剔除不完整序列(標注為片段或氨基酸個數(shù)50)。 3.剔除含有非20個
44、標準氨基酸殘基字符的序列。 4.為消除同源性,用CD-HIT軟件剔除每類數(shù)據(jù)集中同源性大于40%的序列,即使數(shù)據(jù)集中任兩個序列的相似性都小于40%。 這里要說明的是,由于GPCR第5類的數(shù)據(jù)集(cAMP receptor)含有的序列太少,僅有10條序列,若執(zhí)行消除數(shù)據(jù)集冗余度操作,會使該類序列過少而缺乏統(tǒng)計性,因此并未執(zhí)行第(4)步。經(jīng)過上述步驟最終獲得365條序列,其中含 有 232 條 rhodopsin-like,39 條 secretin-like,44 條 metabotrophic /glutamate/pheromone,23 條 fungal pheromone,10 條 cA
45、MP receptor,以及17條frizzled/smoothened family。同時,為了區(qū)分GPCR和非GPCR序列,根據(jù)序列的注釋信息在SWISSPROT數(shù)據(jù)庫中隨機挑選一部分非GPCR序列,執(zhí)行上述過程并隨機選擇365條non-GPCR序列構成非GPCR數(shù)據(jù)集。將上述得到的365條GPCR序列加上365條non-GPCR序列構建成了我們所需的訓練集。 偽氨基酸構造方法 蛋白質(zhì)序列是由氨基酸組成,20 種不同的氨基酸分別用20個英文字母 A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W 和Y表示。因為氨基酸物理化學性質(zhì)中的側(cè)鏈分子量與蛋白質(zhì)功能、結(jié)構密切相
46、關,在將蛋白質(zhì)字符序列轉(zhuǎn)換成數(shù)字序列過程中,我們采用表 1所示的氨基酸數(shù)字編碼模型。其中 R1 代表蛋白質(zhì)序列的第一個氨基酸,R2 代表蛋白質(zhì)序列的第二個氨基酸,以此類推。為了將蛋白質(zhì)序列的字符編碼轉(zhuǎn)換成空間向量??砂褌?cè)鏈分子量百分比定義為:式中(j=A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y)式中表示第i條蛋白質(zhì)序列中第j種氨基酸的側(cè)鏈分子量(side-chain mass)之和, 表示20種氨基酸側(cè)鏈分子量(side-chain mass)總和。即偽氨基酸成分為側(cè)鏈分子量百分比。 根據(jù)偽氨基酸成分理論,這樣每一個氨基酸序列就由20維空間的向量變成了一個4
47、0維空間的向量。蛋白質(zhì)序列表示為:式中:f (i =1, 2, , 20)為20個氨基酸在序列中出現(xiàn)的次數(shù),(k=1,2,20) 為偽氨基酸成分(側(cè)鏈分子量百分比), (j=1)為權重因子(本文中) 。分類器設計 將G蛋白偶聯(lián)受體進行量化處理后,接下來關鍵就是建立分類器并能對特征向量進行合理的分類識別,這里采用模糊K近鄰算法,并以向量歐氏(Euclidean)距離值作為距離度量。 模糊K近鄰算法是Keller等在1985年提出的。它是一種簡單有效的分類算法,廣泛應用于生物信息學和其他各個領域。其基本思想是: 對于一個測試數(shù)據(jù)x, 首先從訓練數(shù)據(jù)集: yj(j=1,2,N,其中N個數(shù)據(jù)分別屬于種
48、不同的類別)中找出與測試數(shù)據(jù)最接近(通常定義為距離最近,如歐氏距離,Mahalanobis距離等)的k個近鄰,然后通過各個近鄰的分類標簽來確定測試數(shù)據(jù)的類別。通過賦給k個近鄰不同的加權系數(shù),然后運用模糊決策方法算出系數(shù)最大的類標簽即可作為測試數(shù)據(jù)的類別。那么測試數(shù)據(jù)屬于不同類別的隸屬度函數(shù)可表示為: 其中k是測試樣本的最近鄰居的個數(shù),是第j個近鄰屬于第 i 個類別的隸屬度, 測試樣本和它最近鄰居樣本之間的距離,m 是模糊參數(shù),它代表每個近鄰與測試數(shù)據(jù)之間距離的權重,是測試樣本對于第 i 類訓練數(shù)據(jù)的隸屬度值。預測結(jié)果與討論 下面通過用數(shù)據(jù)集對該分類器進行檢驗,這里用國際公認的嚴格的Jackkn
49、ife交叉驗證法,Jackknife是利用一次抽樣的樣本觀察值,來構造未知參數(shù)的無偏估計 (或偏性很小的估計量 )的一種模擬抽樣統(tǒng)計推斷方法。該法每次從原樣本中剔除一個樣本,得到樣本含量為-1的新樣本,稱為Jackknife樣本,一共有個,由每個樣本計算估計值,稱為Jackknife估計。檢驗的效果是以Jackknife測試的成功率來衡量。 在模糊 K 近鄰算法中,參數(shù)的選擇對分類器的性能有很重要的影響。由于近鄰數(shù) K 和距離計算中的模糊參數(shù) m 直接影響著分類器的預測精確度,因此測試了大量的 k,m 值以獲得滿意的預測效果。實驗當中,在預測蛋白質(zhì)是否為GPCR時發(fā)現(xiàn)當 K=2,m=1.8 時
50、效果最好,表 2 中顯示準確率達到了94.66%, 在預測GPCR分成六類時發(fā)現(xiàn)當K=4,m=2時效果最好,表 3 中顯示總成功率達到了 86.38%。在表 2 和表 3 中CA 模型與本文的方法進行對比,可以發(fā)現(xiàn)表 2 中Non-GPCR 類的預測成功率與 CA 模型持平,而 GPCR 類比其高許多;表 3 中 fungal pheromone 類準確率要比 CA 模型高出近6倍。這證明我們的方法是非常有效的。下面,讓我們簡要介紹如何使用模糊K近鄰方法識別蛋白質(zhì)GPCR藥物化合物在網(wǎng)絡之間的相互作用。為了簡化,此后,讓我們用“通道藥物對”或是“對”為代表的“偽氨基酸藥物對”除非另有明確表示。
51、假設是一組表示在訓練GPCR藥物對向量,集合分為兩類,其中表示的互動對類和非互動對類;是K近鄰對查詢對的子集。因此,在兩類查詢對模糊隸屬度值其中K分別是最近鄰計算的查詢對的數(shù)目,和模糊隸屬度值的訓練樣本的類,下面將進一步明確;之間的歐氏距離和最近在第對訓練數(shù)據(jù)集;模糊系數(shù),確定多大的距離加權計算各近鄰的隸屬度值的貢獻。請注意,參數(shù)K會影響eq.15計算結(jié)果,他們將被優(yōu)化的網(wǎng)格搜索稍后描述。同時,其他各種指標可以選擇。在eq.15上述和定量的定義給出了(16)替代的eq.16為eq.15得到的結(jié)果,這表明如果查詢對是一個互動的耦合;否則,非交互式的。換句話說,結(jié)果可歸結(jié)為(17)建立的預測稱為i
52、gpcr藥物。提供如何分類工作的一個直觀的畫面,流程圖在圖顯示其操作過程圖2。一個三維圖形顯示如何優(yōu)化這兩個參數(shù)K和藥物的igpcr預測。圖3。一個流程圖顯示的預測igpcr藥物的操作過程??吹竭M一步的解釋文本。3 結(jié)果與討論3.1績效評估指標提供更直觀和易于理解的預測質(zhì)量的測量方法。根據(jù)這些標準,正確率的預測為交互式GPCR藥物對數(shù)據(jù)集和非交互式的GPCR藥物對數(shù)據(jù)集分別定義(參見公式1) (18)整體的成功預測率是由 (19)很明顯,從eqs.18-19,當且僅當G蛋白偶聯(lián)受體藥物對交互式和非交互式GPCR藥物對沒有被錯誤預測,即我們的整體成功率。否則,總的成功率要小于1。另一方面,需要指
53、出的是,下面往往是采用文獻中檢測性能的預測質(zhì)量的方程組 (20)在TP代表真陽性;TN,真陰性;FP,假陽性;假陰性;FN,Sn,SP,敏感性;特異性;準確性;ACC,MCC,馬修的相關系數(shù)。顯然,在公式18或公式19符號和那些在公式20之間的關系,給出了 (21)替代公式21為公式20也注意到eqs.18-19,我們得到 (22)現(xiàn)在我們可以很容易地看到:當意義的互動GPCR藥物對沒有被錯誤預測是一個非交互式的GPCR藥物對,我們有敏感性;而這意味著所有的互動GPCR藥物對錯誤預測是非交互式的GPCR藥物對,我們有敏感性。同樣地,當意義的非交互式的GPCR藥物對無誤預測的是,我們有特異性;而
54、意義的錯誤預測互動GPCR藥對所有非交互式的GPCR藥物對,我們有特異性。當這意味著錯誤地預測了互動的GPCR藥物對數(shù)據(jù)集和非交互式的GPCR藥物對,我們的整體精度;同時,這意味著所有的互動GPCR藥物對數(shù)據(jù)集和所有的非交互式的GPCR藥物對被錯誤預測,我們的總體精度。MCC相關系數(shù)通常是用于測量二元的質(zhì)量(兩類)的分類。當意味的互動GPCR藥物對數(shù)據(jù)集和非交互式的GPCR藥物對沒有不被錯誤預測,我們;當我們沒有更好的比隨機預測;當我們有意義的預測和觀察之間的總的分歧。我們可以看到從上面的討論,這是更直觀和更容易理解,當使用公式22檢查的敏感性,特異性,預測總體精度,和馬修的相關系數(shù)。3.2
55、交叉驗證如何正確檢驗預測的質(zhì)量是開發(fā)新的預測和其潛在的應用價值估算的關鍵。一般來說,為了避免。記憶效應。,resubstitution測試中,同一個數(shù)據(jù)集用于訓練和測試的預測,以下三個交叉驗證方法常被用來研究在實際應用中的效果的預測因子:獨立的數(shù)據(jù)集的測試,采樣(如為5倍,7倍或10倍),測試,和折刀測試。然而,通過深入分析闡述了隨意性大,存在于獨立的數(shù)據(jù)集的測試。同時,通過eqs.28-30,二次取樣測試(或交叉驗證)不能避免隨意性也。只有折刀測試至少是任意的,可以為一個給定的基準數(shù)據(jù)集的一個獨特的結(jié)果。因此,刀切測試已被廣泛認可,越來越多地采用了調(diào)查的各種預測的質(zhì)量。鑒于此,通過Jackknife測試
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版智能交通解決方案合同
- 2025年粗紡混紡紗行業(yè)深度研究分析報告
- 2024-2029年中國微電聲器件行業(yè)市場研究與投資預測分析報告
- 全電子時控開關鐘行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 2025年度個人教育培訓貸款延期合同4篇
- 2025年山西華新燃氣集團有限公司招聘筆試參考題庫含答案解析
- 2025年山東海洋冷鏈發(fā)展有限公司招聘筆試參考題庫含答案解析
- 二零二五版門衛(wèi)勞務與城市安全服務合同4篇
- 2025年江蘇海晟控股集團有限公司招聘筆試參考題庫含答案解析
- 2025年遼寧鞍山市臺安縣城建集團招聘筆試參考題庫含答案解析
- 九年級數(shù)學上冊期末復習綜合測試題(含答案)
- 2025年月度工作日歷含農(nóng)歷節(jié)假日電子表格版
- 開展個人極端案事件防范工作總結(jié)【四篇】
- 2024中國智能駕駛城區(qū)NOA功能測評報告-2024-12-智能網(wǎng)聯(lián)
- 山西省呂梁市2023-2024學年高二上學期期末考試數(shù)學試題(解析版)
- 2024年市場運營部職責樣本(3篇)
- 2024體育活動區(qū)鋪沙子(合同)協(xié)議
- 《中華人民共和國機動車駕駛?cè)丝颇恳豢荚囶}庫》
- 《劇本寫作要素》課件
- 2024年VB程序設計:從入門到精通
- 2024年故宮文化展覽計劃:課件創(chuàng)意與呈現(xiàn)
評論
0/150
提交評論