分子屬性預(yù)測(cè)的數(shù)據(jù)集描述_第1頁(yè)
分子屬性預(yù)測(cè)的數(shù)據(jù)集描述_第2頁(yè)
分子屬性預(yù)測(cè)的數(shù)據(jù)集描述_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

新分子設(shè)計(jì)的模型:(1)分子生成,(2)分子評(píng)分方法,(3)針對(duì)評(píng)分函數(shù)優(yōu)化或搜索更好分子的方法1、ogbn-proteins:Protein-ProteinAssociationNetworkogbn-proteins:無(wú)向,帶權(quán)重,多種邊類型的圖結(jié)構(gòu)。節(jié)點(diǎn)代表著蛋白質(zhì)分子,邊表示蛋白質(zhì)之間不同類型的有生物學(xué)意義的聯(lián)系,例如物理相互作用、共表達(dá)或同源性。所有的邊都有8維特征,每個(gè)維度代表一個(gè)關(guān)聯(lián)類型的強(qiáng)度,取值范圍在0到1之間(值越大,關(guān)聯(lián)越強(qiáng))。蛋白質(zhì)來(lái)源于8種物種。其任務(wù)是在一個(gè)多標(biāo)簽二元分類系統(tǒng)中預(yù)測(cè)蛋白質(zhì)功能的存在,該系統(tǒng)中總共有112種標(biāo)簽需要預(yù)測(cè)。這一表現(xiàn)是根據(jù)這112項(xiàng)任務(wù)中ROC-AUC的平均分來(lái)衡量的。2、ogbl-ddi:Drug-DrugInteractionNetworkogbl-ddi:是無(wú)權(quán)重?zé)o向的同質(zhì)圖,代表藥物-藥物相互作用網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)都代表著一個(gè)專業(yè)的藥物。邊表示藥物之間的相互作用。這個(gè)作用可以解釋為一種現(xiàn)象,當(dāng)這兩種藥物同時(shí)使用時(shí)所產(chǎn)生的聯(lián)合效應(yīng)與這兩種藥物單獨(dú)使用時(shí)所產(chǎn)生的的預(yù)期效應(yīng)有很大的不同。其任務(wù)是在已知的藥物-藥物相互作用信息的基礎(chǔ)上預(yù)測(cè)藥物-藥物的相互作用。評(píng)估指標(biāo)與ogbl-collab相似,該模型將真實(shí)藥物相互作用的排名高于非相互作用藥物對(duì)。3、ogbl-biokg:BiomedicalKnowledgeGraphogbl-biokg:ogbl-biokg數(shù)據(jù)集是一個(gè)知識(shí)圖譜(KG),它是使用來(lái)自大量生物醫(yī)學(xué)數(shù)據(jù)存儲(chǔ)庫(kù)的數(shù)據(jù)創(chuàng)建的。它包含五種實(shí)體:疾?。?0687個(gè)節(jié)點(diǎn)),蛋白質(zhì)(17499個(gè)節(jié)點(diǎn)),藥物(10533個(gè)節(jié)點(diǎn)),副作用(9969個(gè)節(jié)點(diǎn)),蛋白質(zhì)功能(45085個(gè)節(jié)點(diǎn))。有51種類型的有向關(guān)系將兩種類型的實(shí)體聯(lián)系起來(lái),包括39種藥物相互作用,8種蛋白質(zhì)相互作用,以及藥物,藥物副作用,藥物,功能,功能關(guān)系。所有關(guān)系均建模為有向邊,其中連接相同實(shí)體類型(例如蛋白質(zhì)-蛋白質(zhì),藥物-藥物,功能-功能)的關(guān)系始終是對(duì)稱的,即,邊是雙向的。這個(gè)數(shù)據(jù)集與生物醫(yī)學(xué)和基礎(chǔ)醫(yī)學(xué)研究相關(guān)。在生物醫(yī)學(xué)方面,該數(shù)據(jù)集使我們能夠更好地了解人類生物學(xué),并產(chǎn)生預(yù)測(cè),從而指導(dǎo)下游的生物醫(yī)學(xué)研究。在基本的ML方面,數(shù)據(jù)集顯示了在處理噪聲、不完整的KG時(shí)可能存在矛盾的挑戰(zhàn)。這是因?yàn)閛gblbiokg數(shù)據(jù)集涉及從分子尺度(例如,細(xì)胞內(nèi)的蛋白質(zhì)-蛋白質(zhì)相互作用)到整個(gè)人群的異質(zhì)相互作用(例如,某個(gè)國(guó)家的患者所經(jīng)歷的有害副作用的報(bào)告)。此外,KG中的三元組來(lái)自具有各種置信水平的來(lái)源,包括實(shí)驗(yàn)性的讀數(shù)、人工編制的注釋和自動(dòng)提取的元數(shù)據(jù)。任務(wù)是根據(jù)給定的訓(xùn)練三元組來(lái)預(yù)測(cè)新的三元組。3、ogbg-ppa:Protein-ProteinAssociationNetworkogbg-ppa:ogbg-ppa數(shù)據(jù)集是從1581個(gè)不同物種的蛋白質(zhì)-蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò)中提取的一組無(wú)方向的蛋白質(zhì)關(guān)聯(lián)鄰域,這些蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò)覆蓋了37個(gè)廣泛的分類類群(如哺乳動(dòng)物、細(xì)菌科、古生菌),并橫跨生命之樹(shù)。為了構(gòu)建鄰域,我們從每種物種中隨機(jī)選擇了100種蛋白質(zhì),并以每個(gè)選定的蛋白質(zhì)為中心構(gòu)建了2跳蛋白關(guān)聯(lián)鄰域.然后,我們從每個(gè)鄰域中移除中心節(jié)點(diǎn),并對(duì)鄰域進(jìn)行下采樣,以確保最終的蛋白關(guān)聯(lián)圖足夠小(小于300個(gè)節(jié)點(diǎn))。每個(gè)蛋白質(zhì)關(guān)聯(lián)圖中的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)之間有生物學(xué)意義的關(guān)聯(lián)。邊緣與7維特征相關(guān)聯(lián),其中每個(gè)元素取0到1之間的值,表示特定類型蛋白質(zhì)的強(qiáng)度蛋白質(zhì)關(guān)聯(lián),如基因共現(xiàn)、基因融合事件和共表達(dá)。給定一個(gè)蛋白質(zhì)關(guān)聯(lián)鄰域圖,該任務(wù)是一個(gè)37向多分類方法,以預(yù)測(cè)該圖源自哪個(gè)分類學(xué)組。成功解決該問(wèn)題的能力對(duì)于理解跨物種的蛋白質(zhì)復(fù)合物的進(jìn)化,隨著時(shí)間的推移重新建立蛋白質(zhì)相互作用,發(fā)現(xiàn)基因之間的功能性關(guān)聯(lián)(甚至對(duì)于其他方面未被研究的生物)也具有意義,并且將使我們對(duì)關(guān)鍵的生物信息學(xué)有深刻的認(rèn)識(shí)諸如生物網(wǎng)絡(luò)對(duì)齊之類的任務(wù)4、GDBGDBGDB-11:遵循簡(jiǎn)單的化學(xué)穩(wěn)定性和合成可行性規(guī)則,列舉了最多11個(gè)C,N,O和F原子的有機(jī)小分子。GDB-13:遵循簡(jiǎn)單的化學(xué)穩(wěn)定性和合成可行性規(guī)則,列舉了最多13個(gè)C,N,O,S和Cl原子的有機(jī)小分子。GDB-13具有977468314種結(jié)構(gòu),是迄今為止最大的可公開(kāi)獲得的小型有機(jī)分子數(shù)據(jù)庫(kù)。GDB-17:藥物分子由幾十個(gè)通過(guò)共價(jià)鍵連接的原子組成。這些分子總共可能有多少個(gè),它們的結(jié)構(gòu)是什么?這個(gè)問(wèn)題在藥物化學(xué)中引起了人們的緊迫興趣,以幫助解決藥物效價(jià),選擇性和毒性的問(wèn)題,并通過(guò)指出新的分子系列來(lái)降低損耗率。為了更好地定義未知的化學(xué)空間,我們列舉了1664億個(gè)碳原子,碳原子,氮原子,氧原子,硫原子和鹵素原子的17個(gè)原子組成的分子,形成了化學(xué)宇宙數(shù)據(jù)庫(kù)GDB-17,涵蓋的范圍涵蓋了許多藥物和典型的鉛化合物。GDB-17包含數(shù)百萬(wàn)種已知藥物的異構(gòu)體,包括與母體藥物具有高度形狀相似性的類似物。與PubChem中的已知分子相比,GDB-17分子在非芳族雜環(huán),季中心和立體異構(gòu)體中含量更高,在形狀空間的第三維中密集分布,并代表了更多的支架類型5、QM7/QM7bQM7/QM7b數(shù)據(jù)集是GDB-13數(shù)據(jù)庫(kù)的子集:使用二元密度泛函理論(PBE0/tier2基集)確定每個(gè)分子的最穩(wěn)定構(gòu)象和電子特性(原子化能,HOMO/LUMO特征值等)的3D直角坐標(biāo)。在穩(wěn)定的構(gòu)象坐標(biāo)下,以QM7/QM7b為基準(zhǔn)的學(xué)習(xí)方法負(fù)責(zé)預(yù)測(cè)這些電子特性。QM7b該數(shù)據(jù)集是用于多任務(wù)學(xué)習(xí)的QM7數(shù)據(jù)集的擴(kuò)展,其中必須在不同的理論水平(ZINDO,SCS,PBE0,GW)下預(yù)測(cè)13個(gè)其他屬性(例如極化率,HOMO和LUMO特征值,激發(fā)能)。還包括其他含氯原子的分子,總計(jì)7211個(gè)分子。6、QM8QM8數(shù)據(jù)集來(lái)自最近對(duì)電子光譜的量子力學(xué)計(jì)算和小分子激發(fā)態(tài)能量建模的研究,是GDB-17的子集。在2.2萬(wàn)個(gè)樣本上,用三種不同的方法計(jì)算了四種激發(fā)態(tài)性質(zhì)。7、QM9QM9是一個(gè)全面的數(shù)據(jù)集,為GDB-17數(shù)據(jù)庫(kù)的一個(gè)子集提供幾何、能量、電子和熱動(dòng)力學(xué)特性。該數(shù)據(jù)庫(kù)包含431.4萬(wàn)個(gè)穩(wěn)定有機(jī)分子每個(gè)分子最多含有9個(gè)重原子。所有分子均使用密度泛函理論(基于B3LYP/6-31G(2df,p)的DFT)建模。在我們的基準(zhǔn)測(cè)試中,將幾何屬性(原子坐標(biāo))集成到特征中,然后將其應(yīng)用于預(yù)測(cè)其他屬性。上述介紹的數(shù)據(jù)集(QM7,QM7b,QM8,QM9)是作為量子機(jī)器工作的一部分進(jìn)行策劃的,該工作已經(jīng)處理了大量數(shù)據(jù)集,以衡量機(jī)器學(xué)習(xí)方法在量子化學(xué)方面的有效性ESOLESOL是一個(gè)由1128種化合物的水溶性數(shù)據(jù)組成的小型數(shù)據(jù)集,該數(shù)據(jù)集已用于訓(xùn)練直接從化學(xué)結(jié)構(gòu)(如SMILES字符串中編碼)估算溶解度的模型。請(qǐng)注意,這些結(jié)構(gòu)不包含3D坐標(biāo),因?yàn)槿芙舛仁欠肿拥膶傩裕皇翘囟?gòu)象的屬性FreeSolv自由溶劑化數(shù)據(jù)庫(kù)(FreeSolv)提供了實(shí)驗(yàn)和計(jì)算的小分子在水中的水化自由能。計(jì)算值是由分子動(dòng)力學(xué)模擬的化學(xué)自由能計(jì)算得出的。我們將實(shí)驗(yàn)值包含在基準(zhǔn)測(cè)試集合中,并使用計(jì)算值進(jìn)行比較。Lipophilicity親脂性是影響膜通透性和溶解性的藥物分子的重要特征。該數(shù)據(jù)集來(lái)自ChEMBL數(shù)據(jù)庫(kù),提供了4200種化合物的辛醇/水分配系數(shù)(pH7.4

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論