主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第1頁(yè)
主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第2頁(yè)
主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第3頁(yè)
主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第4頁(yè)
主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DrugDiscov.Today|主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景主動(dòng)學(xué)習(xí)(AL)是一個(gè)迭代反饋過(guò)程,其能迭代性的從化學(xué)空間中識(shí)別有價(jià)值的數(shù)據(jù),從而實(shí)現(xiàn)以較少的有標(biāo)簽數(shù)據(jù)高效的完成對(duì)空間的探索和開(kāi)發(fā)。AL的這一特性正好與藥物發(fā)現(xiàn)過(guò)程中所面臨的探索空間不斷擴(kuò)大和有標(biāo)簽數(shù)據(jù)存在缺陷等問(wèn)題互補(bǔ),因此,AL已經(jīng)被廣泛的用于藥物發(fā)現(xiàn)領(lǐng)域以推動(dòng)藥物發(fā)現(xiàn)的進(jìn)程。最近,曹東升教授課題組和曾湘祥課題組在DrugDiscoveryToday上發(fā)表了一篇綜述“ThePresentStateandChallengesofActiveLearninginDrugDiscovery”,這篇綜述首先介紹了AL工作流,然后對(duì)AL在藥物發(fā)現(xiàn)領(lǐng)域中的應(yīng)用進(jìn)行了全面且系統(tǒng)的回顧,最后總結(jié)了AL在藥物發(fā)現(xiàn)領(lǐng)域的研究現(xiàn)狀和研究前景,具體見(jiàn)下文。主動(dòng)學(xué)習(xí)工作流的介紹AL是一個(gè)迭代反饋的過(guò)程,其從一個(gè)小的初始訓(xùn)練數(shù)據(jù)集構(gòu)建模型開(kāi)始,然后,使用一定的查詢策略迭代地從數(shù)據(jù)集中選擇富含信息量的數(shù)據(jù)進(jìn)行標(biāo)注,這些新標(biāo)注的數(shù)據(jù)被用于迭代性的更新模型,最后,在達(dá)到預(yù)定的目標(biāo)后或者資源耗盡時(shí),停止AL的過(guò)程。因此,AL通常主要由以下四個(gè)部分組成(如圖1所示):1.初始訓(xùn)練集:初始訓(xùn)練集作為AL的起始對(duì)AL的過(guò)程有重要的影響,大量的研究表明初始訓(xùn)練集選擇的一個(gè)趨勢(shì):在前瞻性研究中,其通常是從各種數(shù)據(jù)庫(kù)中直接提取或者處理過(guò)的歷史數(shù)據(jù);而在回顧性研究中,其通常是隨機(jī)抽取的一個(gè)或者一組數(shù)據(jù)集。然而,無(wú)論初始數(shù)據(jù)集是如何選擇的,AL都展現(xiàn)出了顯著的優(yōu)勢(shì)。2.ML算法:ML算法是AL工作流的重要組成部分,目前,各種ML算法均已成功的與AL相融合,包括傳統(tǒng)的ML算法,深度學(xué)習(xí)算法以及一些更加精密的ML算法。這些ML算法的成功融合為專家在使用AL時(shí)有了更多的ML算法選擇,同時(shí)也鼓勵(lì)研究者將更加先進(jìn)的ML算法與AL相融合,此外,需要注意的是,同一種ML算法在不同研究背景下表現(xiàn)出的性能是不同的,所以在解決特定問(wèn)題時(shí),研究人員必須仔細(xì)選擇適合的ML算法。3.查詢策略:用于指導(dǎo)數(shù)據(jù)選擇的查詢策略是AL工作流的核心部分,其主要分為三類:開(kāi)采性查詢策略、探索性查詢策略和平衡查詢策略。開(kāi)采性查詢策略通常優(yōu)先選擇具有潛在理想特征的數(shù)據(jù)卻不考慮他們對(duì)模型性能的影響;探索性查詢策略則專注于選擇可以為模型提供新見(jiàn)解的分子,即使它們不具有理想性質(zhì);平衡選擇策略則致力于選擇可以同時(shí)具有理想性質(zhì)和提高模型性能的數(shù)據(jù),以實(shí)現(xiàn)開(kāi)采和探索之間的平衡,比如選擇一半探索性數(shù)據(jù)和一半探索性數(shù)據(jù)。這些查詢策略最后所能實(shí)現(xiàn)的目的不同,研究人員需要根據(jù)自己的研究目標(biāo)去合理的選擇查詢策略以高效率的完成研究目標(biāo)。4.評(píng)估指標(biāo):AL最后階段是在合適的時(shí)間停止迭代,與這密切相關(guān)的是用于衡量AL效益的評(píng)估指標(biāo)。通常,這些評(píng)價(jià)指標(biāo)可以分為兩大類,一是基于分子的指標(biāo),其聚焦于選擇的分子,比如選擇到的活性分子數(shù)目或者活性分子的骨架數(shù)目;二是基于模型的指標(biāo),其專注于模型的變化,比如模型性能的改變和特征重要性的變化。然而,這兩種指標(biāo)都只能用于評(píng)估當(dāng)前迭代的狀態(tài),而不能衡量進(jìn)一步迭代可能獲得的收益。為了解決這一限制,研究人員也通過(guò)分析建模和統(tǒng)計(jì)方法去評(píng)估多一輪迭代的潛在效益以進(jìn)一步確定是否需要進(jìn)行下一次迭代。研究人員可以根據(jù)這些指標(biāo)確定何時(shí)停止AL工作流,使之與他們的研究目標(biāo)相圖一:AL工作流的概述圖。主動(dòng)學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用集成了各種的ML算法和查詢策略的AL已經(jīng)在藥物發(fā)現(xiàn)的化合物-靶點(diǎn)相互作用(CTIs)預(yù)測(cè)、虛擬篩選(VS)、分子生成和優(yōu)化以及分子性質(zhì)預(yù)測(cè)這些關(guān)鍵階段中被成功的用于解決各種問(wèn)題(如圖2所示)。下面這一部分將對(duì)AL在藥物發(fā)現(xiàn)不同階段的應(yīng)用進(jìn)行全面和系統(tǒng)的綜述。圖2AL在藥物發(fā)現(xiàn)的各個(gè)階段的主要應(yīng)用。分子-靶點(diǎn)相互作用預(yù)測(cè)在CTI預(yù)測(cè)中存在有標(biāo)簽數(shù)據(jù)分布不平衡以及有標(biāo)簽數(shù)據(jù)缺乏不足以準(zhǔn)確預(yù)測(cè)空間中所有的CTI等問(wèn)題。此外,如何高效的解決與CTIs相關(guān)的復(fù)雜的多類別分類問(wèn)題也是CTI研究需要解決的。使用不同分子查詢策略的AL的融合可以有效的解決這些問(wèn)題(參見(jiàn)圖3),目前這已經(jīng)被大量的報(bào)道所證明。圖3通過(guò)引入AL來(lái)解決DTI預(yù)測(cè)中存在的一些棘手問(wèn)題的示意圖。1.解決標(biāo)記數(shù)據(jù)集中的數(shù)據(jù)不平衡問(wèn)題:基于探索性選擇策略的AL可以迭代性的從有標(biāo)簽數(shù)據(jù)集中選擇富含信息量的數(shù)據(jù)加入訓(xùn)練集,從而構(gòu)建相互作用對(duì)和非相互作用對(duì)比例平衡且靶點(diǎn)覆蓋率高的訓(xùn)練集。Reker等人的研究證明了這點(diǎn),他們使用基于不確定性的分子選擇策略在每次迭代時(shí)選擇了被模型預(yù)測(cè)不準(zhǔn)確的相互作用對(duì)加入訓(xùn)練集,最終構(gòu)建了一個(gè)相互作用對(duì)和非相互作用對(duì)比例平衡且靶點(diǎn)覆蓋率較高的訓(xùn)練集。此外,Sharma等人的研究也表明通過(guò)AL迭代性的選擇最接近預(yù)測(cè)邊界的相互作用對(duì)加入訓(xùn)練集可以有效的解決數(shù)據(jù)不平衡問(wèn)題。2.加快CTI空間的探索和利用:基于探索性選擇策略的AL可以快速的從相互作用空間中找到最富含信息量的相互作用對(duì)加入訓(xùn)練集,從而構(gòu)建高質(zhì)量的相互作用預(yù)測(cè)模型準(zhǔn)確的預(yù)測(cè)相互作用空間中的CTIs,這已被很多研究所證明。比如,Naik等人通過(guò)迭代性的選擇預(yù)測(cè)置信度低的相互作用對(duì)進(jìn)行標(biāo)注以擴(kuò)充訓(xùn)練集和更新模型,最終實(shí)現(xiàn)了以較少的訓(xùn)練數(shù)據(jù)構(gòu)建高質(zhì)量的相互作用預(yù)測(cè)模型,從而準(zhǔn)確的預(yù)測(cè)數(shù)據(jù)集中所有的CTI;Sun等人的研究也證明了通過(guò)基于探索性選擇策略的AL可以快速的完成對(duì)相互作用空間的探索,實(shí)現(xiàn)以較少的樣本構(gòu)建高質(zhì)量的相互作用模型,準(zhǔn)確的預(yù)測(cè)空間中的CTIs?;陂_(kāi)采性選擇策略的AL可以引導(dǎo)快速找到空間中具有相互作用的分子-靶點(diǎn)對(duì),高效的完成對(duì)相互作用空間的開(kāi)采,Kanga等人的研究就證明了這點(diǎn),他們通過(guò)在每次迭代時(shí)使用貪婪選擇策略選擇被預(yù)測(cè)具有相互作用的分子-靶點(diǎn)對(duì),最終快速的找到了空間中具有相互作用的分子-靶點(diǎn)對(duì),從而高效的完成對(duì)相互作用空間的開(kāi)采。此外,他們的研究也表明通過(guò)平衡性選擇策略可以在快速找到具有相互作用的分子-靶點(diǎn)對(duì)的同時(shí)找到最富含信息量的相互作用對(duì)以快速的改進(jìn)模型的性能,從而高效的完成對(duì)相互作用空間的開(kāi)發(fā)和探索。3.提高多類別分類的效率:基于探索性選擇策略的AL可以迭代性的選擇最有價(jià)值的數(shù)據(jù)快速的改進(jìn)多類別分類模型性能,高效的解決與CTI相關(guān)的多類別分類問(wèn)題,這已經(jīng)被相關(guān)的研究所證明。比如Lang等人通過(guò)基于不確定性的選擇策略在每次迭代時(shí)選擇兩個(gè)最高正概率之間差異最小的分子進(jìn)行標(biāo)注去擴(kuò)充訓(xùn)練集,最后實(shí)現(xiàn)了以較少的樣本構(gòu)建高質(zhì)量的模型準(zhǔn)確的從多個(gè)靶點(diǎn)中找到每個(gè)分子結(jié)合的特定靶點(diǎn);RodríguezPérez等人的研究通過(guò)基于熵的選擇策略選擇富含信息量的數(shù)據(jù)快速的構(gòu)建高性能的模型,準(zhǔn)確的將分子分到正確的結(jié)合位點(diǎn)上。虛擬篩選(SBVS)。LBVS方法是基于相似性的基本原理,所以很難發(fā)現(xiàn)骨架新穎的活性分子。SBVS方法利用計(jì)算模擬來(lái)模擬配體與蛋白質(zhì)的結(jié)合,可以有效識(shí)別骨架新穎的活性分子,但是其計(jì)算速度慢且會(huì)耗費(fèi)大量計(jì)算資源。此外,最廣泛應(yīng)用的SBVS方法-分子對(duì)接,其也面臨預(yù)測(cè)準(zhǔn)確性低等問(wèn)題?;诓煌肿舆x擇策略的AL可以有效的彌補(bǔ)這兩種虛擬篩選方法的主要缺陷,如圖4所示,這也被很多研究報(bào)道所證明。圖4AL緩解兩種VS方法的主要缺點(diǎn):幫助LBVS發(fā)現(xiàn)骨架新穎的活性分子和加速SBVS的示意圖1.輔助LBVS發(fā)現(xiàn)骨架新穎的活性分子:早期,Warmuth等人的研究表明通過(guò)基于開(kāi)采性查詢策略的AL可以引導(dǎo)快速的找到數(shù)據(jù)庫(kù)中的活性分子;Czarnecki等人的研究則表明通過(guò)基于探索性選擇策略的AL可以快速的找到富含信息量的分子快速的為模型添加新的信息。為此,Reker等人開(kāi)始進(jìn)一步的探索通過(guò)基于平衡性選擇策略的AL是否可以找到骨架新穎的活性分子,他們通過(guò)迭代性的選擇結(jié)構(gòu)新穎且很可能具有活性的分子進(jìn)行標(biāo)注,最終引導(dǎo)找到了結(jié)構(gòu)新穎的活性分子。這就表明通過(guò)平衡性選擇策略的AL可以輔助LBVS方法找到骨架新穎的活性分子。2.提高SBVS的篩選效率:基于開(kāi)采性的AL可以迭代性的從數(shù)據(jù)集中選擇最可能具有好的計(jì)算得分的分子進(jìn)行SBVS計(jì)算,從而將SBVS計(jì)算聚焦于數(shù)據(jù)庫(kù)中最有前景的那部分分子,避免了計(jì)算資源在得分差的分子上的浪費(fèi),這點(diǎn)已經(jīng)被Graff和Gusev等專家的研究所證明。在他們的研究中,他們通過(guò)迭代性的選擇預(yù)測(cè)的計(jì)算得分好的分子進(jìn)行SBVS計(jì)算,最終以較少的分子對(duì)接或分子動(dòng)力學(xué)模擬計(jì)算快速的找到數(shù)據(jù)庫(kù)中大多數(shù)對(duì)接得分好或結(jié)合自由能低的分子,即將計(jì)算資源成功的聚焦于數(shù)據(jù)庫(kù)中最有前景的這部分分子。Schrodinger公司也據(jù)此開(kāi)發(fā)了可以使這個(gè)過(guò)程自動(dòng)化的程序:AL-Glide和AL-FEP+。3.增強(qiáng)SBVS的預(yù)測(cè)準(zhǔn)確性:AL在改進(jìn)SBVS的預(yù)測(cè)準(zhǔn)確性上也發(fā)揮了重要的作用,Hsu等人的研究就表明通過(guò)基于探索性選擇策略的AL可以迭代性的改進(jìn)對(duì)接構(gòu)象預(yù)測(cè)模型對(duì)新型蛋白質(zhì)-配體結(jié)合構(gòu)象的預(yù)測(cè);Wang等人的研究表明通過(guò)采用一種負(fù)向選擇策略的AL可以改進(jìn)基于機(jī)器學(xué)習(xí)打分函數(shù)的預(yù)測(cè)性能,降低篩選假陽(yáng)性率;César等人的研究表明通過(guò)基于開(kāi)采性選擇策略的AL可以引導(dǎo)FEP計(jì)算程序的參數(shù)選擇,從而找到適合特定靶點(diǎn)FEP計(jì)算的參數(shù)設(shè)置,準(zhǔn)確的進(jìn)行FEP計(jì)算。分子的生成和優(yōu)化分子的生成和優(yōu)化過(guò)程主要包括兩個(gè)關(guān)鍵步驟:一是使用生成模型生成可能具有所需屬性的分子;二是使用實(shí)驗(yàn)或精確計(jì)算方法評(píng)估這些生成的分子,識(shí)別出真正具有理想特性的分子。AL已被證明可以通過(guò)增強(qiáng)生成分子的質(zhì)量和加速對(duì)生成分子的性質(zhì)評(píng)估來(lái)改進(jìn)分子的生成和優(yōu)化過(guò)程。1.提高生成分子的質(zhì)量:AL可以通過(guò)利用生成的分子迭代性的對(duì)生成模型進(jìn)行反饋而改進(jìn)模型的性能,提高生成分子的質(zhì)量,這已經(jīng)被一些報(bào)道證明了。比如Iovanac等人的報(bào)道表明通過(guò)AL迭代性的從生成的分子中選擇具有理想性質(zhì)的分子去迭代性的更新簡(jiǎn)單的生成模型,最終可以改進(jìn)生成模型以生成更多的具有理想性質(zhì)的分子;Bengio等人的研究也表明通過(guò)迭代性的利用生成的分子更新強(qiáng)化模型可以生成更多結(jié)構(gòu)多樣且對(duì)接得分好的分子。2.加速對(duì)生成分子的性質(zhì)評(píng)估:正如在虛擬篩選部分中的AL提高SBVS的篩選效率所述,通過(guò)AL也可以加速對(duì)生成分子的性質(zhì)評(píng)估,快速地從生成的分子中找到具有理想性質(zhì)的分子,Konze等人的研究就證明了這一點(diǎn),他們通過(guò)在每一次迭代時(shí)選擇模型預(yù)測(cè)FEP+得分最好的分子進(jìn)行FEP+計(jì)算,最后以較少的計(jì)算資源從生成的分子中快速的找到FEP+得分好的分子。分子性質(zhì)預(yù)測(cè)在分子性質(zhì)預(yù)測(cè)中,模型預(yù)測(cè)的準(zhǔn)確性經(jīng)常會(huì)受到有標(biāo)簽數(shù)據(jù)中存在的問(wèn)題的影響,例如數(shù)據(jù)冗余。此外,現(xiàn)有的有標(biāo)簽數(shù)據(jù)有限,其構(gòu)建的模型無(wú)法準(zhǔn)確的預(yù)測(cè)日益擴(kuò)大的空間中所有分子的性質(zhì)?;谔剿餍圆樵儾呗缘腁L是解決這些挑戰(zhàn)的一個(gè)解決方案,已有大量文獻(xiàn)報(bào)導(dǎo)證明了它的有效性。1.解決有標(biāo)簽數(shù)據(jù)集的局限性:基于探索性選擇策略的AL可以從有標(biāo)簽數(shù)據(jù)集中迭代性的選擇富含信息量的數(shù)據(jù)作為訓(xùn)練集,從而移除有標(biāo)簽數(shù)據(jù)集中存在的冗余數(shù)據(jù),這點(diǎn)已經(jīng)被Ding等人的研究所證明。在他們的研究中,他們通過(guò)基于不確定性選擇策略的AL迭代性的從數(shù)據(jù)集中選擇含信息量的數(shù)據(jù)構(gòu)建模型,最終實(shí)現(xiàn)了以明顯少的數(shù)據(jù)構(gòu)建了與使用全部數(shù)據(jù)構(gòu)建的模型性能相當(dāng)或者更好的模型。2.加速化學(xué)空間性質(zhì)的探索:基于探索性選擇策略的AL可以迭代性地從化學(xué)空間中選擇有代表性的數(shù)據(jù)向模型中添加新的信息,從而使之可以更加準(zhǔn)確的預(yù)測(cè)空間中分子的性質(zhì),許多研究已經(jīng)證明了這點(diǎn)。比如Gubaev等人使用探索性查詢策略選擇與訓(xùn)練集數(shù)據(jù)差異較大的分子來(lái)擴(kuò)充訓(xùn)練集,從而改進(jìn)模型使之更加準(zhǔn)確的預(yù)測(cè)空間中分子的性質(zhì);Zhang等人也迭代性的選擇預(yù)測(cè)不確定的分子去為模型添加新的信息使之更加準(zhǔn)確的預(yù)測(cè)空間中分子的性質(zhì);Hao等人也通過(guò)基于多樣性的分子選擇策略迭代性的選擇分子擴(kuò)充訓(xùn)練集使之更加準(zhǔn)確的預(yù)測(cè)空間中的分子的性質(zhì)。現(xiàn)狀和研究前景1.整合更加先進(jìn)的ML算法:目前很多先進(jìn)的ML和自動(dòng)化ML(Auto-ML)算法都已經(jīng)成功的與AL相結(jié)合并在藥物發(fā)現(xiàn)中得到了成功的應(yīng)用,但是也有一些在其他領(lǐng)域成功融合的ML算法還沒(méi)在藥物發(fā)現(xiàn)領(lǐng)域得到成功的應(yīng)用,例如多任務(wù)AL。此外,隨著各種新的更加精進(jìn)的算法的不斷出現(xiàn),如何將在其他領(lǐng)域成功融合的ML算法和新出現(xiàn)的更加精進(jìn)的算法與AL相結(jié)合以促進(jìn)藥物發(fā)現(xiàn)的進(jìn)程在未來(lái)仍需要進(jìn)一步的探究。2.開(kāi)發(fā)或者遷移新型的分子選擇策略:為了在改進(jìn)模型性能的同時(shí)找到具有理想性質(zhì)的分子,一系列致力于平衡開(kāi)采和探索的平衡選擇策略被開(kāi)發(fā)出來(lái)了,但是如何精細(xì)的調(diào)節(jié)兩者的比例以最大化收益仍是需要探索的;此外,在不同階段采用不同的查詢策略也可以實(shí)現(xiàn)改進(jìn)模型性能和找到理想性質(zhì)的活性分子的目的,但是在什么時(shí)候進(jìn)行查詢策略的轉(zhuǎn)化可以最快的實(shí)現(xiàn)研究目標(biāo)也是需要進(jìn)一步研究的。此外,近年來(lái),在其他領(lǐng)域也出現(xiàn)了一些新穎且成效顯著的查詢策略,將這些策略從其他領(lǐng)域直接遷移或者改編后遷移到藥物發(fā)現(xiàn)領(lǐng)域以加速藥物發(fā)現(xiàn)也是值得進(jìn)一步研究的。3.探索AL的新應(yīng)用:AL的常規(guī)應(yīng)用是用于快速的改進(jìn)模型的性能或者找到具有理想性質(zhì)的分子,但是一些研究也展示了AL的新應(yīng)用層面,比如使用A

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論