




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于TPE的SpaRC算法超參數(shù)優(yōu)化方法摘 要 宏基因組序列組裝在計(jì)算和內(nèi)存上面臨著巨大挑戰(zhàn)。SpaRC Spark Reads Clustering)是基于Apache Spark的宏基因 組序列片段聚類算法,為來自下一代測(cè)序技術(shù)的數(shù)十億測(cè)序片段聚類提供了一種可擴(kuò)展的解決方案。但是,SpaRC算法參數(shù)的 設(shè)置是一項(xiàng)非常具有挑戰(zhàn)性的工作。SpaRC算法擁有許多對(duì)算法性能有著很大影響的超參數(shù),選擇合適的超參數(shù)集對(duì)于充分 發(fā)揮SpaRC算法的性能來說是至關(guān)重要的為了提高SpaRC算法的性能,探索了 一種基于樹狀結(jié)構(gòu)Parzen估計(jì)方法(Tree Parzen Estimator,TPE)的超參數(shù)優(yōu)
2、化方法,其能夠利用先驗(yàn)知識(shí)高效地調(diào)節(jié)參數(shù),并通過減少計(jì)算任務(wù)加速尋找最優(yōu)參數(shù),達(dá) 到最佳聚類效果,從而避免昂貴的參數(shù)探索對(duì)長序列片段(PacBio)和短序列片段(CAMI2 )進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法在改 善SpaRC算法性能方面有著良好的效果關(guān)鍵詞:SpaRC;宏基因組;序列片段聚類&TPE&超參數(shù)優(yōu)化SpaRC Algorithm Hyperparameter Optimization Methodology Based on TPEAbstract The assembly of metagenomic sequences faces huge challenge in computi
3、ng and storage. SpaRC (Spark Reads Cluster i ng) is a metagenom i c sequence fragment cluster i ng algorithm based on Apache Spark, which provides a scalable solution for clustering of billions of sequencng fragments. However, setting SpaRC parameters is a very challengng task. SpaRC algorthm has ma
4、nyhyperparameters thathave a great ?mpact on the performance of the algorthm.Choos ng the appropratehyperparame- ter set is crucial to the performance of SpaRC algorthm. In order to improve the performance of SpaRC algorithm,a hyperpar meter optimization method based on Tree Parzen Estimator (TPE) i
5、s explored, whch can use prior knowledge to efficiently ad7 just the parameters,accelerate the search for the optimal parameters by reducing the calculation task to achieve the optima! clus7 terng effect , thus avodng expensve parameter exploraton.After exper?ments wth long-reads( PacBo )and short-r
6、eads (CAMI2) , the results show that the proposed method has a great effect on improvng the performance of SpaRC algorthm. Keywords SpaRC, Metagenomcs, Sequence fragment clustering, TPE, Hyperparametric optimization1引言宏基因組學(xué)技術(shù)的興起有效地解決了傳統(tǒng)微生物學(xué)在檢 測(cè)和鑒定微生物物種方面存在局限性的問題&使用下一代測(cè) 序(Next Generation Sequencing,
7、NGS)(0)技術(shù)的全基因組鳥 槍測(cè)序(Whole Genome Shotgun, WGS)是用于大型真核生物 轉(zhuǎn)錄組分析和復(fù)雜微生物群落分析的強(qiáng)大工具。由于 WGS采用隨機(jī)采樣的方式且存在測(cè)序錯(cuò)誤,測(cè)序片段必須覆 蓋單個(gè)基因或基因組很多次,以確保高質(zhì)量的組裝但是, 在不了解物種結(jié)構(gòu)的情況下很難精確估計(jì)所需的測(cè)序深度, 對(duì)大型轉(zhuǎn)錄組和復(fù)雜元基因組進(jìn)行測(cè)序通常會(huì)產(chǎn)生盡可能多 的序列數(shù)據(jù)(6)。整體組裝這些數(shù)據(jù)集需要更高效且可擴(kuò)展的 方法&目前常用的方法是使用多個(gè)線程(MEGAHIT)或者 大型集群(Message Passing Interface, MPI) & 但是,這些試圖 從整體上組裝宏
8、基因組數(shù)據(jù)的方法很難隨著數(shù)據(jù)量的增加實(shí) 現(xiàn)近線性的擴(kuò)展&DIME(Divide conquer and MErge strategies) 首先使用 了先分類再按類組裝的方法,能夠有效減少整體組裝的數(shù)據(jù) 量&但是該方法基于Apache Hadoop實(shí)現(xiàn),Hadoop的計(jì)算 效率非常低,使其難以實(shí)現(xiàn)近線性的擴(kuò)展&相比Hadoop, Apache Spark在交互式計(jì)算和迭代計(jì)算方面具有非常大的 優(yōu)勢(shì)。SpaRCCSpark Reads Clustering) 一種基于 Apache Spark的宏基因組序列片段聚類算法其在組裝之前先對(duì) 序列片段進(jìn)行聚類,以提高宏基因組序列組裝算法的性能,當(dāng) 序列
9、片段大量增加時(shí)可以實(shí)現(xiàn)近線性擴(kuò)展 SpaRC算法包 含一些對(duì)聚類結(jié)果和算法性能影響較大的參數(shù),這些參數(shù)的 設(shè)置都涉及一定的專業(yè)知識(shí),設(shè)置合適的參數(shù)才能發(fā)揮算法 的最優(yōu)性能因此,SpaRC參數(shù)的設(shè)置通常非常耗時(shí),而且浪 費(fèi)資源目前,常用的超參數(shù)優(yōu)化算法主要分為3類:網(wǎng)格搜索 (Grid Search)、隨機(jī)搜索(Random Search)和貝 葉斯優(yōu)化 (Bayesian Optimization) 網(wǎng)格搜索通常搜索整個(gè)超參數(shù)空 間,在高維空間容易遭遇維度災(zāi)難,是一種昂貴的搜索算 法$2%)隨機(jī)搜索的各組實(shí)驗(yàn)之間相互獨(dú)立,不能利用先驗(yàn)知識(shí) 選擇下一組參數(shù),容易漏掉搜索空間中一些重要的參數(shù);貝葉
10、 斯優(yōu)化是基于模型的超參數(shù)優(yōu)化,能充分利用已測(cè)參數(shù)的信 息,并根據(jù)歷史信息決定下一個(gè)采樣點(diǎn),自適應(yīng)地迭代計(jì) 算$3%其能夠利用先驗(yàn)知識(shí)高效地調(diào)節(jié)參數(shù),并通過減少計(jì) 算任務(wù)來加速尋找最優(yōu)參數(shù)的進(jìn)程,不易陷入局部最優(yōu)?;?于順序模型的優(yōu)化方法(Sequential Model-sed Global Optimization, SMBO)是貝葉斯優(yōu)化的形式化,而且其使用TPE$01% 作為代理函數(shù)能夠在相同數(shù)量的實(shí)驗(yàn)中找到比隨機(jī)搜索更好 的超參數(shù)目前,盡管貝葉斯優(yōu)化算法在某些機(jī)器學(xué)習(xí)領(lǐng)域 獲得了成功,但是在生物信息處理領(lǐng)域的應(yīng)用仍然較少綜上,本文提出了一種使用TPE作為代理函數(shù)的貝葉斯 優(yōu)化策略,用
11、于提高SpaRC算法的聚類性能2 SpaRC算法2. 1算法概述SpaRC是一種基于Apache Spark的可擴(kuò)展宏基因組序 列片段的聚類算法,通過共享k-mer數(shù)量對(duì)序列片段(reads) 進(jìn)行分類,以實(shí)現(xiàn)下游組裝的優(yōu)化 SpaRC通過序列片段測(cè) 序技術(shù)能夠在轉(zhuǎn)錄組和元基因組上產(chǎn)生很高的聚類性能 SpaRC算法主要通過以下3個(gè)方面來實(shí)現(xiàn)近線性擴(kuò)展:通過共享k-mer數(shù)量估計(jì)成對(duì)序列的相似性(邊緣 權(quán)重)通過下采樣來控制隨著數(shù)據(jù)規(guī)模和復(fù)雜度的增長,由 豐富的物種和噪聲引起的數(shù)據(jù)爆炸)應(yīng)用快速重疊社區(qū)檢測(cè)算法,即標(biāo)簽傳播算法(Lable Propagation Algorithm,LPA)$0
12、0%有效劃分序列片段的圖,并 根據(jù)共享遺傳信息來中斷包含不同物種混合物的劃分SpaRC能夠通過不同的參數(shù)設(shè)置對(duì)長序列片段(long reads)和短序列片段(short reads)進(jìn)行聚類 SpaRC首先計(jì) 算一對(duì)序列片段(reads)之間的共享k-mer數(shù),以近似其重疊 數(shù),然后構(gòu)建無向序列片段(reads)圖,最后進(jìn)行圖分區(qū)以形 成簇具體來說,SpaRC包含5個(gè)模塊,主要是為長序列片段 (LocalClustering)和短序列片段(GlobalClustering)而設(shè)計(jì),分 另0 是:KmerMapReads ( MinimizerMapReads),GraphGen,Gra- ph
13、LPA,GlobalCluster 和 CCAddSeq 其中,KmerMapReads (MinimizerMapReads)把給定的序列片段根據(jù)預(yù)定義的序列 長度將其切分為k-mer,并且每條序列片段僅保留不同的k- mer; GraphGen 根據(jù) KmerMapReads ( MinimizerMapReads) H 成的k-mer來判斷兩個(gè)序列片段之間的k-mer重疊數(shù),并根 據(jù)兩個(gè)序列片段之間重疊的k-mer數(shù)生成圖;GraphLPA對(duì) GraphGen生成的圖進(jìn)行分類;在上述模塊中,序列片段用數(shù) 字ID表示,以節(jié)省內(nèi)存和存儲(chǔ)空間,形成簇后,CCAddSeq將 檢索序列片段并將其格
14、式化,用于下游并行組裝過程; GlobalCluster使用一組短的、可靠的k-mer來估計(jì)每個(gè)簇豐 度,然后計(jì)算簇之間的相似性,并用其來構(gòu)建聚類圖。LocalClustering 主要 包 括 KmerMapReads,GraphGen, GraphLPA,CCAddSeq 4個(gè)模塊,用于長序列片段聚類; GlobalClustering 主要 包 括 MinimizerMapReads,GraphGen, GraphLPA,GlobalCluster 和 CCAddSeq 5 個(gè)模塊,用于短序 列片段聚類2.2超參數(shù)集合SpaRC包含對(duì)聚類結(jié)果以及算法性能影響較大的參數(shù) 表0為SpaRC算
15、法中部分參數(shù)設(shè)置對(duì)聚類指標(biāo)的影響,其 中,LocalCustering采用純度中位數(shù)、完整度中位數(shù)、純度百分 比以及完整度百分比四者的平均值作為最終評(píng)價(jià)指標(biāo); GlobalClustering采用純度中位數(shù)、完整度中位數(shù)二者的平均 值作為最終評(píng)價(jià)指標(biāo)可以發(fā)現(xiàn),#in _krner _count,max 一 shanred _kmers,max _degree,kmercount !數(shù)的設(shè)置對(duì) SpaRC 算法指標(biāo)的影響不大 LocalClustering部分的min _r(ads _ per_cluster參數(shù)和GlobalClustering部分的size參數(shù)由用戶 根據(jù)需要進(jìn)行設(shè)置,以控制
16、形成簇的大小,對(duì)聚類性能并不會(huì) 產(chǎn)生影響表0不同參數(shù)的影響Table 0 Influence oX different parameters參數(shù)取值指標(biāo)568. 77min _kmer_counL0068. 880568. 86max _shanred _kmers500076. 7450000076. 803max degree2576. 755076. 595937. 07kmercounL5038.60300037. 243為了節(jié)省計(jì)算資源,提高優(yōu)化效率,選取k,min_haed_ kmers,max _kmer_count,cosine 4個(gè)參數(shù)進(jìn)行優(yōu)化,其余沒有 優(yōu)化價(jià)值的參數(shù)選擇S
17、paRC官方文檔推薦的默認(rèn)值k可以控制序列片段(reads)重疊的靈敏度和特異性; max_mer_ount能夠控制形成簇的大小,進(jìn)而控制噪聲污 染;min_hared_mers用來判斷兩個(gè)測(cè)序片段之間的相似性; cosne可以根據(jù)兩個(gè)簇之間的相似性來判斷再聚類簇的數(shù) 量通過實(shí)驗(yàn)發(fā)現(xiàn)這些都是對(duì)SpaRC運(yùn)行結(jié)果影響較大的 參數(shù),在一定區(qū)間內(nèi)適當(dāng)調(diào)整這些參數(shù)可以極大地提高 SpaRC的性能這里根據(jù)SpaRC官方文檔推薦的參數(shù)取值范圍對(duì)優(yōu)化模型的參數(shù)取值范圍進(jìn)行設(shè)置!其中以的取值 范圍為(15,50), max _=mer _count 的取值范圍為(1 000, 4000) ,min_share
18、d_kmers 的取值范圍為(2,10) , cosine 的取 值范圍為(0.85,1.00)。其他參數(shù)使用SpaRC官方文檔推薦 參數(shù),如表2和表3所列。表 2 LocalClustering 超參數(shù)集Table 2 LocalClustering hyperparameter set模塊參數(shù)區(qū)間Kmer-MapReadskmin _kmer _counL max _kmer _counL15 50210004000GraphGenmn_shared _kmers max degree21050mn_shared _kmers210GraphLPAmax_shared_kmers20000
19、min_rea,ds_per_clusLer2表 3 GlobalClustering 超參數(shù)集Table 3 GlobalClustering hyperparameter set模塊參數(shù)區(qū)間k41Minimizesm21MapReadsmin _kmer_coun&2max_kmer_coun&200min_shared_kmers2GraphGenmax_degree25min_shared_kmers2GraphLPAmax_shared_kmers20000min_reads_per_clus&er2size100GlobalClusterk _mer _count100cosine
20、0. 85 13超參數(shù)算法實(shí)現(xiàn)3. 1算法實(shí)現(xiàn)流程Hyperopt是一個(gè)用于超參數(shù)優(yōu)化的開源軟件12,其使 用TPE作為代理函數(shù),用于優(yōu)化聚類結(jié)果評(píng)估函數(shù)%13&。Hy- peropt 主要包括 fn, space, algo, max_evals 4 個(gè)參數(shù)。其中, Inl SpaRC算法實(shí)現(xiàn)函數(shù),space定義超參數(shù)集搜索空 間,algo 定義代理函數(shù)模型(Tree Parzen Estimator) , max_ ecals定義SpaRC算法最大迭代次數(shù)。基于TPE的SpaRC 超參數(shù)優(yōu)化模型實(shí)現(xiàn)過程如下:建立目標(biāo)函數(shù)替代概率模型,找到使代理函數(shù)表現(xiàn)最 佳的超參數(shù)。使用TPE建模策略建立
21、目標(biāo)函數(shù)概率替代模 型,用該替代概率模型在搜索空間內(nèi)選擇表現(xiàn)最佳的超參數(shù)。將選擇的超參數(shù)應(yīng)用于SpaRC算法,根據(jù)已知答案評(píng) 價(jià)聚類結(jié)果。將模型搜索到的最佳超參數(shù)應(yīng)用于SpaRC算 法實(shí)現(xiàn),并對(duì)算法實(shí)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià)。$(hg)=(l(x),g(x),if根據(jù)步驟2)中的評(píng)價(jià)結(jié)果更新包含新結(jié)果的代理模 型。通過TPE建模策略轉(zhuǎn)換生成過程來模擬p(xy),用非 參數(shù)密度替換原先配置分布來完成代理模型更新。最后進(jìn)行 如下替換:均勻.截?cái)喔咚够旌?,?duì)數(shù)均勻.指數(shù)截?cái)喔咚够?合,分類.再加權(quán)分類。其中模型的更新替代通過式(1)的密 度函數(shù)來完成。 其中,l(x)是通過(x$(hg)=(l(x), (2)
22、J k 其中,6=(21,22 ,,2=)是簇集合*! = *1 *2 ,是標(biāo)記 基因組(genome)集合。根據(jù)SpaRC算法的參數(shù)特性,LocalCustering采用純度 中位數(shù)、完整度中位數(shù)、純度百分比以及完整度百分比四者的 平均值作為最終評(píng)價(jià)指標(biāo)* GlobalClustering采用純度中位 數(shù)、完整度中位數(shù)二者的平均值作為最終評(píng)價(jià)指標(biāo)。4實(shí)驗(yàn)結(jié)果與分析4. 1 實(shí)驗(yàn)環(huán)境參數(shù)優(yōu)化實(shí)驗(yàn)是在Amazon Web Service(AWS)的Elas- ticMapReduce(EMR , emi-5. 17. 0)上執(zhí)行的。根據(jù)數(shù)據(jù)集的 大小,使用不同數(shù)量的r4.2xlarge實(shí)例來形成
23、一個(gè)集群,詳細(xì) 的配置信息如表4所列。表4 AWS EMR的配置Table 4 Configuration of AWS EMR參數(shù)設(shè)置# of cores/node8Memory/node61Storage/ node140GB SSDEthernet10GbpsSpark version2. 3. 1Hdoop Lerson2. 8. 3Cluster modeYARN# of executors/node3Driver memory/GB40Driver cores5Memory/ executor/ GB16Cores/ executor2HDFS Block Size/MB324.2
24、數(shù)據(jù)集為了測(cè)試參數(shù)的優(yōu)化效果,選取了兩組長序列片段(Ac- tinoMock和transcriptome)和一組短序列片段(CAMI2)來進(jìn) 行實(shí)驗(yàn)!實(shí)驗(yàn)數(shù)據(jù)集如表5所列。表5數(shù)據(jù)集Table 5 Datasets數(shù)據(jù)集測(cè)序片段長度/bp測(cè)序片段數(shù)量數(shù)據(jù)集大小/GBActnoMock50451653898062. 4transcriptome300308161 107 8893. 8CAM/2150 5 283029581254.3實(shí)驗(yàn)結(jié)果LocalClustering 包括 KmerMapReads, GraphGen, Gra- phLPA, CCAddSeq 4個(gè)模塊為了節(jié)約計(jì)算資源和時(shí)
25、間,分 別對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行采樣其中,ActinoMock數(shù)據(jù)集采樣后 約為38 000條序列片段(reads) , transcriptome數(shù)據(jù)集采樣后 約為59 000條序列片段(reads),采樣后的測(cè)序片段數(shù)約;總 測(cè)序片段數(shù)的10%。然后通過超參數(shù)優(yōu)化模型對(duì)采樣后的 數(shù)據(jù)進(jìn)行超參數(shù)選擇,隨著迭代次數(shù)增多,得到的超參數(shù)會(huì)越 來越接近最優(yōu)的超參數(shù)。圖1和圖2為超參數(shù)優(yōu)化模型搜索 過程中目標(biāo)函數(shù)的變化趨勢(shì)。圖1中每個(gè)點(diǎn)的標(biāo)注格式為kmin_shared_kmersmax_ kmer_*ount 為了防止資源浪費(fèi),max_evals參數(shù)設(shè)置為10, 即允許最大迭代次數(shù)為10從圖1(a)可以看
26、出,ActinoMock 數(shù)據(jù)集在第8次迭代時(shí)得到最佳超參數(shù)k為48,min_shaed_ Rmrrs為5 , max _kmrr _count為3 612 ,目 標(biāo)函數(shù)的值為 48.855% %從圖1(b)可以看出,transcriptome數(shù)據(jù)集在第10 次迭代時(shí)得到最佳超參數(shù)k為49 , min shared _kmers為9 , max_mer_ount為1 201,目標(biāo)函數(shù)的值為73. 26 %。然后根 據(jù)得到的超參數(shù)對(duì)SpaRC算法進(jìn)行參數(shù)設(shè)置,并對(duì)原始的數(shù) 據(jù)集進(jìn)行聚類分析。34567891。Number of iterations(a) ActinoMock圖1 LocalCl
27、ustering圖1 LocalClustering目標(biāo)函數(shù)的變化趨勢(shì)Fig. 1 Change trend oX LocalClustering objective function表6、表7列出了優(yōu)化前后原始數(shù)據(jù)集的評(píng)價(jià)指標(biāo)對(duì)比。 可以看出,ActinoMock數(shù)據(jù)集評(píng)價(jià)指標(biāo)由優(yōu)化前的 44. 157 5%提高到46. 995 0% ,transcriptome數(shù)據(jù)集評(píng)價(jià)指標(biāo) 由優(yōu)化前的69. 522 5%提高到71. 025% 。表6 ActinoMock數(shù)據(jù)集Table 6 ActinoMock dataset序號(hào)max;kmer;count評(píng)價(jià)指標(biāo)/%kkmers優(yōu)化前1982081
28、44.1575優(yōu)化后485361246.9950表 7 transcriptome 數(shù)據(jù)集Table 7 transcrptome datasetmin sharedmax;kmer;序號(hào)k評(píng)價(jià)指標(biāo)/%kmerscount優(yōu)化前177228869.5225優(yōu)化后4991 20171.025表8列出了優(yōu)化前后ActinoMock數(shù)據(jù)集和transcrp- tome數(shù)據(jù)集各項(xiàng)指標(biāo)的對(duì)比。Med_代表純度中位數(shù), 100%_0代表純度百分比,Med_C代表完整度中位數(shù), 100%!代表完整度百分比。可以看出,ActinoMock數(shù)據(jù)集 優(yōu)化前后純度百分比和完整度中位數(shù)變化較大,而純度中位 數(shù)和完整度
29、百分比變化較小; transcriptome數(shù)據(jù)集優(yōu)化前后 純度中位數(shù)和純度百分比變化較大,而完整度中位數(shù)和完整 度百分比變化較小。transcriptome數(shù)據(jù)集物種豐富度較高, 通過參數(shù)設(shè)置不容易影響其完整度變化,因此transcriptome數(shù) 據(jù)集優(yōu)化前后完整度中位數(shù)和完整度百分比變化較小。通過 實(shí)驗(yàn)可以發(fā)現(xiàn),超參數(shù)優(yōu)化模型能夠在SpaRC算法對(duì)短序列 片段聚類過程中選擇出最佳的超參數(shù)集,對(duì)SpaRC算法起到 良好的優(yōu)化效果表8 LocalClustering優(yōu)化前后各項(xiàng)指標(biāo)的對(duì)比Table 8 Comparison oX various indicators before and a
30、fter LocalClustering optimization數(shù)據(jù)集序號(hào)Med _P100%;PMed!100%!ActnoMock前100.0074.921.710.00后100.0079.268.720.00transcrptome前68.6616.78100.0092.65后71.4319.88100.0092.79GlobalClustering 包 括 MinimizerMapReads, GraphGen, GraphLPA, GlobalCluster, CCAddSeq 5 個(gè)模塊,其中 Minimi- zerMapReads, GraphGen, GraphLPA, CC
31、AddSeq 4 個(gè)模塊與 LocalClustering 相似。通過實(shí)驗(yàn)發(fā)現(xiàn),LocalClustering 參數(shù) 設(shè)置對(duì)短序列片段(short reads)段并不敏感,因此在Global- Clustering 中涉及到LocalClustering的參數(shù)均按SpaRC官方 文檔提供的默認(rèn)參數(shù)設(shè)置圖2 GlobalClustering目標(biāo)函數(shù)的變化趨勢(shì)Fg.2 Change trend oX GlobalClusterng objectve Xuncton圖2中每個(gè)點(diǎn)的標(biāo)注格式為co+ne。為了防止資源浪 費(fèi),max_als參數(shù)同樣設(shè)置為10,即允許最大迭代次數(shù)為 10圖2給出了超參數(shù)優(yōu)化
32、模型在搜索過程中目標(biāo)函數(shù)的變化趨勢(shì)。可以看出,CRMI2數(shù)據(jù)集在第2次迭代時(shí)得到最佳 超參數(shù)cosine為0. 907,目標(biāo)函數(shù)的值為60. 135% 表9列出了優(yōu)化前后CAMI2數(shù)據(jù)集各項(xiàng)指標(biāo)的對(duì)比 可以看出,CAMI2數(shù)據(jù)集優(yōu)化前后純度中位數(shù)和純度百分比 變化較大,而完整度中位數(shù)和完整度百分比變化較小圖5給出了為優(yōu)化前后純度和完整度的整體分布情況 可以看到,優(yōu)化前后完整度整體分布變化不明顯;優(yōu)化前純度 整體分布在25%左右,優(yōu)化后純度整體分布在75%以上因 此,優(yōu)化前后在完整度整體分布基本不變的情況下,純度整體 分布有了較大提升表9 GlobalClustering優(yōu)化前后各項(xiàng)指標(biāo)的對(duì)比T
33、able 9 Comparison oX various indicators beXore and aXter GlobalClustering optimization數(shù)據(jù)集序號(hào)Med _P100%PMed_C100%_CCAZII2前后30. 5198. 907.3031.2522.1221.370.000.13圖3給出了 CAMI2數(shù)據(jù)集優(yōu)化前后純度在90%以上, 完整度在20%90%區(qū)間內(nèi)基因組(genome)的數(shù)量變化趨 勢(shì)可以看出,優(yōu)化前后完整度達(dá)到50%,70%,90%的基因 組(genome)數(shù)量沒有變化,但是優(yōu)化后完整度達(dá)到20%的基 因組(genome)數(shù)量多于優(yōu)化前-2
34、0comple-860 -20comple-860 comple-907 purity-S60 purity-907Parameter圖5優(yōu)化前后純度和完整度整體分布Fi g. 5 Overall d i stri buti on oX puri ty and i ntegri ty beXore andaXter opt mzaton0860cosine圖3 genome的數(shù)量0860cosine圖3 genome的數(shù)量變化趨勢(shì)Fig. 3 Change trend oX number oX genomes圖4給出了優(yōu)化前后純度在90%以上的基因組(genome) 覆蓋度與完整度的分布情況生
35、物學(xué)上一般認(rèn)為覆蓋 度在10*以上,基因組測(cè)序錯(cuò)誤率才能夠得以保證,因此僅考 慮覆蓋度在10 x以上的基因組從圖4可以看出,覆蓋度在 20 x以下和40化100化區(qū)間內(nèi)時(shí),優(yōu)化前后完整度的中位數(shù) 變化不大;覆蓋度在20 x40 x區(qū)間內(nèi)時(shí),優(yōu)化前完整度的中 位數(shù)在40%以下,優(yōu)化后完整度中位數(shù)在50%以上,優(yōu)化后 完整度明顯優(yōu)于優(yōu)化前。102040100200800(a)Coverage-0. 860( b) Coverage-0.907圖4優(yōu)化前后覆蓋度與完整度分布Fg.4 Coverage and completeness dstrbuton beXore and aXter opt mzaton圖6給出了優(yōu)化前后各個(gè)數(shù)據(jù)集的指標(biāo)變化情況從圖 6可以更加直觀地看到,基于TPE策略的SpaRC超參數(shù)優(yōu)化 模型對(duì)于SpaRC算法參數(shù)起到良好的優(yōu)化效果,GlobalClustering 優(yōu)化效果明顯優(yōu)于LocalClustering其中,LocalCl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)田水利工程規(guī)劃指南
- 蔬菜干項(xiàng)目可行性研究報(bào)告
- 制造業(yè)工業(yè)40智能制造與自動(dòng)化升級(jí)方案
- 五項(xiàng)管理內(nèi)容
- 圖書館網(wǎng)絡(luò)安全評(píng)估手冊(cè)
- 三農(nóng)村電商平臺(tái)搭建方案
- 綠化工程文明施工方案1
- 航天行業(yè)航天器設(shè)計(jì)與制造方案
- 減水劑項(xiàng)目可行性研究報(bào)告
- 項(xiàng)目辦公室設(shè)施使用統(tǒng)計(jì)表
- 2025年宜春職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫新版
- 2025農(nóng)業(yè)部在京單位招聘應(yīng)屆高校畢業(yè)生等人員122人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- DB44∕T 1315-2014 物業(yè)服務(wù) 檔案管理規(guī)范
- 春運(yùn)旅客心理狀況的調(diào)查分析與對(duì)策研究
- T∕CAWA 002-2021 中國疼痛科專業(yè)團(tuán)體標(biāo)準(zhǔn)
- 雙重預(yù)防體系建設(shè)分析記錄表格
- 手機(jī)保護(hù)膜鋼化璃玻膜檢驗(yàn)標(biāo)準(zhǔn)(版)
- 混凝土面板堆石壩施工技術(shù)第五講
- 論中小學(xué)管弦樂隊(duì)的組織與訓(xùn)練
- 煉鋼工藝操作說明
- 模擬電子技術(shù)基礎(chǔ)課后答案(完整版)
評(píng)論
0/150
提交評(píng)論