




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第1章基于統(tǒng)計學(xué)習(xí)的性能預(yù)測方式概述隨著云計算、數(shù)據(jù)中心的建設(shè),復(fù)雜散布式多層架構(gòu)的性能預(yù)測問題,取得了眾多研究機構(gòu)的關(guān)注。Elba2是佐治亞理工學(xué)院和惠普實驗室合作的一個項目,它通過監(jiān)視系統(tǒng)當(dāng)前狀態(tài),一旦發(fā)覺瓶頸便自動對系統(tǒng)進(jìn)行調(diào)優(yōu)。而咱們的方式是利用系統(tǒng)正常情形下的性能來預(yù)測該系統(tǒng)所能經(jīng)受的最大負(fù)載,一旦發(fā)覺系統(tǒng)無法知足某一特定負(fù)載便建議調(diào)劑相應(yīng)的軟件配置或增加相應(yīng)的硬件設(shè)備。與34中的預(yù)測模型相較,本方式還有一個顯著的特點:即能夠通過比較不同次冪的線性擬合曲線來選擇最正確回歸方程。本章要緊研究散布式多層架構(gòu)的性能預(yù)測方式,基于當(dāng)前系統(tǒng)環(huán)境下搜集到的性能指標(biāo)參數(shù),采納統(tǒng)計學(xué)習(xí)的方式來有效準(zhǔn)
2、確地預(yù)測系統(tǒng)在不同負(fù)載壓力下的性能。統(tǒng)計學(xué)習(xí)在很多運算機科學(xué)領(lǐng)域中扮演著重要角色,論文利用統(tǒng)計學(xué)習(xí)中的線性回歸方式作為要緊的預(yù)測方式是由于它的簡單性和有效性。本預(yù)測方式要緊有三個優(yōu)勢:一,高精準(zhǔn)度。通過大量實驗咱們發(fā)覺至少80%的驗證數(shù)據(jù)的相對誤差在20%之內(nèi)。二,有效性。與其它預(yù)測模型相較,本模型對訓(xùn)練數(shù)據(jù)量的大小并非靈敏。換句話說,只需要少量的訓(xùn)練數(shù)據(jù)就能夠夠達(dá)到較高的精準(zhǔn)度。三,通用性。本預(yù)測模型不單單能夠應(yīng)用于實驗研究,還能夠應(yīng)用于許多真實的IT系統(tǒng)和產(chǎn)品。本章的剩余部份組織如下:節(jié)描述基于統(tǒng)計學(xué)習(xí)的大規(guī)模復(fù)雜系統(tǒng)瓶頸檢測方式;節(jié)對節(jié)提出的瓶頸檢測方式進(jìn)行實驗評估;節(jié)分析預(yù)測模型精度的
3、靈敏度;節(jié)對本章進(jìn)行小結(jié)。性能預(yù)測方式描述在本節(jié)中,咱們提出了一種基于統(tǒng)計學(xué)習(xí)線性回歸的預(yù)測方式,該方式能夠準(zhǔn)確、簡單、有效地預(yù)測大規(guī)模散布式復(fù)雜系統(tǒng)的性能。對實驗的輸入輸出做了明肯概念;第一簡要介紹移動均值法和中值法,然后重點介紹統(tǒng)計學(xué)習(xí)中的回歸預(yù)測法。問題概念在描述咱們的預(yù)測方式之前,需要先作一些說明:訓(xùn)練集數(shù)據(jù)用于擬合回歸模型,驗證集數(shù)據(jù)用于評估模型的準(zhǔn)確性。但是,模型的準(zhǔn)確性并非依托于訓(xùn)練集數(shù)據(jù)的大小,這將會在。2)需要記錄大量的性能指標(biāo)數(shù)據(jù)作為訓(xùn)練集合驗證集,因此,一個用于自動化搜集和治理性能數(shù)據(jù)的工具顯得尤其重要。3)需要做大量的實驗來驗證模型的準(zhǔn)確性,而且每次實驗咱們都需要增大負(fù)
4、載壓力。4)理論上,回歸方程的次冪能夠為任意的正整數(shù),但在本模型中,它的最大次冪為5,因為利用太高次冪的回歸方程會增加模型的復(fù)雜度,從而降低模型的有效性。表4-1概述了本實驗的輸入和輸出。輸入分為兩部份,別離是集群大小和負(fù)載壓力;輸出為應(yīng)用效勞器的性能指標(biāo)數(shù)據(jù),包括系統(tǒng)級數(shù)據(jù)(CPU內(nèi)存和網(wǎng)絡(luò)帶寬的利用率)和應(yīng)用級數(shù)據(jù)(SIPS和效勞挪用成功率)。在本模型中,數(shù)據(jù)可分為兩部份:一部份稱為訓(xùn)練集數(shù)據(jù),是用以擬合回歸曲線并求回歸方程參數(shù);另一部份稱為驗證集數(shù)據(jù),是用以求相對誤差并評估模型的精準(zhǔn)度。對模型精準(zhǔn)度的評估需要做許多次不同負(fù)載壓力的實驗,因此,在實驗中需要不斷加大模擬業(yè)務(wù)客戶端(EBs)的
5、并發(fā)數(shù),并以固按時刻距離(一樣為1s)來記錄應(yīng)用效勞器中的性能指標(biāo)。表1-1性能預(yù)測實驗的輸入與輸出輸入集群大小(從1至9,每次增加1)負(fù)裁壓力(EBs)(從10至1000,每次增加10)輸出系統(tǒng)級數(shù)據(jù)CPlff均使用率內(nèi)存平均使用率網(wǎng)絡(luò)帶寬平均使用率應(yīng)用級數(shù)據(jù)SIPS(每秒WebK務(wù)交互數(shù))Web務(wù)調(diào)用成功率1.2.2回歸預(yù)測算法回歸分析是處置變量間的相關(guān)關(guān)系的一種有效工具。它不僅能夠提供變量問相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式(通常稱為體會公式),而且利用概率統(tǒng)計知識,對體會公式及有關(guān)問題進(jìn)行分析、判定,以確信體會公式的有效性.并利用所得公式.由一個或幾個變量的值去預(yù)測或操縱另一個變量的取值.同時還能夠
6、明白這種預(yù)測和操縱達(dá)到的精準(zhǔn)度在本方式中咱們利用如下符號:1是每次實驗中記錄的數(shù)據(jù)數(shù);%是第i個記錄點性能指標(biāo)數(shù)據(jù),1i1;丫是性能指標(biāo)實際平均值;丫是性能指標(biāo)平均值的預(yù)測量;x是并發(fā)數(shù)(EBs),即客戶端負(fù)載的大小;k是線性回歸方程的次幕;m,m1m2別離是觀測集、訓(xùn)練集和驗證集的數(shù)據(jù)個數(shù),其中mm1m2。因為需要記錄大量的性能指標(biāo)數(shù)據(jù)作為訓(xùn)練集和驗證集,因此一個用于自動化搜集和治理性能數(shù)據(jù)的工具顯得尤其重要。在本實驗中,咱們利用nmon5工具來搜集每一個記錄點的性能指標(biāo)。性能指標(biāo)的平均利用率可計算如下:i(4.1)以EBs的大小X作為回歸方程的輸入向量,輸出即為該性能指標(biāo)的預(yù)測量。線性回歸
7、方程如下:(4.2)C0p kk 1(Cj ,kxjC j,k 1xjj 1CjM)方程(4.2)中的k即代表線性回歸方程的次幕,它能夠是從1到5的正整數(shù),咱們將在中分析比較這5種不同取值對預(yù)測模型精準(zhǔn)度的阻礙5 和 G,k(i j p)是回歸方程的系數(shù),咱們采納非負(fù)的最小二乘回歸(Non-negative LSQ)方式來求出C0和Cj,k(1 j p) o假設(shè)nmon總共記錄了 m個觀測數(shù)據(jù),咱們從當(dāng)選取必然比例的mi個數(shù)據(jù)作為訓(xùn)練集,那么最小二乘回歸方式最小化殘差平方:miRsqC)(Y Y)i 1(4.3)訓(xùn)練集數(shù)據(jù)與驗證集數(shù)據(jù)的比例對模型的精準(zhǔn)度有必然的阻礙,但阻礙不大,這點咱們將在中
8、詳細(xì)論述。1.2.3精度測量關(guān)于每一性能指標(biāo)(如 CPU ,其實際的平均利用率 Y能夠利用公式(4.1)計算,其預(yù)測量能夠利用公式(4.2)計算。有了這兩部份數(shù)據(jù)以后,咱們即可利用相對誤差來評估預(yù)測模型的精準(zhǔn)度。其相對誤差計算公式如下:|Y Y |Er | 100%Y(4.4)1.3性能預(yù)測的實驗評估上一節(jié)介紹了三種性能預(yù)測方式,本節(jié)咱們將采納第三種方式(即回歸預(yù)測法)別離對cp眺口網(wǎng)絡(luò)帶寬利用率進(jìn)行預(yù)測。在本次實驗評估中,線性回歸方程的次幕(即方程2中k的值)由1慢慢轉(zhuǎn)變到5;訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)的個數(shù)之比固定為2:1。對單結(jié)點系統(tǒng)資源的預(yù)測圖4-1(a)(e)別離顯示了在單結(jié)點的情形下,CP
9、UPJ用率的線性回歸擬合曲線(k=15),圖1(f)顯示了在各類不同k值情形下取得的預(yù)測結(jié)果相對誤差CDF圖。從圖中能夠看出,除k=1的情形外,其它k值的線性回歸擬合曲線都較好地符合實際轉(zhuǎn)變情形,但并非是k值越高,預(yù)測的誤差越小,模型精準(zhǔn)度越高。從多次實驗結(jié)果觀看,發(fā)覺k大于等于2時,誤差都在可同意的范圍內(nèi),且?guī)缀醵季哂邢嗤木珳?zhǔn)度(見圖4-1)。-liiMiar nagrc-EEiB-n cum+ Ifiinr |0“MlTD JCD an HE TED BED am icon ESj(a) k=1(b) k=2口 口 口 D o o o 00D -9 -fl Ta G J- 3liroar
10、 Egiamn c una+ Irjiung UMaJO。三總號EO(c) k=3(d) k=4(e) k=5預(yù)測相對誤差CDF圖一字-一 事=#-rl I-ICL.I圖1-1單結(jié)點CPlJ用率的線性回歸擬合曲線圖4-2(a)(e)別離顯示了在單結(jié)點的情形下,網(wǎng)絡(luò)帶寬利用率的線性回歸擬合曲線(k=15),圖4-2(f)顯示了在各類不同k值情形下取得的預(yù)測結(jié)果相對誤差CDF0。從圖中能句看出,隨著k值的不斷增大,對網(wǎng)絡(luò)帶寬利用率預(yù)測的相對誤差會不斷減少,當(dāng)k=5時,95%僉證數(shù)據(jù)的相對誤差在10%Z下,已達(dá)到超級高的預(yù)測精度。-itnssistationcuni*廿前任叩$*對聞詞利好楣1、an
11、Tnanminn(b)k=2+bviiaagdin聞imjm如irn-史Ds皿加1nr.口iTI55iM-5352寫15d-32I;%zm(c)k=3(d)k=5IhernBQIB&SCnCUTS+Irinng占口gidimrin4lfl(e)k=3預(yù)測相對誤差CDF圖圖1-2單結(jié)點網(wǎng)絡(luò)帶寬利用率的線性回歸擬合曲線對散布式系統(tǒng)資源的預(yù)測圖4-3(a)(e)別離顯示了在集群的情形下,CPU用率的線性回歸擬合曲線(k=15),圖4-3顯示了在各類不同k值情形下取得的預(yù)測結(jié)果相對誤差CDH和單結(jié)點情形類似,預(yù)測精度也是隨著線性回歸方程次幕(即k值)的增大而增大。linear n 珂口me-IrBiA
12、inig dais0 v3lidBtiTi del aO Elll 80 IUD助(b) k=2(a) k=1一 Mi#曼的aw 中 mjnirig片己中串111dLI黜I.TO Em TODDDDDODDDO BwrB7fesJ3 (一工品多203030SO即JD10relative error (%)iicITa(u(e) k=5預(yù)測相對誤差CDF圖我一a-T一津i 1-二LJJ圖1-3散布式CPlJ用率的線性回歸擬合曲線圖4-4(a)(e)別離顯示了在集群的情形下,網(wǎng)絡(luò)帶寬利用率的線性回歸擬合曲線(k=15),圖4-4(f)顯示了在各類不同k值情形下取得的預(yù)測結(jié)果相對誤差CDF圖。從圖中
13、能夠看出,網(wǎng)絡(luò)帶寬利用率的轉(zhuǎn)變在集群情形下專門不穩(wěn)固,當(dāng)k3時,預(yù)測精度愈來愈高。這說明關(guān)于轉(zhuǎn)變規(guī)律不是很強的系統(tǒng)性能參數(shù),k值不能取過小,不然會容易造成預(yù)測精度太低的問題。(1*十hmin叫型m閶Idl割data(a) k=1(b) k=2I TV Y期事州時也川IHaUnn dm岫M用討時削M CUMMi J r(c) k=3 irsy師承朋IM cuvtT kferng ttlsrilriiliiih dAl1DD ZE 3X Jffi Rd 83Q ?W BED 50 100C E0S怔M厘觀msr,3ift ig Ma,創(chuàng)dLWjqr da: (e) k=5(f)預(yù)測相對誤差CDIS
14、(e) k=4圖1-4散布式網(wǎng)絡(luò)帶寬利用率的線性回歸擬合曲線從圖4-3和圖4-4能夠看出,對集群的性能預(yù)測的精度比單結(jié)點低,這主若是由于負(fù)載均衡器無法做到絕對地平均分發(fā)請求。因此,在對集群進(jìn)行性能預(yù)測時,線性回歸方程次幕(即k值)要適本地調(diào)高。對系統(tǒng)最大負(fù)載壓力的預(yù)測圖4-5別離顯示了在應(yīng)用效勞器結(jié)點數(shù)為1、5、9的情形下,三種典型的系統(tǒng)級指標(biāo)(CPU內(nèi)存和網(wǎng)絡(luò)帶寬利用率)及SL時意度的轉(zhuǎn)變曲線。依照第三章提出的瓶頸探測理論,致使系統(tǒng)瓶頸的資源具有以下三個要緊特點:1.高利用率,利用率必需超過85%2.隨著客戶端負(fù)載壓力的慢慢增大,利用率也隨之增加;3.在該資源高利用率的情形下,SL時意度明顯
15、減少。從圖5中咱們能夠看到CPU的利用率超出了85期限,它隨著EBSI勺增大而不斷增大且當(dāng)CPU過85%寸,SLO急劇下降。因此,在該應(yīng)用系統(tǒng)中CP戚以為最有可能致使系統(tǒng)瓶頸。5。%B。飛70%儲電。羯優(yōu)5Q疇隼40%三。咚2嗚1。羽D戀CPU內(nèi)存阿絡(luò)帶寬 滿意度100%(a)應(yīng)用效勞器個數(shù)為1巴。由so70%為由20=-:10?鐘后晚國5取00000000000Gooinoi/i 050so5 0s os QT ENEmpTT 55 gq g EBs(b)應(yīng)用效勞器個數(shù)為5130%30%10應(yīng)用效勞器個數(shù)為9(c)內(nèi)存網(wǎng)絡(luò)帶寬5 .。滿意度二7Q%爵5。明國50% 膽.|二二,:53S20%
16、OOOoinoIC9、圖1-5系統(tǒng)性能指標(biāo)(CPU內(nèi)存和網(wǎng)絡(luò)帶寬)與 SLO中意度轉(zhuǎn)變趨勢圖然后咱們利用系統(tǒng)正常情形下CPU勺利用率作為訓(xùn)練集數(shù)據(jù)來預(yù)測該系統(tǒng)能經(jīng)受的最大并發(fā)數(shù)EBs圖4-6別離顯示了在應(yīng)用效勞器結(jié)點數(shù)為1、5、9的情形下模擬的線性回歸擬合曲線。咱們從圖4-6中能夠預(yù)測出在應(yīng)用效勞器結(jié)點數(shù)為1、5、9的情形下,最大的并發(fā)數(shù)別離為210,390,460(即CPU用率超過85%勺臨250、450、500 (當(dāng)界點),而圖4-5顯示了實際情形下它們的最大并發(fā)數(shù)別離為SL時意度小于50%寸)。于是它們的相對誤不同離為16%,13.3%和8%,者B在可同意的范圍內(nèi)。通過量次實驗,咱們發(fā)覺
17、一個規(guī)律:大部份預(yù)測的結(jié)果比實際并發(fā)數(shù)小。這是因為隨著并發(fā)數(shù)的增加,CPU勺增加量會變得愈來愈小,而擬合曲線無法很精準(zhǔn)地反映這一規(guī)律。IDOEBsic(a)應(yīng)用效勞器個數(shù)為100島Ba7OBC34030而ID(強二烹梆店so(b)應(yīng)用效勞器個數(shù)為5g908m叩再40302010。套I幃及區(qū)目圖1-6CPU利用率轉(zhuǎn)變預(yù)測趨勢圖1.4預(yù)測模型靈敏度分析在本末節(jié)中,為了評估模型對線性回歸方程次幕的靈敏度,咱們慢慢把方程(2)中k的值從1調(diào)到5;為了評估模型對應(yīng)用效勞器個數(shù)的靈敏度,咱們把應(yīng)用程序別離部署在應(yīng)用效勞器個數(shù)為1、5、9的系統(tǒng)中。圖4-7和圖4-8別離顯示了CPU和網(wǎng)絡(luò)帶寬的相對誤差CDH
18、,實驗結(jié)果總結(jié)如下:1)總的來講,統(tǒng)計回歸方式具有很高的精度。超過50%勺CPU僉證數(shù)據(jù)和接近40%絡(luò)帶寬驗證數(shù)據(jù)的相對誤差低于10%且至少90%勺CPU僉證數(shù)據(jù)和大約80%絡(luò)帶寬驗證數(shù)據(jù)的相對誤差少于20%對CPU勺預(yù)測比網(wǎng)絡(luò)帶寬更準(zhǔn)確是因為CPU勺轉(zhuǎn)變更有規(guī)律。2)關(guān)于CP廉講,除k=1的情形外,其它k值幾乎具有相同的精準(zhǔn)度(見圖7),但是,關(guān)于網(wǎng)絡(luò)帶寬的預(yù)測,k值越大精度越高(見圖8)。這是因為隨著負(fù)載壓力的慢慢增大,CPUF均利用率老是在增加,而網(wǎng)絡(luò)帶寬先增加后減少。這說明高次幕的線性回歸方程更適用于不規(guī)那么轉(zhuǎn)變的性能的預(yù)測。3)又t1臺應(yīng)用效勞器的預(yù)測精度要高于對5、9臺應(yīng)用效勞器的預(yù)測。這是因為盡管咱們期望通過負(fù)載均衡器能夠把請求平均分發(fā)給每臺應(yīng)用效勞器,但無法保證絕對平均,因為在分發(fā)請求前無法準(zhǔn)確獲知該請求需要處置的時刻。二(a)應(yīng)用效勞器個數(shù)為1OB1j111DEIQ15JOSXICElTOf-C%:(a)應(yīng)用效勞器個數(shù)為1圖1-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 28 面團(tuán)長大了(教學(xué)設(shè)計)-三年級科學(xué)上冊青島版(五四制)
- 寧夏民族職業(yè)技術(shù)學(xué)院《德育論》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江農(nóng)業(yè)商貿(mào)職業(yè)學(xué)院《Oracle數(shù)據(jù)庫應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 青島飛洋職業(yè)技術(shù)學(xué)院《運動(二)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國石油大學(xué)(北京)《文化人類學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 益陽職業(yè)技術(shù)學(xué)院《數(shù)字多媒體作品創(chuàng)作》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東潮州衛(wèi)生健康職業(yè)學(xué)院《土地測量學(xué)實驗》2023-2024學(xué)年第二學(xué)期期末試卷
- 集寧師范學(xué)院《數(shù)控加工工藝及編程》2023-2024學(xué)年第二學(xué)期期末試卷
- 泰州2024年江蘇泰州靖江市公安局補錄招聘警務(wù)輔助人員18人筆試歷年參考題庫附帶答案詳解
- 煙臺工程職業(yè)技術(shù)學(xué)院《財務(wù)共享理論與實務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年廣東省《輔警招聘考試必刷500題》考試題庫含答案
- 國家科技安全教學(xué)課件
- DB3301T 1088-2018 杭州龍井茶栽培技術(shù)規(guī)范
- 2010浙G22 先張法預(yù)應(yīng)力混凝土管樁
- 安徽省部分省示范中學(xué)2025屆高三第一次模擬考試英語試卷含解析
- 工程機械租賃服務(wù)方案及保障措施 (二)
- 國網(wǎng)基建安全管理課件
- 部編版初中語文7-9年級教材必背古詩詞、古文99篇詳細(xì)解析及欣賞
- DB36T 1393-2021 生產(chǎn)安全風(fēng)險分級管控體系建設(shè)通則
- 檔案三合一制度培訓(xùn)
- Unit 1 I go to school by bus. Period 4(說課稿)-2023-2024學(xué)年教科版(廣州)英語二年級下冊
評論
0/150
提交評論