SDS與超融合平臺性能評估分析_第1頁
SDS與超融合平臺性能評估分析_第2頁
SDS與超融合平臺性能評估分析_第3頁
SDS與超融合平臺性能評估分析_第4頁
SDS與超融合平臺性能評估分析_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 SDS/超融合平臺性能評估分析企業(yè)存儲系統(tǒng)IOPS的測試報告,數(shù)值除了最右邊的SDS(軟件定義存儲)/超融合,SDS/超融合一項選擇了其它測試方法獲得的混合讀寫IOPS。簡單來說,早期磁盤陣列IOPS受限于HDD機械硬盤的平均訪問時間,到了SSD時代介質(zhì)的瓶頸相對容易解決。我給出的參考值不能充分代表所有廠商,也并不是每家廠商都積極參與SPC-1這樣的軍備競賽,因為性能不是存儲的全部。比如同樣是全閃存高端多控陣列(AFA),有的可能只是在4K讀IOPS達到200萬,而這并不能簡單評價為“性能差”,因為它同時還打開了重復(fù)數(shù)據(jù)刪除和壓縮等數(shù)據(jù)服務(wù)。在初創(chuàng)的All-Flash Array廠商中,有些

2、已經(jīng)是分布式控制器的架構(gòu)。隨著多副本和糾刪碼技術(shù)的流行,人們也慢慢開始不再對FC、iSCSI這些標準協(xié)議情有獨鐘。未來的NVMe over Fabric如果還是只限于Initiator-Target一對一,那么專用客戶端和一些非標準塊存儲協(xié)議就有存在的價值。如今,我們看到在一些使用標準服務(wù)器硬件的軟件定義存儲,其每節(jié)點貢獻的性能已經(jīng)開始不遜于專門優(yōu)化的閃存陣列控制器,并且具有更好彈性的和擴展性。有了這些再加上逐漸的成熟,越來越多的傳統(tǒng)存儲用戶開始青睞SDS和超融合(HCI)。下面開始介紹本次測試的內(nèi)容,大體上分為前后兩部分,包括隨機IOPS、順序帶寬這些基準測試結(jié)果,以及模擬SQL Serve

3、r OLTP的表現(xiàn)。第一部分:IOPS、帶寬和SSD性能的發(fā)揮從IOPS測試看分布式存儲軟件的效率注:上表中的延時都是在虛擬機中直接收集的(如無特別說明,以下同),相當(dāng)于用戶/應(yīng)用最實際的感受。我們部署了一個4節(jié)點SDS/超融合集群,每節(jié)點上除了系統(tǒng)盤之外,有7塊SATA SSD參與組建分布式存儲,并采用最常見的3副本配置。每臺物理機上使用20個虛擬機(共80 VM)進行測試。我們測出的4節(jié)點4KB隨機讀最大性能為1,587,480 IOPS,平均每節(jié)點接近40萬IOPS,此時的平均延時為3.23ms??偣?8個SSD平均貢獻56,595IOPS,這里使用的Intel SSD S3610官方標

4、稱4KB隨機讀IOPS為84,000,分布式存儲軟件的效率還不錯吧?如果要看低延時IOPS,在0.36ms的IOPS為864,843,平均每節(jié)點也超過了20萬。我們雖然沒有使用NVMe SSD,但可以給大家看一個之前的測試參考在 HYPERLINK /s?_biz=MzAwODExNjI3NA=&mid=2649776057&idx=1&sn=63365f7b74ce2a510157982e9387f0fa&chksm=83773ee4b400b7f2ea56810d05cd6f4ce1801e788dd40085dd19a95208f1586689e7cb18df5f&scene=21 l

5、wechat_redirect Intel Optane P4800X評測(3):Windows綁核優(yōu)化篇中Intel P3700在128隊列深度下達到46萬IOPS的峰值,對應(yīng)的延時為226s。初步預(yù)計換成NVMe SSD將有更好的表現(xiàn)(CPU等配置可能也需要升級)。上圖為在2節(jié)點上進行4K隨機讀測試的最高性能,每節(jié)點貢獻44萬IOPS反映出了SDS/超融合的線性擴展能力和本地讀優(yōu)化(后面我還會細談這個主題)。另外此時從物理機OS看到的存儲讀延時只有0.28ms,可見虛擬機中的延時很大一部分是由于隊列,高I/O壓力對VM內(nèi)CPU有明顯的開銷。這時讀者朋友可能會問,你們測試的是哪家SDS?先別

6、著急,再看看隨機寫的表現(xiàn)。如上圖,在每個虛擬機設(shè)置QD=32時測出的433,620 4K隨機寫IOPS已經(jīng)接近4節(jié)點集群的峰值。按照這時的數(shù)字來計算,落到每個SSD上的IOPS就達到了15,486 x 3=46459(因為是3副本),已經(jīng)超過了IntelSSD S3610官方標稱的27,000穩(wěn)態(tài)隨機寫IOPS?上面是我們在開始測試時SSD簡單摸底的成績Intel SATA 1.6TB的54,491 4KB隨機寫并未達到穩(wěn)態(tài)。對這一點我們并不是太在意,因為本次測試考察的是SDS存儲軟件的效率,SSD寫表現(xiàn)快一點不是壞事吧:)同理,由于企業(yè)級SSD是有帶掉電保護的寫緩存,所以在較低隊列深度下SD

7、S/超融合集群也能有較好的表現(xiàn)330,264 100%隨機寫對應(yīng)的延時只有0.48ms。如果在物理節(jié)點上看,寫延時也降低了不少。大家都知道直接在物理節(jié)點中測試SDS效果更好,但由于本文評估的是虛擬化&超融合環(huán)境,所以仍然以應(yīng)用感知的VM內(nèi)延時結(jié)果為準。再談副本數(shù)量與可靠性有的朋友可能記得我寫過一篇 HYPERLINK /s?_biz=MzAwODExNjI3NA=&mid=2649775625&idx=1&sn=68f37f3410e64ff2d610876b1b9d1627&chksm=83773f54b400b642e24a6678c51a24bab0692a06d550751875286

8、8bfe1a199fb200752e84fe3&scene=21 l wechat_redirect 為什么ScaleIO和VSAN不要求三副本?,其中提到VSAN“不打散”所以雙副本可用,而ScaleIO通過保護域和故障集的配合、以及重構(gòu)速度來保障2副本可靠性。也就是說雙副本的應(yīng)用不是完全沒有限制的,包括Ceph在內(nèi)的更多強一致性分布式存儲軟件,大多建議生產(chǎn)環(huán)境使用三副本。我在這里想說的一點就是,在POC等性能測試中,對于建議三副本的SDS產(chǎn)品使用雙副本測試固然能看到更好的數(shù)字,但實際使用又是另一種情況。對于宣稱良好支持雙副本的分布式存儲,也要像我上面提到的2款那樣有相應(yīng)的理論設(shè)計基礎(chǔ)到充分

9、的測試和實踐驗證。畢竟對于企業(yè)存儲產(chǎn)品來說,數(shù)據(jù)可靠性重于一切,如果不能保證穩(wěn)定跑再快也沒用。微軟S2D測試環(huán)境:100Gb/s RoCE網(wǎng)絡(luò)成亮點每節(jié)點2顆E5-2640 v4 10核CPU只能算是Intel XeonE5系列中的主流配置,不屬于“跑分很漂亮”但更接近大多數(shù)用戶的環(huán)境。微軟SOFS(Windows Server 2012 Storage Spaces)的測試及相關(guān)項目實踐。關(guān)于RDMA網(wǎng)絡(luò)對分布式存儲性能的影響,我們先稍后再談。除了2節(jié)點集群,微軟建議S2D用戶配置3副本(另有部分用途適合糾刪碼)。我們測出4節(jié)點S2D集群的順序讀帶寬為10951MB/s,平均每個SSD達到3

10、91MB/s,對比下前面列出的裸盤性能效率也不低了。至于2626MB/s的順序?qū)懀紤]到3副本的開銷,平均每節(jié)點的底層SSD總寫入量依然達到了1969MB/s。第二部分、SQL Server數(shù)據(jù)庫OLTP模擬I/O測試在下面的測試中,我們選擇繼續(xù)使用DiskSpd + VM Fleet產(chǎn)生存儲壓力。其中DiskSpd是微軟提供的一個類似fio和Iometer的工具,而VM Fleet則是配合DiskSpd使用的一套腳本,便于同時使用多個虛擬機進行測試。在后續(xù)的文章中我們也會用到其它工具,而總的原則如下:1、盡量避免因存儲之外的配置造成測試瓶頸;2、通用性強,易于對比。雖然我們在本文中不做橫向比

11、較,但測試過程和結(jié)果方便復(fù)現(xiàn),能夠為用戶和技術(shù)同行提供參考價值。我們也考慮過在數(shù)據(jù)庫中模擬交易/查詢的測試方法,但其結(jié)果受多方面因素影響,包括:執(zhí)行的SQL復(fù)雜(優(yōu)化)程度、CPU性能、讀寫比例、內(nèi)存命中率等等。想要跑出好看的TPS(TPM)/QPS,許多時候瓶頸會出在CPU核心數(shù)x主頻而不是存儲上,而用戶的業(yè)務(wù)模型又是千差萬別的。所以最終還是決定用微軟官方建議的SQL Server存儲性能評估方法。上圖截自UsingDiskspdforSQLServer文檔中的范例,在聽取幾位朋友的意見之后,我們覺得40%的寫入比例相對于各種OLTP用戶平均的情況還是偏高了,因此選擇了更有代表性的8KB 7

12、0%隨機讀/30%隨機寫。對于實際應(yīng)用來說,SQL Server數(shù)據(jù)庫虛機機在每臺物理服務(wù)器上的部署數(shù)量往往不會很多,但每個VM內(nèi)的IO并發(fā)/隊列深度卻可能比較大,最終給存儲帶來的壓力應(yīng)該是同等效果。根據(jù)上面圖表,在每臺物理機80 QD時達到48萬讀寫混合IOPS,延時為0.66ms;當(dāng)每臺物理機總QD達到640測出接近最高的62萬IOPS(平均每節(jié)點超過15萬),對應(yīng)的延時在5ms以內(nèi)。以上都是4個節(jié)點上的虛擬機同時壓測。如果數(shù)據(jù)庫只是運行在單個虛擬機,或者是1-2個物理機上,底層存儲仍然由4節(jié)點Windows Server 2016超融合集群提供,這時又會是什么樣的性能表現(xiàn)呢?單VM即可發(fā)

13、揮一半性能:“另類”S2D擴展性驗證由于這里想壓測出單個虛擬機在S2D上的最大性能,“1 VM”用的計算尺寸比較大,是16 Core、56GB內(nèi)存,相當(dāng)于Azure上的D5V2配置。而其它測試每臺物理機上20個VM用的是A2實例2 Core、3.5GB內(nèi)存。注:S2D其實也是源自Azure公有云中的存儲技術(shù)。對于1個虛擬機中的165,405 8KB混合讀寫IOPS結(jié)果,我們比較滿意。采用不同節(jié)點數(shù)量對S2D集群(仍為3副本)加壓,2節(jié)點混合讀寫IOPS大約是單節(jié)點的1.5倍,4節(jié)點大約是單節(jié)點2倍。上面的標題為什么稱“另類”擴展性驗證呢?因為人們普遍用整個集群、大量虛擬機來壓測超融合的存儲,而

14、往往容易忽略單一負載的效率表現(xiàn)?我除了想驗證這一點,還有服務(wù)器計算資源對性能發(fā)揮的影響(前提是網(wǎng)絡(luò)在測試環(huán)境中不是瓶頸)。不得不承認,3x-4x萬IOPS在VM內(nèi)(客戶端)加上SDS分布式存儲軟件本身的開銷,對于2顆主頻一般的10核CPU已經(jīng)夠忙活了:)換句話說,如果改用更好的CPU和NVMe SSD,就應(yīng)該能達到下面的測試結(jié)果:4節(jié)點S2D跑到3百萬隨機讀IOPS,這應(yīng)該是我目前看到過平均每節(jié)點跑得最快的一個分布式存儲測試報告,當(dāng)然盤的配置也比我們實測要高不少2個Intel P3700做緩存層,8個同樣NVMe的P3500做容量層。從超融合本地讀優(yōu)化到分離式部署通過更多測試,我們觀察到S2D

15、在3副本配置的情況下,寫入數(shù)據(jù)時會全局打散到所有節(jié)點,而在讀數(shù)據(jù)時一旦有副本在本地節(jié)點就優(yōu)先從本地讀取,對于超融合應(yīng)用有助于減少網(wǎng)絡(luò)的開銷(盡管本文的測試環(huán)境網(wǎng)絡(luò)不是瓶頸)。上面只是我們配置過程中的一個截圖,可以看到S2D上4個用于測試的CSV(集群共享卷)Onwer分別指向了不用的節(jié)點,這樣在對應(yīng)服務(wù)器上加壓時就可以享受到本地讀的效果。如果某個Onwer節(jié)點故障,會重新選舉新的Onwer接管CSV。不知是否有朋友會問:我的Hyper-V服務(wù)器平均存儲壓力沒有這么大,S2D如此性能水平可否支持為集群外面的主機提供服務(wù)?答案是肯定的。上圖我在以前的文章中列出過,右邊就是Hyper-V集群和SOF

16、S on S2D集群分離部署(非超融合)。應(yīng)用主機和存儲節(jié)點通過SMB3協(xié)議網(wǎng)絡(luò)連接,依然可以選用RDMA。根據(jù)IDC的預(yù)測,“在2017年到2021年期間,全球軟件定義存儲市場的復(fù)合年增長率將達到13.5%,到2021年收入接近162億美元。HCI不僅增長最快,復(fù)合年增長率為26.6%,同時也是最大的子領(lǐng)域,到2021年收入將達到71.5億美元。在預(yù)測期內(nèi),對象存儲的復(fù)合年增長率將達到10.3%,而文件存儲和塊存儲的復(fù)合年增長率將分別達到6.3%和4.7%?!背思夹g(shù)之外,再談一下微軟S2D在銷售策略上的特點:與VMwareVSAN、NSX單獨銷售不同的是,微軟將WindowsServer2

17、016數(shù)據(jù)中心版定位成軟件定義數(shù)據(jù)中心的基礎(chǔ),將所需功能集成,一個License就搞定OS許可+Hypervisor+SDS+SDN。Windows Server 2016三種部署方式:圖形化界面、Server Core 和 Nano Server 均支持S2D?,F(xiàn)在看來,一年多之前由于資料有限,當(dāng)時寫的一些技術(shù)點還不夠準確。比如一位微軟的朋友就曾指出:“Built-In Cache”和“ReFS Real-Time Tiering”在S2D里可以都看成是緩存技術(shù),區(qū)別主要在于后者是先將數(shù)據(jù)寫入副本分層來改善糾刪碼的性能?;剡^來接著看前面的架構(gòu)圖:本次測試使用了4臺Dell PowerEdge

18、R630服務(wù)器,比較豪華的一點是100Gb/sRDMA作為S2D集群互連網(wǎng)絡(luò),包括Mellanox ConnentX-4雙端口100Gb網(wǎng)卡和Dell Networking S6100-ON交換機。上圖來自微軟提供的參考數(shù)據(jù),啟用RDMA之后,S2D的IOPS和延時性能都有明顯的改善。如果說在RDMA網(wǎng)絡(luò)下S2D的效率才能充分發(fā)揮,換個角度也證明微軟于RDMA(包括SMB Direct)方面在業(yè)內(nèi)較早地進行了比較充分的優(yōu)化。另外說明一點,在這階段測試中我們并未使用每臺服務(wù)器上的1個NVMe SSD,因為不符合當(dāng)前Windows Server 2016 S2D的規(guī)則。S2D支持SSD + HDD

19、或者NVMe + SSD的緩存配置,但要求Cache層SSD每節(jié)點不少于2個。關(guān)于混合S2D配置與全閃存的性能差異,后續(xù)我想在另一篇文章中給大家介紹。附2:企業(yè)存儲系統(tǒng)發(fā)展的三個階段1、5-10年前的傳統(tǒng)HDD磁盤陣列相信許多朋友都看到過以下這組公式,根據(jù)硬盤的平均訪問(尋道+旋轉(zhuǎn))延時來計算單盤的IOPS參考值:15000rpm 硬盤 1000/(2+3.5)18010000rpm 硬盤 1000/(3+3.5)1507200rpm 硬盤 1000/(4.17+8)80利用每塊硬盤的IOPS,乘以盤數(shù)(主軸數(shù)量)可以得到一個存儲系統(tǒng)的經(jīng)驗IOPS值,比如設(shè)計合理的情況下256塊15K HDD

20、可達4-6萬隨機讀IOPS,此時控制器的處理能力往往還不會是瓶頸。隨機寫的情況相對復(fù)雜一些,RAID 1的寫懲罰=2,RAID 5/6寫懲罰則是4/6,所以我們看到各存儲廠商在測試SPC-1這些交易類型的BenchMark時,大多會選擇RAID 1(雙副本鏡像)以獲得較好的表現(xiàn)。上圖來自于6年前某高端存儲(8控制器)的SPC-1測試報告,在此只用于技術(shù)舉例無意提及品牌型號。它配置了1920塊15K HDD硬盤,按照總共45萬IOPS來計算,平均每塊盤貢獻大約230 IOPS。為什么比前面的經(jīng)驗公式要高呢?我認為有以下幾個方面的原因a SPC-1測試負載中包括一部分順序讀寫;b 陣列的預(yù)讀/寫緩

21、存有一定I/O合并效果(HDD陣列低于5ms延時也是因為Cache優(yōu)化);c 有些參測陣列并未劃分全部容量,使實際的平均訪問時間低于全盤范圍(類似于短擊的效果,只針對機械硬盤)。記得在 HYPERLINK /s?_biz=MzAwODExNjI3NA=&mid=2649774371&idx=1&sn=2c63b14b652a0fd87f74f2d6ca6f9d3a&scene=21 l wechat_redirect 存儲極客:SPC-1負載分析與AFA壽命評估一文中,我對SPC-1曾有過粗略研究,根據(jù)IOPS計算出寫入的數(shù)據(jù)量。SPC-1是個比較復(fù)雜的混合負載,包括約39%的讀IO(應(yīng)該主要是隨機)和61%的寫I/O,而后者當(dāng)中至少有接近一半(占整體28%)的日志/順序?qū)懭?。在?shù)據(jù)塊大小方面,分為4KB和SMIX兩種類型,SMIX是按照一定比例的混合塊,經(jīng)計算其平均I/O大小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論