PBData 數(shù)據(jù)庫一體機(jī)-技術(shù)白皮書_第1頁
PBData 數(shù)據(jù)庫一體機(jī)-技術(shù)白皮書_第2頁
PBData 數(shù)據(jù)庫一體機(jī)-技術(shù)白皮書_第3頁
PBData 數(shù)據(jù)庫一體機(jī)-技術(shù)白皮書_第4頁
PBData 數(shù)據(jù)庫一體機(jī)-技術(shù)白皮書_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PBData數(shù)據(jù)庫云平臺技術(shù)白皮書V3.1版權(quán)所有?上海天璣數(shù)據(jù)技術(shù)有限公司,保留一切權(quán)利。非經(jīng)本公司書面許可,任何單位和個人不得擅自摘抄、復(fù)制本文檔內(nèi)容的部分或全部,并不得以任何形式傳播。商標(biāo)聲明注冊商標(biāo)。本文檔提及的其他所有商標(biāo)或注冊商標(biāo),由各自的所有人擁有。注意您購買的產(chǎn)品、服務(wù)或特性等應(yīng)受天璣數(shù)據(jù)公司商業(yè)合同和條款的約束,本文檔中描述的全部或部分產(chǎn)品、服務(wù)或特性可能不在您的購買或使用范圍之內(nèi)。除非合同另有約定,天璣數(shù)據(jù)公司對本文檔內(nèi)容不做任何明示或默示的聲明或由于產(chǎn)品版本升級或其他原因,本文檔內(nèi)容會不定期進(jìn)行更新。除非另有約定,本文檔僅作為使用指導(dǎo),本文檔中的所有陳述、信息和建議不構(gòu)成任何明示或暗示的擔(dān)保。郵編200233官方網(wǎng)站上海天璣數(shù)據(jù)技術(shù)有限公司郵編200233官方網(wǎng)站地址上海市閔行區(qū)田林路1016號(綠洲科技三期)6號樓|電話86傳真861.產(chǎn)品概述 12.新特性介紹 23.產(chǎn)品架構(gòu) 23.1.邏輯架構(gòu) 23.2.產(chǎn)品系列 4V系列 4H系列 4E系列 64.產(chǎn)品軟件 74.1.各系列軟件組成 7V系列 7H系列 7E系列 84.2.軟件模塊 8SmartCache模塊 8SmartIOV模塊 11SmartSCSI模塊 15SmartMgr模塊 16SmartClient模塊 17SmartVote模塊 17SmartMon模塊 175.產(chǎn)品特性 206.總結(jié) 2611.產(chǎn)品概述PBData數(shù)據(jù)庫云平臺是上海天璣數(shù)據(jù)技術(shù)有限公司為各種數(shù)據(jù)庫環(huán)境設(shè)計的融合架構(gòu),通過一體化的交付方式簡化數(shù)據(jù)庫平臺的基礎(chǔ)架構(gòu)建設(shè)與運(yùn)維,將復(fù)雜的硬件集成與調(diào)優(yōu)工作封裝于系統(tǒng)內(nèi)部,向用戶提供開箱即用的數(shù)據(jù)庫云平臺。PBData在硬件上采用最新x86工業(yè)標(biāo)準(zhǔn)服務(wù)器、高帶寬低延時的IntelOmniPath網(wǎng)絡(luò)或InfiniBand網(wǎng)絡(luò)、高性能閃存介質(zhì)融合大容量機(jī)械磁盤,使用戶能夠以最佳性價比享受商業(yè)硬件技術(shù)高速發(fā)展帶來的性能提升;同時天璣數(shù)據(jù)憑借自研的智能存儲技術(shù)與數(shù)據(jù)傳輸協(xié)議將現(xiàn)有硬件性能發(fā)揮到極致,結(jié)合數(shù)據(jù)庫集群技術(shù)實現(xiàn)系統(tǒng)整體的高性PBData對外提供標(biāo)準(zhǔn)的數(shù)據(jù)庫服務(wù),用戶無需對原有的數(shù)據(jù)庫結(jié)構(gòu)和業(yè)務(wù)系統(tǒng)架構(gòu)進(jìn)行更改,對數(shù)據(jù)庫管理人此外,PBData作為數(shù)據(jù)庫云平臺,可對OLTP、OLAP以及混合負(fù)載進(jìn)行感知,在針對不同場景自動優(yōu)化的基礎(chǔ)上實現(xiàn)整合,并提供統(tǒng)一的監(jiān)控和管理工具,由此大幅降低用戶IT環(huán)境的硬件復(fù)雜程度。在商業(yè)硬件極速發(fā)展的今天,PBData以先進(jìn)的架構(gòu)與細(xì)致的優(yōu)化為用戶提供高性價比、低風(fēng)險的一站式解決方案,是替換傳統(tǒng)“小型機(jī)+集中式存儲”、“煙囪式”數(shù)據(jù)庫平臺的理想選擇。目前PBData已成功應(yīng)用于電信、金融、交通、政府與制造業(yè)等多個行業(yè)。2PBDataV3在原有架構(gòu)基礎(chǔ)上,針對性能和管理性上有較大的提高,增加了如下特性:主流OS支持支持在主流的OS環(huán)境下部署,如RedHat、CentOS、Suse、OracleLinux等常用系統(tǒng)。多網(wǎng)絡(luò)、協(xié)議支持,根據(jù)業(yè)務(wù)性能需要靈活選擇除MellanoxInfiniBand外,還支持IntelOmniPath網(wǎng)絡(luò)架構(gòu),較原先環(huán)境性能提升60-100%;除SRP協(xié)議外,支持NVMeOverFabrics協(xié)議基于通用數(shù)據(jù)庫場景下,PBDataV3支持基于IB的私有RDMA協(xié)議.ASM磁盤感知,降低運(yùn)維成本,提高業(yè)務(wù)連續(xù)性與數(shù)據(jù)安全性存儲層可感知邏輯卷在ASM中的狀態(tài),一方面可避免工程師對邏輯卷的誤操作,提高數(shù)據(jù)安全性;另一方面,當(dāng)存儲層節(jié)點重啟后可自動恢復(fù)邏輯卷,提高業(yè)務(wù)連續(xù)性。實現(xiàn)同一個物理存儲網(wǎng)絡(luò)中的多套一體機(jī)資源隔離,降低TCO通過邏輯卷掛載權(quán)限控制,可根據(jù)實際業(yè)務(wù)場景,控制某個卷只掛載到某幾個計算節(jié)點。例如:滿足多套RAC集群共用一套存儲而互不影響的業(yè)務(wù)場景。QoS的支持通過對邏輯卷進(jìn)行IOPS和吞吐量限制,避免多個應(yīng)用之間因爭搶資源造成互相影響。高級存儲特性針對通用數(shù)據(jù)庫場景下,PBData引入了高級存儲特性支持,主要包含精簡卷,卷快照,卷克隆等特性。3.產(chǎn)品架構(gòu)3.1.邏輯架構(gòu)PBData邏輯架構(gòu)如下:3PBData邏輯上分為四個部分,自下而上分別為:存儲層:采用分布式存儲架構(gòu),存儲節(jié)點采用工業(yè)標(biāo)準(zhǔn)的x86服務(wù)器,多節(jié)點之間實現(xiàn)數(shù)據(jù)副本和負(fù)載均內(nèi)部網(wǎng)絡(luò)層:邏輯上分為存儲網(wǎng)絡(luò)與數(shù)據(jù)庫集群內(nèi)部網(wǎng)絡(luò)。存儲網(wǎng)絡(luò)基于IntelOmniPath網(wǎng)絡(luò)或InfiniBand網(wǎng)絡(luò),用于實現(xiàn)計算層對存儲層進(jìn)行訪問,以及存儲節(jié)點之間的數(shù)據(jù)交互(部署Oracle數(shù)據(jù)庫的情況下存儲節(jié)點間無需交換數(shù)據(jù));內(nèi)部網(wǎng)絡(luò)也基于IntelOmniPath網(wǎng)絡(luò)或InfiniBand網(wǎng)絡(luò),用于數(shù)據(jù)庫集群的內(nèi)部通訊;計算層:多個基于工業(yè)標(biāo)準(zhǔn)x86服務(wù)器的計算節(jié)點構(gòu)建數(shù)據(jù)庫集群,實現(xiàn)負(fù)載均衡及高可用;外部網(wǎng)絡(luò)層:考慮與網(wǎng)絡(luò)設(shè)備和服務(wù)器網(wǎng)絡(luò)的對接,外部網(wǎng)絡(luò)通?;贓thernet,用于對外提供數(shù)據(jù)庫服存儲層中高速閃存以及智能緩存算法的應(yīng)用以及網(wǎng)絡(luò)層中IntelOmniPath網(wǎng)絡(luò)或InfiniBand網(wǎng)絡(luò)加上傳輸協(xié)議的深度優(yōu)化,很好地解決了IO性能與計算訪問延時等問題;計算節(jié)點上最新處理器架構(gòu)的使用又進(jìn)一步提升了數(shù)據(jù)處理性能,在各項配置平衡的基礎(chǔ)上大幅提升了數(shù)據(jù)庫系統(tǒng)的性能天花板,使之不再成為整個業(yè)務(wù)系統(tǒng)的瓶頸。43.2.產(chǎn)品系列根據(jù)計算與存儲資源分布、互聯(lián)架構(gòu)、擴(kuò)展性等方面的設(shè)計差異,PBData按照部署方式分為三個產(chǎn)品系列:VV系列V系列代表Vary-Fusion,意為異化融合架構(gòu),即計算節(jié)點和存儲節(jié)點分開部署。計算節(jié)點與存儲節(jié)點都基于x86工業(yè)標(biāo)準(zhǔn)服務(wù)器,計算節(jié)點用于部署數(shù)據(jù)庫應(yīng)用,存儲節(jié)點則負(fù)責(zé)提供存儲資源;計算節(jié)點之間、存儲節(jié)點之間、計算與存儲節(jié)點之間交換數(shù)據(jù)皆通過InfiniBand網(wǎng)絡(luò)進(jìn)行,整個系統(tǒng)對外通過Ethernet提供數(shù)據(jù)庫服務(wù)。V系列架構(gòu)從物理上直接體現(xiàn)了PBData的邏輯架構(gòu),也可視為傳統(tǒng)架構(gòu)的升級:用更先進(jìn)的分布式存儲系統(tǒng)替換了傳統(tǒng)的磁盤陣列;用更高效的InfiniBand網(wǎng)絡(luò)替換了基于Ethernet的計算節(jié)點互聯(lián),以及計算與存儲之間的FC/IPSAN。作為對傳統(tǒng)部署模式的改進(jìn)與優(yōu)化,V系列既保證了與傳統(tǒng)架構(gòu)的無縫兼容,又通過分布式存儲與InfiniBand網(wǎng)絡(luò)等新技術(shù)極大提高了數(shù)據(jù)庫系統(tǒng)的擴(kuò)展性與性能。V系列架構(gòu)的計算節(jié)點可擴(kuò)展至64個,存儲節(jié)點可擴(kuò)展至128個,infiniBand交換機(jī)可擴(kuò)展至24臺。H系列5H系列代表Hyper-Fusion,意為超融合架構(gòu),是當(dāng)下較流行的部署方式。在H系列的部署中,所有節(jié)點都基于x86工業(yè)標(biāo)準(zhǔn)服務(wù)器,且所有節(jié)點的角色都完全相同——既是計算節(jié)點,又是存儲節(jié)點,每增加一個節(jié)點便同時為數(shù)據(jù)庫系統(tǒng)擴(kuò)展了計算與存儲資源。系統(tǒng)內(nèi)部的所有數(shù)據(jù)交換依然使用InfiniBand網(wǎng)絡(luò)。相比V系列,H系列對計算與存儲資源做了進(jìn)一步融合,在邏輯架構(gòu)不變的基礎(chǔ)上大幅簡化了硬件的管理與維護(hù)??紤]到每個節(jié)點同時承擔(dān)計算和存儲節(jié)點,在數(shù)據(jù)服務(wù)中需要同時承擔(dān)“訪問”與“被訪問”兩種角色,H系列相對V系列而言更適合share-nothing或小規(guī)模的share-everything架構(gòu),對于存在大量共享數(shù)據(jù)訪問的數(shù)據(jù)庫系統(tǒng)來說,用戶仍應(yīng)選擇V系列的部署模式。H系列架構(gòu)的融合節(jié)點可擴(kuò)展至128個,InfiniBand交換機(jī)可擴(kuò)展至24臺。6E系列E系列代表Elite-Fusion,是輕量版的PBData,可視為H系列的進(jìn)一步簡化。E系列采用雙節(jié)點模式,兩個節(jié)點都基于x86工業(yè)標(biāo)準(zhǔn)服務(wù)器,并同時承載計算與存儲任務(wù),兩個節(jié)點之間使用InfiniBand直連,交換存儲與數(shù)據(jù)庫集群內(nèi)部流量。E系列是PBData的最小部署模式,節(jié)省了InfiniBand交換機(jī)等成本開銷,但仍具備PBData的完整架構(gòu)及其高性能與高可靠性;同時E系列具備擴(kuò)展為H系列的能力,是中小型IT規(guī)模用戶理想的入門之選。E系列架構(gòu)無InfiniBand交換機(jī),兩個節(jié)點直接互連,無法直接擴(kuò)展,可在線升級為H系列后再行擴(kuò)展;另外,PBDataE系列僅支持Oracle數(shù)據(jù)庫。74.產(chǎn)品軟件作為一個為數(shù)據(jù)庫場景定制的軟件定義基礎(chǔ)架構(gòu)方案,硬件均采用標(biāo)準(zhǔn)的x86服務(wù)器,而軟件是PBData的核心組成,天璣數(shù)據(jù)自研的智能存儲技術(shù)與深度調(diào)優(yōu)的數(shù)據(jù)傳輸協(xié)議使得最新商業(yè)硬件在PBData中充分發(fā)揮其最佳性能。PBData各系列軟件采用模塊化集成,針對三個產(chǎn)品系列,基于不同的場景和性能要求,各個系列的軟件由不同的軟件模塊組成,本章節(jié)主要針對不同產(chǎn)品系列的軟件模塊組成以及各個模塊的特性進(jìn)行介紹。4.1.各系列軟件組成PBData各系列產(chǎn)品,因為物理架構(gòu)差異則軟件組件也會有少許的差異,具體如下。V系列PBDataV系列軟件主要包含如下:SmartStor-VSmartStor-V軟件主要由SmartCache、SmartSCSI、SmartIOV和SmartMgr四個軟件模塊組成;SmartServerSmartServer軟件包含SmartMgr和SmartClient模塊;SmartMon-VSmartMon-V主要包含SmartMon模塊。H系列PBDataH系列軟件主要包含如下:SmartStor-HSmartStor-H軟件主要由SmartCache、SmartSCSI、SmartIOV、SmartMgr和SmartClient五個軟件模塊組8SmartMon-HSmartMon-H主要包含SmartMon模塊;E系列PBDataE系列軟件主要包含如下:SmartStor-ESmartStor-E軟件主要由SmartCache、SmartSCSI、SmartClient、SmartMgr和SmartVote五個軟件模塊組SmartMon-ESmartMon-E主要包含SmartMon模塊;4.2.軟件模塊SmartCache模塊SmartCache是PBData中實現(xiàn)高IO性能的核心技術(shù)之一。SmartCache將SSD、PCIeFlash等高性能介質(zhì)配置為HDD緩存層,并使用智能調(diào)度算法自動將熱點數(shù)據(jù)塊復(fù)制到高速介質(zhì)中,無需任何人工參與包括規(guī)劃、實施等操作。從而在高IO性能的基礎(chǔ)上實現(xiàn)存儲空間的高性價比。緩存層采用自動Cache方式,非定期搬遷分級存儲方式,即熱數(shù)據(jù)緩存于閃存上,而數(shù)據(jù)盤是數(shù)據(jù)持久化存儲的唯一介質(zhì)。傳統(tǒng)的緩存管理模式中,緩存命中率和IO延時之間一直存在原理性矛盾:緩存的容量必然小于底層HDD的容量,因此緩存中的一個地址必須對應(yīng)HDD層的多個地址。如果完全采用靜態(tài)對應(yīng)關(guān)系,IO處理過程簡單,但頻繁的緩存頁換出會導(dǎo)致緩存命中率下降;但若是完全采用動態(tài)對應(yīng)關(guān)系,緩存命中率提高的代價則是每個IO的尋址過程變得復(fù)雜,額外的地址計算會導(dǎo)致IO延時增加。9為了解決兩種尋址方式的矛盾,SmartCache使用了更為合理的多級鏈表分配機(jī)制:首先將緩存介質(zhì)池化,以可調(diào)比例實現(xiàn)緩存容量區(qū)塊與HDD容量區(qū)塊的動態(tài)對應(yīng);然后在緩存區(qū)塊內(nèi)使用自適應(yīng)的準(zhǔn)靜態(tài)尋址機(jī)制,最終實現(xiàn)緩存命中率和IO延時的平衡。同時,在緩存的分配上,SmartCache使用Markov行走算法,維護(hù)多級緩存列表,確保多次訪問的數(shù)據(jù)可常駐緩存,不受全表掃描類IO影響。先進(jìn)的緩存策略使得SmartCache具備自學(xué)習(xí)能力,能夠感知來及業(yè)務(wù)層的IO類型,最終實現(xiàn)高命中、低延時,高效發(fā)揮所有緩存空間的作用,結(jié)合較高的緩存配比,巨幅提升IO子系統(tǒng)的整體性能。SmartCache支持WriteBack、WriteThrough及BypassLargerIO三種模式:?WriteBack寫IO到達(dá)SSD緩存層即返回寫成功,臟數(shù)據(jù)再由緩存層異步刷寫至HDD層,同時支持存儲池臟數(shù)據(jù)刷新速度設(shè)置,業(yè)務(wù)較繁忙時,保證前端應(yīng)用IO不受影響。優(yōu)點:WriteBack模式可有效提高寫IO性能;缺點:一旦SSD緩存層發(fā)生故障,將導(dǎo)致未刷寫至HDD層的臟數(shù)據(jù)丟失,緩存池所對應(yīng)的HDD需進(jìn)行數(shù)據(jù)重構(gòu)。?WriteThrough寫IO到達(dá)HDD層之后才返回寫成功,臟數(shù)據(jù)再由SSD緩存層同步刷新至HDD層。優(yōu)點:WriteThrough模式下,任何時候HDD層的數(shù)據(jù)都是完整的,所以無論何時SSD緩存層發(fā)生故障,HDD層均無需進(jìn)行數(shù)據(jù)重構(gòu);缺點:WriteThrough模式下寫入性能遠(yuǎn)不及WriteBack。?BypassLargerIO根據(jù)自定義IO大小決定寫入SSD緩存層與HDD層的優(yōu)先順序。當(dāng)設(shè)定的IO大小未達(dá)到預(yù)設(shè)值,則寫入時仍會經(jīng)過SSD緩存層;當(dāng)設(shè)定的IO大小達(dá)到預(yù)設(shè)值,則寫入時不通過SSD緩存層直接寫入至HDD層。優(yōu)點:對于連續(xù)大塊類應(yīng)用,可明顯提高寫IO性能;對于小塊IO仍可通過SSD緩存層提高寫性能;缺點:對于跳過緩存直寫HDD層的數(shù)據(jù),SSD讀緩存功能不可用;SSD緩存層發(fā)生故障時,緩存池所對應(yīng)的HDD需進(jìn)行數(shù)據(jù)重構(gòu)。用戶可根據(jù)實際業(yè)務(wù)需求選擇不同的緩存模式,并可在線進(jìn)行WB—WT模式切換,不影響上層業(yè)務(wù)運(yùn)行;并可通過重新配置實現(xiàn)在線WT—WB轉(zhuǎn)換。此外,即便WT模式下SSD緩存層發(fā)生故障,系統(tǒng)仍可以RAW模式直接訪問HDD層,以無緩存的模式繼續(xù)運(yùn)行;當(dāng)更換新的SSD硬盤后,RAW通過重構(gòu)轉(zhuǎn)換為WB模式。除此之外,SmartCache針對不同的應(yīng)用場景提供了多項優(yōu)化設(shè)置,包括但不限于:?支持CacheFlush策略,緩存刷盤的臟塊水位閾值可調(diào),并可動態(tài)調(diào)整臟塊刷新的速度;?支持動態(tài)調(diào)整的讀寫緩存比例;?根據(jù)緩存設(shè)備的物理特性對緩存中連續(xù)數(shù)據(jù)的存放進(jìn)行優(yōu)化,進(jìn)一步提高存取效率;?支持DisCard功能,可感知文件系統(tǒng)或數(shù)據(jù)庫層面的數(shù)據(jù)刪除操作,自動丟棄已經(jīng)刪除的數(shù)據(jù);?支持動態(tài)調(diào)整緩存空間,并可在空閑的緩存空間上創(chuàng)建出持久化數(shù)據(jù)的高速閃存卷用于數(shù)據(jù)庫高性能場景,如Oracleredo日志存放;?支持WT-WB-RAW三種模式下動態(tài)轉(zhuǎn)換?支持SSD的在線更換,有效應(yīng)對SSD壽命到期時的在線更換。SmartIOV模塊SmartIOV是PBData中實現(xiàn)存儲資源池化、存儲條帶和數(shù)據(jù)保護(hù)功能的模塊。可將存儲節(jié)點硬盤空間組織為存儲池,以塊存儲、存儲卷方式掛載給計算節(jié)點使用。SmartIOV支持將存儲卷同時掛載給多個計算節(jié)點使用,支持如ORACLE共享磁盤并發(fā)訪問的使用場景、如MySQL、PostgreSQL使用共享存儲模式下的主備切換高可用場景。純Oralce場景下,Oracle數(shù)據(jù)庫自帶的ASM組件本身已經(jīng)具有完善的副本管理機(jī)制,并且通過ASM實現(xiàn)數(shù)據(jù)副本可有效避免存儲節(jié)點之間的數(shù)據(jù)交互,減少存儲網(wǎng)絡(luò)帶來的寫IO延時,因此PBData在純Oracle的場景下運(yùn)行時,推薦采用OracleASM實現(xiàn)存儲池化以及存儲的條帶和數(shù)據(jù)保護(hù)功能。針對非Oracle場景下,因為數(shù)據(jù)庫自身不提供ASM機(jī)制,無法實現(xiàn)存儲的池化及條帶和數(shù)據(jù)庫保護(hù)功能,因此SmartIOV模塊主要通過集成天璣自主研發(fā)的分布式存儲軟件SmartStor-X,實現(xiàn)存儲池化、存儲條帶以及數(shù)據(jù)保護(hù)SmartStor-X架構(gòu)如下圖所示:接口層:通過私有協(xié)議、iSCSI、FC協(xié)議對外提供卷設(shè)備。服務(wù)層:對外提供一系列存儲高級特性,如精簡配置、快照、克隆、多副本、分級存儲、遠(yuǎn)程容災(zāi)等。引擎層:實現(xiàn)分布式存儲的核心技術(shù),如DHT算法、分布式集群通訊、強(qiáng)一致性、集群自愈等。設(shè)備層:提供緩存加速的存儲設(shè)備。SmartStor-X實現(xiàn)存儲池化、存儲的條帶和數(shù)據(jù)保護(hù)功能的具體原理如下:SmartStor-X基于DHT(分布式哈希表)實現(xiàn)無中心分布式存儲系統(tǒng),集群中所有節(jié)點身份對稱,無需特殊身份的元數(shù)據(jù)服務(wù)器維護(hù)全局元數(shù)據(jù)。事實上在SmartStor-X管理的存儲系統(tǒng)中,完全不存在類似傳統(tǒng)存儲的元數(shù)據(jù)查詢,I/O過程的尋址定位均通過一組哈希環(huán)運(yùn)算以及Key-Value映射操作完成。同時,集群節(jié)點擴(kuò)展和故障冗余也通過哈希環(huán)局部變動實現(xiàn)。在SmartStor-X系統(tǒng)中物理存儲資源分三級組織——IOS節(jié)點、OSD磁盤、Object塊。每臺響應(yīng)讀寫請求,提供存儲服務(wù)的物理服務(wù)器為一個IOS節(jié)點;服務(wù)器中納入分布式資源池化管理的每顆磁盤為一個OSD設(shè)備;OSD設(shè)備中具體執(zhí)行讀寫操作的基本單元為Object塊。在SmartStor-X系統(tǒng)中邏輯存儲資源分存儲池與邏輯卷兩個級別,將不同IOS節(jié)點上的OSD磁盤進(jìn)行邏輯劃分即為存儲池;對存儲池資源進(jìn)行再分配,形成對應(yīng)用提供存儲服務(wù)的卷即為邏輯卷。SmartStor-X系統(tǒng)中每個OSD磁盤只能屬于一個存儲池,不能同時納入多個存儲池。同樣,每個邏輯卷所使用的空間資源,也只能來源于一個存儲池,而不能跨存儲池劃分邏輯卷。然而IOS物理節(jié)點與存儲池不存在對應(yīng)關(guān)系,同一IOS節(jié)點上的不同OSD磁盤可以屬于不同存儲池,同一存儲池內(nèi)的OSD磁盤也會跨多個IOS物理節(jié)點,存儲池本身為OSD集合。用戶或應(yīng)用視角使用SmartStor-X系統(tǒng)時。首先通過創(chuàng)建邏輯資源池,統(tǒng)一池化管理若干OSD磁盤。然后在邏輯資源池中,創(chuàng)建邏輯卷并映射給指定客戶端使用。每個邏輯卷在客戶端呈現(xiàn)標(biāo)準(zhǔn)塊級界面,應(yīng)用通過常規(guī)使用方式對其創(chuàng)建文件系統(tǒng)或直接作為裸設(shè)備使用。在SmartStor-X系統(tǒng)中,邏輯卷實質(zhì)是若干Object區(qū)塊的集合。每個從資源池中創(chuàng)建的邏輯卷,都會靜態(tài)或動態(tài)對應(yīng)若干Object塊。這種對應(yīng)關(guān)系,以及邏輯卷的塊級視圖界面,都主要由BAC模塊維護(hù)。而Router子模塊和OSD管理子模塊,都只以O(shè)bject塊作為處理對象,并不參與維護(hù)邏輯卷視圖。在SmartStor-X系統(tǒng)中存儲對象通過oid唯一標(biāo)識,oid的長度決定存儲卷的擴(kuò)展性,當(dāng)前系統(tǒng)下,理論上支持65536個存儲卷,單個卷允許創(chuàng)建65536個快照。SmartStor-X當(dāng)前采用4MB的obj_size,最大支持創(chuàng)建1PB容量的存儲卷。SmartStor-X在IO讀寫過程中的數(shù)據(jù)路由情況如下:應(yīng)用端發(fā)起的讀寫請求,經(jīng)過兩級尋址完成讀寫IO的尋址操作。如下圖所示:首先BAC客戶端將應(yīng)用對邏輯卷的讀寫請求,轉(zhuǎn)換成對Object區(qū)塊的讀寫請求,然后經(jīng)由Router進(jìn)程處理。運(yùn)行于BAC節(jié)點端(Direct-IO)的Router進(jìn)程接收請求之后,進(jìn)行節(jié)點級尋址,即根據(jù)Objectid及副本數(shù)采用一致性哈希算法計算出Object所屬的IOS,將I/O請求轉(zhuǎn)發(fā)給對應(yīng)的IOSOSDServer。IOSOSDServer收到I/O請求后進(jìn)行OSD級尋址,即再次采用一致性哈希算法計算出Object所屬的OSD,將I/O請求轉(zhuǎn)發(fā)給相應(yīng)的OSD。OSD管理進(jìn)程接收Router派發(fā)的任務(wù)后,通過Key-Value映射定位相應(yīng)Object區(qū)塊,并進(jìn)行實際讀寫操作。進(jìn)行哈希運(yùn)算的Router進(jìn)程和定位Object區(qū)塊的OSD管理進(jìn)程都可以多進(jìn)程并行處理,從而提升系統(tǒng)整體并發(fā)度。SmartStor-X軟件IO路由過程如下:BAC塊設(shè)備驅(qū)動集成Router模塊。Application下發(fā)IO請求到BAC塊設(shè)備驅(qū)動,BACRouter模塊根據(jù)IO請求中的LBA信息,通過DHT算法計算出對應(yīng)Object所有副本所在的OSDServer節(jié)點,并以同步方式直接將IO轉(zhuǎn)發(fā)給各個副本所在OSDServer節(jié)點處理。當(dāng)有磁盤上線/故障離線,節(jié)點上線/故障離線時,IOS負(fù)責(zé)根據(jù)DHT算法恢復(fù)副本數(shù)據(jù)/重新分布數(shù)據(jù)。集群中IOS多,恢復(fù)速度越快。注:更細(xì)節(jié)的原理可以參考《Phegdata-X技術(shù)白皮書》SmartSCSI模塊SmartSCSI模塊主要實現(xiàn)基于IB的RDMA協(xié)議將存儲輸入掛載給計算節(jié)點使用,根據(jù)部署方式和數(shù)據(jù)庫類型的不同,SmartSCSI模塊分為SCSI模式和私有協(xié)議模式。私有協(xié)議模式SmartSCSI模塊在私有協(xié)議模式下,主要通過天璣自主研發(fā)的私有協(xié)議,此協(xié)議主要通過基于IB的RDMA協(xié)議實現(xiàn),并充分考慮了大規(guī)模分布式存儲系統(tǒng)特點,可以將單邏輯卷讀寫負(fù)載均衡分配到128個Router進(jìn)程同時處理,即可以讓128個IOS節(jié)點同時響應(yīng)同一邏輯卷I/O請求。SCSI協(xié)議模式SmartSCSI模塊在SCSI協(xié)議模式下是基于InfiniBand和OPA支持SCSI-3和Nvme指令集的協(xié)議棧。目前支持abricSRPSmartSCSI模塊在SCSI協(xié)議模式下可分為4個主要模塊:?SmartSCSIAdmin:SmartSCSI在用戶態(tài)的管理軟件,配置管理SmartSCSI;?SmartSCSI核心:主要作用是運(yùn)行協(xié)議棧,處理所有Target驅(qū)動的命令,然后分發(fā)給各個Storage驅(qū)動。另外,其還負(fù)責(zé)內(nèi)存和線程管理;SmartSCSI支持SRP和NmveOverFabric兩種協(xié)議。其中NvmeOverFabric能夠支持NvmeOverIB和NvmeOverOPA。?target驅(qū)動:接受Initiator發(fā)送來的所有SCSI和Nvme命令,然后傳給SmartSCSI核心,并發(fā)送處理結(jié)果給Initiator;?Storage驅(qū)動:節(jié)點存儲設(shè)備交互,目前可支持Nvme、BlockIO和SCSIPassthrough。天璣在SmartSCSI的開發(fā)與優(yōu)化中投入了大量技術(shù)力量,與使用標(biāo)準(zhǔn)傳輸協(xié)議相比,SmartSCSI在高可靠的基礎(chǔ)上實現(xiàn)了20%的延時降低和50%的吞吐量提升。該模塊以內(nèi)核態(tài)運(yùn)行,完全兼容Nvme,F(xiàn)ileIO、BlockIO、SCSIPassthrough等各種工作方式。SmartSCSI還具備實時跟蹤IO執(zhí)行過程并進(jìn)行統(tǒng)計分析處理的功能,為系統(tǒng)優(yōu)化提供依據(jù)。SmartMgr模塊SmartMgr主要作用是為管理人員提供命令行接口,實現(xiàn)對PBData系統(tǒng)中軟硬件的統(tǒng)一管理,并為SmartMon監(jiān)控提供管理接口;SmartMgr還負(fù)責(zé)計算與存儲之間的通信工作。SmartMgr目前主要功能如下:?支持Lsi、HP等RAID卡的管理AMe?提供SmartMon調(diào)用API接口。?支持SmartCache的創(chuàng)建,設(shè)定及刪除等管理?支持存儲池的創(chuàng)建、調(diào)整和刪除等操作?支持卷的創(chuàng)建、刪除、映射、快照、克隆等相關(guān)的管理?支持卷的QoS和權(quán)限管理等?Oracle場景下支持ASM感知,計算節(jié)點與存儲節(jié)點間的聯(lián)動管理,解決之前版本中存儲管理時與ASM相互獨立的問題。SmartClient模塊SmartClient模塊主要負(fù)責(zé)管理SmartSCSI映射過來的磁盤,格式化磁盤路徑和名稱;在PBData集成SmartStor-X分布式存儲軟件時,SmartClient還集成了分布式存儲軟件客戶端BAC軟件,用于對分布式存儲的卷的識別SmartClient還負(fù)責(zé)新增磁盤的發(fā)現(xiàn)和掃描以及響應(yīng)存儲端的權(quán)限和QoS控制。SmartVote模塊SmartVote是針對PBDataE系列產(chǎn)品開發(fā)的仲載機(jī)制;SmartVote通過塊復(fù)制技術(shù)將兩個不同節(jié)點上磁盤進(jìn)行完全同步,此磁盤主要用于存放Oracle數(shù)據(jù)庫集群的OCR和VoteDisk,操作系統(tǒng)集群實現(xiàn)兩個節(jié)點間的信息同步,磁盤復(fù)制網(wǎng)絡(luò)與操作系統(tǒng)集群網(wǎng)絡(luò)使用同一個網(wǎng)絡(luò),當(dāng)發(fā)生腦裂時,磁盤復(fù)制和操作系統(tǒng)集通信會同時發(fā)生,此時SmartVote會調(diào)用IPMI仲裁關(guān)閉低優(yōu)先級節(jié)點,以保證腦裂時仲載順利完成。SmartMon模塊SmartMon是PBData系統(tǒng)監(jiān)控模塊,通過統(tǒng)一的管理界面即可對整個集群中的PBData所有節(jié)點進(jìn)行監(jiān)控與管理,大幅提升運(yùn)維效率。SmartMon提供異常告警、事件上報、性能監(jiān)控等功能,也可提供API接口實現(xiàn)與第三方云監(jiān)控管理平臺集成。SmartMon主要功能包括:1.節(jié)點監(jiān)控與管理1)節(jié)點的增加、刪除、配置,CPU、內(nèi)存、磁盤、電源等硬件監(jiān)控和管理2)軟件核心運(yùn)行狀態(tài)的監(jiān)控管理3)存儲介質(zhì)配置管理以及狀態(tài)監(jiān)控4)主機(jī)上網(wǎng)絡(luò)端口以及IB卡狀態(tài),流量信息監(jiān)控管理5)緩存池的增加、刪除、配置以及狀態(tài)和命中率監(jiān)控6)存儲卷配置,QoS,權(quán)限管理以及狀態(tài)監(jiān)控;SSDSATASSDPCIeSSD、NVMe等閃存介質(zhì);8)磁盤預(yù)警,對磁盤壞道的監(jiān)控以及寫入過程中的介質(zhì)錯誤的監(jiān)控9)交換機(jī)端口狀態(tài)及速率等監(jiān)控2.集群監(jiān)控與管理1)集群自動識別和狀態(tài)監(jiān)控2)集群節(jié)點的自動發(fā)現(xiàn)以及節(jié)點上狀態(tài)的監(jiān)控3)OCR和VOTEDISK狀態(tài)的監(jiān)控和管理4)監(jiān)控程序的狀態(tài)監(jiān)控和管理5)集群互聯(lián)網(wǎng)絡(luò)的監(jiān)控和管理3.ASM監(jiān)控與管理1)ASM實例狀態(tài)的監(jiān)控和管理2)磁盤組使用情況的監(jiān)控和管理3)磁盤組中數(shù)據(jù)庫空間使用情況4)ASM磁盤組性能的監(jiān)控5)磁盤組的監(jiān)控和管理、磁盤組空間增長情況統(tǒng)計6)磁盤的監(jiān)控和管理4.數(shù)據(jù)庫監(jiān)控與管理1)支持集群和單機(jī)數(shù)據(jù)庫的自動發(fā)現(xiàn)及狀態(tài)監(jiān)控2)支持?jǐn)?shù)據(jù)庫會話的監(jiān)控3)提供基于會話的性能監(jiān)控和AWR的生成4)針對TOPsql和TOPSession的監(jiān)控5)支持?jǐn)?shù)據(jù)庫控制文件,日志文件,表空間及文件監(jiān)控和管理5.容器數(shù)據(jù)庫監(jiān)控與管理1)支持容器數(shù)據(jù)庫狀態(tài)監(jiān)控2)支持容器數(shù)據(jù)庫創(chuàng)建、刪除、克隆,拔出、插入、開啟、關(guān)閉等操作3)支持容器數(shù)據(jù)庫表空間、數(shù)據(jù)文件監(jiān)控與管理4)支持容器數(shù)據(jù)庫CPU、內(nèi)存以及IO資源的QoS控制6.性能監(jiān)控1)主機(jī)CPU、內(nèi)存、磁盤、SSD等性能監(jiān)控IOPSMBPSLATENCY等性能3)ASM磁盤組讀寫IOPS,MPBS的性能監(jiān)控4)緩存池的讀寫性能以及命中率5)數(shù)據(jù)庫GC響應(yīng)時間6)數(shù)據(jù)庫的SQL響應(yīng)時間、各種等待響應(yīng)時間、IOPS、MBPS等7.生成InfiniBand網(wǎng)絡(luò)的拓?fù)湟约皠討B(tài)鏈接狀態(tài)圖;8.用戶及報警管理1)支持用戶有權(quán)限管理及操作日志管理2)支持監(jiān)控報警,針對各種異常狀態(tài)進(jìn)行報警3)支持基于異常的健康評分機(jī)制,直觀的反應(yīng)平臺的健康度4)支持RestfulAPI和標(biāo)準(zhǔn)SNMP,郵件等多種報警機(jī)制5.產(chǎn)品特性便捷性“一體化”、“機(jī)柜式”的交付模式,以類似家用電器的方式交付整套數(shù)據(jù)庫平臺。硬件、操作系統(tǒng)、數(shù)據(jù)庫都在出廠前完成安裝集成和調(diào)優(yōu),用戶只需在到貨后將PBData接入自己的業(yè)務(wù)網(wǎng)絡(luò)即可訪問數(shù)據(jù)庫實例。開放性PBData的全部硬件組件都采用工業(yè)標(biāo)準(zhǔn)設(shè)備,包括x86服務(wù)器、InfiniBand交換機(jī)及各種板卡、硬盤以及閃存設(shè)備,未使用任何定制硬件。用戶可根據(jù)自己的需求選擇不同品牌服務(wù)器設(shè)備硬件供應(yīng)商,不存在廠商鎖定問題。同時,天璣數(shù)據(jù)也可提供自有品牌的硬件設(shè)備??煽啃訮BData是一套整體系統(tǒng),內(nèi)部采用全冗余架構(gòu)、多活的透明切換技術(shù),并基于數(shù)據(jù)庫集群在系統(tǒng)級別實現(xiàn)與小型機(jī)集群相當(dāng)?shù)目煽啃?;在?shù)據(jù)安全方面,SmartIOV提供了存儲節(jié)點級別的容錯能力,生產(chǎn)數(shù)據(jù)可支持多副本冗余(如2副本、3副本),可靠性遠(yuǎn)超傳統(tǒng)RAID。SmartIOV通過內(nèi)部服務(wù)可迅速捕獲到節(jié)點或磁盤故障信息,并在其他節(jié)點空閑空間中修復(fù)冗余度降低的所有Object區(qū)塊,同時維護(hù)哈希環(huán)對應(yīng)的OSD節(jié)點變化。故障修復(fù)速度遠(yuǎn)超過傳統(tǒng)磁盤陣列設(shè)備,從而極大縮短數(shù)據(jù)風(fēng)險窗口。在磁盤數(shù)量充足的系統(tǒng)中,故障修復(fù)速度可以超過1GB/s(即3.6TB/小時)。QoS的功能的引出,避免多數(shù)據(jù)庫之前的資源爭用,有效的保證了關(guān)鍵業(yè)務(wù)的服務(wù)質(zhì)量。高性能基于開放架構(gòu),最新的x86處理器、高速介質(zhì)以及InfiniBand網(wǎng)絡(luò),使得PBData能夠第一時間使用最高性能的硬件平臺;SmartIOV分布式算法能夠?qū)⒇?fù)載平均至每一個磁盤;SmartCache優(yōu)越的緩存技術(shù)能夠?qū)⒏咚俳橘|(zhì)的性能發(fā)揮到極致;SmartSCSI新增NvmeOverFabric協(xié)議支持,性能提升30%,在傳輸協(xié)議層的優(yōu)化也將數(shù)據(jù)傳輸中引入的開銷降到最低??梢哉fPBData基于現(xiàn)有的業(yè)務(wù)部署方式,對每一個可優(yōu)化的點進(jìn)行了優(yōu)化,最終將數(shù)據(jù)庫平臺的性能天花板推升到與前端分布式系統(tǒng)相匹配的高度。擴(kuò)展性PBData的所有節(jié)點基于x86服務(wù)器,因此全系列均支持縱向擴(kuò)展??v向擴(kuò)展包括計算資源(可選2路、4路、8路)、存儲資源(每個存儲節(jié)點可靈活選擇內(nèi)部容量和介質(zhì)組成);.V系列可分別擴(kuò)展計算節(jié)點、存儲節(jié)點、InfiniBand交換機(jī)、Ethernet交換機(jī);計算節(jié)點最大支持64個,存儲節(jié)點最大支持128個,Infiniband最大支持24臺。H儲融合節(jié)點、InfiniBand交換機(jī)、Ethernet交換機(jī);最大支持128個節(jié)點,Infiniband最大支持24臺。.E系列默認(rèn)只支持2節(jié)點,可在線升級為H系列,最大支持與H系列一致。所有節(jié)點或交換機(jī)的擴(kuò)展粒度最小為1,計算、存儲節(jié)點或交換機(jī)支持在線增加和減少??删S護(hù)性PBData基于x86工業(yè)標(biāo)準(zhǔn)服務(wù)器構(gòu)建,因此具備所有工業(yè)標(biāo)準(zhǔn)服務(wù)器的單節(jié)點可維護(hù)性,包括在線更換硬盤、電源、風(fēng)扇等;SmartIOV與數(shù)據(jù)庫集群提供節(jié)點級別的容錯,因此任何節(jié)點的離線維護(hù)都無需數(shù)據(jù)庫服務(wù)離線;SmartMon對PBData進(jìn)行從硬件到SQL級別的全局監(jiān)控,任何異常都可第一時間發(fā)現(xiàn);SmartMon支持對機(jī)械磁盤進(jìn)行巡檢,及時自動剔除狀態(tài)和性能異常的磁盤,用戶可在不影響業(yè)務(wù)和性能的情況下從容替換;SmartMon提供PBData系統(tǒng)中所有資源的統(tǒng)計與展示,同時為第三方管理平臺提供API接口。高級存儲特性PBData通過SmartIOV模塊中集成SmartStor-X分布式塊存儲軟件實現(xiàn)對非Oracle數(shù)據(jù)庫的支持,因為SmartStor-X具有存儲自身的特性,因此自帶存儲的高級特性主要包含:存儲卷的自動精簡存儲卷的快照與克隆存儲卷的QoS兼容性PBData數(shù)據(jù)庫云平臺支持:eseLPostgreSQL理論上支持所有可部署于Linux平臺的數(shù)據(jù)庫。PBData已經(jīng)驗證操作系統(tǒng)支持:Redhat6.5、6.6、6.7、6.8、6.9Redhat7.2、7.3、7.4、7.5OracelEnterpriseLinux6.5、6.6、6.7、6.8OracelEnterpriseLinux7.2、7.3SuseLinuxEnterprise11天璣數(shù)據(jù)定制Linux

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論