超融合-技術白皮書-超融合架構_第1頁
超融合-技術白皮書-超融合架構_第2頁
超融合-技術白皮書-超融合架構_第3頁
超融合-技術白皮書-超融合架構_第4頁
超融合-技術白皮書-超融合架構_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

-.z..深信服超融合架構技術白皮書深信服科技**2021年10月聲明**市深信服電子科技**所有,并保存對本文檔及本聲明的最終解釋權和修改權。本文檔中出現(xiàn)的任何文字表達、文檔格式、插圖、照片、方法、過程等內容,除另有特別注明外,其著作權或其它相關權利均屬于**市深信服電子科技**。未經(jīng)**市深信服電子科技**書面同意,任何人不得以任何方式或形式對本文檔內的任何局部進展復制、摘錄、備份、修改、傳播、翻譯成其他語言、將其全部或局部用于商業(yè)用途。免責條款本文檔僅用于為最終用戶提供信息,其內容如有更改,恕不另行通知。**市深信服電子科技**在編寫本文檔的時候已盡最大努力保證其內容準確可靠,但**市深信服電子科技**不對本文檔中的遺漏、不準確、或錯誤導致的損失和損害承擔責任。信息反響如果您有任何珍貴意見,請反響至:信箱:**省**市學苑大道1001號南山智園A1棟:518055電話:26581949傳真:26581959您也可以訪問深信服科技:.sangfor..獲得最新技術和產(chǎn)品信息縮寫和約定英文縮寫英文全稱中文解釋HypervisorHypervisor虛擬機管理器〔和VMM同義〕VMMVMMVirtualMachineManager虛擬機監(jiān)視器HAHighAvailability高可用性vMotionvMotion實時遷移DRSDistributedResourceScheduler分布式資源調度RAIDRedundantArraysofIndependentDisks磁盤陣列IOPSInput/OutputOperationsPerSecond每秒讀寫〔I/O〕操作的次數(shù)VMVirtualMachine虛擬機SDNSoftwareDefinedNetwork軟件定義網(wǎng)絡NFVNetworkFunctionVirtualization網(wǎng)絡功能虛擬化修訂記錄修訂版本號作者日期備注V1.0肖先東2021-10-.z..目錄深信服超融合架構技術白皮書TOC\o"1-3"1前言31.1IT時代的變革31.2白皮書總覽42深信服超融合技術架構52.1超融合架構概述5超融合架構的定義52.2深信服超融合架構組成模塊5系統(tǒng)總體架構52.3aSV計算虛擬化平臺6概述6aSV技術原理7aSV的技術特性19aSV的特色技術242.4aSAN存儲虛擬化27存儲虛擬化概述27aSAN技術原理29aSAN存儲數(shù)據(jù)可靠性保障41深信服aSAN功能特性472.5aNet網(wǎng)絡虛擬化49網(wǎng)絡虛擬化概述49aNET網(wǎng)絡虛擬化技術原理50aNet功能特性56深信服aNet的特色技術573深信服超融合架構產(chǎn)品介紹603.1產(chǎn)品概述603.2產(chǎn)品定位604深信服超融合架構帶來的核心價值624.1可靠性624.2平安性624.3靈活彈性624.4易操作性625超融合架構最正確實踐64IT時代的變革20世紀90年代,隨著Windows的廣泛使用及Linu*效勞器操作系統(tǒng)的出現(xiàn)奠定了*86效勞器的行業(yè)標準地位,然而*86效勞器部署的增長帶來了新的IT根底架構和運作難題,包括:根底架構利用率低、物理根底架構本錢日益攀升、IT管理本錢不斷提高以及對關鍵應用故障和災難保護缺乏等問題。隨著*86效勞器性能的提升,通過將*86系統(tǒng)轉變成通用的共享硬件根底架構,充分挖掘硬件的潛力,提高硬件的利用效率,有效的降低硬件和運營本錢,并且簡化運維降低管理本錢,最終幫助用戶把更多的時間和本錢轉移到對業(yè)務的投入上。隨著云計算和虛擬化技術向構建新一代數(shù)據(jù)中心方向開展,關鍵以虛擬化為根底,實現(xiàn)管理以及業(yè)務的集中,對數(shù)據(jù)中心資源進展動態(tài)調整和分配,重點滿足企業(yè)關鍵應用向*86系統(tǒng)遷移對于資源高性能、高可靠、平安性和高可適應性上的要求,同時提高根底架構的自動化管理水平,確保滿足根底設施快速適應業(yè)務的商業(yè)訴求,支持企業(yè)應用云化部署。云計算其實并不是一種新的技術,而是在一個新理念的驅動下產(chǎn)生的技術組合。在云計算之前,企業(yè)部署一套效勞,需要經(jīng)歷組網(wǎng)規(guī)劃,容量規(guī)劃,設備選型,下單,付款,發(fā)貨,運輸,安裝,部署,調試的整個完整過程。這個周期在大型工程中需要以周甚至月來計算。在引入云計算后,這整個周期縮短到以分鐘來計算。IT業(yè)有一條摩爾定律,芯片速度容量每18個月提升一倍。同時,IT行業(yè)還有一條反摩爾定律,所有無法追隨摩爾定律的廠家將被淘汰。IT行業(yè)是快魚吃慢魚的行業(yè),使用云計算可以提升IT設施供給效率,不使用則會拖慢產(chǎn)品或效勞的擴*腳步,一步慢步步慢。我們現(xiàn)在正處于一場幾十年未見的企業(yè)級數(shù)據(jù)中心革命性轉變中,究其核心,這一轉變是由“軟件〞根底設施的崛起而驅動。虛擬機、虛擬網(wǎng)絡和存儲設備能夠以高速自動化的方式分配與重新配置,不會受到非動態(tài)設置的硬件根底設施的限制,在“軟件定義數(shù)據(jù)中心〞的模型下,用戶首先考慮的是應用,根據(jù)應用的模式便可靈活的調配其所需的IT根底架構資源,也就是通過軟件化的方式實現(xiàn)硬件資源調配。深信服的超融合架構是軟件定義數(shù)據(jù)中心下的一套非常成熟的解決方案,除滿足上面所述的虛擬化,標準化和自動化訴求外,秉承深信服公司產(chǎn)品的優(yōu)秀基因,向您提供簡單易用,平安可靠的產(chǎn)品。白皮書總覽本書介紹的內容大致如下:第一章、在前言局部,給您對云計算,云平臺有一個概括性的認識,并對本文檔的閱讀給出指導。第二章、講述超融合架構中的主要功能模塊,各個功能模塊的技術細節(jié)介紹。第三章、介紹深信服超融合架構涵蓋的產(chǎn)品。第三章、向您介紹深信服超融合架構中的技術在為客戶帶來的核心價值。第四章、分享超融合架構在客戶中的實際應用場景,并給出深信服超融合架構產(chǎn)品的體驗途徑,非常歡迎您來試用。超融合架構概述超融合架構的定義超融合根底架構,是一種將計算、網(wǎng)絡和存儲等資源作為根本組成元素,根據(jù)系統(tǒng)需求進展選擇和預定義的一種技術架構,具體實現(xiàn)方式上一般是指在同一套單元節(jié)點〔*86效勞器〕中融入軟件虛擬化技術〔包括計算、網(wǎng)絡、存儲、平安等虛擬化〕,而每一套單元節(jié)點可以通過網(wǎng)絡聚合起來,實現(xiàn)模塊化的無縫橫向擴展〔scale-out〕,構建統(tǒng)一的資源池。深信服超融合架構組成模塊系統(tǒng)總體架構深信服超融合架構圖深信服超融合架構在基于底層根底架構〔標準的*86硬件〕上將計算、存儲、網(wǎng)絡、平安軟件化,通過這種軟件化的方式,即計算虛擬化aSV、存儲虛擬化aSAN、網(wǎng)絡虛擬化aNet,構建了數(shù)據(jù)中心里所需的最小資源單元,通過資源池中的最小單元,提供了數(shù)據(jù)中心IT根底架構中所需的全部資源。后續(xù)章節(jié),會針對超融合架構中的三大功能模塊:aSV、aSAN、aNet所涵蓋的產(chǎn)品技術來做詳細說明。aSV計算虛擬化平臺概述計算資源虛擬化技術就是將通用的*86效勞器經(jīng)過虛擬化軟件,對最終用戶呈現(xiàn)標準的虛擬機。這些虛擬機就像同一個廠家生產(chǎn)的系列化的產(chǎn)品一樣,具備系列化的硬件配置,使用一樣的驅動程序。虛擬機的定義:虛擬機(VirtualMachine)是由虛擬化層提供的高效、獨立的虛擬計算機系統(tǒng),每臺虛擬機都是一個完整的系統(tǒng),它具有處理器、內存、網(wǎng)絡設備、存儲設備和BIOS,因此操作系統(tǒng)和應用程序在虛擬機中的運行方式與它們在物理效勞器上的運行方式?jīng)]有什么區(qū)別。虛擬機與物理效勞器相比:虛擬機不是由真實的電子元件組成,而是由一組虛擬組件〔文件〕組成,這些虛擬組件與物理效勞器的硬件配置無關,關鍵與物理效勞器相比,虛擬機具有以下優(yōu)勢:抽象解耦1.可在任何*86架構的效勞器上運行;2.上層應用操作系統(tǒng)不需修改即可運行;分區(qū)隔離1.可與其他虛擬機同時運行;2.實現(xiàn)數(shù)據(jù)處理、網(wǎng)絡連接和數(shù)據(jù)存儲的平安隔離;封裝移動1.可封裝于文件之中,通過簡單的文件復制實現(xiàn)快速部署、備份及復原;2.可便捷地將整個系統(tǒng)〔包括虛擬硬件、操作系統(tǒng)和配置好的應用程序〕在不同的物理效勞器之間進展遷移,甚至可以在虛擬機正在運行的情況下進展遷移;深信服的超融合架構解決方案中的計算虛擬化采用aSV虛擬化系統(tǒng),通過將效勞器資源虛擬化為多臺虛擬機。最終用戶可以在這些虛擬機上安裝各種軟件,掛載磁盤,調整配置,調整網(wǎng)絡,就像普通的*86效勞器一樣使用它。計算虛擬化是超融合的架構中必不可少的關鍵因素,對于最終用戶,虛擬機比物理機的優(yōu)勢在于它可以很快速的發(fā)放,很方便的調整配置和組網(wǎng)。對于維護人員來講,虛擬機復用了硬件,這樣硬件更少加上云平臺的自動維護能力,這樣整個IT系統(tǒng)的本錢顯著降低。aSV技術原理Hypervisor架構Hypervisor是一種運行在物理效勞器和操作系統(tǒng)之間的中間軟件層,可允許多個操作系統(tǒng)和應用共享一套根底物理硬件,因此也可以看作是虛擬環(huán)境中的“元〞操作系統(tǒng),它可以協(xié)調訪問效勞器上的所有物理設備和虛擬機,也叫虛擬機監(jiān)視器〔VirtualMachineMonitor〕。Hypervisor是所有虛擬化技術的核心。非中斷地支持多工作負載遷移的能力是Hypervisor的根本功能。當效勞器啟動并執(zhí)行Hypervisor時,它會給每一臺虛擬機分配適量的內存、CPU、網(wǎng)絡和磁盤,并加載所有虛擬機的客戶操作系統(tǒng)。虛擬化技術架構Hypervisor,常見的Hypervisor分兩類:Type-I〔裸金屬型〕指VMM直接運作在裸機上,使用和管理底層的硬件資源,GuestOS對真實硬件資源的訪問都要通過VMM來完成,作為底層硬件的直接操作者,VMM擁有硬件的驅動程序。裸金屬虛擬化中Hypervisor直接收理調用硬件資源,不需要底層操作系統(tǒng),也可以理解為Hypervisor被做成了一個很薄的操作系統(tǒng)。這種方案的性能處于主機虛擬化與操作系統(tǒng)虛擬化之間。代表是VMwareES*Server、Citri**enServer和MicrosoftHyper-V,Linu*

KVM。Type-II型〔宿主型〕指VMM之下還有一層宿主操作系統(tǒng),由于GuestOS對硬件的訪問必須經(jīng)過宿主操作系統(tǒng),因而帶來了額外的性能開銷,但可充分利用宿主操作系統(tǒng)提供的設備驅動和底層效勞來進展內存管理、進程調度和資源管理等。主機虛擬化中VM的應用程序調用硬件資源時需要經(jīng)過:VM內核->Hypervisor->主機內核,導致性能是三種虛擬化技術中最差的。主機虛擬化技術代表是VMware

Server〔GS*〕、Workstation和Microsoft

Virtual

PC、Virtual

Server等。由于主機型Hypervisor的效率問題,深信服的aSV采用了裸機型Hypervisor中的Linu*KVM虛擬化,即為Type-I〔裸金屬型〕。KVM(Kenerl-basedVirtualMachine)是基于linu*內核虛擬化技術,自linu*2.6.20之后就集成在linu*的各個主要發(fā)行版本中。它使用linu*自身的調度器進展管理,所以相對于*en,其核心源碼很少。KVM是基于硬件虛擬化擴展〔Intel

VT-

*

〕和

QEMU

的修改版,KVM屬于Linu*kernel的一個模塊,可以用命令modprobe去加載KVM模塊。加載了該模塊后,才能進一步通過工具創(chuàng)立虛擬機。但是僅有KVM模塊是不夠的。因為用戶無法直接控制內核去做事情,還必須有一個運行在用戶空間的工具才行。這個用戶空間的工具,我們選擇了已經(jīng)成型的開源虛擬化軟件QEMU,QEMU也是一個虛擬化軟件,它的特點是可虛擬不同的CPU,比方說在*86的CPU上可虛擬一個power的CPU,并可利用它編譯出可運行在power上的CPU,并可利用它編譯出可運行在power上的程序。KVM使用了QEMU的一局部,并稍加改造,就成了可控制KVM的用戶空間工具了。這就是KVM和QEMU的關系。如以下圖:一個普通的linu*進程有兩種運行模式:內核和用戶。而KVM增加了第三種模式:客戶模式〔有自己的內核和用戶模式〕。在kvm模型中,每一個虛擬機都是由linu*調度程序管理的標準進程??傮w來說,kvm由兩個局部組成:一個是管理虛擬硬件的設備驅動,該驅動使用字符設備/dev/kvm作為管理接口;另一個是模擬PC硬件的用戶空間組件,這是一個稍作修改的qemu進程。同時,aSV采用KVM優(yōu)勢有:嵌入到Linu*正式Kernel(提高兼容性)代碼級資源調用〔提高性能〕虛擬機就是一個進程〔內存易于管理〕直接支持NUMA技術〔提高擴展性〕保持開源開展模式〔強大的社區(qū)支持〕aSV的Hypervisor實現(xiàn)VMM(VirtualMachineMonitor)對物理資源的虛擬可以劃分為三個局部:CPU虛擬化、內存虛擬化和I/O設備虛擬化,其中以CPU的虛擬化最為關鍵。經(jīng)典的虛擬化方法:現(xiàn)代計算機體系構造一般至少有兩個特權級〔即用戶態(tài)和核心態(tài),*86有四個特權級Ring0~Ring3〕用來分隔系統(tǒng)軟件和應用軟件。那些只能在處理器的最高特權級〔內核態(tài)〕執(zhí)行的指令稱之為特權指令,一般可讀寫系統(tǒng)關鍵資源的指令〔即敏感指令〕決大多數(shù)都是特權指令〔*86存在假設干敏感指令是非特權指令的情況〕。如果執(zhí)行特權指令時處理器的狀態(tài)不在內核態(tài),通常會引發(fā)一個異常而交由系統(tǒng)軟件來處理這個非法訪問〔陷入〕。經(jīng)典的虛擬化方法就是使用“特權解除〞和“陷入-模擬〞的方式,即將GuestOS運行在非特權級,而將VMM運行于最高特權級〔完全控制系統(tǒng)資源〕。解除了GuestOS的特權級后,GuestOS的大局部指令仍可以在硬件上直接運行,只有執(zhí)行到特權指令時,才會陷入到VMM模擬執(zhí)行〔陷入-模擬〕?!跋萑?模擬〞的本質是保證可能影響VMM正確運行的指令由VMM模擬執(zhí)行,大局部的非敏感指令還是照常運行。因為*86指令集中有假設干條指令是需要被VMM捕獲的敏感指令,但是卻不是特權指令〔稱為臨界指令〕,因此“特權解除〞并不能導致他們發(fā)生陷入模擬,執(zhí)行它們不會發(fā)生自動的“陷入〞而被VMM捕獲,從而阻礙了指令的虛擬化,這也稱之為*86的虛擬化漏洞。*86架構虛擬化的實現(xiàn)方式可分為:1、*86“全虛擬化〞〔指所抽象的VM具有完全的物理機特性,OS在其上運行不需要任何修改〕Full派秉承無需修改直接運行的理念,對“運行時監(jiān)測,捕捉后模擬〞的過程進展優(yōu)化。該派內部之實現(xiàn)又有些差異,其中以VMWare為代表的基于二進制翻譯(BT)的全虛擬化為代表,其主要思想是在執(zhí)行時將VM上執(zhí)行的GuestOS指令,翻譯成*86指令集的一個子集,其中的敏感指令被替換成陷入指令。翻譯過程與指令執(zhí)行穿插進展,不含敏感指令的用戶態(tài)程序可以不經(jīng)翻譯直接執(zhí)行。2、*86“半虛擬化〞〔指需OS協(xié)助的虛擬化,在其上運行的OS需要修改〕半虛擬化的根本思想是通過修改GuestOS的代碼,將含有敏感指令的操作,替換為對VMM的超調用Hypercall,類似OS的系統(tǒng)調用,將控制權轉移到VMM,該技術因VMM工程而廣為人知。該技術的優(yōu)勢在于VM的性能能接近于物理機,缺點在于需要修改GuestOS〔如:Windows不支持修改〕及增加的維護本錢,關鍵修改GuestOS會導致操作系統(tǒng)對特定hypervisor的依賴性,因此很多虛擬化廠商基于VMM開發(fā)的虛擬化產(chǎn)品局部已經(jīng)放棄了Linu*半虛擬化,而專注基于硬件輔助的全虛擬化開發(fā),來支持未經(jīng)修改的操作系統(tǒng)。3、*86“硬件輔助虛擬化〞:其根本思想就是引入新的處理器運行模式和新的指令,使得VMM和GuestOS運行于不同的模式下,GuestOS運行于受控模式,原來的一些敏感指令在受控模式下全部會陷入VMM,這樣就解決了局部非特權的敏感指令的“陷入-模擬〞難題,而且模式切換時上下文的保存恢復由硬件來完成,這樣就大大提高了“陷入-模擬〞時上下文切換的效率。以IntelVT-*硬件輔助虛擬化技術為例,該技術增加了在虛擬狀態(tài)下的兩種處理器工作模式:根〔Root〕操作模式和非根〔Non-root〕操作模式。VMM運作在Root操作模式下,而GuestOS運行在Non-root操作模式下。這兩個操作模式分別擁有自己的特權級環(huán),VMM和虛擬機的GuestOS分別運行在這兩個操作模式的0環(huán)。這樣,既能使VMM運行在0環(huán),也能使GuestOS運行在0環(huán),防止了修改GuestOS。Root操作模式和Non-root操作模式的切換是通過新增的CPU指令〔如:VM*ON,VM*OFF〕來完成。硬件輔助虛擬化技術消除了操作系統(tǒng)的ring轉換問題,降低了虛擬化門檻,支持任何操作系統(tǒng)的虛擬化而無須修改OS內核,得到了虛擬化軟件廠商的支持。硬件輔助虛擬化技術已經(jīng)逐漸消除軟件虛擬化技術之間的差異,并成為未來的開展趨勢。vCPU機制vCPU調度機制對虛擬機來說,不直接感知物理CPU,虛擬機的計算單元通過vCPU對象來呈現(xiàn)。虛擬機只看到VMM呈現(xiàn)給它的vCPU。在VMM中,每個vCPU對應一個VMCS〔Virtual-MachineControlStructure〕構造,當vcpu被從物理CPU上切換下來的時候,其運行上下文會被保存在其對應的VMCS構造中;當vcpu被切換到pcpu上運行時,其運行上下文會從對應的VMCS構造中導入到物理CPU上。通過這種方式,實現(xiàn)各vCPU之間的獨立運行。從虛擬機系統(tǒng)的構造與功能劃分可以看出,客戶操作系統(tǒng)與虛擬機監(jiān)視器共同構成了虛擬機系統(tǒng)的兩級調度框架,如以下圖是一個多核環(huán)境下虛擬機系統(tǒng)的兩級調度框架。客戶操作系統(tǒng)負責第2級調度,即線程或進程在vCPU上的調度〔將核心線程映射到相應的虛擬CPU上〕。虛擬機監(jiān)視器負責第1級調度,即vCPU在物理處理單元上的調度。兩級調度的調度策略和機制不存在依賴關系。vCPU調度器負責物理處理器資源在各個虛擬機之間的分配與調度,本質上即把各個虛擬機中的vCPU按照一定的策略和機制調度在物理處理單元上可以采用任意的策略來分配物理資源,滿足虛擬機的不同需求。vCPU可以調度在一個或多個物理處理單元執(zhí)行〔分時復用或空間復用物理處理單元〕,也可以與物理處理單元建立一對一固定的映射關系〔限制訪問指定的物理處理單元〕。內存虛擬化內存虛擬化三層模型因為VMM(VirtualMachineMonitor)掌控所有系統(tǒng)資源,因此VMM握有整個內存資源,其負責頁式內存管理,維護虛擬地址到機器地址的映射關系。因GuestOS本身亦有頁式內存管理機制,則有VMM的整個系統(tǒng)就比正常系統(tǒng)多了一層映射:A.虛擬地址(VA),指GuestOS提供給其應用程序使用的線性地址空間;B.物理地址(PA),經(jīng)VMM抽象的、虛擬機看到的偽物理地址;C.機器地址(MA),真實的機器地址,即地址總線上出現(xiàn)的地址信號;映射關系如下:GuestOS:PA=f(VA)、VMM:MA=g(PA)VMM維護一套頁表,負責PA到MA的映射。GuestOS維護一套頁表,負責VA到PA的映射。實際運行時,用戶程序訪問VA1,經(jīng)GuestOS的頁表轉換得到PA1,再由VMM介入,使用VMM的頁表將PA1轉換為MA1。頁表虛擬化技術普通MMU只能完成一次虛擬地址到物理地址的映射,在虛擬機環(huán)境下,經(jīng)過MMU轉換所得到的“物理地址〞并不是真正的機器地址。假設需得到真正的機器地址,必須由VMM介入,再經(jīng)過一次映射才能得到總線上使用的機器地址。如果虛擬機的每個內存訪問都需要VMM介入,并由軟件模擬地址轉換的效率是很低下的,幾乎不具有實際可用性,為實現(xiàn)虛擬地址到機器地址的高效轉換,現(xiàn)普遍采用的思想是:由VMM根據(jù)映射f和g生成復合的映射fg,并直接將這個映射關系寫入MMU。當前采用的頁表虛擬化方法主要是MMU類虛擬化〔MMUParavirtualization〕和影子頁表,后者已被內存的硬件輔助虛擬化技術所替代。1、MMUParavirtualization其根本原理是:當GuestOS創(chuàng)立一個新的頁表時,會從它所維護的空閑內存中分配一個頁面,并向VMM注冊該頁面,VMM會剝奪GuestOS對該頁表的寫權限,之后GuestOS對該頁表的寫操作都會陷入到VMM加以驗證和轉換。VMM會檢查頁表中的每一項,確保他們只映射了屬于該虛擬機的機器頁面,而且不得包含對頁表頁面的可寫映射。后VMM會根據(jù)自己所維護的映射關系,將頁表項中的物理地址替換為相應的機器地址,最后再把修改正的頁表載入MMU。如此,MMU就可以根據(jù)修改正頁表直接完成虛擬地址到機器地址的轉換。2、內存硬件輔助虛擬化內存硬件輔助虛擬化技術原理圖內存的硬件輔助虛擬化技術是用于替代虛擬化技術中軟件實現(xiàn)的“影子頁表〞的一種硬件輔助虛擬化技術,其根本原理是:GVA〔客戶操作系統(tǒng)的虛擬地址〕->GPA〔客戶操作系統(tǒng)的物理地址〕->HPA〔宿主操作系統(tǒng)的物理地址〕兩次地址轉換都由CPU硬件自動完成〔軟件實現(xiàn)內存開銷大、性能差〕。以VT-*技術的頁表擴大技術E*tendedPageTable〔EPT〕為例,首先VMM預先把客戶機物理地址轉換到機器地址的EPT頁表設置到CPU中;其次客戶機修改客戶機頁表無需VMM干預;最后,地址轉換時,CPU自動查找兩*頁表完成客戶機虛擬地址到機器地址的轉換。使用內存的硬件輔助虛擬化技術,客戶機運行過程中無需VMM干預,去除了大量軟件開銷,內存訪問性能接近物理機。I/O設備虛擬化VMM通過I/O虛擬化來復用有限的外設資源,其通過截獲GuestOS對I/O設備的訪問請求,然后通過軟件模擬真實的硬件,目前I/O設備的虛擬化方式主要有三種:設備接口完全模擬、前端/后端模擬、直接劃分。1、設備接口完全模擬:即軟件準確模擬與物理設備完全一樣的接口,GuestOS驅動無須修改就能驅動這個虛擬設備。優(yōu)點:沒有額外的硬件開銷,可重用現(xiàn)有驅動程序;缺點:為完成一次操作要涉及到多個存放器的操作,使得VMM要截獲每個存放器訪問并進展相應的模擬,這就導致屢次上下文切換;由于是軟件模擬,性能較低。2、前端/后端模擬:VMM提供一個簡化的驅動程序〔后端,Back-End〕,GuestOS中的驅動程序為前端(Front-End,FE),前端驅動將來自其他模塊的請求通過與GuestOS間的特殊通信機制直接發(fā)送給GuestOS的后端驅動,后端驅動在處理完請求后再發(fā)回通知給前端,VMM即采用該方法。優(yōu)點:基于事務的通信機制,能在很大程度上減少上下文切換開銷,沒有額外的硬件開銷;缺點:需要GuestOS實現(xiàn)前端驅動,后端驅動可能成為瓶頸。3、直接劃分:即直接將物理設備分配給*個GuestOS,由GuestOS直接訪問I/O設備〔不經(jīng)VMM〕,目前與此相關的技術有IOMMU〔IntelVT-d,PCI-SIG之SR-IOV等〕,旨在建立高效的I/O虛擬化直通道。優(yōu)點:可重用已有驅動,直接訪問減少了虛擬化開銷;缺點:需要購置較多額外的硬件。aSV的技術特性內存NUMA技術非統(tǒng)一內存訪問〔NUMA〕是效勞器CPU和內存設計的新架構。傳統(tǒng)的效勞器架構下把內存放到單一的存儲池中,這對于單處理器或單核心的系統(tǒng)工作良好。但是這種傳統(tǒng)的統(tǒng)一訪問方式,在多核心同時訪問內存空間時會導致資源爭用和性能問題。畢竟,CPU應該可以訪問所有的效勞器內存,但是不需要總是保持占用。實際上,CPU僅需要訪問工作負載實際運行時所需的內存空間就可以了。因此NUMA改變了內存對CPU的呈現(xiàn)方式。這是通過對效勞器每個CPU的內存進展分區(qū)來實現(xiàn)的。每個分區(qū)〔或內存塊〕稱為NUMA節(jié)點,而和該分區(qū)相關的處理器可以更快地訪問NUMA內存,而且不需要和其它的NUMA節(jié)點爭用效勞器上的資源〔其它的內存分區(qū)分配給其它處理器〕。NUMA的概念跟緩存相關。處理器的速度要比內存快得多,因此數(shù)據(jù)總是被移動到更快的本地緩存,這里處理器訪問的速度要比通用內存快得多。NUMA本質上為每個處理器配置了獨有的整體系統(tǒng)緩存,減少了多處理器試圖訪問統(tǒng)一內存空間時的爭用和延遲。NUMA與效勞器虛擬化完全兼容,而且NUMA也可以支持任意一個處理器訪問效勞器上的任何一塊內存區(qū)域。*個處理器當然可以訪問位于不同區(qū)域上的內存數(shù)據(jù),但是需要更多本地NUMA節(jié)點之外的傳輸,并且需要目標NUMA節(jié)點確實認。這增加了整體開銷,影響了CPU和內存子系統(tǒng)的性能。NUMA對虛擬機負載不存在任何兼容性問題,但是理論上虛擬機最完美的方式應該是在*個NUMA節(jié)點內。這可以防止處理器需要跟其它的NUMA節(jié)點交互,從而導致工作負載性能下降。深信服的aSV支持NUMA技術,使得hypervisor和上層OS內存互連,這樣OS不會在CPU和NUMA節(jié)點之間遷移工作負載。SR-IOV通常針對虛擬化效勞器的技術是通過軟件模擬共享和虛擬化網(wǎng)絡適配器的一個物理端口,以滿足虛擬機的I/O需求,模擬軟件的多個層為虛擬機作了I/O決策,因此導致環(huán)境中出現(xiàn)瓶頸并影響I/O性能。aSV虛擬化平臺提供的SR-IOV是一種不需要軟件模擬就可以共享I/O設備I/O端口的物理功能的方法,主要利用iNIC實現(xiàn)網(wǎng)橋卸載虛擬網(wǎng)卡,允許將物理網(wǎng)絡適配器的SR-IOV虛擬功能直接分配給虛擬機,可以提高網(wǎng)絡吞吐量,并縮短網(wǎng)絡延遲,同時減少處理網(wǎng)絡流量所需的主機CPU開銷。技術原理:SR-IOV〔SingleRootI/OVirtualization〕是PCI-SIG推出的一項標準,是虛擬通道〔在物理網(wǎng)卡上對上層軟件系統(tǒng)虛擬出多個物理通道,每個通道具備獨立的I/O功能〕的一個技術實現(xiàn),用于將一個PCIe設備虛擬成多個PCIe設備,每個虛擬PCIe設備如同物理PCIe設備一樣向上層軟件提供效勞。通過SR-IOV一個PCIe設備不僅可以導出多個PCI物理功能,還可以導出共享該I/O設備上的資源的一組虛擬功能,每個虛擬功能都可以被直接分配到一個虛擬機,能夠讓網(wǎng)絡傳輸繞過軟件模擬層,直接分配到虛擬機,實現(xiàn)了將PCI功能分配到多個虛擬接口以在虛擬化環(huán)境中共享一個PCI設備的目的,并且降低了軟加模擬層中的I/O開銷,因此實現(xiàn)了接近本機的性能。如以下圖,在這個模型中,不需要任何透傳,因為虛擬化在終端設備上發(fā)生,允許管理程序簡單地將虛擬功能映射到VM上以實現(xiàn)本機設備性能和隔離平安。SR-IOV虛擬出的通道分為兩個類型:1、PF(PhysicalFunction)是完整的PCIe設備,包含了全面的管理、配置功能,Hypervisor通過PF來管理和配置網(wǎng)卡的所有I/O資源。2、VF(VirtualFunciton)是一個簡化的PCIe設備,僅僅包含了I/O功能,通過PF衍生而來好象物理網(wǎng)卡硬件資源的一個切片,對于Hypervisor來說,這個VF同一塊普通的PCIe網(wǎng)卡一模一樣。通過SR-IOV可滿足高網(wǎng)絡IO應用要求,無需特別安裝驅動,且無損熱遷移、內存復用、虛擬機網(wǎng)絡管控等虛擬化特性。Faik-raid一般情況下,當主機系統(tǒng)有多塊硬盤時,通過組建Raid以提升磁盤性能或提供磁盤冗余,往往成為人們的首選考量。當今主流raid實現(xiàn)方案大致可分為三種:硬件raid(hardwareraid):通過購置昂貴的raid卡實現(xiàn)。軟件raid(softwareraid):通過操作系統(tǒng)內軟件創(chuàng)立陣列,raid處理開銷由CPU負責。主板raid(fakeraid):通過主板內建raid控制器創(chuàng)立陣列,由操作系統(tǒng)驅動識別。相對于昂貴的硬件,主板raid(fakeraid)就成了我們不錯的選擇。Fakeraid僅提供廉價的控制器,raid處理開銷仍由CPU負責,因此性能與CPU占用根本與softwareraid持平。aSV3.7融入了對Fake-RAID的支持,現(xiàn)可支持Fake-RAID安裝與使用Fake-RAID存儲,目前可以使用intel模式的raid0,raid1,raid5,raid10,LSI模式的raid0虛擬機生命周期管理aSV提供了虛擬機從創(chuàng)立至刪除整個過程中的全面管理,就像人類的生命周期一樣,虛擬機最根本的生命周期就是創(chuàng)立、使用和刪除這三個狀態(tài)。當然還包含如下幾個狀態(tài):創(chuàng)立虛擬機虛擬機開關機、重啟、掛起虛擬機上的操作系統(tǒng)安裝創(chuàng)立模板更新虛擬機硬件配置遷移虛擬機及/或虛擬機的存儲資源分析虛擬機的資源利用情況虛擬機備份虛擬機恢復刪除虛擬機在虛擬機生命周期內,虛擬機可能會在*一個時間點經(jīng)歷上述這些狀態(tài)。aSV提供了完善的虛擬機生命周期管理工具,我們可以通過對虛擬機生命周期的規(guī)劃,可以想要最大化的發(fā)揮虛擬機的作用。虛擬機熱遷移虛擬化環(huán)境中,物理效勞器和存儲上承載更多的業(yè)務和數(shù)據(jù),設備故障時造成的影響更大。aSV虛擬化平臺提供虛擬機熱遷移技術,降低宕機帶來的風險、減少業(yè)務中斷的時間。aSV虛擬機熱遷移技術是指把一個虛擬機從一臺物理效勞器遷移到另一臺物理效勞器上,即虛擬機保存/恢復(Save/Restore)。首先將整個虛擬機的運行狀態(tài)完整保存下來,同時可以快速的恢復到目標硬件平臺上,恢復以后虛擬機仍舊平滑運行,用戶不會覺察到任何差異。虛擬機的熱遷移技術主要被用于雙機容錯、負載均衡和節(jié)能降耗等應用場景。aSV虛擬化平臺熱遷移提供內存壓縮技術,使熱遷移效率提升一倍,可支持并發(fā)多達4臺虛擬機同時遷移。功能價值:1.在設備維護過程中,通過熱遷移手動將應用遷移至另一臺效勞器,維護完畢后再遷回來,中間應用不停機,減少方案內宕機時間。2.可結合資源動態(tài)調度策略,例如在夜晚虛擬機負荷減少時,通過預先配置自動將虛擬機遷移集中至局部效勞器,減少效勞器的運行數(shù)量,從而降低設備運營能耗上的支出。aSV的特色技術快虛在實際的IT應用系統(tǒng)在部署虛擬化的時候,會存在虛擬化遷移的需求,為了實現(xiàn)將windows主機系統(tǒng)下的應用系統(tǒng)平滑的遷移至VM環(huán)境中,除了傳統(tǒng)的P2V、V2V工具,深信服采用技術創(chuàng)新,基于Windows環(huán)境中,推出了獨有的快虛技術??焯摷夹g實現(xiàn)原理為:在Windows環(huán)境下,先創(chuàng)立一個虛擬磁盤文件,并使用Windows驅動程序對虛擬磁盤進展保護,保證虛擬磁盤文件占用的物理扇區(qū)不會被移動.獲取虛擬磁盤文件所占的物理簇信息,并保存到當前系統(tǒng)盤下的配置文件中,安裝aSV的引導程序以及內核到當前Windows系統(tǒng)盤下,安裝系統(tǒng)引導程序,并向系統(tǒng)引導中添加aSV的引導項,默認引導到aSV系統(tǒng).當在aSV中向虛擬磁盤讀寫數(shù)據(jù)時,虛擬磁盤驅動根據(jù)讀寫的扇區(qū)位置重新定位到虛擬磁盤文件所對應的物理扇區(qū),實現(xiàn)數(shù)據(jù)的存取,下次進入aSV系統(tǒng)后仍然可以讀寫已有數(shù)據(jù)。通過快虛技術,既實現(xiàn)了將應用環(huán)境遷移到了虛擬機環(huán)境中,同時在現(xiàn)有的物理主機效勞器之上,快速的構建了虛擬化底層的hypervisor。虛擬機的HAHA全稱是HighAvailability(高可用性)。在aSV環(huán)境中,如果出現(xiàn)部署了HA的虛擬機所在主機的物理口網(wǎng)線被拔出、或存儲不能訪問等出現(xiàn)的物理故障時,會將此虛擬機切換到其他的主機上運行,保障虛擬機上的業(yè)務正常使用。aSV存在后臺進程,通過輪詢的機制,每隔5s檢測一次虛擬機狀態(tài)是否異常,發(fā)現(xiàn)異常時,切換HA虛擬機到其他主機運行。下面任意一種情況發(fā)生,都會觸發(fā)HA虛擬機切換主機,1、連續(xù)三次檢測到,虛擬機所連接的物理網(wǎng)卡被拔出〔不包括網(wǎng)卡被禁用情況〕2、連續(xù)兩次檢測到,虛擬機當前主機無法訪問虛擬機的存儲通過aSV的HA技術,對業(yè)務系統(tǒng)提供了高可用性,極大縮短了由于各種主機物理或者鏈路故障引起的業(yè)務中斷時間。動態(tài)資源調度在虛擬化環(huán)境中,如果生產(chǎn)環(huán)境的應用整合到硬件資源相對匱乏的物理主機上,虛擬機的資源需求往往會成為瓶頸,全部資源需求很有可能超過主機的可用資源,這樣業(yè)務系統(tǒng)的性能也無法保障。aSV虛擬化管理平臺提供的動態(tài)資源調度技術,通過引入一個自動化機制,持續(xù)地動態(tài)平衡資源能力,將虛擬機遷移到有更多可用資源的主機上,確保每個虛擬機在任何節(jié)點都能及時地調用相應的資源。即便大量運行對CPU和內存占用較高的虛擬機〔比方數(shù)據(jù)庫虛擬機〕,只要開啟了動態(tài)資源調度功能,就可實現(xiàn)全自動化的資源分配和負載平衡功能,也可以顯著地降低數(shù)據(jù)中心的本錢與運營費用。aSV的動態(tài)資源調度功能其實現(xiàn)原理:通過跨越集群之間的心跳機制,定時監(jiān)測集群內主機的CPU和內存等計算資源的利用率,并根據(jù)用戶自定義的規(guī)則來判斷是否需要為該主機在集群內尋找有更多可用資源的主機,以將該主機上的虛擬機通過虛擬機遷移技術遷移到另外一臺具有更多適宜資源的效勞器上,或者將該效勞器上其它的虛擬機遷移出去,從而保證*個關鍵虛擬機的資源需求。多USB映射當物理效勞器部署虛擬化之后。其中類似金蝶等需要通過usbkey進展應用加密的效勞器,轉化到虛擬化后,需要將插在虛擬化平臺上的硬件key,映射給虛擬機,而且需要滿足虛擬機熱遷移、跨主機映射的需求。業(yè)界給出的方案有三種:一、采用主機映射:直接采用主機映射的方式來完成,缺點是不支持網(wǎng)絡映射,無法支持熱遷移、網(wǎng)絡映射的需求。二、采用UsbAnywhere:通過使用中間設備,將中間設備IP化,然后在虛擬機上安裝驅動并配置對端設備的方式進展的。缺點是需要guest虛擬機內部進展修改安裝特定軟件,與第三方應用進展配合才能完成。三、采用底層硬件虛擬化加網(wǎng)絡代理:支持熱遷移、網(wǎng)絡映射、無需修改guest機內部。最終實現(xiàn),物理設備遷移到虛擬化平臺后,可以直接無縫的操作讀取原usb硬件設備。同時解決上述兩種方案中的缺陷,破除了在虛擬化推廣中外設映射造成的阻礙。熱遷移功能的實現(xiàn)機制:由于整體方案是基于網(wǎng)絡代理處理,所以在遷移到對端設備,進展虛擬機切換時,發(fā)送消息,觸發(fā)usb效勞程序修改連接的目的端ip,然后發(fā)起網(wǎng)絡重連。隧道一旦重連成功,usb設備通信隨即恢復,對于guest上層來說,是無感知的。aSV采用上述的第三種方案,融入了對多USB的支持,帶來的優(yōu)勢有:1、usb設備動態(tài)插入提示2、guest虛擬機無需安裝插件;3、能支持熱遷移,跨主機映射,適應VMP集群環(huán)境;4、虛擬機遷移完成可以自動掛載上原usb設備;5、可以簡化集成為類似usbhub的小設備,與VMP配套,搭建usb映射環(huán)境;6、虛擬機故障重啟、目標端usb設備網(wǎng)絡中斷等異常情況恢復后自動重映射。aSAN存儲虛擬化存儲虛擬化概述虛擬后對存儲帶來的挑戰(zhàn)采用計算虛擬化技術給效勞器帶來更高的資源利用率、給業(yè)務帶來更便捷的部署,降低了TCO,與此同時,效勞器虛擬化的部署給存儲帶來以下挑戰(zhàn):相比傳統(tǒng)的物理效勞器方式,單個存儲系統(tǒng)承載了更多的業(yè)務,存儲系統(tǒng)需要更強勁的性能來支撐;采用共享存儲方式部署虛擬機,單個卷上可能承載幾十或上百的虛擬機,導致卷IO呈現(xiàn)更多的隨機特征,這對傳統(tǒng)的Cache技術提出挑戰(zhàn);單個卷承載多個虛擬機業(yè)務,要求存儲系統(tǒng)具備協(xié)調虛擬機訪問競爭,保證對IO吞吐要求高的虛擬機獲取到資源實現(xiàn)性能目標;單個卷上承載較多的虛擬機,需要卷具有很高的IO性能,這對傳統(tǒng)受限于固定硬盤的RAID技術提出挑戰(zhàn)。分布式存儲技術的開展業(yè)界典型的分布式存儲技術主要有分布式文件系統(tǒng)存儲、分布式對象存儲和分布式塊設備存儲等幾種形式。分布式存儲技術ServerSAN及其相關產(chǎn)品已經(jīng)日趨成熟,并在IT行業(yè)得到了廣泛的使用和驗證,例如互聯(lián)網(wǎng)搜索引擎中使用的分布式文件存儲,商業(yè)化公有云中使用的分布式塊存儲等。分布式存儲軟件系統(tǒng)具有以下特點:高性能:數(shù)據(jù)分散存放,實現(xiàn)全局負載均衡,分布式緩存;高可靠:采用集群管理方式,不存在單點故障,靈活配置多數(shù)據(jù)副本,不同數(shù)據(jù)副本存放在不同的機架、效勞器和硬盤上,單個物理設備故障不影響業(yè)務的使用,系統(tǒng)檢測到設備故障后可以自動重建數(shù)據(jù)副本;高擴展:沒有集中式存儲控制器,支持平滑擴容,容量幾乎不受限制;易管理:存儲軟件直接部署在效勞器上,沒有單獨的存儲專用硬件設備,通過Web頁面的方式進展存儲的管理,配置和維護簡單。深信服aSAN概述aSAN是深信服在充分掌握了用戶對虛擬化環(huán)境存儲方面的需求根底上,推出以aSAN分布式存儲軟件為核心的解決方案,aSAN是基于分布式文件系統(tǒng)Glusterfs開發(fā)的面對存儲虛擬化的一款產(chǎn)品,并作為超融合架構中的重要組成局部,為云計算環(huán)境而設計,融合了分布式緩存、SSD讀寫緩存加速、多副本機制保障、故障自動重構機制等諸多存儲技術,能夠滿足關鍵業(yè)務的存儲需求,保證客戶業(yè)務高效穩(wěn)定可靠的運行。aSAN技術原理aSAN基于底層Hypervisor之上,通過主機管理、磁盤管理、緩存技術、存儲網(wǎng)絡、冗余副本等技術,管理集群內所有硬盤,“池化〞集群所有硬盤存儲的空間,通過向VMP提供訪問接口,使得虛擬機可以進展業(yè)務數(shù)據(jù)的保存、管理和讀寫等整個存儲過程中的操作。主機管理aSAN需要基于VMP集群獲取集群內主機信息,因此在構建aSAN時,首先會要求建立VMP集群,所以在aSAN的環(huán)境中,至少需要2臺主機節(jié)點來構建aSAN。文件副本由于下一節(jié)磁盤管理的策略與副本設置有直接收理,因此在講解磁盤管理前,我們要先介紹文件副本技術。所謂文件副本,即將文件數(shù)據(jù)保存多份的一種冗余技術。aSAN副本顆粒度是文件級別。例如兩個副本,即把文件A同時保存到磁盤1和磁盤2上。并且保證在無故障情況下,兩個副本始終保持一致。技術特點:存儲池可用空間=集群全部機械磁盤空間/副本數(shù)〔同構情況〕,因此副本是會降低實際可用容量的。底層管理的副本對上層效勞是透明的,上層無法感知副本的存在。磁盤管理、副本分布由底層效勞負責,副本顆粒度是文件級。在沒有故障等異常情況下,文件副本數(shù)據(jù)是始終一致的,不存在所謂主副本和備副本之分。如果對文件A進展修改,如寫入一段數(shù)據(jù),這段數(shù)據(jù)會被同時寫到兩個副本文件。如果是從文件A讀取一段數(shù)據(jù),則只會從其中一個副本讀取。磁盤管理aSAN磁盤管理效勞根據(jù)集群內主機數(shù)和aSAN初始化時所選擇的副本數(shù)決定集群內所有受管磁盤的組織策略。在多主機集群下,可采用兩個副本或三個副本組建aSAN的磁盤管理,為了支持主機故障而不影響數(shù)據(jù)完整性的目標,復制卷的磁盤組的每個磁盤都必須是在不同主機上。即需要做到跨主機副本??缰鳈C副本的關鍵在于復制卷磁盤分組算法。以下面場景為列〔兩臺主機,每臺主機各三塊磁盤組建兩個副本〕:當構建兩副本,并且兩臺主機磁盤數(shù)一樣時。主機間的磁盤會一一對應組成復制卷。邏輯視圖如下:從邏輯視圖上,可以看出來和前面提到的單主機邏輯視圖并沒有本質上的區(qū)別,只是最底層的磁盤分組時,保證了復制卷內下面的磁盤不在同一主機內,從而到達了文件跨主機副本的目標。SSD讀緩存加速原理在aSAN里面,會默認把系統(tǒng)內的SSD磁盤作為緩存盤使用,下面介紹aSANSSD讀緩存原理。首先需要區(qū)分aSAN客戶端和效勞端概念。在aSAN里面,負責處理底層磁盤IO稱為效勞端;負責向上層提供存儲接口〔如訪問的掛載點〕稱為客戶端。aSANSSD讀緩存工作在客戶端,〔注意:aSAN的SSD寫緩存則工作在效勞端〕。邏輯視圖如下:下面拋開底層的分布卷、復制卷、磁盤分組等概念,僅在客戶端上理解SSD讀緩存的原理。SSD讀緩存的緩存顆粒度是按文件數(shù)據(jù)塊緩存,不是文件整體。例如,A、B、C三個文件,可以分別各緩存讀過的一局部數(shù)據(jù),沒讀過的局部不緩存。簡單地看,SSD讀緩存模塊工作在文件訪問入口和效勞端通信層之間。所有對文件的IO動作都會經(jīng)過SSD讀緩存模塊進展處理。下面分別針對首次文件讀取、二次文件讀取、文件寫入3個過程說明工作流程。首次文件讀取未緩存數(shù)據(jù)塊的首次讀操作步驟說明:從上層下來一個針對A文件的區(qū)間塊[A1,A2]的讀操作,由于該數(shù)據(jù)塊是首次讀取,沒命中SSD讀緩存。該讀操作會直接傳遞到下去,進入流程2。[A1,A2]的讀操作繼續(xù)傳遞到效勞端,進展具體的讀操作,完成后返回,進入流程3數(shù)據(jù)塊[A1,A2]在流程3里面返回到SSD讀緩存模塊,進入流程4SSD讀緩存模塊會把數(shù)據(jù)塊[A1,A2]復制一份保存到SSD磁盤并建立相關索引,對應4.1。原數(shù)據(jù)塊[A1,A2]繼續(xù)往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發(fā)進展,因此這個緩存動作不會對原操作造成延時。至此,數(shù)據(jù)塊[A1,A2]就被保存到SSD磁盤內,以備下次讀取直接從SSD磁盤讀取。二次文件讀取針對已緩存數(shù)據(jù)塊的二次讀取步驟說明:假設數(shù)據(jù)塊[A1,A2]已經(jīng)緩存到SSD磁盤內,從上層下來一個同樣是針對A文件的區(qū)間塊[A1,A2]的讀操作。由于該數(shù)據(jù)塊[A1,A2]已經(jīng)有緩存,在SSD讀緩存模塊里面命中索引,從而直接向SSD磁盤發(fā)起讀出緩存數(shù)據(jù)塊[A1,A2]的操作。緩存數(shù)據(jù)塊[A1,A2]從SSD磁盤返回到SSD讀緩存模塊,進入流程4SSD讀緩存模塊把緩存數(shù)據(jù)塊[A1,A2]返回給上層。至此,對緩存數(shù)據(jù)塊[A1,A2]的重復讀取直接在客戶端返回,防止了效勞端通信的流程,從而減少了延時和減輕了底層磁盤的IO壓力。文件寫入雖然當前aSAN實現(xiàn)的讀緩存,但對于讀緩存模塊對于文件寫入操作,也需要做相應的處理,以保證緩存的內容始終和底層磁盤一致,并且是最新的,但這個針對文件寫入的處理并不是寫緩存。aSAN讀緩存模塊對寫操作進展處理實質是基于最近訪問原則,即最近寫入的數(shù)據(jù)在不久的將來被讀出的概率會比較高,例如文件共享效勞器,*人傳到文件效勞器的文件,很快會其他人讀出來下載。aSAN讀緩存對寫操作的處理從實現(xiàn)上分為首次寫預緩存、二次寫更新緩存。文件塊首次寫預緩存流程說明:假設數(shù)據(jù)塊[A1,A2]是首次寫入。寫操作寫來經(jīng)過SSD讀緩存模塊。由于是寫操作,SSD讀緩存會直接PASS到下層寫操作一直傳遞到效勞端,寫入到底層磁盤,操作完成后會返回結果,進入流程3返回結果經(jīng)過SSD讀緩存模塊,如果返回結果是成功的,表示底層數(shù)據(jù)已經(jīng)成功寫入,則進入流程4。如果返回結果是失敗,則不會進入流程4,而是直接返回結果到上層。SSD讀緩存模塊會把數(shù)據(jù)塊[A1,A2]復制一份保存到SSD磁盤并建立相關索引,對應4.1。原返回結果繼續(xù)往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發(fā)進展,因此這個緩存動作不會對原操作造成延時。至此,數(shù)據(jù)塊[A1,A2]的寫入也會保存到SSD磁盤上,以備下次訪問。下次訪問的流程與二次文件讀取流程一樣,從而提升了下次訪問數(shù)據(jù)的速度。文件塊二次寫更新緩存SSD讀緩存文件塊寫更新是指對SSD讀緩存已緩存的數(shù)據(jù)塊進展更新的動作。假設數(shù)據(jù)塊[A1,A2]原來已經(jīng)有緩存了,現(xiàn)在上層再次對[A1,A2]來一次寫操作〔例如更新內容〕。寫操作寫來經(jīng)過SSD讀緩存模塊,由于是寫操作,SSD讀緩存會直接PASS到下層寫操作一直傳遞到效勞端,寫入到底層磁盤,操作完成后會返回結果,進入流程3返回結果經(jīng)過SSD讀緩存模塊,如果返回結果是成功的,表示底層數(shù)據(jù)已經(jīng)成功寫入,可以更新SSD讀緩存數(shù)據(jù),進入流程4。如果返回結果是失敗,則不會進入更新流程。SSD讀緩存模塊會把數(shù)據(jù)塊[A1,A2]復制一份更新到SSD磁盤并建立相關索引,對應4.1。原返回結果繼續(xù)往上返回到上層響應讀操作,對應4.2。注意4.1、4.2是并發(fā)進展,因此這個緩存動作不會對原操作造成延時。SSD寫緩存加速原理SSD寫緩存功能在aSAN2.0開場支持。SSD寫緩存工作在效勞端。由于寫緩存工作在效勞端,也就是說在每個副本上都有寫緩存,即SSD寫緩存也是多副本的。即使有SSD磁盤突然損壞,也能在副本數(shù)*圍內保證數(shù)據(jù)的平安。SSD寫緩存模塊構造SSD寫緩存原理是在機械硬盤上增加一層SSD寫緩存層,見以下圖:SSD寫緩存數(shù)據(jù)流分成藍色和紅色兩局部。這兩局部是同時在運行的,沒有先后關系。藍色局部是虛擬機有數(shù)據(jù)寫入SSD緩存,紅色局部是從SSD緩存讀出數(shù)據(jù)回寫到機械磁盤。流程如下:上層寫入數(shù)據(jù)請求到達SSD寫緩存模塊SSD寫緩存模塊把數(shù)據(jù)寫入到SSD磁盤,并獲得返回值。SSD寫緩存模塊在確定數(shù)據(jù)寫入SSD磁盤后,即立即返回上層模塊寫入成功SSD寫緩存模塊在緩存數(shù)據(jù)累計到一定量后,從SSD磁盤讀出數(shù)據(jù)SSD寫緩存把從SSD磁盤讀出的數(shù)據(jù)回寫到機械磁盤。其中,第4、5步是在后臺自動進展的,不會干擾第1、2、3步的邏輯。SSD寫緩存數(shù)據(jù)讀命中從SSD磁盤回寫到機械磁盤是需要累積一定數(shù)據(jù)量后才會進展觸發(fā)的。這時如果來了一個讀數(shù)據(jù)的請求,SSD寫緩存模塊會先確認該讀請求是否在SSD寫緩存數(shù)據(jù)內,如果有則從SSD緩存內返回;如果沒有則透到機械硬盤去讀取。流程說明:上層下發(fā)讀請求SSD寫緩存模塊先檢查數(shù)據(jù)是否還在緩存內未回寫命中緩存,返回數(shù)據(jù)〔如果不命中緩存,則會返回從底層數(shù)據(jù)盤讀取〕向上層返回數(shù)據(jù)SSD寫緩存寫滿后處理如果上層持續(xù)對SSD寫緩存進展大量不連續(xù)的數(shù)據(jù)寫入,直到SSD寫緩存空間用完。這時的上次繼續(xù)寫入數(shù)據(jù)的速度就會下降至約等于寫緩存回寫機械盤的速度。當SSD磁盤用滿時會出現(xiàn)寫入數(shù)據(jù)流速度<=回寫數(shù)據(jù)流速度。在虛擬機層面看,就是寫入數(shù)據(jù)下降到機械盤速度。如果持續(xù)出現(xiàn)這種情況,說明SSD磁盤容量缺乏以應對業(yè)務IO寫性能,需要增加SSD緩存盤解決。當SSD磁盤故障或離線時的處理如前文所說,SSD寫緩存工作于效勞端,有多副本機制。在多主機多副本場景下,如果一個SSD磁盤損壞后,其他副本的SSD還正常情況下,對數(shù)據(jù)平安不會造成影響。一旦SSD離線超過10分鐘,緩存數(shù)據(jù)就視作失效,進入副本修復流程。由于所有數(shù)據(jù)都是被SSD接收的,因此如果是誤拔出SSD硬盤,需要在10分鐘內插回來,否則會認為該副本數(shù)據(jù)全部需要重建。aSAN存儲數(shù)據(jù)可靠性保障磁盤故障時的保障機制如果在磁盤故障后,超過了設置的超時時間依然沒有人工介入處理,aSAN將會自動進展數(shù)據(jù)重建,以保證數(shù)據(jù)副本數(shù)完備,確保數(shù)據(jù)可靠性。同時采用了熱備盤的保障機制。aSAN在初始化階段會自動配置至少把集群里副本數(shù)個磁盤作為熱備盤。注意不是每個主機一個熱備盤,而是一個集群里面全局使用。熱備盤在初始化時不會納入aSAN復制卷內,只是作為一個不使用的磁盤帶電存在,因此熱備盤的空間不會反映到aSAN的空間里面。例如兩個副本時會至少保存兩個熱備盤,三個副本時會至少保存三個熱備盤。這些熱備盤不會集中在一個主機上面,而是分布在不同主機上〔符合副本跨主機原則〕。下面以3主機2副本,每主機4個硬盤為例子。上圖是3主機2副本,每主機4磁盤的分組例子。其中磁盤A4、磁盤C3是作為熱備盤保存的,并沒有組成復制卷參加到aSAN存儲池內。當任何一個主機的任意一個硬盤發(fā)生故障時,都可以按照跨主機副本原則自動使用A4或者C3來替換。例1:C2損壞〔C3或者A4均可以用作替換〕例2:A3損壞〔C3或者A4均可以用作替換〕例3:B4損壞〔注意:這時只能用A4替換,原因是C3和C4同主機〕在aSAN自動使用熱備盤替換故障磁盤后,UI上依然會顯示原來的故障磁盤損壞,可以進展更換磁盤。這時新替換的硬盤會作為新熱備盤使用,不需要執(zhí)行數(shù)據(jù)回遷。這一點與前文沒有熱備盤會做數(shù)據(jù)回遷是不一樣的。以上面例子3為例,B4損壞后,熱備盤A4自動替換B4和C4建成新復制卷5。然后人工介入,把損壞的B4用新磁盤替換,這時新B4會直接做熱備盤使用,不再由數(shù)據(jù)回遷。故障磁盤替換所有過程都可以帶業(yè)務進展,不需要停機停頓業(yè)務,就可以完成故障磁盤的替換,數(shù)據(jù)重建,相比RAID系統(tǒng)停業(yè)務重建有更大的可用性。主機故障時的保障機制aSAN在多主機集群下,復制卷有個最高原則:跨主機建立復制卷。該原則的目的是為了到達在主機出現(xiàn)故障時,數(shù)據(jù)依然可用。在2主機2副本模式下,當主機B整個離線或,可以看到任何一個復制卷都依然有一個副本存在主機A上,數(shù)據(jù)依然可用,影響只是少了個副本。在2主機2副本模式下,當主機B整個離線或,可以看到任何一個復制卷都依然有一個副本存在主機A上,數(shù)據(jù)依然可用,影響只是少了個副本。略為復雜的例子〔先不考慮有熱備盤〕:主機C離線后,剩余在線的復制卷任何一個都依然保持至少一個副本在線,因此這時全局數(shù)據(jù)依然可用。在主機故障后,在aSAN高級設備里面有這樣一個故障時間策略執(zhí)行相應的處理:假設入主機故障后直到超過設定的故障時間依然沒有人工介入處理,則aSAN會采取自動替換動作在其他主機上重建副本。例子:3主機2副本,主機C出現(xiàn)故障。比照上面2*圖,可以看出在主機C故障并超時后,aSAN會在集群*圍內尋找最正確借用磁盤組建復制卷,從而重建副本。這里的主機副本自動重建機制和單個故障硬盤的自動重建機制并沒有本質差異,只是同時做了多個故障盤的重建。如果其中有熱備盤,這是會自動使用熱備盤。注意,主機自動重建是有代價的,會復用其他磁盤的空間和性能。因此在條件允許情況下,應盡快替換主機。如果不想aSAN才超時自動重建,可以到高級設置關閉主機自動重建功能。數(shù)據(jù)副本快速修復副本修復是指當*個磁盤出現(xiàn)離線再上線后,保存在上面的文件副本可能是舊數(shù)據(jù),需要按照其他在線的文件副本進展修復的一個行為。典型的情況是主機短暫斷網(wǎng),導致副本不一致。通過采用副本快速修復技術,即對于短暫離線的副本,只修復少量差異數(shù)據(jù),從而防止了整個文件進展比照修復,到達快速修改的目的,同時,aSAN對業(yè)務IO和修復IO做了優(yōu)先級控制,從而防止了副本修復IO對業(yè)務IO的影響。深信服aSAN功能特性存儲自動精簡配置自動精簡配置〔ThinProvisioning〕是一種先進的、智能的、高效的容量分配和管理技術,它擴展了存儲管理功能,可以用小的物理容量為操作系統(tǒng)提供超大容量的虛擬存儲空間。并且隨著應用的數(shù)據(jù)量增長,實際存儲空間也可以及時擴展,而無須手動擴展。一句話而言,自動精簡配置提供的是“運行時空間〞,可以顯著減少已分配但是未使用的存儲空間。如果采用傳統(tǒng)的磁盤分配方法,需要用戶對當前和未來業(yè)務開展規(guī)模進展正確的預判,提前做好空間資源的規(guī)劃。在實際中,由于對應用系統(tǒng)規(guī)模的估計不準確,往往會造成容量分配的浪費,比方為一個應用系統(tǒng)預分配了5TB的空間,但該應用卻只需要1TB的容量,這就造成了4TB的容量浪費,而且這4TB容量被分配了之后,很難再被別的應用系統(tǒng)使用。即使是最優(yōu)秀的系統(tǒng)管理員,也不可能恰如其分的為應用分配好存儲資源,而沒有任何的浪費。根據(jù)業(yè)界的權威統(tǒng)計,由于預分配了太大的存儲空間而導致的資源浪費,大約占總存儲空間的30%左右。aSAN采用了自動精簡配置技術有效的解決了存儲資源的空間分配難題,提高了資源利用率。采用自動精簡配置技術的數(shù)據(jù)卷分配給用戶的是一個邏輯的虛擬容量,而不是一個固定的物理空間,只有當用戶向該邏輯資源真正寫數(shù)據(jù)時,才按照預先設定好的策略從物理空間分配實際容量。aSAN私網(wǎng)鏈路聚合aSAN的私網(wǎng)鏈路聚合是為了提高網(wǎng)絡可靠性和性能設置而提出的。使用aSAN私網(wǎng)鏈路聚合不需要交換機上配置鏈路聚合,由存儲私網(wǎng)負責鏈路聚合的功能,使用普通的二層交換機,保證正確的連接即可。傳統(tǒng)的鏈路聚合是按主機IP進展均分,即每兩臺主機間只能用一條物理鏈路。而aSAN私網(wǎng)鏈路聚合采用按照TCP連接進展均分,兩臺主機間的不同TCP連接可使用不同物理鏈路。在保障可靠性的同時,還到達了更加充分的利用所有鏈路資源的能力。數(shù)據(jù)一致性檢查aSAN采用一致性復制協(xié)議來保證多個副本數(shù)據(jù)的一致性,即只有當所有副本都寫成功,才返回寫入磁盤成功。正常情況下aSAN保證每個副本上的數(shù)據(jù)都是完全一致,從任一副本讀到的數(shù)據(jù)都是一樣的。如果*個副本中的*個磁盤短暫故障,aSAN會暫時不寫這個副本,等恢復后再恢復該副本上的數(shù)據(jù);如果磁盤長時間或者永久故障,aSAN會把這個磁盤從群集中移除掉,并為副本尋找新的副本磁盤,再通過重建機制使得數(shù)據(jù)在各個磁盤上的分布均勻。aNet網(wǎng)絡虛擬化網(wǎng)絡虛擬化概述網(wǎng)絡虛擬化也是構建超融合架構中非常重要的一局部,如果在云計算、虛擬化的環(huán)境中,我們的網(wǎng)絡如果繼續(xù)采用傳統(tǒng)It架構中硬件方式定義網(wǎng)絡的話,就會存在諸多問題:一、如何保障虛擬機在保持相應的網(wǎng)絡策略不變的情況下進展虛機遷移,二、虛擬化后的數(shù)據(jù)中心涉及業(yè)務眾多,對外部提供云接入效勞時,傳統(tǒng)的Vlan技術已經(jīng)無法滿足業(yè)務隔離的需求,解決大規(guī)模租戶和租戶之間、業(yè)務和業(yè)務之間的平安隔離也是面臨的首要問題。三、虛擬化后的數(shù)據(jù)中心的業(yè)務系統(tǒng)的構建和上線對網(wǎng)絡功能的快速部署、靈活彈性甚至本錢,提出了更高的要求。四、在傳統(tǒng)網(wǎng)絡中,不管底層的IT根底設施還是上層的應用,都由專屬設備來完成。這些設備本錢高昂,能力和位置僵化,難以快速響應新業(yè)務對網(wǎng)絡快速、靈活自動化部署的需求?;谏鲜鰡栴},深信服采用了業(yè)界成熟的Overlay+NFV的解決方案,我們稱之為aNet,通過Overlay的方式來構建大二層和實現(xiàn)業(yè)務系統(tǒng)之間的租戶隔離,通過NFV實現(xiàn)網(wǎng)絡中的所需各類網(wǎng)絡功能資源〔包括根底的路由交換、平安以及應用交付等〕按需分配和靈活調度,從而實現(xiàn)超融合架構中的網(wǎng)絡虛擬化。aNET網(wǎng)絡虛擬化技術原理SDNSDN〔SoftwareDefinedNetwork,軟件定義網(wǎng)絡〕是一種創(chuàng)新性的網(wǎng)絡架構,它通過標準化技術〔比方openflow〕實現(xiàn)網(wǎng)絡設備的控制層面和數(shù)據(jù)層面的別離,進而實現(xiàn)對網(wǎng)絡流量的靈活化、集中化、細粒度的控制,從而為網(wǎng)絡的集中管理和應用的加速創(chuàng)新提供了良好的平臺,由此可獲得對網(wǎng)絡的前所未有的可編程性、自動化和控制能力,使網(wǎng)絡很容易適應變化的業(yè)務需求,從而建立高度可擴展的彈性網(wǎng)絡。從SDN的實現(xiàn)方式來看,廣義和狹義兩種。廣義的SDN:主要包括網(wǎng)絡虛擬化NV〔主要指的是Overlay〕,網(wǎng)絡功能虛擬化NFV。狹義的SDN:主要指的是通過OpenFlow來實現(xiàn)。深信服aNet中的SDN實現(xiàn)沒有采用上述的廣義的SDN的方案,但由于實現(xiàn)架構上**小異,用一副標準的SDN規(guī)*圖來說明下:可以這幅圖看出實現(xiàn)SDN的重點在Dataplane和Controllerplane,SDN的核心思想就是數(shù)據(jù)面與控制面別離。NFV以開放取代封閉,以通用替代專有——將原本傳統(tǒng)的專業(yè)網(wǎng)元設備上的網(wǎng)絡功能提取出來虛擬化,運行在通用的硬件平臺上,業(yè)界稱這種變化為NFV。NFV〔NetworkFunctionsVirtualisation網(wǎng)絡功能虛擬化〕的目標是希望通過廣泛采用的硬件承載各種各樣的網(wǎng)絡軟件功能,實現(xiàn)軟件的靈活加載,在數(shù)據(jù)中心、網(wǎng)絡節(jié)點和用戶端等各個位置靈活的配置,加快網(wǎng)絡部署和調整的速度,降低業(yè)務部署的復雜度及總體投資本錢,提高網(wǎng)絡設備的統(tǒng)一化、通用化、適配性。NFV與SDN有很強的互補性,NFV增加了功能部署的靈活性,SDN可進一步推動NFV功能部署的靈活性和方便性。通過NFV技術,將網(wǎng)絡功能資源進展虛擬化,使得網(wǎng)絡資源升級為虛擬化、可流動的流態(tài)資源,Overlay模型使流態(tài)網(wǎng)絡資源的流動*圍跳出了物理網(wǎng)絡的束縛,可以在全網(wǎng)*圍內按需流動,呈現(xiàn)出網(wǎng)絡資源的統(tǒng)一池化狀態(tài),最終實現(xiàn)了超融合架構中網(wǎng)絡資源的靈活定義、按需分配、隨需調整。aNet底層的實現(xiàn)-高性能平臺aNet的實現(xiàn)主要包含兩個層面:數(shù)據(jù)平面和控制平面。傳統(tǒng)數(shù)據(jù)平面:在典型的虛擬化網(wǎng)絡場景下,數(shù)據(jù)包將由網(wǎng)絡接口卡接收,然后進展分類并生成規(guī)定的動作,并對數(shù)據(jù)包付諸實施。在傳統(tǒng)的Linu*模式下,系統(tǒng)接收數(shù)據(jù)包和將數(shù)據(jù)包發(fā)送出系統(tǒng)的過程占了包處理中很大一局部時間,換句話說,即使用戶空間應用程序什么都不做,而只是將數(shù)據(jù)包從接收端口傳送到發(fā)送端口,則仍然會花費大量的處理時間。當網(wǎng)卡從網(wǎng)絡接收到一個數(shù)據(jù)幀后,會使用直接內存訪問〔DMA〕將數(shù)據(jù)幀傳送到針對這一目的而預先分配的內核緩沖區(qū)內,更新適當?shù)慕邮彰枋龇h(huán),然后發(fā)出中斷通知數(shù)據(jù)幀的到達。操作系統(tǒng)對中斷進展處理,更新環(huán),然后將數(shù)據(jù)幀交給網(wǎng)絡堆棧。網(wǎng)絡堆棧對數(shù)據(jù)進展處理,如果數(shù)據(jù)幀的目的地是本地套接字,則就將數(shù)據(jù)復制到該套接字,而擁有該套接字的用戶空間應用程序就接收到了這些數(shù)據(jù)。進展傳輸時,用戶應用程序通過系統(tǒng)調用將數(shù)據(jù)寫入到一個套接字,使Linu*內核將數(shù)據(jù)從用戶緩沖區(qū)復制到內核緩沖區(qū)中。然后網(wǎng)絡堆棧對數(shù)據(jù)進展處理,并根據(jù)需要對其進展封裝,然后再調用網(wǎng)卡驅動程序。網(wǎng)卡驅動程序會更新適當?shù)膫鬏斆枋龇h(huán),并通知網(wǎng)卡有一個等待處理的傳輸任務。網(wǎng)卡將數(shù)據(jù)幀從內核緩沖區(qū)轉移到自己內置的先進先出〔FIFO〕緩沖區(qū),然后將數(shù)據(jù)幀傳輸?shù)骄W(wǎng)絡。接著網(wǎng)卡會發(fā)出一個中斷,通知數(shù)據(jù)幀已經(jīng)成功傳輸,從而使內核釋放與該數(shù)據(jù)幀相關的緩沖區(qū)。傳統(tǒng)模式下CPU損耗主要發(fā)生在如下幾個地方:中斷處理:這包括在接收到中斷時暫停正在執(zhí)行的任務,對中斷進展處理,并調度softIRQ處理程序來執(zhí)行中斷調用的實際工作。隨著網(wǎng)絡流量負荷的增加,系統(tǒng)將會花費越來越多的時間來處理中斷,當流量速度到達10G以太網(wǎng)卡的線路速度時就會嚴重影響性能。而對于有著多個10G以太網(wǎng)卡的情況,則系統(tǒng)可以會被中斷淹沒,對所有的效勞產(chǎn)生負面影響。上下文切換:上下文切換指的是將來自當前執(zhí)行線程的存放器和狀態(tài)信息加以保存,之后再將來自被搶占線程的存放器和狀態(tài)信息加以恢復,使該線程能夠從原先中斷的地方重新開場執(zhí)行。調度和中斷都會引發(fā)上下文切換。系統(tǒng)調用:系統(tǒng)調用會造成用戶模式切換到內核模式,然后再切換回用戶模式。這會造成管道沖刷并污染高速緩存。數(shù)據(jù)復制:數(shù)據(jù)幀會從內核緩沖區(qū)復制到用戶套接字,并從用戶套接字復制到內核緩沖區(qū)。執(zhí)行這一操作的時間取決于復制的數(shù)據(jù)量。調度:調度程序使每個線程都能運行很短的一段時間,造成多任務內核中并發(fā)執(zhí)行的假象。當發(fā)生調度定時器中斷或在其他一些檢查時間點上,Linu*調度程序就會運行,以檢查當前線程是否時間已到。當調度程序決定應該運行另一個線程時,就會發(fā)生上下文切換。aNet底層的實現(xiàn)-構建高性能平臺數(shù)據(jù)平面Linu*等通用操作系統(tǒng),必須公平地對待網(wǎng)絡應用程序和非網(wǎng)絡應用程序,導致設計上達不到高IO吞吐,深信服的aNet數(shù)據(jù)面設計上,借鑒了netmap和dpdk的方案,針對數(shù)據(jù)IO密集型網(wǎng)絡應用程序設計。1.支持專有網(wǎng)卡和通用網(wǎng)卡對于Intel和Broad的e1000e,igb,i*gbe,bn*2,tg3,bn*2*等可編程網(wǎng)卡,支持高性能方案,對e1000等網(wǎng)卡,支持通用方案。保證硬件兼容性。2.跨內核跨進程的全局內存池深信服設計并實現(xiàn)了零拷貝的數(shù)據(jù)面環(huán)境,一個跨內核跨進程的全局內存引用機制,真正做到網(wǎng)卡收包一次拷貝,所有進程共享引用的方式,數(shù)據(jù)可以從網(wǎng)卡傳送到內核、應用層、虛擬機而無需再次拷貝。內存池自動增長,自動回收。3.防止中斷處理和上下文切換單數(shù)據(jù)線程親和鎖定到硬件線程,防止內核和用戶空間之間的上下文切換、線程切換和中斷處理,同時每個線程有直接的高速緩沖,防止了緩沖區(qū)爭用。在理想情況下,當數(shù)據(jù)包到達系統(tǒng)時,所有處理該數(shù)據(jù)包所需的信息最好都已經(jīng)在內核的本地高速緩存中。我們可以設想一下,如果當數(shù)據(jù)包到達時,查找表工程、數(shù)據(jù)流上下文、以及連接控制塊都已經(jīng)在高速緩存中的話,則就可以直接對數(shù)據(jù)包進展處理,而無需“掛起〞并等待外部順序內存訪問完成。4.應用層數(shù)據(jù)面更穩(wěn)定內核態(tài)的小BUG,可能導致系統(tǒng)宕機,而應用層進程,最糟糕的情況是進程死掉,我們設計了檢測監(jiān)控機制,在最極端的情況,即使進程意外死亡,也能秒級別做到虛擬機無感知的網(wǎng)絡恢復。數(shù)據(jù)平面負責報文的轉發(fā),是整個系統(tǒng)的核心,數(shù)據(jù)平面由多個數(shù)據(jù)轉發(fā)線程和一個控制線程組成,控制線程負責接收控制進程配置的消息,數(shù)據(jù)線程是實現(xiàn)報文的處理。在數(shù)據(jù)線程中實現(xiàn)快速路徑與慢速路徑別離的報文處理方式,報文的轉發(fā)是基于session的,一條流匹配到一個session,該條流的第一個報文負責查找各種表項,創(chuàng)立session,并將查找表項的結果記錄到session中,該條流的后續(xù)的報文只需查找session,并根據(jù)session中記錄的信息對報文進展處理和轉發(fā)的。系統(tǒng)中所有的報文都是由數(shù)據(jù)線程接收的,需要做轉發(fā)的報文,不需要送到linu*協(xié)議棧,直接在數(shù)據(jù)線程中處理后從網(wǎng)卡發(fā)出,對于到設備本身的報文(如ssh,telnet,ospf,bgp,dhcp等等),數(shù)據(jù)線程無法直接處理,通過TUN接口將報文重新送到linu*協(xié)議棧處理,從linu*協(xié)議棧的發(fā)出的報文需經(jīng)過數(shù)據(jù)線程中轉后才可從折本發(fā)出。aNet數(shù)據(jù)層面,在六核2.0GHz英特爾至強處理器L5638上使用最長前綴匹配〔LPM〕時,對于使用六個核心中的四個核心、每個核一個線程、四個10G以太網(wǎng)端口的情況,64字節(jié)數(shù)據(jù)包的IP第三層轉發(fā)性能到達了900萬pps。這比原始Linu*的性能差不多提高了九倍〔原始Linu*在雙處理器六核2.4GHz模式下的性能為100萬pps〕。數(shù)據(jù)面為底層處理和數(shù)據(jù)包IO提供了與硬件打交道的功能,而應用層協(xié)議棧在上方提供了一個優(yōu)化的網(wǎng)絡堆棧實現(xiàn)。與Linu*SMP解決方案相比,降低了對Linu*內核的依賴性,從而具有更好的擴展性和穩(wěn)定性??刂破矫嬗辛藬?shù)據(jù)面和協(xié)議棧做支持,控制面就可以實現(xiàn)豐富的應用功能。控制面實現(xiàn)了本地配套效勞,一些根底功能例如DHCP效勞,RSTP效勞,DNS代理功能。這些內置效勞可以直接提供給虛擬機,用戶無需安裝第三方類似軟件。aNet功能特性aSW虛擬分布式交換機虛擬分布式交換機是管理多臺主機上的虛擬交換機的虛擬網(wǎng)絡管理方式,包括對主機的物理端口和虛擬機虛擬端口的管理。aSV虛擬化平臺提供的虛擬分布式交換機就是把分布在集群中多臺主機的單一交換機邏輯上組成一個大的集中式交換機,減少每臺虛擬交換機需要單獨分別配置過程,同時為集群級別的網(wǎng)絡連接提供一個集中控制點,使虛擬環(huán)境中的網(wǎng)絡配置不再以主機為單位,簡化虛擬機網(wǎng)絡連接的部署、管理和監(jiān)控,適合于大規(guī)模的網(wǎng)絡部署。虛擬分布式交換機可以保證虛擬機在主機之間遷移時網(wǎng)絡配置的一致性,同時提供豐富的網(wǎng)絡配置管理功能,端口動態(tài)綁定,靜態(tài)綁定,IP接入控制、虛擬機網(wǎng)絡Qos,實現(xiàn)網(wǎng)絡資源統(tǒng)一管理,實時化網(wǎng)絡監(jiān)控。aRouter在SDN網(wǎng)絡里,路由器是必不可少的網(wǎng)絡組件,aNET提供了虛擬化路由器的功能,可解決虛擬化后出口路由的問題,同時提供其它包括VLAN子網(wǎng)口,NAT規(guī)則,ACL策略,DHCP地址池,DNS代理等功能。并且aNet提供的路由器自帶HA功能,和虛擬機的HA功能一致,當路由器運行的主機出現(xiàn)故障時,可以自動遷移到運行正常的主機上面,實現(xiàn)快速的故障恢復。從而保障了超融合架構中業(yè)務網(wǎng)絡的可靠性,減少了因網(wǎng)絡故

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論