為企業(yè)生產(chǎn)環(huán)境下的AI負載選擇合適的架構(gòu)6.0_第1頁
為企業(yè)生產(chǎn)環(huán)境下的AI負載選擇合適的架構(gòu)6.0_第2頁
為企業(yè)生產(chǎn)環(huán)境下的AI負載選擇合適的架構(gòu)6.0_第3頁
為企業(yè)生產(chǎn)環(huán)境下的AI負載選擇合適的架構(gòu)6.0_第4頁
為企業(yè)生產(chǎn)環(huán)境下的AI負載選擇合適的架構(gòu)6.0_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

01/12人工智能(AI)和機器學習(ML)已經(jīng)成為企業(yè)運營和進行數(shù)據(jù)相關(guān)決策的關(guān)鍵。目前,企業(yè)正在逐步將AI和ML任務從試點擴展到生產(chǎn)級部署,因此需要能夠滿足任務快速增長的可擴展架構(gòu)。然而,許多企業(yè)在擴展AI基礎(chǔ)設(shè)施時忽略了存儲和計算之間的鴻溝,導致出現(xiàn)性能瓶頸、計算資源利用率低下以及企業(yè)內(nèi)部無法充分利用數(shù)據(jù)的情況。本白皮書重點介紹了企業(yè)要最大程度實現(xiàn)業(yè)務收益,在現(xiàn)有基礎(chǔ)設(shè)施上擴展AI負載時應考慮的重要因素。同時還討論了AI在數(shù)據(jù)訪問方面的挑戰(zhàn),以及像NAS這樣的常用解決方案存在的局限性,最后,介紹了Alluxio作為關(guān)鍵的數(shù)據(jù)訪問層如何優(yōu)化架構(gòu)并加速工作流。02/12 1.2企業(yè)AI的早期架構(gòu)31.3為何全面而嚴謹?shù)臎Q策對于生產(chǎn)級AI至關(guān)重要?4第二章:數(shù)據(jù)訪問中的挑戰(zhàn)2.1數(shù)據(jù)訪問是AI/ML的關(guān)鍵要素52.2預生產(chǎn)架構(gòu)中的數(shù)據(jù)訪問挑戰(zhàn)52.3現(xiàn)有解決方案62.4現(xiàn)有解決方案的問題6第三章:Alluxio提供的解決方案83.1部署Alluxio:高性能數(shù)據(jù)訪問83.2Alluxio解決的問題83.3Alluxio在架構(gòu)中的位置93.4Alluxio部署在AWS上-參考架構(gòu)和基準測試結(jié)果1003/12人工智能(AI)為各行各業(yè)帶來了巨大的價值,但企業(yè)往往只能做小規(guī)模試點,很難將AI解決方案進行規(guī)?;瘧?。隨著生成式AI和類似ChatGPT的機器學習模型引發(fā)越來越多的關(guān)注,企業(yè)對AI項目的投資和重視程度也在增加。Gartner最新調(diào)查顯示,企業(yè)對于采用生成式AI的熱情日益高漲。45%的企業(yè)報告稱自ChatGPT發(fā)布以來加大了對AI的投資。此外,68%的高管認為生成式模型的益處大于風險。由此可見,對于AI的熱情與實際部署情況之間存在著一定的差距,這也凸顯了當前將AI解決方案從試點推向生產(chǎn)環(huán)境面臨的挑戰(zhàn)。Gartner研究顯示,數(shù)據(jù)可訪問性以及數(shù)據(jù)量/復雜性是企業(yè)在采用AI方案時面臨的普遍難題。要將AI應用從試點轉(zhuǎn)向生產(chǎn),企業(yè)需要優(yōu)化架構(gòu),使其適用于機器學習任務,能解決數(shù)據(jù)訪問方面的挑戰(zhàn)。人工智能(AI)為各行各業(yè)帶來了巨大的價值,但企業(yè)往往只能做小規(guī)模試點,很難將AI解決方案進行規(guī)模化應用。隨著生成式AI和類似ChatGPT的機器學習模型引發(fā)越來越多的關(guān)注,企業(yè)對AI項目的投資和重視程度也在增加。隨著數(shù)據(jù)和模型的增長,這類早期AI架構(gòu)通常會變得效率低下。企業(yè)在云上訓練模型,隨著項目擴容,預計其數(shù)據(jù)和云使用量在12個月內(nèi)也會大幅增加。許多企業(yè)最初的數(shù)據(jù)量都能匹配當前內(nèi)存大小,但他們也清楚地知道要為處理更大的負載做好準備。04/12企業(yè)可能選擇使用現(xiàn)有技術(shù)棧或綠場部署。本文將重點介紹如何使用現(xiàn)有技術(shù)棧或購買一些額外的硬件來設(shè)計更具擴展性、敏捷性和高性能的技術(shù)棧?!皔oucanpaymenoworpaymelater(現(xiàn)在不花錢,日后花大錢)”這句話同樣適用于構(gòu)建生產(chǎn)級AI基礎(chǔ)設(shè)施。企業(yè)在急切推動機器學習試點項目上線的過程中,往往會采用能夠滿足當前工作負載需求的解決方案,但卻忽略了長期的可擴展性、成本效率和性能。雖然在早期項目上投資靈活、可擴展的系統(tǒng)似乎沒有必要,但隨著AI部署的增長,這些前瞻性舉措可以使企業(yè)免受昂貴、低效的基礎(chǔ)設(shè)施之苦。許多企業(yè)都是經(jīng)受痛苦的教訓后才意識到這一點。其基礎(chǔ)設(shè)施的最初搭建和調(diào)優(yōu)都只針對較小的工作負載,但在數(shù)據(jù)和用戶規(guī)模擴大后明顯受限,無法滿足生產(chǎn)級AI所需的吞吐量、延遲和并發(fā)需求。存儲瓶頸導致工作流緩慢,阻礙用戶進行有效的模型開發(fā)。對匆忙搭建的基礎(chǔ)設(shè)施進行擴展或改造不及時會讓企業(yè)付出昂貴的代價。如果在一開始就進行全面而嚴謹?shù)募軜?gòu)設(shè)計,決策者可以選擇可智能擴展并能適應企業(yè)AI不斷變化的需求的最佳方案。05/12隨著AI/ML架構(gòu)的演進,模型訓練數(shù)據(jù)集的規(guī)模在繼續(xù)大幅增長,GPU的算力和規(guī)模也在迅速提高。除了計算、存儲和網(wǎng)絡之外,我們認為數(shù)據(jù)訪問是搭建前瞻型AI平臺的另一個關(guān)鍵要素。算引擎獲取數(shù)據(jù)用于模型訓練和部署的技術(shù)。數(shù)據(jù)訪問的重點在于吞吐量和數(shù)據(jù)加載效率,這對于GPU資源稀缺的AI/ML架構(gòu)愈發(fā)重要-該成為架構(gòu)部署的首要目標。隨著企業(yè)在早期AI架構(gòu)上擴展模型訓練任務,就出現(xiàn)了以下一些常見的數(shù)據(jù)訪問挑戰(zhàn):.模型訓練效率低于預期:由于數(shù)據(jù)訪問瓶頸,訓練時間比根據(jù)算力資源預估的時間要.數(shù)據(jù)同步相關(guān)的瓶頸:手動將數(shù)據(jù)從存儲拷貝或同步到本地GPU服務器時,會在構(gòu)建要準備的數(shù)據(jù)隊列時產(chǎn)生延遲。06/12.并發(fā)和元數(shù)據(jù)問題:當大型作業(yè)并行啟動時,共享存儲會出現(xiàn)爭用。后端存儲的元數(shù)據(jù)操作緩慢時會增加延遲。致GPU資源閑置和利用不足。除此以外,數(shù)據(jù)團隊需管理的一系列其他問題也會加劇上述挑戰(zhàn)。這些問題包括存儲的I/O速度慢,無法滿足高性能GPU集群的需求。當團隊等待數(shù)據(jù)被輸送到GPU服務器時,依靠手動進行數(shù)據(jù)拷貝和同步會增加延遲?;旌匣A(chǔ)設(shè)施或多云環(huán)境中的多個數(shù)據(jù)孤島帶來的架構(gòu)復雜性也加劇了數(shù)據(jù)訪問這一難題。這些問題最終導致架構(gòu)的端到端效率達不到預期。與數(shù)據(jù)訪問相關(guān)的挑戰(zhàn)通常有兩種常見的解決方案:購買更高速的存儲:許多企業(yè)嘗試通過部署更快的存儲選項來解決數(shù)據(jù)訪問速度慢的問題。儲的備用存儲是一種常見做法,可幫助團隊將數(shù)據(jù)整合到共享文件系統(tǒng)中,簡化用戶和工作負載之間的協(xié)作和共享。此外,還可利用成熟的NAS廠商提供的數(shù)據(jù)一致性、可用性、可備份和可擴展性等相關(guān)數(shù)據(jù)管理功能。但是,以上這兩種常見的解決方案可能無法真正解決企業(yè)的問題。雖然更快的存儲和集中式NFS/NAS能夠逐步實現(xiàn)性能提升,但也存在諸多弊端。07/121.更快的存儲意味著數(shù)據(jù)遷移,即便遷移對用戶隱藏要利用專用存儲提供的高性能,數(shù)據(jù)必須從現(xiàn)有存儲遷移到新的高性能存儲層。這會導致數(shù)據(jù)在后臺遷移。遷移大量數(shù)據(jù)集可能會導致傳輸時間延長以及遷移期間數(shù)據(jù)損壞或丟失等數(shù)據(jù)可靠性問題。當團隊等待數(shù)據(jù)同步完成的這段時間內(nèi),暫停操作不僅會中斷服務,也會減慢項目進度。2.NFS/NAS:維護及瓶頸作為附加的存儲層,NFS/NAS的維護、穩(wěn)定性和可擴展性方面的挑戰(zhàn)仍然存在。將數(shù)據(jù)從NFS/NAS手動拷貝到本地GPU服務器會增加延遲以及重復備份而引起的資源浪費。并行作業(yè)引發(fā)的讀取需求激增可能會使NFS/NAS服務器和相互連接的服務集群過載。此外,遠端NFS/NAS與GPU集群的數(shù)據(jù)同步問題依然存在。3.如果因業(yè)務原因需要更換供應商怎么辦?由于成本優(yōu)化或合同原因,企業(yè)可能會更換供應商。多云環(huán)境的靈活性要求能夠輕松移植大量數(shù)據(jù)集,且不被供應商鎖定。然而,移動PB級數(shù)據(jù)存儲可能會導致模型開發(fā)出現(xiàn)嚴重停機和中斷。簡而言之,現(xiàn)有解決方案雖然在短期內(nèi)有所幫助,但無法提供可擴展且優(yōu)化的數(shù)據(jù)訪問架構(gòu),滿足AI/ML指數(shù)級增長的數(shù)據(jù)需求。08/12Alluxio可以部署在計算和數(shù)據(jù)源之間。Alluxio提供數(shù)據(jù)抽象和分布式緩存,提高AI/ML架構(gòu)的性能和可擴展性。企業(yè)早期AI架構(gòu)隨著數(shù)據(jù)量增加、模型復雜性增加以及GPU集群擴容,產(chǎn)生了在可擴展Alluxio擴展可超越單個節(jié)點限制,能存放集群內(nèi)存或本地SSD無法容納的較大訓練數(shù)據(jù)集。它將不同的存儲系統(tǒng)連接起來,提供統(tǒng)一的數(shù)據(jù)訪問層,來掛載PB級數(shù)據(jù)湖。Alluxio智能地將常用的文件和元數(shù)據(jù)緩存在靠近計算的內(nèi)存和SSD層中,無需拷貝整個數(shù)據(jù)集。09/122.減少數(shù)據(jù)管理Alluxio通過自動的分布式緩存簡化了GPU集群之間的數(shù)據(jù)移動和存放。數(shù)據(jù)團隊無需手動將數(shù)據(jù)復制或同步到本地暫存文件。Alluxio集群可以自動把熱文件或者對象抓取到離計算節(jié)點近的位置,而不用通過復雜的工作流操作。即使在每個節(jié)點有5000萬甚至更多對象的情況下,Alluxio也可簡化工作流。3.提升性能Alluxio專為加速工作負載而構(gòu)建,可消除傳統(tǒng)存儲中限制GPU吞吐量的I/O瓶頸。分布式緩存將數(shù)據(jù)的訪問速度提高了幾個數(shù)量級。相較通過網(wǎng)絡訪問遠端存儲,Alluxio提供內(nèi)存和總之,Alluxio提供了一個高性能且可擴展的數(shù)據(jù)訪問層,可在AI/ML數(shù)據(jù)擴展的場景下最大Alluxio可以通過三種方式與現(xiàn)有架構(gòu)集成。與NAS并置:Alluxio作為透明緩存層與現(xiàn)有NAS并置部署,增強I/O性能。Alluxio將NAS中的活躍數(shù)據(jù)緩存在跨GPU節(jié)點的本地SSD中。作業(yè)將讀取請求重定向到Alluxio上的SSD緩存,繞過NAS,從而消除NAS瓶頸。寫入操作通過Alluxio對SSD進行低延10/12.獨立數(shù)據(jù)訪問層:Alluxio作為專用的高性能數(shù)據(jù)訪問層,整合來自S3、HDFS、NFS或本地數(shù)據(jù)湖等多個數(shù)據(jù)源的數(shù)據(jù),為GPU節(jié)點提供數(shù)據(jù)訪問服務。Alluxio將不同的數(shù)據(jù)孤島統(tǒng)一在一個命名空間下,并將后端存儲掛載為底層存儲。經(jīng)常訪問的數(shù)據(jù)會被緩存?跨GPU存儲的虛擬緩存:Alluxio充當跨本地GPU存儲的虛擬緩存。S3中的數(shù)據(jù)會被同步到虛擬Alluxio存儲并在GPU節(jié)點之間共享,無需在節(jié)點之間手動拷貝數(shù)據(jù)。在此參考架構(gòu)中,訓練數(shù)據(jù)存儲在中心化數(shù)據(jù)存儲平臺AWSS3中,Alluxio可幫助實現(xiàn)模型訓練集群對訓練數(shù)據(jù)的無縫訪問。PyTorch、TensorFlow、scikit-learn和XGBoost等ML訓練框架都在CPU/GPU/TPU集群上層執(zhí)行。這些框架利用訓練數(shù)據(jù)生成機器學習模型,模型生成后被存儲在中心化模型庫中。在模型服務階段,使用專用服務/推理集群,并采用TorchServe、TensorFlowServing、Triton和KFServing等框架。這些服務集群利用Alluxio從模型存儲庫中獲取模型,模型加載后,服務集群會處理輸入的查詢、執(zhí)行必要的推理作業(yè)并返回計算結(jié)果。訓練和服務環(huán)境都基于Kubernetes,有助于增強基礎(chǔ)設(shè)施的可擴展性和可重復性。11/122.基準測試結(jié)果在本基準測試中,我們用計算機視覺領(lǐng)域的典型的應用場景之一——圖片分類任務作為示例,其中以ImageNet的數(shù)據(jù)集作為訓練集,通過ResNet訓練圖片分類模型。基于Resnet-50上3個epochs性能基準測試的結(jié)果,使用Alluxio比使用S3-FUS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論