版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
頁(yè)碼:頁(yè)碼:2/2核心技術(shù)頁(yè)碼:核心技術(shù)頁(yè)碼:3/2頁(yè)碼:4/223RAG+Agent:基于騰訊云ES與混元大模型構(gòu)建專屬AI助手背景概述隨著數(shù)據(jù)智能技術(shù)的不斷發(fā)展,以大語(yǔ)言模型(LLM)驅(qū)動(dòng)的AIGC為代表的內(nèi)容生成技術(shù)已經(jīng)成為企業(yè)數(shù)據(jù)智能能力中不可或缺的一部分,但傳統(tǒng)的內(nèi)容生成技術(shù)存在信息更新不及時(shí)、垂直領(lǐng)域知識(shí)匱乏、模型幻覺(jué)等問(wèn)題,如何推進(jìn)大模型在各行業(yè)、各業(yè)務(wù)場(chǎng)景落地是各方普遍關(guān)注的問(wèn)題,而檢索增強(qiáng)生成(Retrieval-AugmentedGeneration,RAG)技術(shù)則為此提供了有效的解決方案,成為數(shù)據(jù)智能時(shí)代的一大趨勢(shì)。RAG是一種結(jié)合了檢索和大語(yǔ)言模型內(nèi)容生成的技術(shù)方案,它通過(guò)引用外部知識(shí)庫(kù),在用戶輸入Query時(shí)檢索出知識(shí),然后讓模型基于可信的知識(shí)進(jìn)行用戶回答。RAG具有較高的可解釋性和定制能力,可大幅降低大語(yǔ)言模型的幻覺(jué),適用于問(wèn)答系統(tǒng)、文檔生成、智能助手等多種自然語(yǔ)言處理任務(wù)中。本文將通過(guò)介紹騰訊云ES一站式RAG方案,演示如何通過(guò)結(jié)合騰訊云ES與混元大模型,快速構(gòu)建RAG應(yīng)用。頁(yè)碼:5/223騰訊云ES一站式RAG方案騰訊云ES是云端全托管海量數(shù)據(jù)檢索分析服務(wù),擁有高性能自研內(nèi)核,集成X-Pack,支持通過(guò)自治索引、存算分離、集群巡檢等特性輕松管理集群,也支持免運(yùn)維、自動(dòng)彈性、按需使用的Serverless模式。在自研內(nèi)核方面,騰訊云ES依托騰訊內(nèi)外部海量業(yè)務(wù)的運(yùn)營(yíng)經(jīng)驗(yàn),針對(duì)ES內(nèi)核進(jìn)行了成本、性能、穩(wěn)定性、拓展性等方面的優(yōu)化,是亞太地區(qū)開源貢獻(xiàn)第一的團(tuán)隊(duì),使用騰訊云ES您可以高效構(gòu)建在線搜索、向量檢索、日志分析、運(yùn)維監(jiān)控、智能問(wèn)答等服務(wù)。在RAG方面,騰訊云ES支持了一站式向量檢索、文本+向量混合搜索、倒數(shù)排序融合、與大模型集成、GPU高性能推理、字段級(jí)別權(quán)限控制等能力,同時(shí)針對(duì)查詢性能做了大量?jī)?yōu)化,有效的提升了數(shù)據(jù)檢索效率。頁(yè)碼:6/223當(dāng)然,作為國(guó)內(nèi)公有云首個(gè)從自然語(yǔ)言處理、到向量生成/存儲(chǔ)/檢索、并與大模型集成的端到端一站式技術(shù)平臺(tái),騰訊云ES也作為核心參編單位參與了由信通院組織的RAG標(biāo)準(zhǔn)制定,同時(shí)成為首個(gè)通過(guò)RAG權(quán)威認(rèn)證的企業(yè)。AI助手構(gòu)建購(gòu)買ES集群1、登錄騰訊云ES控制臺(tái):/login?s_url=https%3A%2F%2Fconsole.cloud.t%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)2、點(diǎn)擊「新建」頁(yè)碼:7/2233、產(chǎn)品類型選擇為:通用版頁(yè)碼:8/2234、選擇版本:計(jì)費(fèi)模式為按量計(jì)費(fèi)、ES版本為8.13.3、商業(yè)特性為白金版5、ES節(jié)點(diǎn)配置,測(cè)試環(huán)境可選擇為ES.S1(2核4G),節(jié)點(diǎn)數(shù)為2,磁盤為通用型SSD,磁盤容量為20GB6、其余配置選擇默認(rèn)即可登錄Kibana頁(yè)碼:9/223訪問(wèn)Kibana,設(shè)置公網(wǎng)訪問(wèn)策略頁(yè)碼:10/2233、點(diǎn)擊Kibana公網(wǎng)訪問(wèn)地址訪問(wèn)Kibana部署embedding模型集群購(gòu)買完成后,前往Kibana部署Embedding模型、創(chuàng)建知識(shí)庫(kù)索引與向量化管道1、開啟「節(jié)點(diǎn)出站訪問(wèn)」,僅開啟數(shù)據(jù)節(jié)點(diǎn)即可,如有專用主節(jié)點(diǎn),僅開啟專用主節(jié)點(diǎn)即可。(該功能為白名單,請(qǐng)聯(lián)系工單處理)注:如需上傳自定義模型或第三方平臺(tái)(如Huggingface)模型,可參考文檔:/elastic/eland(復(fù)制鏈接到瀏覽器打開)2、登錄Kibana之后,在左側(cè)導(dǎo)航欄找到「MachineLearning」功能頁(yè)碼:11/2233、進(jìn)入模型管理頁(yè)面,并找到類型為「text_embedding」的模型4、如為未下載狀態(tài),選中模型,并點(diǎn)擊「Addtrainedmodel」,本次演示我們使用「.multilingual-e5-small_linux-x86_64」模型頁(yè)碼:12/2235、下載完成后,點(diǎn)擊部署頁(yè)碼:13/2236、為快速體驗(yàn),配置使用默認(rèn)值即可創(chuàng)建索引與向量化管道1、點(diǎn)擊進(jìn)入「Devtools」頁(yè)碼:14/2232、創(chuàng)建知識(shí)庫(kù)索引index-name為索引名稱,實(shí)際可按需命名頁(yè)碼:15/2233、創(chuàng)建推理管道,該管道可用于寫入數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)向量化頁(yè)碼:16/223上述管道,將字段「content、title」的內(nèi)容,調(diào)用.multilingual-e5-small_linux-x86_64模型向量化之后存儲(chǔ)到新的字段中。寫入知識(shí)庫(kù)數(shù)據(jù)通過(guò)BulkAPI批量寫入數(shù)據(jù),可將title、content、url的內(nèi)容替換為您實(shí)際的知識(shí)庫(kù)數(shù)據(jù)。頁(yè)碼:17/223調(diào)用混元大模型1、python文件命名為hunyuan.py2、安裝相關(guān)庫(kù),參考如下,控制臺(tái)鏈接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)頁(yè)碼:18/2233、獲取SecretID、SecretKey,控制臺(tái)鏈接:/login?s_url=https%3A%2F%2F%2Fapi%2Fexplorer%3FProduct%3Dhunyuan%26Version%3D2023-09-01%26Action%3DChatCompletions(復(fù)制鏈接到瀏覽器打開)頁(yè)碼:19/223頁(yè)碼:20/223智能問(wèn)答系統(tǒng)構(gòu)建1、安裝streamlit2、獲取ES訪問(wèn)地址用戶名為elastic、密碼在創(chuàng)建集群時(shí)設(shè)置,用本地mac測(cè)試時(shí),可開啟公網(wǎng)訪問(wèn),實(shí)際生產(chǎn)時(shí),建議使用內(nèi)網(wǎng)訪問(wèn)地址3、運(yùn)行如下代碼(需與hunyuan.py在一個(gè)目錄下)頁(yè)碼:21/223頁(yè)碼:22/223在上述python文件的目錄下,使用如下命令運(yùn)行系統(tǒng):生成的界面如下:頁(yè)碼:23/223總結(jié)本文通過(guò)介紹騰訊云ES一站式RAG方案,演示如何通過(guò)結(jié)合騰訊云ES與混元大模型,快速構(gòu)建RAG應(yīng)用。騰訊云ES憑借其在傳統(tǒng)PB級(jí)日志和海量搜索場(chǎng)景中積累的豐富經(jīng)驗(yàn),通過(guò)深度重構(gòu)底層系統(tǒng),成功地將多年的性能優(yōu)化、索引構(gòu)建和運(yùn)營(yíng)管理經(jīng)驗(yàn)應(yīng)用于RAG領(lǐng)域,并積極探索向量召回與傳統(tǒng)搜索技術(shù)的融合之道,旨在充分發(fā)揮兩者的優(yōu)勢(shì),為用戶提供更加精準(zhǔn)、高效的搜索體驗(yàn)。未來(lái),騰訊云ES將持續(xù)深耕智能檢索領(lǐng)域,在成本、性能、穩(wěn)定性等方面持續(xù)提升,幫助客戶降本增效的同時(shí)實(shí)現(xiàn)業(yè)務(wù)價(jià)值持續(xù)增長(zhǎng),歡迎持續(xù)關(guān)注!騰訊云大數(shù)據(jù)將持續(xù)致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺(tái)。頁(yè)碼:24/223揭秘萬(wàn)億級(jí)日志與搜索平臺(tái)核心架構(gòu)巴黎賽事如火如荼,中國(guó)健兒在賽場(chǎng)上屢創(chuàng)佳績(jī)。作為賽事轉(zhuǎn)播的核心平臺(tái),國(guó)內(nèi)頭部視頻媒體不僅提供了賽事直播,還推出了豐富的原創(chuàng)新媒體節(jié)目,平臺(tái)涵蓋賽程查詢、選手信息、獎(jiǎng)牌榜、社區(qū)互動(dòng)等功能,日均承載萬(wàn)億量級(jí)的日志寫入與十億量級(jí)的在線搜索,總存儲(chǔ)規(guī)模達(dá)PB級(jí)。騰訊云ES基于自研內(nèi)核優(yōu)化和專家級(jí)服務(wù),成功扛下重任,保障了平臺(tái)的穩(wěn)定運(yùn)行。萬(wàn)億級(jí)日志分析平臺(tái)再大的流量也“打不崩”針對(duì)日志分析場(chǎng)景,騰訊云ES通過(guò)自研讀寫分離、存算分離、Serverless架構(gòu)、頁(yè)碼:25/223查詢并行化、定向路由等先進(jìn)技術(shù),實(shí)現(xiàn)冷熱數(shù)據(jù)一體化搜索及彈性伸縮能力。其核心能力支撐了騰訊社交、內(nèi)容、娛樂(lè)等眾多業(yè)務(wù),經(jīng)歷了海量應(yīng)用的大規(guī)模實(shí)踐考驗(yàn),同時(shí)也服務(wù)了業(yè)界非常多有影響力的頭部企業(yè),幫助客戶顯著提升日志寫入性能和穩(wěn)定性,并降本30-80%。1.穩(wěn)定高可用(高并發(fā)寫入)平臺(tái)作為賽事最核心的觀看入口,寫入量達(dá)千萬(wàn)級(jí)每秒,特別是在「樊振東對(duì)戰(zhàn)張本智和」、「乒乓球女單決賽」、「乒乓球男單決賽」、「羽毛球男雙決賽」等比賽中,寫入流量一度突增1倍以上,高并發(fā)數(shù)據(jù)寫入對(duì)底層服務(wù)穩(wěn)定性提出了極大考驗(yàn),一個(gè)穩(wěn)定可靠的架構(gòu)極為重要。騰訊云ES通過(guò)服務(wù)限流、異常容忍以及分布式線性擴(kuò)展優(yōu)化,幫助平臺(tái)打造了固若金湯的健壯性架構(gòu)。那么,我們?cè)谶@個(gè)過(guò)程中是如何保障整個(gè)日志系統(tǒng)的穩(wěn)定高可用的呢?在賽事從預(yù)熱、到開幕式、再到開賽以來(lái),業(yè)務(wù)的突發(fā)增長(zhǎng)有時(shí)候來(lái)的很突然,無(wú)法在前期做有效的評(píng)估。社區(qū)中的很多基于開源ES自建的用戶也遇到過(guò)類似的問(wèn)題,由于沒(méi)有預(yù)估到業(yè)務(wù)突發(fā)的增長(zhǎng),并且在業(yè)務(wù)層沒(méi)有做好服務(wù)降級(jí)等機(jī)制,導(dǎo)致突發(fā)的寫入流量打崩了整個(gè)集群,使ES服務(wù)甚至整個(gè)業(yè)務(wù)長(zhǎng)時(shí)間不可用。那么,在類似場(chǎng)景中,騰訊云ES是怎樣保障突增寫入流量下集群的穩(wěn)定性的呢?頁(yè)碼:26/223ES的寫入流程中,用戶的寫入請(qǐng)求先到達(dá)一個(gè)數(shù)據(jù)節(jié)點(diǎn),即協(xié)調(diào)節(jié)點(diǎn)。然后由該協(xié)調(diào)節(jié)點(diǎn)將請(qǐng)求轉(zhuǎn)發(fā)給主分片所在節(jié)點(diǎn)進(jìn)行寫入,主分片寫入完畢再由主分片轉(zhuǎn)發(fā)給從分片寫入,最后返回給客戶端寫入結(jié)果。右圖是更細(xì)節(jié)的寫入流程,而我們從堆棧中看到的寫入請(qǐng)求堆積的位置就是在紅色框中的接入層,節(jié)點(diǎn)掛掉的根因是協(xié)調(diào)節(jié)點(diǎn)的接入層內(nèi)存被打爆。頁(yè)碼:27/223針對(duì)這種高并發(fā)場(chǎng)景,我們的優(yōu)化方案是服務(wù)限流。除了要控制并發(fā)請(qǐng)求數(shù)量,還要精準(zhǔn)地控制內(nèi)存資源,因?yàn)閮?nèi)存資源不足是主要的矛盾。此外,限流方案要具備通用性,能作用于各個(gè)層級(jí)實(shí)現(xiàn)全鏈限流。在很多數(shù)據(jù)庫(kù)使用場(chǎng)景中,會(huì)采用從業(yè)務(wù)端或者獨(dú)立的proxy層配置相關(guān)的業(yè)務(wù)規(guī)則的限流方案,通過(guò)資源預(yù)估等方式進(jìn)行限流。這種方式適應(yīng)能力弱,運(yùn)維成本高,而且業(yè)務(wù)端很難準(zhǔn)確預(yù)估資源消耗。ES原生版本本身有限流策略,是基于請(qǐng)求數(shù)的漏桶策略,通過(guò)隊(duì)列加線程池的方式實(shí)現(xiàn)。線程池大小決定了處理并發(fā)度,處理不完放到隊(duì)列,隊(duì)列放不下則拒絕請(qǐng)求。但是單純地基于請(qǐng)求數(shù)的限流不能控制資源使用量,而且只作用于分片級(jí)子請(qǐng)求的傳輸層,對(duì)于接入層無(wú)法起到有效的保護(hù)作用。原生版本也有內(nèi)存熔斷策略,但是在協(xié)調(diào)節(jié)點(diǎn)接入層并沒(méi)有做限制。我們的優(yōu)化方案是基于內(nèi)存資源的漏桶策略。我們將節(jié)點(diǎn)JVM內(nèi)存作為漏桶的資源,當(dāng)內(nèi)存資源足夠的時(shí)候,請(qǐng)求可以正常處理;當(dāng)內(nèi)存使用量到達(dá)一定閾值的時(shí)候,分區(qū)間階梯式平滑限流。例如上圖中淺黃色的區(qū)間限制寫入,深黃色的區(qū)間限制查詢,底部紅色部分作為預(yù)留buffer,預(yù)留給處理中的請(qǐng)求、merge等操作,以保證節(jié)點(diǎn)內(nèi)存的安全性。頁(yè)碼:28/223限流方案中的一個(gè)挑戰(zhàn)是如何實(shí)現(xiàn)平滑限流。單一的閾值限流很容易出現(xiàn)請(qǐng)求抖動(dòng),例如請(qǐng)求一上來(lái)把內(nèi)存打上去馬上觸發(fā)限流,而放開一點(diǎn)點(diǎn)請(qǐng)求又會(huì)涌進(jìn)來(lái)把內(nèi)存打上去。我們的方案是設(shè)置高低限流閾值區(qū)間,在這個(gè)區(qū)間中,基于余弦變換實(shí)現(xiàn)請(qǐng)求數(shù)和內(nèi)存資源之間的平滑限流。當(dāng)內(nèi)存資源足夠的時(shí)候,請(qǐng)求通過(guò)率為100%;當(dāng)內(nèi)存到達(dá)限流區(qū)間逐步上升時(shí),請(qǐng)求通過(guò)率隨之逐步下降;當(dāng)內(nèi)存使用量下降時(shí),請(qǐng)求通過(guò)率也會(huì)逐步上升,不會(huì)一把放開。通過(guò)實(shí)際測(cè)試,平滑的區(qū)間限流能在高壓力下保持穩(wěn)定的寫入性能。2.寫入性能優(yōu)化賽事的熱度持續(xù)上漲,且在某些時(shí)段,出現(xiàn)突然的增長(zhǎng),例如在「樊振東對(duì)戰(zhàn)張本智和」的比賽中,寫入流量一度突增50%,接近1300萬(wàn)/秒的寫入。在千萬(wàn)級(jí)TPS寫入的考驗(yàn)下,騰訊云ES通過(guò)自研能力成功實(shí)現(xiàn)高并發(fā)寫入,輕松應(yīng)對(duì)高并發(fā)寫入流量。頁(yè)碼:29/223定向路由策略:在具體介紹定向路由前,先分析日志場(chǎng)景的特點(diǎn)以及開源ES的劣勢(shì)。日志場(chǎng)景一般寫多讀少,在大規(guī)模寫入與存儲(chǔ)的場(chǎng)景下,容易出現(xiàn)一些100+節(jié)點(diǎn)的ES集群。為了均衡各個(gè)節(jié)點(diǎn)的寫入壓力,一個(gè)索引會(huì)設(shè)置上百個(gè)主分片,均勻分布在各個(gè)節(jié)點(diǎn)上,這種設(shè)置在一些異常場(chǎng)景中,容易出現(xiàn)寫入拒絕并且CPU資源難以被有效利用。主要原因如下:頁(yè)碼:30/223·分片數(shù)量較多,容易出現(xiàn)長(zhǎng)尾子請(qǐng)求,拖慢整個(gè)Bulk請(qǐng)求,繼而使得寫入隊(duì)列打滿?!げ鸱诌^(guò)多的子請(qǐng)求,導(dǎo)致磁盤IO次數(shù)過(guò)多,無(wú)法提升寫入吞吐,無(wú)法充分利用CPU?!す?jié)點(diǎn)間交互次數(shù)過(guò)多,消耗系統(tǒng)資源。通過(guò)分析ES的寫入流程,我們可以了解到一次Bulk批量寫入會(huì)把請(qǐng)求均分到所有的分片,個(gè)別的分片或節(jié)點(diǎn)卡頓就會(huì)拖慢整個(gè)Bulk請(qǐng)求,繼而寫入隊(duì)列被打滿,從而出現(xiàn)寫入拒絕。此外,拆分過(guò)多的子請(qǐng)求,會(huì)導(dǎo)致寫入吞吐量上不去,CPU也沒(méi)有被充分利用。還有一點(diǎn)是,主分片寫完之后再寫副本分片,會(huì)導(dǎo)致節(jié)點(diǎn)之間的交互次數(shù)過(guò)多,消耗了系統(tǒng)資源。騰訊云ES自研了BulkRouting定向路由策略,即為每個(gè)Bulk請(qǐng)求增加一個(gè)隨機(jī)的routing值,只路由到一個(gè)分片進(jìn)行寫入。最終達(dá)到的優(yōu)化效果是:·相比開源ES提升寫入速度在20%以上?!わ@著降低寫入拒絕率。·同等寫入速度下CPU使用率更低,CPU資源可以被有效利用。頁(yè)碼:31/2233.讀寫分離架構(gòu)讀寫分離是一種常見的數(shù)據(jù)庫(kù)架構(gòu)優(yōu)化策略,可用于提高數(shù)據(jù)庫(kù)系統(tǒng)的性能和可擴(kuò)展性。原生ES的寫入方案,存在以下幾個(gè)問(wèn)題:·默認(rèn)情況下將數(shù)據(jù)寫入到ES是通過(guò)ES的bulk接口,ES需要在協(xié)調(diào)節(jié)點(diǎn)解析數(shù)據(jù)、將數(shù)據(jù)劃分到各個(gè)分片、請(qǐng)求轉(zhuǎn)發(fā)、解析文檔、主分片轉(zhuǎn)發(fā)請(qǐng)求給副本等工作。這樣做的缺點(diǎn)是網(wǎng)絡(luò)交互太多、每個(gè)分片吞吐量太低,導(dǎo)致寫入差強(qiáng)人意?!?shù)據(jù)寫入、存儲(chǔ)、查詢都在同一個(gè)節(jié)點(diǎn)上,對(duì)于寫多讀少的日志分析場(chǎng)景,難以頁(yè)碼:32/223實(shí)現(xiàn)快速擴(kuò)容。騰訊云ES的讀寫分離方案,通過(guò)在協(xié)調(diào)節(jié)點(diǎn)提前基于LuceneAPI內(nèi)存構(gòu)建好Segment,然后轉(zhuǎn)發(fā)給具體索引分片,分片收到內(nèi)存Segment后定時(shí)追加到Lucene中,最終實(shí)現(xiàn)數(shù)據(jù)寫入?;趨f(xié)調(diào)節(jié)點(diǎn)構(gòu)建Segment,由于數(shù)據(jù)不直接落盤,整個(gè)寫入服務(wù)相當(dāng)于無(wú)狀態(tài)。通過(guò)融合自研物理復(fù)制、內(nèi)存Merge、自研Mergepolicy等亮點(diǎn)技術(shù),騰訊云ES讀寫分離方案相比開源ES,可提升寫入吞吐性能5-20倍。“十億級(jí)”直播搜索平臺(tái)查的更快更穩(wěn)頁(yè)碼:33/2231.穩(wěn)定高可用(高并發(fā)大查詢)熱門賽事,如乒乓球、游泳、跳水、羽毛球等,相比一些較為冷門的比賽,往往觀看人數(shù)會(huì)有不同量級(jí)的增加。留言、互動(dòng)等功能,在中國(guó)選手奪冠后,更是會(huì)出現(xiàn)流量突增的情況。例如「乒乓球男單決賽」這場(chǎng)比賽,光預(yù)約人數(shù)就達(dá)到將近100萬(wàn),在線觀看人數(shù)超過(guò)3000萬(wàn)。賽程、選手、獎(jiǎng)牌榜、節(jié)目庫(kù)、社區(qū)留言、互動(dòng)等模塊的在線搜索業(yè)務(wù),對(duì)于性能、穩(wěn)定性的要求極高。那么,騰訊云ES是如何保障的呢?這里不得不提到自研的熔斷限流、步長(zhǎng)限流、滑動(dòng)窗口聚合能力。·熔斷限流:針對(duì)高并發(fā)大查詢場(chǎng)景,自研熔斷機(jī)制能在高負(fù)載時(shí)自動(dòng)切斷部分低優(yōu)先級(jí)或高資源消耗的查詢請(qǐng)求,確保核心查詢請(qǐng)求的優(yōu)先處理,保障整體服務(wù)的穩(wěn)定性?!げ介L(zhǎng)限流:通過(guò)動(dòng)態(tài)調(diào)整請(qǐng)求步長(zhǎng),根據(jù)當(dāng)前系統(tǒng)負(fù)載自動(dòng)調(diào)整查詢請(qǐng)求的步長(zhǎng),以實(shí)現(xiàn)資源的最優(yōu)利用,確保在高負(fù)載情況下的查詢效率和響應(yīng)速度?!せ瑒?dòng)窗口聚合:在查詢聚合過(guò)程中,引入滑動(dòng)窗口機(jī)制,能夠更好地分?jǐn)傆?jì)算壓力,避免因某一時(shí)刻的高并發(fā)查詢?cè)斐上到y(tǒng)負(fù)載過(guò)重,從而提升整體的查詢性能。2.查詢性能優(yōu)化在內(nèi)核層面,騰訊云ES針對(duì)在線檢索場(chǎng)景的特點(diǎn)做了更多優(yōu)化,比如分片架構(gòu)頁(yè)碼:34/223優(yōu)化、查詢并行化、lucene查詢緩存鎖改造等,整體幫助搜索場(chǎng)景查詢性能提升3-10倍:·自適應(yīng)副本策略:ES分布式系統(tǒng)網(wǎng)絡(luò)調(diào)用多,如果遇到跨地區(qū)/AZ調(diào)用或者慢節(jié)點(diǎn)分片副本調(diào)用,就會(huì)導(dǎo)致查詢延遲高。騰訊云ES通過(guò)改進(jìn)的本地自適應(yīng)副本選擇策略,其核心原理是:通過(guò)計(jì)算協(xié)調(diào)節(jié)點(diǎn)跟數(shù)據(jù)分片副本的查詢平均響應(yīng)時(shí)間、查詢隊(duì)列、查詢成功率,不斷地調(diào)整選擇延遲最低的副本進(jìn)行查詢,來(lái)大幅降低搜索的延遲,并保障負(fù)載均衡?!げ樵儾眉簦篍S查詢模型是將查詢請(qǐng)求拆分成分片級(jí)的子請(qǐng)求轉(zhuǎn)發(fā)給各個(gè)分片并行執(zhí)行,最后在協(xié)調(diào)節(jié)點(diǎn)合并各個(gè)分片的結(jié)果,在每個(gè)分片內(nèi)部有多個(gè)segment。騰訊云ES通過(guò)對(duì)列存、數(shù)值索引、Terms等維度對(duì)segment進(jìn)行提前裁剪跟合并收斂,減少隨機(jī)IO,優(yōu)化查詢性能。·查詢并行化:通過(guò)極致壓榨空閑CPU資源,將ES的單個(gè)分片級(jí)請(qǐng)求拆分成多個(gè)子請(qǐng)求并行處理該分片下的segment或者docs,根據(jù)docs或者segment切分,每個(gè)線程只處理一部分docs或者segment,在數(shù)據(jù)節(jié)點(diǎn)合并每個(gè)線程的結(jié)果后再返回給協(xié)調(diào)節(jié)點(diǎn),協(xié)調(diào)節(jié)點(diǎn)合并各個(gè)分片的結(jié)果返回給客戶端,從而達(dá)到性能倍數(shù)級(jí)的提升。·查詢緩存優(yōu)化:通過(guò)CBO策略,避免了查詢Cache操作導(dǎo)致查詢耗時(shí)10+倍的毛刺,并通過(guò)最小粒度的讀寫鎖提升了LRU緩存性能2倍+,并提交到官方Elasticsearch、Lucene社區(qū),得到社區(qū)的認(rèn)可跟點(diǎn)贊。在此次巴黎賽事中,國(guó)內(nèi)頭部視頻媒體憑借騰訊云ES的強(qiáng)大技術(shù)支持,成功應(yīng)頁(yè)碼:35/223對(duì)了萬(wàn)億級(jí)日志分析與十億級(jí)直播搜索的挑戰(zhàn)。通過(guò)服務(wù)限流、定向路由、讀寫分離等自研技術(shù)優(yōu)化,保障了直播平臺(tái)的高穩(wěn)定性和高性能;通過(guò)熔斷限流、步長(zhǎng)限流、滑動(dòng)窗口聚合等機(jī)制,確保了高并發(fā)大查詢場(chǎng)景下的查詢效率和響應(yīng)速度;通過(guò)分片架構(gòu)優(yōu)化、查詢并行化、lucene查詢緩存鎖改造等手段,顯著提升了查詢性能。目前,騰訊云ES作為云端全托管海量數(shù)據(jù)檢索分析服務(wù),擁有高性能自研內(nèi)核,是亞太地區(qū)對(duì)ES開源社區(qū)貢獻(xiàn)最多的第三方團(tuán)隊(duì),技術(shù)PR達(dá)200+,支持通過(guò)自治索引、存算分離、集群巡檢等特性輕松管理集群,也支持免運(yùn)維、自動(dòng)彈性、按需使用的Serverless模式。在實(shí)時(shí)檢索、日志分析、向量檢索、RAG等場(chǎng)景均有較多的優(yōu)化與實(shí)踐,被廣泛應(yīng)用于電商、零售、汽車、出行、金融、游戲等行業(yè),幫助客戶實(shí)現(xiàn)業(yè)務(wù)價(jià)值提升。面向AI時(shí)代,騰訊云ES也不斷探索,推出了一站式向量檢索與RAG方案,助力業(yè)務(wù)基于RAG能力實(shí)現(xiàn)智能化轉(zhuǎn)型。未來(lái),騰訊云ES仍將不斷迭代,面向市場(chǎng)與用戶需求,不斷打磨技術(shù)和產(chǎn)品,持續(xù)輸出穩(wěn)定可靠的云端檢索分析服務(wù)。頁(yè)碼:36/223TBDS新一代數(shù)據(jù)湖倉(cāng)架構(gòu)導(dǎo)讀:本次分享主題為TBDS新一代數(shù)據(jù)湖倉(cāng)助力企業(yè)數(shù)據(jù)架構(gòu)升級(jí)。文中將介紹TBDS新一代數(shù)據(jù)湖倉(cāng)產(chǎn)品的能力升級(jí),以及TBDS新一代產(chǎn)品在企業(yè)數(shù)據(jù)架構(gòu)實(shí)時(shí)化、云原生化升級(jí)中的實(shí)踐。主要包括以下幾大部分:1.TBDS新一代數(shù)據(jù)湖倉(cāng)架構(gòu)2.全新架構(gòu)全新體驗(yàn)3.環(huán)境全面適配4.企業(yè)數(shù)據(jù)架構(gòu)升級(jí)實(shí)踐案例TBDS新一代數(shù)據(jù)湖倉(cāng)架構(gòu)騰訊云大數(shù)據(jù)TBDS是一款依托騰訊多年海量數(shù)據(jù)處理經(jīng)驗(yàn),基于云原生技術(shù),泛Hadoop生態(tài)和最前沿的湖倉(cāng)技術(shù)打造的可靠、安全、易用的大數(shù)據(jù)平臺(tái)。頁(yè)碼:37/223TBDS推出的新一代湖倉(cāng)產(chǎn)品方案具備計(jì)算隔離強(qiáng)、存算按需伸縮、智能運(yùn)維調(diào)優(yōu)等高可靠性。通過(guò)統(tǒng)一元數(shù)據(jù)和統(tǒng)一的安全機(jī)制,TBDS能夠顯著提升用戶的用數(shù)體驗(yàn),優(yōu)化使用成本,賦能多場(chǎng)景應(yīng)用,助力企業(yè)輕松駕馭各類工作負(fù)載,加速企業(yè)的數(shù)字化轉(zhuǎn)型。在新一代產(chǎn)品中,TBDS靈活地為用戶提供了兩種架構(gòu)下的大數(shù)據(jù)計(jì)算服務(wù),在現(xiàn)有的傳統(tǒng)架構(gòu)大數(shù)據(jù)集群之外,用戶可以無(wú)縫彈性擴(kuò)展計(jì)算到新一代架構(gòu)的湖Lakehouse計(jì)算服務(wù)。新一代計(jì)算服務(wù)和傳統(tǒng)架構(gòu)的大數(shù)據(jù)集群間,通過(guò)TBDS提供的統(tǒng)一元數(shù)據(jù)和統(tǒng)一權(quán)限管控體系無(wú)縫對(duì)接,暢享計(jì)算無(wú)限伸縮的絲滑體驗(yàn)。TBDS基于Lakehouse數(shù)據(jù)架構(gòu)打造的類數(shù)倉(cāng)體驗(yàn)的全景湖倉(cāng)產(chǎn)品,具備全場(chǎng)景支持、計(jì)算隔離、存算資源按需彈性調(diào)度、智能調(diào)優(yōu)等高可靠特性,借助統(tǒng)一元數(shù)據(jù)以及統(tǒng)一權(quán)限體系,實(shí)現(xiàn)異構(gòu)集群數(shù)據(jù)互訪數(shù)據(jù)零搬遷,可大幅降低用戶頁(yè)碼:38/223整體使用成本。產(chǎn)品方案遵循開放標(biāo)準(zhǔn)設(shè)計(jì),通過(guò)統(tǒng)一平臺(tái)實(shí)現(xiàn)入湖、存儲(chǔ)、計(jì)算、開發(fā)、管理等大數(shù)據(jù)業(yè)務(wù)核心流程的全面統(tǒng)一。能力可以總結(jié)為以下五大核心特點(diǎn):·開放敏捷:我們提供開放接口和Serverless架構(gòu),實(shí)現(xiàn)快速接入,高度集成和開箱即用的體驗(yàn)?!椥陨炜s:利用云原生架構(gòu)支持存儲(chǔ)和計(jì)算的極限伸縮。允許自定義彈性配置,實(shí)現(xiàn)資源共享和嚴(yán)格隔離間的平衡·混合負(fù)載:支持多種主流引擎,以滿足多樣化的工作負(fù)載,通過(guò)云原生跨級(jí)性調(diào)度,實(shí)現(xiàn)實(shí)時(shí)和離線任務(wù)的混合部署。頁(yè)碼:39/223·集約成本:安全加固,提供集中化的資源和權(quán)限管理,支持細(xì)粒度控制,確保數(shù)據(jù)流動(dòng)和使用的安全性?!ぜ嫒萁y(tǒng)一:兼容經(jīng)典大數(shù)據(jù)平臺(tái),以便于我們的業(yè)務(wù)升級(jí),并通過(guò)統(tǒng)一元數(shù)據(jù)消除數(shù)據(jù)孤島,最大化業(yè)務(wù)價(jià)值。在當(dāng)前場(chǎng)景下,用戶在構(gòu)建和應(yīng)用大數(shù)據(jù)服務(wù)時(shí),通常面臨如下一系列挑戰(zhàn):·技術(shù)復(fù)雜性高:企業(yè)的基礎(chǔ)設(shè)施運(yùn)營(yíng)規(guī)劃、人才儲(chǔ)備等多方面都有著很高的要求,一個(gè)企業(yè)通常需要數(shù)名資深工程師組成的團(tuán)隊(duì)才能管理運(yùn)維一個(gè)數(shù)據(jù)湖系統(tǒng)?!み\(yùn)維配套設(shè)施匱乏:企業(yè)匱乏數(shù)據(jù)遷移、容災(zāi)備份、監(jiān)控、異常告警等基礎(chǔ)設(shè)施。·資源成本高:企業(yè)運(yùn)營(yíng)中對(duì)于計(jì)算存儲(chǔ)資源很難提前進(jìn)行準(zhǔn)確的估計(jì),成本非常高?!ぜ夹g(shù)抗風(fēng)險(xiǎn)能力弱:在技術(shù)能力方面,由于開源技術(shù)繁多,規(guī)范各異,企業(yè)難以頁(yè)碼:40/223應(yīng)對(duì)技術(shù)的高速迭代。為了更好的應(yīng)對(duì)挑戰(zhàn)。TBDS新一代湖倉(cāng)架構(gòu)在產(chǎn)品應(yīng)用體驗(yàn)上實(shí)現(xiàn)了全面的升級(jí),產(chǎn)品更加輕、快且易用,同時(shí)也提供了更加安全、更加可靠的服務(wù)。應(yīng)用上,TBDS湖倉(cāng)采用Serverless形態(tài),一次部署后,計(jì)算服務(wù)資源隨開隨用,按需伸縮,可靈活對(duì)接多種存儲(chǔ)服務(wù)。極致敏捷,貼身陪伴用戶的業(yè)務(wù)成長(zhǎng),同時(shí)TBDS提供從入湖到分析的全鏈路實(shí)施能力。新一代極速OLAP引擎能力全面升級(jí),支撐業(yè)務(wù)查詢實(shí)現(xiàn)了3倍提速,助力用戶輕松升級(jí)T+1業(yè)務(wù)到實(shí)時(shí)業(yè)務(wù)。在日常業(yè)務(wù)當(dāng)中,TBDS全新提供的智能運(yùn)維診斷服務(wù),助力用戶實(shí)現(xiàn)從決策支撐、集群運(yùn)維到業(yè)務(wù)應(yīng)用的全方面優(yōu)化。TBDS湖倉(cāng)提供的AllinOne全景數(shù)據(jù)分析解決方案,可以為用戶提供全場(chǎng)景的數(shù)據(jù)分析解決方案,滿足海量數(shù)據(jù)的高性能分析、數(shù)據(jù)科學(xué)以及近實(shí)時(shí)流批一頁(yè)碼:41/223體和adhoc場(chǎng)景下的靈活聯(lián)邦分析,助力用戶高效構(gòu)建數(shù)據(jù)中臺(tái)和數(shù)據(jù)分析能業(yè)務(wù)應(yīng)用上,TBDS湖倉(cāng)通過(guò)對(duì)數(shù)據(jù)湖的技術(shù)革新,全面助力用戶的業(yè)務(wù)提升。統(tǒng)一元數(shù)據(jù)和權(quán)限體系,讓用戶的找數(shù)用數(shù)體驗(yàn)更加順暢,安全性進(jìn)一步提升。同時(shí),智能運(yùn)維支持上層業(yè)務(wù)和底層運(yùn)維多種資源的統(tǒng)一優(yōu)化,在入湖和存儲(chǔ)維度上,用戶可以充分享受TBDS在Lakehouse架構(gòu)升級(jí)所帶來(lái)的Zerocopy和NoETL的紅利。另外一方面,入湖能力進(jìn)一步升級(jí),支持業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)入湖,大大降低了數(shù)據(jù)存儲(chǔ)成本和業(yè)務(wù)應(yīng)用開發(fā)的復(fù)雜性。計(jì)算能力也進(jìn)一步升級(jí),流計(jì)算+新一代查詢加速引擎,讓業(yè)務(wù)更敏捷,充分發(fā)揮實(shí)時(shí)入戶能力以及實(shí)時(shí)性帶來(lái)的業(yè)務(wù)潛力。同時(shí)批計(jì)算支持近實(shí)時(shí)、小時(shí)級(jí)別的更新,極大地縮短我們的業(yè)務(wù)反應(yīng)時(shí)間。在多個(gè)金融客戶的場(chǎng)景當(dāng)中,我們的全新架構(gòu)升級(jí)助力客戶發(fā)掘更多場(chǎng)景價(jià)值,在用戶的移動(dòng)應(yīng)用程序、核心對(duì)賬系統(tǒng)、后臺(tái)風(fēng)控系統(tǒng)、用戶頁(yè)碼:42/223和人群畫像系統(tǒng),以及adhoc等查詢場(chǎng)景中實(shí)現(xiàn)了數(shù)據(jù)架構(gòu)的全面升級(jí)和持續(xù)業(yè)務(wù)優(yōu)化。接下來(lái)將展開介紹新一代TBDS湖倉(cāng)架構(gòu)帶來(lái)的全新服務(wù)體驗(yàn)。全新架構(gòu)全新體驗(yàn)湖倉(cāng)架構(gòu)作為大數(shù)據(jù)平臺(tái)的演進(jìn)方向,已經(jīng)成為一個(gè)業(yè)界共識(shí)。這種新的架構(gòu)旨在解決傳統(tǒng)架構(gòu)下的諸多痛點(diǎn),包括數(shù)據(jù)孤島、性能瓶頸、高并發(fā)和復(fù)雜查詢限制,以及實(shí)時(shí)性不足和彈性資源欠缺等問(wèn)題。但是,當(dāng)前業(yè)界的湖倉(cāng)解決方案仍然面臨以下挑戰(zhàn):·架構(gòu)升級(jí)困難:受限于湖倉(cāng)方案,技術(shù)實(shí)現(xiàn)和管理機(jī)制,用戶難以實(shí)現(xiàn)從傳統(tǒng)數(shù)據(jù)平臺(tái)架構(gòu)到新湖倉(cāng)架構(gòu)的平滑過(guò)渡,導(dǎo)致新湖倉(cāng)能力難以及時(shí)落地。·安全管控困難:湖倉(cāng)一體場(chǎng)景下需要通過(guò)多引擎方式支持不同工作負(fù)載,但是傳統(tǒng)模式下數(shù)據(jù)權(quán)限跟引擎深度偶合,用戶需要進(jìn)行多次授權(quán),用戶體驗(yàn)差,管理上也缺少統(tǒng)一的數(shù)據(jù)和資源管理視圖?!み\(yùn)維復(fù)雜:大數(shù)據(jù)體系對(duì)接的應(yīng)用場(chǎng)景復(fù)雜,同時(shí),數(shù)據(jù)湖框架引發(fā)的小文件問(wèn)題尚未得到徹底解決,增加了運(yùn)維的難度。頁(yè)碼:43/223TBDS的新一代湖倉(cāng)方案如何解決這些問(wèn)題呢?TBDS提供的新一代統(tǒng)一元數(shù)據(jù)、統(tǒng)一權(quán)限服務(wù)和智能運(yùn)維服務(wù)針對(duì)性地應(yīng)答了以上一系列用戶痛點(diǎn)。(1)統(tǒng)一元數(shù)據(jù)服務(wù)頁(yè)碼:44/223TBDS統(tǒng)一元數(shù)據(jù)服務(wù)的設(shè)計(jì)理念不僅保留了傳統(tǒng)架構(gòu)的穩(wěn)定性,還在保持技術(shù)先進(jìn)性的同時(shí),實(shí)現(xiàn)了與傳統(tǒng)架構(gòu)的無(wú)縫融合和深度兼容,有效解決了市場(chǎng)上同類產(chǎn)品在適應(yīng)既有業(yè)務(wù)需求方面的不足,可以助力企業(yè)在技術(shù)升級(jí)和業(yè)務(wù)轉(zhuǎn)型中的平穩(wěn)過(guò)渡,完美兼顧了創(chuàng)新和連續(xù)性。具體體現(xiàn)在以下三個(gè)方面。·在開發(fā)層面,我們提供兼容Hive協(xié)議的統(tǒng)一訪問(wèn)接口,使得舊業(yè)務(wù)代碼無(wú)需修改,便可在新湖倉(cāng)架構(gòu)平臺(tái)上面運(yùn)行,實(shí)現(xiàn)了完全兼容?!し治鰧用妫诮y(tǒng)一元數(shù)據(jù)自動(dòng)納管舊集群源數(shù)據(jù),可實(shí)現(xiàn)全域數(shù)據(jù)的無(wú)縫聯(lián)邦計(jì)算跟分析?!ぴ诠芾韺用妫琓BDS云湖倉(cāng)通過(guò)虛擬集群技術(shù)實(shí)現(xiàn)跨多個(gè)Kubernetes資源的隔離和彈性伸縮,相較于Yarn提供了更加靈活的資源管理方案。(2)統(tǒng)一權(quán)限服務(wù)頁(yè)碼:45/223TBDS在安全訪問(wèn)和用戶體驗(yàn)方面也進(jìn)行了全面的升級(jí),提供了更強(qiáng)大的管理功能。主要亮點(diǎn)包括:統(tǒng)一身份認(rèn)證,支持平臺(tái)和資源的深度融合,顯著簡(jiǎn)化了權(quán)限分配流程,跨引擎數(shù)據(jù)授權(quán),通過(guò)權(quán)限僅綁定數(shù)據(jù)的機(jī)制,實(shí)現(xiàn)一次授權(quán),所有引擎生效,提高了數(shù)據(jù)的使用效率;細(xì)粒度權(quán)限控制,實(shí)現(xiàn)對(duì)功能數(shù)據(jù)和資源的統(tǒng)一,細(xì)粒度集中管控,既增強(qiáng)了平臺(tái)數(shù)據(jù)使用的安全性,又確保了數(shù)據(jù)流通共享的合規(guī)性和可控性。(3)平臺(tái)智能優(yōu)化同時(shí),針對(duì)用戶在使用和運(yùn)維大數(shù)據(jù)服務(wù)中的各類痛點(diǎn),TBDS推出了全新的智能運(yùn)維診斷服務(wù),來(lái)幫助用戶洞察、分析、定位和優(yōu)化大數(shù)據(jù)服務(wù)。橫向維度上,服務(wù)拓展了業(yè)務(wù)場(chǎng)景的支持,服務(wù)于數(shù)據(jù)開發(fā)工程師和業(yè)務(wù)分析師,提供更多引擎作業(yè)數(shù)據(jù)洞察能力,提升作業(yè)效率??v向維度上,服務(wù)深挖系統(tǒng)運(yùn)維優(yōu)化,服務(wù)于系統(tǒng)運(yùn)維工程師,提供運(yùn)維和資源洞察的能力,提升集群的穩(wěn)定性和整體的頁(yè)碼:46/223資源效率。最后再結(jié)合決策支撐模塊匯總的信息,TBDS全新智能運(yùn)維診斷服務(wù),將以三維洞察和分析能力,支撐大數(shù)據(jù)業(yè)務(wù)和平臺(tái)運(yùn)維的持續(xù)優(yōu)化提升。環(huán)境全面適配在服務(wù)升級(jí)之外,TBDS也在不斷增強(qiáng)對(duì)于國(guó)產(chǎn)化軟硬件環(huán)境的適配能力。TBDS平臺(tái)災(zāi)備產(chǎn)品模塊以及遷移工具全面兼容海光、鯤鵬、飛騰等國(guó)產(chǎn)CPU,同時(shí)也適配了麒麟、統(tǒng)信、TencentOS等滿足金融信創(chuàng)要求的操作系統(tǒng)。并且頁(yè)碼:47/223我們通過(guò)騰訊自研的KonaJDK在大數(shù)據(jù)領(lǐng)域的專項(xiàng)優(yōu)化,以及TBDS多年以來(lái)在信創(chuàng)大數(shù)據(jù)領(lǐng)域的經(jīng)驗(yàn)沉淀,TBDS實(shí)現(xiàn)了對(duì)于國(guó)產(chǎn)軟硬件性能的極致優(yōu)化,可以最大化地發(fā)揮硬件性能潛力,充分保證業(yè)務(wù)的信創(chuàng)升級(jí)。TBDS同時(shí)提供了豐富的部署環(huán)境支持,支持在多種交付環(huán)境中進(jìn)行快速部署。其中一個(gè)重要的升級(jí)是基于TCE平臺(tái),新一代TBDS升級(jí)了完整的云數(shù)一體能力,統(tǒng)一對(duì)接TCE云平臺(tái)的資源和用戶體系,支持一鍵部署TBDS大數(shù)據(jù)服務(wù),免去了復(fù)雜的前期準(zhǔn)備。我們更加深度支持聯(lián)動(dòng)TCE上的各類云產(chǎn)品和云平臺(tái)服務(wù),統(tǒng)一企業(yè)的云資源,優(yōu)化大數(shù)據(jù)建設(shè)和使用成本,擴(kuò)展我們大數(shù)據(jù)分析服務(wù)的應(yīng)用場(chǎng)景。頁(yè)碼:48/223企業(yè)數(shù)據(jù)架構(gòu)升級(jí)實(shí)踐案例在多個(gè)行業(yè)的頭部用戶當(dāng)中,新一代TBDS平臺(tái)的能力已有成功的落地應(yīng)用案在某頭部保險(xiǎn)公司,TBDS湖倉(cāng)助力用戶實(shí)現(xiàn)了司內(nèi)的多個(gè)大數(shù)據(jù)湖的統(tǒng)一,并且實(shí)現(xiàn)了客戶核心業(yè)務(wù)的實(shí)時(shí)化改造,從T+1或小時(shí)級(jí)的業(yè)務(wù)升級(jí)成分鐘級(jí)。同時(shí),結(jié)合騰訊WeData的數(shù)據(jù)開發(fā)治理能力,實(shí)現(xiàn)了客戶業(yè)務(wù)數(shù)據(jù)集成、開發(fā)、治理到數(shù)據(jù)資產(chǎn)盤點(diǎn)、資產(chǎn)運(yùn)營(yíng)的全鏈路無(wú)縫貫穿。頁(yè)碼:49/223在某頭部股份制銀行,新一代TBDS助力用戶全面實(shí)現(xiàn)了大數(shù)據(jù)平臺(tái)的信創(chuàng)國(guó)產(chǎn)化升級(jí)。通過(guò)TBDS,用戶實(shí)現(xiàn)了一系列新規(guī)劃的落地,包括大數(shù)據(jù)系統(tǒng)容災(zāi)能力的全面升級(jí),大數(shù)據(jù)業(yè)務(wù)和系統(tǒng)優(yōu)化的智能化,以及集群內(nèi)X86和ARM硬件的混布。同時(shí)結(jié)合產(chǎn)品的靈活部署方案,解決了行內(nèi)數(shù)據(jù)的安全隔離需求和大規(guī)模集群的性能瓶頸限制,滿足了行內(nèi)全場(chǎng)景的業(yè)務(wù)訴求和未來(lái)業(yè)務(wù)升級(jí)的需求,實(shí)現(xiàn)了對(duì)于客戶未來(lái)業(yè)務(wù)長(zhǎng)期發(fā)展支持的連續(xù)性。在未來(lái),我們將繼續(xù)完善TBDS湖倉(cāng)大數(shù)據(jù)平臺(tái)。在更多大數(shù)據(jù)場(chǎng)景的能力支撐和使用體驗(yàn)優(yōu)化,并且探索更多新場(chǎng)景和性能優(yōu)化的方向,騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用的智能化大數(shù)據(jù)平臺(tái)。頁(yè)碼:50/223騰訊云ES讀寫分離+存算分離新架構(gòu)解讀導(dǎo)讀:云計(jì)算和大數(shù)據(jù)作為現(xiàn)代企業(yè)基礎(chǔ)設(shè)施的核心部分,對(duì)于提高效率和降低成本至關(guān)重要。騰訊云大數(shù)據(jù)團(tuán)隊(duì)始終致力于通過(guò)技術(shù)創(chuàng)新,提供高性價(jià)比的產(chǎn)品解決方案,以滿足企業(yè)的需求。圍繞性價(jià)比提升,騰訊云大數(shù)據(jù)首先推出了Meson高性能計(jì)算加速解決方案,目前可為EMR和DLC兩款數(shù)據(jù)湖產(chǎn)品帶來(lái)約2倍的基準(zhǔn)性能提升。另外,在檢索分析服務(wù)ES上,我們基于讀寫分離、存算分離架構(gòu)升級(jí),今年我們?cè)谌罩緢?chǎng)景可實(shí)現(xiàn)約10倍的性價(jià)比提升。更值得一提的是,我們今年也帶來(lái)了可進(jìn)一步降低成本的全新產(chǎn)品形態(tài),包括EMR托管節(jié)點(diǎn),以及ESServerless服務(wù)。文中將對(duì)相關(guān)細(xì)節(jié)做詳細(xì)講解。主要包括以下三部分:·Meson高性能計(jì)算引擎·ES日志場(chǎng)景10倍性價(jià)比提升·更靈活的產(chǎn)品形態(tài)Meson高性能計(jì)算引擎頁(yè)碼:51/223產(chǎn)品的性價(jià)比源于性能的不斷提升,在今年上半年,騰訊云大數(shù)據(jù)自研了一套高性能計(jì)算引擎通用解決方案——Meson。Meson是騰訊云大數(shù)據(jù)的通用高性能計(jì)算加速套件,整體圍繞極致軟件工程,加軟硬件一體加速和AI加持的設(shè)計(jì)理念,致力于打造通用化、套件化,適配騰訊云大數(shù)據(jù)全體系產(chǎn)品的通用計(jì)算加速底座。頁(yè)碼:52/223在騰訊云EMR以及DLC兩個(gè)數(shù)據(jù)湖產(chǎn)品中,基于Meson,目前我們已經(jīng)實(shí)現(xiàn)了完全兼容Spark的向量化加速能力,相比開源Spark性能提升可達(dá)到2.27倍。另外,在騰訊云檢索分析服務(wù)ES上,結(jié)合高性能計(jì)算引擎Meson解決方案,騰訊云ES成為了目前全球唯一支持GPU加速的ES服務(wù)。具體而言,我們與騰訊自研GPU技術(shù)紫霄軟硬結(jié)合,充分利用GPU的性能優(yōu)勢(shì),顯著提高了ES向量生成和向量檢索的效率。ES日志場(chǎng)景10倍性價(jià)比提升騰訊云ES服務(wù)一直是日志、安全、檢索場(chǎng)景的開源首選方案,圍繞日志場(chǎng)景的成本優(yōu)化,騰訊云ES服務(wù)自主研發(fā)了讀寫分離、存算分離新架構(gòu)重大升級(jí),整體可在日志場(chǎng)景中帶來(lái)最高10倍的性價(jià)比提升。頁(yè)碼:53/223在讀寫分離方面,基于資源隔離提升可用性的思路,騰訊云ES實(shí)現(xiàn)了全面優(yōu)于開源社區(qū)的讀寫分離性能,寫入性能最大提升10倍。另外,我們?cè)谧匝蠩S新架構(gòu)上實(shí)現(xiàn)了基于騰訊云對(duì)象存儲(chǔ)的存算分離、熱數(shù)據(jù)實(shí)時(shí)下沉、按需卸載等能力,在業(yè)務(wù)實(shí)測(cè)中,可降低90%以上的存儲(chǔ)成本。接下來(lái)以一個(gè)具體的客戶案例來(lái)說(shuō)明。頁(yè)碼:54/223A客戶在原社區(qū)版ES上需要50臺(tái)存算一體ES節(jié)點(diǎn),而在騰訊云自研ES存算分離架構(gòu)下,可將計(jì)算節(jié)點(diǎn)縮減到5臺(tái),存儲(chǔ)成本在SSD以及對(duì)象存儲(chǔ)的存算分離下可縮減90%。在此基礎(chǔ)上,如果結(jié)合使用共享讀寫分離,可進(jìn)一步降低成本,相比社區(qū)原生ES架構(gòu),可實(shí)現(xiàn)十倍以上性價(jià)比。更靈活的產(chǎn)品形態(tài)除了性能以及架構(gòu)升級(jí)以外,騰訊云大數(shù)據(jù)一直致力于創(chuàng)新產(chǎn)品形態(tài),提供更靈活的產(chǎn)品使用模式。頁(yè)碼:55/223在騰訊云EMR產(chǎn)品上,近期推出了全新的托管節(jié)點(diǎn)資源類型,EMR托管節(jié)點(diǎn)實(shí)現(xiàn)了資源的全自動(dòng)化運(yùn)維和自動(dòng)擴(kuò)縮容,讓用戶可免運(yùn)維的同時(shí),顯著降低了計(jì)算資源的使用成本。相比于EMR產(chǎn)品傳統(tǒng)task或者core節(jié)點(diǎn),全新推出的托管節(jié)點(diǎn)具備三大優(yōu)勢(shì):首先是低成本,托管節(jié)點(diǎn)相比傳統(tǒng)EMR節(jié)點(diǎn)使用成本平均有30%的降低;第二是更易用,托管節(jié)點(diǎn)支持自動(dòng)擴(kuò)縮容,用戶無(wú)需為EMR集群配置復(fù)雜的機(jī)型彈性規(guī)則,平臺(tái)可以做到托管節(jié)點(diǎn)的自動(dòng)伸縮;第三點(diǎn)是完全免運(yùn)維,EMR托管節(jié)點(diǎn)具備故障自動(dòng)替換機(jī)制,以及實(shí)時(shí)監(jiān)控、任務(wù)遷移等能力,當(dāng)托管節(jié)點(diǎn)資源在遇到故障時(shí),能夠迅速做出反應(yīng),確保集群和業(yè)務(wù)的穩(wěn)定性。在騰訊云檢索分析服務(wù)ES上,我們推出了ESServerless產(chǎn)品形態(tài),面向日志場(chǎng)景提供自動(dòng)彈性,完全免運(yùn)維的一站式日志分析解決方案。頁(yè)碼:56/223Serverless基于騰訊云自研的高可用存算分離架構(gòu),客戶根據(jù)實(shí)際訪問(wèn)與存儲(chǔ)量計(jì)費(fèi),實(shí)現(xiàn)了業(yè)務(wù)負(fù)載與資源動(dòng)態(tài)匹配的按需付費(fèi),可減少資源閑置所導(dǎo)致的成本支出,大幅降低成本;其次是提升易用性,ESServerless提供集群免運(yùn)維、索引免運(yùn)維、數(shù)據(jù)鏈路免運(yùn)維的一站式場(chǎng)景化解決方案;第三是保持兼容性,ESServerless服務(wù)100%兼容開源ESAPI,兼容ELK生態(tài),可極大降低業(yè)務(wù)上云門檻,可在分鐘級(jí)實(shí)現(xiàn)業(yè)務(wù)落地。提供更優(yōu)性價(jià)比的產(chǎn)品解決方案,一直是騰訊云大數(shù)據(jù)致力投入的方向。通過(guò)高性能計(jì)算引擎Meson、全面的產(chǎn)品技術(shù)架構(gòu)升級(jí),以及更加靈活易用的產(chǎn)品形態(tài),我們希望為客戶的降本增效目標(biāo)注入更強(qiáng)大的驅(qū)動(dòng)力。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺(tái)。頁(yè)碼:57/223湖倉(cāng)架構(gòu)下存儲(chǔ)自動(dòng)化治理實(shí)踐前言2020年,Lakehouse架構(gòu)被首先提出,區(qū)別于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),Lakehouse同時(shí)吸收了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì),試圖去融合數(shù)倉(cāng)和數(shù)據(jù)湖這兩者的優(yōu)勢(shì),通過(guò)將數(shù)倉(cāng)構(gòu)建在數(shù)據(jù)湖上,使得存儲(chǔ)變得更為廉價(jià)和彈性,同時(shí)Lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余,使數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個(gè)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行操作,同時(shí)也能為數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)治理帶來(lái)更多的便利性。TBDS在過(guò)去幾年很好的支撐了各行業(yè)客戶業(yè)務(wù)在湖倉(cāng)架構(gòu)下的落地,在數(shù)據(jù)的時(shí)效性、數(shù)據(jù)審計(jì)、數(shù)據(jù)降冷、數(shù)據(jù)查詢速度、數(shù)據(jù)存儲(chǔ)查詢成本等維度得到了全面的提升,然而隨著用戶對(duì)湖倉(cāng)的使用場(chǎng)景越來(lái)越多樣化和規(guī)?;?,數(shù)據(jù)湖底層文件治理成本也隨之增高,一方面是用戶在湖倉(cāng)架構(gòu)上使用的便利與高效,另一方面是湖倉(cāng)架構(gòu)下萬(wàn)億級(jí)文件治理帶來(lái)的運(yùn)維成本,目前業(yè)界在數(shù)據(jù)湖存儲(chǔ)治理方面開源且易用的方案并不多,我們基于項(xiàng)目中的實(shí)戰(zhàn)經(jīng)驗(yàn),分享騰訊云TBDS在湖倉(cāng)存儲(chǔ)自動(dòng)化治理的解決方案,希望能對(duì)大家有所啟發(fā)和幫助。頁(yè)碼:58/223湖倉(cāng)治理實(shí)踐背景當(dāng)前,數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)決策已經(jīng)成為各行業(yè)客戶業(yè)務(wù)發(fā)展的共識(shí),尤其是在互聯(lián)網(wǎng)、金融、新媒體等行業(yè),數(shù)據(jù)新鮮度成為數(shù)據(jù)質(zhì)量的重要衡量指標(biāo),越來(lái)越多的客戶開始將數(shù)據(jù)鏈路從傳統(tǒng)數(shù)倉(cāng)T+1更新轉(zhuǎn)化為更加實(shí)時(shí)的數(shù)據(jù)架構(gòu),這里我們從某頭部金融客戶的湖倉(cāng)架構(gòu)展開,其整體數(shù)據(jù)加工鏈路如下:在客戶的數(shù)據(jù)處理鏈路中,Iceberg/Hudi作為統(tǒng)一湖格式支撐著整個(gè)數(shù)據(jù)鏈路中各個(gè)環(huán)節(jié)數(shù)據(jù)的入湖出湖,承擔(dān)著重要的角色,取代了傳統(tǒng)的Hive驅(qū)動(dòng)著整個(gè)數(shù)據(jù)鏈路。頁(yè)碼:59/223隨著數(shù)據(jù)湖使用規(guī)模的擴(kuò)大,客戶在使用過(guò)程中也遇到了數(shù)據(jù)湖帶來(lái)的多個(gè)問(wèn)題,過(guò)多的小文件會(huì)給HadoopHDFS的NameNode可用性上帶來(lái)嚴(yán)重的問(wèn)題,同時(shí)也會(huì)在計(jì)算引擎?zhèn)葞?lái)大量的IO和查詢速度的降低,同時(shí)數(shù)據(jù)湖ACID特性和高頻入湖也會(huì)導(dǎo)致數(shù)據(jù)湖元數(shù)據(jù)的膨脹,以及數(shù)據(jù)湖下表的生命周期管理等問(wèn)題,這些都會(huì)影響湖倉(cāng)在客戶側(cè)的落地,因此數(shù)據(jù)湖存儲(chǔ)優(yōu)化模塊是湖倉(cāng)架構(gòu)下必不可少的模塊,也是湖倉(cāng)生產(chǎn)落地過(guò)程中關(guān)鍵的部分?;诳蛻粼诤}(cāng)架構(gòu)下的生產(chǎn)使用現(xiàn)狀,秉承開源優(yōu)先的原則,我們率先在TBDS中集成了開源數(shù)據(jù)湖優(yōu)化組件Amoro。得益于TBDS底座強(qiáng)大易用的OpenAPI,我們也在Amoro的集成上進(jìn)行了開箱即用的增強(qiáng)來(lái)減少用戶使用的成本,同時(shí)保證內(nèi)核和社區(qū)對(duì)齊。與此同時(shí)為了將湖倉(cāng)存儲(chǔ)優(yōu)化能力更好的落地客戶生產(chǎn)業(yè)務(wù),我們也對(duì)Amoro的內(nèi)核進(jìn)行了大量的功能性和易用的改造,該部分會(huì)在下個(gè)章節(jié)的Luoshu相關(guān)優(yōu)化方案中展開。新一代的數(shù)據(jù)湖存儲(chǔ)治理解決方案數(shù)據(jù)湖存儲(chǔ)優(yōu)化方案的一個(gè)核心在于:為上層用數(shù)應(yīng)用提供一個(gè)合理的數(shù)據(jù)組織結(jié)構(gòu),為下層存儲(chǔ)基座提供一個(gè)精簡(jiǎn)的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),同時(shí)為運(yùn)維人員提供一個(gè)頁(yè)碼:60/223功能完備的數(shù)據(jù)管理系統(tǒng)。這一切都是為來(lái)簡(jiǎn)化Lakehouse架構(gòu)在落地過(guò)程中開發(fā)和運(yùn)維的復(fù)雜性,提供一個(gè)統(tǒng)一的數(shù)據(jù)處理層,同時(shí)支持離線批量處理和實(shí)時(shí)增量處理,滿足用戶對(duì)數(shù)據(jù)一致性的要求。3.1傳統(tǒng)業(yè)務(wù)實(shí)踐痛點(diǎn)·學(xué)習(xí)門檻高在客戶的生產(chǎn)環(huán)境中,我們發(fā)現(xiàn)傳統(tǒng)的開源數(shù)據(jù)湖存儲(chǔ)優(yōu)化方案在客戶側(cè)能很好的解決不同時(shí)效性的表的存儲(chǔ)優(yōu)化,特別是在小文件治理方面表現(xiàn)出色,同時(shí)能很好的進(jìn)行優(yōu)化資源的配置和隔離,但是實(shí)現(xiàn)這一過(guò)程需要對(duì)組件內(nèi)核和運(yùn)行機(jī)制比較熟悉,同時(shí)由于傳統(tǒng)的開源方案內(nèi)部引入了“資源組”等領(lǐng)域概念,并且內(nèi)部?jī)?yōu)化資源服務(wù)于該資源組下面的所有表,在優(yōu)化過(guò)程中需要用戶控制每個(gè)表的資源使用配額,包對(duì)資源組資源實(shí)例的調(diào)整等。因此,數(shù)據(jù)湖存儲(chǔ)優(yōu)化方案中,在提供功能強(qiáng)大的優(yōu)化能力的同時(shí),客戶對(duì)于優(yōu)化系統(tǒng)的易用性和高效的運(yùn)維也存在比較迫切的需求?!べY源運(yùn)維成本高傳統(tǒng)的開源方案內(nèi)部主要使用Spark,Flink任務(wù)來(lái)作為優(yōu)化資源重寫數(shù)據(jù)湖表來(lái)達(dá)到對(duì)表進(jìn)行優(yōu)化的目的,通常情況下用戶在為表配合好邏輯優(yōu)化資源隊(duì)列頁(yè)碼:61/223后,用戶需要從業(yè)務(wù)角度出發(fā)為該優(yōu)化隊(duì)列配置足夠的資源,同時(shí)確保隊(duì)列下的計(jì)算資源穩(wěn)定運(yùn)行來(lái)確保業(yè)務(wù)表的優(yōu)化正常穩(wěn)定執(zhí)行,但是由于缺少優(yōu)化資源隊(duì)列下表的統(tǒng)計(jì)信息無(wú)法對(duì)計(jì)算資源進(jìn)行正確的評(píng)估,以及生產(chǎn)環(huán)境中優(yōu)化任務(wù)的穩(wěn)定性問(wèn)題,通常保證隊(duì)列下表優(yōu)化的正常需要比較高的運(yùn)維成本,難以達(dá)到理想的優(yōu)化狀態(tài)。因此,業(yè)界對(duì)一個(gè)能夠在統(tǒng)一解決數(shù)據(jù)湖存儲(chǔ)優(yōu)化的同時(shí)降低運(yùn)營(yíng)維護(hù)成本的數(shù)據(jù)湖優(yōu)化解決方案的需求日益迫切,在這種方案架構(gòu)下,用戶可以上層無(wú)感的進(jìn)行使用,同時(shí)底層優(yōu)化組件具備良好的自適應(yīng)優(yōu)化和完備的資源自愈能力來(lái)滿足用戶落地?cái)?shù)據(jù)湖過(guò)程中對(duì)高效運(yùn)營(yíng)的需求。3.2湖倉(cāng)治理定位及特性分析構(gòu)建一個(gè)具備對(duì)數(shù)據(jù)湖文件中數(shù)據(jù)生命周期管理,數(shù)據(jù)文件治理,數(shù)據(jù)組織優(yōu)化的核心功能外,我們也需要在整體的數(shù)據(jù)湖優(yōu)化過(guò)程中具備對(duì)系統(tǒng)資源的整體管控,以及底層的優(yōu)化資源管控,和底層優(yōu)化資源的自適應(yīng)運(yùn)維能力,來(lái)幫助用戶盡可能地降低在使用過(guò)程中的運(yùn)維成本。頁(yè)碼:62/2233.3湖倉(cāng)治理核心優(yōu)化方向從用戶使用角度出發(fā),我們除了需要為用戶提供完善的數(shù)據(jù)湖核心優(yōu)化能力之外,我們重點(diǎn)完善了整個(gè)方案中的運(yùn)維成本較高的模塊,包括進(jìn)行了Serverless化部署適配,同時(shí)將邏輯資源優(yōu)化組直接對(duì)接系統(tǒng)的資源管理模塊,自動(dòng)化同步優(yōu)化資源組模塊,對(duì)于用戶在使用中復(fù)雜程度較高的優(yōu)化資源實(shí)例擴(kuò)展,我們實(shí)現(xiàn)了根據(jù)用戶配置規(guī)則進(jìn)行自動(dòng)化拉起釋放機(jī)制,讓用戶擺脫了使用中的需要人工介入運(yùn)維的過(guò)程。頁(yè)碼:63/223基于騰訊云TBDS在客戶側(cè)豐富的實(shí)踐經(jīng)驗(yàn),我們開始在Amoro的基礎(chǔ)上通過(guò)改造,賦能TBDS上一個(gè)功能全面易用的數(shù)據(jù)湖優(yōu)化組件,簡(jiǎn)單描述我們的預(yù)期為:用戶只需要在工作臺(tái)編輯配置表的屬性配置,即可無(wú)感將該表托管給TBDS的數(shù)據(jù)管理優(yōu)化系統(tǒng),TBDS會(huì)根據(jù)預(yù)置策略全自動(dòng)的托管該表的生命周期管理和優(yōu)化。3.4新架構(gòu)服務(wù)Luoshu的核心能力下面是TBDS增強(qiáng)版數(shù)據(jù)湖優(yōu)化管理服務(wù)Luoshu的整體架構(gòu),包含OptimizerMaintainer,ClusterManager,CommandCenter等核心新增模塊:頁(yè)碼:64/223由于自動(dòng)化數(shù)據(jù)優(yōu)化核心在于表的生命周期全優(yōu)化托管,用戶只需關(guān)心業(yè)務(wù)相關(guān)語(yǔ)義,無(wú)需關(guān)心優(yōu)化組和優(yōu)化器具體的生命周期,因此,為了實(shí)現(xiàn)整個(gè)流程表優(yōu)化的自動(dòng)化我們主要改造點(diǎn)為:·Serverless化。由于該組件服務(wù)于管控下的所有Hadoop集群,因此需要進(jìn)行Serverless化來(lái)支持后期性能擴(kuò)展,同時(shí)配合TBDS管控來(lái)實(shí)現(xiàn)Hadoop集群生命周期初始化過(guò)程中自動(dòng)化的將Catalog相關(guān)信息注冊(cè)到Luoshu,實(shí)現(xiàn)為多集群提供存儲(chǔ)優(yōu)化服務(wù)。資·源統(tǒng)一管控。TBDS管控下所有用戶的資源隊(duì)列信息自動(dòng)化同步到Luoshu中頁(yè)碼:65/223為用戶提供統(tǒng)一資源組視圖,對(duì)齊用戶在傳統(tǒng)Hadoop/K8s下的使用方式,同時(shí)支持優(yōu)化任務(wù)多集群提交,需要針對(duì)不同集群的湖文件,在進(jìn)行優(yōu)化時(shí)將優(yōu)化資源提交到指定的計(jì)算集群,實(shí)現(xiàn)Luoshu的資源管控與傳統(tǒng)大數(shù)據(jù)使用同一套資源管控·優(yōu)化資源自適應(yīng)。Luoshu自動(dòng)感知優(yōu)化隊(duì)列是否有表需要優(yōu)化,并根據(jù)用戶的資源模版自動(dòng)拉起優(yōu)化任務(wù),并在沒(méi)有表需要優(yōu)化時(shí)主動(dòng)釋放資源3.4.1Serverless化部署不同于社區(qū)的云原生方案,TBDS版本中我們進(jìn)行進(jìn)行了定制化的落地改造,主要基于以下出發(fā)點(diǎn):·TBDS目前提供面向云原生的計(jì)算集群,但是考慮到大量的客戶主要計(jì)算資源依舊為yarn,所以云原生場(chǎng)景下依舊需要完整的支持Yarn作為主要的計(jì)算資源。·由于TBDS全棧支持IPv4/IPv6協(xié)議,在云原生場(chǎng)景下涉及多個(gè)外部接口,我們需要通過(guò)TBDS管控平臺(tái)獲取該P(yáng)od的專有IPv4與IPv6地址?!BDS可以同時(shí)納管多套Hadoop集群以及上面的計(jì)算引擎,同時(shí)各個(gè)集群自由支持IPv4,IPv6,雙棧等網(wǎng)絡(luò)協(xié)議棧,TBDS需要根據(jù)不同的Hadoop集群協(xié)議棧使用不同的通信協(xié)議?!樘嵘齼?yōu)化任務(wù)性能,我們也將TBDS內(nèi)部?jī)?yōu)化版本Flink,Spark進(jìn)行預(yù)置。同時(shí)TBDS目前提供了完備的OpenAPI,TBDS管控側(cè)的監(jiān)聽機(jī)制可以在頁(yè)碼:66/223Luoshu組件上,實(shí)現(xiàn)Catalog的自動(dòng)化接入注冊(cè),實(shí)現(xiàn)Hadoop創(chuàng)建過(guò)程中及聯(lián)化接入。3.4.2資源統(tǒng)一管控通常情況下,對(duì)于開源數(shù)據(jù)湖存儲(chǔ)優(yōu)化組件,用戶需要配置優(yōu)化隊(duì)列,并在后期拉起優(yōu)化器過(guò)程中使用該優(yōu)化隊(duì)列來(lái)聚合優(yōu)化資源,提供統(tǒng)一的資源視圖,但是實(shí)際使用過(guò)程中我們也發(fā)現(xiàn)部分問(wèn)題:·該優(yōu)化資源隊(duì)列不同于yarn或k8s隊(duì)列,為內(nèi)部領(lǐng)域概念,在用戶使用過(guò)程中增加了理解成本·對(duì)于優(yōu)化資源隊(duì)列的創(chuàng)建需要單獨(dú)進(jìn)行規(guī)劃設(shè)計(jì),增加了額外的成本,在多集群的架構(gòu)下運(yùn)維變得困難TBDS提供了統(tǒng)一的資源管理模塊,我們希望將優(yōu)化隊(duì)列概念對(duì)齊統(tǒng)一資源視圖中資源隊(duì)列的概念,減少用戶使用時(shí)的學(xué)習(xí)使用成本。因此我們也自動(dòng)化的將TBDS的資源相關(guān)信息自動(dòng)化的同步到了Luoshu側(cè)。同時(shí)為了進(jìn)行不同集群的queue@cluster-id的形式,用于在后期進(jìn)行調(diào)起任務(wù)的過(guò)程中去解析集群與資源組的信息。頁(yè)碼:67/223TBDS統(tǒng)一資源管理視圖TBDS統(tǒng)一資源管理編輯界面由于在實(shí)際客戶使用場(chǎng)景中,大數(shù)據(jù)的集群計(jì)算資源主要以Yarn資源為主,同時(shí)從客戶使用穩(wěn)定性角度出發(fā),我們優(yōu)先支持了Yarn資源來(lái)進(jìn)行優(yōu)化,但同時(shí)也面臨一個(gè)問(wèn)題,在一個(gè)Pod中如何根據(jù)指定的優(yōu)化器啟動(dòng)命令完成向不同的集群提交優(yōu)化任務(wù),同時(shí)保證該任務(wù)可以正常的優(yōu)化并和傳統(tǒng)Hadoop的AZ部署時(shí)具備相同的優(yōu)化性能。為此我們對(duì)接TBDSOpenAPI實(shí)現(xiàn)了在單一POD可以根據(jù)指定資源組自動(dòng)化的將優(yōu)化任務(wù)提交到指定的Yarn集群中,具體多集群遠(yuǎn)程提交示意圖如下:頁(yè)碼:68/223其中主要需要實(shí)現(xiàn)了以下幾個(gè)關(guān)鍵功能:·自動(dòng)化感知納管集群配置信息并同步至POD中?!ぶС之悩?gòu)網(wǎng)絡(luò)協(xié)議棧下提交Flink/Spark優(yōu)化任務(wù)?!ぶС肿詣?dòng)化識(shí)別生成優(yōu)化器提交命令上下文并提交至遠(yuǎn)程指定Yarn集群中。通過(guò)以上的改造我們可用將用戶指定優(yōu)化隊(duì)列下的優(yōu)化任務(wù)提交到指定的遠(yuǎn)程Yarn集群,同時(shí)保證優(yōu)化任務(wù)可以正確的建立心跳以及后續(xù)優(yōu)化任務(wù)拉取等流程。實(shí)現(xiàn)湖文件優(yōu)化的計(jì)算本地化。3.4.3優(yōu)化資源自適應(yīng)傳統(tǒng)的對(duì)數(shù)據(jù)湖表進(jìn)行優(yōu)化需要用戶手動(dòng)拉起優(yōu)化計(jì)算資源,并在表無(wú)需優(yōu)化時(shí)進(jìn)行手動(dòng)釋放,在實(shí)際的業(yè)務(wù)使用中,用戶需要頻繁的進(jìn)行運(yùn)維操作,同時(shí)優(yōu)化頁(yè)碼:69/223任務(wù)失敗時(shí)無(wú)法及時(shí)感知拉起會(huì)導(dǎo)致整個(gè)湖表的優(yōu)化狀態(tài)不符合預(yù)期,為此我們?cè)贚uoshu上實(shí)現(xiàn)了優(yōu)化任務(wù)的自動(dòng)拉起釋放機(jī)制來(lái)確保用戶無(wú)需人工介入,全流程自動(dòng)化感知操作。·優(yōu)化任務(wù)自適應(yīng)拉起通常情況下用戶需要在指定的優(yōu)化隊(duì)列下手動(dòng)拉起指定的優(yōu)化任務(wù),并在后續(xù)根據(jù)優(yōu)化時(shí)根據(jù)具體情況手動(dòng)Kill掉優(yōu)化任務(wù)來(lái)釋放資源等,為了減少用戶的使用成本,我們也將該過(guò)程進(jìn)行自動(dòng)化。由于在Luoshu內(nèi)部,表的優(yōu)化信息通常會(huì)聚合在指定的優(yōu)化隊(duì)列下,同時(shí)保持連接的優(yōu)化器也會(huì)聚合在指定的優(yōu)化隊(duì)列下,我們通過(guò)檢測(cè)各個(gè)優(yōu)化隊(duì)列下的表信息以及優(yōu)化器信息來(lái)決定是否需要進(jìn)行拉起優(yōu)化器?!?yōu)化任務(wù)自適應(yīng)釋放優(yōu)化任務(wù)自動(dòng)釋放,主要在兩個(gè)場(chǎng)景下需要處理:1.優(yōu)化任務(wù)與Luoshu由于網(wǎng)絡(luò)隔離導(dǎo)致失聯(lián),同時(shí)Luoshu的自動(dòng)拉起優(yōu)化器邏輯無(wú)法感知網(wǎng)絡(luò)隔離會(huì)導(dǎo)致頻繁拉起,該場(chǎng)景下需要使斷聯(lián)的優(yōu)化器主動(dòng)自殺來(lái)避免耗盡所有機(jī)器隊(duì)列資源。2.優(yōu)化任務(wù)在指定隊(duì)列無(wú)優(yōu)化表的情況下默認(rèn)會(huì)持續(xù)持有資源等待新的優(yōu)化任頁(yè)碼:70/223務(wù)生成,該場(chǎng)景下存在一定情況下的資源浪費(fèi),該情況下進(jìn)行優(yōu)化任務(wù)的主動(dòng)釋放時(shí)必要的,我們也在該場(chǎng)景下實(shí)現(xiàn)了優(yōu)化任務(wù)的主動(dòng)釋放,其中部分代碼邏輯如下:總結(jié)與展望4.1業(yè)務(wù)使用效果目前我們已經(jīng)在騰訊云TBDS上線自動(dòng)化數(shù)據(jù)湖優(yōu)化組件Luoshu,用戶只需為指定表配置使用的資源隊(duì)列,即可將該表全托管給TBDS優(yōu)化,為用戶提供更頁(yè)碼:71/223加易用的數(shù)據(jù)湖優(yōu)化體驗(yàn),減少用戶數(shù)據(jù)湖落地過(guò)程中使用運(yùn)維成本。如下圖所示,用戶只需為表配置優(yōu)化資源隊(duì)列既可托管該表,由Luoshu負(fù)責(zé)該表的優(yōu)化以及生命周期管理。性能層面,目前在客戶的使用場(chǎng)景中,使用Luoshu單實(shí)例治理的Iceberg表數(shù)量穩(wěn)定在1W左右,Iceberg單表存儲(chǔ)最大50G左右,單表文件數(shù)最大多達(dá)17W,可確保整個(gè)數(shù)據(jù)湖使用達(dá)到平穩(wěn)狀態(tài),同時(shí)使用Luoshu進(jìn)行自動(dòng)化治理后,上層計(jì)算引擎在計(jì)算階段平均節(jié)省資源15%左右,大大減少了因?yàn)樾∥募^(guò)多導(dǎo)致的計(jì)算查詢無(wú)法完成的異常情況。使用體驗(yàn)層面,使用Luoshu作為公共數(shù)據(jù)湖優(yōu)化組件,可以為同時(shí)為多套Hadoop集群上湖倉(cāng)數(shù)據(jù)提供優(yōu)化服務(wù),用戶在使用過(guò)程中也無(wú)需進(jìn)行除了表配頁(yè)碼:72/223置外的其他操作,即可無(wú)感知的對(duì)表進(jìn)行優(yōu)化,無(wú)需在進(jìn)行專職運(yùn)維人員進(jìn)行運(yùn)維操作,極大的優(yōu)化了業(yè)務(wù)開發(fā)人員的使用體驗(yàn)。4.2未來(lái)優(yōu)化方向在后續(xù)Luoshu的演進(jìn)方向上,我們結(jié)合客戶的使用場(chǎng)景也會(huì)繼續(xù)進(jìn)行一系列功能的增強(qiáng)和性能的優(yōu)化,主要包括:·優(yōu)化資源方面將自動(dòng)化根據(jù)線上表優(yōu)化任務(wù)執(zhí)行統(tǒng)計(jì)信息自動(dòng)化擴(kuò)縮容優(yōu)化資源?!?yōu)化計(jì)劃生成方面將自動(dòng)化識(shí)別巨量表,自動(dòng)拉起單實(shí)例優(yōu)化任務(wù),來(lái)減小對(duì)其他表優(yōu)化的影響?!すδ軐用鎸?huì)結(jié)合TBDS統(tǒng)一元數(shù)據(jù)服務(wù)將Index,Clustering等功能集成進(jìn)入Luoshu實(shí)現(xiàn)湖倉(cāng)智能加速,進(jìn)一步提升上層計(jì)算引擎的查詢速度。后續(xù)我們也將繼續(xù)加強(qiáng)TBDSLuoshu在數(shù)據(jù)湖治理方面的能力,同時(shí)也將積極將這些功能回饋社區(qū),繼續(xù)推進(jìn)湖倉(cāng)一體架構(gòu)在更多的客戶業(yè)務(wù)中落地。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺(tái)。頁(yè)碼:73/223基于騰訊云BI構(gòu)建數(shù)據(jù)應(yīng)用底座引擎騰訊云BI作為新一代的數(shù)據(jù)分析BI,用戶只需要通過(guò)簡(jiǎn)單的拖拽便能夠制作出豐富多樣的可視化信息,自由的對(duì)數(shù)據(jù)進(jìn)行分析和探索。得益于積木式技術(shù)架構(gòu)設(shè)計(jì),騰訊云BI可以作為企業(yè)的數(shù)據(jù)應(yīng)用消費(fèi)引擎,支持通過(guò)低代碼的形式將數(shù)據(jù)接入,建模,數(shù)據(jù)分析,可視化,數(shù)據(jù)監(jiān)控以及推送等BI的一系列能力無(wú)縫融入到企業(yè)內(nèi)部系統(tǒng)中,幫助企業(yè)低成本的建設(shè)企業(yè)應(yīng)用系統(tǒng)中的數(shù)據(jù)應(yīng)用模塊。騰訊云BI能力矩陣頁(yè)碼:74/223多樣的系統(tǒng)集成方式在開始之前先可以先看一下客戶的集成效果(客戶將BI集成到自己的系統(tǒng)中作為數(shù)據(jù)分析及可視化的底座)??蛻粝到y(tǒng)集成案例話講回來(lái),用戶通過(guò)什么方式實(shí)現(xiàn)上面的集成效果,騰訊云BI又是怎么幫助企業(yè)低成本建設(shè)數(shù)據(jù)應(yīng)用模塊的呢?我們給出的解決方案是通過(guò)提供sso/oauth的方式打通BI與企業(yè)系統(tǒng)的用戶體系使得BI成為業(yè)務(wù)自身系統(tǒng)矩陣的一份子,然后通過(guò)完備的開放API和SDK將BI的能力開放出去供其他系統(tǒng)進(jìn)行調(diào)用。這樣一來(lái)使得BI支持低代碼進(jìn)行數(shù)據(jù)分析可視化以及各種推送告警能力可以被直接遷移復(fù)用到業(yè)務(wù)中。接下來(lái)詳細(xì)介紹幾種集成方式。頁(yè)碼:75/223賬號(hào)體系集成賬號(hào)體系的集成融合是實(shí)現(xiàn)BI系統(tǒng)與業(yè)務(wù)自有軟件體系融合的基礎(chǔ)和關(guān)鍵能力之一。只有將自有系統(tǒng)的賬號(hào)體系登錄系統(tǒng)整合到一起,才能真正實(shí)現(xiàn)協(xié)同效應(yīng),將BI系統(tǒng)與業(yè)務(wù)自有軟件體系有機(jī)地結(jié)合,避免其成為孤立的服務(wù)存在。騰訊云BI提供了多種登錄方式,包括自有登錄、第三方賬號(hào)登錄和單點(diǎn)登錄等,這意味著您可以輕松地將騰訊云BI與您現(xiàn)有的業(yè)務(wù)賬號(hào)體系進(jìn)行無(wú)縫連接,為業(yè)務(wù)系統(tǒng)與BI系統(tǒng)直接的互操作和協(xié)同提供支持?;隍v訊云BI賬號(hào)集成框架,已成功對(duì)接了面向外部私有化場(chǎng)景的坪山大數(shù)據(jù)門戶、虎牙OA、騰訊云私有化TCS、工體項(xiàng)目以及騰訊內(nèi)部OA,騰訊云等一系列用戶體系。頁(yè)碼:76/223騰訊云BI登錄框架BI自有登錄即使您不需要集成第三方登錄系統(tǒng),我們的BI平臺(tái)也提供了自有的登錄系統(tǒng),以確保用戶的便捷和安全。BI平臺(tái)支持多種登錄方式,包括賬號(hào)密碼和郵箱登錄。為了加強(qiáng)安全校驗(yàn),我們還提供了圖形驗(yàn)證碼和短信驗(yàn)證等方式。通過(guò)BI自有的登錄系統(tǒng),您可以方便地管理用戶賬號(hào)和登錄憑證,確保只有授權(quán)用戶能夠訪問(wèn)系統(tǒng)。同時(shí),我們的圖形驗(yàn)證碼和短信驗(yàn)證等安全措施,可以有效防止惡意登錄和未經(jīng)授權(quán)的訪問(wèn)。其中短信驗(yàn)證直接復(fù)用騰訊云短信平臺(tái)只需申請(qǐng)對(duì)應(yīng)產(chǎn)品使用權(quán)限即可服用無(wú)需額外開發(fā)。頁(yè)碼:77/223自有登錄通過(guò)騰訊云BI的登錄框架,任意一個(gè)登錄平臺(tái)只需要提供對(duì)應(yīng)的適配器實(shí)現(xiàn)即可完成對(duì)應(yīng)的賬號(hào)體系接入(適配器協(xié)議非常簡(jiǎn)單)。嵌入分析集成在企業(yè)內(nèi)部系統(tǒng)中,通常存在大量的數(shù)據(jù)報(bào)表和交互分析頁(yè)面。按照傳統(tǒng)的開發(fā)方式,需要經(jīng)過(guò)運(yùn)營(yíng)、產(chǎn)品、設(shè)計(jì)、開發(fā)、測(cè)試和灰度上線等一系列流程來(lái)滿足正常需求的迭代開發(fā)。然而,通過(guò)騰訊云BI,產(chǎn)品可以自助完成整個(gè)頁(yè)面的配置,然后將配置好的頁(yè)面交給開發(fā)人員,開發(fā)人員只需將頁(yè)面嵌入到系統(tǒng)中即可,這樣綜合成本可以降低超過(guò)90%。相比傳統(tǒng)的數(shù)據(jù)應(yīng)用開發(fā)方式,這是一種徹底頁(yè)碼:78/223的轉(zhuǎn)變和提升。嵌入分析流程在嵌入分析過(guò)程中,解決數(shù)據(jù)安全問(wèn)題是至關(guān)重要的。為了確保數(shù)據(jù)訪問(wèn)不會(huì)越權(quán),數(shù)據(jù)信息不會(huì)擴(kuò)散泄露。針對(duì)不同的場(chǎng)景提供了多種嵌入權(quán)限解決方案,以應(yīng)對(duì)這一問(wèn)題。我們的目標(biāo)是為用戶提供安全可靠的數(shù)據(jù)嵌入方案,保護(hù)數(shù)據(jù)免受未經(jīng)授權(quán)的訪問(wèn)和泄露的風(fēng)險(xiǎn)。嵌出頁(yè)權(quán)限控制頁(yè)碼:79/223儀表盤權(quán)限控制如果BI系統(tǒng)成功對(duì)接了宿主系統(tǒng)的賬號(hào)體系,可以直接利用BI自身的頁(yè)面權(quán)限管理模塊進(jìn)行權(quán)限控制(由于處于同一賬號(hào)體系下,在BI上配置的權(quán)限在被集成的系統(tǒng)中會(huì)直接生效)。通過(guò)BI平臺(tái),可以直接為用戶授權(quán)相應(yīng)的查看、編輯或下載等權(quán)限,以確保數(shù)據(jù)的安全和合規(guī)性。這樣一來(lái),您可以方便地在BI平臺(tái)上進(jìn)行權(quán)限管理,無(wú)需額外的復(fù)雜配置,提高了權(quán)限控制的效率和便捷性。權(quán)限管理行列權(quán)限控制在某些場(chǎng)景下,不同用戶對(duì)同一個(gè)頁(yè)面的數(shù)據(jù)有不同的訪問(wèn)權(quán)限。例如,在銷售頁(yè)碼:80/223報(bào)表中,一線銷售只能查看自己的銷售數(shù)據(jù),而各級(jí)領(lǐng)導(dǎo)可以查看他們所管理的銷售數(shù)據(jù)。在這種情況下,僅僅依靠頁(yè)面級(jí)權(quán)限控制是不夠的。為了實(shí)現(xiàn)精準(zhǔn)的權(quán)限控制,可以采用行列權(quán)限來(lái)限制用戶所能看到的數(shù)據(jù)結(jié)果。通過(guò)行權(quán)限控制,不同用戶只能看到符合其權(quán)限的數(shù)據(jù)。例如,一線銷售可以看到銷售人維度值為自身的數(shù)據(jù),而各級(jí)領(lǐng)導(dǎo)可以看到區(qū)域值為他們負(fù)責(zé)區(qū)域的數(shù)據(jù)(行列權(quán)限控制需要BI賬號(hào)體系與業(yè)務(wù)賬號(hào)體系進(jìn)行融合,以確保權(quán)限的準(zhǔn)確控制和數(shù)據(jù)的安全性)。行列權(quán)限處理流程頁(yè)碼:81/223行列權(quán)限配置界面自定義控制前面提到的方案均需要依賴統(tǒng)一的賬號(hào)體系,當(dāng)然BI頁(yè)面嵌入到完全不相干的系統(tǒng)重也可以做到精細(xì)化的權(quán)限控制。若頁(yè)面相對(duì)固定且數(shù)據(jù)不敏感,可以通過(guò)BI平臺(tái)直接生成一個(gè)不鑒權(quán)的頁(yè)面鏈接嵌入到業(yè)務(wù)系統(tǒng)。頁(yè)碼:82/223普通嵌出對(duì)于那些對(duì)數(shù)據(jù)敏感且需要實(shí)現(xiàn)個(gè)性化訪問(wèn)控制以及控制數(shù)據(jù)傳播范圍的場(chǎng)景,我們還提供了通過(guò)OpenAPI創(chuàng)建動(dòng)態(tài)嵌入頁(yè)的解決方案。通過(guò)這種方式,嵌入系統(tǒng)可以根據(jù)當(dāng)前觸發(fā)用戶的動(dòng)態(tài)生成鏈接,并指定頁(yè)面的參數(shù)、有效時(shí)長(zhǎng)和有效次數(shù)等信息。這樣一來(lái),您可以實(shí)現(xiàn)千人千面的個(gè)性化訪問(wèn)控制,確保每個(gè)用戶只能訪問(wèn)其授權(quán)范圍內(nèi)的數(shù)據(jù)。同時(shí),通過(guò)動(dòng)態(tài)生成的鏈接,您可以有效地控制頁(yè)面的傳播范頁(yè)碼:83/223圍,確保數(shù)據(jù)的安全性和機(jī)密性。嵌出生成API(參考騰訊云BI文檔)我們能夠?qū)崿F(xiàn)這一效果的原因是,我們?yōu)槊總€(gè)分析鏈接創(chuàng)建了一個(gè)唯一且合法的令牌(token)。在這個(gè)令牌中,我們綁定了分享頁(yè)面的授權(quán)信息,包括頁(yè)面ID、變量的值信息、過(guò)期時(shí)間、可訪問(wèn)次數(shù)等等。當(dāng)用戶訪問(wèn)分享頁(yè)面時(shí),系統(tǒng)會(huì)要求用戶提供這個(gè)令牌作為唯一合法憑證進(jìn)行訪問(wèn)校驗(yàn)。通過(guò)驗(yàn)證令牌的有效性,我們可以確保只有授權(quán)用戶能夠訪問(wèn)分享頁(yè)面,并且根據(jù)令牌中的授權(quán)信息限制訪問(wèn)的范圍和權(quán)限。通過(guò)這種方式,我們能夠提供安全可靠的分享頁(yè)面訪問(wèn)控制。每個(gè)令牌都是唯一的,并且包含了必要的授權(quán)信息,以確保數(shù)據(jù)的安全性和訪問(wèn)的合法性。API集成除了嵌入式集成方式外,騰訊云BI還通過(guò)API提供了原子化能力的集成方式,以滿足更多的定制化需求。通過(guò)API,您可以更靈活地集成騰訊云BI的功能和服務(wù)。這種集成方式使您能頁(yè)碼:84/223夠根據(jù)具體需求,選擇性地調(diào)用和整合BI的各項(xiàng)能力,以實(shí)現(xiàn)更高的定制化和個(gè)性化。騰訊云BI在私有化以及公有云場(chǎng)景提供了兩套API解決方案,公有云采用了騰訊云平臺(tái)標(biāo)準(zhǔn)API框架,私有化場(chǎng)景提供了BI自有API框架。其中私有化環(huán)境下任意功能均可以開放API的形式調(diào)用。騰訊云BIAPI框架頁(yè)碼:85/223公有云API結(jié)語(yǔ)通過(guò)以上的介紹,相信大家對(duì)騰訊云BI的集成方式已經(jīng)有了充分的理解。我們可以看到,除了在BI平臺(tái)上使用BI的能力外,業(yè)務(wù)方還可以將BI作為自身的數(shù)據(jù)應(yīng)用底座引擎,通過(guò)集成BI的能力來(lái)快速構(gòu)建產(chǎn)品中的數(shù)據(jù)應(yīng)用模塊。當(dāng)然,還有更多細(xì)節(jié)內(nèi)容等待大家親自實(shí)地體驗(yàn)!我們歡迎您深入了解和體驗(yàn)騰訊云BI的集成能力,以發(fā)掘更多的潛力和機(jī)會(huì)。無(wú)論是在BI平臺(tái)上使用BI的能力,還是將BI作為數(shù)據(jù)應(yīng)用底座引擎,我們都將為您提供全面的支持和技術(shù)指導(dǎo),以確保您的集成和應(yīng)用過(guò)程順利進(jìn)行。騰訊云大數(shù)據(jù)始終致力于為各行業(yè)客戶提供輕快、易用,智能的大數(shù)據(jù)平臺(tái)。騰訊云ESRAG核心技術(shù)與應(yīng)用導(dǎo)讀:本文將介紹RAG標(biāo)準(zhǔn)和騰訊ES的技術(shù)實(shí)踐。主要內(nèi)容包括以下四大部分:1.RAG背景及標(biāo)準(zhǔn)制定2.ESRAG解決方案和優(yōu)勢(shì)3.騰訊云ESRAG能力增強(qiáng)4.騰訊云ESRAG應(yīng)用實(shí)踐分享嘉賓|任翔騰訊騰訊云大數(shù)據(jù)ES產(chǎn)品負(fù)責(zé)人編輯整理|張彬內(nèi)容校對(duì)|李瑤出品社區(qū)|DataFunRAG背景及標(biāo)準(zhǔn)制定頁(yè)碼:86/223頁(yè)碼:87/2231.搜索技術(shù)的演進(jìn)在介紹RAG之前,首先來(lái)回顧一下搜索技術(shù)的演進(jìn),因?yàn)镽AG與搜索技術(shù)的發(fā)展是緊密相關(guān)的。搜索是人們生活中的一個(gè)非?;A(chǔ)的需求,已滲透到生產(chǎn)生活的方方面面。在早期,真正的搜索技術(shù)問(wèn)世之前,要檢索一些內(nèi)容通常要依靠分類管理。當(dāng)時(shí)的檢索效率是非常低的,并且能夠檢索的數(shù)據(jù)規(guī)模也很小。直到倒排索引技術(shù)推出后,引發(fā)了一場(chǎng)革新,它推動(dòng)了整個(gè)搜索效率的提升。倒排索引實(shí)現(xiàn)了秒級(jí)毫秒級(jí)的響應(yīng)速度,在TB甚至PB級(jí)的數(shù)據(jù)規(guī)模上快速查找反饋。然而倒排索引技術(shù)存在一個(gè)缺點(diǎn),因?yàn)槠浔举|(zhì)是基于關(guān)鍵字進(jìn)行比較,所以還是限制在文本搜索的領(lǐng)域,對(duì)圖片、視頻的搜索無(wú)法實(shí)現(xiàn)。另外,它也無(wú)法很好地理解語(yǔ)義,比如搜索計(jì)算機(jī)和電腦這兩個(gè)詞,在關(guān)鍵字比較的維度里,它們會(huì)被認(rèn)為是不一樣的。頁(yè)碼:88/223后來(lái)出現(xiàn)的向量化技術(shù)就很好地解決了語(yǔ)義理解的問(wèn)題。向量化技術(shù)可以將文字或者圖片、視頻的特征進(jìn)行提煉,形成多維向量。并通過(guò)在向量空間中計(jì)算這些向量之間的距離關(guān)系,比如歐式距離等,判斷兩個(gè)內(nèi)容之間的相關(guān)性。這樣就極大地拓展了搜索的范圍,可以支撐對(duì)圖片、視頻等多模態(tài)內(nèi)容的檢索。到此為止,仍屬于傳統(tǒng)搜索的范疇。因?yàn)樵谟脩籼岢鲆粋€(gè)問(wèn)題之后,返回的還是一個(gè)結(jié)果的列表。需要用戶在這個(gè)結(jié)果列表里面自己去進(jìn)行分析總結(jié),最后得到想要的答案。整體的效率仍然是比較低的,而實(shí)際上人們更希望搜索的反饋能夠直接給出問(wèn)題的答案。隨著近年來(lái)AI技術(shù)的爆發(fā),Transformer等深度的基于注意力神經(jīng)網(wǎng)絡(luò)的技術(shù)的出現(xiàn),又一次革命性地推動(dòng)了整個(gè)搜索技術(shù)的演進(jìn)。如今,大模型已經(jīng)可以從非常海量數(shù)據(jù)中搜索我們問(wèn)題相關(guān)的內(nèi)容,并且進(jìn)行總結(jié)提煉,非常好地回答我們的問(wèn)題。企業(yè)非常希望將這一技術(shù)進(jìn)步應(yīng)用到實(shí)際生產(chǎn)中,然而實(shí)踐過(guò)程中我們發(fā)現(xiàn)仍存在著種種障礙。這就是RAG技術(shù)出現(xiàn)的原因,它可以作為一個(gè)橋梁幫助我們更好地解決搜索的問(wèn)題。2.RAG檢索增強(qiáng)生成頁(yè)碼:89/223RAG的英文全稱為RetrievalAugmentedGeneration,即檢索增強(qiáng)生成。它是通過(guò)檢索一個(gè)外部的知識(shí)庫(kù),來(lái)改善大模型的內(nèi)容生成效果。我們知道,大模型是一個(gè)預(yù)訓(xùn)練模型,是預(yù)先訓(xùn)練好的,這也帶來(lái)了一些問(wèn)題,在訓(xùn)練好時(shí),其知識(shí)也就停留在了那一刻,之后發(fā)生的事情它可能就不知道了。另外,大模型檢索的是互聯(lián)網(wǎng)上公開的一些信息,而它對(duì)企業(yè)或行業(yè)特有的一些知識(shí)是缺乏的。這些問(wèn)題導(dǎo)致大模型常常出現(xiàn)幻覺(jué)。RAG技術(shù)就提供了一種方案,企業(yè)可以把本地的一些專業(yè)知識(shí)提交給大模型,而不需要投入海量的計(jì)算資源去重新做預(yù)訓(xùn)練,就可以讓大模型更好地回答專業(yè)領(lǐng)域的各種問(wèn)題。RAG現(xiàn)在主要的應(yīng)用場(chǎng)景包括知識(shí)問(wèn)答、智能客服、專家系統(tǒng)等等。頁(yè)碼:90/2233.信通院檢索增強(qiáng)生成RAG技術(shù)標(biāo)準(zhǔn)為了幫助企業(yè)了解如何搭建一個(gè)RAG應(yīng)用,信通院組織了四十余家企業(yè)共同編寫了《檢索增強(qiáng)生成(RAG)技術(shù)要求》標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)包含了知識(shí)庫(kù)的構(gòu)建、知識(shí)的檢索、內(nèi)容生成、質(zhì)量評(píng)估、平臺(tái)能力等五大能力域,17個(gè)能力子域,50個(gè)能力項(xiàng)。這里特別值得提到的是,騰訊云是其中的一個(gè)核心企業(yè),也是首個(gè)通過(guò)RAG權(quán)威標(biāo)準(zhǔn)認(rèn)證的企業(yè)。騰訊云ES是國(guó)內(nèi)公有云首個(gè)能夠?qū)崿F(xiàn)從自然語(yǔ)言處理到向量生成/存儲(chǔ)/檢索,并與大模型集成的端到端的一站式技術(shù)平臺(tái)。接下來(lái)將詳細(xì)介紹ESRAG解決方案。頁(yè)碼:91/223ESRAG解決方案和優(yōu)勢(shì)1.Elasticsearch(簡(jiǎn)稱ES):海量數(shù)據(jù)搜索和分析引擎ES的全稱是Elasticsearch,它是全球目前排名第一的搜索引擎。在國(guó)內(nèi)應(yīng)用也非常廣泛。ES的一大特點(diǎn)是采用分布式,所以能夠處理海量數(shù)據(jù)。針對(duì)搜索方面,ES具有全文檢索、向量檢索以及RAG等關(guān)鍵搜索技術(shù)。2.ES在RAG領(lǐng)域的一站式解決方案頁(yè)碼:92/223ES在RAG領(lǐng)域的解決方案如上圖所示。一個(gè)傳統(tǒng)的用法就是當(dāng)用戶有一個(gè)問(wèn)題的時(shí)候,將問(wèn)題直接提交給大模型,大模型根據(jù)自己的知識(shí)去給出回答。如果遇到企業(yè)私域信息,大模型不知道答案,那么ES就會(huì)通過(guò)RAG方案,將問(wèn)題給到我們的知識(shí)庫(kù)。知識(shí)庫(kù)中不僅有文本,還會(huì)有圖片、視頻,我們會(huì)提前把這些內(nèi)容進(jìn)行向量化。在檢索過(guò)程中,進(jìn)行文本和向量的聯(lián)合召回,得到一個(gè)TopNlist。把這個(gè)list和用戶自己的問(wèn)題一起構(gòu)成一個(gè)prompt,再提交給大模型。這時(shí),大模型就可以很好地去回答這個(gè)問(wèn)題了。3.ES擁有你所需的所有功能頁(yè)碼:93/223和目前其它一些技術(shù)方案不同的是,ES不需要依賴多個(gè)技術(shù)棧去配合,在一個(gè)ES技術(shù)棧里面就結(jié)合了向量生成、存儲(chǔ)、索引、檢索以及大模型等多項(xiàng)技術(shù),因此可以大幅降低成本。RAG的關(guān)鍵技術(shù)之一就是向量化。和傳統(tǒng)的向量數(shù)據(jù)庫(kù)相比,ES不僅可以實(shí)現(xiàn)向量的存儲(chǔ)和搜索向量的生成,同時(shí)還支持混合搜索、模型的靈活選擇和部署、聚合分析,以及基于權(quán)限的一些管理等等。4.向量轉(zhuǎn)換頁(yè)碼:94/223在ES中,向量轉(zhuǎn)換非常靈活。首先ES中包含內(nèi)置優(yōu)化的模型,比如ELSER和Multigual-e5。另外它也支持第三方模型,可以將第三方模型部署到ES上,也可以基于inferenceAPI,直接去調(diào)用在OpenAI和HuggingFace上的模型,實(shí)現(xiàn)在線的向量轉(zhuǎn)換。5.召回排序頁(yè)碼:95/223在召回排序方面,目前,對(duì)文本和向量混合檢索的召回排序還存在一定挑戰(zhàn)。因?yàn)閭鹘y(tǒng)的方法中,我們需要將不同維度召回的信息進(jìn)行歸一化處理,而歸一化的評(píng)分尺度、分布的差異,這些都會(huì)對(duì)最后的排序帶來(lái)挑戰(zhàn)和質(zhì)量上的影響。ES中已經(jīng)內(nèi)置了RRF導(dǎo)數(shù)融合排序,以及LTR基于模型的排序能力。一方面是更加便捷,另一方面其成熟度也為網(wǎng)絡(luò)排序質(zhì)量提供了更好的保證。6.混合搜索再來(lái)看一下混合搜索。向量搜索具有諸多優(yōu)勢(shì),比如可以更好地理解和處理自然語(yǔ)言,通過(guò)上下文更好地理解語(yǔ)義關(guān)系。并且因?yàn)槭腔谡Z(yǔ)義理解,所以可以輕松實(shí)現(xiàn)跨語(yǔ)言。另外還頁(yè)碼:96/223可以支持圖片、視頻等多模態(tài)的搜索。同時(shí)我們也看
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版塔吊租賃與施工安裝一體化服務(wù)合同3篇
- 2024年度不間斷電源租賃及電力安全保障合作協(xié)議3篇
- 2024版工業(yè)廢水處理設(shè)施委托運(yùn)營(yíng)合同3篇
- 2024年度房屋買賣合同風(fēng)險(xiǎn)評(píng)估及保險(xiǎn)協(xié)議3篇
- 2024年度綠色生態(tài)住宅項(xiàng)目股權(quán)轉(zhuǎn)讓協(xié)議示范文本3篇
- 2024年度醫(yī)療衛(wèi)生項(xiàng)目招標(biāo)投標(biāo)廉潔誠(chéng)信保障書3篇
- 2024年城市排水工程土石方工程居間服務(wù)合同范本3篇
- 第四章 空間統(tǒng)計(jì)分析初步課件
- 2024年服裝店導(dǎo)購(gòu)員客戶投訴處理合同模板3篇
- 2024年度招標(biāo)居間業(yè)務(wù)數(shù)據(jù)保護(hù)合同3篇
- 普外科工作總結(jié)課件
- 社區(qū)衛(wèi)生服務(wù)中心公共衛(wèi)生服務(wù)項(xiàng)目月標(biāo)化工作量統(tǒng)計(jì)標(biāo)準(zhǔn)(2021年版)
- 歷史建筑普查信息表
- 文言文閱讀《明史左光斗傳》練習(xí)及答案譯文
- 北師大版五年級(jí)上冊(cè)期末數(shù)學(xué)口算
- [QC成果]高大模板支撐系統(tǒng)施工質(zhì)量控制
- GB∕T 40356-2021 廚用刀具
- 煤礦區(qū)隊(duì)安全風(fēng)險(xiǎn)管控日分析制度辦法
- spc與cpk的基礎(chǔ)認(rèn)識(shí)1
- (完整版)霍夫斯塔德文化差異五個(gè)維度
- 《地形對(duì)聚落及交通線路分布的影響》教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論