利用 GPU 加速 Milvus 賦能 LLM 應(yīng)用 2024-1-9-英偉達(dá) LLM day_第1頁
利用 GPU 加速 Milvus 賦能 LLM 應(yīng)用 2024-1-9-英偉達(dá) LLM day_第2頁
利用 GPU 加速 Milvus 賦能 LLM 應(yīng)用 2024-1-9-英偉達(dá) LLM day_第3頁
利用 GPU 加速 Milvus 賦能 LLM 應(yīng)用 2024-1-9-英偉達(dá) LLM day_第4頁
利用 GPU 加速 Milvus 賦能 LLM 應(yīng)用 2024-1-9-英偉達(dá) LLM day_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

利用GPU加速M(fèi)ilvus賦能LLM應(yīng)用來ziliz開源布道師西安交通大學(xué)chenglong.li@目錄目錄01Milvus架構(gòu)演進(jìn)及功能介紹02基于NVIDIAGPU加速M(fèi)ilvus獲取10倍性能提升03應(yīng)用分享:RAG知識(shí)庫+推薦系統(tǒng)012018.102020.032019.040.12021.03Release2019.06stSeed2022.02Release2019.102022.07Milvus2.1Release2022.11Release2023.08ReleaseLIlNEshuterstr,ckebayHaierHisemseCOMPASSlMilvus被全球超過5000家企業(yè)用戶所信賴,超過1000萬次下載和安裝,最大庫規(guī)模超過20億條向量lMilvus在SIGMOD和VLDB等數(shù)據(jù)庫頂會(huì)上發(fā)表了論文,奠定了向量數(shù)據(jù)庫的基礎(chǔ)Milvus-全球第一款開源向量數(shù)據(jù)庫超高性能Blazing超高性能BlazingFast?查詢性能根據(jù)物理資源線性擴(kuò)展CloudNative?百億規(guī)模向量擴(kuò)展性?基于K8s實(shí)現(xiàn)高可用容災(zāi)Milvus云端一體UnifyCloud云端一體UnifyCloudandDesktop?提供從筆記本,到線下機(jī)房到云完全一致的使用體驗(yàn)PluggableEngine?提供標(biāo)量倒排索引支持為云而生的向量數(shù)據(jù)庫?分布式云原生,基于K8s進(jìn)行微服務(wù)化設(shè)計(jì)?百億級(jí)向量的擴(kuò)展能力?基于消息隊(duì)列實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)增刪查詢能力TOP-K近似查詢RANGE近似查詢數(shù)據(jù)類型數(shù)據(jù)類型查詢能力VECTOR(BINARY_VECTOR,FLOAT_VECTOR)近似查詢JSON表達(dá)式匹配過濾ARRAY表達(dá)式匹配過濾BOOL表達(dá)式匹配過濾表達(dá)式匹配過濾FLOAT(FLOAT,DOUBLE)表達(dá)式匹配過濾VARCHAR(VARCHAR,STRING)STRING主鍵查詢表達(dá)式匹配過濾組織與權(quán)限組織與權(quán)限計(jì)算實(shí)例適配與軟硬聯(lián)合調(diào)優(yōu)計(jì)算實(shí)例適配與軟硬聯(lián)合調(diào)優(yōu)多層存儲(chǔ)適配與數(shù)據(jù)布局優(yōu)化02?GPU搜索瓶頸在于查詢向量從內(nèi)存到顯存的拷1617GPU索引性能-SearchDatasetsGLOVEDEEPRAFT-IVF-FLAT(VPS)18GPU索引性能-SearchDatasetsGLOVEDEEP19IndexTypeIndexParamCPUGPU20?新聞檢索/去重?視頻實(shí)時(shí)檢索?社交用戶檢索2103涉黃涉恐圖片風(fēng)控疾病診斷UGC圖片分析疾病診斷UGC圖片分析OCR敏感人物敏感人物多模態(tài)搜索海量視頻海量視頻ASRASR語音知識(shí)庫檢索知識(shí)庫檢索全球?qū)@樵內(nèi)驅(qū)@樵冋撐牟橹孛舾袃?nèi)容過濾評(píng)論刷分檢測(cè)情感分析對(duì)話機(jī)器人語義搜索 論文查重敏感內(nèi)容過濾評(píng)論刷分檢測(cè)情感分析對(duì)話機(jī)器人語義搜索電影/音電影/音樂盜版文件盜版文件應(yīng)用場(chǎng)景-大模型增強(qiáng)ChatGPT:?利用大語言模型(LLM)實(shí)現(xiàn)以ChatGPT為代表的智能問答Vectordatabase:可靠的知識(shí)庫Prompt-as-code:?使用提示匹配用戶問題與來自知識(shí)庫的參考內(nèi)容https://osschat.io面向大模型場(chǎng)景的深度理解?動(dòng)態(tài)Schema?List/Set等數(shù)據(jù)類型的支持?面向構(gòu)建SaaS用戶,通過Partitionkey能力支持百萬級(jí)租戶?與OpenAI,Langchain,SemanticKernel,Llama-Index,AutoGPT,Towhee,Huggingface,Cohere等大模型生態(tài)深度集成?Python,Js,Golang,Java,C#,Restful等豐富的客戶端支持E-commercerecommendation開發(fā)者量身定制!教你如何玩轉(zhuǎn)LLM微調(diào)技術(shù)?近一年來,大模型的落地應(yīng)用得到了各行業(yè)以及AI開發(fā)者的廣泛關(guān)注。雖然大模型擁有強(qiáng)大的語言基礎(chǔ)和推理能力,但在高度定制化的業(yè)務(wù)場(chǎng)景下,直接使用預(yù)訓(xùn)練模型也許不能滿足業(yè)務(wù)需求。因此,我們以激發(fā)出它的潛力和最佳性能。本次演講將圍繞以下內(nèi)容展開:??LLM部署優(yōu)化??近年大型語言模型(LLM)帶來企業(yè)及大規(guī)模應(yīng)用的全新契機(jī)。在私領(lǐng)域擴(kuò)充并部署LLM推理服務(wù),可能面臨服務(wù)及算力擴(kuò)充問題。有鑒于LLM推理服務(wù)普遍需要較大的GPU資源、又需滿足各方非同步、長(zhǎng)短不一的文本生成,更需要進(jìn)行軟件設(shè)計(jì)、代碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論