




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
CTencent騰訊CTECH/DAY騰訊技術(shù)開放日騰訊云工具指南目錄全球產(chǎn)業(yè)數(shù)據(jù)庫具有怎樣的關(guān)鍵發(fā)展趨勢(shì)?中國信通院人工智能創(chuàng)新中心負(fù)責(zé)人、云計(jì)算與大數(shù)據(jù)研究所副所長——魏凱04為什么AGI時(shí)代需要向量數(shù)據(jù)庫?騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO——湯道生05優(yōu)質(zhì)的向量數(shù)據(jù)庫應(yīng)該符合怎樣的標(biāo)準(zhǔn)?中國信通院云計(jì)算與大數(shù)據(jù)研究所大數(shù)據(jù)與區(qū)塊鏈部主任——姜春宇06騰訊云向量數(shù)據(jù)庫的具體優(yōu)勢(shì)及實(shí)踐騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫副總經(jīng)理兼向量數(shù)據(jù)庫負(fù)責(zé)人——羅云07百川智能:解決大模型企業(yè)的數(shù)據(jù)大規(guī)模與高性能需求09Neocrm銷售易銷售易:向量數(shù)據(jù)庫在智能CRM的實(shí)踐11用向量數(shù)據(jù)庫構(gòu)建圖搜圖系統(tǒng)碼農(nóng)學(xué)習(xí)聯(lián)盟14重生之我是戲精之王齊光同辰18PART01AGI時(shí)代的到來激發(fā)了數(shù)據(jù)更大的生產(chǎn)力——而為AI而生的向量數(shù)據(jù)庫,或許是大模型的“最佳拍檔”數(shù)據(jù)庫運(yùn)維管理能力成熟度模型實(shí)施部署服務(wù)能力分布式分析型分布式事務(wù)型數(shù)據(jù)庫穩(wěn)定性關(guān)系型關(guān)系型數(shù)據(jù)庫事務(wù)型一體化分布式分析型分布式事務(wù)型分析型大規(guī)模分析型一體化分析型數(shù)據(jù)庫大規(guī)模數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫運(yùn)維管理能力成熟度模型實(shí)施部署服務(wù)能力分布式分析型分布式事務(wù)型數(shù)據(jù)庫穩(wěn)定性關(guān)系型關(guān)系型數(shù)據(jù)庫事務(wù)型一體化分布式分析型分布式事務(wù)型分析型大規(guī)模分析型一體化分析型數(shù)據(jù)庫大規(guī)模數(shù)據(jù)庫數(shù)據(jù)庫管理平臺(tái)數(shù)據(jù)庫遷移工具搜索型數(shù)據(jù)庫管理平臺(tái)數(shù)據(jù)庫數(shù)據(jù)庫文檔數(shù)據(jù)庫事務(wù)型數(shù)據(jù)庫數(shù)據(jù)庫一體機(jī)分析型數(shù)據(jù)庫據(jù)庫數(shù)據(jù)庫智能化關(guān)系云數(shù)據(jù)庫規(guī)劃設(shè)計(jì)服務(wù)能力運(yùn)維運(yùn)營服務(wù)能力數(shù)據(jù)庫應(yīng)用遷移就目前全球數(shù)據(jù)庫產(chǎn)品分布來看,非關(guān)系型數(shù)據(jù)庫數(shù)量已經(jīng)超過了關(guān)系型數(shù)據(jù)庫。相比之下,國內(nèi)的數(shù)據(jù)庫市場(chǎng)依然以關(guān)數(shù)據(jù)來源:CCSATC601,2023年6月趨勢(shì)2:從創(chuàng)新看,我國的非關(guān)系型技術(shù)實(shí)力從VLDB、SIGMOD和ICDE三大數(shù)據(jù)庫領(lǐng)域權(quán)威的學(xué)術(shù)會(huì)議來看,近三年,我國企業(yè)及高校平均貢獻(xiàn)占比分別為23.81%、27.17%和40.70%,且數(shù)量呈逐年數(shù)據(jù)來源:CCSATC601,2023年6月應(yīng)用側(cè)供給側(cè)數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫應(yīng)用側(cè)供給側(cè)數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫全密態(tài)數(shù)據(jù)庫多,亟需統(tǒng)一行業(yè)標(biāo)準(zhǔn)規(guī)范發(fā)展:主要面向三類參數(shù)據(jù)庫服務(wù)商以及數(shù)據(jù)庫應(yīng)用機(jī)構(gòu))建立不同的評(píng)2023上半年新增5個(gè)標(biāo)準(zhǔn)(上述圖中標(biāo)橙色顯示)騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”04騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生最近這一年,AIGC浪潮席卷全球,很多志向高遠(yuǎn)的企業(yè),都騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”/05隨著人工智能時(shí)代到來,一些非結(jié)構(gòu)化數(shù)據(jù)需要通過機(jī)器學(xué)習(xí)算法從中提量數(shù)據(jù)庫的興起便是為了解決對(duì)這些相比其他類型數(shù)據(jù)庫,向量數(shù)據(jù)庫具有8大關(guān)鍵技術(shù)能力:分布式與并行計(jì)算能力更高效的分布式與并行計(jì)算可以讓大規(guī)模向量數(shù)據(jù)在多個(gè)計(jì)算節(jié)點(diǎn)間進(jìn)行分配,使得查詢、排序等操作能夠并發(fā)進(jìn)行,大大縮短實(shí)時(shí)處理能力提升許多AI應(yīng)用需求求向量數(shù)據(jù)庫有高效的實(shí)時(shí)處理能力,即使是對(duì)大規(guī)模的向量數(shù)據(jù),也能在最短的時(shí)間內(nèi)找到最匹配的結(jié)果。高級(jí)查詢功能將是向量數(shù)據(jù)庫的必備功能。不同大模型的性能優(yōu)化不同類型的大模型對(duì)數(shù)據(jù)的處理不同大模型的性能優(yōu)化不同類型的大模型對(duì)數(shù)據(jù)的處理和計(jì)算需求可能會(huì)有所不同。向量數(shù)據(jù)庫需要能夠針對(duì)這些差異隨著大模型向多模態(tài)發(fā)展,如圖元。向量數(shù)據(jù)庫需要能夠有效地處理這些多模態(tài)數(shù)據(jù)。隨著向量數(shù)據(jù)庫的應(yīng)用場(chǎng)景不斷拓寬,提升其通用性和易用性成為一項(xiàng)重要任務(wù)。這包括提供更的查詢接口,以及提供更靈活的數(shù)據(jù)管理功能。硬件加速為了更高效地處理數(shù)據(jù),硬件加速將是一種有效的解決方案。利用GPU的強(qiáng)大并行計(jì)算能力,或者利用定制的AI芯片,都可以大大提高向量數(shù)據(jù)庫的處理能力。與大模型的深度融合習(xí)、大模型更緊密地結(jié)合,共同推動(dòng)AI的發(fā)展。向量數(shù)據(jù)庫需要能夠理解大模型的需求,為其提供最合適的數(shù)據(jù)服務(wù)。而大模型也需要能夠利用向量數(shù)據(jù)庫的能行業(yè)標(biāo)準(zhǔn)?;竟δ艹砻芟蛄肯∈柘蛄肯蛄烤S度基礎(chǔ)標(biāo)量數(shù)值類型向量數(shù)據(jù)類型單行數(shù)據(jù)支持多個(gè)向量字段近似檢索精確檢索游標(biāo)讀取標(biāo)量與向量的融合查詢標(biāo)量的增刪改查向量的增刪改查主鍵查詢...安全性權(quán)限管理數(shù)據(jù)加密審計(jì)日志高可用高可用運(yùn)維管理部署方式監(jiān)控巡檢參數(shù)配置升級(jí)運(yùn)維管理接口備份與恢復(fù)故障節(jié)點(diǎn)恢復(fù)系統(tǒng)日志兼容性CPU兼容性編程接口工具生態(tài)多模態(tài)數(shù)據(jù)向量化能力大模型工具集成擴(kuò)展性節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)容節(jié)點(diǎn)動(dòng)態(tài)縮容半結(jié)構(gòu)化數(shù)據(jù)類型向量數(shù)據(jù)存儲(chǔ)壓縮騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”06upsertsearch向量數(shù)據(jù)庫upsertsearch向量數(shù)據(jù)庫騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫副總經(jīng)理兼一、企業(yè)化能力:千億級(jí)數(shù)據(jù)規(guī)模、500萬QPS、99.二、智能化能力:內(nèi)容召回率提升30%,推理速度大幅提升原始文本數(shù)據(jù)原始文本數(shù)據(jù)textsvectorsEmbessingEmbessing模型集成Embedding,實(shí)現(xiàn)自然語言查詢AI套件:端到端的RAG應(yīng)用檢索方案外部用戶騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”07PART02大模型+搜索增強(qiáng)架構(gòu)ScoreboardFromidxscoreWeb1-0.5Web20.9Web3-0.4DB10.7DB2-1.2LLMwithRelevanceTimelinessAnalysisQueryGeneratorfine-tunedBaichuanLLMInstruction大模型+搜索增強(qiáng)架構(gòu)ScoreboardFromidxscoreWeb1-0.5Web20.9Web3-0.4DB10.7DB2-1.2LLMwithRelevanceTimelinessAnalysisQueryGeneratorfine-tunedBaichuanLLMInstructionClassifierTaskPlanningQueryReferenceEnhanceHyperparamTunerPromptAugmentSearchresult[1]:ChatGPTisGPT...Searchresult[2]:ChatGpTisaLlMcreatedbyOpenAI...Searchresult[3]:ChatGpTistransformer...WebSearchPluginDatabaseindex[1]:ThemainideaofGPT...Databaseindex[2]:Deeplearningmethod...KnowledgedomainDatabaseUserQuestion:What'schatgpt?ResponseLLMwithSearchEnhancedKnowledgeRefinementSearchEnhancedGeneratorIntentUnderstandingIntelligentSearch百川智能是一家為客戶提供大模型服務(wù)的能力,基于搜索與輸入法多年積累,以RAG框架為原型融合企業(yè)私有數(shù)據(jù)、實(shí)時(shí)型應(yīng)用常見的模型幻覺與數(shù)據(jù)時(shí)效性問題。數(shù)據(jù)增強(qiáng)超大規(guī)模數(shù)據(jù)超大規(guī)模數(shù)據(jù)獲取與清洗算法調(diào)優(yōu)算法與工廠算法與工廠搭建大規(guī)模搭建大規(guī)模推理服務(wù)結(jié)合事實(shí)結(jié)合事實(shí)不瞎說時(shí)效性問題分鐘更新分鐘更新不老化安全性問題技術(shù)融合技術(shù)融合不造謠2.消耗大量人力做二次開發(fā)。因?yàn)闆]有成熟體系化,需要消耗大量人力做二次定制開發(fā)。比如說向量數(shù)據(jù)的格式組織及管騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”09傳統(tǒng)ES數(shù)據(jù)庫是為關(guān)系型結(jié)構(gòu)數(shù)據(jù)設(shè)計(jì),向量數(shù)據(jù)庫基于AI而生集成Embeding服務(wù)進(jìn)行向量化處理——●把原始長文本內(nèi)容分割為表征能力更強(qiáng)的短文本●通過Embedding模型生成向量化數(shù)據(jù)將向量化數(shù)據(jù)在數(shù)據(jù)庫內(nèi)分區(qū)管理●運(yùn)用可視化數(shù)據(jù)管理平臺(tái)在線執(zhí)行互表操作當(dāng)大模型面對(duì)企業(yè)級(jí)數(shù)據(jù)問答時(shí),如果不能融合企業(yè)私有數(shù)據(jù)及實(shí)時(shí)性數(shù)據(jù)即會(huì)出現(xiàn)常見的幻覺問題。向量數(shù)據(jù)庫提供端到端的RAG檢索方案。當(dāng)外部用戶向模型起初問題時(shí)——基于Embedding對(duì)問題結(jié)合其聊天歷史向量化解析●通過在線及離線方式檢索融合知識(shí)庫及網(wǎng)頁端內(nèi)容基于相關(guān)性模型進(jìn)行精排再求解輸出●大模型基于更全面與實(shí)時(shí)數(shù)據(jù)推理答案并召回?cái)?shù)據(jù)騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”/10Neocrm銷售易向量數(shù)據(jù)庫在智能CRM的實(shí)踐企業(yè)服務(wù)市場(chǎng)應(yīng)用大模型的主要門檻是滿足企業(yè)業(yè)務(wù)數(shù)據(jù)的安全性與時(shí)效性——2.快速變化:企業(yè)時(shí)刻都在產(chǎn)生大量的數(shù)據(jù),如何適應(yīng)業(yè)務(wù)數(shù)據(jù)快速變化的需求4.場(chǎng)景落地:銷售和服務(wù)場(chǎng)景眾多,如何將數(shù)據(jù)結(jié)合大1.其檢索時(shí)依賴于關(guān)鍵詞文本搜索而非語義搜索,需要做大量分詞的詞庫詞法維護(hù)2.其推薦時(shí)無法理解自然語言描述文本,無法做智騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”/11微信企微官網(wǎng)APP電話郵件銷售易智能應(yīng)用銷售助理智能推薦智能機(jī)器人智能工單智能BI銷售易CRM客戶商機(jī)工單BI報(bào)表知識(shí)庫文檔音視頻銷售易智能平臺(tái)騰訊云向量數(shù)據(jù)庫騰訊混元大模型2.檢索信息:自然語言描述問題和需求,利用語義相關(guān)4.創(chuàng)建信息:自主調(diào)用CRM系統(tǒng)API,創(chuàng)建CRM線索記錄,保存潛在用戶的信2.支持向量和標(biāo)量:支持向量和標(biāo)量字段的混合存儲(chǔ)和檢索,是文檔內(nèi)容和結(jié)構(gòu)化字段之間的橋梁。4.專家級(jí)服務(wù)支持:騰訊云數(shù)據(jù)庫團(tuán)隊(duì)提供專家級(jí)的技術(shù)方案指導(dǎo),賦能研發(fā)團(tuán)隊(duì)加速產(chǎn)騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”12PART03用戶聲音開發(fā)者的產(chǎn)品實(shí)測(cè)報(bào)告I用向量數(shù)據(jù)庫構(gòu)建圖搜圖系統(tǒng)下面我們使用PyTorch和騰訊云向量數(shù)據(jù)庫構(gòu)建一個(gè)以圖搜圖(ReverseImageSearch)系統(tǒng)。該系統(tǒng)以圖片作為輸入,基于圖片的內(nèi)容檢索出最相似的圖片。其背后的基本思想是利用預(yù)訓(xùn)練的深度學(xué)習(xí)模型提取出每構(gòu)建項(xiàng)目PyTorch生態(tài)包括torch和torchvision兩個(gè)重用于創(chuàng)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具。torchvision庫專門用于處理圖像數(shù)據(jù)。3.安裝需要的Python包:………………創(chuàng)建一個(gè)新的Python虛擬環(huán)境能有效地隔離項(xiàng)目依賴,簡(jiǎn)化依賴管理。激活這個(gè)虛擬環(huán)境:●Linux/macOS●Windows示例數(shù)據(jù)可在Github上獲取。ImageNet數(shù)據(jù)集是深度學(xué)習(xí)領(lǐng)域中廣泛使用的大規(guī)模視覺數(shù)據(jù)集,用于圖片分類和物體檢測(cè)任務(wù)。在本文中,所使用的數(shù)據(jù)集是ImageNet的一個(gè)子集,這個(gè)子集為模提供了適當(dāng)規(guī)模和復(fù)雜度的數(shù)據(jù)。3.reverse_image_search.csv:一個(gè)csv文件,包含每個(gè)訓(xùn)練集圖片的id、路徑和標(biāo)簽。候選圖片是指可能會(huì)被檢索的圖片,查詢圖片是指用于檢索的圖片。騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”/14連接TencentVectorDB很簡(jiǎn)單,官方提供了多種語言的SDK,本文使用PythonSDK:tcvectordb操作向量數(shù)據(jù)。1.首先利用tcvectordbsdk編寫連接向量數(shù)據(jù)庫的客戶端代碼:2.然后調(diào)用TcvdbClient構(gòu)建客戶端:上面的HOST和PORT、USERNAME和PASSWORD是申請(qǐng)向量數(shù)據(jù)庫后獲取到的。在向量數(shù)據(jù)庫中創(chuàng)建DB和Collection: 引。在向量數(shù)據(jù)庫中,Collection是用來存儲(chǔ)和檢索向量的主要結(jié)構(gòu),2.IndexType.HNSW索引的加速高維向量的搜索。3.MetricType.COSINE是余弦相似度,它可以衡量兩個(gè)向量之間的角DMC訪問入口:/右側(cè)是剛剛創(chuàng)建的DB和集合:右側(cè)利用Pytorch實(shí)現(xiàn)圖片的特征提?。?weights=ResNet50_Weights.IMAGENET1K__V2)將會(huì)下載resnet50模型到只有當(dāng)checkpoints目錄下不存在時(shí)才會(huì)下載。預(yù)訓(xùn)練的resnet50模型,可以將圖片轉(zhuǎn)換為向量。ResNet50是一種深度卷積神經(jīng)網(wǎng)絡(luò),它在許多圖像識(shí)別任務(wù)中表現(xiàn)出色。此模型通過學(xué)習(xí)圖片的重要特征,并將這些特征嵌入到一個(gè)高維向量中,稱為嵌入向量騰訊云工具指南·AGI時(shí)代的“數(shù)據(jù)樞紐”/15然后我們對(duì)reverse_image_search.csv文件中的圖片路徑數(shù)據(jù)進(jìn)行最終會(huì)將生成的向量調(diào)用TcvdbClient的path="./train/goldfish/n01443537_1903.JPEG":以上部分已經(jīng)完成了將候選圖片提取為特征向量存入到向量數(shù)據(jù)庫中。下面將完成對(duì)查詢圖片的最相似圖片的檢索。TcvdbClie
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝店裝修發(fā)包合同
- 2025年度養(yǎng)豬場(chǎng)生物安全防控體系建設(shè)合同
- 2025年度勞動(dòng)合同到期解除協(xié)議書及離職員工離職證明及離職手續(xù)辦理指南
- 2025年度建筑勞務(wù)施工節(jié)能減排合作協(xié)議
- 2025年度分紅股收益分配與權(quán)益變更協(xié)議
- 2025年度數(shù)據(jù)保密審計(jì)與保密合同
- 2025年度公司免責(zé)的旅游服務(wù)合作協(xié)議
- 2025年度創(chuàng)業(yè)公司股權(quán)激勵(lì)及轉(zhuǎn)讓協(xié)議
- 2025年網(wǎng)絡(luò)游戲行業(yè)發(fā)展現(xiàn)狀分析:網(wǎng)絡(luò)游戲國內(nèi)用戶規(guī)模不斷擴(kuò)大
- 崗位晉升申請(qǐng)書
- 2025年蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫含答案解析
- 小學(xué)生拗九節(jié)課件
- 2023湖南文藝出版社五年級(jí)音樂下冊(cè)全冊(cè)教案
- Q∕GDW 11612.41-2018 低壓電力線高速載波通信互聯(lián)互通技術(shù)規(guī)范 第4-1部分:物理層通信協(xié)議
- 2006 年全國高校俄語專業(yè)四級(jí)水平測(cè)試試卷
- 新人教版數(shù)學(xué)四年級(jí)下冊(cè)全冊(cè)表格式教案
- 疫情期間離市外出審批表
- (完整版)全身體格檢查評(píng)分標(biāo)準(zhǔn)(表)
- 裝飾裝修工程施工合理化建議和降低成本措施提要:完整
- (改)提高地下室側(cè)墻剛性防水施工合格率_圖文
- 電芯品質(zhì)協(xié)議版本(標(biāo)準(zhǔn)版)
評(píng)論
0/150
提交評(píng)論