版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
請務(wù)必閱讀正文后的聲明及說明報告/行業(yè)深度報告 ---AI深度報告AI海量的高維向量勢必需要專門的數(shù)據(jù)庫進行存儲和處理,向量數(shù)據(jù)庫應(yīng)運而生。向量數(shù)據(jù)庫在向量數(shù)據(jù)庫是專門用來存儲和查詢向量的數(shù)據(jù)庫。其存儲的向量來自于對文本、語音、圖像、視頻等的向量化。同傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫不僅能夠完成基本的CRUD(添加、讀取查詢、更新、刪除)等操作,還能夠?qū)ο蛄繑?shù)據(jù)進行更快速的相似性搜索,商業(yè)價值提升明顯。庫給AI插上騰飛的翅膀。向量數(shù)據(jù)庫可以大幅度拓展大模型所知。向量數(shù)據(jù)庫可以通過存儲最新信息后給大模型訪問來彌補這點不足。此外,通過向量數(shù)據(jù)的本地存儲,向量數(shù)據(jù)庫還自帶多模態(tài)功能,能夠?qū)崿F(xiàn)用中文搜索英語圖書、用俄文搜索圖片庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)投資建議:建議關(guān)注國內(nèi)具有向量化計算、向量搜索、向量化執(zhí)行引擎科技、佳華科技、海量數(shù)據(jù)、科藍軟件等。公司,并且目前向量數(shù)據(jù)庫有多種技術(shù)路線的選擇,發(fā)展仍然有較大的爭壓力恐快速提升。歷歷史收益率曲線計算機滬深300%2022/52022/82022/112023/2益行行業(yè)數(shù)據(jù)44342135535 .2811513 1.14總市值(億)流通市值(億)市盈率(倍)市凈率(倍)成分股總營收(億)成分股總凈利潤(億)成分股資產(chǎn)負債率(%)相關(guān)報告相關(guān)報告《技術(shù)變革帶動機構(gòu)持倉回歸超配》042618680586451huangjinguym@/31深度1.向量數(shù)據(jù)庫是什么:存儲向量的數(shù)據(jù)庫 4 11 潛力 143.市場空間:向量數(shù)據(jù)庫五百億美元藍海市場待引爆 16 204.1.Pinecone 204.2.Milvus 22Vespa 244.4.Weaviate 244.5.Qdrant 26 圖1:CNN模型也是把圖像向量化之后進行處理 5 數(shù)據(jù)庫的對比 8 圖8:OpenAI泄露隱私數(shù)據(jù) 12圖書 13圖10:用俄語基于圖片理解來進行搜索(“藍色的鞋子”) 13圖11:傳統(tǒng)的關(guān)鍵詞搜索太表層 15s 圖13:2010-2025年全球創(chuàng)建、使用和存儲的數(shù)據(jù)量變化(ZB) 16圖14:2017-2026E年全球數(shù)據(jù)庫市場規(guī)模變化(億美元) 16圖15:2019年關(guān)系型與非關(guān)系型數(shù)據(jù)庫用戶規(guī)模(%) 17圖16:2022年關(guān)系型與非關(guān)系型數(shù)據(jù)庫市場份額(%) 17圖17:2017-2022年關(guān)系型及非關(guān)系型數(shù)據(jù)庫規(guī)模及增速(百萬美元,%) 17圖18:中國與全球數(shù)據(jù)產(chǎn)生量及占比(ZB,%) 18圖19:中國與全球數(shù)據(jù)庫市場規(guī)模及占比(億美元,億元,%) 18圖20:中國數(shù)據(jù)庫市場規(guī)模及增速(億元,%) 19 圖21:Milvus向量數(shù)據(jù)庫生態(tài)和社區(qū)布局 22圖22:Milvus向量數(shù)據(jù)庫架構(gòu) 23 圖24:Weaviate向量數(shù)據(jù)庫架構(gòu) 25圖25:Qdrant向量數(shù)據(jù)庫架構(gòu) 26//31深度表1:全球向量數(shù)據(jù)庫信息匯總 20Pinecone向量數(shù)據(jù)庫設(shè)置索引分步內(nèi)容 21Pinecone 2表4:Zilliz一級市場融資情況匯總 24表5:Weaviate一級市場融資情況匯總 26表6:Qdrant一級市場融資情況匯總 27/31深度1.向量數(shù)據(jù)庫是什么:存儲向量的數(shù)據(jù)庫AI的全流程其實都是圍繞著向量的數(shù)學(xué)運算。向量在人工智能(AI)中扮演著非量,文本可以表示為詞向量或句子向量;將詞語轉(zhuǎn)換為多維向量,這有助于捕捉詞語之間的語義關(guān)系。這些向量表示可用于文本分類、情感分析、機器翻譯等任務(wù);式存儲。在訓(xùn)練過程中,優(yōu)化算法(如梯度下降)會不斷更新這些權(quán)重向量,4、向量運算:許多機器學(xué)習(xí)算法,如支持向量機(SVM)、K-近鄰(KNN)和主有助于找到數(shù)據(jù)中的模式或者對數(shù)據(jù)進行分類;使用梯度(一種向量),來更新模型參數(shù),從而找到損失函數(shù)的最小值。這有助改進模型的性能;總之,向量對于AI至關(guān)重要。無論是之前的CNN、RNN模型還是當前火熱的Transformer轉(zhuǎn)其實都是向量的處理和變化。而高維空間向量所隱含31深度維表來邏輯表達實現(xiàn)的數(shù)據(jù),典型的結(jié)構(gòu)化數(shù)據(jù)例如成績單、工mbeddings31深度1.2.向量化:技術(shù)已經(jīng)充分擴散的領(lǐng)域,如文字、圖片、視頻等,向量化的技術(shù)是不同的。這些技術(shù)可以是諸如31深度D接下來,我們可以用這些數(shù)字ID來表示每個句子。例如,句子“我喜歡吃蘋果”GloVe。這些方法會將每個詞語表示為一個固定長度的向量(如50維),這些向量處理大量文本數(shù)據(jù)得到。然后,我們可以將句子中的每個詞替換為對應(yīng)的詞向量,從而得到一個向量化表示的句子。須的。向量化數(shù)據(jù)的、特征提取和向量化表示的生成。這些過程通常涉及行復(fù)雜的計算,如梯度下降、聚類和神經(jīng)網(wǎng)絡(luò)31深度低變得更加可承受。相比之下,計算資源的按需購買通常價格任務(wù)通常涉及大量復(fù)雜數(shù)學(xué)運算,而存儲成.3.向量數(shù)據(jù)庫:專門用來存儲和查詢向量的數(shù)據(jù)庫是一種專門用于存儲、讀取查詢、更新、刪除)、元數(shù)據(jù)過濾、水平縮放等操作,還能夠?qū)ο蛄繑?shù)據(jù)進行T市場需求。型數(shù)據(jù)庫的對比本向量之間的相似度得分等信息;該環(huán)節(jié)可以使用不同的相似性度量對最近鄰重新排序。//31深度向量數(shù)據(jù)庫能夠通過向量搜索(VectorSearch),實現(xiàn)更為高效、準確的執(zhí)行和結(jié)果輸出。當前主流的數(shù)據(jù)庫檢索采用關(guān)鍵詞搜索(KeywordSearch)的方式,將搜或近似臨近算法(ANN,ApproximateNearingNeighbor),計算目標對象與數(shù)據(jù)庫中向量嵌入的距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度,對語義更為精準的理解,在多模態(tài)、不同語言等環(huán)境下能夠輸出更為準確的結(jié)果。模向量數(shù)據(jù)集中快速地找到與給定查詢向量相似的向量。這有助于實現(xiàn)實時或索和推薦功能;深度2、靈活的向量表示:向量數(shù)據(jù)庫通常支持各種向量表示方法,包括稠密向量(如詞嵌入)和稀疏向量(如詞袋模型和TF-IDF)。這使得向量數(shù)據(jù)庫可以處理各式存儲和查詢向量數(shù)據(jù)。這使得向量數(shù)據(jù)庫可以應(yīng)對大規(guī)模數(shù)據(jù)集和高并發(fā)查近鄰查詢、向量加權(quán)查詢等。這使得向量數(shù)據(jù)庫在各種應(yīng)用場景中具有較高的用性。深度2.1.拓展大模型的邊界:向量數(shù)據(jù)庫的核心應(yīng)用邊界和空間邊ET發(fā)生的事情一無所知。而信息的價值隨著時間的流逝呈現(xiàn)出指數(shù)級下降,這也使得LLM在很多場景的適用性有限。隨著向量數(shù)據(jù)庫的據(jù)可能無法識別新用戶和新產(chǎn)品的特征。通過向量數(shù)據(jù)庫,可以實時更新用戶和,從而使大模型能夠根據(jù)最新的信息為用戶提供更精準的推薦。此的股票價格信息。通過將最新的股票價格向中,大模型可以實時分析和預(yù)測未來股票價格走勢。還有就是在客服領(lǐng)域,向量數(shù)據(jù)庫將使得大模型可以追溯到對話的開始??臻g邊界的擴展指的是向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露ChatGPTbug據(jù)有關(guān);PT部署后可以存儲企業(yè)型可以在有保護的情況下訪問向量數(shù)據(jù)庫的隱私數(shù)據(jù),進而可以在不向外網(wǎng)暴露公司的隱私的情況下,使得公司的業(yè)務(wù)得到大模型的助力。深度型的應(yīng)用戶可以使用英語、法言搜索圖書庫,而無需事先對書名進行多語言翻譯處理。這得益都是英語,但向量數(shù)據(jù)庫仍結(jié)果。這是因為向量數(shù)據(jù)庫能夠識別出不同模深度英語圖書解來進行搜索(“藍色的鞋子”)深度LLM可以stNeighborSearch,簡稱ANNS)是一種在高維數(shù)據(jù)中查找與給定查詢向量相似的項中,數(shù)據(jù)經(jīng)過向量化處理后,每個數(shù)據(jù)點都會被表示為高維空間中的某個查詢向量相似的數(shù)據(jù)點時,近似搜索算法會在這間中快速定位到與查詢向量距離較近的數(shù)據(jù)點。這種相似性度量通?;谙蛄恐g的距離(如歐氏距離、余弦相似性等)。由于在高維空間中進行精確的最以通常采用近似方法來加速搜索過程。近似搜索主要依賴于一些特定的算法和數(shù)據(jù)結(jié)構(gòu),如Locality-SensitiveHashing(LSH)、HierarchicalbleSmallWorldHNSWAnnoy前提下顯著加速搜索速度,從而實現(xiàn)在大規(guī)模高維數(shù)據(jù)中的高效查找。近似更精準、更個性化的內(nèi)容推薦。這可以顯著提高用戶滿意度和使用時長,進而索相關(guān)文檔、發(fā)現(xiàn)隱含的話題和關(guān)鍵信息。這對于新聞分析、競爭情報、法律(特別是判例法)和市場研究等領(lǐng)域具有顯著的商業(yè)價值;圖像相似的圖像,這對于廣告、設(shè)計、版權(quán)等領(lǐng)域具有重要應(yīng)用價值。通過快地找到相關(guān)圖像,企業(yè)可以降低成本、提高工作效率;語音數(shù)據(jù)庫中快速匹配相似語音片段。這對于客戶服務(wù)、語音助手和自動翻譯列、蛋白質(zhì)結(jié)構(gòu)等復(fù)雜數(shù)字數(shù)據(jù)中查找相似性。這可以加速新藥研發(fā)、疾病診斷和基Tokopedia量數(shù)據(jù)庫進行近似搜索。深度深度r圖14:2017-2026E年全球數(shù)據(jù)庫市場規(guī)模變化(億美元)50%.50%50%.50%深度看,關(guān)系型數(shù)據(jù)庫仍然占據(jù)主導(dǎo),83%的數(shù)據(jù)庫市場由關(guān)系型數(shù)據(jù)庫構(gòu)成。根據(jù)領(lǐng)先于傳統(tǒng)關(guān)系型數(shù)據(jù)庫。圖15:2019年關(guān)系型與非關(guān)系型數(shù)據(jù)庫用戶規(guī)模(%)圖16:2022年關(guān)系型與非關(guān)系型數(shù)據(jù)庫市場份額(%)庫(RDBMS)非關(guān)系型數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫(DDMS非關(guān)系型數(shù)據(jù)庫IDCCNoSQL數(shù)據(jù)庫中向量數(shù)據(jù)庫占比將達到50%;2%%深度;圖18:中國與全球數(shù)據(jù)產(chǎn)生量及占比(ZB,%)0027.77%23.01%27.77%23.01%30%0%20%9.0405.36%0深度模及增速(億元,%)0040.90.35492.75Y0502%2021E2022E3E24E5E//31深度4.全球主流向量數(shù)據(jù)庫介紹l表1:全球向量數(shù)據(jù)庫信息匯總公司aviate是mHNSWineconeinecone是否tipleproprietaryAPUchipforsticsearchrch否否Neuralhashing/ammingdistance否RustHNSWgraphYahoo!pa是JavaCHNSWgraphilizvus否GoC+,Python)FAISSHNSWYahoo!ld否NGT4.1.PineconeeAWSunk公司創(chuàng)始人兼首席執(zhí)行官EdoLiberty獲得耶魯大學(xué)計算機科學(xué)博士學(xué)位,曾擔(dān)任務(wù)。2022年12月起,Pinecone先后上,搶占市場份額。PI核心索引、容器分布(containerdistribution)、云管理層三部分。Pinecone核心索更新和嵌入指令后,以延遲低于50毫秒的運行狀態(tài)處理負載平數(shù)據(jù)復(fù)制、管理命名空間、分割數(shù)據(jù)庫。云管理層使得用戶在不安裝硬件的情況下,僅通過創(chuàng)建索引并導(dǎo)入向量數(shù)據(jù)就可實現(xiàn)查詢。此外,用戶可以使用保證托管系統(tǒng)穩(wěn)定運行,元數(shù)據(jù)與圖像遍歷(graphtraversal)相結(jié)合等條件下,研t//31深度Pinecone數(shù)據(jù)庫擁有4F特性:快速(Fast)、實時(Fresh)、可過濾(Filtered)、全托管(Fully)。即使有數(shù)十億規(guī)模的數(shù)據(jù)存儲,依然可以保持極低的查詢延遲。查詢結(jié)果的相關(guān)性。平臺保證穩(wěn)定、安全的運行環(huán)境,產(chǎn)品入門簡單、使用便利。操作流程可劃分創(chuàng)建索引(Index)、連接索引、插入索引、使用索引四步。通過創(chuàng)e索引是向量數(shù)據(jù)的最高組織單位。創(chuàng)建新索引時可以設(shè)定Pod與Distance支持從集合(collection)中創(chuàng)建索引,集合是向量與元數(shù)據(jù)的不可查詢表示。將向量嵌入與元數(shù)據(jù)插入索引。向量對象以(id,vector)的元組列表(tuple)形式插入,含元數(shù)據(jù)的向量以鍵值對(key-valuepairs)形式插入用于條件過引ne//31深度ol投后估值已升至7.5億美元。(美元)(美元)萬A輪2800萬talB輪.5億eCapital投4.2.MilvusAWSMilvus成為業(yè)界領(lǐng)先的向量數(shù)據(jù)庫解決方案,s性搜索服務(wù);SDK簡單直觀,也可用于各種不同的語言;Milvus行了實戰(zhàn)測試,系統(tǒng)組件的廣泛隔離,Milvus具有較高的彈性和可靠性;提供高效的服務(wù);擴展;。//31深度遵循協(xié)調(diào)器服務(wù)的指令并執(zhí)行用戶觸發(fā)的數(shù)據(jù)管理語言DML/數(shù)據(jù)定義語言DDL命令;sZillizBalYCapitalYunqiCapital/31/31深度表4:Zilliz一級市場融資情況匯總?cè)谫Y金額(萬A輪投B輪300rsB輪(Extension)Vespa件。這些組件提供包括索引轉(zhuǎn)換和查能,也可以提供應(yīng)用程序的中間件邏輯。容器集群將查詢和數(shù)據(jù)操作傳遞到內(nèi)容集群中的相應(yīng)節(jié)點,也可以添加組件訪問來自外部服務(wù)的數(shù)據(jù)。內(nèi)容據(jù)執(zhí)行查詢和推理。查詢的范圍包括簡單數(shù)據(jù)查找、使用4.4.Weaviate//31深度Weaviate取、分類、定制化模型(PyTorch/TensorFlow/Keras)等功能,基于Go語言,能夠存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 掛靠公司的車終止合同范本(2篇)
- 二零二五年度出租車司機職業(yè)發(fā)展規(guī)劃合同樣本3篇
- 二零二五年份農(nóng)家院農(nóng)業(yè)觀光園租賃管理合同4篇
- 2025年度專業(yè)培訓(xùn)中心場地租賃及配套設(shè)施租賃合同3篇
- 2025年度煤炭鐵路運輸合同爭議解決機制
- 2025年度危險化學(xué)品運輸安全管理合同4篇
- 2025年度南京琴行教師學(xué)生家長溝通與協(xié)作合同4篇
- 二零二五年度城市地下空間開發(fā)利用承包經(jīng)營合同4篇
- 二零二五版木材行業(yè)木方板材庫存管理合同范本3篇
- 二零二五年度美團商家入駐信息安全管理合同4篇
- 2025年度杭州市固廢處理與資源化利用合同3篇
- 部編版二年級下冊《道德與法治》教案及反思(更新)
- 充電樁項目運營方案
- 退休人員出國探親申請書
- 傷殘撫恤管理辦法實施細則
- 高中物理競賽真題分類匯編 4 光學(xué) (學(xué)生版+解析版50題)
- 西方經(jīng)濟學(xué)-高鴻業(yè)-筆記
- 幼兒園美術(shù)教育研究策略國內(nèi)外
- 物業(yè)公司介紹
- 2024屆河南省五市高三第一次聯(lián)考英語試題及答案
- 【永輝超市公司員工招聘問題及優(yōu)化(12000字論文)】
評論
0/150
提交評論