搜索型數(shù)據(jù)庫白皮書 2024_第1頁
搜索型數(shù)據(jù)庫白皮書 2024_第2頁
搜索型數(shù)據(jù)庫白皮書 2024_第3頁
搜索型數(shù)據(jù)庫白皮書 2024_第4頁
搜索型數(shù)據(jù)庫白皮書 2024_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-2- -2- -21- -22- -23- -26- 圖1DB-Engines國際數(shù)據(jù)庫排行榜 圖2搜索型數(shù)據(jù)庫的發(fā)展歷程 -3-圖3DB-Engines最新搜索引擎排名 -6-圖4搜索型數(shù)據(jù)庫核心技術(shù)模塊 圖5搜索型數(shù)據(jù)庫應(yīng)用場景一覽 圖6搜索型數(shù)據(jù)庫應(yīng)用場景 圖7搜索型數(shù)據(jù)庫應(yīng)用實(shí)施流程圖 -23-圖8中國知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng) 圖9星環(huán)科技TranswarpScope -31-表1搜索型數(shù)據(jù)庫與其它數(shù)據(jù)庫對比 表2搜索型數(shù)據(jù)庫產(chǎn)品 -5-表3搜索型數(shù)據(jù)庫業(yè)務(wù)場景 表4可信數(shù)據(jù)庫-搜索型數(shù)據(jù)庫基礎(chǔ)能力測試通過名單 一、搜索型數(shù)據(jù)庫概述引擎的底層支撐的搜索型數(shù)據(jù)庫逐漸成為大數(shù)據(jù)時(shí)代的基為分析性數(shù)據(jù)庫領(lǐng)域的一個(gè)重要分支。在國際數(shù)據(jù)庫流行度排行榜以外的第二大類數(shù)據(jù)庫。數(shù)據(jù)來源:DB-Engines官網(wǎng),2024年6月圖1DB-Engines國際數(shù)據(jù)庫排行榜根據(jù)IDC數(shù)據(jù)預(yù)測,隨著數(shù)據(jù)量持續(xù)增長,全球數(shù)據(jù)預(yù)計(jì)到2025年將達(dá)到175ZB,其中80%為非結(jié)構(gòu)化數(shù)據(jù),相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫),為核心構(gòu)建的搜索型數(shù)據(jù)庫可以更高效管理非結(jié)構(gòu)化數(shù)據(jù)的處理需(一)搜索型數(shù)據(jù)庫概念搜索型數(shù)據(jù)庫的應(yīng)用場景持續(xù)擴(kuò)展,正逐步涵蓋業(yè)務(wù)系統(tǒng)檢索加速、IT表1搜索型數(shù)據(jù)庫與其它數(shù)據(jù)庫對比搜索型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫時(shí)序數(shù)據(jù)庫圖數(shù)據(jù)庫多模數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)多樣,支持文構(gòu)化時(shí)間序列數(shù)據(jù)和邊支持多種數(shù)據(jù)模型查詢語言通常使用自定義的查詢語言或APISQL針對時(shí)間序列優(yōu)化的查詢語言Gremlin支持多種查詢語言索引機(jī)制B樹、哈希等通常優(yōu)化時(shí)間戳索引基于圖形的索引,如鄰接表可能集成多種索引機(jī)制讀寫性能文檢索支持列快速檢索讀寫性能取決于圖形結(jié)構(gòu)根據(jù)數(shù)據(jù)模型可能不同事務(wù)支持通常不支持或有限支持支持ACID事務(wù)不適用實(shí)現(xiàn)可能支持ACID事務(wù)水平擴(kuò)展擴(kuò)展分區(qū)實(shí)現(xiàn)取決于圖形數(shù)據(jù)庫實(shí)現(xiàn)多種數(shù)據(jù)模型適用場景媒體數(shù)據(jù)搜索化數(shù)據(jù)存儲(chǔ)據(jù)等時(shí)間序列分析系統(tǒng)等多數(shù)據(jù)類型統(tǒng)一管理(二)搜索型數(shù)據(jù)庫發(fā)展歷程圖2搜索型數(shù)據(jù)庫的發(fā)展歷程1.初始起步期(1990年代)搜索數(shù)據(jù)庫的雛形出現(xiàn)于上世紀(jì)90年代,當(dāng)時(shí)以全文檢索求,搜索型數(shù)據(jù)庫開始廣泛應(yīng)用于企業(yè)的內(nèi)部應(yīng)用。典型代表包2.技術(shù)突破(成熟)期(2000年代)商務(wù)、社交網(wǎng)絡(luò)等。1999年,DougCutting創(chuàng)建了Lucene,它是一個(gè)開3.高速發(fā)展期(2010年代)4.智能轉(zhuǎn)型(融合)期(2020年代)2020年前后,隨著大數(shù)據(jù)和人工智能技術(shù)的融合發(fā)展,搜索型數(shù)據(jù)組織提供了更加靈活、快速、個(gè)性化和智能化的數(shù)據(jù)處理和識(shí)邊界的限制也做了交叉驗(yàn)證、預(yù)訓(xùn)練模型、評分、搜索增強(qiáng)(RAG)表2搜索型數(shù)據(jù)庫產(chǎn)品年份公司產(chǎn)品拓爾思TRSHyBase2001美國MarkLogicCorp.MarkLogic2003美國SplunkInc.Splunk2006美國ApacheSoftwareFoundationSolr2012荷蘭ElasticElasticSearch2015百度Tera2018優(yōu)特捷Beaver2021美國AmazonWebServicesOpenSearch2022星環(huán)科技Scope2023國網(wǎng)信通億力思極億搜2023極限科技EasySearch數(shù)據(jù)來源:DB-Engines官網(wǎng),2024年6月圖3DB-Engines最新搜索引擎排名(三)搜索型數(shù)據(jù)庫的挑戰(zhàn)二、搜索型數(shù)據(jù)庫技術(shù)詳解(一)搜索型數(shù)據(jù)庫核心技術(shù)圖4搜索型數(shù)據(jù)庫核心技術(shù)模塊1.文本分析和標(biāo)記化(TextAnalysisandTokenization)2.倒排索引技術(shù)(InvertedIndex)縮率和查詢速度,通常會(huì)采用數(shù)據(jù)壓縮技術(shù)和列存儲(chǔ)等技3.相關(guān)度排序技術(shù)(RankingandRelevanceScoring)到低排序。相關(guān)度排序通?;谛畔z索領(lǐng)域的相關(guān)度模型,如TF/IDF(詞頻-逆文檔頻率)、BM25模型等。這些模型能夠通過分析查詢詞項(xiàng)4.向量索引技術(shù)(VectorIndex)技術(shù)的核心是將數(shù)據(jù)轉(zhuǎn)換為向量嵌入,本質(zhì)上是將數(shù)據(jù)項(xiàng)以多維空間中的的稠密向量,這些表示捕獲了數(shù)據(jù)的語義上下文和含義,使得能夠基于相的近似最近鄰搜索(ANNS)。常見的向量索引算法有局部敏感哈希5.數(shù)據(jù)存儲(chǔ)和檢索(StorageandRetrieval)(2)檢索策略涉及諸如TF-IDF、BM25等評分算法,考慮詞頻、文檔頻率和文檔長度(二)搜索型數(shù)據(jù)庫關(guān)鍵特性1.全文搜索能力2.相關(guān)度排序可能多地檢索到與查詢相關(guān)的文檔。高精確度保證了搜索結(jié)果的準(zhǔn)確性,3.實(shí)時(shí)數(shù)據(jù)處理4.多樣化數(shù)據(jù)模型支持搜索型數(shù)據(jù)庫的這些關(guān)鍵特性使其成為大數(shù)據(jù)處理和實(shí)時(shí)分析的理三、搜索型數(shù)據(jù)庫應(yīng)用場景圖5搜索型數(shù)據(jù)庫應(yīng)用場景一覽表3搜索型數(shù)據(jù)庫業(yè)務(wù)場景企業(yè)搜索平臺(tái)產(chǎn)品信息管理內(nèi)部知識(shí)管理客戶服務(wù)支持網(wǎng)絡(luò)空間治理功能描述提供企業(yè)內(nèi)部信息檢索管理企業(yè)產(chǎn)品信息索引和檢索企業(yè)文檔響應(yīng)客戶查詢和反饋網(wǎng)絡(luò)輿情監(jiān)測與分析實(shí)際應(yīng)用員工快速查找企業(yè)資料實(shí)時(shí)更新和檢索產(chǎn)品數(shù)據(jù)員工訪問內(nèi)部報(bào)告、郵件客戶問題快速解決監(jiān)測網(wǎng)絡(luò)言論、信息篩選1.企業(yè)搜索信息管理和智能分析能力,是企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐和推2.產(chǎn)品信息管理4.客戶服務(wù)與支持(2)信息篩選與過濾1.電子商務(wù)與零售業(yè)2.金融與投資領(lǐng)域3.健康醫(yī)療行業(yè)4.教育與培訓(xùn)領(lǐng)域5.媒體與娛樂產(chǎn)業(yè)6.物聯(lián)網(wǎng)和智能設(shè)備領(lǐng)域7.公共服務(wù)與政府治理圖6搜索型數(shù)據(jù)庫應(yīng)用場景四、搜索型數(shù)據(jù)庫能力模型1.基本能力搜索型數(shù)據(jù)庫的主要功能是數(shù)據(jù)庫基礎(chǔ)能力是指提供支持非結(jié)構(gòu)化信息查詢、組合索引查詢、多語種支持、聚合分析2.管理能力數(shù)據(jù)庫管理能力是指支持借助工具或自我管理數(shù)據(jù)庫狀態(tài)和存儲(chǔ)索3.安全能力4.兼容能力數(shù)據(jù)庫兼容能力是指數(shù)據(jù)庫系統(tǒng)能夠在不同的部署環(huán)境中運(yùn)行和部5.擴(kuò)展能力6.高可用能力(二)能力模型的符合性驗(yàn)證情況2023年初,中國信通院云計(jì)算與大數(shù)據(jù)研究所牽頭,依托中國通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì),聯(lián)合30余家企業(yè)完成《搜索型品通過測試。關(guān)于該評測的詳細(xì)情況,可聯(lián)系劉老師表4可信數(shù)據(jù)庫-搜索型數(shù)據(jù)庫基礎(chǔ)能力測試通過名單企業(yè)名稱產(chǎn)品名稱版本號完成測試時(shí)間極限科技INFINIEasysearch搜索引擎軟件v1.0.0拓爾思TRS海貝搜索數(shù)據(jù)庫系統(tǒng)V10.0日志易Beaver數(shù)據(jù)搜索引擎系統(tǒng)v1.02023年5月23日國網(wǎng)億力思極億搜V1.02023年5月26日星環(huán)科技星環(huán)分布式搜索引擎軟件【簡稱:TranswarpScope】V9.0愛可生愛可生向量數(shù)據(jù)庫企業(yè)版軟件【簡稱:TensorDB】V2.0火山引擎火山引擎企業(yè)級云搜索服務(wù)軟件V2同方知網(wǎng)KBase數(shù)據(jù)庫V13.02024年6月4日五、搜索型數(shù)據(jù)庫應(yīng)用與實(shí)施建議圖7搜索型數(shù)據(jù)庫應(yīng)用實(shí)施流程圖(一)數(shù)據(jù)建模和索引設(shè)計(jì)于優(yōu)化數(shù)據(jù)以支持高效的搜索、查詢性能和數(shù)據(jù)分析。搜索型數(shù)據(jù)庫如Elasticsearch通常采用倒排索引來快速定位包含特定詞匯的文檔,這對于1.全文索引2.字段索引1)對于需要支持精確匹配和范圍查詢的字段,B+樹索引通常是最3.綜合索引策略4.索引分片和復(fù)制2)根據(jù)查詢模式設(shè)置適當(dāng)?shù)乃饕龔?fù)制因5.索引生命周期管理2.讀寫分離3.提升硬件內(nèi)存以及磁盤的IO。高主頻的CPU能夠更快地執(zhí)行計(jì)算任務(wù),而增加CPU核心數(shù)量則可以提高系統(tǒng)的并行處理能力,使得數(shù)據(jù)庫能夠同時(shí)處理更多的查詢請求。通過使用高性能的多核CPU,可以實(shí)現(xiàn)更快速的索IO性能。與傳統(tǒng)的機(jī)械硬盤相比,SSD硬盤具有更快的數(shù)據(jù)訪問速度和使用SSD硬盤作為數(shù)據(jù)庫的存儲(chǔ)介質(zhì),可以大幅提高系統(tǒng)的響應(yīng)速度和數(shù)據(jù)處理效率,提升用戶的查詢體驗(yàn)和系統(tǒng)的性能表現(xiàn)。通過提高CPU的主頻和核數(shù)、使用更大的內(nèi)存以及SSD硬盤等手段,可以有效地提高速度和處理能力,從而提高用戶的查詢體驗(yàn)和1.數(shù)據(jù)隱私保護(hù)2.訪問控制3.數(shù)據(jù)加密4.安全審計(jì)5.安全漏洞修復(fù)6.高可用性和災(zāi)備備份7.安全培訓(xùn)和意識(shí)中國知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)(DIInspiro?)是由知識(shí)產(chǎn)權(quán)出版社有限責(zé)任公司開發(fā)建設(shè)的國內(nèi)第一個(gè)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)應(yīng)用服務(wù)系統(tǒng)。DIInspiro?已經(jīng)整合了國內(nèi)外專利、商標(biāo)、法律文書、標(biāo)準(zhǔn)和科技圖8中國知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)2.極限科技通過國產(chǎn)化替代,不僅提高了企業(yè)IT技術(shù)棧的國產(chǎn)化程度,落實(shí)了3.星環(huán)科技星環(huán)科技Scope支持實(shí)時(shí),微批處理等多種數(shù)據(jù)寫入方式,產(chǎn)品內(nèi)置自研存儲(chǔ)引擎SearchEngine,對于傳統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),支持精確/模糊/多維檢索等各類檢索場景麒麟,UOS等操作系統(tǒng),在傳統(tǒng)搜索業(yè)務(wù)的功能外,同時(shí)提供多租戶,圖9星環(huán)科技TranswarpScope六、搜索型數(shù)據(jù)庫演進(jìn)趨勢(一)多模態(tài)數(shù)據(jù)的融合處理和分析對手機(jī)里面的文字、圖片、音視頻等進(jìn)行搜文索引能力的提供者,集成到多模態(tài)數(shù)據(jù)庫(如NoSQL數(shù)據(jù)庫)中;二(二)人工智能與搜索型數(shù)據(jù)庫的結(jié)合1.語義理解2.長期記憶3.搜索增強(qiáng)生成(RAG)4.融合搜索與評分排序5.對向量數(shù)據(jù)庫的支持(DenseVector)越來越廣泛地被應(yīng)用于自然語言處理、圖像識(shí)別、推薦的方式進(jìn)行訓(xùn)練,其中無監(jiān)督的訓(xùn)練方式通常使用神經(jīng)網(wǎng)絡(luò)模型如Word2Vec、GloVe等,有監(jiān)督的訓(xùn)練方式通常使用深度學(xué)習(xí)模型,如卷等。具被開發(fā)出來,如ANNOY、Faiss等在圖像識(shí)別和推薦系統(tǒng)等領(lǐng)域得到據(jù)庫支持第三方Transformer模型的應(yīng)用接口接入,提供檢索增強(qiáng)生成服(三)云原生架構(gòu)的演進(jìn)云原生技術(shù)發(fā)展的核心路線集中在利用Kubernetes(K8s)進(jìn)行容器務(wù)需求與資源供給,實(shí)現(xiàn)用戶和云服務(wù)提供商的降本增效。Serverless服的浪費(fèi)或服務(wù)降級。Serverless服務(wù)的實(shí)現(xiàn)依賴于搜索型數(shù)據(jù)庫的容器化由固定規(guī)則向AI工具鏈的方向演進(jìn)。(四)其它技術(shù)對搜索型數(shù)據(jù)庫的影響1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論