版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告版權(quán)聲明員會(huì),并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本主要編寫(xiě)單位(排名不分先后):計(jì)算技術(shù)有限公司、阿里云計(jì)算技術(shù)有限公司、甲骨文(中國(guó))軟云和恩墨(北京)信息技術(shù)有限公司、星環(huán)信息科技(上海)股份有限公司、騰訊云計(jì)算(北京)有限責(zé)任公司、中興通訊股份有限源科技有限公司、北京自然原數(shù)科技有限公司、中移(蘇州)軟件1010億美元,企業(yè)共518家,產(chǎn)品數(shù)量超715款。我國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模為74.1億美元,占全球7.34%,云數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模占比超過(guò)一本報(bào)告是中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì) 1 11.全球云數(shù)據(jù)庫(kù)市場(chǎng)呈現(xiàn)多強(qiáng)格局 2.全球及中國(guó)數(shù)據(jù)庫(kù)市場(chǎng) 13.中國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)圖譜 3 5 52.全球數(shù)據(jù)庫(kù)發(fā)展經(jīng)歷兩輪熱周期,近十年增長(zhǎng)明顯 63.全球數(shù)據(jù)庫(kù)技術(shù)人才超十萬(wàn),我國(guó)人才規(guī)模逐年擴(kuò)大 74.國(guó)內(nèi)外產(chǎn)品類型分布各有側(cè)重,非關(guān)系型數(shù)據(jù)庫(kù)占比進(jìn)一步提升 95.國(guó)外商業(yè)與開(kāi)源均衡發(fā)展,我國(guó)以商業(yè)為主 1.數(shù)據(jù)庫(kù)更換:數(shù)據(jù)庫(kù)應(yīng)用遷移工具平臺(tái)輔助組織降本增效 1.創(chuàng)新方面,非關(guān)系型為重點(diǎn),我國(guó)創(chuàng)新能力日益增強(qiáng) 2.標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)體系日益完善助力產(chǎn)業(yè)高質(zhì)量發(fā)展 20二、數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)發(fā)展趨勢(shì) 2.圖技術(shù)洞悉數(shù)據(jù)關(guān)聯(lián)價(jià)值 3.湖倉(cāng)一體提升數(shù)據(jù)處理性能 1.向量數(shù)據(jù)庫(kù)高效檢索非結(jié)構(gòu)化數(shù)據(jù) 2.多模數(shù)據(jù)庫(kù)支撐多樣化需求 1.1人工智能賦能數(shù)據(jù)庫(kù)智能運(yùn)維 1.2大語(yǔ)言模型降低數(shù)據(jù)庫(kù)操作門檻 2.1數(shù)據(jù)庫(kù)助力人工智能高效建模 2.2數(shù)據(jù)庫(kù)支撐大模型有效落地 三、數(shù)據(jù)庫(kù)行業(yè)應(yīng)用情況綜述 47 48 圖12023-2028年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速 圖22022-2024中國(guó)公有云和本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模 2圖3中國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)圖譜(2024年) 4 5 5圖6全球數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間 6圖7我國(guó)數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間 7 8 8 9圖11我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類型分布 圖13全球開(kāi)源數(shù)據(jù)庫(kù)開(kāi)源時(shí)間 圖14我國(guó)開(kāi)源數(shù)據(jù)庫(kù)開(kāi)源時(shí)間 圖172021-2023年中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況 圖18CCSATC601數(shù)據(jù)庫(kù)領(lǐng)域標(biāo)準(zhǔn)化工作體系 23 圖21圖數(shù)倉(cāng)技術(shù)架構(gòu)圖 26 圖24向量數(shù)據(jù)庫(kù)結(jié)構(gòu)圖 圖26REE與TEE邏輯關(guān)系圖 圖31傳統(tǒng)數(shù)據(jù)庫(kù)DBA調(diào)優(yōu)流程 44圖32RAG框架實(shí)現(xiàn)向量數(shù)據(jù)與大語(yǔ)言模型的最佳集成 46表目錄 491一、數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展情況綜述(一)數(shù)據(jù)庫(kù)產(chǎn)業(yè)及市場(chǎng)1.全球數(shù)據(jù)庫(kù)呈現(xiàn)多強(qiáng)格局,我國(guó)數(shù)據(jù)庫(kù)發(fā)展勢(shì)頭強(qiáng)勁2.全球及中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模22024e2025e2026e2027e0圖12023-2028年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速美金,約為1010億美元,中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模為74.1億美元(約合522.4億元人民幣),占全球7.34%2。預(yù)計(jì)到2028年,中國(guó)數(shù)據(jù)庫(kù)市020222023圖22022-2024中國(guó)公有云和本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模2《中華人民共和國(guó)2023年國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》,國(guó)家統(tǒng)計(jì)局,2023年全年人民幣平均匯率為3據(jù)CCSATC601測(cè)算,按數(shù)據(jù)庫(kù)部署方式劃分年中國(guó)公有云數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模為320.15億元,較2022年增速46.1%,本地部署數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模為202.25億元,較2022年增速9.6%,公有云和本地部署模式市場(chǎng)規(guī)模分別占總市場(chǎng)61.3%和38.7%,2023年公有云數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模進(jìn)一步擴(kuò)大,預(yù)計(jì)2024年公有云市場(chǎng)占比將進(jìn)一步擴(kuò)大達(dá)到64.4%,規(guī)模達(dá)到385.8億元,本地部署模式市場(chǎng)增速為5.3%,規(guī)模為213.06億元?!吨袊?guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)圖譜(2024年)》是由中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)(CCSATC601)發(fā)布的數(shù)據(jù)庫(kù)產(chǎn)業(yè)全景圖,旨在全面客觀展現(xiàn)我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)中的關(guān)鍵領(lǐng)域、環(huán)節(jié)和代表企業(yè)。2024版的產(chǎn)業(yè)圖譜依據(jù)申報(bào)單位的產(chǎn)品技術(shù)、市場(chǎng)份額、知識(shí)產(chǎn)權(quán)、學(xué)術(shù)貢獻(xiàn)及企業(yè)聲譽(yù)等多維度指標(biāo)綜合評(píng)價(jià),共分為數(shù)據(jù)庫(kù)主流產(chǎn)品提供商、數(shù)據(jù)庫(kù)生態(tài)工具提供商、數(shù)據(jù)庫(kù)前沿產(chǎn)品提供商、數(shù)據(jù)庫(kù)服務(wù)商、數(shù)據(jù)庫(kù)安全廠商、數(shù)據(jù)庫(kù)生態(tài)社區(qū)、數(shù)據(jù)庫(kù)人才培養(yǎng)等領(lǐng)域,其中事務(wù)型數(shù)據(jù)庫(kù)、分析型數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)方數(shù)據(jù)碎主流產(chǎn)品寸數(shù)據(jù)碎主流產(chǎn)品寸數(shù)據(jù)庫(kù)產(chǎn)業(yè)圖譜(2024)0數(shù)據(jù)庫(kù)生態(tài)工是圖3中國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)圖譜(2024年)5(二)數(shù)據(jù)庫(kù)產(chǎn)品發(fā)展趨勢(shì)■中國(guó)■美國(guó)■其它國(guó)家■中國(guó)■美國(guó)■其它國(guó)家圖4全球數(shù)據(jù)庫(kù)企業(yè)分布比例止2024年6月,全球有共計(jì)518家數(shù)據(jù)庫(kù)產(chǎn)品提供商,總部設(shè)在美國(guó)和中國(guó)的數(shù)據(jù)庫(kù)廠商數(shù)量遙遙領(lǐng)先,均為167家,分別占比32.2%。0畫(huà)性畫(huà)性長(zhǎng)類品豎■企業(yè)數(shù)量圖5全球數(shù)據(jù)庫(kù)企業(yè)分布6別為43、38、10、9和8家,分別占比8.3%、7.3%、1.9%、1.7%和2.全球數(shù)據(jù)庫(kù)發(fā)展經(jīng)歷兩輪熱周期,近十年增長(zhǎng)明顯圖6全球數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間企業(yè)開(kāi)展數(shù)據(jù)庫(kù)業(yè)務(wù)時(shí)間看,全球數(shù)據(jù)庫(kù)企業(yè)起步于20世紀(jì)60年7圖7我國(guó)數(shù)據(jù)庫(kù)企業(yè)開(kāi)展業(yè)務(wù)時(shí)間2023年以來(lái)新增企業(yè)數(shù)量呈現(xiàn)回落態(tài)勢(shì)。截止2024年6月,據(jù)CCSATC601統(tǒng)計(jì),我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品提供商共計(jì)167家,2023年新8圖8全球數(shù)據(jù)庫(kù)企業(yè)人員數(shù)量分布員工數(shù)量平均不足30人。最高為7000人左右規(guī)模,最低不足5人左到21.6%,人數(shù)在11-20人左右規(guī)模次之,數(shù)量為70個(gè),占比13.5%,51-100人位居第三,數(shù)量為59個(gè),占比11.4%。圖9我國(guó)數(shù)據(jù)庫(kù)企業(yè)人員數(shù)量分布9我國(guó)數(shù)據(jù)庫(kù)企業(yè)從業(yè)技術(shù)人員約2萬(wàn)余人,員工數(shù)量平均約200人,人才規(guī)模逐年擴(kuò)大,但數(shù)據(jù)庫(kù)內(nèi)核高級(jí)開(kāi)發(fā)人才不足十分之一,數(shù)量亟待提升。我國(guó)企業(yè)最高為2000人左右規(guī)模,最低不足5人左右規(guī)模。其中21-50人左右規(guī)模企業(yè)占比最高,數(shù)量為43個(gè),比例達(dá)到25.7%。人數(shù)在11-20人左右規(guī)模次之,數(shù)量為32個(gè),占比19.2%。51-100人位居第三,數(shù)量為29個(gè),占比17.4%。4.國(guó)內(nèi)外產(chǎn)品類型分布各有側(cè)重,非關(guān)系型數(shù)據(jù)庫(kù)占比進(jìn)一步提升關(guān)系型數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-鍵值數(shù)據(jù)庫(kù)■非關(guān)系型數(shù)據(jù)庫(kù)-文檔數(shù)據(jù)庫(kù)■非關(guān)系型數(shù)據(jù)庫(kù)-圖數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-時(shí)序數(shù)據(jù)庫(kù)■非關(guān)系型數(shù)據(jù)庫(kù)-全文檢索數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-列存數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-面向?qū)ο髷?shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-向量數(shù)據(jù)庫(kù)■非關(guān)系型數(shù)據(jù)庫(kù)-圖數(shù)據(jù)庫(kù)RDF存儲(chǔ)■非關(guān)系型數(shù)據(jù)庫(kù)-多值數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)-原生XML數(shù)據(jù)庫(kù)圖10全球數(shù)據(jù)庫(kù)產(chǎn)品類型分布全球數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型及混合型數(shù)據(jù)庫(kù)為主,關(guān)系型為輔的局面。據(jù)CCSATC601統(tǒng)計(jì)分析,截止2024年6月,全球數(shù)據(jù)庫(kù)產(chǎn)品共有715款。除了早期的兩款網(wǎng)狀數(shù)據(jù)庫(kù)和層次數(shù)據(jù)庫(kù),在剩余的713個(gè)數(shù)據(jù)庫(kù)產(chǎn)品中,關(guān)系型數(shù)據(jù)庫(kù)330個(gè),非關(guān)系型數(shù)據(jù)庫(kù)有383個(gè),占比分別為45.1%和54.9%。非關(guān)系型數(shù)據(jù)庫(kù)中,鍵值型數(shù)據(jù)庫(kù)91個(gè)、文檔數(shù)據(jù)庫(kù)61個(gè)、圖數(shù)據(jù)庫(kù)56個(gè),在非關(guān)系數(shù)據(jù)庫(kù)中依次占比23.8%、15.9%和14.6%。圖11我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品類型分布我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量仍呈現(xiàn)以關(guān)系型為主,非關(guān)系型數(shù)據(jù)庫(kù)為輔的局面。據(jù)CCSATC601統(tǒng)計(jì)分析,截止2024年6月,我國(guó)數(shù)據(jù)庫(kù)產(chǎn)品共有269款。關(guān)系型數(shù)據(jù)庫(kù)172個(gè),非關(guān)系型數(shù)據(jù)庫(kù)有97個(gè),占比分別為63.9%和36.1%。非關(guān)系型數(shù)據(jù)庫(kù)中,圖數(shù)據(jù)庫(kù)27個(gè)、時(shí)序數(shù)據(jù)庫(kù)27個(gè)、鍵值數(shù)據(jù)庫(kù)13個(gè),在非關(guān)系型數(shù)據(jù)庫(kù)中依次占比27.8%、27.8%和13.4%。0國(guó)英瑞典俄羅斯瑞士法國(guó)韓國(guó)日本愛(ài)爾西班牙澳大利亞保加利亞巴西2加拿大2意大利以色列愛(ài)沙尼亞0捷克芬蘭0挪成克羅地亞0斯洛文尼亞020206印度6新加坡土耳其比利波蘭圖12全球數(shù)據(jù)庫(kù)產(chǎn)品商用開(kāi)源對(duì)比分別為50.0%和50.0%,全球大部分國(guó)家開(kāi)源與商業(yè)數(shù)據(jù)庫(kù)數(shù)量也基圖13全球開(kāi)源數(shù)據(jù)庫(kù)開(kāi)源時(shí)間全球開(kāi)源數(shù)據(jù)庫(kù)興起于20世紀(jì)90年代。自90年代開(kāi)源數(shù)據(jù)庫(kù)不斷推出,2001-2015年,每隔5年,產(chǎn)品數(shù)量均呈2-3倍增長(zhǎng)。開(kāi)源數(shù)據(jù)庫(kù)于2006年后迅速發(fā)展,其中在2011-2020年進(jìn)入發(fā)展高峰期,大量開(kāi)源數(shù)據(jù)庫(kù)產(chǎn)品不斷推出。這十年間,一共出現(xiàn)了171個(gè)圖14我國(guó)開(kāi)源數(shù)據(jù)庫(kù)開(kāi)源時(shí)間我國(guó)開(kāi)源數(shù)據(jù)庫(kù)產(chǎn)品始于2010年后,2019和2022年開(kāi)源產(chǎn)品的高峰。2019年至今,一共新增22款開(kāi)源數(shù)據(jù)庫(kù)產(chǎn)品,占比50.0%,近7成產(chǎn)品采用Apache許可證2.0版。但相較于國(guó)際開(kāi)源數(shù)據(jù)庫(kù)比(三)數(shù)據(jù)庫(kù)服務(wù)發(fā)展趨勢(shì)1.數(shù)據(jù)庫(kù)更換:數(shù)據(jù)庫(kù)應(yīng)用遷移工具平臺(tái)輔助組織降本增效2.數(shù)據(jù)庫(kù)納管:全棧平臺(tái)助力多源多云異構(gòu)數(shù)據(jù)庫(kù)智能管理3.數(shù)據(jù)庫(kù)優(yōu)化:開(kāi)發(fā)運(yùn)維一體的SQL質(zhì)量管控保障應(yīng)用DevOps(開(kāi)發(fā)運(yùn)維一體化)是一種重視軟件開(kāi)發(fā)人員(Dev)(四)數(shù)據(jù)庫(kù)支撐體系■非關(guān)系型■關(guān)系型■其他圖152021-2023年VLDB、ICDE和SIGMOD論文分布情況2023年,各領(lǐng)域論文總數(shù)(非關(guān)系型、關(guān)系型、其他)分別為141、92和641篇,關(guān)系型和非關(guān)系型數(shù)據(jù)庫(kù)論文分別占三年論文總數(shù)量的16.17%和10.55%。SIGMOD各領(lǐng)域論文總數(shù)分別為101、58和455篇,非關(guān)系型數(shù)據(jù)庫(kù)論文總數(shù)占16.45%,關(guān)系型數(shù)據(jù)庫(kù)論文總數(shù)占9.45%。ICDE各領(lǐng)域論文總數(shù)分別為83、62和628篇,非關(guān)系別為10.74%和8.02%,非關(guān)系型數(shù)據(jù)庫(kù)占比略微超過(guò)關(guān)系型數(shù)據(jù)庫(kù),X 真實(shí)世界數(shù)據(jù)集亨列知識(shí)圖譜子分?jǐn)?shù)據(jù)庫(kù)據(jù)庫(kù)聯(lián)邦式算法時(shí)間序列分析聯(lián)邦式算法時(shí)間序列分析塊鉍時(shí)間序列數(shù)據(jù)后來(lái)源:CCSATC601,2024年6月圖162023年VLDB、ICDE和SIGMOD論文關(guān)鍵詞云圖65.43%SIGMODVLDBICDE20212022中國(guó)高校及企業(yè)貢獻(xiàn)論文數(shù)占比……線性(中國(guó)高校及企業(yè)貢獻(xiàn)論文數(shù)占比)圖172021-2023年中國(guó)高校及企業(yè)學(xué)術(shù)會(huì)議論文貢獻(xiàn)情況65.36%,三大會(huì)議每年貢獻(xiàn)占比平均為27.17%、40.70%和46.35%,2.標(biāo)準(zhǔn)方面,我國(guó)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)體系日益完善助力產(chǎn)業(yè)高質(zhì)量發(fā)展2021年10月10日,國(guó)務(wù)院印發(fā)《國(guó)家標(biāo)準(zhǔn)化發(fā)展綱要》(以實(shí)2024上半年新增5個(gè)標(biāo)準(zhǔn)(上述圖中標(biāo)紅顯示)圖18CCSATC601數(shù)據(jù)庫(kù)領(lǐng)域標(biāo)準(zhǔn)化工作體系作組(WG4)。自2015年起共推出35項(xiàng)標(biāo)準(zhǔn),逐步構(gòu)建以數(shù)據(jù)庫(kù)維管理團(tuán)隊(duì),推出《數(shù)據(jù)庫(kù)運(yùn)維管理能力成熟度模型》,打造了中二、數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)發(fā)展趨勢(shì)展(云計(jì)算與數(shù)據(jù)庫(kù)協(xié)同發(fā)展、圖技術(shù)洞悉數(shù)據(jù)關(guān)聯(lián)價(jià)值、湖倉(cāng)一體提升數(shù)據(jù)處理性能),2)新興技術(shù)逐步應(yīng)用落地(向量數(shù)據(jù)庫(kù)高護(hù)航敏感數(shù)據(jù)、時(shí)空數(shù)據(jù)庫(kù)繪制空天信息新藍(lán)圖),3)人工智能與(一)技術(shù)融合創(chuàng)新發(fā)展1.云計(jì)算與數(shù)據(jù)庫(kù)協(xié)同發(fā)展移到云上雖然也具有擴(kuò)展性,但并不能認(rèn)為是“云原生”,因?yàn)槠渫瑫r(shí)沒(méi)有進(jìn)行相應(yīng)的優(yōu)化以達(dá)到最優(yōu)性能和成本?!霸圃鷶?shù)據(jù)庫(kù)”T圖19傳統(tǒng)部署模式與云原生部署模式對(duì)比圖情況進(jìn)行資源分配,利用智能優(yōu)化器持續(xù)降低性能開(kāi)銷。2.圖技術(shù)洞悉數(shù)據(jù)關(guān)聯(lián)價(jià)值容生成、圖聯(lián)邦學(xué)習(xí)和基于圖技術(shù)的檢索增強(qiáng)生成(Retrieval-來(lái)源:螞蟻科技集團(tuán)股份有限公司圖20傳統(tǒng)關(guān)系型數(shù)倉(cāng)與圖數(shù)倉(cāng)對(duì)比管理關(guān)系數(shù)倉(cāng)混和存儲(chǔ)冷熱存儲(chǔ)數(shù)據(jù)更新子圖擴(kuò)展卷癌點(diǎn)(頂點(diǎn))和連接這些節(jié)點(diǎn)的邊(關(guān)系)組成的圖的模型和算法。的討論和行動(dòng),圖查詢語(yǔ)言GQL(GraphQ年4月12日正式發(fā)布。GQL是由國(guó)際標(biāo)準(zhǔn)化組織(ISO)和國(guó)際電工委員會(huì)(IEC)共同制定的圖數(shù)據(jù)庫(kù)查詢語(yǔ)言標(biāo)準(zhǔn),正式編號(hào)為3.湖倉(cāng)一體提升數(shù)據(jù)處理性能 1《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2023年)》等問(wèn)題。隨著智能時(shí)代的到來(lái),能夠?qū)Υ笠?guī)模數(shù)據(jù)進(jìn)行高性能處理的湖倉(cāng)一體技術(shù)成為AI大模型不可或缺的數(shù)據(jù)基礎(chǔ)設(shè)施。一方面,湖倉(cāng)一體的設(shè)計(jì)為大模型提供了高性能數(shù)據(jù)處理底座,另一方面人當(dāng)前,在生成式大模型領(lǐng)域,模型規(guī)模呈指數(shù)型增長(zhǎng)趨勢(shì),對(duì)于模型訓(xùn)練而言,所需的數(shù)據(jù)集即使在清洗后也達(dá)到了TB級(jí)別,訓(xùn)練數(shù)據(jù)一般難以單機(jī)存放,需要使用數(shù)據(jù)湖來(lái)存儲(chǔ)各類結(jié)構(gòu)化(文本、類別標(biāo)簽等)以及非結(jié)構(gòu)化(圖片、音視頻等)數(shù)據(jù),以滿足大模型對(duì)大規(guī)模輸入數(shù)據(jù)的需求。同時(shí),多機(jī)多卡高并發(fā)的訓(xùn)練也具備高存儲(chǔ)密度、高性能計(jì)算、數(shù)據(jù)安全保障等特點(diǎn)。湖倉(cāng)一體通過(guò)將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖整合在一起,形成一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)和處理平臺(tái),可以支持多種數(shù)據(jù)源的接入、數(shù)據(jù)的存儲(chǔ)、處理和分析,企業(yè)提率工具客服工具零售客服,游戲NPC等垂直領(lǐng)域應(yīng)用行業(yè)分析,專利申請(qǐng)等多模數(shù)據(jù)存儲(chǔ)多模型服務(wù)平臺(tái)商業(yè)模型非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)ptao向量數(shù)據(jù)南數(shù)據(jù)智能服務(wù)數(shù)據(jù)平臺(tái)圖22一站式智能數(shù)據(jù)平臺(tái)架構(gòu)圖構(gòu)成為業(yè)界關(guān)注的重點(diǎn)。在海量數(shù)據(jù)存儲(chǔ)層,在數(shù)據(jù)平臺(tái)和數(shù)聊天歷史+新問(wèn)題聊天歷史+新問(wèn)題LIMAPI推理(總結(jié))Stepl;文檔解析對(duì)向量管理字段知識(shí)塊LLMAPI推理(求解)業(yè)業(yè)5識(shí)Step3:對(duì)知識(shí)塊進(jìn)行向量化轉(zhuǎn)換Step4;知識(shí)存入企業(yè)知識(shí)庫(kù)圖23大模型與湖倉(cāng)RAG應(yīng)用搭建(二)新興技術(shù)逐步應(yīng)用落地1.向量數(shù)據(jù)庫(kù)高效檢索非結(jié)構(gòu)化數(shù)據(jù)SH圖24向量數(shù)據(jù)庫(kù)結(jié)構(gòu)圖概念。二是比較查詢花費(fèi)較高,屬性謂詞(例如<,>,=和∈)通2.多模數(shù)據(jù)庫(kù)支撐多樣化需求PostgreSQL、SQLServer等,主流的原生多模數(shù)據(jù)庫(kù)產(chǎn)品包括多模態(tài)模型庫(kù)圖25Thalamus數(shù)據(jù)庫(kù)概述圖(上海)股份有限公司、北京九章云極科技有限公司等多家企業(yè)依1《DemonstrationofThalamusDB:Answering3.全密態(tài)數(shù)據(jù)庫(kù)護(hù)航敏感數(shù)據(jù)全密態(tài)數(shù)據(jù)庫(kù)的概念最早可追溯至2011年MIT提出CryptDB,TEE內(nèi)僅關(guān)注關(guān)鍵敏感數(shù)據(jù)的查詢操作,降低攻擊面;另一方面由查詢加密/執(zhí)行結(jié)果解密密碼模塊數(shù)據(jù)庫(kù)圖27全密態(tài)數(shù)據(jù)庫(kù)技術(shù)框架全密態(tài)數(shù)據(jù)庫(kù)技術(shù)理念拋開(kāi)了傳統(tǒng)的多點(diǎn)技術(shù)單點(diǎn)解決數(shù)據(jù)風(fēng)險(xiǎn)的問(wèn)題,通過(guò)系統(tǒng)化思維建立了一套能夠覆蓋數(shù)據(jù)全生命周期的安全保護(hù)機(jī)制。這套機(jī)制使得用戶在無(wú)感知的情況下就完成了數(shù)據(jù)的安全隱私保護(hù),對(duì)于攻擊者和管理者來(lái)說(shuō)都無(wú)法獲取有效信息。全密態(tài)數(shù)據(jù)庫(kù)是數(shù)據(jù)庫(kù)安全隱私保護(hù)的高級(jí)防御手段,但全密態(tài)數(shù)據(jù)庫(kù)在當(dāng)前仍存在一定的局限性,仍需要突破算法安全性和性能損耗等相關(guān)問(wèn)題。由于使用性能及成本較高,因此在實(shí)際應(yīng)用中,建議對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)后只針對(duì)敏感數(shù)據(jù)進(jìn)行使用,通過(guò)借助數(shù)據(jù)公司、螞蟻科技集團(tuán)股份有限公司、貝格邁思(深圳)科技有限公4.時(shí)空數(shù)據(jù)庫(kù)繪制空天信息新藍(lán)圖圖28時(shí)空數(shù)據(jù)庫(kù)支撐路徑規(guī)劃(三)人工智能與數(shù)據(jù)庫(kù)雙向賦能2024年2月,OpenAI發(fā)布了其創(chuàng)新型文生視頻模型Sora,大幅庫(kù)運(yùn)維管理人員可以利用機(jī)器學(xué)習(xí)模型優(yōu)化查詢并提高其準(zhǔn)確性,時(shí)序向量庫(kù)秒級(jí)采集系統(tǒng)資源數(shù)據(jù)庫(kù)實(shí)信息例信息數(shù)據(jù)庫(kù)監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)安全規(guī)則引擎自治服務(wù)數(shù)據(jù)計(jì)算層數(shù)據(jù)采集層數(shù)據(jù)庫(kù)全量SQL流水診斷和調(diào)優(yōu)來(lái)源:華為技術(shù)有限公司圖29GaussDB統(tǒng)一管控運(yùn)維平臺(tái)智能運(yùn)維中心自然語(yǔ)言處理自然語(yǔ)言處理文本輸入與預(yù)處理SQL語(yǔ)句直接生成SQL執(zhí)行SQL語(yǔ)句發(fā)送交互式生成與優(yōu)化數(shù)據(jù)庫(kù)模式匹配結(jié)合數(shù)據(jù)庫(kù)模式(如結(jié)果展示與反饋果圖30完整的Text2SQL系統(tǒng)SQL目前應(yīng)用更廣泛,但NLQuery-模、查詢優(yōu)化、模型訓(xùn)練等層面將會(huì)進(jìn)一步地進(jìn)行系統(tǒng)性創(chuàng)新。此外,一些企業(yè)也創(chuàng)造性地設(shè)計(jì)了SQL+GQL融合語(yǔ)法,增加了TexttoGQL能力,實(shí)現(xiàn)了“與圖對(duì)話(Chat-to-Graph)”,使得用戶能2023年6月,螞蟻集團(tuán)發(fā)布了數(shù)據(jù)庫(kù)領(lǐng)域的大模型框架DB-GPT。DB-GPT通過(guò)融合先進(jìn)的大模型和數(shù)據(jù)庫(kù)技術(shù),能夠系統(tǒng)化打造企業(yè)級(jí)智能知識(shí)庫(kù)、自動(dòng)生成商業(yè)智能(BI)報(bào)告分析系統(tǒng)(GBI),以及處理日常數(shù)據(jù)和報(bào)表生成等多元化應(yīng)用場(chǎng)景。DB-GPT是一個(gè)開(kāi)源框架,專為數(shù)據(jù)庫(kù)領(lǐng)域的大型語(yǔ)言模型(LLM)領(lǐng)域而設(shè)計(jì)。其主要目的是提供基礎(chǔ)架構(gòu),以簡(jiǎn)化數(shù)據(jù)庫(kù)相關(guān)應(yīng)用程序的開(kāi)發(fā)。DB-GPT支持本地部署,可以安全地與私有數(shù)據(jù)庫(kù)進(jìn)行交互,并且
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 住宅綠化養(yǎng)護(hù)合同
- 《榜樣9》觀后感:新時(shí)代共產(chǎn)黨人的精神力量
- 電影評(píng)論中背景設(shè)定的藝術(shù)分析
- 2024高中地理第2章區(qū)域可持續(xù)發(fā)展第6節(jié)區(qū)域工業(yè)化與城市化進(jìn)程-以珠江三角洲為例精練含解析湘教版必修3
- 2024高中物理第三章相互作用2彈力課后作業(yè)含解析新人教版必修1
- 2024高中語(yǔ)文第6單元墨子蚜第3課尚賢練習(xí)含解析新人教版選修先秦諸子蚜
- 2024高中語(yǔ)文第六課語(yǔ)言的藝術(shù)第4節(jié)入鄉(xiāng)問(wèn)俗-語(yǔ)言和文化練習(xí)含解析新人教版選修語(yǔ)言文字應(yīng)用
- 2024高考化學(xué)一輪復(fù)習(xí)課練22化學(xué)反應(yīng)的方向與限度含解析
- 校長(zhǎng)在新學(xué)期第一次年級(jí)組長(zhǎng)會(huì)議上講話
- 小學(xué)一年級(jí)綜合與實(shí)踐教學(xué)計(jì)劃
- 榮譽(yù)證書(shū)打印模板word格式
- 營(yíng)養(yǎng)學(xué)與健康
- 單位工會(huì)組織活動(dòng)方案(9篇)
- 人教版五年級(jí)數(shù)學(xué)下冊(cè)(全冊(cè))同步練習(xí)隨堂練習(xí)一課一練
- GB/T 29165.4-2015石油天然氣工業(yè)玻璃纖維增強(qiáng)塑料管第4部分:裝配、安裝與運(yùn)行
- 血液凈化十大安全目標(biāo)課件
- 鼻竇負(fù)壓置換療課件
- 國(guó)際森林日森林防火教育宣傳主題班會(huì)PPT模板
- 藥廠質(zhì)量管理部QA人員崗位設(shè)置表
- 劍橋國(guó)際少兒英語(yǔ)“第三級(jí)”單詞默寫(xiě)表
- (精心整理)高中生物必修二非選擇題專題訓(xùn)練
評(píng)論
0/150
提交評(píng)論