![數(shù)據(jù)中臺標準方案_第1頁](http://file4.renrendoc.com/view/ea0505b39cd36b0fd71dd1a0692dffb3/ea0505b39cd36b0fd71dd1a0692dffb31.gif)
![數(shù)據(jù)中臺標準方案_第2頁](http://file4.renrendoc.com/view/ea0505b39cd36b0fd71dd1a0692dffb3/ea0505b39cd36b0fd71dd1a0692dffb32.gif)
![數(shù)據(jù)中臺標準方案_第3頁](http://file4.renrendoc.com/view/ea0505b39cd36b0fd71dd1a0692dffb3/ea0505b39cd36b0fd71dd1a0692dffb33.gif)
![數(shù)據(jù)中臺標準方案_第4頁](http://file4.renrendoc.com/view/ea0505b39cd36b0fd71dd1a0692dffb3/ea0505b39cd36b0fd71dd1a0692dffb34.gif)
![數(shù)據(jù)中臺標準方案_第5頁](http://file4.renrendoc.com/view/ea0505b39cd36b0fd71dd1a0692dffb3/ea0505b39cd36b0fd71dd1a0692dffb35.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)中臺標準方案數(shù)據(jù)中臺標準技術方案2021年1月9日故(中方案目錄 TOC o 1-5 h z HYPERLINK l bookmark2 o Current Document 數(shù)據(jù)中臺概述 6 HYPERLINK l bookmark4 o Current Document 數(shù)據(jù)中介介紹 6 HYPERLINK l bookmark20 o Current Document 數(shù)據(jù)中臺的價值7 HYPERLINK l bookmark6 o Current Document 數(shù)據(jù)中臺設計蟆則 8 HYPERLINK l bookmark8 o Current Document 據(jù)的一致性與標
2、準性 8 HYPERLINK l bookmark10 o Current Document 數(shù)據(jù)的實用性與服務性 8 HYPERLINK l bookmark12 o Current Document 數(shù)據(jù)的獨立性與可擴展性8 HYPERLINK l bookmark14 o Current Document 數(shù)據(jù)安仝性- 8 HYPERLINK l bookmark16 o Current Document 數(shù)據(jù)分級管理機制 9 HYPERLINK l bookmark18 o Current Document 數(shù)據(jù)中臺設計方法 9里j面向朦務的架構方法(SOA)9業(yè)務系統(tǒng)規(guī)劃法(BSP)
3、 9 HYPERLINK l bookmark26 o Current Document 系統(tǒng)1.程理論 II HYPERLINK l bookmark22 o Current Document 數(shù)據(jù)中臺核心功能 12 HYPERLINK l bookmark24 o Current Document 技術架構 -12層次架構 13邏輯架構214故中臺“器方案 TOC o 1-5 h z 可視化建模技術 90NLP語義分析技術 91知識圖謂技術 92數(shù)據(jù)交換共享技術指標 93應用系統(tǒng)技術指標 93數(shù)據(jù)加工分析技術指標 932.1.3 數(shù)據(jù)架構 -15 HYPERLINK l bookmark3
4、2 o Current Document 數(shù)據(jù)統(tǒng)一采集接入平臺 16平臺架構 16數(shù)據(jù)流程17平臺功能 17 HYPERLINK l bookmark42 o Current Document 數(shù)據(jù)集中處理平臺 29平臺架構 29數(shù)據(jù)i此程 30平臺功能 30 HYPERLINK l bookmark50 o Current Document 數(shù)據(jù)組織管理平臺 48平臺架構48數(shù)據(jù)流程 49平臺功能 50數(shù)據(jù)全域治理平臺 56平臺架構 56數(shù)據(jù)流程-57平臺功能 57數(shù)據(jù)質置管理平臺 62 3 ft M 93 4(故*(中臺杵器方案 TOC o 1-5 h z 數(shù)據(jù)標準管理 62數(shù)據(jù)生命周期管
5、理 63據(jù)質疑管理 65數(shù)據(jù)運維管理 65數(shù)據(jù)共享服務平臺 66平臺架構 66數(shù)據(jù)流程 67平臺功能 67數(shù)據(jù)可視化平臺 76平臺架構 76數(shù)據(jù)流程77平臺功能 773主要關罐技術 85內存級數(shù)據(jù)交換共享 -85一站式數(shù)據(jù)集成和數(shù)據(jù)管理 86數(shù)據(jù)分析模型 87數(shù)據(jù)治理技術 87數(shù)據(jù)挖搦技術891數(shù)據(jù)中臺概述1.1數(shù)據(jù)中臺介紹因為在當今H聯(lián)M時代,用戶才是商業(yè)械場的中心.為快遞響 應用戶的需求,借助平臺化的力量可以力半功倍.然而第一之前在傳 統(tǒng)企業(yè)信息化建設中企業(yè)為了滿足單業(yè)務場景需求而搭建的傳統(tǒng) 技術架構,式底憶技術通型大都無法支序現(xiàn)仃大數(shù)據(jù)應用場景。由此 形成的技術壁修,往往使得企業(yè)轉型成本
6、激增H至無法實現(xiàn)轉型:第 二在企業(yè)不斷發(fā)展的過程中伴隨著業(yè)務的多元化發(fā)展,企業(yè)俏息部門 單獨建設或巾建全新業(yè)務系統(tǒng),逐漸杉成了 個個相互獨立的數(shù)據(jù)中 心,從而導致大致系統(tǒng)、功健和應用的重夏建地,更埴成計算存儲 資源和人力資源的浪費:第三企業(yè)由于業(yè)務發(fā)展帶來的組演壁:而形 成的數(shù)據(jù)孤島,是數(shù)據(jù)喂壘址典型的場景.它使田企業(yè)數(shù)據(jù)難以被全 局規(guī)劃和定義.從而導致數(shù)據(jù)價位無法被充分挖掘.傳統(tǒng)信息化建設 往往以滿足業(yè)務流程結果做為唯一標準,忽視f過程數(shù)據(jù)和關聯(lián)數(shù) 據(jù)。傳統(tǒng)的數(shù)據(jù)平臺和其所謂的三層技術架構:前端原示層、中間邏 機展、后端數(shù)據(jù)層,已經(jīng)無法完善的解決上述三個同脖并實現(xiàn)以用戶 為中心的業(yè)務提升的.
7、當前企業(yè)數(shù)據(jù)的爆炸式增長以及價值的擴大化.數(shù)據(jù)將對企業(yè)未 來的發(fā)展產(chǎn)生深遠的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn).數(shù)據(jù)中臺是 指通過數(shù)據(jù)技術,對海破數(shù)據(jù)進行采奴、計算、存儲、加工,同時統(tǒng) 一標準和口徑.數(shù)據(jù)中臺設計原則數(shù)據(jù)的一致性與標準性除遵循數(shù)據(jù)庫設計的軟件行業(yè)標準外,還要遵循國家、地方標準 及行業(yè)的習慣性獷實標準.此外,數(shù)據(jù)中臺的建設中將充分考慮客戶 已建系統(tǒng)的數(shù)據(jù),確保,客戶現(xiàn)tr數(shù)據(jù)的一致性和標準性.數(shù)據(jù)的實用性與服務性數(shù)據(jù)中臺設計充分考慮實際情況和應用特點,遵循“服務性與實 用性并重”的原則.通過數(shù)據(jù)整合與治理,數(shù)據(jù)高度可共享、和可根 據(jù)實際需求不斷靈活組合,為業(yè)務應用服務,數(shù)據(jù)偵玳高,保
8、證數(shù)據(jù) 的實用性.數(shù)據(jù)的獨立性與可擴展性設計時需要做到數(shù)據(jù)中臺的數(shù)據(jù)JI行獨立性,獨W應用程序. 使數(shù)據(jù)中心的設計及結構的變化不影響程序.反之亦然.另外,數(shù)據(jù) 輝設計要考慮其擴展性能,使得系統(tǒng)增加新應用或新需求時不至廣 引盡整個數(shù)據(jù)中心結構的大變動.數(shù)據(jù)安全性通過設計合理和rr效的備份和恢狂策略.確保數(shù)據(jù)中心遭遇突發(fā) 事故時,能在短的時間內恢復.同時,通過做好對數(shù)據(jù)中船的訪問 授權設計,保證數(shù)據(jù)不被乖法訪問.故我中有杵41方案敷據(jù)分級管理機制根據(jù)用戶訪問數(shù)據(jù)中臺的角色,將用戶分成決策分析用戶、系統(tǒng) 竹理用戶、運行瀏覽用戶和運行調度用戶等幾個角色,分別賦f角色 訪問數(shù)據(jù)的權限和使用系統(tǒng)功能的權取
9、,嚴格控制角色登,七實現(xiàn)數(shù) 據(jù)的分級管理.數(shù)據(jù)中臺設計方法基于面向服務的架構方法(SOA)基:面向眼務的架構方法(Scrvicc-OnentcdArchiicctuns SOA) 采用屈于面向服務的架構方法,構建智慈城市運營中心的業(yè)務流程和 IT架構.SOA (面向服務的體系結構)將政府中各個系統(tǒng)應用程序 的不同功能單元抽象為眼務,地過這些腰務之間定義R好的接口利燼 約聯(lián)系起來.接口昆采用中立的方式進行定義的.它獨迎實現(xiàn)服務 的硬件平臺、操作系統(tǒng)和編程語言.這使得構建在各種各樣的系統(tǒng)中 的服務能弊通過統(tǒng)一和通用的方式進行交互.SOA架構由服務總稅、 服務目錄、門戶、流程管理等幾個核心組件構成的
10、.這些核心組件協(xié) 同I:作共同支撐服務的部*、運行與管理監(jiān)控。業(yè)務系統(tǒng)規(guī)劃法(BSP)業(yè)務系統(tǒng)規(guī)劃法( BusinessSystemPlanning. BSP)的關鍵思想是 將業(yè)務的長期戰(zhàn)略H標轉化為信息系統(tǒng)的戰(zhàn)略目標.通過對業(yè)務戰(zhàn)略 的分析導出信息系統(tǒng)的規(guī)劃. 9 JI M 93 4(數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)之后,會形成標準數(shù)據(jù),再進行存儲,形成 大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務.這些服務跟企業(yè)的業(yè)務“ 依強的關聯(lián)性是這個企業(yè)獨自的ti能及用的它是企業(yè)業(yè)務和數(shù)據(jù) 的沉淀,共不僅能降低垂攵建設、M少煙囪式協(xié)作的成本.也是星兄 化比爭優(yōu)勢所在.1.2數(shù)據(jù)中臺的價值中臺從公“J戰(zhàn)略角度.將返些行為進行
11、現(xiàn)他化,公共的部分文 給公共系統(tǒng)部門去做.中介實際上足通用業(yè)務的下沉.企業(yè)在一個行業(yè)耕阮多年之后, 一殷都會形成一些公用的業(yè)務而這些業(yè)務是可以像中間件那樣進行 下沉共享的.政府企業(yè)機構等對內對外有了統(tǒng)一的業(yè)務系統(tǒng)、管理平行等等. 就不公再仃各種業(yè)務系統(tǒng)孤島,不公仃數(shù)據(jù)打通問題,不公有的部門 的數(shù)據(jù)堵.行了統(tǒng)一的中臺,也就行了統(tǒng)一的數(shù)據(jù)規(guī)范.對于大數(shù)據(jù)相關的霸求,可以從相對用的數(shù)據(jù)出口進行業(yè)務迭 代,不需要為每一個部門進行定制開發(fā).浪費人力.2數(shù)據(jù)中臺核心功能2.1技術架構H闌各政病機構和企業(yè)的信息化于臺數(shù)據(jù)技結構類型主要分為 三種,分別是,給構化數(shù)據(jù).本練構化數(shù)據(jù).半培構化數(shù)據(jù)二大類, 結構化
12、數(shù)據(jù)存儲在關系型數(shù)據(jù)庫中;養(yǎng)結構化數(shù)據(jù)上要包括各視頻. 圖片、文檔等,通過分布式文件系統(tǒng)在數(shù)據(jù)庫進行統(tǒng)一管理:半結構 化數(shù)據(jù)是結構化數(shù)據(jù)的一種形式,但它并不符合關系型數(shù)據(jù)庫或其他 數(shù)據(jù)表的形式關聯(lián)起來的數(shù)據(jù)模型結構,但包含相關標記,用來分隔 語義元素以及對記錄和字段進行分層,例如:日志文件.XML文檔、JSON文檔、Email等.建設數(shù)據(jù)中臺的過程中.這三類數(shù)據(jù)都會做為數(shù)據(jù)源出現(xiàn).因此數(shù)據(jù)中臺嚶能夠妥善的處理這三種類型的數(shù)據(jù). I2 ft X 9) *散中ft布方案業(yè)務系統(tǒng)規(guī)劃法(BSP)采用的基本方法是“白頂面仁 的識別業(yè)務目標、企業(yè)過程和數(shù)據(jù)“自下而上”地分布設計系統(tǒng),這樣可以第決大型系統(tǒng)
13、難以一次性設計完成的困難,也可以避免口 F而匕分散 設計可他出現(xiàn)的數(shù)據(jù)不一致.業(yè)務系統(tǒng)規(guī)劃法(BSP)的規(guī)劃步驟;(I)準名 I:作:(2)調研:(3)定義業(yè)務過程:(4)業(yè)務過程正組:(5)定義數(shù)據(jù)類:(6)定義信息系統(tǒng)總體結構:(7)確定總體結構中的優(yōu)先順序;完成BSP研成報告,提出建議書和開發(fā)計劃.% 10 ft X 93 ft故K中f?林相案1.4.3系統(tǒng)工程理論系統(tǒng)工程方法將相關問噩及情況分門別類,跳定邊界,他重各門 類之間內在聯(lián)系,確保處理方法的完整性.采用全面和運動的觀點、 方法分析在要問題及整個過程.其人行綜合性、科學性、實踐性的特 點.利用系統(tǒng)工程理論指杼軟件開發(fā)和維護.I:
14、變使用工程化慨念、 原理、技術及方法開展軟件開發(fā)、維護的工作.栗用系統(tǒng)匚程方法是 用系統(tǒng)的原理、方法研究系統(tǒng)的對象,立足整體系統(tǒng),制作出科學的 匚作計劃及流程,仃效的完成任務系統(tǒng)工程方法依從系統(tǒng)全局觀點,從系統(tǒng)。要素、系統(tǒng)與環(huán)境之 間相互聯(lián)系、相互作用出發(fā)研究相關對象,實現(xiàn)最佳處理何超的目標。 其基小內容有:全曲調ft研允有關貨料和數(shù)據(jù),提取有效信息,系統(tǒng) 了解相關問題信息,進一步確定完成任務所需條件,提出相關方案. 展開定件和定麻的理論分析.進而進行實發(fā)研究,客劇評價系統(tǒng)技術 性能、經(jīng)濟指標,注中一社會效果,為最終方案在理論和實踐上做鋪塔: 經(jīng)由系統(tǒng)分析與統(tǒng)合,比校和鑒別出最優(yōu)系統(tǒng)設計方案進
15、行實施:依 據(jù)系統(tǒng)設計方案,指定仃放計劃,將開發(fā)研究出的系統(tǒng)投入使用,并 對系統(tǒng)的性能、L作狀態(tài)及社會反應做出相關評價和檢驗.系統(tǒng)L程 方法在計算機軟件方制應用廣泛,同時起著用要作用.結合系統(tǒng)L程 方法的特點,在計完機軟件設計階段可規(guī)范其流程,促使計尊機軟件 設計進程加快,同時提高開發(fā)人員的工作效率.為軟件系統(tǒng)研發(fā)速度 的提高打卜基礎.% II ft X 93 ft數(shù)字中臺數(shù)據(jù)資源多樣性的特點和能夠高效支持業(yè)務的H 標,結合設計規(guī)劃方法論、原則和規(guī)劃思路,統(tǒng)一數(shù)據(jù)資源體系規(guī)劃 建設大故據(jù)采集忠知體系、數(shù)據(jù)費源融合體系和信息共享服務體系. 將數(shù)據(jù)安全和數(shù)據(jù)標漱融入大體系之中通過招能演進不斷極開教
16、 據(jù)接入、處理、組織、挖掘、治理和服務的能力,不斷豐宮和完善數(shù) 據(jù)中臺.數(shù)據(jù)中臺主要包函:數(shù)據(jù)統(tǒng)一栗更接入平臺、數(shù)據(jù)嫗中處理平臺、 數(shù)據(jù)組織管理平臺、數(shù)據(jù)組織管理平臺、數(shù)據(jù)全域治理平臺、數(shù)據(jù)融 合共享平臺、故據(jù)分析挖掘平臺、知識圖諦平臺、統(tǒng)一管理平臺、數(shù) 據(jù)可視化平臺等多個平行系統(tǒng).層次架梅基于數(shù)據(jù)資源的需求分析和愿景II標,結合設計規(guī)劃方法論、原 則和規(guī)劃思路.統(tǒng)一數(shù)據(jù)表源體系規(guī)劃建設人數(shù)據(jù)采集感知體系、數(shù) 據(jù)資源瞅合體系和信息共享服務體系,將數(shù)據(jù)安全和(據(jù)標準融入三 大體系之中,通過智能演進不斷提升數(shù)據(jù)接入、處理、組縱、挖掘、 治理和服務的能力不斷E富和完善數(shù)據(jù)中臺.收據(jù)資源總體架構圖 如
17、F所示:數(shù)提處理ZEE 1 3T! !I EE 2I , I1亡W1故修中有存器方案分壓、分流(狂雜類型)等多種方式,調度箕點能夠根據(jù)每個執(zhí)行N 點任務執(zhí)行情況,自動調配任務負我,能夠將新增的傳輸任務或壓力 較大執(zhí)行節(jié)點的傳制任務,調而到相對較堂閑的執(zhí)行節(jié)點.調度節(jié)點 能弊自動檢測執(zhí)行節(jié)點出現(xiàn)的問題并做門動處理,能夠感知新增的執(zhí) 行行點并自動添加到分布式執(zhí)行打點朱群調度節(jié)點要J1備高可用能 力.數(shù)據(jù)處理中使用到的完整的任務調度引維.篇要支持監(jiān)控調度引 擎中每個調度任務的運行狀態(tài),如:當前是否運行:最近一次運行的 時間、運行結果、是否出現(xiàn)異常等.策略配置管理針對結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化
18、數(shù)據(jù)的不同類型特點. 配況管理中心支持按照提取、淅洗、過渡、比對、關聯(lián)、標識等數(shù)據(jù) 處理過程,提供一體化、可融合的數(shù)據(jù)適配解析器器合數(shù)據(jù)轉換功能, 實現(xiàn)根據(jù)數(shù)據(jù)類型臺數(shù)據(jù)情況的白玷附數(shù)據(jù)解析和流程化處理.支抒任意種類、任意數(shù)據(jù)結構.任意H標際的數(shù)據(jù)提取傳輸.這 次kafla、wcbscrvice等消息處理機制,支持流式和熟戊處理。支持任意類型的數(shù)據(jù)融合任務配置,在保證數(shù)據(jù)安全的基礎上. 根據(jù)傳輸策略,進行數(shù)據(jù)傳輸和存儲.支持過渡、融合規(guī)則門定義,主要包括代碼映射、NULL俏杵換、 字符中操作、字符印件換、字符串極取、添加字段、數(shù)據(jù)類型轉換、 公式”眸、正則處理、組合字段、身份證操作、獲取圖片、
19、數(shù)據(jù)比對、% 41 ft X 93 91支持按年、月、周、日、小時、分鐘、秒定時調度,可選指定有 效時間內調度.增收情況卜支持實時調度,數(shù)據(jù)近秒級同步.提供小件觸發(fā)調度功能.包括文件就緒觸發(fā)、變化日志觸發(fā)、 HTTP等接口或URL謂發(fā)事件觸發(fā),支持操作系統(tǒng)shell腳本.和數(shù) 據(jù)庫系統(tǒng)的shell命令和SQL版本調度功能.提供調度任務的實時可視化監(jiān)控,包括交換皆點的操作系統(tǒng)主要 性能指標的圖標、曲線,支持監(jiān)控數(shù)據(jù)接口開發(fā).提供流程調度組建,包括采樣分流組建和任務編揖組件.實現(xiàn)多 任務的并行、串行、混合調度功能.采樣分流一是實現(xiàn)數(shù)據(jù)的采樣, 例:IOOW數(shù)據(jù),按照10%的比例進行采樣:.及實現(xiàn)根
20、據(jù)數(shù)據(jù)的條 件進行列斷后對數(shù)據(jù)進行分流.例如性別為男的到某個座,性別為女 的到另個庫,實現(xiàn)數(shù)據(jù)判斷分流。任務編排用實現(xiàn)當A方案執(zhí) 行完畢后,需要馬上啟動B方案的執(zhí)行.此插件配置住A方案的末 尾,用戶指定需要調度的方案.控制管理上要面向執(zhí)行節(jié)點合調度節(jié)點,執(zhí)行節(jié)點上饕承擔數(shù)據(jù) 傳諭任務的部抖運行智能,各鬣制好的數(shù)據(jù)傳埔任務采用數(shù)據(jù)庫方式 存儲能第在不同執(zhí)行節(jié)點上按需選用單機、集群或分布式模式執(zhí)行. 調度節(jié)點是執(zhí)行所有數(shù)據(jù)傳輸任務的統(tǒng)入門.錄用“雙活模式部 署運行,當個調度節(jié)點出現(xiàn)被障時,另個調度節(jié)點能夠自動接管 正在執(zhí)行的數(shù)據(jù)傳輸任務并實現(xiàn)斷點續(xù)傳,保障任務執(zhí)行杼定性,確 保調度節(jié)點可搐運行.數(shù)
21、據(jù)傳輸任務調度方式按需選擇.支持順序, 按需(常規(guī)類型)、% 40 ft X 9) 91教(中仃杵41方案另外,這類數(shù)據(jù)的查詢并不是直接針對圖片和視頻本身的查徹,而是 根據(jù)圖片或視領(如果有)文件的路徑進行定位.數(shù)據(jù)橫型建設整個模型I:程的架構主要由算子管理、模型建模、模型管理和模 型引繁四部分加成.用戶可以通過多種建模方式創(chuàng)建理昧準的模型,部署到模型運 仃用浜匕刖配寅模型參數(shù),模型達什引維會對怏R達仃的合法性進行 驗證,包括是否符合標準,數(shù)據(jù)資源是否有訪問權限,算法參數(shù)是否 令法,模型編播是否合理等.模型通過驗證之后,公上傳到測試平臺 上面,通過數(shù)據(jù)采樣、構建測試桀等多種方式檢洪模型執(zhí)行的準
22、確性. 模型測試成功之后,進行模型上線部署.通過申講計算資源,將模型 實例化成任務運行.傳統(tǒng)建模的數(shù)據(jù)來源和模型的使用殷在同數(shù)據(jù)庫當中.人數(shù) 據(jù)環(huán)境卜因為數(shù)據(jù)采集類里的鄉(xiāng)樣性和數(shù)據(jù)i t %的多樣性使得來源 和使用分散在不同的計算存儲資源節(jié)中一個模型的運行可能需要涉 及到圖計算、齒紋計算、B維分析等&種方式的計算,因此模型需要 能在多個存儲和計算資源當中自由流轉.模型適配行要走解袂r這種需要跨存儲、跨計算資源的統(tǒng)一運 行.通過對模型的輸入、輸出、算子進行識別,格需要設計到的數(shù)據(jù) 輸入、輸出資源調度到對應的數(shù)據(jù)接口服務中,通過統(tǒng)一的數(shù)據(jù)接口 服務,降低r慢型運行的發(fā)雜度.% 44 ft X 93
23、 91故(中行”布方案通過將齊子調度到合適的數(shù)據(jù)接I服務上面執(zhí)行,每個算廣的運 行都會對應到一個計算框架Eiti,通過解析算子的執(zhí)行順序以及依賴 關系,整個模咆的運行過程會形成一幅有向無環(huán)圖,形成仃向無環(huán)圖 的過程中也公根據(jù)算子之間的依賴關系形成加綏,當某個算產(chǎn)計算錯 誤的時候,只需要眼據(jù)曲緣重新計算相關的操作而不必回滾整個模 型。知火圖譜建設將各類數(shù)據(jù),匯總融合成為人、小、地、物、絹織等多類實體, 根據(jù)其中的屬性聯(lián)系、時空聯(lián)系、語義聯(lián)系、特征聯(lián)系等.建立相互 關系.最終形成一張由人界地物組織構成的關系大網(wǎng).關系網(wǎng)根據(jù)數(shù) 據(jù)的接入可自動更新,有效解決大數(shù)據(jù)時代數(shù)據(jù)分收、割裂以及難以 統(tǒng)一處理的
24、問鹿,為系統(tǒng)提供多維度、可點詢、可分析、可研判的數(shù) 據(jù)系統(tǒng)。根據(jù)展示、分析衢要,可以通過鼠形層次料、閥形層次例、關系 河洛圖.柱狀圖.時序圖等主流常規(guī)的統(tǒng)計分析圖形來組織和展示數(shù) 據(jù),方便用戶更方便、更1*(觀、更深入、更全面的獲取信息,及時應 用到綜合研判作戰(zhàn)系統(tǒng)中去,為實際作故提供仃效支撐.大規(guī)模知識庫的構建與應用衙要多智能信息處理技術的支持.通 過知識抽取技術,可以從一些公開的步結構化、排結構化的數(shù)據(jù)中提 取出實體、關系、屬性等知識要索.通過知識融合.可以消除實體、 關系、屬性等畫像與界實對象之間的歧義,形成島版性的知像庫.知 45 ft X 93 1I!(K中仃”布方案支持結構化數(shù)據(jù)和
25、半結構化數(shù)據(jù)(JSON/BSON. XML形式存 儲)由于越來越多的應用在考慮對結構化數(shù)據(jù)為增刪改置操作和半 結構化故據(jù)做管詢.依靠和分析,對這些數(shù)據(jù)存儲的支持能簡化附用 程序的開發(fā)上作同時優(yōu)化使得對這類數(shù)據(jù)的操作性能更棒文本格式支持可支持Text File、XML和JSON等文本.可將上述的文件寫入 到數(shù)據(jù)庫的文件系統(tǒng)中.由于上述文本格式除了會占用更多破世貨源 外,對它的睇析開銷般會比二進制格式高幾卜偉以上,尤其是XML 和JSON,它們的第析開銷比TexiFile還要大.可將上述文件格式進 行東縮后入庫,大幅M少阻盤空間的占用率.文木數(shù)據(jù)入座后,可通過餞一的SQL語句時數(shù)榭進行行詢.數(shù)據(jù)表
26、壓縮對中間數(shù)據(jù)或最終數(shù)據(jù)做壓縮,姑提高數(shù)據(jù)吞吐出和性能的一種 手段.對數(shù)據(jù)做壓縮,可以大就成少破fit的存儲空間,比如WF文本 的數(shù)據(jù)文件.壓縮比可達5倍以上,同時壓縮后的文件在磁fit間傳輸 和I/O也會大大M少.使用RocksDB時數(shù)據(jù)進行存儲,并支持LZ4 等多種東縮鐮法.支持對人按照質縮比例進行及時透明樂縮,數(shù)據(jù)樂 縮后支拄簧詢、修改、插入、刪除.此過程中無需就壓.分石式云存儲系統(tǒng).在數(shù)據(jù)存儲層構建的分布式文件系統(tǒng)作為圖 片、視頻等非結構化文件的基礎文件系統(tǒng),對各類媒體流數(shù)據(jù),如視 頻文件進行存儲和管理.一般情況下,非結構化文件如圖片、視頻 等.這類數(shù)據(jù)數(shù)據(jù)m很大,屬于非結構化數(shù)據(jù),不
27、宜存儲在數(shù)據(jù)席中.識推理則是在己仃的知識昨基礎上進步挖掘、擴展知識庫.知識圖譜邏輯架構:知識圖譜在邏輯上可以分為模式層與數(shù)據(jù)層 兩個層次,數(shù)據(jù)房主要是由一系列的次實組成.而知識將以琳實為單 位進行存儲.模式?構建住數(shù)捱U之上,主要是通過本體際來規(guī)范數(shù) 據(jù)層的一系列”實表達.本體是結構化知識庫的做念模板,通過本體 庫而形成的知識庫不僅層次結構較強,并II冗余程度較小.知識圖譜體系架構:知識圖譜的體系架構是指構建模式結構,E 要由門頂向下(topxlown)與自低向上(bottomup)兩種構建方式. 白頂向下指的是先為知識圖謂定義好本體與數(shù)據(jù)模式,再將實體加入 到知識庫.該構建方式凋要利用一些觀
28、守的結構化知識昨作為大框礎 知識陳.白底向上指的是從宜些開放宣據(jù)中提取出實體.選界其中宣 信度的加入到知識庫,再構建頂乂的本體模式。目前,大多數(shù)知識圖 謂都是果用自底向上的方式進行構建.由于知識圖譜中的知識來源廣泛,存在知識質量良勞不齊、來門 不同數(shù)據(jù)源的知識重復、知識間的美聯(lián)不夠明確等問題,所以必須要 進行知識的融合.知識融合是高層次的知識組織,使來自不同的知識 源的知識再同 框關規(guī)范下進行異構數(shù)據(jù)整含、消岐、fx匚、推理脛 證、更新等步旗.達到數(shù)黑、俏恩、方法、經(jīng)驗以及人的慰出的融合. 形成而版瓜的知識庫.2 人工智能語義分析建設實體語義分析平臺是一歙集成統(tǒng)“學習、機界學習、深度學習等% 46 ft X 93 91教*(中心“布方案關鍵門線語:處理技術,具備屬語義模型建設用場景化門然語J處 理流程建設能力的春結構化文本數(shù)據(jù)語義挖掘1:八.致力廣解決機器 學習以法與業(yè)務的門動映射,提供業(yè)務建模與業(yè)務計算能力為企業(yè)實 現(xiàn)除結構化文木落地.實現(xiàn)對作結構化文本進行智能處理.輸出多維 度業(yè)務標卷,格無序的非結構化信息轉換為滿足業(yè)務需求的結構化數(shù) 據(jù)??蓪崿F(xiàn)實體數(shù)據(jù)模型構建.高度抽象各項業(yè)務庫、麥,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 志愿填報指南
- 英語全球通行
- 傳媒融合電商
- 河南省鄭州市惠濟區(qū)2024-2025學年七年級上學期期末語文試題(解析版)
- 職中學生會申請書
- 銀行評級申請書
- 二級建造師之二建建設工程法規(guī)及相關知識題庫【全國】
- 初級銀行管理-銀行專業(yè)初級《銀行管理》模擬試卷2
- 初級銀行管理-銀行專業(yè)初級《銀行管理》點睛提分卷3
- 入組織部的申請書
- 中國傳統(tǒng)文化非遺文化中國剪紙介紹2
- 藥企銷售總經(jīng)理競聘
- 開封市第一屆職業(yè)技能大賽健康照護項目技術文件(國賽)
- 飲酒與糖尿病
- 大學體育與健康 教案 保健(八段錦)4
- 非遺資源數(shù)據(jù)庫建設
- 公路電子收費系統(tǒng)安裝合同范本
- 醫(yī)院培訓課件:《傷口評估與測量》
- 期末試卷(試題)-2024-2025學年四年級上冊數(shù)學滬教版
- 小學五年級美術《青花瓷》
- 《第一單元口語交際:即興發(fā)言》教案-2023-2024學年六年級下冊語文統(tǒng)編版
評論
0/150
提交評論