![數(shù)據(jù)融合處理系統(tǒng)方案_第1頁](http://file4.renrendoc.com/view/45059819ac319d8306315e46cb97b430/45059819ac319d8306315e46cb97b4301.gif)
![數(shù)據(jù)融合處理系統(tǒng)方案_第2頁](http://file4.renrendoc.com/view/45059819ac319d8306315e46cb97b430/45059819ac319d8306315e46cb97b4302.gif)
![數(shù)據(jù)融合處理系統(tǒng)方案_第3頁](http://file4.renrendoc.com/view/45059819ac319d8306315e46cb97b430/45059819ac319d8306315e46cb97b4303.gif)
![數(shù)據(jù)融合處理系統(tǒng)方案_第4頁](http://file4.renrendoc.com/view/45059819ac319d8306315e46cb97b430/45059819ac319d8306315e46cb97b4304.gif)
![數(shù)據(jù)融合處理系統(tǒng)方案_第5頁](http://file4.renrendoc.com/view/45059819ac319d8306315e46cb97b430/45059819ac319d8306315e46cb97b4305.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)融合處理系統(tǒng)方案II目錄TOC\o"1-5"\h\z\o"CurrentDocument"概述 4解決方案 4建設內(nèi)容 5建設目標 81.3可靠性、可維護性設計方案 9可靠性 9維護性 11總體設計 11系統(tǒng)架構 11系統(tǒng)體系結構 13系統(tǒng)組成 15功能描述 16系統(tǒng)內(nèi)外關系 18系統(tǒng)指標 20功能性指標 20性能指標 23系統(tǒng)設計 24層次結構 26系統(tǒng)用例模型圖 26開發(fā)語言 27數(shù)據(jù)庫系統(tǒng) 27硬件環(huán)境要求 27操作系統(tǒng) 28\o"CurrentDocument"2項目組織實施 28\o"CurrentDocument"項目組織機構 28\o"CurrentDocument"項目進度計劃 28\o"CurrentDocument"2.3質(zhì)量保障措施 29項目質(zhì)量管理保障措施 302.3.2軟件質(zhì)量保障措施 302.4服務保障 312.4.1試運行期間服務保障 312.4.2正式運行期間服務保障 32\o"CurrentDocument"3風險評估 33技術風險評估 33進度風險評估 331.1概述為進一步提升數(shù)據(jù)的融合處理及分析應用能力,在前期各類數(shù)據(jù)資源建設的基礎上,推進數(shù)據(jù)融合處理分析應用試驗原型系統(tǒng)建設。主要瞄準數(shù)據(jù)分散存儲、數(shù)據(jù)管理有待深入研究、數(shù)據(jù)分析應用不足等問題,重點解決多個數(shù)據(jù)來源統(tǒng)一管理、語義層面的數(shù)據(jù)管理和融合、提高面向主題的數(shù)據(jù)應用價值等問題,實現(xiàn)綜合領域數(shù)據(jù)資源的統(tǒng)一管理、面向知識的服務和面向主題的分析。1.2解決方案基于系統(tǒng)的建設目標及建設內(nèi)容的需求,以及我公司在數(shù)據(jù)倉庫領域的經(jīng)驗,我們提出以下解決方案:采用一個企業(yè)級的數(shù)據(jù)倉庫,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)及相關數(shù)據(jù)的自動采集、清洗、匯總,并且通過數(shù)據(jù)挖掘、跟蹤、分析手段,讓用戶能夠有效的將數(shù)據(jù)轉化為靈活的報表和決策支持信息,最終滿足用戶的信息需求。首先,數(shù)據(jù)主要來源于兩個方面:基礎數(shù)據(jù)庫以及云端開端開源數(shù)等為主要數(shù)據(jù)來源。數(shù)據(jù)庫數(shù)據(jù)通過數(shù)據(jù)倉庫工具進行自動采集、清洗、整理并存儲。在構造數(shù)據(jù)倉庫的過程中,我們采取以點帶面的做法,采用小步長、逐步地建立數(shù)據(jù)倉庫的策略。以數(shù)據(jù)主題為基準,建立一個數(shù)據(jù)集倉庫。建立數(shù)據(jù)倉庫之后,根據(jù)主題,抽取挖掘相關的數(shù),給最終用戶提供數(shù)據(jù)分析應用的功能,能夠讓最終用戶充分利用數(shù)據(jù)中包含的有用信息。最終用戶通過各種數(shù)據(jù)分析工具分析信息數(shù)據(jù),制作各種形式、風格的報表,報表內(nèi)容可以包括數(shù)字、圖像、曲線等,使得管理層可以直接、直觀地查看分析數(shù)據(jù)結果。1.2.1建設內(nèi)容原型系統(tǒng)建設內(nèi)容分為數(shù)據(jù)在線處理子系統(tǒng)、數(shù)據(jù)資源組織管理子系統(tǒng)、數(shù)據(jù)分析應用子系統(tǒng)3個部分。系統(tǒng)采用“外網(wǎng)+內(nèi)部局域網(wǎng)”部署模式,外網(wǎng)接入互聯(lián)網(wǎng),在云端部署數(shù)據(jù)在線處理子系統(tǒng),內(nèi)部局域網(wǎng)部署數(shù)據(jù)資源組織管理子系統(tǒng)和數(shù)據(jù)分析應用子系統(tǒng),與外網(wǎng)物理隔離,內(nèi)部局域網(wǎng)和外網(wǎng)之間通過單向光盤擺渡實現(xiàn)數(shù)據(jù)傳輸。內(nèi)部局域網(wǎng)和外網(wǎng)的系統(tǒng)開發(fā)均采用B/S軟件體系架構。(一)數(shù)據(jù)在線處理子系統(tǒng)數(shù)據(jù)在線處理子系統(tǒng)運行在互聯(lián)網(wǎng)端,主要利用在線的語料庫、知識庫以及在線的服務API完成綜合領域數(shù)據(jù)的初步預處理功能,是開展數(shù)據(jù)管理和分析應用的先導程序,主要包括自動分詞、自動摘要、在線翻譯、語義相似度計算等。?數(shù)據(jù)預處理模塊。能夠利用在線的公共知識庫或在線的服務接口程序,對獲取的綜合領域數(shù)據(jù)進行關鍵詞自動抽取和內(nèi)容自動摘要等操作,形成文本的標簽信息和摘要信息,保存到云端數(shù)據(jù)庫。對多個主流語種的數(shù)據(jù),能夠調(diào)用常用的在線翻譯API,對文檔的關鍵詞和摘要信息進行機器翻譯,形成中文的關鍵詞和摘要,與原始的文本數(shù)據(jù)一并存儲在云端數(shù)據(jù)庫。?相似度計算模塊。支持對獲取的綜合領域數(shù)據(jù)進行內(nèi)容級別的相似性計算,同時建立索引結構,對相似度超過設定閾值的數(shù)據(jù)進行標記,保存到云端數(shù)據(jù)庫。?云端數(shù)據(jù)管理模塊。完成管理和維護云端數(shù)據(jù)庫功能,支持人工方式的質(zhì)量審核和數(shù)據(jù)維護,支持將原始數(shù)據(jù)及預處理數(shù)據(jù)以光盤刻錄的形式單向?qū)С龅絻?nèi)部局域網(wǎng)。同時支持以個人電腦或者平板電腦的形式對數(shù)據(jù)資源進行在線檢索和分類瀏覽。(二)數(shù)據(jù)資源組織管理子系統(tǒng)數(shù)據(jù)資源組織管理子系統(tǒng)運行于內(nèi)部局域網(wǎng),在原始數(shù)據(jù)管理層面上,實現(xiàn)海量開源數(shù)據(jù)的高性能存儲、統(tǒng)一管理和高效處理;在文本分析層面上,實現(xiàn)獲取數(shù)據(jù)的分詞、詞性標注、關鍵詞抽取、數(shù)據(jù)摘要等功能;在查詢檢索層面,實現(xiàn)數(shù)據(jù)資源索引構建、語義檢索等功能;在知識管理層面,抽取信息構建形成面向特定主題的數(shù)據(jù)知識圖譜。需要管理的數(shù)據(jù)來源主要包括:①前期相關項目建設成果獲取的數(shù)據(jù);②其他渠道獲得的開源數(shù)據(jù);③數(shù)據(jù)在線處理子系統(tǒng)預處理形成的數(shù)據(jù)。針對文本文件、網(wǎng)頁文件、PDF文檔、Word文檔等典型類型的開源數(shù)據(jù),采用成熟的數(shù)據(jù)管理架構實現(xiàn)統(tǒng)一的存儲管理,支持數(shù)據(jù)的導入導出,系統(tǒng)管理的數(shù)據(jù)可實現(xiàn)便捷遷移,具備備份恢復能力,確保數(shù)據(jù)安全使用。能夠在原始數(shù)據(jù)基礎上構建統(tǒng)一的索引結構,實現(xiàn)數(shù)據(jù)資源的全文檢索、關聯(lián)搜索、按關聯(lián)度排序等功能。?文本分析模塊。利用自然語言處理技術,結合現(xiàn)有的內(nèi)部語料庫,實現(xiàn)獲取數(shù)據(jù)的深度分析,包括分詞、詞性標注、關鍵詞自動抽取、數(shù)據(jù)自動摘要等文本分析功能,并將文本分析的結果與原始數(shù)據(jù)一并存儲管理。同時能夠支持人工方式的數(shù)據(jù)標注,作為文本數(shù)據(jù)的關鍵詞與原始數(shù)據(jù)一并存儲管理。?知識圖譜管理模塊。基于獲取的綜合領域數(shù)據(jù)資源,實現(xiàn)特定的實體及屬性抽取,以及實體之間的關系抽取,構建綜合領域數(shù)據(jù)的知識圖譜,并提供知識圖譜的共指消解和實體消岐功能,支持知識推理和計算,利用圖數(shù)據(jù)庫實現(xiàn)知識圖譜的存儲,并面向用戶提供基于知識圖譜的語義檢索。(三)數(shù)據(jù)分析應用子系統(tǒng)數(shù)據(jù)分析應用子系統(tǒng)部署在內(nèi)部局域網(wǎng),主要用于實現(xiàn)面向業(yè)務關注方向事件跟蹤、專業(yè)設備和重要人物動態(tài)等專題數(shù)據(jù)分析,以數(shù)據(jù)資源組織管理子系統(tǒng)存儲的原始數(shù)據(jù)及分析數(shù)據(jù)資源為基礎,利用構建的主題分析模型,實現(xiàn)特定類別數(shù)據(jù)的關聯(lián)查詢與綜合展示,并建立形成匯總的主題數(shù)據(jù)庫。?業(yè)務關注方向跟蹤模塊。在充分結合用戶需求關注點的基礎上,對獲取到的開源數(shù)據(jù)進行歸納與分析,從多個維度對業(yè)務關注方向事件進行深度挖掘,提供完整的重點專題全貌,對相關熱點信息提供摘要描述。?專業(yè)設備信息分析模塊。圍繞專業(yè)設備數(shù)據(jù)資源,根據(jù)不同的主題分類,對發(fā)展動態(tài)、性能指標、實際運用等進行多角度的分析評估,并形成專業(yè)設備信息分析報告。?重要人物動態(tài)情況分析模塊。以需要關注的重要人物進行數(shù)據(jù)匯總和組織,針對公開活動、主要言論、政治傾向、人物關系等多個角度進行關聯(lián)分析,形成人物信息的總畫像,形成專題化的人物分析報告。1.2.2建設目標著眼滿足對綜合領域數(shù)據(jù)的處理需求,在前期項目建設及多個渠道開源數(shù)據(jù)獲取的基礎上,完成數(shù)據(jù)融合處理分析應用試驗原型系統(tǒng)建設,實現(xiàn)綜合領域多源數(shù)據(jù)集成、大規(guī)模數(shù)據(jù)及知識存儲管理、專題數(shù)據(jù)分析等方面功能,為后續(xù)的數(shù)據(jù)融合和分析開展原型探索。通過該軟件原型系統(tǒng)建設,達到如下3個方面目標:一是實現(xiàn)綜合領域數(shù)據(jù)資源的統(tǒng)一管理,綜合集成各渠道采集獲取的綜合領域數(shù)據(jù),運用文本分析、知識工程、語義檢索、數(shù)據(jù)存儲等技術,實現(xiàn)綜合領域數(shù)據(jù)資源的統(tǒng)一存儲、查詢和展現(xiàn)。二是完善綜合領域數(shù)據(jù)管理工具手段,以業(yè)務關注方向、專業(yè)設備、重要人物等綜合領域數(shù)據(jù)抽取、管理和應用為重點,研制數(shù)據(jù)管理、文本分析、知識圖譜構建與管理等工具手段,為后續(xù)開展多源數(shù)據(jù)融合集成和分析挖掘奠定良好基礎。三是提升專題數(shù)據(jù)綜合分析能力,以積累的海量開源數(shù)據(jù)為基礎,對重點領域應用信息進行分析研究,實現(xiàn)業(yè)務關注方向、專業(yè)設備、重要人物等相關主題發(fā)展趨勢跟蹤與綜合分析,提供專題數(shù)據(jù)服務。1.3可靠性、可維護性設計方案1.3.1可靠性?結構復雜度控制。系統(tǒng)軟件采用模塊化設計,不同模塊完成相對獨立的功能,模塊之間的接口定義簡單、清晰,整個軟件結構具有低耦合、高內(nèi)聚的特點,同時在軟件設計中對模塊的大扇入、低扇出之間達到平衡,并不為追求模塊的大扇入,而將不同功能湊在一起構成一個模塊,從而降低模塊的內(nèi)聚程度。?軟件健壯性設計。系統(tǒng)軟件采用模塊化設計,每一模塊均增加獨立的測試運行代碼,保證軟件模塊進行獨立功能測試而不影響其他功能模塊。系統(tǒng)軟件通過簡化模塊復雜性、增加調(diào)試語句打印輸出、采用try—catch等異常處理代碼,使軟件易于測試,保證了軟件的可測試性。?軟件避錯設計。關鍵數(shù)據(jù)進行合理性檢測,根據(jù)其約定特性進行范圍、符號等檢測,合理性檢測重點排除的是異常數(shù)據(jù),判別尺度要適當,避免出現(xiàn)誤判;?屏蔽不期望的操作項。對關鍵操作要增加“確定”和“取消”的再次選擇框,防止誤操作;對于不可撤銷操作,進行之前要提醒用戶進行最終確認;盡量使用選擇,避免使用過多的鍵盤輸入。?軟件容錯設計。在軟件設計中,盡可能多地考慮到可能出現(xiàn)問題的情形,安排進行修復的代碼。從而使整個系統(tǒng)在外部環(huán)境發(fā)生異常的情況下,仍然可以最大限度地提供服務。?軟件錯誤恢復設計。在軟件不能自動改錯的情況下,采用故障隔離技術最小化故障對操作系統(tǒng)或其他應用程序的影響。?余量設計。在系統(tǒng)設計過程中充分考慮了系統(tǒng)的處理能力,保證該系統(tǒng)占用的系統(tǒng)資源不大于30%。在時間特性分析的基礎上進行時間余量設計,在進行處理超時時間設置時,處理時間的余量應不小于20%。1.3.2維護性采用接口化的設計,系統(tǒng)中各子模塊的調(diào)用關系嚴格遵循標準服務接口調(diào)用,對接口標準和可擴展性進行高標準設計,降低各模塊之間的耦合程度,提高模塊可局部替換升級的能力。提供完備的系統(tǒng)維護文檔。1.4總體設計1.4.1系統(tǒng)架構系統(tǒng)部署采用集中式部署方式進行部署,支持分布式部署方式,便于機構進行統(tǒng)一的業(yè)務操作和管理,系統(tǒng)采用JAVAEnterpriseEdition平臺開發(fā),JDK5.0版本,數(shù)據(jù)采用人大金倉,能兼容ORACLE、DB2、SQLServer等數(shù)據(jù)庫及Tomcat、Weblogic、Websphere等應用服務器產(chǎn)品,可運行在Windows、Linux、Unix等所有兼容JAVA平臺的操作系統(tǒng)上。根據(jù)綜合領域數(shù)據(jù)分析應用試驗原型系統(tǒng)軟件研制要求,系統(tǒng)分為數(shù)據(jù)采集層、數(shù)據(jù)交換層、數(shù)據(jù)維管層。系統(tǒng)總體架構下圖所示。數(shù)據(jù)采集層負責從互聯(lián)網(wǎng)在線采集目標潛力原始數(shù)據(jù),包括數(shù)據(jù)采集服務器和采集策略配置終端。數(shù)據(jù)采集服務器與互聯(lián)網(wǎng)相接,安裝運行數(shù)據(jù)采集Web服務,根據(jù)預設的采集策略從網(wǎng)站上爬取目標潛力數(shù)據(jù)。采集策略配置終端根據(jù)數(shù)據(jù)采集需求調(diào)用數(shù)據(jù)采集服務接口配置采集策略,創(chuàng)建采集任務,實時監(jiān)控采集任務執(zhí)行情況、生成原始數(shù)據(jù)離線數(shù)據(jù)包。數(shù)據(jù)轉換層負責將原始數(shù)據(jù)按照用戶需要目標數(shù)據(jù)模型轉換為有效的信息數(shù)據(jù),包括轉換策略配置終端、數(shù)據(jù)轉換服務器、數(shù)據(jù)庫。數(shù)據(jù)轉換層與數(shù)據(jù)采集層間物理隔離,通過離線數(shù)據(jù)包實現(xiàn)單向數(shù)據(jù)交換。數(shù)據(jù)轉換服務器上安裝運行數(shù)據(jù)轉換服務,負責解析離線導入的原始數(shù)據(jù),并根據(jù)轉換策略將原始數(shù)據(jù)轉換為有效的目標數(shù)據(jù),然后存儲在數(shù)據(jù)庫中。數(shù)據(jù)轉換服務還提供數(shù)據(jù)包制作和導出功能,提供數(shù)據(jù)接口能夠與其它情報數(shù)據(jù)系統(tǒng)實現(xiàn)數(shù)據(jù)交互。轉換策略配置終端調(diào)用數(shù)據(jù)轉換服務接口,針對不同來源的原始數(shù)據(jù)配置轉換策略,確保數(shù)據(jù)轉換的可靠性和有效性。數(shù)據(jù)維管層包括維管終端和數(shù)據(jù)維管服務器,用戶通過維管終端調(diào)用數(shù)據(jù)維管服務提供的服務化接口進行潛力數(shù)據(jù)的編輯、查詢、檢索、及統(tǒng)計分析。在實際系統(tǒng)部署時,數(shù)據(jù)維管服務和數(shù)據(jù)轉換服務可部署在同一臺服務器上,并存獨立運行。1.4.2系統(tǒng)體系結構數(shù)據(jù)在線采集與分析系統(tǒng)軟件結構體系分為界面呈現(xiàn)層、業(yè)務邏輯層、數(shù)據(jù)訪問層、互聯(lián)網(wǎng)接入層四層結構。(1) 互聯(lián)網(wǎng)接入層?;ヂ?lián)網(wǎng)接入層負責與互聯(lián)網(wǎng)對接,根據(jù)設置的采集策略從互聯(lián)網(wǎng)上公開的門戶網(wǎng)站上爬取具備潛力原始數(shù)據(jù),爬取的所有數(shù)據(jù)均為公開信息。(2) 數(shù)據(jù)訪問層。數(shù)據(jù)訪問層面向業(yè)務邏輯層提供數(shù)據(jù)服務能力,包括:潛力數(shù)據(jù)模型體系的建立;系統(tǒng)運行所必須的采集策略參數(shù)、采集任務信息、采集任務執(zhí)行日志、數(shù)據(jù)轉換策略參數(shù)、數(shù)據(jù)轉換作業(yè)信息、數(shù)據(jù)轉換作業(yè)執(zhí)行日志等信息的存?。换诓杉呗詮幕ヂ?lián)網(wǎng)上爬取到的潛力原始數(shù)據(jù)的存儲與導出;通過數(shù)據(jù)轉換策略得到的與系統(tǒng)用戶要求一致的潛力數(shù)據(jù)的存儲與導出。(3) 業(yè)務邏輯層。業(yè)務邏輯層以服務的形式提供潛力數(shù)據(jù)采集、轉換與維管等所有業(yè)務邏輯處理能力。其中潛力數(shù)據(jù)采集服務提供采集策略的配置及擴展、采集任務的創(chuàng)建、調(diào)度與監(jiān)控、采集日志審計、原始潛力數(shù)據(jù)采集與導出等業(yè)務處理能力;潛力數(shù)據(jù)轉換服務提供數(shù)據(jù)轉換策略配置及管理、數(shù)據(jù)轉換作業(yè)的創(chuàng)建、調(diào)度與監(jiān)控、數(shù)據(jù)轉換日志審計、原始潛力數(shù)據(jù)導入與轉換清洗等業(yè)務處理能力;潛力數(shù)據(jù)維管提供潛力數(shù)據(jù)整編與分類、多條件查詢、全文檢索、多維度統(tǒng)計分析、信息跟蹤、離線數(shù)據(jù)包導出等業(yè)務處理能力。業(yè)務邏輯層各服務對上提供服務化接口,提供服務能力。(4) 界面呈現(xiàn)層。界面呈現(xiàn)層面向用戶提供潛力數(shù)據(jù)采集、轉換、維管等人機交互能力,包括:采集策略配置、采集任務管理及調(diào)度、采集日志查詢等界面;數(shù)據(jù)轉換策略配置、轉換作業(yè)管理與執(zhí)行、轉換結果統(tǒng)計、轉換日志查詢等界面;潛力數(shù)據(jù)整編與分類、潛力查詢與檢索、潛力多維統(tǒng)計分析等界面。各界面通過調(diào)用業(yè)務邏輯層相關服務提供的接口將用戶指令下發(fā)給服務執(zhí)行。1.4.3系統(tǒng)組成數(shù)據(jù)融合處理分析應用系統(tǒng)由三個子系統(tǒng)組成,包括數(shù)據(jù)在線處理子系統(tǒng)、數(shù)據(jù)資源組織管理子系統(tǒng)、數(shù)據(jù)分析應用子系統(tǒng),系統(tǒng)組成如下圖所示:數(shù)據(jù)在線處理子系統(tǒng)運行于外部網(wǎng),實現(xiàn)目標數(shù)據(jù)的監(jiān)控及定向采集。并存儲。數(shù)據(jù)資源組織管理子系統(tǒng),運行于內(nèi)網(wǎng),提供數(shù)據(jù)對接功能,能夠?qū)σ延械臄?shù)據(jù)應用系統(tǒng)的數(shù)據(jù)實現(xiàn)對接,引接需要的數(shù)據(jù),提供數(shù)據(jù)導入接口,能夠?qū)霐?shù)據(jù)在線處理子系統(tǒng)中收集數(shù)據(jù)。對數(shù)據(jù)進行格式化處理,簡化數(shù)據(jù)復雜度。為數(shù)據(jù)利用分析提供基礎。數(shù)據(jù)分析應用子系統(tǒng),運行于內(nèi)網(wǎng),對數(shù)據(jù)資源組織管理子系統(tǒng)存儲的原始數(shù)據(jù)等多數(shù)據(jù)資源進行分析和利用。1-4.4功能描述1.4?4.1 數(shù)據(jù)在線處理子系統(tǒng)數(shù)據(jù)在線處理子系統(tǒng)數(shù)據(jù)在線處理子系統(tǒng),通過采集規(guī)則設置,利用在線的語料庫、知識庫以及在線的服務API完成綜合領域數(shù)據(jù)的初步預處理。同事能夠?qū)Σ杉臄?shù)據(jù)進行信息翻譯,數(shù)據(jù)瀏覽。提供采集數(shù)據(jù)的導出。數(shù)據(jù)在線處理子系統(tǒng)功能主要包含采集規(guī)則設置、信息翻譯、數(shù)據(jù)瀏覽、系統(tǒng)管理、采集數(shù)據(jù)導出等功能。采集規(guī)則設置,可設置去要提取的文本數(shù)據(jù)的關鍵詞。在線的公共知識庫或在線的服務接口程序完成數(shù)據(jù)內(nèi)容的自動摘要。信息翻譯,通過調(diào)用常用在線翻譯API對抽取關鍵詞、正文摘要信息、各類元數(shù)據(jù)進行自動翻譯。數(shù)據(jù)瀏覽,對采集的數(shù)據(jù)進行分析,對來源不同的數(shù)據(jù)進行相似度計算分析,構建索引結構,可設置關聯(lián)度,對不同關聯(lián)度的文檔進行關聯(lián)管理??赏ㄟ^個人電腦或者平板電腦的形式對數(shù)據(jù)資源進行在線檢索和分類瀏覽。系統(tǒng)管理,管理云端數(shù)據(jù)庫,可以設置質(zhì)量審核同時能夠?qū)?shù)據(jù)進行維護。采集數(shù)據(jù)導出,將采集的數(shù)據(jù)進行單向?qū)С龅絻?nèi)部局域網(wǎng)。1.4?4.2數(shù)據(jù)資源組織管理子系統(tǒng)數(shù)據(jù)資源組織管理子系統(tǒng)數(shù)據(jù)資源組織管理子系統(tǒng),對導入系統(tǒng)的數(shù)據(jù)進行數(shù)據(jù)資源管理,實現(xiàn)海量開源數(shù)據(jù)的高性能存儲、統(tǒng)一管理和高效處理。支持文本文件、網(wǎng)頁文件、PDF文檔、Oiffice文檔等常見數(shù)據(jù)。系統(tǒng)主要包括:數(shù)據(jù)存儲規(guī)則設置、文本數(shù)據(jù)分析、知識圖譜管理、系統(tǒng)管理、數(shù)據(jù)導入等功能。數(shù)據(jù)存儲規(guī)則設置,對多類數(shù)據(jù)資源進行統(tǒng)一的存儲管理,方便數(shù)據(jù)資源的遷移、備份和恢復。文本數(shù)據(jù)分析,將導入的數(shù)據(jù)與數(shù)據(jù)庫的數(shù)據(jù)進行分析,通過內(nèi)部語料庫、知識庫對數(shù)據(jù)進行自動分詞、詞性標注。
自動提取文檔中需要的關鍵詞。自動生成數(shù)據(jù)摘要,也可以進行人工手動標注。知識圖譜管理,對導入的數(shù)據(jù)通過分析后進行數(shù)據(jù)知識譜圖的構建,新增、修改、補充知識圖譜,提供面向用戶的知識服務。系統(tǒng)管理,對導入的數(shù)據(jù)和原數(shù)據(jù)進行分類數(shù)據(jù)管理。數(shù)據(jù)導入,能夠接受數(shù)據(jù)在線處理子系統(tǒng)導出的離線數(shù)據(jù),將數(shù)據(jù)導入到內(nèi)網(wǎng),同時可導出系統(tǒng)數(shù)據(jù)。1-4-4-3數(shù)據(jù)分析應用子系統(tǒng)數(shù)據(jù)分析應用子系統(tǒng)數(shù)據(jù)看臺業(yè)務關注方向跟蹤專業(yè)設備信息分析重要人物動態(tài)情況分析系統(tǒng)管理數(shù)據(jù)看臺業(yè)務關注方向跟蹤專業(yè)設備信息分析重要人物動態(tài)情況分析系統(tǒng)管理1-4.5系統(tǒng)內(nèi)外關系1.4.5.1 內(nèi)部接口綜合領域數(shù)據(jù)分析應用試驗原型系統(tǒng)內(nèi)部各模塊數(shù)據(jù)交互接口如下圖所示:原始數(shù)據(jù)離線導入接口:用于將數(shù)據(jù)在線處理子系統(tǒng)采集的原始數(shù)據(jù)以離線的方式導入到數(shù)據(jù)資源組織管理子系統(tǒng)中執(zhí)行數(shù)據(jù)轉換及存儲。數(shù)據(jù)資源組織管理系統(tǒng)數(shù)據(jù)訪問接口:通過數(shù)據(jù)分析應用子系統(tǒng)訪問數(shù)據(jù)資源資質(zhì)管理子系統(tǒng)數(shù)據(jù),系統(tǒng)管理員可修改元數(shù)據(jù)模型和分類數(shù)據(jù)模型定義。1.4.5?2外部互聯(lián)互通數(shù)據(jù)在線處理子系統(tǒng)通過采集規(guī)則在互聯(lián)網(wǎng)中實現(xiàn)目標數(shù)據(jù)的在線采集,并存儲在系統(tǒng)數(shù)據(jù)庫中。接口詳細信息見表。系統(tǒng)外部接口表序號接口名稱源系統(tǒng)目的系統(tǒng)接口內(nèi)容備注1原始數(shù)據(jù)采集接口互聯(lián)網(wǎng)數(shù)據(jù)資源組織管理子系統(tǒng)從互聯(lián)網(wǎng)上爬取的目標原始數(shù)據(jù)2目標數(shù)據(jù)引接接口數(shù)據(jù)在線處理子系統(tǒng)數(shù)據(jù)分析應用子系統(tǒng)統(tǒng)一的數(shù)據(jù)格式1.5系統(tǒng)指標1.5.1功能性指標通用行功能指標(1) 互聯(lián)網(wǎng)端和內(nèi)部局域網(wǎng)端均支持多用戶訪問,具備用戶管理、權限劃分、角色設置等后臺維護功能。(2) 互聯(lián)網(wǎng)和內(nèi)部局域網(wǎng)之間采用單向數(shù)據(jù)傳輸模式,在互聯(lián)網(wǎng)端應具備數(shù)據(jù)導出功能,在內(nèi)部局域網(wǎng)端應具備數(shù)據(jù)導入功能。(3) 互聯(lián)網(wǎng)端和內(nèi)部局域網(wǎng)端系統(tǒng)均應具備數(shù)據(jù)備份恢復功能及安全防護功能。數(shù)據(jù)在線處理子系統(tǒng)功能指標(1) 數(shù)據(jù)預處理能力。?實現(xiàn)利用在線的公共知識庫或在線的服務接口程序完成文本數(shù)據(jù)的關鍵詞自動抽取。?實現(xiàn)利用在線的公共知識庫或在線的服務接口程序完成數(shù)據(jù)內(nèi)容的自動摘要。(2) 在線翻譯能力。?支持調(diào)用常用的在線翻譯API對抽取關鍵詞進行自動翻譯。?支持調(diào)用常用的在線翻譯API對正文摘要信息進行自動翻譯。?支持用常用的在線翻譯API對各類元數(shù)據(jù)進行自動翻譯。(3) 相似度計算能力。?能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行相似度計算。?能夠構建索引結構對相似度較高的文檔進行關聯(lián)管理。(4)云端數(shù)據(jù)管理能力。?能夠?qū)υ贫藬?shù)據(jù)庫進行后臺管理。?支持人工方式的質(zhì)量審核和數(shù)據(jù)維護。?支持數(shù)據(jù)單向?qū)С龅絻?nèi)部局域網(wǎng)。?支持以個人電腦或者平板電腦的形式對數(shù)據(jù)資源進行在線檢索和分類瀏覽。1.5?1?3數(shù)據(jù)資源存儲管理子系統(tǒng)功能指標可管理數(shù)據(jù)支持文本文件、網(wǎng)頁文件、PDF文檔、Office文檔等常見的數(shù)據(jù)類型。(1) 數(shù)據(jù)存儲管理能力。?實現(xiàn)多類數(shù)據(jù)資源的統(tǒng)一存儲管理。?系統(tǒng)管理的數(shù)據(jù)可實現(xiàn)便捷遷移。?具備數(shù)據(jù)導入導出、備份與恢復功能。?針對多類數(shù)據(jù)資源構建統(tǒng)一的索引結構,并提供語義檢索功能。(2) 文本分析能力。?能夠利用內(nèi)部語料庫、知識庫對數(shù)據(jù)進行自動分詞、詞性標注。?能夠?qū)崿F(xiàn)文檔的關鍵詞自動抽取。?能夠?qū)崿F(xiàn)數(shù)據(jù)的自動摘要生成。?支持人工方式的數(shù)據(jù)標注。(3)知識圖譜管理能力。?能夠以獲取的原始數(shù)據(jù)和分析數(shù)據(jù)為基礎,構建形成綜合領域數(shù)據(jù)知識圖譜。?支持對知識圖譜進行推理、修正和補充完善。?面向用戶提供知識服務。1.5?1?4數(shù)據(jù)分析應用子系統(tǒng)功能指標(1) 業(yè)務關注方向跟蹤能力。?支持用戶定義主題,能夠通過主題獲取相關熱點數(shù)據(jù)。?支持以熱點信息為核心的格式化存儲與信息關聯(lián)展現(xiàn),同時支持鏈接到原始文件。面向用戶提供熱點信息的溯源分析以及查詢功能。(2) 專業(yè)設備信息分析能力。?支持用戶定義重點關注專業(yè)設備列表,支持以專業(yè)設備信息為主的格式化存儲與關聯(lián)信息展現(xiàn),同時支持鏈接到原始文件。?支持對專業(yè)設備的發(fā)展動態(tài)、性能指標、實際運用等方面進行多角度的分析評估。?面向用戶提供專業(yè)設備信息檢索功能。(3) 重要人物動態(tài)情況分析能力。?支持用戶定義重點關注人物清單,支持以人物基本信息為主的格式化存儲與關聯(lián)信息展現(xiàn),同時支持鏈接到原始文件。?支持針對人物言論、政治活動、人物關系等進行專題分析。?面向用戶提供人物信息查詢功能。1.5.2性能指標時效指標?數(shù)據(jù)快速處理:對獲取數(shù)據(jù)實時進行關鍵詞抽取、自動摘要和分類,響應時間小于60秒。?全文索引結構增量式更新時間小于10分鐘。?在線全文檢索的響應時間小于5秒。?業(yè)務關注方向、專業(yè)設備、重要人物等分析響應時間小于60秒,超出時間,進度條顯示。?定制分析報告生成時間小于5分鐘。超出時間,進度條顯示。系統(tǒng)精度指標?關鍵詞自動抽取的準確率大于90%。?內(nèi)容自動摘要的準確率大于90%。?內(nèi)容相似度計算的準確性大于90%。?在線翻譯的準確率大于85%。?知識圖譜實體及關系抽取的準確率大于90%,召回率大于80%。主題管理指標?業(yè)務關注方向、專業(yè)設備、重要人物所能支持的清單條目數(shù)不少于5000個。1.5.2.4 數(shù)據(jù)庫容量指標?數(shù)據(jù)存儲管理架構支持彈性擴展,支持存儲容量不小于1PB。并發(fā)訪問指標?支持并發(fā)用戶數(shù)不少于100個。系統(tǒng)可靠性指標?系統(tǒng)支持7X24小時不間斷運行。1.6系統(tǒng)設計數(shù)據(jù)融合處理分析應用試驗原型系統(tǒng):?是一個跨平臺、綜合的應用系統(tǒng)。綜合現(xiàn)流行的系統(tǒng)使用習慣與系統(tǒng)效率方面的考慮,整個系統(tǒng)的各子系統(tǒng)不在同一操作平臺下,各子系統(tǒng)密切合同,形成一個緊密結合,高效的整體。?是一個跨平臺、綜合的應用系統(tǒng)。綜合現(xiàn)流行的系統(tǒng)使用習慣與系統(tǒng)效率方面的考慮,整個系統(tǒng)的各子系統(tǒng)不在同一操作平臺下,各子系統(tǒng)密切合同,形成一個緊密結合,高效的整體。在充分分析考慮系統(tǒng)需求后,研制一個“快、精、準”的綜合領域數(shù)據(jù)分析應用試驗原型系統(tǒng)軟件為出發(fā)點,采用當前數(shù)據(jù)庫領域成熟穩(wěn)定的數(shù)據(jù)倉庫、決策分析等技術,在高效的平臺上建議個“數(shù)據(jù)分析挖掘中心”的基本解決方案。系統(tǒng)采用層次體系結構,建立一個良好的數(shù)據(jù)庫系統(tǒng)環(huán)境,適應不斷增加和變化的業(yè)務需求。多層次機構通過引入中間組件,擴大了傳統(tǒng)系統(tǒng)采用多層次系結構,建立一個良好開放性的數(shù)據(jù)倉庫系統(tǒng)環(huán)境,適應不斷增加和變化的業(yè)務需求。多層次體系結構通過引入中間層組件,擴大了傳統(tǒng)的客戶/服務器和兩層計算模式。多層結構可由以下三類分層來定義:全段的客戶層,負責提供可移植的表達邏輯,中間的應用層,允許用戶通過將其與實際應用隔離而共享和控制業(yè)務邏輯;后端的數(shù)據(jù)管理與服務層,提供對專門服務(例如數(shù)據(jù)庫服務器)的訪問。結構化、層次化、模塊化。采用面向?qū)ο蠹夹g,使系統(tǒng)高度結構化、模塊化、層次化,整個系統(tǒng)由接口定義良好的多個模塊組成,每個模塊都有詳細的功能說明和設計文稿,每個模塊完成相對獨立的功能,模塊之間的接口定義規(guī)范,使模塊功能的變化相對獨立,不影響整個系統(tǒng)的勸能和結構,便于系統(tǒng)升級,維護。具有良好的平臺移植性。使系統(tǒng)能夠支持多種操作平臺的數(shù)據(jù)庫服務器、應用服務器、WEB服務器等服務器軟件系統(tǒng),包括國產(chǎn)化的銀河操作系統(tǒng),人大金倉數(shù)據(jù)庫等,選用具有良好平臺移植性的B/S模式下的開發(fā)語言開發(fā)應用程序和應用中間件,提高應用系統(tǒng)的平臺移植性。以最簡單的方式實現(xiàn)復雜的功能。為提高系統(tǒng)的穩(wěn)定性和可讀性,可維護性,盡量采用簡潔易懂的方式實現(xiàn)系統(tǒng)功能,不追求復雜、深奧的算法。
1.6.1層次結構整個系統(tǒng)在邏輯上分為三層,原始數(shù)據(jù)層,中間邏輯層(業(yè)務邏輯、WEB服務層、安全服務層),應用層。原始數(shù)據(jù)層:以統(tǒng)一規(guī)范的方式存儲數(shù)據(jù);中間邏輯層:解析應用層的業(yè)務邏輯,使應用層和原始數(shù)據(jù)相互獨立,提供應用層系統(tǒng)(程序)的可擴張性、可一直性;應用層:面型最終用戶,提供友好、簡潔、方便的用戶界面,具有良好的業(yè)務無關性。1.6.2系統(tǒng)用例模型圖根據(jù)系統(tǒng)功能需求,用例圖如下:1.6.3開發(fā)語言系統(tǒng)開發(fā)語言采用JAVA語言,JAVA是最好的開源平臺開發(fā)語言,是B/S模型的首選開發(fā)語言。1.6.4數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫系統(tǒng)采用國產(chǎn)化人大金倉數(shù)據(jù)庫。是我國自主研制開發(fā)的具有自主知識產(chǎn)權的通用關系型數(shù)據(jù)庫管理系統(tǒng)。是一個大型通用跨平臺數(shù)據(jù)庫系統(tǒng)??蛇\行于Windows、Linux、Solaris、麒麟等操作系統(tǒng)平臺上。支持TB級數(shù)據(jù)量,數(shù)據(jù)文件自動管理,無須人工干預。1.6.5硬件環(huán)境要求?基于高速網(wǎng)絡環(huán)境。?服務器采用具備高效處理能力的服務器。?客戶端選擇高性能客戶機。1.6.6操作系統(tǒng)?服務器:服務器操作系統(tǒng)不受限制,Windows.UNLX或麒麟系統(tǒng)。?客戶端:客戶端操作系統(tǒng)不受限制,兼容各類型瀏覽器。2項目組織實施2.1項目組織機構為有效推進系統(tǒng)研制任務有序開展,確保各項工作順利實施,我單位為本項目組建了專業(yè)人才的研發(fā)團隊,從任務角色分工、人員配備管理、配套管理機制等方面統(tǒng)一進行了項目組織規(guī)劃:項目管理組:由計劃管理部門組成,負責配套管理機制的建設和推進實施。質(zhì)量師組:由單位質(zhì)量管理部門的質(zhì)量監(jiān)督人員、測試人員、項目專職質(zhì)量師共同組成,主要負責指導和監(jiān)督研制全過程中的質(zhì)量保證實施,擬制質(zhì)量保證大綱,監(jiān)督產(chǎn)品的六性設計,跟蹤產(chǎn)品質(zhì)量問題,確保研發(fā)質(zhì)量。研發(fā)團隊:負責系統(tǒng)研制及測試的組織與實施工作。2.2項目進度計劃自項目完成招標并簽訂合同后在10個自然月內(nèi)完成基本功能研制、系統(tǒng)聯(lián)調(diào)與原型系統(tǒng)測試、系統(tǒng)試用與驗收,系統(tǒng)具備推廣使用條件,系統(tǒng)實際進度如下。(1)功能需求對接與細化階段(30自然日)。公司組織研制項目組,并指定項目負責人與甲方就系統(tǒng)需求進一步深化功能需求,明確相關技術指標,形成需求規(guī)格說明文檔。作為項目研制最終依據(jù)。(2) 總體架構設計階段(40自然日)。根據(jù)項目需求規(guī)格說明文檔,確定系統(tǒng)研制采用最終技術及總體架構,細化系統(tǒng)功能模塊,制定總體技術方案及功能要求規(guī)格說明書。(3) 功能研制階段(90自然日)。依據(jù)總體技術方案、功能規(guī)格說明等需求文件,進行系統(tǒng)功能的開發(fā),并對系統(tǒng)功能進行測試。按照項目進度計劃定期組織項目內(nèi)部審查及中期評估,并及時向甲方匯報項目研制進度。(4) 系統(tǒng)聯(lián)調(diào)與原型系統(tǒng)測試階段(30自然日)。根據(jù)中期評估結果,對軟件進行修改完善,并同時組織系統(tǒng)聯(lián)調(diào)和原型軟件系統(tǒng)測試,針對系統(tǒng)測試發(fā)現(xiàn)的問題完成軟件整改,形成穩(wěn)定的系統(tǒng)版本。(5) 實際部署試用階段(20自然日)。系統(tǒng)交付使用單位進行試用,同時組織項目組對發(fā)現(xiàn)的問題進行修改完善,組織完成項目驗收與評審。2.3質(zhì)量保障措施質(zhì)量保障措施包括項目質(zhì)量管理保障措施和軟件開發(fā)質(zhì)量保障措施兩方面。2.3.1項目質(zhì)量管理保障措施(1) 資深的質(zhì)量經(jīng)理與質(zhì)保組。針對本項目,將派遣資深的質(zhì)量經(jīng)理參與質(zhì)量保證組(簡稱SQA組)°SQA組負責確保項目遵守質(zhì)量保證體系的標準要求,確保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊數(shù)學聽評課記錄 《擲一擲》人教版
- 一年級上冊數(shù)學聽評課記錄-第4單元:第2課時《一起來分類》北師大版
- 豬肉攤位員工合同(2篇)
- 魯人版九年級道德與法治上冊 3.1 我們共同的精神家園 聽課評課記錄
- 粵教版地理七年級上冊5.3《聚落的發(fā)展變化》聽課評課記錄
- 八年級歷史人教版下冊聽課評課記錄:第15課 鋼鐵長城
- 湘教版數(shù)學七年級上冊4.1《幾何圖形》聽評課記錄
- 蘇科版數(shù)學七年級下冊《11.2 不等式的解集》聽評課記錄2
- 2022年新課標八年級上冊道德與法治《10.2 天下興亡 匹夫有責 》聽課評課記錄
- 魯教版地理七年級下冊第九章《青藏地區(qū)》單元備課聽課評課記錄
- 三年級上冊數(shù)學脫式計算大全600題及答案
- 計算機控制系統(tǒng) 課件 第10章 網(wǎng)絡化控制系統(tǒng)的分析與設計
- 魯教版(五四制)七年級數(shù)學上冊期末考試卷-附帶答案
- 南京大學儀器分析習題集
- 空調(diào)維保應急預案
- 小學六年級數(shù)學上冊解決問題專項必考題西師大版
- 2023年高考語文全國乙卷作文范文及導寫(解讀+素材+范文)課件版
- 模塊建房施工方案
- 多域聯(lián)合作戰(zhàn)
- 定向鉆出入土點平面布置圖(可編輯)
- 美容美發(fā)場所衛(wèi)生規(guī)范
評論
0/150
提交評論