一種基于數(shù)據(jù)挖掘與分析的模型管理工具_(dá)第1頁
一種基于數(shù)據(jù)挖掘與分析的模型管理工具_(dá)第2頁
一種基于數(shù)據(jù)挖掘與分析的模型管理工具_(dá)第3頁
一種基于數(shù)據(jù)挖掘與分析的模型管理工具_(dá)第4頁
一種基于數(shù)據(jù)挖掘與分析的模型管理工具_(dá)第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)交底書本技術(shù)交底書適用以產(chǎn)品、設(shè)備為主的專利申請,即技術(shù)創(chuàng)新主要是基于產(chǎn)品、設(shè)備的改進(jìn),請?zhí)峁┮韵录夹g(shù)資料:1、發(fā)明名稱(反映發(fā)明的主題。一般不應(yīng)超過25個字)一種基于數(shù)據(jù)挖掘與分析的模型管理工具2、技術(shù)領(lǐng)域(本發(fā)明直接所屬或直接應(yīng)用的具體技術(shù)領(lǐng)域)大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)建模3、現(xiàn)有技術(shù)/產(chǎn)品的介紹(描述與本發(fā)明有關(guān)的現(xiàn)有技術(shù),包括:現(xiàn)有的產(chǎn)品的結(jié)構(gòu),功能,并根據(jù)現(xiàn)有的技術(shù)特征指出該現(xiàn)有技術(shù)相對于本發(fā)明來說存在的缺點或不足之處。并提供理解本發(fā)明內(nèi)容所必須的其他背景知識)隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的挖掘與分析開始被人們逐漸重視起來,因此運應(yīng)運而生了許多大數(shù)據(jù)平臺,這些大數(shù)據(jù)平臺很多都是專注于

2、海量數(shù)據(jù)的處理:數(shù)據(jù)的采集、解析、預(yù)處理、ETL,而在數(shù)據(jù)價值的挖掘和分析方面做的比較少。另外也有一些專業(yè)的數(shù)據(jù)挖掘與分析平臺,提供了比較豐富的數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)分析算法,但是在自主模型創(chuàng)建方面考慮的不全面,不能進(jìn)行靈活的、自主的創(chuàng)建模型,進(jìn)行數(shù)據(jù)的挖掘和分析,不能由使用者按照自己的設(shè)想通過友好的模型管理界面進(jìn)行自主模型創(chuàng)建,往往是以特定的多種行業(yè)的模型模板對外提供的;另外,在算法的選擇方面比較單一,不能根據(jù)數(shù)據(jù)的量級而選擇合適的算法,從而不能保證數(shù)據(jù)挖掘分析時的處理效率。所謂自主建模,就是通過模型管理界面,根據(jù)需要分析的行業(yè)業(yè)務(wù)知識,選擇需要分析的數(shù)據(jù)源,然后根據(jù)數(shù)據(jù)挖掘分析的知識,創(chuàng)建數(shù)據(jù)

3、挖掘分析的模型。模型創(chuàng)建過程中完全是界面化、可視化和拖拉拽的方式進(jìn)行,數(shù)據(jù)挖掘與分析需要的操作、算法都是在平臺上配置好的,不需要編寫代碼。4、發(fā)明內(nèi)容(1說明本發(fā)明達(dá)到發(fā)明目的或解決技術(shù)問題所采用的技術(shù)手段。2闡明本發(fā)明的工作原理,3產(chǎn)品(設(shè)備)的組成、結(jié)構(gòu),尤其分別說明各組成部分(模塊)的功能,各組成部分(模塊)之間的相互關(guān)系,例如連接關(guān)系、信號(信息)在各個模塊處理和傳輸?shù)那闆r,被作用的信號(信息)的走向。4注明本發(fā)明與現(xiàn)有技術(shù)的區(qū)別點)該數(shù)據(jù)挖掘與分析的模型管理平臺IMMP(IfdataModelManagerPlatform),主要有模型管理、算法管理、任務(wù)管理、數(shù)據(jù)源管理、業(yè)務(wù)源管理

4、模塊構(gòu)成;其核心功能是模型管理、算法管理、任務(wù)管理,其他模塊都是為這三項核心模塊進(jìn)行提供輔助的模塊。為了能夠達(dá)到自主建模、實時模型訓(xùn)練、實時展示模型計算的輸出等效果,需要考慮工作流技術(shù)、計算引擎技術(shù)、數(shù)據(jù)存儲技術(shù)、任務(wù)調(diào)度等技術(shù)的選型,以便于能夠有效支撐這些功能的實現(xiàn)。在工作流技術(shù)選型方面,我們是以JBPM為藍(lán)本進(jìn)行設(shè)計和開發(fā)了建模流程界面和流程調(diào)度服務(wù),使用的核心語言為java,web框架使用Bootstrap;在計算引擎技術(shù)選型方面,采用是java多線程技術(shù);數(shù)據(jù)存儲在技術(shù)選型時,需要考慮大數(shù)據(jù)5V特點中的大體量(Volume)、時效性(Velocity),所以,數(shù)據(jù)存儲技術(shù)選擇了Hdfs

5、+Hbase+Hive、GreenPlum、Redis、Mysql等多種存儲機(jī)制;任務(wù)調(diào)度在技術(shù)選型時,我們選擇了java多線程技術(shù)。該模型管理平臺是通過WEB前臺界面通過手工拖拉拽的方式繪制數(shù)據(jù)挖掘的處理流程,并把流程信息保存在Mysql數(shù)據(jù)庫中,計算引擎從數(shù)據(jù)庫中獲取流程信息,并生成任務(wù)進(jìn)行執(zhí)行,流程中各原子算法、活動節(jié)點之間的臨時數(shù)據(jù)是通過Redis緩存進(jìn)行交互的。模型管理是由模型定義與訓(xùn)練、模型測試、模型發(fā)布、模型評估、歷史模型查詢等功能組成,其中模型定義與訓(xùn)練是可以在流程繪制過程中進(jìn)行流程實時調(diào)試執(zhí)行的,并且可以對計算結(jié)果進(jìn)行展示;并且每一個原子算法、活動執(zhí)行的結(jié)果會保存在臨時存儲中

6、,并且可供其后繼任務(wù)隨時訪問,當(dāng)整個模型訓(xùn)練完成以后,模型成功保存后,通過消除操作,才可以把訓(xùn)練過程中的臨時存儲數(shù)據(jù)進(jìn)行釋放,這樣可以提高建模的效率,避免每次調(diào)試都要從開始點執(zhí)行;模型發(fā)布是用來進(jìn)行模型導(dǎo)出和導(dǎo)入的,目的是把已經(jīng)繪制好的模型信息從平臺上導(dǎo)出形成文件,并可以導(dǎo)入到另一個平臺實例中,以便于進(jìn)行模型的遷移;對于成熟在用的模型,運行一段時間以后,可以使用模型評估模塊,對模型的有效性進(jìn)行評估,并可以進(jìn)行優(yōu)化。算法管理是包含原子算法管理、原子操作管理、原子服務(wù)管理、偽碼編程管理、工具包管理等功能,這些功能為平臺可擴(kuò)展性提供了支撐,主要是面向平臺管理人員開放,可以靈活配置各種算法、操作、服務(wù)

7、,并且可以把常用的操作集成為工具包,為建模人員提供。其中原子算法集成了多種語言實現(xiàn)的版本(R,C+,SparkR、Python、Java、Julia、Scala、Go、Mahout),以便于建模人員根據(jù)實際需要處理的數(shù)據(jù)量選擇效率最佳的算法。任務(wù)管理主要是對測試通過的成熟的模型,形成固定的任務(wù),可以配置定期時間,任務(wù)調(diào)度根據(jù)定時器調(diào)度啟動執(zhí)行,并可以監(jiān)控模型執(zhí)行狀態(tài):成功、失敗、執(zhí)行中,還可以查看執(zhí)行日志和結(jié)果。任務(wù)管理還可以設(shè)定模型運行的并行度,根據(jù)用戶對計算效率的要求設(shè)定并行度,以提高處理效率,但并行度必須以當(dāng)前平臺基礎(chǔ)實施規(guī)模為前提的。該模型管理平臺區(qū)別于已有平臺的最大特點有:1、自主建

8、模功能,即可以通過拖拉拽方式可視化繪制模型流程,并且可以實時單步訓(xùn)練,并可以對輸出結(jié)果進(jìn)行展示。2、平臺支持多語言實現(xiàn)的算法版本,可以根據(jù)數(shù)量靈活選擇最佳的算法使用。3、平臺提供簡單的編程功能,支持的編程語言包括:Java、C+、Python等主流開發(fā)語言,并可以集成到自建模型中輔助數(shù)據(jù)挖掘與分析處理。5、技術(shù)效果(說明本發(fā)明的有益效果,可以由工作性能的提高,制作成本、能量損耗的減少,穩(wěn)定性的增加,操作、控制、使用的簡便,以及其他有用性能的出現(xiàn)等方面反映出來)該數(shù)據(jù)挖掘與分析模型管理平臺的發(fā)明主要解決了如下幾個方面的問題:1、提高了數(shù)據(jù)挖掘和分析時模型創(chuàng)建的效率:平臺通過托拉拽的方式就可以創(chuàng)建

9、數(shù)據(jù)挖掘和分析模型,從而改變了通過編寫程序代碼來創(chuàng)建數(shù)據(jù)挖掘模型的傳統(tǒng)做法,并且降低了對建模人員編程能力要求,這樣使得建模人員可以專注于數(shù)據(jù)挖掘理論研究,快速繪制挖掘模型。2、提升了數(shù)據(jù)挖掘和分析處理的效率:平臺提供了適合多種場景的算法實現(xiàn)版本,并且可以根據(jù)實際的數(shù)據(jù)量來設(shè)定計算的并行度,大大地提升了分析處理的效率。3、減少了運營人員需求,降低了生產(chǎn)成本:平臺中任務(wù)管理模塊提供了定時執(zhí)行功能,從而免去了專門安排人員手工執(zhí)行任務(wù)工作,減少了人員需求,從而降低了生產(chǎn)成本。6、附圖與說明(附圖應(yīng)是黑白的,應(yīng)以電子制圖或流程圖的標(biāo)準(zhǔn)繪制,而非掃描圖或照片。使專利工作人員可直接在附圖上編輯修改,實用新型

10、申請必須帶附圖。如有提供仿真圖,則圖片上坐標(biāo)的文字必須用中文。要說明各附圖的名稱)技術(shù)及實現(xiàn):Jsp、Html、Activiti、界面算法自適應(yīng))等技術(shù)及實現(xiàn):Java多線程技術(shù)及實現(xiàn):Java多線程技術(shù)及實現(xiàn):成熟的跨平臺、跨語言的RPC服務(wù)技術(shù)及實現(xiàn):Java、C+、R、Python、spark等計算引擎任務(wù)引擎WEB計算節(jié)點功能:1.計算2.結(jié)果保存功能:1.服務(wù)編排2.負(fù)載均衡3.服務(wù)分發(fā)功能:1.活動識別、參數(shù)解析2.參數(shù)賦值(實際值、指針等)功能:1任務(wù)調(diào)度2.活動排序4.活動觸發(fā)3.狀態(tài)監(jiān)控功能:1 .原子算法、操作維護(hù)2 .建模人員模型訓(xùn)練、觀測3 .任務(wù)監(jiān)控、預(yù)測輸出具體實施

11、方式(對照附圖,說明本發(fā)明的具體實施方式所采用的產(chǎn)品(設(shè)備)的組成、結(jié)構(gòu),尤其分別說明各組成部分(模塊)的功能和作用,各組成部分(模塊)之間的相互關(guān)系,例如連接關(guān)系、信號(信息)在各個模塊處理和傳輸?shù)那闆r,被作用的信號(信息)的走向。清楚完整地述具體的實施方式,使本領(lǐng)域的普通技術(shù)人員能夠不需創(chuàng)造性的勞動就可以理解/實現(xiàn)本專利。以及解釋說明通過上述的技術(shù)方案為何能實現(xiàn)本發(fā)明的發(fā)明目的。提供是否還有別的替代方案同樣能完成發(fā)明目的。這里的替代可以是部分結(jié)構(gòu)、器件、模塊的替代,也可以是整體技術(shù)方案的替代。)對于該數(shù)據(jù)挖掘與分析的模型管理平臺中的關(guān)鍵流程節(jié)點需要做如下說明:1、界面:此部分功能包括原子算

12、法和操作的維護(hù)、模型訓(xùn)練、模型運行輸出觀測、任務(wù)監(jiān)控等功能。建模人員在界面上通過工作流以拖、拉、拽的方式選擇算法、操作,組織處理邏輯關(guān)系,平臺對已經(jīng)繪制好的工作流模型進(jìn)行沉淀。建模人員可以在界面上及時查看模型訓(xùn)練的結(jié)果;也可以查看已經(jīng)模型執(zhí)行的進(jìn)展?fàn)顟B(tài)等相關(guān)信息。2、任務(wù)引擎:包括任務(wù)調(diào)度、活動排序、活動觸發(fā)、狀態(tài)監(jiān)控輸出等功能。通過任務(wù)引擎建模平臺對任務(wù)進(jìn)行調(diào)度、對活動進(jìn)行排序、按照界面要求出發(fā)活動運行,并實時監(jiān)控任務(wù)執(zhí)行狀態(tài),并可以對模型訓(xùn)練執(zhí)行指令和結(jié)果查看指令進(jìn)行執(zhí)行。3、計算引擎:包含活動識別、參數(shù)解析賦值、算法的調(diào)用。當(dāng)任務(wù)進(jìn)行調(diào)用時計算引擎通過對工作流模型解析識別后調(diào)用相應(yīng)的算法服務(wù)。4、計算服務(wù):完成服務(wù)編排、負(fù)載均衡、服務(wù)分發(fā)等。此部分為中間件采用ZeroIce實現(xiàn),以完成服務(wù)節(jié)點與計算節(jié)點之間遠(yuǎn)程和異構(gòu)系統(tǒng)之間的通信。5、計算節(jié)點:對指定數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論