版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(19)中華人民共和國國家知識(shí)產(chǎn)權(quán)局
(12)發(fā)明專利申請
(10)申請公布號CN111125531A
HP申請公布日
(43)2020.05.08
(21)申請?zhí)?01911353069.1
(22)申請日2019.12.25
(71)申請人北京每日優(yōu)鮮電子商務(wù)有限公司
地址100102北京市朝陽區(qū)創(chuàng)遠(yuǎn)路34號院7
號樓08層801室
(72)發(fā)明人蔡光龍宋威康偉偉
(74)專利代理機(jī)構(gòu)北京三高永信知識(shí)產(chǎn)權(quán)代理
有限責(zé)任公司11138
代理人寧立存
(51)Int.CI.
G06F16/9535(2019.01)
G06F16/2458(2019.01)
G06K9/62(2006.01)
權(quán)利要求書2頁說明書18頁附圖10頁
(54)發(fā)明名稱
數(shù)倉模型的分值確定方法、裝置、設(shè)備及存
儲(chǔ)介質(zhì)
(57)摘要
本申請公開了一種數(shù)倉模型的分值確定方
法、裝置、設(shè)備及存儲(chǔ)介質(zhì),屬于大數(shù)據(jù)技術(shù)領(lǐng)
域。本實(shí)施例提供了一種對數(shù)倉模型智能評分的
方法,通過利用機(jī)器學(xué)習(xí)技術(shù),提取數(shù)倉模型的
與分值關(guān)聯(lián)的特征,通過分值預(yù)測模型將特征映
射為分值,從而自動(dòng)化地對模型進(jìn)行打分,通過
該方法,免去了人工進(jìn)行打分的繁瑣操作,從而
極大地節(jié)省了人力成本和時(shí)間開銷,因而提高了
數(shù)倉模型評分的效率,并且,由于綜合統(tǒng)計(jì)多個(gè)
維度的數(shù)據(jù)對數(shù)倉模型進(jìn)行自動(dòng)評分,可以提供
統(tǒng)一、客觀的標(biāo)準(zhǔn),從而提高數(shù)倉模型評分的準(zhǔn)
確性。
CN111125531A權(quán)利要求書1/2頁
1.一種數(shù)倉模型的分值確定方法,其特征在于,所述方法包括:
獲取數(shù)倉模型的目標(biāo)特征,所述目標(biāo)特征包括熱度、屬性維護(hù)數(shù)量、標(biāo)簽數(shù)量、報(bào)警數(shù)
量、使用方式維護(hù)完善值、生命周期維護(hù)完善值、事故次數(shù)中的至少一項(xiàng);
將所述目標(biāo)特征輸入分值預(yù)測模型,所述分值預(yù)測模型根據(jù)樣本數(shù)倉模型的目標(biāo)特征
以及所述樣本數(shù)倉模型的分值訓(xùn)練得到;
通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模型的分值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分值預(yù)測模型包括極端梯度提升
XGBoost模型,所述XGBoost模型包括多個(gè)回歸樹,所述通過所述分值預(yù)測模型對所述目標(biāo)
特征進(jìn)行處理,輸出所述數(shù)倉模型的分值,包括:
通過所述XGBoost模型的每個(gè)回歸樹對所述目標(biāo)特征進(jìn)行處理,得到每個(gè)回歸樹為所
述數(shù)倉模型預(yù)測的分值;
獲取所述多個(gè)回歸樹預(yù)測的分值之和,作為所述數(shù)倉模型的分值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述XGBoost模型中的每個(gè)回歸樹包括一
個(gè)或多個(gè)非葉子節(jié)點(diǎn)、多個(gè)分支以及多個(gè)葉子節(jié)點(diǎn),所述非葉子節(jié)點(diǎn)包括熱度節(jié)點(diǎn)、屬性維
護(hù)數(shù)量節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)警數(shù)量節(jié)點(diǎn)、使用方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善
值節(jié)點(diǎn)、事故次數(shù)節(jié)點(diǎn)中的至少一項(xiàng);
所述熱度節(jié)點(diǎn)用于根據(jù)數(shù)倉模型的熱度進(jìn)行分類,所述熱度節(jié)點(diǎn)的每個(gè)分支表示熱度
的一個(gè)取值范圍;
所述屬性維護(hù)數(shù)量節(jié)點(diǎn)用于根據(jù)屬性維護(hù)數(shù)量進(jìn)行分類,所述屬性維護(hù)數(shù)量節(jié)點(diǎn)的每
個(gè)分支表示屬性維護(hù)數(shù)量的一個(gè)取值范圍;
所述標(biāo)簽數(shù)量節(jié)點(diǎn)用于根據(jù)標(biāo)簽數(shù)量進(jìn)行分類,所述標(biāo)簽數(shù)量節(jié)點(diǎn)的每個(gè)分支表示標(biāo)
簽數(shù)量的一個(gè)取值范圍;
所述報(bào)警數(shù)量節(jié)點(diǎn)用于根據(jù)報(bào)警數(shù)量進(jìn)行分類,所述報(bào)警數(shù)量節(jié)點(diǎn)的每個(gè)分支表示報(bào)
警數(shù)量的一個(gè)取值范圍;
所述使用方式維護(hù)完善值節(jié)點(diǎn)用于根據(jù)使用方式維護(hù)完善值進(jìn)行分類,所述使用方式
維護(hù)完善值節(jié)點(diǎn)的每個(gè)分支表示使用方式維護(hù)完善值的一個(gè)取值范圍;
所述通過所述XGBoost模型的每個(gè)回歸樹對所述目標(biāo)特征進(jìn)行處理,得到每個(gè)回歸樹
為所述數(shù)倉模型預(yù)測的分值,包括:
對于所述多個(gè)回歸樹中的每個(gè)回歸樹,根據(jù)所述目標(biāo)特征在所述回歸樹中經(jīng)過的目標(biāo)
非葉子節(jié)點(diǎn)以及目標(biāo)分支,確定所述目標(biāo)特征對應(yīng)的目標(biāo)葉子節(jié)點(diǎn);
將所述目標(biāo)葉子節(jié)點(diǎn)表示的分值,獲取為所述回歸樹為所述數(shù)倉模型預(yù)測的分值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述分值預(yù)測模型對所述目標(biāo)特
征進(jìn)行處理,輸出所述數(shù)倉模型的分值之后,所述方法包括:
根據(jù)所述數(shù)倉模型的分值,向用戶推薦所述數(shù)倉模型。
5.根據(jù)權(quán)利要求4所述的方法,所述根據(jù)所述數(shù)倉模型的分值,向用戶推薦所述數(shù)倉模
型,包括:
按照分值從高到低的順序,對數(shù)據(jù)倉庫的每個(gè)數(shù)倉模型進(jìn)行排序,得到排序結(jié)果;
若所述數(shù)倉模型的分值在排序結(jié)果中排在前預(yù)設(shè)位數(shù),向所述用戶推薦所述數(shù)倉模
型。
2
CN111125531A權(quán)利要求書2/2頁
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述分值預(yù)測模型對所述目標(biāo)特
征進(jìn)行處理,輸出所述數(shù)倉模型的分值之后,所述方法包括:
接收搜索指令;
響應(yīng)于所述搜索指令,根據(jù)所述數(shù)倉模型的分值,確定所述數(shù)倉模型的標(biāo)識(shí)在搜索結(jié)
果中的排列順序;
輸出攜帶有所述數(shù)倉模型的標(biāo)識(shí)的搜索結(jié)果。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述分值預(yù)測模型對所述目標(biāo)特
征進(jìn)行處理,輸出所述數(shù)倉模型的分值之后,所述方法包括:
根據(jù)所述數(shù)倉模型的分值,生成數(shù)據(jù)質(zhì)量報(bào)告,所述數(shù)據(jù)質(zhì)量報(bào)告包括所述數(shù)倉模型
的分值。
8.一種數(shù)倉模型的分值確定裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取數(shù)倉模型的目標(biāo)特征,所述目標(biāo)特征包括熱度、屬性維護(hù)數(shù)量、標(biāo)
簽數(shù)量、報(bào)警數(shù)量、使用方式維護(hù)完善值、生命周期維護(hù)完善值、事故次數(shù)中的至少一項(xiàng);
輸入模塊,用于將所述目標(biāo)特征輸入分值預(yù)測模型,所述分值預(yù)測模型根據(jù)樣本數(shù)倉
模型的目標(biāo)特征以及所述樣本數(shù)倉模型的分值訓(xùn)練得到;
處理模塊,用于通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模型
的分值。
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括一個(gè)或多個(gè)處理器和一個(gè)或多個(gè)存
儲(chǔ)器,所述一個(gè)或多個(gè)存儲(chǔ)器中存儲(chǔ)有至少一條指令,所述至少一條指令由所述一個(gè)或多
個(gè)處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至權(quán)利要求7任一項(xiàng)所述的數(shù)倉模型的分值確定
方法所執(zhí)行的操作。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所
述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至權(quán)利要求7任一項(xiàng)所述的數(shù)倉
模型的分值確定方法所執(zhí)行的操作。
3
CN111125531A說明書1/18頁
數(shù)倉模型的分值確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
技術(shù)領(lǐng)域
[0001]本申請涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別涉及一種數(shù)倉模型的分值確定方法、裝置、設(shè)備
及存儲(chǔ)介質(zhì)。
背景技術(shù)
L0002J數(shù)據(jù)倉庫簡稱數(shù)倉,是指面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)
集合。數(shù)倉模型是指按照一定的數(shù)據(jù)模型,對企業(yè)的數(shù)據(jù)進(jìn)行采集、整理后,按照各個(gè)業(yè)務(wù)
的需要,提供跨部門的、一致的業(yè)務(wù)報(bào)表數(shù)據(jù)。通過數(shù)倉模型,能夠?qū)I(yè)務(wù)進(jìn)行指導(dǎo),為決策
提供數(shù)據(jù)支持。由于系統(tǒng)的數(shù)倉模型往往數(shù)量繁多,為了幫助用戶選擇模型,可以為每個(gè)數(shù)
倉模型進(jìn)行評分,用戶可以根據(jù)數(shù)倉模型的分值,確定應(yīng)用哪一個(gè)數(shù)倉模型進(jìn)行分析和決
策。
L0003J時(shí)下,數(shù)倉模型都是人工打分的。具體而言,用戶會(huì)根據(jù)自己對模型的理解,對模
型進(jìn)行評分。
[0004]然而,人工評分的方式太過于主觀,無法有統(tǒng)一的標(biāo)準(zhǔn),而且,需要耗費(fèi)大量的時(shí)
間成本和人力資源,導(dǎo)致成本過高,效率低下。
發(fā)明內(nèi)容
[0005]本申請實(shí)施例提供了一種數(shù)倉模型的分值確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠
提高數(shù)倉模型評分的效率和準(zhǔn)確性。所述技術(shù)方案如下:
[0006]一方面,提供了一種數(shù)倉模型的分值確定方法,所述方法包括:
10007J獲取數(shù)倉模型的目標(biāo)特征,所述目標(biāo)特征包括熱度、屬性維護(hù)數(shù)量、標(biāo)簽數(shù)量、報(bào)
警數(shù)量、使用方式維護(hù)完善值、生命周期維護(hù)完善值、事故次數(shù)中的至少一項(xiàng);
[0008]將所述目標(biāo)特征輸入分值預(yù)測模型,所述分值預(yù)測模型根據(jù)樣本數(shù)倉模型的目標(biāo)
特征以及所述樣本數(shù)倉模型的分值訓(xùn)練得到;
[0009]通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模型的分值。
10010)可選地,所述分值預(yù)測模型包括極端梯度提升XGBoost模型,所述XGBoost模型包
括多個(gè)回歸樹,所述通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模型
的分值,包括:
[0011]通過所述XGBoost模型的每個(gè)回歸樹對所述目標(biāo)特征進(jìn)行處理,得到每個(gè)回歸樹
為所述數(shù)倉模型預(yù)測的分值;
[0012]獲取所述多個(gè)回歸樹預(yù)測的分值之和,作為所述數(shù)倉模型的分值。
10013)可選地,所述XGBoost模型中的每個(gè)回歸樹包括一個(gè)或多個(gè)非葉子節(jié)點(diǎn)、多個(gè)分支
以及多個(gè)葉子節(jié)點(diǎn),所述非葉子節(jié)點(diǎn)包括熱度節(jié)點(diǎn)、屬性維護(hù)數(shù)量節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)
警數(shù)量節(jié)點(diǎn)、使用方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善值節(jié)點(diǎn)、事故次數(shù)節(jié)點(diǎn)中的至少
一項(xiàng);
[0014]所述熱度節(jié)點(diǎn)用于根據(jù)數(shù)倉模型的熱度進(jìn)行分類,所述熱度節(jié)點(diǎn)的每個(gè)分支表示
4
CN111125531A說明書2/18頁
熱度的一個(gè)取值范圍;
[0015]所述屬性維護(hù)數(shù)量節(jié)點(diǎn)用于根據(jù)屬性維護(hù)數(shù)量進(jìn)行分類,所述屬性維護(hù)數(shù)量節(jié)點(diǎn)
的每個(gè)分支表示屬性維護(hù)數(shù)量的一個(gè)取值范圍;
[0016]所述標(biāo)簽數(shù)量節(jié)點(diǎn)用于根據(jù)標(biāo)簽數(shù)量進(jìn)行分類,所述標(biāo)簽數(shù)量節(jié)點(diǎn)的每個(gè)分支表
示標(biāo)簽數(shù)量的一個(gè)取值范圍;
[0017]所述報(bào)警數(shù)量節(jié)點(diǎn)用于根據(jù)報(bào)警數(shù)量進(jìn)行分類,所述報(bào)警數(shù)量節(jié)點(diǎn)的每個(gè)分支表
示報(bào)警數(shù)量的一個(gè)取值范圍;
[00網(wǎng)所述使用方式維護(hù)完善值節(jié)點(diǎn)用于根據(jù)使用方式維護(hù)完善值進(jìn)行分類,所述使用
方式維護(hù)完善值節(jié)點(diǎn)的每個(gè)分支表示使用方式維護(hù)完善值的一個(gè)取值范圍;
[0019]所述通過所述XGBoost模型的每個(gè)回歸樹對所述目標(biāo)特征進(jìn)行處理,得到每個(gè)回
歸樹為所述數(shù)倉模型預(yù)測的分值,包括:
[0020]對于所述多個(gè)回歸樹中的每個(gè)回歸樹,根據(jù)所述目標(biāo)特征在所述回歸樹中經(jīng)過的
目標(biāo)非葉子節(jié)點(diǎn)以及目標(biāo)分支,確定所述目標(biāo)特征對應(yīng)的目標(biāo)葉子節(jié)點(diǎn);
L0021]將所述目標(biāo)葉子節(jié)點(diǎn)表示的分值,獲取為所述回歸樹為所述數(shù)倉模型預(yù)測的分
值。
10022J可選地,所述通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模
型的分值之后,所述方法包括:
10023]根據(jù)所述數(shù)倉模型的分值,向用戶推薦所述數(shù)倉模型。
[0024]可選地,所述根據(jù)所述數(shù)倉模型的分值,向用戶推薦所述數(shù)倉模型,包括:
[0025]按照分值從高到低的順序,對數(shù)據(jù)倉庫的每個(gè)數(shù)倉模型進(jìn)行排序,得到排序結(jié)果;
[0026]若所述數(shù)倉模型的分值在排序結(jié)果中排在前預(yù)設(shè)位數(shù),向所述用戶推薦所述數(shù)倉
模型。
10027J可選地,所述通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模
型的分值之后,所述方法包括:
[0028]接收搜索指令;
10029]響應(yīng)于所述搜索指令,根據(jù)所述數(shù)倉模型的分值,確定所述數(shù)倉模型的標(biāo)識(shí)在搜
索結(jié)果中的排列順序;
[0030]輸出攜帶有所述數(shù)倉模型的標(biāo)識(shí)的搜索結(jié)果。
10031)可選地,所述通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模
型的分值之后,所述方法包括:
[0032]根據(jù)所述數(shù)倉模型的分值,生成數(shù)據(jù)質(zhì)量報(bào)告,所述數(shù)據(jù)質(zhì)量報(bào)告包括所述數(shù)倉
模型的分值。
[0033]另一方面,提供了一種數(shù)倉模型的分值確定裝置,所述裝置包括:
10034)獲取模塊,用于獲取數(shù)倉模型的目標(biāo)特征,所述目標(biāo)特征包括熱度、屬性維護(hù)數(shù)
量、標(biāo)簽數(shù)量、報(bào)警數(shù)量、使用方式維護(hù)完善值、生命周期維護(hù)完善值、事故次數(shù)中的至少一
項(xiàng);
[0035]輸入模塊,用于將所述目標(biāo)特征輸入分值預(yù)測模型,所述分值預(yù)測模型根據(jù)樣本
數(shù)倉模型的目標(biāo)特征以及所述樣本數(shù)倉模型的分值訓(xùn)練得到;
[0036]處理模塊,用于通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉
5
CN111125531A說明書3/18頁
模型的分值。
[0037]可選地,所述分值預(yù)測模型包括極端梯度提升XGBoost模型,所述XGBoost模型包
括多個(gè)回歸樹,所述處理模塊,用于:通過所述XGBoost模型的每個(gè)回歸樹對所述目標(biāo)特征
進(jìn)行處理,得到每個(gè)回歸樹為所述數(shù)倉模型預(yù)測的分值;獲取所述多個(gè)回歸樹預(yù)測的分值
之和,作為所述數(shù)倉模型的分值。
[0038]可選地,所述XGBoost模型中的每個(gè)回歸樹包括一個(gè)或多個(gè)非葉子節(jié)點(diǎn)、多個(gè)分支
以及多個(gè)葉子節(jié)點(diǎn),所述非葉子節(jié)點(diǎn)包括熱度節(jié)點(diǎn)、屬性維護(hù)數(shù)量節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)
警數(shù)量節(jié)點(diǎn)、使用方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善值節(jié)點(diǎn)、事故次數(shù)節(jié)點(diǎn)中的至少
一項(xiàng);
[0039]所述熱度節(jié)點(diǎn)用于根據(jù)數(shù)倉模型的熱度進(jìn)行分類,所述熱度節(jié)點(diǎn)的每個(gè)分支表示
熱度的一個(gè)取值范圍;
[0040]所述屬性維護(hù)數(shù)量節(jié)點(diǎn)用于根據(jù)屬性維護(hù)數(shù)量進(jìn)行分類,所述屬性維護(hù)數(shù)量節(jié)點(diǎn)
的每個(gè)分支表示屬性維護(hù)數(shù)量的一個(gè)取值范圍;
L0041]所述標(biāo)簽數(shù)量節(jié)點(diǎn)用于根據(jù)標(biāo)簽數(shù)量進(jìn)行分類,所述標(biāo)簽數(shù)量節(jié)點(diǎn)的每個(gè)分支表
示標(biāo)簽數(shù)量的一個(gè)取值范圍;
10042J所述報(bào)警數(shù)量節(jié)點(diǎn)用于根據(jù)報(bào)警數(shù)量進(jìn)行分類,所述報(bào)警數(shù)量節(jié)點(diǎn)的每個(gè)分支表
示報(bào)警數(shù)量的一個(gè)取值范圍;
10043)所述使用方式維護(hù)完善值節(jié)點(diǎn)用于根據(jù)使用方式維護(hù)完善值進(jìn)行分類,所述使用
方式維護(hù)完善值節(jié)點(diǎn)的每個(gè)分支表示使用方式維護(hù)完善值的一個(gè)取值范圍;
10044]所述處理模塊,用于對于所述多個(gè)回歸樹中的每個(gè)回歸樹,根據(jù)所述目標(biāo)特征在
所述回歸樹中經(jīng)過的目標(biāo)非葉子節(jié)點(diǎn)以及目標(biāo)分支,確定所述目標(biāo)特征對應(yīng)的目標(biāo)葉子節(jié)
點(diǎn);將所述目標(biāo)葉子節(jié)點(diǎn)表示的分值,獲取為所述回歸樹為所述數(shù)倉模型預(yù)測的分值。
10045J可選地,所述通過所述分值預(yù)測模型對所述目標(biāo)特征進(jìn)行處理,輸出所述數(shù)倉模
型的分值之后,所述裝置包括:
10046)推薦模塊,用于根據(jù)所述數(shù)倉模型的分值,向用戶推薦所述數(shù)倉模型。
[0047]可選地,所述推薦模塊,用于:按照分值從高到低的順序,對數(shù)據(jù)倉庫的每個(gè)數(shù)倉
模型進(jìn)行排序,得到排序結(jié)果;若所述數(shù)倉模型的分值在排序結(jié)果中排在前預(yù)設(shè)位數(shù),向所
述用戶推薦所述數(shù)倉模型。
10048]可選地,所述裝置還包括:
10049J接收模塊,用于接收搜索指令;
[0050]確定模塊,用于響應(yīng)于所述搜索指令,根據(jù)所述數(shù)倉模型的分值,確定所述數(shù)倉模
型的標(biāo)識(shí)在搜索結(jié)果中的排列順序;
[0051]輸出模塊,用于輸出攜帶有所述數(shù)倉模型的標(biāo)識(shí)的搜索結(jié)果。
[0052]可選地,所述裝置包括:生成模塊,用于根據(jù)所述數(shù)倉模型的分值,生成數(shù)據(jù)質(zhì)量
報(bào)告,所述數(shù)據(jù)質(zhì)量報(bào)告包括所述數(shù)倉模型的分值。
[0053]另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括一個(gè)或多個(gè)處理器和一個(gè)或
多個(gè)存儲(chǔ)器,所述一個(gè)或多個(gè)存儲(chǔ)器中存儲(chǔ)有至少一條指令,所述至少一條指令由所述一
個(gè)或多個(gè)處理器加載并執(zhí)行以實(shí)現(xiàn)上述數(shù)倉模型的分值確定方法所執(zhí)行的操作。
[0054]另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指
6
CN111125531A說明書4/18頁
令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述數(shù)倉模型的分值確定方法所執(zhí)行的
操作。
[0055]本申請實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:
[0056]本實(shí)施例提供了一種對數(shù)倉模型智能評分的方法,通過利用機(jī)器學(xué)習(xí)技術(shù),提取
數(shù)倉模型的與分值關(guān)聯(lián)的特征,通過分值預(yù)測模型將特征映射為分值,從而自動(dòng)化地對模
型進(jìn)行打分,通過該方法,免去了人工進(jìn)行打分的繁瑣操作,從而極大地節(jié)省了人力成本和
時(shí)間開銷,因而提高了數(shù)倉模型評分的效率,并且,由于綜合統(tǒng)計(jì)多個(gè)維度的數(shù)據(jù)對數(shù)倉模
型進(jìn)行自動(dòng)評分,可以提供統(tǒng)一、客觀的標(biāo)準(zhǔn),從而提高數(shù)倉模型評分的準(zhǔn)確性。
附圖說明
10057J為了更清楚地說明本申請實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使
用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實(shí)施例,對于
本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他
的附圖。
[0058]圖1是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定方法的實(shí)施環(huán)境的示意圖;
[0059]圖2是本申請實(shí)施例提供的一種分值預(yù)測模型的訓(xùn)練方法的流程圖;
[0060]圖3是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定方法的流程圖;
[0061]圖4是本申請實(shí)施例提供的一種模型評分界面的示意圖;
[0062]圖5是本申請實(shí)施例提供的一種數(shù)倉模型的推薦方法的流程圖;
[0063]圖6是本申請實(shí)施例提供的一種模型推薦界面的示意圖;
[0064]圖7是本申請實(shí)施例提供的一種數(shù)倉模型的搜索方法的流程圖;
[0065]圖8是本申請實(shí)施例提供的一種數(shù)倉模型的搜索界面的示意圖;
[0066]圖9是本申請實(shí)施例提供的一種數(shù)倉模型的搜索方法的流程圖;
[0067]圖10是本申請實(shí)施例提供的一種數(shù)倉模型的智能評分系統(tǒng)的架構(gòu)圖;
10068]圖11是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定裝置的結(jié)構(gòu)示意圖;
10069]圖12是本申請實(shí)施例提供的一種終端的結(jié)構(gòu)示意圖;
10070]圖13是本申請實(shí)施例提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
具體實(shí)施方式
[0071]為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本申請實(shí)施方
式作進(jìn)一步地詳細(xì)描述。
[0072]本申請中術(shù)語“第一”第二”等字樣用于對作用和功能基本相同的相同項(xiàng)或相似
項(xiàng)進(jìn)行區(qū)分,應(yīng)理解,,第一"第二"、第n”之間不具有邏輯或時(shí)序上的依賴關(guān)系,也不對
數(shù)量和執(zhí)行順序進(jìn)行限定。還應(yīng)理解,盡管以下描述使用術(shù)語第一、第二等來描述各種元
素,但這些元素不應(yīng)受術(shù)語的限制。這些術(shù)語只是用于將一元素與另一元素區(qū)別分開。例
如,在不脫離各種示例的范圍的情況下,第一圖像可以被稱為第二圖像,并且類似地,第二
圖像可以被稱為第一圖像。第一圖像和第二圖像都可以是圖像,并且在某些情況下,可以是
單獨(dú)且不同的圖像。
[0073]本申請中術(shù)語“至少一個(gè)”的含義是指一個(gè)或多個(gè),本申請中術(shù)語“多個(gè)”的含義是
7
CN111125531A說明書5/18頁
指兩個(gè)或兩個(gè)以上,例如,多個(gè)數(shù)據(jù)包是指兩個(gè)或兩個(gè)以上的數(shù)據(jù)包。
[0074]應(yīng)理解,在本文中對各種示例的描述中所使用的術(shù)語只是為了描述特定示例,而
并非旨在進(jìn)行限制。如在對各種示例的描述和所附權(quán)利要求書中所使用的那樣,單數(shù)形式
“一個(gè)(“a"加和“該”旨在也包括復(fù)數(shù)形式,除非上下文另外明確地指示。
[0075]還應(yīng)理解,本文中所使用的術(shù)語“和/或”是指并且涵蓋相關(guān)聯(lián)的所列出的項(xiàng)目中
的一個(gè)或多個(gè)項(xiàng)目的任何和全部可能的組合。術(shù)語“和/或”,是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)
系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在
B這三種情況。另外,本申請中的字符“尸,一般表示前后關(guān)聯(lián)對象是一種"或''的關(guān)系。
10076J還應(yīng)理解,在本申請的各個(gè)實(shí)施例中,各個(gè)過程的序號的大小并不意味著執(zhí)行順
序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本申請實(shí)施例的實(shí)施
過程構(gòu)成任何限定。
[0077]還應(yīng)理解,根據(jù)A確定B并不意味著僅僅根據(jù)A確定B,還可以根據(jù)A和/或其它信息
確定B。
[0078]還應(yīng)理解,術(shù)語“包括”(也稱“includes"、including"、Comprises”和/或
“Comprising")當(dāng)在本說明書中使用時(shí)指定存在所陳述的特征、整數(shù)、步驟、操作、元素、和/
或部件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元素、部件、和/
或其分組。
[0079]還應(yīng)理解,術(shù)語“如果”可被解釋為意指“當(dāng)…時(shí)”(“when”或“upon”)或“響應(yīng)于確
定,,或“響應(yīng)于檢測到,,。類似地,根據(jù)上下文,短語“如果確定…”或“如果檢測到[所陳述的
條件或事件廠可被解釋為意指“在確定…時(shí)”或“響應(yīng)于確定…”或“在檢測到[所陳述的
條件或事件]時(shí),,或“響應(yīng)于檢測到[所陳述的條件或事件廣。
[0080]以下,示例性介紹本申請的硬件環(huán)境。
[0081]圖1是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定方法的實(shí)施環(huán)境的示意圖。
該實(shí)施環(huán)境包括:終端101和智能評分系統(tǒng)102。終端101通過無線網(wǎng)絡(luò)或有線網(wǎng)絡(luò)與智能評
分系統(tǒng)102相連。
[0082]終端101可以是智能手機(jī)、游戲主機(jī)、臺(tái)式計(jì)算機(jī)、平板電腦、電子書閱讀器、MP3
(MovingPictureExpertsGroupAudioLayerIII,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)
播放器或MP4(MovingPictureExpertsGroupAudioLayerIV,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)
音頻層面4)播放器和膝上型便攜計(jì)算機(jī)中的至少一種。終端101安裝和運(yùn)行有支持應(yīng)用程
序,例如,該應(yīng)用程序可以具有數(shù)倉模型推薦功能、數(shù)倉模型搜索功能、數(shù)據(jù)質(zhì)量報(bào)告生成
功能的至少一種。
[0083]智能評分系統(tǒng)102包括一臺(tái)服務(wù)器、多臺(tái)服務(wù)器、云計(jì)算平臺(tái)和虛擬化中心中的至
少一種。智能評分系統(tǒng)102用于為應(yīng)用程序提供后臺(tái)服務(wù)??蛇x地,智能評分系統(tǒng)102承擔(dān)主
要處理工作,終端101承擔(dān)次要處理工作;或者,智能評分系統(tǒng)102承擔(dān)次要處理工作,終端
101承擔(dān)主要處理工作;或者,智能評分系統(tǒng)102或終端101分別可以單獨(dú)承擔(dān)處理工作?;?/p>
者,智能評分系統(tǒng)102和終端101兩者之間采用分布式計(jì)算架構(gòu)進(jìn)行協(xié)同計(jì)算。
[0084]可選地,智能評分系統(tǒng)102包括:服務(wù)器1021和數(shù)據(jù)庫1022。服務(wù)器1021用于提供
數(shù)倉模型打分有關(guān)的后臺(tái)服務(wù)。服務(wù)器1021可以是一臺(tái)或多臺(tái)。當(dāng)服務(wù)器1021是多臺(tái)時(shí),存
在至少兩臺(tái)服務(wù)器1021用于提供不同的服務(wù),和/或,存在至少兩臺(tái)服務(wù)器1021用于提供相
8
CN111125531A說明書6/18頁
同的服務(wù),比如以負(fù)載均衡方式提供同一種服務(wù),本申請實(shí)施例對此不加以限定。數(shù)據(jù)庫
1022存儲(chǔ)有確定數(shù)倉模型的分值所需的數(shù)據(jù),例如數(shù)倉模型的數(shù)據(jù)、數(shù)倉模型的目標(biāo)特征、
分值預(yù)測模型等,當(dāng)服務(wù)器1021需要數(shù)據(jù)時(shí),可以訪問數(shù)據(jù)庫1022,讀取數(shù)據(jù)庫1022存儲(chǔ)的
數(shù)據(jù)。當(dāng)服務(wù)器得到計(jì)算結(jié)果時(shí),可以將計(jì)算結(jié)果寫入至數(shù)據(jù)庫1022,從而通過數(shù)據(jù)庫1022
對計(jì)算結(jié)果進(jìn)行持久化存儲(chǔ)。其中,該計(jì)算結(jié)果包括而不限于已訓(xùn)練的分值預(yù)測模型、已提
取的數(shù)倉模型的目標(biāo)特征等等。
[0085]本領(lǐng)域技術(shù)人員可以知曉,上述終端101、服務(wù)器1021的數(shù)量可以更多或更少。比
如上述終端101、服務(wù)器1021可以僅為一個(gè),或者上述終端101、服務(wù)器1021為幾十個(gè)或幾百
個(gè),或者更多數(shù)量,此時(shí)雖然圖中未示出,上述實(shí)施環(huán)境還包括其他終端,本申請實(shí)施例對
終端或服務(wù)器的數(shù)量和設(shè)備類型不加以限定。
[0086]本實(shí)施例提供了一種能夠?qū)?shù)倉模型進(jìn)行智能評分的方法,可以提供為基于數(shù)倉
元數(shù)據(jù)的智能評分系統(tǒng)。該方法的應(yīng)用前景較為廣闊,例如,可以應(yīng)用到數(shù)倉模型的搜索排
序、數(shù)倉模型的智能推薦、數(shù)據(jù)質(zhì)量白皮書的自動(dòng)生成等場景。以下,結(jié)合圖2實(shí)施例至圖10
實(shí)施例,對實(shí)現(xiàn)數(shù)倉模型智能評分的方案進(jìn)行介紹。
L0087]圖2是本申請實(shí)施例提供的一種數(shù)倉模型的分值預(yù)測模型的訓(xùn)練方法的流程圖。
參見圖2,該方法包括:
100881201、電子設(shè)備對樣本數(shù)倉模型進(jìn)行數(shù)據(jù)采集,得到數(shù)據(jù)集。
[0089]數(shù)據(jù)倉庫在流轉(zhuǎn)數(shù)據(jù)的過程中,會(huì)積累大量的數(shù)據(jù),例如人工對數(shù)倉模型的評分、
數(shù)倉模型的熱度、數(shù)倉模型監(jiān)控指標(biāo)值、數(shù)倉模型監(jiān)控任務(wù)、數(shù)倉模型的使用方式、數(shù)倉模
型的生命周期、數(shù)倉模型的標(biāo)簽、數(shù)倉模型列標(biāo)簽等等。為了從大量的數(shù)據(jù)中,找到與評分
存在關(guān)聯(lián)關(guān)系的數(shù)據(jù),可以定期通過調(diào)度系統(tǒng),將這些數(shù)據(jù)同步至電子設(shè)備,可以對同步的
數(shù)據(jù)進(jìn)行清洗,根據(jù)清洗后的數(shù)據(jù)生成以下步驟202所需的數(shù)據(jù)集。其中,生成的數(shù)據(jù)集包
括而不限于訓(xùn)練(train)數(shù)據(jù)集、測試(test)數(shù)據(jù)集及合集(trainval)數(shù)據(jù)集。
100901202、電子設(shè)備根據(jù)數(shù)據(jù)集,提取樣本數(shù)倉模型的目標(biāo)特征。
10091)目標(biāo)特征為分值預(yù)測模型的輸入特征,數(shù)倉模型的目標(biāo)特征與數(shù)倉模型的分值具
有關(guān)聯(lián)關(guān)系。本實(shí)施例中,能夠在機(jī)器學(xué)習(xí)的特征工程階段,對數(shù)據(jù)進(jìn)行分析及挖掘,選擇
與數(shù)倉模型的分值存在關(guān)聯(lián)關(guān)系的特征,作為目標(biāo)特征。由于選中的目標(biāo)特征是影響數(shù)倉
模型評分結(jié)果的特征,分值預(yù)測模型能夠利用樣本數(shù)倉模型的目標(biāo)特征以及分值,學(xué)習(xí)出
目標(biāo)特征與分值之間的關(guān)聯(lián)關(guān)系,從而在模型預(yù)測階段,依據(jù)待預(yù)測的數(shù)倉模型的目標(biāo)特
征,自動(dòng)化地進(jìn)行準(zhǔn)確打分。
[0092]目標(biāo)特征的提取過程可以包括以下步驟2021至步驟2024:
10093J步驟2021、對數(shù)據(jù)的缺失值進(jìn)行處理。
10094)對于存在缺失值的數(shù)據(jù)而言,可以將缺失值設(shè)置為預(yù)先設(shè)定的默認(rèn)值,或者剔除
缺失值,或者對缺失值進(jìn)行插補(bǔ)。其中,插補(bǔ)的方式可以包括計(jì)算缺失值所在的列的平均值
或中位數(shù),將缺失值設(shè)置為該平均值或中位數(shù)。其中,可以根據(jù)特征的類別和影響范圍確定
具體的處理方法。
[0095]步驟2022、對連續(xù)數(shù)據(jù)進(jìn)行離散化處理。
10096]連續(xù)數(shù)據(jù)是統(tǒng)計(jì)學(xué)中的概念,又稱連續(xù)變量,例如,連續(xù)數(shù)據(jù)可以是數(shù)倉模型的熱
度。本實(shí)施例中,可以將連續(xù)數(shù)據(jù)映射為離散數(shù)據(jù),從而提高數(shù)據(jù)對模型評分的影響程度,
9
CN111125531A說明書7/18頁
那么通過根據(jù)離散化后的數(shù)據(jù)進(jìn)行訓(xùn)練,可以提高模型進(jìn)行評分的準(zhǔn)確性。例如,如果數(shù)倉
模型的熱度為(XI、X2…Xn),可以對(XI、X2…Xn)進(jìn)行離散化處理,得到(KI、K2...Km),其中,
X表示離散化處理前的熱度,K表示離散化處理后的熱度,m和n為正整數(shù),且m遠(yuǎn)小于n。
[0097]步驟2023、對特征值為字符串的數(shù)據(jù)進(jìn)行處理。
[0098]很多數(shù)據(jù)的特征值包含字符,或者很多數(shù)據(jù)本身就是字符串類型,可以將這些數(shù)
據(jù)的特征值從字符轉(zhuǎn)換為數(shù)值。例如,可以采取正則提取或數(shù)值轉(zhuǎn)換等方式,對字符串進(jìn)行
計(jì)算,得到字符串對應(yīng)的數(shù)值。
10099J步驟2024、從樣本數(shù)倉模型的多個(gè)維度的特征中,選擇目標(biāo)特征。
[0100]機(jī)器學(xué)習(xí)模型通??梢砸暈橐粋€(gè)函數(shù),機(jī)器學(xué)習(xí)模型的特征選擇過程可以理解成
為計(jì)算每個(gè)特征變量對響應(yīng)變量的影響,以找到對響應(yīng)變量影響大、與響應(yīng)變量強(qiáng)相關(guān)的
特征變量。應(yīng)用在數(shù)倉模型評估的場景下,可以通過對數(shù)倉模型的數(shù)據(jù)進(jìn)行分析及挖掘,找
出所有可能會(huì)影響數(shù)倉模型評分結(jié)果的特征,對這些特征進(jìn)行統(tǒng)計(jì),計(jì)算每個(gè)特征對人工
標(biāo)注的分值的影響,從而根據(jù)影響的強(qiáng)弱,選擇機(jī)器學(xué)習(xí)模型的輸入特征,并確定特征的值
域?qū)δP偷挠绊憽?/p>
L0101J在一些實(shí)施例中,選擇的目標(biāo)特征可以包括數(shù)倉模型的熱度、數(shù)倉模型的屬性維
護(hù)數(shù)量、數(shù)倉模型的標(biāo)簽數(shù)量、數(shù)倉模型的報(bào)警數(shù)量、數(shù)倉模型的使用方式維護(hù)完善值、數(shù)
倉模型的生命周期維護(hù)完善值、數(shù)倉模型的事故次數(shù)中的至少一項(xiàng)。其中,數(shù)倉模型的報(bào)警
數(shù)量可以是距離當(dāng)前時(shí)間點(diǎn)最近的統(tǒng)計(jì)周期的報(bào)警數(shù)量,例如近3個(gè)月的報(bào)警數(shù)量。數(shù)倉模
型的報(bào)警數(shù)量可以分為多個(gè)等級的報(bào)警數(shù)量,例如可以包括近三個(gè)月紅色報(bào)警個(gè)數(shù)、數(shù)倉
模型近三個(gè)月橙色報(bào)警個(gè)數(shù)、數(shù)倉模型近三個(gè)月藍(lán)色報(bào)警個(gè)數(shù)。數(shù)倉模型的事故次數(shù)可以
是距離當(dāng)前時(shí)間點(diǎn)最近的統(tǒng)計(jì)周期的事故次數(shù),例如數(shù)倉模型最近一個(gè)月事故次數(shù)。
L0102]203、電子設(shè)備使用樣本數(shù)倉模型的目標(biāo)特征以及樣本數(shù)倉模型的分值進(jìn)行模型
訓(xùn)練,得到分值預(yù)測模型。
10103J分值預(yù)測模型是指用于預(yù)測數(shù)倉模型的分值的機(jī)器學(xué)習(xí)模型??梢詫颖緮?shù)倉模
型的目標(biāo)特征作為模型訓(xùn)練的輸入特征,將分值作為模型訓(xùn)練的標(biāo)簽(label),構(gòu)建訓(xùn)練
集,采用機(jī)器學(xué)習(xí)算法,對多個(gè)樣本數(shù)倉模型的目標(biāo)特征以及分值進(jìn)行模型訓(xùn)練,得到該分
值預(yù)測模型。其中,該機(jī)器學(xué)習(xí)算法可以包括多種,例如可以是集成學(xué)習(xí)算法,具體可以是
提高(boosting)算法、引導(dǎo)聚合(bagging)算法、堆疊(stacking)算法等。相應(yīng)地,訓(xùn)練得出
的分值預(yù)測模型可以是集成學(xué)習(xí)模型,該集成學(xué)習(xí)模型可以包括多個(gè)子模型,每個(gè)子模型
均可以根據(jù)樣本數(shù)倉模型的目標(biāo)特征進(jìn)行預(yù)測,通過結(jié)合多個(gè)子模型的預(yù)測結(jié)果,可以讓
分值預(yù)測模型自動(dòng)得出的分值更加準(zhǔn)確。
[0104]在一些實(shí)施例中,在訓(xùn)練分值預(yù)測模型的過程中,可以采用極端梯度提升
(eXtremeGradientBoosting,XGBoost)算法,使用樣本數(shù)倉模型的目標(biāo)特征以及樣本數(shù)
倉模型的分值進(jìn)行模型訓(xùn)練,得到的XGBoost模型,該XGBoost模型即為分值預(yù)測模型。根據(jù)
結(jié)果調(diào)整XGBoost的學(xué)習(xí)速率、迭代次數(shù)、梯度下降等參數(shù),選擇合適的參數(shù)并驗(yàn)證模型,經(jīng)
過驗(yàn)證數(shù)據(jù)集的結(jié)果分析,繼續(xù)迭代,直到驗(yàn)證數(shù)據(jù)集結(jié)果達(dá)到預(yù)期的效果。
[0105]例如,使用XGBoost算法進(jìn)行訓(xùn)練的過程可以包括:不斷地生成回歸樹,通過將許
多弱監(jiān)督的回歸樹集成在一起,形成一個(gè)強(qiáng)監(jiān)督的機(jī)器學(xué)習(xí)模型,以避免單個(gè)回歸樹預(yù)測
時(shí)容易出現(xiàn)過擬合的情況。具體地,會(huì)參考第1個(gè)回歸樹進(jìn)行預(yù)測時(shí)產(chǎn)生的誤差,生成第2個(gè)
10
CN111125531A說明書8/18頁
回歸樹,參考第1個(gè)回歸樹以及第2個(gè)回歸樹的組合進(jìn)行預(yù)測時(shí)產(chǎn)生的誤差,生成第3個(gè)回歸
樹,依次類推,參考n-1個(gè)回歸樹組合而成的模型進(jìn)行預(yù)測時(shí)產(chǎn)生的誤差,生成第n個(gè)回歸
樹,從而得到n個(gè)回歸樹;其中n為正整數(shù)。在生成回歸樹的過程中,每當(dāng)新增一個(gè)回歸樹,模
型整體的損失會(huì)不斷降低。其中,應(yīng)用在對數(shù)倉模型智能評估的場景,誤差可以是模型預(yù)測
的分值與人工標(biāo)注的分值之間的殘差。
[0106]XGBoost模型可以包括多個(gè)回歸樹。每個(gè)回歸樹可以包括一個(gè)或多個(gè)非葉子節(jié)點(diǎn)、
多個(gè)分支以及多個(gè)葉子節(jié)點(diǎn)。每個(gè)非葉子節(jié)點(diǎn)可以視為一個(gè)分類器,每個(gè)非葉子節(jié)點(diǎn)用于
根據(jù)目標(biāo)特征的一個(gè)維度行分類。每個(gè)非葉子節(jié)點(diǎn)連接多個(gè)分支,每個(gè)分支可以視為一個(gè)
分類結(jié)果,該分類結(jié)果可以是目標(biāo)特征的一種取值范圍。
10107]示例性地,XGBoost模型中的回歸樹上的非葉子節(jié)點(diǎn)包括熱度節(jié)點(diǎn)、屬性維護(hù)數(shù)量
節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)警數(shù)量節(jié)點(diǎn)、使用方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善值節(jié)點(diǎn)、
事故次數(shù)節(jié)點(diǎn)中的至少一項(xiàng);熱度節(jié)點(diǎn)用于根據(jù)數(shù)倉模型的熱度進(jìn)行分類,熱度節(jié)點(diǎn)的每
個(gè)分支表示熱度的一個(gè)取值范圍;屬性維護(hù)數(shù)量節(jié)點(diǎn)用于根據(jù)屬性維護(hù)數(shù)量進(jìn)行分類,屬
性維護(hù)數(shù)量節(jié)點(diǎn)的每個(gè)分支表示屬性維護(hù)數(shù)量的一個(gè)取值范圍;標(biāo)簽數(shù)量節(jié)點(diǎn)用于根據(jù)標(biāo)
簽數(shù)量進(jìn)行分類,標(biāo)簽數(shù)量節(jié)點(diǎn)的每個(gè)分支表示標(biāo)簽數(shù)量的一個(gè)取值范圍;報(bào)警數(shù)量節(jié)點(diǎn)
用于根據(jù)報(bào)警數(shù)量進(jìn)行分類,報(bào)警數(shù)量節(jié)點(diǎn)的每個(gè)分支表示報(bào)警數(shù)量的一個(gè)取值范圍;使
用方式維護(hù)完善值節(jié)點(diǎn)用于根據(jù)使用方式維護(hù)完善值進(jìn)行分類,使用方式維護(hù)完善值節(jié)點(diǎn)
的每個(gè)分支表示使用方式維護(hù)完善值的一個(gè)取值范圍。
10108]以熱度節(jié)點(diǎn)為例,XGBoost模型基于非葉子節(jié)點(diǎn)的計(jì)算過程可以包括:熱度節(jié)點(diǎn)可
以連接2個(gè)分支,第一個(gè)分支表示熱度<kl,第二個(gè)分支表示熱度次1,那么如果該樣本數(shù)
倉模型的熱度為a,且a<kl,則將該樣本數(shù)倉模型的熱度輸入至熱度節(jié)點(diǎn)后,熱度會(huì)輸出至
第一個(gè)分支,落入左子樹。其中,kl和a均K),如果對熱度進(jìn)行了歸一化,則kl和a均加,且
kl和a均勺。
10109J應(yīng)理解,上面這個(gè)例子中,非葉子節(jié)點(diǎn)具有兩個(gè)分支僅是舉例說明,在一些可能的
實(shí)施例中,非葉子節(jié)點(diǎn)可以具有三個(gè)或三個(gè)以上的分支,本實(shí)施例對非葉子節(jié)點(diǎn)具有的分
支數(shù)量并不做限定。例如,熱度節(jié)點(diǎn)可以連接3個(gè)分支,第一個(gè)分支表示熱度Vkl,第二個(gè)分
支表示klW熱度生2,第三個(gè)分支表示熱度>k2,熱度節(jié)點(diǎn)會(huì)根據(jù)樣本數(shù)倉模型的熱度,將
熱度目標(biāo)特征輸入至三個(gè)分支中的一個(gè)分支。其中,k2>0,如果對熱度進(jìn)行了歸一化,則k2
>0,且k2Q
[0110]還應(yīng)理解,上面這個(gè)例子中,每個(gè)分支對應(yīng)的取值范圍僅是舉例說明,每個(gè)分支對
應(yīng)的取值范圍可以是開區(qū)間、閉區(qū)間或半開半閉區(qū)間中的任一種,本實(shí)施例對分支對應(yīng)的
取值范圍是否包含端點(diǎn)值不做限定。
[0111]XGBoost模型中每個(gè)葉子節(jié)點(diǎn)表示數(shù)倉模型的分值的一種取值,將樣本數(shù)倉模型
的目標(biāo)特征輸入至任一個(gè)回歸樹后,該目標(biāo)特征會(huì)經(jīng)過非葉子節(jié)點(diǎn)和分支,落入至多個(gè)葉
子節(jié)點(diǎn)中的一個(gè)葉子節(jié)點(diǎn),該葉子節(jié)點(diǎn)表示的分值即為這個(gè)回歸樹預(yù)測的分值。例如,第一
個(gè)回歸樹的每個(gè)葉子節(jié)點(diǎn)可以表示數(shù)倉模型的基礎(chǔ)分值。第二個(gè)回歸樹的每個(gè)葉子節(jié)點(diǎn)可
以表示第一個(gè)回歸樹的誤差,例如可以表示數(shù)倉模型的基礎(chǔ)分值與數(shù)倉模型的標(biāo)注分值之
間的偏差。第三個(gè)回歸樹的每個(gè)葉子節(jié)點(diǎn)可以表示第一個(gè)回歸樹與第二個(gè)回歸樹的誤差之
和,第四個(gè)回歸樹的每個(gè)葉子節(jié)點(diǎn)可以表示第一個(gè)回歸樹、第二個(gè)回歸樹至第三個(gè)回歸樹
11
CN111125531A說明書9/18頁
的誤差之和,依次類推,第n個(gè)回歸樹的葉子節(jié)點(diǎn)可以表示分值的預(yù)測誤差,預(yù)測誤差為第1
個(gè)回歸樹至第n-l個(gè)回歸樹的誤差之和,n為大于1的正整數(shù)。
[0112]應(yīng)理解,模型訓(xùn)練時(shí)采用XGBoost算法,分值預(yù)測模型為XGBoost是舉例說明,在另
一些可能的實(shí)施例中,也可以采用XGBoost算法之外的其他集成學(xué)習(xí)算法來進(jìn)行模型訓(xùn)練,
相應(yīng)地,機(jī)器學(xué)習(xí)模型可以是其他集成學(xué)習(xí)模型,比如可以采用隨機(jī)森林算法進(jìn)行模型訓(xùn)
練,則機(jī)器學(xué)習(xí)模型可以是隨機(jī)森林。應(yīng)理解,也可以采用集成學(xué)習(xí)算法之外的機(jī)器學(xué)習(xí)算
法進(jìn)行模型訓(xùn)練,比如采用神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)算法、貝葉斯算法、邏輯回歸算法進(jìn)
行模型訓(xùn)練,相應(yīng)地,機(jī)器學(xué)習(xí)模型可以是深度神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、邏輯回
歸模型等。
10H3J本實(shí)施例提供的方法,通過使用樣本數(shù)倉模型的目標(biāo)特征以及樣本數(shù)倉模型的分
值進(jìn)行模型訓(xùn)練,在訓(xùn)練過程中,可以根據(jù)分值預(yù)測模型每次預(yù)測的分值與標(biāo)注的分值之
間的差異,不斷調(diào)整分值預(yù)測模型的參數(shù),使得分值預(yù)測模型的準(zhǔn)確性得以提升,使得下一
次預(yù)測時(shí)預(yù)測的分值與標(biāo)注的分值之間的差距得以減小。當(dāng)訓(xùn)練結(jié)束時(shí),分值預(yù)測模型學(xué)
習(xí)出了目標(biāo)特征與分值之間的關(guān)聯(lián)關(guān)系,從而具備了自動(dòng)對數(shù)倉模型進(jìn)行打分的功能。
10114]上述圖2實(shí)施例提供了一種基于機(jī)器學(xué)習(xí)訓(xùn)練出分值預(yù)測模型的流程,以下對應(yīng)
用該分值預(yù)測模型對數(shù)倉模型自動(dòng)評分的流程進(jìn)行介紹。
10115J參見圖3,圖3是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定方法的流程圖,該
方法包括:
10H6J301、電子設(shè)備獲取數(shù)倉模型的目標(biāo)特征。
[0H7]該電子設(shè)備可以為圖1所示系統(tǒng)架構(gòu)中的智能評分系統(tǒng)102,比如是服務(wù)器1021。
執(zhí)行圖3實(shí)施例的電子設(shè)備和執(zhí)行圖2實(shí)施例的電子設(shè)備可以是同一個(gè)電子設(shè)備,也可以是
不同的電子設(shè)備。如果執(zhí)行圖3實(shí)施例的電子設(shè)備和執(zhí)行圖2實(shí)施例的電子設(shè)備不同,兩個(gè)
方法實(shí)施例中的電子設(shè)備可以進(jìn)行交互,協(xié)同完成數(shù)倉模型自動(dòng)打分的任務(wù)。比如說,分值
預(yù)測模型的訓(xùn)練步驟可以由服務(wù)器執(zhí)行,利用分值預(yù)測模型進(jìn)行打分的步驟可以由終端執(zhí)
行。當(dāng)然,預(yù)測模型的訓(xùn)練步驟和預(yù)測步驟也可以均在終端側(cè)執(zhí)行,或者均在服務(wù)器側(cè)執(zhí)
行。還應(yīng)理解,圖3實(shí)施例側(cè)重描述與圖2實(shí)施例的區(qū)別之處,而與圖2實(shí)施例同理的步驟還
請參見圖2實(shí)施例,在圖3實(shí)施例中不做贅述。
9網(wǎng)302、電子設(shè)備將目標(biāo)特征輸入分值預(yù)測模型。
[0H9]303、電子設(shè)備通過分值預(yù)測模型對目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分值。
[0120]例如,可以在模型評分界面中輸出數(shù)倉模型的分值。參見圖4,圖4為模型評分界面
的示意圖,該模型評分界面包括模型名稱區(qū)域以及模型分值區(qū)域,該模型名稱區(qū)域包括至
少一個(gè)數(shù)倉模型的名稱,該模型分值區(qū)域包括至少一個(gè)數(shù)倉模型的分值,同一個(gè)數(shù)倉模型
的名稱和分值在模型評分界面中的位置相互對應(yīng),例如在列表的同一行中。比如在圖4中的
表中,表頭之后的第一行為fact_material_supply_demand(物質(zhì)供給與需求)和86.00,表
示名稱為fact_material_supply_demand的數(shù)倉模型的分值為86分。表頭之后的第一行為
fact_material_supply_demand_test(材料供需測試)和74.25,表示名稱為fact_
material_supply_demand_test的數(shù)倉模型的分值為74.25分。表頭之后的第三行為fact一
material_supp]y_demand_tmp2(臨時(shí)物質(zhì)供給與需求)和74.25,表示名稱為fact_
material_supply_demand_tmp2的數(shù)倉模型的分值為74.25分。
12
CN111125531A說明書10/18頁
[0121]示例性地,分值預(yù)測模型可以為XGBoost模型,XGBoost模型內(nèi)部運(yùn)算的過程具體
可以包括以下步驟:
[0122]步驟3031、通過XGBoost模型的每個(gè)回歸樹對數(shù)倉模型的目標(biāo)特征進(jìn)行處理,得到
每個(gè)回歸樹為數(shù)倉模型預(yù)測的分值。
[0123]例如,對于多個(gè)回歸樹中的每個(gè)回歸樹;可以根據(jù)目標(biāo)特征在回歸樹中經(jīng)過的目
標(biāo)非葉子節(jié)點(diǎn)以及目標(biāo)分支,確定目標(biāo)特征對應(yīng)的目標(biāo)葉子節(jié)點(diǎn);將目標(biāo)葉子節(jié)點(diǎn)表示的
預(yù)測結(jié)果,獲取為回歸樹預(yù)測的分值。
10124]以XGBoost模型中的一顆回歸樹為例,該回歸樹計(jì)算數(shù)倉模型的分值的流程可以
包括以下步驟3031A至步驟3031Bo
101251步驟3031A、電子設(shè)備根據(jù)數(shù)倉模型的目標(biāo)特征在回歸樹中經(jīng)過的目標(biāo)非葉子節(jié)
點(diǎn)以及目標(biāo)分支,確定數(shù)倉模型對應(yīng)的目標(biāo)葉子節(jié)點(diǎn)。
[0126]目標(biāo)非葉子節(jié)點(diǎn)是指回歸樹的所有非葉子節(jié)點(diǎn)中目標(biāo)特征經(jīng)過的非葉子節(jié)點(diǎn),目
標(biāo)非葉子節(jié)點(diǎn)可以是為熱度節(jié)點(diǎn)、屬性維護(hù)數(shù)量節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)警數(shù)量節(jié)點(diǎn)、使用
方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善值節(jié)點(diǎn)、事故次數(shù)節(jié)點(diǎn)中的任意一種。目標(biāo)分支是
指回歸樹的所有分支中目標(biāo)特征經(jīng)過的分支,目標(biāo)分支可以是目標(biāo)非葉子節(jié)點(diǎn)的分支。目
標(biāo)葉子節(jié)點(diǎn)是指回歸樹的所有葉子節(jié)點(diǎn)中目標(biāo)特征到達(dá)的葉子節(jié)點(diǎn)。
10127]具體地,將數(shù)倉模型的目標(biāo)特征輸入回歸樹后,會(huì)首先到達(dá)回歸樹的根節(jié)點(diǎn),根節(jié)
點(diǎn)會(huì)對目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征落入第一個(gè)目標(biāo)非葉子節(jié)點(diǎn)的哪個(gè)分支的取值范
圍,得出目標(biāo)特征所屬的目標(biāo)分支,將該目標(biāo)特征輸入該目標(biāo)分支連接的子節(jié)點(diǎn),則該目標(biāo)
分支連接的子節(jié)點(diǎn)為第二個(gè)目標(biāo)非葉子節(jié)點(diǎn);第二個(gè)目標(biāo)非葉子節(jié)點(diǎn)也會(huì)對目標(biāo)特征進(jìn)行
分類,判斷目標(biāo)特征落入第二個(gè)目標(biāo)非葉子節(jié)點(diǎn)的哪個(gè)分支的取值范圍,將該目標(biāo)特征輸
入該目標(biāo)分支連接的子節(jié)點(diǎn),則該目標(biāo)分支連接的子節(jié)點(diǎn)為第三個(gè)目標(biāo)非葉子節(jié)點(diǎn),依次
類推,數(shù)倉模型的目標(biāo)特征會(huì)經(jīng)過一個(gè)或多個(gè)目標(biāo)非葉子節(jié)點(diǎn)以及一個(gè)或多個(gè)目標(biāo)分支,
到達(dá)目標(biāo)葉子節(jié)點(diǎn)。
[0128]結(jié)合目標(biāo)非葉子節(jié)點(diǎn)的具體類型,如果目標(biāo)非葉子節(jié)點(diǎn)為熱度節(jié)點(diǎn),則該目標(biāo)非
葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)倉模型的熱度,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的熱
度屬于哪個(gè)分支對應(yīng)的熱度的取值范圍,得出數(shù)倉模型的目標(biāo)特征所屬的目標(biāo)分支。
[0129]如果目標(biāo)非葉子節(jié)點(diǎn)為屬性維護(hù)數(shù)量節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)倉模型
的屬性維護(hù)數(shù)量,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的屬性維護(hù)數(shù)量屬于
哪個(gè)分支對應(yīng)的屬性維護(hù)數(shù)量的取值范圍,得出數(shù)倉模型的目標(biāo)特征所屬的目標(biāo)分支。
[0130]如果目標(biāo)非葉子節(jié)點(diǎn)為標(biāo)簽數(shù)量節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)倉模型的標(biāo)
簽數(shù)量,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的標(biāo)簽數(shù)量屬于哪個(gè)分支對應(yīng)
的標(biāo)簽數(shù)量的取值范圍,得出數(shù)倉模型的目標(biāo)特征所屬的目標(biāo)分支。
[0131]如果目標(biāo)非葉子節(jié)點(diǎn)為報(bào)警數(shù)量節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)倉模型的報(bào)
警數(shù)量,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的報(bào)警數(shù)量屬于哪個(gè)分支對應(yīng)
的報(bào)警數(shù)量的取值范圍,得出數(shù)倉模型的目標(biāo)特征所屬的目標(biāo)分支。
[0132]如果目標(biāo)非葉子節(jié)點(diǎn)為使用方式維護(hù)完善值節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)
倉模型的使用方式維護(hù)完善值,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的使用
方式維護(hù)完善值屬于哪個(gè)分支對應(yīng)的使用方式維護(hù)完善值的取值范圍,得出數(shù)倉模型的目
13
CN111125531A說明書11/18頁
標(biāo)特征所屬的目標(biāo)分支。
[0133]如果目標(biāo)非葉子節(jié)點(diǎn)為生命周期維護(hù)完善值節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)
倉模型的生命周期維護(hù)完善值,對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的生命
周期維護(hù)完善值屬于哪個(gè)分支對應(yīng)的生命周期維護(hù)完善值的取值范圍,得出數(shù)倉模型的目
標(biāo)特征所屬的目標(biāo)分支。
[0134]如果目標(biāo)非葉子節(jié)點(diǎn)為事故次數(shù)節(jié)點(diǎn),則該目標(biāo)非葉子節(jié)點(diǎn)會(huì)根據(jù)數(shù)倉模型的事
故次數(shù),對數(shù)倉模型的目標(biāo)特征進(jìn)行分類,判斷目標(biāo)特征中的事故次數(shù)屬于哪個(gè)分支對應(yīng)
的事故次數(shù)的取值范圍,得出數(shù)倉模型的目標(biāo)特征所屬的目標(biāo)分支。
[0135]步驟3O31B、電子設(shè)備將目標(biāo)葉子節(jié)點(diǎn)表示的分值,獲取為回歸樹為數(shù)倉模型預(yù)測
的分值。
[0136]在一種可能的實(shí)現(xiàn)中,XGBoost模型可以包括回歸樹、葉子節(jié)點(diǎn)與預(yù)測結(jié)果之間的
對應(yīng)關(guān)系,每個(gè)回歸樹的每個(gè)葉子節(jié)點(diǎn)可以對應(yīng)一個(gè)分值。電子設(shè)備可以從該對應(yīng)關(guān)系中,
獲取該回歸樹以及該目標(biāo)非葉子節(jié)點(diǎn)均對應(yīng)的分值,得到目標(biāo)葉子節(jié)點(diǎn)表示的分值。
10137)步驟3032、電子設(shè)備獲取多個(gè)回歸樹預(yù)測的分值之和,作為數(shù)倉模型的分值。
[0138]具體地,如果XGBoost模型包括n個(gè)回歸樹,則n個(gè)回歸樹中的每個(gè)回歸樹可以得出
一個(gè)預(yù)測的分值,共計(jì)得到n個(gè)分值,可以將n個(gè)預(yù)測結(jié)果累加起來,將得到的和值作為數(shù)倉
模型的分值。
10139]示例性地,XGBoost模型中第一個(gè)回歸樹的預(yù)測結(jié)果可以表示數(shù)倉模型的基礎(chǔ)分
值,第二個(gè)回歸樹的預(yù)測結(jié)果可以表示第一個(gè)回歸樹的誤差,第三個(gè)回歸樹的預(yù)測結(jié)果可
以表示第一個(gè)回歸樹和第二個(gè)回歸樹的誤差之和,以此類推,第n個(gè)回歸樹的預(yù)測結(jié)果可以
表示分值的預(yù)測誤差,預(yù)測誤差為第1個(gè)回歸樹至第n-l個(gè)回歸樹的誤差之和,n為大于1的
正整數(shù)。
10140]例如,第一個(gè)回歸樹得出80,表示基礎(chǔ)分值為80;第二個(gè)回歸樹得出3,表示第一個(gè)
回歸樹少預(yù)測了3分,則將第一個(gè)回歸樹和第二個(gè)回歸樹的預(yù)測結(jié)果相加后,預(yù)測結(jié)果之和
為83,從而修正了第一個(gè)回歸樹的誤差;第三個(gè)回歸樹得出-1,表示第一個(gè)回歸樹和第二個(gè)
回歸樹總計(jì)多預(yù)測了1分,則第一個(gè)回歸樹和第二個(gè)回歸樹的預(yù)測結(jié)果相加后,預(yù)測結(jié)果之
和為82分,從而修正了第一個(gè)回歸樹和第二個(gè)回歸樹總計(jì)的誤差;以此類推,每當(dāng)加上一個(gè)
回歸樹的預(yù)測結(jié)果,可以修正該回歸樹之前的所有回歸樹的總計(jì)預(yù)測的分值,從而讓模型
打出的分值通過累加得以不斷優(yōu)化。
[0141]本實(shí)施例提供了一種對數(shù)倉模型智能評分的方法,通過利用機(jī)器學(xué)習(xí)技術(shù),提取
數(shù)倉模型的與分值關(guān)聯(lián)的特征,通過分值預(yù)測模型將特征映射為分值,從而自動(dòng)化地對模
型進(jìn)行打分,通過該方法,免去了人工進(jìn)行打分的繁瑣操作,從而極大地節(jié)省了人力成本和
時(shí)間開銷,因而提高了數(shù)倉模型評分的效率,并且,由于綜合統(tǒng)計(jì)多個(gè)維度的數(shù)據(jù)對數(shù)倉模
型進(jìn)行自動(dòng)評分,可以提供統(tǒng)一、客觀的標(biāo)準(zhǔn),從而提高數(shù)倉模型評分的準(zhǔn)確性。
[0142]上述方法可以封裝為數(shù)倉模型的分值獲取接口,當(dāng)任一業(yè)務(wù)需要獲取數(shù)倉模型的
分值時(shí),可以調(diào)用該分值獲取接口,觸發(fā)上述方法流程,自動(dòng)得出數(shù)倉模型的分值,將分值
返回給該分值獲取接口的調(diào)用方,從而快捷地應(yīng)用在各種需要對數(shù)倉模型評分的場景。
[0143]以下通過圖5實(shí)施例至圖9實(shí)施例,對該智能評分方案的具體應(yīng)用場景進(jìn)行示例性
說明。還應(yīng)理解,圖5實(shí)施例至圖9實(shí)施例側(cè)重描述與圖3實(shí)施例的區(qū)別之處,而與圖3實(shí)施例
14
CN111125531A說明書12/18頁
同理的步驟還請參見圖3實(shí)施例,在圖5實(shí)施例至圖9實(shí)施例中不做贅述。
[0144]圖5是本申請實(shí)施例提供的一種數(shù)倉模型的推薦方法的流程圖。參見圖5,該方法
包括:
[0145]501、電子設(shè)備接收用戶的推薦請求,推薦請求用于請求為用戶推薦數(shù)倉模型。
[0146]例如,終端可以響應(yīng)于用戶的操作,調(diào)用分值獲取接口,生成推薦請求,向電子設(shè)
備發(fā)送推薦請求,以觸發(fā)電子設(shè)備執(zhí)行本實(shí)施例的方法流程。
10147]502、電子設(shè)備獲取數(shù)據(jù)倉庫中多個(gè)數(shù)倉模型的目標(biāo)特征。
[0148]503、對于多個(gè)數(shù)倉模型中的每個(gè)數(shù)倉模型,電子設(shè)備將數(shù)倉模型的目標(biāo)特征輸入
分值預(yù)測模型,通過分值預(yù)測模型對數(shù)倉模型的目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分值。
101491504、電子設(shè)備按照分值從高到低的順序,對數(shù)據(jù)倉庫的每個(gè)數(shù)倉模型進(jìn)行排序,
得到排序結(jié)果。
10150)505、電子設(shè)備根據(jù)排序結(jié)果,向用戶推薦數(shù)倉模型。
[0151]例如,對于數(shù)據(jù)倉庫中的某個(gè)數(shù)倉模型而言,若該數(shù)倉模型的分值在排序結(jié)果中
排在前預(yù)設(shè)位數(shù),可以向用戶推薦數(shù)倉模型。例如,可以將排序結(jié)果中排在第一位的數(shù)倉模
型推薦給用戶。
[0152]示例性地,參見圖6,可以提供圖6所示的模型推薦界面,該模型推薦界面包括模型
分值顯示區(qū)域,該模型分值顯示區(qū)域包括模型的分值。其中,數(shù)倉模型的分值可以作為數(shù)倉
模型的推薦度呈現(xiàn)給用戶。例如,參見圖5,模型分值顯示區(qū)域可以包括推薦度、10個(gè)星星符
號以及8分,其中有8個(gè)星星符號是實(shí)心的,表示數(shù)倉模型被打了8分。
[0153]本實(shí)施例提供了一種對數(shù)倉模型智能推薦的方法,通過利用機(jī)器學(xué)習(xí)技術(shù),使用
分值預(yù)測模型對數(shù)倉模型進(jìn)行自動(dòng)打分,根據(jù)數(shù)倉模型的分值來向用戶推薦合適的數(shù)倉模
型,由于使用的數(shù)倉模型的分值更加客觀、準(zhǔn)確,因此根據(jù)分值進(jìn)行推薦時(shí),能夠保證推薦
結(jié)果的準(zhǔn)確性。
[0154]圖7是本申請實(shí)施例提供的一種數(shù)倉模型的搜索方法的流程圖。參見圖7,該方法
包括:
[0155]701、電子設(shè)備接收搜索指令。
L0156J例如,參見圖8,可以在界面中顯示搜索選項(xiàng),當(dāng)對該搜索選項(xiàng)進(jìn)行操作時(shí),可以觸
發(fā)搜索指令。該搜索指令用于指示搜索數(shù)倉模型。例如,終端可以響應(yīng)于用戶對搜索選項(xiàng)的
點(diǎn)擊操作,調(diào)用電子設(shè)備提供的分值獲取接口,向電子設(shè)備發(fā)送搜索指令,以觸發(fā)電子設(shè)備
執(zhí)行本實(shí)施例的方法流程。
[0157]702、電子設(shè)備響應(yīng)于搜索指令,獲取數(shù)據(jù)倉庫中多個(gè)數(shù)倉模型的目標(biāo)特征。
[0158]703、對于多個(gè)數(shù)倉模型中的每個(gè)數(shù)倉模型,電子設(shè)備將數(shù)倉模型的目標(biāo)特征輸入
分值預(yù)測模型,通過分值預(yù)測模型對數(shù)倉模型的目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分值。
[0159]704、電子設(shè)備根據(jù)數(shù)倉模型的分值,確定搜索結(jié)果。
[0160]電子設(shè)備可以按照分值從高到低的順序,對每個(gè)候選數(shù)倉模型進(jìn)行排序,得到排
序結(jié)果,從排序結(jié)果中選擇排在前預(yù)設(shè)位數(shù)的候選數(shù)倉模型,作為搜索結(jié)果。其中,對于任
一個(gè)數(shù)倉模型而言,可以根據(jù)數(shù)倉模型的分值,確定數(shù)倉模型的標(biāo)識(shí)在搜索結(jié)果中的排列
順序;例如,對于相同指標(biāo)的數(shù)倉模型而言,分值越高,則該數(shù)倉模型的標(biāo)識(shí)在排序結(jié)果中
的位置越靠前,從而為使用方的決策提供依據(jù)。
15
CN111125531A說明書13/18頁
[0161]705、電子設(shè)備輸出攜帶有數(shù)倉模型的標(biāo)識(shí)的搜索結(jié)果。
[0162]本實(shí)施例提供了一種對數(shù)倉模型搜索排序的方法,通過利用機(jī)器學(xué)習(xí)技術(shù),使用
分值預(yù)測模型對數(shù)倉模型進(jìn)行自動(dòng)打分,根據(jù)數(shù)倉模型的分值來向用戶推薦合適的數(shù)倉模
型,由于使用的數(shù)倉模型的分值更加客觀、準(zhǔn)確,因此根據(jù)分值進(jìn)行搜索時(shí),能夠保證搜索
結(jié)果的準(zhǔn)確性。經(jīng)實(shí)驗(yàn)測試,本實(shí)施例提供的數(shù)倉模型的搜索方法的準(zhǔn)確率提高了10%。
[0163]圖9是本申請實(shí)施例提供的一種數(shù)據(jù)質(zhì)量報(bào)告的獲取方法的流程圖。參見圖9,該
方法包括:
101641901、電子設(shè)備接收用戶的數(shù)據(jù)質(zhì)量報(bào)告獲取請求,數(shù)據(jù)質(zhì)量報(bào)告獲取請求用于請
求獲取數(shù)據(jù)質(zhì)量報(bào)告。
10165]例如,終端可以響應(yīng)于用戶對報(bào)告獲取選項(xiàng)的點(diǎn)擊操作,調(diào)用電子設(shè)備提供的分
值獲取接口,向電子設(shè)備發(fā)送數(shù)據(jù)質(zhì)量報(bào)告獲取請求,以觸發(fā)電子設(shè)備執(zhí)行本實(shí)施例的方
法流程。
101661902、電子設(shè)備獲取數(shù)倉模型的目標(biāo)特征。
[0167]在一些實(shí)施例中,數(shù)據(jù)質(zhì)量報(bào)告獲取請求可以包括用戶賬號,電子設(shè)備可以從數(shù)
據(jù)質(zhì)量報(bào)告獲取請求中,獲取用戶賬號,查詢該用戶賬號對應(yīng)的數(shù)倉模型的數(shù)倉模型的目
標(biāo)特征。
10168J903、電子設(shè)備將目標(biāo)特征輸入分值預(yù)測模型。
[0169]904、電子設(shè)備通過分值預(yù)測模型對目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分值。
[0170]905、電子設(shè)備根據(jù)數(shù)倉模型的分值,生成數(shù)據(jù)質(zhì)量報(bào)告。
[0171]電子設(shè)備可以將數(shù)倉模型的分值寫入至數(shù)據(jù)質(zhì)量報(bào)告,以使數(shù)據(jù)質(zhì)量報(bào)告攜帶數(shù)
倉模型的分值。其中,該數(shù)據(jù)質(zhì)量報(bào)告可以為個(gè)人數(shù)據(jù)質(zhì)量白皮書,數(shù)據(jù)質(zhì)量報(bào)告包括數(shù)倉
模型的分值,可以通過分值指明數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。
10172J906、電子設(shè)備輸出數(shù)據(jù)質(zhì)量報(bào)告。
[0173]本實(shí)施例提供了一種對數(shù)據(jù)質(zhì)量報(bào)告的自動(dòng)生成方法,通過利用機(jī)器學(xué)習(xí)技術(shù),
使用分值預(yù)測模型對數(shù)倉模型進(jìn)行自動(dòng)打分,數(shù)倉模型的分值來向用戶推薦合適的數(shù)倉模
型,由于使用的數(shù)倉模型的分值更加客觀、準(zhǔn)確,因此根據(jù)分值可以準(zhǔn)確有效地反映數(shù)據(jù)質(zhì)
量,保證數(shù)據(jù)質(zhì)量報(bào)告的科學(xué)性。
[0174]綜合上述各個(gè)方法實(shí)施例,參見圖10,本申請?zhí)峁┝艘环N數(shù)倉模型的智能評分系
統(tǒng),該智能評分系統(tǒng)的邏輯功能架構(gòu)包括:
[0175]一、數(shù)據(jù)搜集模塊1001
10176]數(shù)據(jù)搜集模塊1001可以用于獲取模型下游使用熱度、模型監(jiān)控指標(biāo)、模型使用方
式、模型屬性信息維度以及各類型告警信息,可以根據(jù)上述各個(gè)維度的信息構(gòu)建測試數(shù)據(jù)
集以及數(shù)據(jù)合集,根據(jù)上述各個(gè)維度的信息構(gòu)建人工標(biāo)記訓(xùn)練數(shù)據(jù)集,將人工標(biāo)記訓(xùn)練數(shù)
據(jù)集、測試數(shù)據(jù)集以及數(shù)據(jù)合集輸出至特征工程模塊1002。
[0177]二、特征工程模塊1002
101781特征工程模塊1002可以根據(jù)人工標(biāo)記訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集以及數(shù)據(jù)合集,進(jìn)
行缺失值處理、連續(xù)特征值處理、字符串特征處理以及預(yù)測模型特征選擇,將結(jié)果輸出至智
能評分模塊1003。
[0179]三、智能評分模塊1003
16
CN111125531A說明書14/18頁
[0180]智能評分模塊1003可以進(jìn)行模型特征選擇、模型訓(xùn)練,通過數(shù)據(jù)搜集模塊1001得
到的測試數(shù)據(jù)集,對訓(xùn)練的模型進(jìn)行驗(yàn)證,依據(jù)驗(yàn)證的結(jié)果對模型的參數(shù)進(jìn)行調(diào)整,該參數(shù)
調(diào)整的過程可以是一個(gè)循環(huán)迭代的過程,經(jīng)過多次迭代后,得到已訓(xùn)練的模型,可以使用已
訓(xùn)練的模型進(jìn)行系統(tǒng)評估,例如進(jìn)行模型推薦、搜索排序以及個(gè)人數(shù)據(jù)質(zhì)量白皮書的自動(dòng)
生成。
[0181]本實(shí)施例提供的系統(tǒng),將數(shù)倉生成過程中產(chǎn)生及維護(hù)的元數(shù)據(jù)信息和XGBoost機(jī)
器學(xué)習(xí)算法相結(jié)合,對數(shù)倉模型進(jìn)行智能評估,可以提高元數(shù)據(jù)維護(hù)完善程度。經(jīng)實(shí)驗(yàn),本
實(shí)施例提供的系統(tǒng)可以將元數(shù)據(jù)維護(hù)完善程度提高了20%。
L0182J圖11是本申請實(shí)施例提供的一種數(shù)倉模型的分值確定裝置的結(jié)構(gòu)示意圖。參見圖
11,該裝置包括:
[0183]獲取模塊1101,用于獲取數(shù)倉模型的目標(biāo)特征,目標(biāo)特征包括熱度、屬性維護(hù)數(shù)
量、標(biāo)簽數(shù)量、報(bào)警數(shù)量、使用方式維護(hù)完善值、生命周期維護(hù)完善值、事故次數(shù)中的至少一
項(xiàng);
L0184)輸入模塊1102,用于將目標(biāo)特征輸入分值預(yù)測模型,分值預(yù)測模型根據(jù)樣本數(shù)倉
模型的目標(biāo)特征以及樣本數(shù)倉模型的分值訓(xùn)練得到;
10185J處理模塊1103,用于通過分值預(yù)測模型對目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分
值。
10186)可選地,分值預(yù)測模型包括XGBoost模型,XGBoost模型包括多個(gè)回歸樹,處理模塊
1103,用于:通過XGBoost模型的每個(gè)回歸樹對目標(biāo)特征進(jìn)行處理,得到每個(gè)回歸樹為數(shù)倉
模型預(yù)測的分值;獲取多個(gè)回歸樹預(yù)測的分值之和,作為數(shù)倉模型的分值。
[0187]可選地,XGBoost模型中的每個(gè)回歸樹包括一個(gè)或多個(gè)非葉子節(jié)點(diǎn)、多個(gè)分支以及
多個(gè)葉子節(jié)點(diǎn),非葉子節(jié)點(diǎn)包括熱度節(jié)點(diǎn)、屬性維護(hù)數(shù)量節(jié)點(diǎn)、標(biāo)簽數(shù)量節(jié)點(diǎn)、報(bào)警數(shù)量節(jié)
點(diǎn)、使用方式維護(hù)完善值節(jié)點(diǎn)、生命周期維護(hù)完善值節(jié)點(diǎn)、事故次數(shù)節(jié)點(diǎn)中的至少一項(xiàng);
[0188]熱度節(jié)點(diǎn)用于根據(jù)數(shù)倉模型的熱度進(jìn)行分類,熱度節(jié)點(diǎn)的每個(gè)分支表示熱度的一
個(gè)取值范圍;屬性維護(hù)數(shù)量節(jié)點(diǎn)用于根據(jù)屬性維護(hù)數(shù)量進(jìn)行分類,屬性維護(hù)數(shù)量節(jié)點(diǎn)的每
個(gè)分支表示屬性維護(hù)數(shù)量的一個(gè)取值范圍;標(biāo)簽數(shù)量節(jié)點(diǎn)用于根據(jù)標(biāo)簽數(shù)量進(jìn)行分類,標(biāo)
簽數(shù)量節(jié)點(diǎn)的每個(gè)分支表示標(biāo)簽數(shù)量的一個(gè)取值范圍;報(bào)警數(shù)量節(jié)點(diǎn)用于根據(jù)報(bào)警數(shù)量進(jìn)
行分類,報(bào)警數(shù)量節(jié)點(diǎn)的每個(gè)分支表示報(bào)警數(shù)量的一個(gè)取值范圍;使用方式維護(hù)完善值節(jié)
點(diǎn)用于根據(jù)使用方式維護(hù)完善值進(jìn)行分類,使用方式維護(hù)完善值節(jié)點(diǎn)的每個(gè)分支表示使用
方式維護(hù)完善值的一個(gè)取值范圍;
[0189]處理模塊1103,用于對于多個(gè)回歸樹中的每個(gè)回歸樹,根據(jù)目標(biāo)特征在回歸樹中
經(jīng)過的目標(biāo)非葉子節(jié)點(diǎn)以及目標(biāo)分支,確定目標(biāo)特征對應(yīng)的目標(biāo)葉子節(jié)點(diǎn);將目標(biāo)葉子節(jié)
點(diǎn)表示的分值,獲取為回歸樹為數(shù)倉模型預(yù)測的分值。
[0190]可選地,通過分值預(yù)測模型對目標(biāo)特征進(jìn)行處理,輸出數(shù)倉模型的分值之后,裝置
包括:
[0191]推薦模塊,用于根據(jù)數(shù)倉模型的分值,向用戶推薦數(shù)倉模型。
[0192]可選地,推薦模塊,用于:按照分值從高到低的順序,對數(shù)據(jù)倉庫的每個(gè)數(shù)倉模型
進(jìn)行排序,得到排序結(jié)果;若數(shù)倉模型的分值在排序結(jié)果中排在前預(yù)設(shè)位數(shù),向用戶推薦數(shù)
倉模型。
17
CN111125531A說明書15/18頁
[0193]可選地,裝置還包括:接收模塊,用于接收搜索指令;確定模塊,用于響應(yīng)于搜索指
令,根據(jù)數(shù)倉模型的分值,確定數(shù)倉模型的標(biāo)識(shí)在搜索結(jié)果中的排列順序;輸出模塊,用于
輸出攜帶有數(shù)倉模型的標(biāo)識(shí)的搜索結(jié)果。
[0194]可選地,裝置包括:生成模塊,用于根據(jù)數(shù)倉模型的分值,生成數(shù)據(jù)質(zhì)量報(bào)告,數(shù)據(jù)
質(zhì)量報(bào)告包括數(shù)倉模型的分值。
[0195]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本申請的可選實(shí)施例,在此不再
---贅述。
10196J需要說明的是:上述實(shí)施例提供的數(shù)倉模型的分值確定裝置在確定數(shù)倉模型的分
值時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能
分配由不同的功能模塊完成,即將數(shù)倉模型的分值確定裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能
模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的數(shù)倉模型的分值確定
裝置與數(shù)倉模型的分值確定方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,
這里不再贅述。
[0197]上述方法實(shí)施例中的電子設(shè)備可以實(shí)現(xiàn)為終端。例如,圖12示出了本申請一個(gè)示
例性實(shí)施例提供的終端1200的結(jié)構(gòu)框圖。該終端1200可以是:智能手機(jī)、平板電腦、MP3
(MovingPictureExpertsGroupAudioLayerIII,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)
播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,動(dòng)態(tài)影像專家壓縮標(biāo)準(zhǔn)音
頻層面4)播放器、筆記本電腦或臺(tái)式電腦。終端1200還可能被稱為用戶設(shè)備、便攜式終端、
膝上型終端、臺(tái)式終端等其他名稱。
10198]通常,終端1200包括有:一個(gè)或多個(gè)處理器1201和一個(gè)或多個(gè)存儲(chǔ)器1202。
[0199]處理器1201可以包括一個(gè)或多個(gè)處理核心,比如4核心處理器、8核心處理器等。處
理器1201可以采用DSP(Digital
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)財(cái)務(wù)個(gè)人工作總結(jié)15篇
- 競選部長演講稿集合九篇
- 鄉(xiāng)鎮(zhèn)學(xué)校安全工作總結(jié)
- 土木工程實(shí)習(xí)日記3篇
- 影響和制約寧遠(yuǎn)教育發(fā)展的突出問題
- 部編版歷史九年級上冊第五單元 第16課《早期殖民掠奪》說課稿
- 五年級數(shù)學(xué)(小數(shù)除法)計(jì)算題專項(xiàng)練習(xí)及答案匯編
- 雇傭車輛免責(zé)協(xié)議書(2篇)
- 2025二級注冊建造師繼續(xù)教育機(jī)電工程考試題庫及答案
- 南京工業(yè)大學(xué)浦江學(xué)院《通信原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 壓瘡登記表模板
- 帶式輸送機(jī)傳動(dòng)裝置中一級圓柱齒輪減速器設(shè)計(jì)方案
- 氯化氫合成及鹽酸工藝管道施工方案
- AQ-1023-2006煤礦井下低壓供電系統(tǒng)及裝備通用安全技術(shù)要求解析
- 南京旅游職業(yè)學(xué)院教師招聘考試真題2022
- 生物醫(yī)藥強(qiáng)國戰(zhàn)略研究
- 司機(jī)入職申請表完整優(yōu)秀版
- 城中村改造政策
- 文雅教育-步步高小學(xué)“六雅路徑”整體育人模式探索(尹鳳葵)
- 六年級上冊語文教案盼|部編版 全省一等獎(jiǎng)
- 臨床微生物學(xué)-變形桿菌屬和枸櫞酸桿菌屬
評論
0/150
提交評論