智能系統(tǒng)設(shè)計(jì)與應(yīng)用_第1頁
智能系統(tǒng)設(shè)計(jì)與應(yīng)用_第2頁
智能系統(tǒng)設(shè)計(jì)與應(yīng)用_第3頁
智能系統(tǒng)設(shè)計(jì)與應(yīng)用_第4頁
智能系統(tǒng)設(shè)計(jì)與應(yīng)用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、智能系統(tǒng)設(shè)計(jì)與應(yīng)用 (2022 春季學(xué)期) 主講教師:詹德川Case V:Project Crystal Voice for Huawei,Model Reuse and something else目錄 項(xiàng)目背景 研究內(nèi)容 關(guān)鍵技術(shù)點(diǎn) 研究成果 項(xiàng)目總結(jié)項(xiàng)目背景基站UE下行(DownLink)上行(UpLink)項(xiàng)目概述:無線業(yè)務(wù)場(chǎng)景下某種子特性打開之后會(huì)給通信質(zhì)量帶來多少增益(EVQI_Gain)項(xiàng)目訴求:業(yè)務(wù)方面:根據(jù)無線業(yè)務(wù)部門提供的特征數(shù)據(jù),準(zhǔn)確識(shí)別潛在高增益局點(diǎn),并預(yù)測(cè)具體增益值技術(shù)方面:數(shù)據(jù)標(biāo)簽不準(zhǔn)確,新局點(diǎn)無標(biāo)記數(shù)據(jù),數(shù)據(jù)分布變化等等項(xiàng)目目標(biāo):項(xiàng)目指標(biāo):提升無線部門具體的業(yè)務(wù)性

2、能通用解決方案:以具體的業(yè)務(wù)Case為基礎(chǔ),獲得一整套通用性模型復(fù)用算法華為無線業(yè)務(wù)基站通信質(zhì)量、上行下行流量示意圖水晶語音項(xiàng)目樣本數(shù)據(jù)分布差異性示例圖 (目標(biāo)值分布p(y)項(xiàng)目背景項(xiàng)目具體描述:水晶語音項(xiàng)目是以3G信號(hào)為應(yīng)用場(chǎng)景收集相關(guān)數(shù)據(jù)子特性主要是以窄帶通信的深度覆蓋和無縫兩項(xiàng)服務(wù)為主項(xiàng)目數(shù)據(jù)包括8個(gè)局點(diǎn),每個(gè)局點(diǎn)約有1000個(gè)小區(qū)項(xiàng)目目標(biāo)就是預(yù)測(cè)新局點(diǎn)下的小區(qū)開通子特性之后的通信質(zhì)量提升項(xiàng)目任務(wù)抽象:將預(yù)測(cè)增益的問題建模為機(jī)器學(xué)習(xí)里面的回歸任務(wù),預(yù)測(cè)的增益值超過某個(gè)閾值就判定為潛在高增益局點(diǎn)X:子特性開通之前的特征EVQI、SHO_Ratio等等Y:通信質(zhì)量提升的大小EVQI_Gain

3、RegressionXY目錄 項(xiàng)目背景 研究內(nèi)容 關(guān)鍵技術(shù)點(diǎn) 研究成果 項(xiàng)目總結(jié)研究內(nèi)容項(xiàng)目技術(shù)路線:數(shù)據(jù)預(yù)處理TCA、KLIEP、SA等遷移算法時(shí)序建模、Bi-LSTM模型多示例學(xué)習(xí)Deep MIML算法基于KNN的標(biāo)簽準(zhǔn)確性度量方案LDL概率建模生成式模型建??蛇w移性評(píng)估項(xiàng)目遷移學(xué)習(xí)SDK:SDK基于特征差異的遷移淺層模型復(fù)用到深度模型異構(gòu)特征模型復(fù)用基于多示例學(xué)習(xí)遷移研究內(nèi)容數(shù)據(jù)預(yù)處理:Noisy Label去除子特性無關(guān)特征 + 降維 + 距離計(jì)算選擇30%小區(qū)七天數(shù)據(jù) + 增益波動(dòng)(方差)選擇30%交集Filter 10%研究內(nèi)容:特征選擇、降維是什么研究內(nèi)容淺層模型建模:算法:Ri

4、dge評(píng)估指標(biāo):潛在高增益局點(diǎn)識(shí)別:F1增益預(yù)測(cè):P30循環(huán)驗(yàn)證:使用除了目標(biāo)領(lǐng)域的所有局點(diǎn)訓(xùn)練模型(三折交叉驗(yàn)證選最優(yōu)模型參數(shù)),在目標(biāo)領(lǐng)域上預(yù)測(cè)* P30是指的預(yù)測(cè)值和真實(shí)值誤差在30%以內(nèi)的小區(qū)比例局點(diǎn)ABCDE1E2E3TF10.9476440.5006990.776810.4666670.953390.944340.9650790.938493P300.6990550.5358650.6643990.2531650.7655560.6754970.6374590.600277研究內(nèi)容:一些關(guān)于Ridge Regression的問題研究內(nèi)容深度模型建模:MLP: 使用小區(qū)平均數(shù)據(jù)BiL

5、STM: 使用一周時(shí)序數(shù)據(jù)DeepMIL: 使用小時(shí)級(jí)別數(shù)據(jù)局點(diǎn)ABCDE1E2E3TF10.9579830.4015150.7729910.4217690.9523810.9431610.9620250.965287P300.7031040.3248950.6863190.1772150.7322220.6516560.6133630.503458數(shù)據(jù)粒度:綜合使用了全連接神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶網(wǎng)絡(luò)和深度多示例網(wǎng)絡(luò)來處理各種粒度的數(shù)據(jù)相比較于Ridge,P30性能有所下降,和數(shù)據(jù)標(biāo)記噪音有關(guān)系,因此后文只考慮使用線性模型Ridge來預(yù)測(cè)研究內(nèi)容遷移學(xué)習(xí):遷移學(xué)習(xí)主要目的是將已有領(lǐng)域(源域)的知

6、識(shí)遷移到新的場(chǎng)景(目標(biāo)域),輔助目標(biāo)域快速有效地部署好的模型源域目標(biāo)域遷移學(xué)習(xí)遷移學(xué)習(xí)具有節(jié)省時(shí)間成本、節(jié)省標(biāo)注成本、提升模型性能等優(yōu)點(diǎn),可以解決目標(biāo)域因缺乏算力、缺乏有效標(biāo)記數(shù)據(jù)等難點(diǎn)減少新場(chǎng)景下模型訓(xùn)練的時(shí)間新場(chǎng)景標(biāo)記樣本不足,降低標(biāo)注成本利用任務(wù)之間的相關(guān)性提升模型性能研究內(nèi)容KLIEP (Kullback Leibler Importance Estimation Procedure)通過KL距離來衡量兩個(gè)分布之間的差異,并通過樣本加權(quán)方式去學(xué)習(xí)一組和樣本相關(guān)的權(quán)重問題抽象樣本權(quán)重優(yōu)化求解KLIEP、SA等算法:研究內(nèi)容TCA、KLIEP、SA等遷移算法:高低增益局點(diǎn)識(shí)別:通過一個(gè)局點(diǎn)

7、的增益預(yù)測(cè)值的平均值反映,紅色是潛在高增益局點(diǎn)高增益局點(diǎn)P30指標(biāo):P30ACE1E2E3TMean原始數(shù)據(jù)0.5000.480/0.3900.480特征工程0.7880.4870.6730.5620.6030.4170.588KL遷移0.7720.4880.6580.5800.6650.5500.619SA遷移0.8130.4840.6640.5750.6480.6750.643使用特殊的特征工程方法使得性能提升約10%使用KL和SA遷移綜合使用可以將性能提升約5%局點(diǎn)A、E1、E3、T基本可以滿足要求,P30可接近0.7達(dá)到落地標(biāo)準(zhǔn)局點(diǎn)ABCDE1E2E3TReal0.0540.0170.

8、0360.0060.0650.0630.0740.062Predict0.0590.0180.0430.0110.0670.0740.0710.054目錄 項(xiàng)目背景 研究內(nèi)容 關(guān)鍵技術(shù)點(diǎn) 研究成果 項(xiàng)目總結(jié)關(guān)鍵技術(shù)點(diǎn)標(biāo)簽不準(zhǔn)確性度量:在無線業(yè)務(wù)場(chǎng)景,標(biāo)簽是通過特定的數(shù)據(jù)(比如子特性開通之后才能收集到的數(shù)據(jù))擬合出來的,因此存在標(biāo)簽本身就不準(zhǔn)確的問題上圖:標(biāo)簽不準(zhǔn)確的定性分析,同一個(gè)x可能對(duì)應(yīng)多個(gè)目標(biāo)值,造成了回歸任務(wù)變得很困難局點(diǎn)ABCDE1E2E3T3p300.8220.3640.5180.280.670.5840.6730.73ratio0.2390.6260.4260.6720.3170

9、.4310.340.28Ratio指的是使用上述度量方法計(jì)算的標(biāo)簽的方差和標(biāo)簽真實(shí)的均值的比例。從統(tǒng)計(jì)學(xué)原理,當(dāng)ratio小于0.3時(shí),p30才可能達(dá)到0.7以上,比如A、T局點(diǎn);并且ratio越大,標(biāo)簽越不準(zhǔn)確,p30性能越差。Algorithm : 度量標(biāo)簽不準(zhǔn)的程度Step1 : 對(duì)于所有樣本有監(jiān)督地降維(線性、非線性)Step2 : 對(duì)于每一個(gè)樣本x,在隱層空間使用KNN尋找近鄰,比如10個(gè)近鄰樣本Step3 : 逐一計(jì)算10個(gè)近鄰樣本的標(biāo)簽的方差Step4 : 計(jì)算所有方差的平均值當(dāng)作樣本標(biāo)簽的不準(zhǔn)確性,即p(y | x)的方差關(guān)鍵技術(shù)點(diǎn)解決標(biāo)簽不準(zhǔn)問題:引入概率建模, 借助LDL方

10、法,其做法是將標(biāo)簽建模成一個(gè)概率分布,而不是一個(gè)單獨(dú)的標(biāo)簽值,特別適合標(biāo)簽本身就不準(zhǔn)確的業(yè)務(wù)場(chǎng)景局點(diǎn)ABCDSelf0.8270.7370.7990.777Transfer0.8240.6440.7610.708局點(diǎn)E1E2E3TSelf0.8210.8040.8010.699Transfer0.8050.7620.7750.600XBefore Hour DataAfter Hour DataLDL在水晶語音case中的示例圖LDL預(yù)測(cè)示例圖,左圖是真實(shí)的標(biāo)簽分布,右圖是預(yù)測(cè)的標(biāo)簽分布,評(píng)價(jià)指標(biāo)是兩個(gè)分布的Intersection指標(biāo)LDL預(yù)測(cè)Intersection指標(biāo),使用遷移的性能可以

11、逼近自身局點(diǎn)有標(biāo)記數(shù)據(jù)集情況下訓(xùn)練的性能關(guān)鍵技術(shù)點(diǎn)解決標(biāo)簽不準(zhǔn)問題:利用生成式模型,生成式模型將小時(shí)級(jí)數(shù)據(jù)和標(biāo)簽問題綜合考慮,使用生成網(wǎng)絡(luò)擬合子特性開通之后的數(shù)據(jù)/通信質(zhì)量,無需打標(biāo)簽嘗試使用了MLP,LSTM和CNN等模型構(gòu)建生成式模型,使用生成式模型無須打標(biāo)簽(無監(jiān)督訓(xùn)練方式),達(dá)到無特征工程下的Ridge的基線(有監(jiān)督訓(xùn)練)ModelMLPLSTMConvP300.570.520.49Ridge BaselineTrainTest無特征工程0.570.56EncoderHour RegressorBefore Hour DataAfter EVQICodeMSE/KL/MMD LossC

12、ell RegressorAfter Mean EVQIMSE Loss生成式模型訓(xùn)練框架圖,根據(jù)自特性開關(guān)打開前的數(shù)據(jù)預(yù)測(cè)打開后的流量數(shù)據(jù),然后計(jì)算信息質(zhì)量增益生成式模型訓(xùn)練過程訓(xùn)練測(cè)試損失、訓(xùn)練測(cè)試的P30值變化情況關(guān)鍵技術(shù)點(diǎn)可遷移性度量:在實(shí)際過程中要解決局點(diǎn)之間模型是否可以遷移的問題,從學(xué)術(shù)界理論研究進(jìn)行分析,然后提出相應(yīng)的解決工業(yè)界近似方案學(xué)術(shù)界理論研究:工業(yè)界經(jīng)驗(yàn)近似:提出基于Domain Classifier的可遷移性判別技術(shù)局點(diǎn)ABCD可遷移性0.3660.5910.2750.281P30性能提升0.0280.144-0.006-0.007局點(diǎn)E1E2E3T可遷移性0.1950

13、.180.2950.926P30性能提升-0.0180.0260.0560.248預(yù)測(cè)的可遷移性和真實(shí)遷移之后的P30性能提升非吻合基于領(lǐng)域分類器的可遷移性判別流程目錄 項(xiàng)目背景 研究內(nèi)容 關(guān)鍵技術(shù)點(diǎn) 研究成果 項(xiàng)目總結(jié)研究成果項(xiàng)目指標(biāo)性能:效果提升16%P30Mean原始數(shù)據(jù)0.480特征工程0.588KL遷移0.619SA遷移0.643在所提特征工程、KL遷移和SA遷移算法的支撐下,項(xiàng)目指標(biāo)P30提升高達(dá)16%,很多局點(diǎn)上的性能已經(jīng)達(dá)到實(shí)際落地標(biāo)準(zhǔn)研究成果無線業(yè)務(wù)場(chǎng)景述求通用解決方案:無線業(yè)務(wù)場(chǎng)景的標(biāo)簽不準(zhǔn)確問題、如何對(duì)標(biāo)簽引入概率因素問題都有了相應(yīng)的解決方法收集到數(shù)據(jù)之后,對(duì)數(shù)據(jù)打標(biāo)簽使

14、用之前的標(biāo)簽度量方法判斷標(biāo)簽是否足夠準(zhǔn)確如果標(biāo)簽準(zhǔn)確,使用遷移技術(shù)度量方案評(píng)估選擇基于子空間的遷移技術(shù)還是基于樣本的遷移技術(shù)如果標(biāo)簽不準(zhǔn)確,可以使用Label Distribution Learning的方法或者生成式模型等方法打標(biāo)簽研究成果遷移算法SDK:無線業(yè)務(wù)場(chǎng)景的標(biāo)簽不準(zhǔn)確問題、如何對(duì)標(biāo)簽引入概率因素問題都有了相應(yīng)的解決方法項(xiàng)目驗(yàn)證過程中開發(fā)實(shí)現(xiàn)的各種遷移算法,比如PCA、KMM、TCA等算法可以被封裝進(jìn)SDK,為以后的遷移項(xiàng)目節(jié)省開發(fā)成本封裝基于Domain Classifier的遷移性判別技術(shù)封裝多示例學(xué)習(xí)的相關(guān)算法,比如DeepMIML和AttentionMI,可以應(yīng)用到后續(xù)適合

15、使用多示例的項(xiàng)目中封裝Label Distribution Learning的相關(guān)算法研究成果專利:基于領(lǐng)域分類器度量可遷移性度量Source DomainTarget DomainDomain ClassifierSource DomainTarget DomainDomain ClassifierTransfer Algorithm ATransfer Algorithm BSource DomainTarget DomainDomain ClassifierBefError = 0.05AftErrorA = 0.00AftErrorB = 0.80本發(fā)明重點(diǎn)解決源域和目標(biāo)域數(shù)據(jù)在特征分布存在差異情況下的可遷移性度量,相比較于前人研究的定性分析和評(píng)估,本發(fā)明提出了一種基于領(lǐng)域分類器進(jìn)行定量計(jì)算可遷移性的方法,通過訓(xùn)練一個(gè)二分類器來評(píng)估兩個(gè)領(lǐng)域數(shù)據(jù)之間的可遷移性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論