2022年數(shù)據(jù)自動(dòng)增值方案-LED_第1頁(yè)
2022年數(shù)據(jù)自動(dòng)增值方案-LED_第2頁(yè)
2022年數(shù)據(jù)自動(dòng)增值方案-LED_第3頁(yè)
2022年數(shù)據(jù)自動(dòng)增值方案-LED_第4頁(yè)
2022年數(shù)據(jù)自動(dòng)增值方案-LED_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)自動(dòng)增值方案機(jī)器學(xué)習(xí)的核心問題最小化泛化誤差:衡量一個(gè)模型預(yù)測(cè)未知數(shù)據(jù)的能力機(jī)器學(xué)習(xí)的核心問題機(jī)器學(xué)習(xí)的理論基礎(chǔ)M泛化誤差假設(shè)空間大小數(shù)據(jù)量是否數(shù)據(jù)越多越好關(guān)于數(shù)據(jù)量的2個(gè)基本問題1. Wide2. DeepPurchasing power除掉Noise data, outlier/biased dataWe always need more dataOtherwise, it requires better approaches數(shù)據(jù)量的大致估計(jì)關(guān)于數(shù)據(jù)量的2個(gè)基本問題10 EPV rule: 10 events per predictor variable1. 數(shù)據(jù)量的大致估計(jì):Eg1:

2、 圖片2分類任務(wù)特征提取1024維度,則約需要1024102 張圖片Eg2: NMT QE任務(wù)的訓(xùn)練數(shù)據(jù)量估計(jì):Source: Several flavors of theLinux kernel exist for each portMT:每個(gè)OK端口OK都 有OKLinux 內(nèi)核OK OK的 幾種 味道OK OK BADOK每個(gè)詞的context presentation : 1024假設(shè):每個(gè)詞的正負(fù)分類均衡,上下文窗口310需要60K200K訓(xùn)練樣本 (i.e. ( 10241023 ) ( 102410210 ) )數(shù)據(jù)的增值空間生數(shù)據(jù) 標(biāo)注數(shù)據(jù)節(jié)約Labeling10%-50%據(jù)

3、Labeling: 指示出最值得標(biāo)注的生數(shù)據(jù)待標(biāo)數(shù)據(jù)標(biāo)注數(shù)據(jù) Enhancement: 對(duì)標(biāo)注數(shù)據(jù)進(jìn)行增強(qiáng),提標(biāo)注平臺(tái)升模型泛化性以及測(cè)試集上表現(xiàn) 提升模型性能低資源 5%-15%高資源 1%-5% Denoise: 對(duì)標(biāo)注數(shù)據(jù)或者增強(qiáng)數(shù)據(jù)進(jìn)行EnhancementDenoise去噪,提升模型訓(xùn)練效果去噪數(shù)據(jù)增強(qiáng)數(shù)據(jù) 數(shù)據(jù)劃分:和測(cè)試集分布更接近的訓(xùn)練 提升模型性能 提升和線上測(cè)試的一致性數(shù)據(jù)劃分?jǐn)?shù)據(jù)訓(xùn)練數(shù)據(jù)數(shù)據(jù)增強(qiáng)為什么會(huì)有好處數(shù)據(jù)自動(dòng)增值方案 Neural networks are universal function approximators - very easy to overfi

4、t To make models invariant to arbitrary transforms beyond the ones built into the architecture 觀察多張輸入圖片的不同層feature map, 發(fā)現(xiàn)模型從2-5layer都可以學(xué)到復(fù)雜的不變性 數(shù)據(jù)增強(qiáng)的目的,不是增加數(shù)量,而是讓他更多樣化數(shù)據(jù)增強(qiáng)等效于方差的正則化,可以使分類器更健壯線上增強(qiáng)Or線下增強(qiáng)?數(shù)據(jù)增強(qiáng)Neural network training is non-convexoptimizationNon-ConvexDoDo Not數(shù)據(jù)自動(dòng)增值方案自動(dòng)數(shù)據(jù)增強(qiáng) 現(xiàn)階段數(shù)據(jù)增強(qiáng)存在的問題

5、:不同模型需要不同的增強(qiáng)手段,每個(gè)模型手動(dòng)研發(fā)增強(qiáng)策略,費(fèi)時(shí)費(fèi)力,且增強(qiáng)策略遷移性沒有挖掘 LED的解決方案:構(gòu)建、積累統(tǒng)一的增強(qiáng)庫(kù),通過搜索策略自動(dòng)獲取特定模型適用的增強(qiáng)手段增強(qiáng)庫(kù)搜索策略輸出增強(qiáng)策略搜索空間構(gòu)造:增強(qiáng)方法, 概率, 強(qiáng)度 Typo EDA適應(yīng)增強(qiáng)搜索的算法: TF-IDF TreeEDA Back-translation CBERT Denoise PB2PBABananaFastAARL前向搜索9NLP 增強(qiáng)庫(kù)增強(qiáng)方法應(yīng)用TextText LabelPair Text LabelTree AugSeq2SeqSeq Label輸出層Label independentLab

6、el dependentChar AugWord AugSentence AugCVAELAMBADA數(shù)據(jù)增強(qiáng)層Main,Delete,Add,BackTranslationSwappositionSynonyVAECBERTGPT2HypernymmHomophonicTypoSwap,EDAParaphraseNoiseBARTEDATF-IDF LMOtherknowledgebase資源依賴層Word Dict (antonym、synonym、hypernym)Pre-train LMmodelNLP ParserNLP增強(qiáng)庫(kù)項(xiàng)目結(jié)構(gòu) (led-textaug)【目前已涵蓋19種方案

7、】10NLP增強(qiáng)方案介紹Tree EDAEDATree EDA (Based on Dependency Tree) SR(同義詞替換) RI(隨機(jī)插入) RS(隨機(jī)交換) RD(隨機(jī)刪除)以句法樹子Tree為單元進(jìn)行如下5種操作: Change Add Swap Delete Main部分詞語(yǔ)涵蓋的語(yǔ)義粒度過低,經(jīng)過操作后,對(duì)原文無(wú)實(shí)質(zhì)性作用以句子枝干成分作為處理粒度來進(jìn)行交互,部分case上能夠聚焦更關(guān)鍵的語(yǔ)義點(diǎn),提升泛化性11NLP增強(qiáng)方案介紹Tree EDA句法樹子Tree拆分: Main Tree:我們迎來一年 ADV Tree(狀語(yǔ)):以昂揚(yáng)的斗志;即將 ATT Tree(修飾語(yǔ))

8、:新的 CMP Tree(動(dòng)詞補(bǔ)語(yǔ)): 其他:。ADVADVATT原句:我們即將以昂揚(yáng)的斗志迎來新的一年。增強(qiáng)數(shù)據(jù):1. Change: 我們即將以昂揚(yáng)的斗志迎來具有重大意義的一年。2. Add: 我們?cè)诒本┘磳⒁话簱P(yáng)的斗志迎來新的一年。3. Swap: 我們以昂揚(yáng)的斗志即將迎來新的一年4. Delete: 我們即將迎來新的一年。5. Main: 我們迎來一年。12NLP增強(qiáng)方案介紹CBERTConditional BERT Contextual Augmentation1. Finetune:條件語(yǔ)言模型從label的語(yǔ)料中隨機(jī)MASK部分Tokens,目的是希望預(yù)測(cè)原始Tokens要考慮上

9、下文和它的label;Token: , context , label !Aiming to calculating ( |, ) ,Instead of calculating!( | )!訓(xùn)練Conditional MLM,基于BERT模型進(jìn)行Finetune,修改segmentation embeddings = label embeddings2.Contextual Augmentation:給定一個(gè)已標(biāo)注的句子,隨機(jī)MASK句子中幾個(gè)字或詞,然后通過conditional BERT模型對(duì) MASK位置的字詞進(jìn)行預(yù)測(cè)。其預(yù)測(cè)的結(jié)果考慮了句子的label,例如右圖的caseThe ac

10、tor is good positive= The actor is funny positive如果單純只用BERT,有可能生成噪音數(shù)據(jù):= The actor is unnatural positive13CV 增強(qiáng)庫(kù)增強(qiáng)方法應(yīng)用輸出層圖像分類圖像相似度匹配視頻分類Label independent、Label dependentEnhanceContrast、EnhanceColorEnhanceBrightnessEqualiEnhanceSharpness數(shù)據(jù)增強(qiáng)層AutoContrastRotateCutoutTranslateX/YAddWords AddBlock AddOve

11、rlapBlockzeAbreastMergeAddMark AddExtraBlock InvertShearX/YLOGO庫(kù)字幕庫(kù)字體庫(kù)邊框庫(kù)資源依賴層色彩庫(kù)其他素材CV增強(qiáng)庫(kù)項(xiàng)目 (Imageaug)【目前已涵蓋21種方案】14自動(dòng)數(shù)據(jù)增強(qiáng)的一些新思路Label Aware的增強(qiáng)基于類別的數(shù)據(jù)增強(qiáng)方法問題背景:不同的數(shù)據(jù)所適用的增強(qiáng)操作應(yīng)該是有差異的。如:在分類任務(wù)中,使用色彩類增強(qiáng)將“橘子”轉(zhuǎn)變?yōu)榉凵?、藍(lán)色等不符合常識(shí)。?現(xiàn)狀:現(xiàn)有的增強(qiáng)方法往往是對(duì)任務(wù)中的所有數(shù)據(jù)使用統(tǒng)一的增強(qiáng)策略來完成數(shù)據(jù)增強(qiáng),而忽略不同類別的數(shù)據(jù)自身的特性。方法:通過貝葉斯優(yōu)化、預(yù)測(cè)器、策略構(gòu)建方法,對(duì)不同類別的

12、數(shù)據(jù)搜索其適用的增強(qiáng)操作。Label-Aware AutoAugment算法流程階段一: 通過密度匹配的方法,快速獲取給定增強(qiáng)對(duì)特定類別的效果 使用“貝葉斯優(yōu)化+預(yù)測(cè)器”的組合,對(duì)候選增強(qiáng)的搜索空間進(jìn)行搜索,準(zhǔn)確預(yù)測(cè)已探索和未探索的增強(qiáng)效果階段二: 使用mRMR算法構(gòu)建最終的增強(qiáng)策略,同時(shí)考慮策略中增強(qiáng)的有效性和冗余性16Label-Aware AutoAugment算法效果ImageNet 精度 & 搜索時(shí)間精度:ImageNet上準(zhǔn)確度達(dá)到79.97%,是增強(qiáng)搜索目前的SOTA搜索用時(shí):搜索+訓(xùn)練的總時(shí)長(zhǎng)為 189.3 GPU hour,與目前最快方法相當(dāng)靜態(tài)策略:LA3生成靜態(tài)增強(qiáng)策略,

13、相比動(dòng)態(tài)策略搜索用時(shí)更少,且更易集成入已有的訓(xùn)練代碼17自動(dòng)Denoise的技術(shù)路線梳理數(shù)據(jù)自動(dòng)增值方案以NLP領(lǐng)域?yàn)槔龢?biāo)記形式ClassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每個(gè)端口都有Linux 內(nèi)核的幾種 味道 .PE:每個(gè)端口都有不同種類的Linux內(nèi)核摘要生成:Rank / Ordinal ClassificationAnnotation1

14、: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海灣報(bào)刊對(duì)美國(guó)新當(dāng)選總統(tǒng)克林頓,能否幫助振興中東和平進(jìn)程感到懷疑,但也確實(shí)看到了一絲希望。Summary:海灣對(duì)克林頓恢復(fù)和平進(jìn)程的前景,持懷疑態(tài)度標(biāo)注語(yǔ)料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上個(gè)月30號(hào),王先生在自己家里邊看流浪地球邊吃煲仔飯NER:上個(gè)月30號(hào)(時(shí)間),王先生(人物),流浪地球(電影

15、),煲仔(產(chǎn)品)自動(dòng)Denoise-技術(shù)路線梳理數(shù)據(jù)自動(dòng)增值方案1. 實(shí)際中分類閾值很難確定;2. confidence作為排序標(biāo)準(zhǔn),信息損失大以NLP領(lǐng)域?yàn)槔鼵lassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每個(gè)端口都有Linux 內(nèi)核的幾種 味道 .PE:每個(gè)端口都有不同種類的Linux內(nèi)核摘要生成:Rank / Ordinal Classific

16、ationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海灣報(bào)刊對(duì)美國(guó)新當(dāng)選總統(tǒng)克林頓,能否幫助振興中東和平進(jìn)程感到懷疑,但也確實(shí)看到了一絲希望。Summary:海灣對(duì)克林頓恢復(fù)和平進(jìn)程的前景,持懷疑態(tài)度標(biāo)注語(yǔ)料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上個(gè)月30號(hào),王先生在自己家里邊看流浪地球邊吃煲仔飯NER:上個(gè)月30號(hào)(時(shí)間)

17、,王先生(人物),流浪地球(電影),煲仔(產(chǎn)品)自動(dòng)Denoise-技術(shù)路線梳理數(shù)據(jù)自動(dòng)增值方案1. 主觀打分標(biāo)注一致性稍差(cronb. = 0.75);2. 作為數(shù)據(jù)篩選的依據(jù),粒度偏粗糙以NLP領(lǐng)域?yàn)槔鼵lassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每個(gè)端口都有Linux 內(nèi)核的幾種 味道 .PE:每個(gè)端口都有不同種類的Linux內(nèi)核摘要生成:

18、Rank / Ordinal ClassificationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海灣報(bào)刊對(duì)美國(guó)新當(dāng)選總統(tǒng)克林頓,能否幫助振興中東和平進(jìn)程感到懷疑,但也確實(shí)看到了一絲希望。Summary:海灣對(duì)克林頓恢復(fù)和平進(jìn)程的前景,持懷疑態(tài)度標(biāo)注語(yǔ)料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上個(gè)月30號(hào),王先生在自己家里邊

19、看流浪地球邊吃煲仔飯NER:上個(gè)月30號(hào)(時(shí)間),王先生(人物),流浪地球(電影),煲仔(產(chǎn)品)數(shù)據(jù)自動(dòng)增值方案自動(dòng)Denoise-技術(shù)路線梳理1. 標(biāo)注數(shù)據(jù)更客觀,信息損失少;以NLP領(lǐng)域?yàn)槔鼵lassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每個(gè)端口都有Linux 內(nèi)核的幾種 味道 .PE:每個(gè)端口都有不同種類的Linux內(nèi)核摘要生成:Rank /

20、Ordinal ClassificationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海灣報(bào)刊對(duì)美國(guó)新當(dāng)選總統(tǒng)克林頓,能否幫助振興中東和平進(jìn)程感到懷疑,但也確實(shí)看到了一絲希望。Summary:海灣對(duì)克林頓恢復(fù)和平進(jìn)程的前景,持懷疑態(tài)度標(biāo)注語(yǔ)料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上個(gè)月30號(hào),王先生在自己家里邊看流浪地球邊吃

21、煲仔飯NER:上個(gè)月30號(hào)(時(shí)間),王先生(人物),流浪地球(電影),煲仔(產(chǎn)品)自動(dòng)Denoise方案框架數(shù)據(jù)自動(dòng)增值方案 數(shù)據(jù)去噪方案 Predictor-Estimator方案 Predictor:特征提取器,提取出input embedding,label embedding,以及概率相關(guān)的mismatchfeature (即 _, _max,以及兩者差值) Estimator:質(zhì)量評(píng)估器,接受predictor提供的特征,最終對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)分。應(yīng)用場(chǎng)景 Predictor結(jié) Estimator結(jié)構(gòu)構(gòu)機(jī)器翻譯 Bert or XmlBi-gru, Bi-lstm orattentio

22、nNER BertBi-gru, Bi-lstm文本分類 Bert圖片分類 BiTdnndnn22ImageNet去噪數(shù)據(jù)自動(dòng)增值方案ImageNet數(shù)據(jù)集現(xiàn)存問題以及解決手段 標(biāo)簽錯(cuò)誤:通過多個(gè)模型交叉驗(yàn)證去噪 圖片包含多目標(biāo):多模型預(yù)測(cè)提供圖片候選標(biāo)簽后人工判斷,將數(shù)據(jù)擴(kuò)展為多標(biāo)簽 相似標(biāo)簽:標(biāo)簽融合訓(xùn)練優(yōu)化 優(yōu)化目標(biāo):多分類任務(wù)變成多標(biāo)簽分類 修改loss函數(shù):CE變成MixupCrossEntropy,#! log( ):圖片有k個(gè)label時(shí),將標(biāo)簽除以k 1, 0, 1, 0, 0, 0 - 0.5, 0, 0.5, 0, 0, 0Loss = -!$%!#backbone模型原始

23、驗(yàn)證集76.908去噪驗(yàn)證集86.34下游任務(wù)Oxford pets分類 Stanford cars分類原始數(shù)據(jù)resnet50去噪數(shù)據(jù)resnet50原始resnest5094.3994.9395.1393.1393.6393.8877.93287.451去噪resnest50去噪數(shù)據(jù)resnet50+MixupCE78.4687.956去噪resnest50+標(biāo)簽融合原始數(shù)據(jù)resnet5080.66480.9490.16590.82490.975去噪數(shù)據(jù)resnet50去噪數(shù)據(jù)resnet50+MixupCE81.182ImageNet 噪聲示例1. 標(biāo)簽錯(cuò)誤:2. 多標(biāo)簽:3. 相似標(biāo)簽:標(biāo)簽名標(biāo)簽A index標(biāo)簽B index筆記本電腦 n03832673 (notebook compute)n03642806 (laptop computer)n04090263 (rifle)步槍n02749479 (assult rifle)n02895154 (breastplate)n15075141 (toilet tissue)n03782006 (monitor)n04370456 (swea

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論