大連理工大學(xué)研究生企業(yè)專業(yè)實踐報告_第1頁
大連理工大學(xué)研究生企業(yè)專業(yè)實踐報告_第2頁
大連理工大學(xué)研究生企業(yè)專業(yè)實踐報告_第3頁
大連理工大學(xué)研究生企業(yè)專業(yè)實踐報告_第4頁
大連理工大學(xué)研究生企業(yè)專業(yè)實踐報告_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大連理工大學(xué)企業(yè)專業(yè)實踐報告學(xué)部(院):信息與通信工程學(xué)院專業(yè):學(xué)生姓名:學(xué)號:指導(dǎo)教師:完成日期:2018.03.20大連理工大學(xué)DalianUniversityofTechnology1 .實踐目的作為還沒有踏入社會的研究生,面對自己未來的生活與工作,我們心中是有很多的疑問的,所以需要到真正的環(huán)境中去感受一下自己將要從事的工作到底是怎樣的。本次企業(yè)實踐,主要就是為了讓我們更深層次的接觸社會,運(yùn)用所學(xué)的專業(yè)知識認(rèn)識企業(yè)實踐活動,了解企業(yè)運(yùn)行環(huán)境,認(rèn)識企業(yè)管理業(yè)務(wù)流程,為將來走上工作崗位打好基礎(chǔ),同時可以加強(qiáng)和鞏固理論知識,發(fā)現(xiàn)和運(yùn)用所學(xué)知識分析問題和解決問題;鍛煉自己的實習(xí)工作能力,適應(yīng)社會

2、能力和自我管理能力。通過實踐我們也可以認(rèn)識了解自己,發(fā)現(xiàn)不足,提前做好自己的職業(yè)規(guī)劃。2 .實踐單位大連共進(jìn)科技有限公司通訊地址:大連市沙河口區(qū)五一路267號軟件園17號樓1013 .實踐背景與意義隨著數(shù)據(jù)和計算規(guī)模的增長,機(jī)器學(xué)習(xí)現(xiàn)在已成為大數(shù)據(jù)分析的主要技術(shù)之一,而且在許多領(lǐng)域都取得了不錯的成果。然而,傳統(tǒng)機(jī)器學(xué)習(xí)與人的學(xué)習(xí)相比,還有很多不足。根據(jù)標(biāo)記樣本的使用情況,標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)三種類型。監(jiān)督學(xué)習(xí)是通過標(biāo)記的訓(xùn)練數(shù)據(jù)來訓(xùn)練一個最優(yōu)分類模型,它要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布必須相同。無監(jiān)督學(xué)習(xí)是對沒有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性

3、知識,它也要求領(lǐng)域的數(shù)據(jù)分布相同。半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種方法,它同時使用大量的未標(biāo)記數(shù)據(jù)和少量標(biāo)記數(shù)據(jù)來進(jìn)行模式識別工作,但是也要求標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)來自相同的領(lǐng)域。綜上,標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布必須相同,因此,在實際應(yīng)用中,這種限制給機(jī)器學(xué)習(xí)帶來了很多困難。為了改善目前機(jī)器學(xué)習(xí)方法的缺點(diǎn),人們開始研究機(jī)器學(xué)習(xí)中的遷移學(xué)習(xí)。簡單來說,遷移學(xué)習(xí)就是結(jié)合已經(jīng)學(xué)到的知識,將已有的知識應(yīng)用于新事物的學(xué)習(xí)上,實際上是一種對已有知識的遷移,即將已有的知識應(yīng)用到其他領(lǐng)域。例如,如果一個人能夠熟練地使用C編程語言技能,那么在學(xué)習(xí)其他編程語言如MATLAEBC+符時也會很快

4、入門并熟練,這些能力是機(jī)器學(xué)習(xí)所不具備的。遷移學(xué)習(xí),也可以稱為領(lǐng)域適配或者歸納遷移,它的目的是將在有大量標(biāo)注的輔助領(lǐng)域中學(xué)習(xí)到的知識或模型應(yīng)用于不同但相關(guān)的領(lǐng)域或問題中。遷移學(xué)習(xí)方法利用不同任務(wù)之間的相似性將源數(shù)據(jù)的判別信息遷移到目標(biāo)域,不僅實現(xiàn)了對已有知識的利用,而且在有限的條件下能夠提高學(xué)習(xí)的效率。遷移學(xué)習(xí)的主要思想是從有大量標(biāo)記數(shù)據(jù)的輔助領(lǐng)域中遷移知識結(jié)構(gòu),以完成或改進(jìn)目標(biāo)域或目標(biāo)任務(wù)的學(xué)習(xí)性能3。遷移學(xué)習(xí)與主動學(xué)習(xí)和平監(jiān)督學(xué)習(xí)不同,主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)標(biāo)注數(shù)據(jù)稀缺。而在遷移學(xué)習(xí)中,不需要訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從獨(dú)立同分布,從而使涉及到的領(lǐng)域服從不同的邊緣概率分布或條件概率分布。在實際應(yīng)用

5、中,由于技術(shù)限制,容易使模型的訓(xùn)練數(shù)據(jù)和泛化的目1標(biāo)數(shù)據(jù)存在分布差異。除此之外,在許多建立分類模型訓(xùn)練的應(yīng)用環(huán)境中,可能沒有足夠的標(biāo)記數(shù)據(jù),這就需要人工對這些數(shù)據(jù)進(jìn)行標(biāo)注以獲得分類器需要的訓(xùn)練數(shù)據(jù)。而手動標(biāo)注數(shù)據(jù)既耗時又費(fèi)力,這是實際應(yīng)用中的一個難題,然而如果不滿足這些條件分類器的性能就會降低,因此充分利用相關(guān)領(lǐng)域的分類信息來幫助解決目標(biāo)域的分類任務(wù)是非常有意義的。遷移學(xué)習(xí)由于放寬了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布相同這一假設(shè),可以將相關(guān)領(lǐng)域的知識或者模型遷移到目標(biāo)領(lǐng)域來幫助目標(biāo)領(lǐng)域的學(xué)習(xí)任務(wù),這樣就可以解決跨域?qū)W習(xí)問題。目前,遷移學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)研究領(lǐng)域的熱點(diǎn)之一。在提高機(jī)器學(xué)習(xí)效率,提高現(xiàn)有算法

6、性能和算法實用性方面,遷移學(xué)習(xí)具有重要意義。遷移學(xué)習(xí)被認(rèn)為是在最低成本的人工監(jiān)督下的機(jī)器學(xué)習(xí)的一種新策略。在計算機(jī)視覺,自然語言處理和生物信息學(xué)等標(biāo)注數(shù)據(jù)稀缺或者無標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域,遷移學(xué)習(xí)具有很強(qiáng)的現(xiàn)實需求。4 .問題描述給定一個標(biāo)記的源域和學(xué)習(xí)任務(wù),一個無標(biāo)記的目標(biāo)域和學(xué)習(xí)任務(wù),假設(shè)它們的邊緣概率和條件概率都不相同,學(xué)習(xí)一個新的特征表示使得邊緣概率分布和條件概率分布之間的差異同時最小化,從而利用源域中的知識來提高目標(biāo)域中的目標(biāo)預(yù)測函數(shù)的性能。大多數(shù)現(xiàn)有方法只最小化領(lǐng)域間的邊緣概率分布,而僅匹配邊緣分布并不能獲得足夠好的的遷移學(xué)習(xí)性能,因為源域和目標(biāo)域間的判別分類面很有可能并不相同,領(lǐng)域間

7、的條件分布距離也應(yīng)最小化。雖然目標(biāo)領(lǐng)域的邊緣概率分布可由核密度估計得到近似擬合,但是因為目標(biāo)域中沒有標(biāo)記的數(shù)據(jù),所以條件概率分布無法準(zhǔn)確估計。根據(jù)概率論,主要的計算問題是最小化聯(lián)合概率分布間的距離,通過同時最小化邊緣概率分布之間的距離以及條件概率分布之間的距離,實現(xiàn)聯(lián)合概率分布的適配。5 .實驗方法首先需要對源域和目標(biāo)域的特征進(jìn)行降維重構(gòu),在源域和目標(biāo)域的樣本中學(xué)習(xí)得到一個共同的跨域子空間,即通過非線性降維,將源域和目標(biāo)域高維數(shù)據(jù)通過正交變換映射到低維的子空間,在這個子空間中源域和目標(biāo)域擁有相近的分布且每個樣本都有緊湊的特征表示。為了簡單和一般性,選擇主成分分析(PCA)進(jìn)行數(shù)據(jù)重建。PCA是

8、一種線性映射方法,降維后的表示是由線性映射生成的,而且PCA方法是基于觀測數(shù)據(jù)的協(xié)方差矩陣的計算來對數(shù)據(jù)進(jìn)行處理的,僅涉及數(shù)據(jù)的協(xié)方差矩陣,即二階統(tǒng)計特性,它忽略了數(shù)據(jù)之間高于二階的高階統(tǒng)計特性,所以在變換后的數(shù)據(jù)中可能仍然存在高階冗余信息,導(dǎo)致抽取的特征并不是最優(yōu)的。KPCA是線性PCA的非線性推廣,它首先通過非線性映射將原本線性不可分的樣本輸入空間映射到一個線性可分的高維特征空間,獲取數(shù)據(jù)的非線性特征,然后在這個新的特征空間中完成主成分分析。KPCA不僅適合于解決非線性特征提2取問題,而且它還能比PCA提供更多的特征數(shù)目和更好的特征質(zhì)量。遷移學(xué)習(xí)需要解決的一個主要問題是減小源域和目標(biāo)域之間

9、的差異性,領(lǐng)域的邊緣概率分布體現(xiàn)無標(biāo)數(shù)據(jù)的聚類結(jié)構(gòu),領(lǐng)域的條件概率分布體現(xiàn)標(biāo)注數(shù)據(jù)的判別結(jié)構(gòu)。要通過最小化邊緣概率分布以及條件概率分布之間的距離實現(xiàn)聯(lián)合概率分布適配,首先要定義適當(dāng)?shù)木嚯x度量函數(shù)。采用最大均值差異(MMD)來度量通過KPCA降維得到的子空間中源域與目標(biāo)域之間的分布差異。MMD定義為源域與目標(biāo)域在無窮維核空間中的均值距離,它通過計算源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)的總體均值之差來表示源域與目標(biāo)域的分布距離,距離越大,領(lǐng)域間的分布差異越大,距離越小,領(lǐng)域間的分布差異越小。MMD的原理是對每一個樣本進(jìn)行投影并求和,利用和的大小來表示兩個數(shù)據(jù)的分布差異。為了實現(xiàn)有效的遷移學(xué)習(xí),需要同時最小化跨域的

10、邊緣概率分布和條件概率分布的差異。為了評估算法的有效性,應(yīng)用算法對圖像分類問題進(jìn)行了廣泛的實驗。USPS,MNIST,COIL20,Ofice和Caltech是廣泛應(yīng)用于評估視覺域適配算法的五個基準(zhǔn)數(shù)據(jù)集。MNIST是一個手寫數(shù)字的數(shù)據(jù)庫,它是NIST數(shù)據(jù)庫的一個子集,這個數(shù)據(jù)庫由四部分組成,分別是一個訓(xùn)練圖片集,一個訓(xùn)練標(biāo)簽集,一個測試圖片集,一個測試標(biāo)簽集,訓(xùn)練集有60000個樣例,即文件中包含60000個標(biāo)簽內(nèi)容,每一個標(biāo)簽的值為0到9之間的一個數(shù)字,測試集有10000個樣例。這些圖像數(shù)據(jù)都保存在二進(jìn)制文件中。每個樣本圖像的大小都是28M28的,也就是每個圖片都有28父28個像素。USP

11、S數(shù)據(jù)集由大小為16父化的7291張訓(xùn)練圖片和2007張測試圖片組成,也包含10個類別,每個類別為0到9之間的一個數(shù)字,這些數(shù)字圖片已經(jīng)被標(biāo)準(zhǔn)化處理過,即將數(shù)字置于圖像中心,并使圖像大小都相同。實驗中通過在數(shù)據(jù)集USPS中隨機(jī)抽取1800張圖片作為源數(shù)據(jù),并隨機(jī)抽取數(shù)據(jù)集MNIST中的2000張圖片作為目標(biāo)數(shù)據(jù)來構(gòu)建一個分類任務(wù)USPS-MNIST,交換源域和目標(biāo)域可以獲得另一個分類任務(wù)MNIST-USPS。為了更有效地進(jìn)行實驗,需要對圖片進(jìn)行預(yù)處理,即將所有圖片均勻地重新調(diào)整為大小為16父化,編碼了圖片的像素灰度值信息,每幅圖片用256維的特征向量表征。因此,源域和目標(biāo)域數(shù)據(jù)可以共享相同的特

12、征空間和類別空間。COIL20數(shù)據(jù)集是物體圖片數(shù)據(jù)集,圖片中包含20個不同物體在不同角度拍攝的1440張圖片。當(dāng)物體在轉(zhuǎn)臺上順時針旋轉(zhuǎn)時,每轉(zhuǎn)5度拍攝一張照片,這樣每個物體就有72張圖片。每張圖片的大小是32父32,表征為1024維的特征向量。在實驗中,將數(shù)據(jù)集分為兩個互不相交的子集COIL1和COIL2,COIL1包含物體旋轉(zhuǎn)角度為第1和3象限時拍攝的所有圖片,COIL2包含物體旋轉(zhuǎn)角度為第2和4象限時拍攝的所有圖片,因此,子集COIL1和COIL2因為物體旋轉(zhuǎn)角度的不同而服從不同的分布。通過選擇COIL1中的所有720張圖片作為源域數(shù)據(jù)、COIL2中的所有720張圖片作為目標(biāo)數(shù)據(jù)來構(gòu)建一個

13、分類任務(wù)COIL1一COIL2,然后交換源域和目標(biāo)域,決以獲得另一個分類任務(wù)COIL2-COIL1。Office是越來越受歡迎的視覺域適配基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)庫共有4652張圖片和31個類別標(biāo)簽,它包含三個對象領(lǐng)域,即Webcam(網(wǎng)絡(luò)攝像頭拍攝的低分辨率圖片),DSLR(數(shù)碼單反相機(jī)拍攝的高分辨率圖片)和Amazon(從在線商家下載的圖片)。Caltech-25635是用于對象識別的標(biāo)準(zhǔn)數(shù)據(jù)庫。該數(shù)據(jù)庫包含256種類別的物體的大約30607張圖片。對所有圖片抽取SURF特征,并將其向量化為一個800維直方圖表征,然后將所有向量進(jìn)行標(biāo)準(zhǔn)化處理,即都進(jìn)行減均值除方差的歸一化處理,其中使用來自Ama

14、zon的圖片子集上的K均值計算的碼本生成直方圖碼表。通過隨機(jī)選擇兩個不同的領(lǐng)域作為源域和目標(biāo)域,可以構(gòu)建12個跨域?qū)ο笞R別任務(wù)。算法為源域和目標(biāo)域提供了新的特征表示,之后采用1近鄰分類器來進(jìn)行圖像分類。為了驗證算法的有效性,將算法與圖像分類的兩種基礎(chǔ)方法進(jìn)行比較。兩種基礎(chǔ)方法分別為1近鄰分類器和PCA+1近鄰分類器。對標(biāo)記的源域數(shù)據(jù)進(jìn)行訓(xùn)練,并對未標(biāo)記的目標(biāo)數(shù)據(jù)進(jìn)行測試;在所有數(shù)據(jù)上執(zhí)行PCA和該算法,然后對標(biāo)記的源數(shù)據(jù)進(jìn)行分類器訓(xùn)練,以對未標(biāo)記的目標(biāo)數(shù)據(jù)進(jìn)行分類。在實驗中,由于目標(biāo)領(lǐng)域沒有標(biāo)注數(shù)據(jù),所以無法使用交叉驗證方法自動選擇最優(yōu)模型參數(shù)。因此,可以通過經(jīng)驗性地遍歷參數(shù)空間以獲得最佳參數(shù)

15、設(shè)置來評估所有方法,并將每種方法在各種參數(shù)設(shè)置下的最佳結(jié)果用于有效性對比,使用分類模型對目標(biāo)領(lǐng)域的無標(biāo)測試數(shù)據(jù)的分類準(zhǔn)確率來作為評價標(biāo)準(zhǔn)。經(jīng)過大量的實驗以及對比和分析,可以表明即使領(lǐng)域間的分布差異非常大,算法對于跨領(lǐng)域的圖像分類問題是有效的,可以顯著優(yōu)于幾種基礎(chǔ)的適配方法。且隨著子空間最優(yōu)維度和正則化參數(shù)的變化,每個分類任務(wù)的分類準(zhǔn)確率的變化曲線都比較平穩(wěn),這說明算法可以在廣泛的參數(shù)值下實現(xiàn)最佳性能。6 .算法改進(jìn)雖然聯(lián)合分布適配的方法能夠提高分類的準(zhǔn)確率,但是由于只從特征層面考慮遷移學(xué)習(xí)的效果,而沒有考慮源域存在的不相關(guān)的實例,即沒有從實例方面考慮遷移學(xué)習(xí)效果,且只是簡單地將邊緣概率分布和條

16、件概率分布適配,沒有考慮兩種分布所占的權(quán)重,所以考慮加入權(quán)重調(diào)節(jié)因子來調(diào)節(jié)邊緣概率分布和條件概率分布所占的權(quán)重;并對源域的實例進(jìn)行重新加權(quán),加大與目標(biāo)域?qū)嵗嚓P(guān)的源域?qū)嵗臋?quán)重。為了評估改進(jìn)算法的有效性,仍然采用由USPS,MNIST,COIL20,Office和Caltech這五個圖像數(shù)據(jù)庫構(gòu)成的分類任務(wù)進(jìn)行實驗。綜合實驗結(jié)果和分析表明,改進(jìn)的算法對于跨領(lǐng)域的圖像分類問題是有效的,可以顯著優(yōu)于幾種基礎(chǔ)的適配方法。且隨著子空間最優(yōu)維度和正則化參數(shù)的變化,每個分類任務(wù)的分類準(zhǔn)確率的變化曲線都比較平穩(wěn),這說明算法可以在廣泛的參數(shù)值下實現(xiàn)最佳性能。7 .實驗結(jié)論隨著數(shù)據(jù)和計算規(guī)模的增長,機(jī)器學(xué)習(xí)現(xiàn)在已經(jīng)成為大數(shù)據(jù)分析的主要技術(shù)之一,然而,標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布必須相同,這種限制給機(jī)器學(xué)習(xí)帶來了很多困難。而在遷移學(xué)習(xí)中,不需要訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從獨(dú)立同分布,從而使涉及到的領(lǐng)域或任務(wù)可以服從不同的邊緣概率分布或條件概率分布。大量的實驗結(jié)果表明,聯(lián)合分布適配方法以及對聯(lián)合分布適配方法的改進(jìn)在同樣的分類任務(wù)上優(yōu)于最基礎(chǔ)的分類方法。8 .實踐感悟與收獲雖然實踐已經(jīng)結(jié)束了,但是我收獲頗多。從對相關(guān)知識不了解,到慢慢了解慢慢深入,發(fā)現(xiàn)問題,然后和團(tuán)隊成員一起克服困難,解決各種疑問,協(xié)同合作。這期間有過很多的問題,但是大家沒有著急和焦躁,而是從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論