畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)翻譯:在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名_第1頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)翻譯:在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名_第2頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)翻譯:在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名_第3頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)翻譯:在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名_第4頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)翻譯:在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢業(yè)設(shè)計(jì)(論文)--文獻(xiàn)翻譯原文題目UseofLinearRegressioninMachineLearningforRanking譯文題目在機(jī)器學(xué)習(xí)中使用線性回歸進(jìn)行排名專業(yè)信息與計(jì)算科學(xué)姓名學(xué)號(hào)指導(dǎo)教師摘要機(jī)器學(xué)習(xí)今天是AI的增長(zhǎng)領(lǐng)域。我們討論在本文中使用被稱為回歸學(xué)習(xí)的監(jiān)督學(xué)習(xí)算法進(jìn)行排名。回歸學(xué)習(xí)被用作預(yù)測(cè)模型。因變量的值通過基于獨(dú)立變量值的回歸模型預(yù)測(cè)。通過回歸學(xué)習(xí)如果經(jīng)驗(yàn)E后,程序提高其績(jī)效P,那么程序據(jù)說正在進(jìn)行回歸學(xué)習(xí)。我們選擇使用線性回歸進(jìn)行排名,并通過從知識(shí)中選擇最佳排名參數(shù)來進(jìn)一步討論秩回歸模型構(gòu)建的方法,并通過在模型構(gòu)建期間執(zhí)行回歸分析來進(jìn)一步確認(rèn)其選擇。舉例說明。結(jié)果分析,我們討論了綜合回歸和排名方法,如何更好地利用線性回歸進(jìn)行排名目的。我們總結(jié)并提出未來工作排名和回歸。關(guān)鍵詞:回歸學(xué)習(xí);排名;模型第一章引言本文介紹了機(jī)器學(xué)習(xí)中的回歸學(xué)習(xí)在排名中的應(yīng)用。機(jī)器學(xué)習(xí)是一個(gè)日益增長(zhǎng)的領(lǐng)域,AI提供回歸學(xué)習(xí)作為監(jiān)督學(xué)習(xí)?;貧w模型可以是單個(gè)和多個(gè)變量單變量回歸Y=a+b*X(1)Y=DependentVariableX=IndependentVariableMultipleVariablesRegressionY=a+b1*X1+b2*X2+…bn*Xn(2)使用那里排名模型我們討論Rank模型建立的各種方法。讓我們首先了解如何用最佳參數(shù)和系數(shù)構(gòu)建回歸模型。如何找到回歸系數(shù)?1.特征小于10000時(shí)的正態(tài)方程。W=(XT*X)-1*XT*Y2.所有情況下的漸進(jìn)下降。梯度下降算法重復(fù)直到收斂[5]{Forj=1ton{Tempj:=Mj+α*1/N∑Ni=1(Y(i)-H(M,X,i))*Xj}CorrectSimultaneousUpdateForj=1ton{Mj=Tempj}}[5]第二章LITERATURE調(diào)查A.所有可能的子集回歸選擇包含在考慮所有可能的獨(dú)立變量組合的回歸模型中的變量的方法。例如。4個(gè)變量。該技術(shù)將用1,2,3,4個(gè)變量估計(jì)所有可能的回歸模型。然后,該技術(shù)將以最佳預(yù)測(cè)精度識(shí)別模型。B.向后消除選擇包含在模型中的變量的方法,通過在模型中包含所有變量,然后消除那些對(duì)預(yù)測(cè)沒有顯著貢獻(xiàn)的變量。C.沒有獨(dú)立變量的預(yù)測(cè)因變量值的平均值給出了無獨(dú)立變量的預(yù)測(cè)值。D.由于更多的功能,適合圖1:過度擬合,因?yàn)樯L(zhǎng)的特點(diǎn)E.正規(guī)化,避免過度擬合L2Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda/2*||w||2L1Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda*|w|1L0Regularization:E(w)=1/2*∑n-0m-1(Yn-H(Xn,w))2+lambda∑n-0m-1del(w≠0)L0-regularizationisfeatureselectionforlinearmodels.L1-andL2-regularizationsapproximatefeatureselectionandregularizethefunction.L2RegularizedNormalEquation:W=(XT*X+lambda*I)-1XT*Y–[11]F.相關(guān)系數(shù)的作用1)決定系數(shù)R2測(cè)量變量的方差的比例,其平均值,這是解釋的指標(biāo)或預(yù)測(cè)變量,系數(shù)可以在0和1之間變化?;貧w模型是適當(dāng)?shù)墓烙?jì)和應(yīng)用更高的R2值,回歸方程的解釋力就越大,從而更好地預(yù)測(cè)因變量平方和回歸平方和2)調(diào)整后的測(cè)定系數(shù)(調(diào)整后R2)修正系數(shù)的測(cè)量,考慮到自變量包括在回歸方程和樣本大小的數(shù)目。雖然獨(dú)立的加入單獨(dú)的變量都會(huì)使測(cè)定上升系數(shù),調(diào)整后的決定系數(shù)可能如果添加的獨(dú)立變量沒有解釋力或者不落自由度變得太小。這個(gè)統(tǒng)計(jì)是相當(dāng)有用的方程之間的比較與不同數(shù)量的獨(dú)立變量,不同的樣本量。G自由度(DF)從觀測(cè)值總數(shù)減去估計(jì)參數(shù)數(shù)計(jì)算出的值。這些參數(shù)的解釋數(shù)據(jù)的限制,一旦做出決定,他們決定從這人口h數(shù)據(jù)被假定已繪制。如果自由度小,所得到的預(yù)測(cè)可能是不太廣義的,因?yàn)樗械模恍┮庖娂{入預(yù)測(cè)。反之,大自由度值i指出預(yù)測(cè)是相當(dāng)穩(wěn)健,作為受訪者的總體樣本的代表性。H. P-value單獨(dú)使用P值1)通常研究者在不使用臨界值的情況下確定意義。下面的圖表是用來確定一個(gè)給定的P-統(tǒng)計(jì)意義的標(biāo)準(zhǔn)的一個(gè)例子是E.小于反對(duì)零假設(shè)的有力證據(jù),0.01很顯著0.01to0.05對(duì)零假設(shè)的一些證據(jù)大于證據(jù)不足0.05假設(shè)表1:給定p值的統(tǒng)計(jì)意義贊成這種方法的統(tǒng)計(jì)學(xué)家認(rèn)為,由于沒有明確的意義水平,研究人員的負(fù)擔(dān)決定意義。I.通用回歸模型建立過程對(duì)于建立任何回歸模型,我們遵循的程序選擇最佳的參數(shù)模型。要建立回歸模型,需要對(duì)模型進(jìn)行回歸參數(shù)的選擇,需要通過選擇自變量和自變量來建立模型。這個(gè)過程如下:我們選擇輸出參數(shù)是適合我們的目的的知識(shí)1.我們將選擇輸入?yún)?shù)的知識(shí)。我們通過知道輸出參數(shù)與輸入?yún)?shù)之間的關(guān)系來選擇輸入?yún)?shù)。2.回歸分析確定模型最佳參數(shù)3.我們從每個(gè)選定的參數(shù)建立單變量回歸模型。利用X、Y數(shù)據(jù)進(jìn)行模型訓(xùn)練。我們注意到他們的P和R平方,調(diào)整后的平方。2.我們可以直接向后淘汰或所有可能的子集回歸得到最佳的模型,或我們建立多元變量回歸模型,從選定的變量在步驟3a。做培訓(xùn)檢查模型中的所有變量的值。我們也注意到過,即相關(guān)系數(shù)調(diào)整過。在這里,我們選擇從其P值<意義否則刪除變量模型的P值>意義模型的變量。如果某些變量下降然后我們做我們的模型的訓(xùn)練和看過的就是太多或少。如果過不降多少我們的最終模型的聲明。否則我們可能會(huì)瘦K的一些其他參數(shù),并考慮包括他們后,他們的評(píng)價(jià)討論1,2和3。如果我們有很好的變量在我們的模型為我們的模型所需的足夠的解釋力。然后,我們宣布它作為我們的最終回歸模型。注:1.如果P值=顯著-變量將產(chǎn)生顯著的回歸估計(jì),否則估計(jì)將是錯(cuò)誤的。2.如果相關(guān)說明因變量變化的模型為獨(dú)立變量目前的變化。.CorrelationSuggested%ChangeindependentCoefficientvariablebychangeinindependentR2variable/spresentinModelbyR20.0to0.2Veryweak0.2to0.4Weak0.4to0.7Medium0.7to0.9Strong0.9to1.0Verystrong表2:相關(guān)系數(shù)R2意義J.回歸建模線性回歸學(xué)習(xí)時(shí)使用的排名,我們需要考慮哪些參數(shù)排名是依賴。排名可能取決于單一或多個(gè)參數(shù)稱為排名參數(shù)。S哦,最初我們有兩個(gè)回歸模型如下:秩依單變量秩=A+B*RP模型-我RP=排名參數(shù)等級(jí)取決于多個(gè)變量等級(jí)=A+B1*RP1+B2×RP2+BN×RPN模式二RP1、RP2,RPN是排名參數(shù)模型這兩個(gè)模型將回歸模型來訓(xùn)練數(shù)據(jù)—等級(jí)取決于單變量訓(xùn)練<排名,RP>模型–我等級(jí)取決于多個(gè)變量梯度下降是用來減少錯(cuò)誤,而訓(xùn)練得到最佳回歸系數(shù)。如果數(shù)據(jù)中我們使用批處理梯度如果數(shù)據(jù)量非常大,我們使用隨機(jī)梯度耳鼻喉科下降。排序模型的參數(shù)選擇最佳排名的直覺或知識(shí)進(jìn)一步的模型可以評(píng)估使用回歸分析,根據(jù)回歸了訓(xùn)練回歸模型可選擇最終最佳回歸參數(shù)。這種訓(xùn)練將有助于獲得最佳的回歸系數(shù)模型的均方誤差最小化使用梯度下降算法。因此,我們的模型是完整的排名與培訓(xùn)。回歸模型可以是完美的回歸模型,如果平均平方誤差為零。因此,用完美回歸模型對(duì)秩的預(yù)測(cè)是完美的。但是,這并不總是正確的,因?yàn)橥ǔ>秸`差不會(huì)為零。該模型可以是近乎完美的模型或錯(cuò)誤。這是線性回歸的缺點(diǎn)時(shí),用于排名?;貧w中的誤差將導(dǎo)致在等級(jí)產(chǎn)生誤差。雖然誤差最小化,這樣的模型并不總是預(yù)測(cè)正確的行列。現(xiàn)在還有一件事,即當(dāng)我們需要預(yù)測(cè)排名,我們有模型,但沒有直接的排名參數(shù)的價(jià)值是我們。在這種情況下,我們需要構(gòu)建另一個(gè)回歸預(yù)測(cè)排名參數(shù)選擇最佳的獨(dú)立變量的具體排名參數(shù)取決于模型。因此,我們可以得到排名參數(shù)的預(yù)測(cè)值從t他的模型和提交的結(jié)果在我們的排名模型I或II。因此,排名將預(yù)測(cè)模型I或II。第三章相關(guān)的工作A.回歸參數(shù)選擇的探討讓我們討論任何回歸模型的最佳回歸參數(shù)選擇過程。建立回歸模型的參數(shù)選擇是直觀的,知識(shí)淵博的任務(wù),其次是培訓(xùn)和回歸分析,以確定最佳的參數(shù)回歸。因此,參數(shù)選擇最初進(jìn)行直觀和獨(dú)立變量依賴變量的依賴知識(shí)。和變量被選擇為回歸我們認(rèn)為將有助于決定因變量的價(jià)值。第一步-我們建立單一回歸模型與選定的變量。我們做這些模型的訓(xùn)練和觀察值和調(diào)整過的。如果我們的選擇信心是說90%我們的意義將以100-90=10%。所以,我們選擇其P值小于10%,因?yàn)槲覀児烙?jì)將滿足90%置信度準(zhǔn)則的變量。我們將如果選擇特定的變量進(jìn)行回歸,則90%確定結(jié)果。否則,如果變量的值大于10%的估計(jì)是錯(cuò)誤的,所以我們拒絕變E.第二步,我們建立多元回歸模型,如果選擇的變量,從步驟I是一個(gè)以上。我們觀察到的p值和調(diào)整變量R平方值。首先我們拒絕變異變量的值遠(yuǎn)遠(yuǎn)大于所需的意義。我們重新回歸訓(xùn)練和觀察值的變化和調(diào)整過的。我們拒絕該變量的值s大于所要求的意義。我們重新回歸,我們觀察到的p值和調(diào)整過的?,F(xiàn)在我們需要看到調(diào)整過的很嚴(yán)重因?yàn)槿绻{(diào)整過的是倒下了太多的干擾去除略大于所需的意義,我們可以認(rèn)為加入他們的回歸提高調(diào)整過提供ST后的變量標(biāo)準(zhǔn)誤差不起增加變量太多,P不要走遠(yuǎn)比要求的意義。因此,我們完成我們選擇的最佳變量回歸。B.關(guān)于排序參數(shù)選擇的討論我們需要通過直覺和知識(shí)來選擇最佳的排名參數(shù),并進(jìn)行回歸訓(xùn)練和回歸結(jié)果分析上面解釋,以保持最佳的排名參數(shù),我們的排名通過回歸模型。此外,我們可以建立回歸模型預(yù)測(cè)的排名參數(shù)的回歸。我們需要選擇最佳的獨(dú)立變量的直覺和知識(shí)的排名表看。我們做了回歸訓(xùn)練和結(jié)果分析上面解釋,并選擇最佳的回歸參數(shù),其中特定的排名參數(shù)取決于。我們建立回歸模型每個(gè)排序參數(shù)。我們現(xiàn)在將裝備使用線性回歸的任何東西,所以排名。我們應(yīng)該記住,我們需要使用的方法來解釋任何排名在現(xiàn)實(shí)生活中的例子。我們將現(xiàn)在用回歸法討論排序的例子,并做結(jié)果分析。第四章使用回歸排名A.排名取決于單變量排名取決于單變量秩=A+B*RP模型-我例子:等級(jí)=a+b*CGPA(1)在這里,分?jǐn)?shù)排名僅參數(shù)即RP現(xiàn)在我們也需要選擇最佳的回歸參數(shù)預(yù)測(cè)分?jǐn)?shù)為分?jǐn)?shù)建立預(yù)測(cè)模型。直觀或知識(shí)我們可以認(rèn)為分?jǐn)?shù)取決于這些參數(shù)分?jǐn)?shù)=A+B1*GateScore*健康++B2B3B4*+*出勤率avgu1+*+*avgendsemavgu2B6,B5(2)得分、衛(wèi)生、考勤、avgu1,avgu2,AvgENDSEM凡此種種,不一而足。我們建立了單回歸模型與每個(gè)單獨(dú)的參數(shù)選擇,并選擇這些參數(shù)其P值小于0.05即信心>=95%正確估計(jì)和記R2的所有參數(shù)。然后,我們建立多元回歸模型的所有選定的變量產(chǎn)生顯著的估計(jì),并遵循落后淘汰方法。我們也可以直接使用淘汰落后沒有建筑每個(gè)參數(shù)的NG的單變量模型是可取的如果參數(shù)較少建立單變量模型和了解每個(gè)參數(shù)R2和P值的貢獻(xiàn)。這將有助于決定多元回歸模型中變量的包含。我們也可以使用所有可能的子集的方法來獲得最佳的模型,但當(dāng)功能更落后淘汰是首選。后面的任何一個(gè)落后的消除或所有子集的方法,我們建立M模型預(yù)測(cè)分?jǐn)?shù)。應(yīng)用模型建立過程中,我們得到以下model…分?jǐn)?shù)=A+*+*avgendsemavgu2B1B2(3)B.排名取決于多個(gè)變量等級(jí)=A+B1*RP1+B2×RP2++BN×RPN模型–II的例子:通過排序選擇部門的候選人。排名取決于許多排名參數(shù),如教育學(xué)校的水平1-iit2-nit三態(tài)政府4-privatea5-privateb度%>>=1=90–,80-30,型號(hào):>=,>=60-4,<60-5課外國(guó)際國(guó)家狀態(tài)12345區(qū)聯(lián)校校際IIT/nit-2得分從100門分了100選擇排序參數(shù)的最終模型,等級(jí)=α+B1*eduschoollv+B2*度%+運(yùn)動(dòng)+B3B4*GateScore(1)圖1:加權(quán)排序模型排名取決于多個(gè)變量Rank=a+b1*w1*反相1+b2*2*2w反相!..。+BN×WN*RPN模型–三例:候選人的排名在部門分配權(quán)重排名參數(shù).排名取決于許多排名參數(shù),如教育學(xué)校的水平1-IIT2-NIT3-StateGOV4-PrivateA5-PrivateBDegree%>=90–1,>=80-2,>=75-3,>=60-4,<60-5ExtracurricularInternational-1National-2State-3District-4Interschool-5InterschoolIIT/NIT-2GateScore-outof100GatePercentile-outof100Finalmodelofselectedrankingparameters,Rank=alpha+b1*w1*EduSchoolLv+b2*w2*Degree%+b3*w3*sports+b4*w4*GateScore(1)C.回歸誤差影響排名回歸誤差影響排名,所以結(jié)合排名和回歸的方法來找到排名產(chǎn)生更好的結(jié)果。D.監(jiān)督回歸:這個(gè)總損失L(W,D)是由:L(Q,D)=/-D*∑((x,y,q)∈D)l(y,f(w,x))在這里,L(Y,y)是一個(gè)損失函數(shù)在一個(gè)單一的例子,定義在真正的目標(biāo)值y和預(yù)測(cè)值y,和F(W,x)返回的預(yù)測(cè)值y使用W表示的模型。也就是說,我們尋求一個(gè)線性模型表示的權(quán)重向量W,既最大限度地減少W的訓(xùn)練數(shù)據(jù)D的損失,也具有低模型的復(fù)雜性,所表示的權(quán)重的平方范數(shù)矢量.參數(shù)lambda控制正則化的量,調(diào)整這個(gè)參數(shù)交易(可能沖突)的目標(biāo),找到一個(gè)模型,很簡(jiǎn)單,找到一個(gè)模型T帽子符合數(shù)據(jù)很少損失。E.監(jiān)督排序:有監(jiān)督的排序方法的目標(biāo)是學(xué)習(xí)一個(gè)模型,即在一組前所未見的數(shù)據(jù)損失小,采用預(yù)測(cè)函數(shù)f(w,x)為每一個(gè)以前看不到的特征向量R在集合中,相對(duì)于基于秩的損失函數(shù)。學(xué)習(xí)排名的一個(gè)簡(jiǎn)單的和成功的方法是成對(duì)的方法,采用RankSVM。在這種成對(duì)的方法,訓(xùn)練樣本d的原始分布擴(kuò)展到一組P候選對(duì),和一組成對(duì)示例向量的學(xué)習(xí)所得。正式候選人對(duì)P暗示的固定數(shù)據(jù)集D組實(shí)例對(duì)的集合(一個(gè),哎,QA),(B,Yb,QB)從D在亞6=Yb和QA=QB所有例子。當(dāng)亞鐿,然后優(yōu)于B(或等價(jià)地,排名優(yōu)于B)。一般固定D,|P|是O(|D|2),但分片查詢標(biāo)識(shí)符可以導(dǎo)致|P|€|D|2。與P定義,我們發(fā)現(xiàn)W優(yōu)化成對(duì)目標(biāo)函數(shù):在這里,損失函數(shù)L(W,P)被定義成對(duì)差向量P:L(W,P)=1/|P|∑((A,哎,QA),(B,Yb,QB))∈P)L(T(雅?Yb),F(xiàn)(W,一個(gè)?B))的變換函數(shù)T(Y)變換的差異的標(biāo)簽,并實(shí)例化不同的不同的損失函數(shù)。標(biāo)準(zhǔn)損失函數(shù)L(···)適用于這些成對(duì)差分向量,給出適當(dāng)?shù)淖儞QT(·)。平方損失:平方損失為一個(gè)單一的預(yù)測(cè)值Y′與真正的標(biāo)簽相比是由L(Y,Y′)=(Y?Y′)2。這個(gè)損失函數(shù)是凸的。關(guān)聯(lián)變換函數(shù)是恒等函數(shù)t(y)=y物流損失:Y€[0物流損失函數(shù),1]和Y′€[0,1]是L(Y,Y′)=yy′+(1?Y)日志(1?Y′)。這個(gè)損失函數(shù)是凸的。相關(guān)的預(yù)測(cè)函數(shù)是f(x)=w,一/(1+e?<w,x>).F.結(jié)合秩回歸CRR模型創(chuàng)建一個(gè)優(yōu)化問題的回歸損失L(W,D)和成對(duì)排名損失升(鎢,磷)。綜合CRR優(yōu)化問題:Minw€Rmα*L(Q,D)+(1α?)L(Q,P)+lambda/2*||W||22(3)在這里,參數(shù)α-歐元[0,1]權(quán)衡之間優(yōu)化回歸損失和優(yōu)化成對(duì)損失。請(qǐng)注意,設(shè)置α=1恢復(fù)標(biāo)準(zhǔn)的回歸問題,并設(shè)置α=0恢復(fù)t兩兩排序問題。設(shè)置α的中間值迫使優(yōu)化考慮回歸和排名損失條款..我們發(fā)現(xiàn),CRR不特定的過度敏感值A(chǔ)lpha.算法1結(jié)合回歸和排名給出:權(quán)衡參數(shù)α,正則化參數(shù)λ,訓(xùn)練數(shù)據(jù)d,迭代t。w0←anyinitialvaluesfori=1totdopickzuniformlyatrandomfrom[0,1]ifz<αthen(x,y,q)←RandomExample(D)else((a,ya,q),(b,yb,q))←RandomCandidatePair(P)x←(a?b)y←t(ya?yb)endifni←1/lambdawi←StochasticG

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論