版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
LSTM模型基本理論長(zhǎng)期以來,隱變量模型存在著長(zhǎng)期信息保存和短期輸入缺失的問題,解決這一問題的最早也是最經(jīng)典的方法是長(zhǎng)短期存儲(chǔ)器Longhort-ermeory,LT他與門控循環(huán)單元G)有很多相似之處,有意思的是,雖然LTM比GU要復(fù)雜一些,但LTM卻早提出近20年。引入自循環(huán)的巧妙構(gòu)思,以產(chǎn)生梯度長(zhǎng)時(shí)間持續(xù)流動(dòng)的路徑是LTM模型的核心貢獻(xiàn)。其中一個(gè)關(guān)鍵擴(kuò)展是使自循環(huán)的權(quán)重視上下文而定,而不是固定的。門控此自循環(huán)的權(quán),累積的時(shí)間尺度以動(dòng)態(tài)地改變。在這種情況下,即使是具固定參數(shù)的LT,累積的時(shí)間尺度也可以因輸入序列而改變,因?yàn)闀r(shí)間常數(shù)是模型本身的輸出。LTM已經(jīng)在很多應(yīng)用中取得重大成功。長(zhǎng)短期記憶網(wǎng)絡(luò)的設(shè)計(jì)靈感來自于計(jì)算機(jī)的邏輯門。長(zhǎng)短期記憶網(wǎng)絡(luò)引入了記憶元eorycel,或簡(jiǎn)稱為單元ce。有些文獻(xiàn)認(rèn)為記憶元是隱狀態(tài)的一種特殊類型,它們與隱狀態(tài)具有相同的形狀,其設(shè)計(jì)目的是用于記錄附加的信息。為了控制記憶元,我們需要許多門。其中一個(gè)門用來從單元中輸出條目,我們將其稱為輸出門outputgate。另外一個(gè)門用來決定何時(shí)將數(shù)據(jù)讀入單元,我們將其稱為輸入門nputgate。我們還需要一種機(jī)制來重置單元的內(nèi)容,由遺忘門forgetgate)來管理,這種設(shè)計(jì)的動(dòng)機(jī)與門控循環(huán)單元相同,能夠通過專用機(jī)制決定什么時(shí)候記憶或忽略隱狀態(tài)中的輸入。輸入門、遺門和輸門當(dāng)前時(shí)間步的輸入和前一個(gè)時(shí)間步的隱狀態(tài)作為數(shù)據(jù)送入LTM的門中,圖所示。它們由三個(gè)具有sgod激活函數(shù)的全連接層處理,以計(jì)算輸入門、遺忘門和輸出門的值。因此,這三個(gè)門的值都(0,1)的范圍內(nèi)。圖1輸入門、遺忘門和輸出門LTM的數(shù)學(xué)表達(dá)如下假設(shè)?個(gè)隱藏單元,批量大小,輸入數(shù)??。因此,輸入????∈????,前一時(shí)間步的隱狀態(tài)????∈???。相應(yīng)地,時(shí)間步??的門被定義如:輸入門??∈??×?,遺忘門是????∈???,輸出門是??∈???,他們的計(jì)算方法如下:??=σ(??????+1??+??????=σ??????+1??+????=σ(??????+1??+????其??是權(quán)重參數(shù)是偏置參數(shù)候選記憶元圖2 候選記憶單元候選記憶????的計(jì)算方法與上面相似,但是使用的tanh函數(shù)作為激活,計(jì)算方法如下:????=tanh(??????+1??+????記憶元和隱態(tài)圖3 記憶元和隱狀態(tài)在LTM中,有一種機(jī)制來控制輸入和遺:輸入門控制采用多少來自記憶元的內(nèi)容,而遺忘門控制保留多少上一個(gè)記憶元的內(nèi)容。輸出門發(fā)揮用的地方就是隱狀態(tài),在長(zhǎng)短期記憶網(wǎng)絡(luò)中,它僅僅是記憶元的tanh的門控版本。只要輸出門近1,我們就能夠有效地將所有記憶信息傳遞給預(yù)測(cè)部分,而對(duì)于輸出門接近0,我們只保留記憶元內(nèi)的所有信息,而不需要更新隱狀態(tài)。LSTM模型建模模型合理性討論理論上,股票價(jià)格是可以預(yù)測(cè)的,但是影響股票價(jià)格的因素有很多,而且目前為止,它們對(duì)股票的影響還不能清晰定義。這是因?yàn)楣善鳖A(yù)測(cè)是高度非線性的,這就要預(yù)測(cè)模型要能夠處理非線性問題,并且,股票具有時(shí)間序列的特性,因此適合用循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)股票進(jìn)行預(yù)測(cè)。雖然循環(huán)神經(jīng)網(wǎng)絡(luò),允許信息的持久化,然而,一般的RNN模型對(duì)具備長(zhǎng)記憶性的時(shí)間序列數(shù)據(jù)刻畫能力較弱,在時(shí)間序列過長(zhǎng)的時(shí)候,因?yàn)榇嬖谔荻认⒑吞荻缺ìF(xiàn)象N訓(xùn)練變得非常困難ochreter和chdhuber提出的長(zhǎng)短期記憶(Longhort-ermeory,LT)模型在N結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了改造,從而解決了N模型無法刻畫時(shí)間序列長(zhǎng)記憶性的問題。綜上所述,深度學(xué)習(xí)中的LTM模型能夠很好地刻畫時(shí)間序列的長(zhǎng)記憶性。模型優(yōu)缺點(diǎn)討論LTM模型優(yōu)如下:改善了N中存在的長(zhǎng)期依賴問題LTM的表現(xiàn)通常比時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)及隱馬爾科夫模型)更好。LTM通過各種門函數(shù)來將重要特征保留下來,能夠有效減緩長(zhǎng)序列問題中可能出現(xiàn)的梯度消失或爆,雖然并不能杜絕這種現(xiàn),但在更長(zhǎng)的序列問題上表現(xiàn)優(yōu)于傳統(tǒng)。LTM模型缺點(diǎn)如下:并行處理上存在劣,只能從前到,與一些最新的網(wǎng)絡(luò)相對(duì)效果一般;N的梯度問題在LTM及其變種里面得到了一定程度的解決,但還是不夠。它可以處理100個(gè)量級(jí)的序列,而對(duì)于1000個(gè)量級(jí),或者更長(zhǎng)的序列則依然會(huì)得很棘。3、計(jì)算費(fèi)時(shí)。如果LTM的時(shí)間跨度大且網(wǎng)絡(luò)深,計(jì)算量大耗時(shí)。策略設(shè)計(jì)思路建模方法圖4 使用LSTM模型建模
我們將LTM應(yīng)用于股票預(yù)測(cè),模型結(jié)構(gòu)圖如圖所示。nput1包含了一天股票數(shù)據(jù)的信息nput2包含了一周股票數(shù)據(jù)的信息,他的維度均為c406(c為通道數(shù)。將nput1和nput2分別通過LTM層,這兩個(gè)LTM的權(quán)重不共享,得到c601維的矩陣,經(jīng)過歸一化處理之后拼接為一個(gè)c1201維的矩陣,此矩陣包含了兩個(gè)輸入的全局狀態(tài)信息最后,將結(jié)果經(jīng)過一個(gè)全連接層輸出一個(gè)c1維的矩陣,即得到預(yù)測(cè)結(jié)果。數(shù)據(jù)及參數(shù)選擇參數(shù)說明units輸出維度input_dim 輸入維度,當(dāng)使用該層為模型首層時(shí),應(yīng)指定該值LTM模型的重要參數(shù)如下表1:參數(shù)說明units輸出維度input_dim 輸入維度,當(dāng)使用該層為模型首層時(shí),應(yīng)指定該值return_sequences控制返回類型。若為True則返回整個(gè)序列,否則僅返回輸出序列的最后一個(gè)輸出input_length 當(dāng)輸入序列的長(zhǎng)度固定時(shí),該參數(shù)為輸入序列的長(zhǎng)度。策略具體過程圖5 驗(yàn)證集IC折線圖
對(duì)于上述模在數(shù)據(jù)上訓(xùn)練的結(jié)果如下圖所示,橫坐標(biāo)是每次數(shù)據(jù)所運(yùn)行的批次,縱坐標(biāo)是每一個(gè)批次的平均準(zhǔn)確率。該模型的測(cè)試集的結(jié)果如下。圖6 測(cè)試集IC折線圖以下的方法,我們將在原模(st)的基礎(chǔ)上增加回歸模型嘗優(yōu)和提高。集成學(xué)習(xí)理論和傳統(tǒng)學(xué)習(xí)方法訓(xùn)練一個(gè)學(xué)習(xí)器不同,集成學(xué)習(xí)方法訓(xùn)練多個(gè)學(xué)習(xí)器并結(jié)合它們來解決一個(gè)問題。一個(gè)集成由多個(gè)基學(xué)習(xí)器構(gòu)成,而基學(xué)習(xí)器由基學(xué)習(xí)算法在訓(xùn)練數(shù)據(jù)上獲得,它們可以是決策樹、神經(jīng)網(wǎng)絡(luò)或其他學(xué)習(xí)算法。大多數(shù)集成學(xué)習(xí)方法使用同一種基學(xué)習(xí)算法產(chǎn)生同質(zhì)的基學(xué)習(xí)器,即相同種類的學(xué)習(xí)器,生成同質(zhì)集成(hoogeneousensebe);同時(shí),也有一些方法使用多種學(xué)習(xí)算法訓(xùn)練不同種類的學(xué)習(xí)器,構(gòu)建異質(zhì)集(heterogeneousensebe)。通常,集成具有比基學(xué)習(xí)器強(qiáng)的泛化能力,很大程度上是因?yàn)樗鼈兡軌虬驯入S機(jī)猜測(cè)稍好的弱學(xué)習(xí)器(eakearner)變成可以精確預(yù)測(cè)的強(qiáng)學(xué)習(xí)(strongearner)。圖7 集成學(xué)示意圖根據(jù)基分類器的生成方式,集成學(xué)習(xí)方法有兩種范式:并行生成基分類器的“并行集成方法aggng,以及串行生成基分類器的“串行集成方法oostng。Baggg算法由于聚合獨(dú)立的基分類器可以顯著降低誤差,所以我們希望得到的基分類器越獨(dú)立越好。給定訓(xùn)練集,一種可能的實(shí)現(xiàn)是采樣得到若干相互沒有重合祥本的子集,每個(gè)子集各自訓(xùn)練基分類器。然而,由于訓(xùn)練數(shù)據(jù)是有限的,這樣得到的子集樣本少,不具代表性,使得基分類器的性能受限。aggng采用自助采樣生成不同的基分類器。它引人自助采樣得到訓(xùn)練子集用于訓(xùn)練基分類器。具體來講,給定一個(gè)樣本數(shù)??的訓(xùn)練集合,它通過有放回采樣得到??個(gè)訓(xùn)練樣本的采樣集。原始樣本有的被選中多次,有的未被選中。重復(fù)過程??次,得??個(gè)樣本數(shù)目??的樣本集。對(duì)每個(gè)采樣出來的訓(xùn)練集,使用基學(xué)習(xí)算法可以得到一個(gè)基學(xué)習(xí)器aggng采用最常用的方法來聚合基分類器,即在分類任務(wù)上投票,在回歸問題上平均aggng算法下所示。輸入:數(shù)據(jù)集??=(1,??1),(2,??2),…(??,????)};基學(xué)習(xí)算?;基學(xué)習(xí)器??步驟:??????=1,…,??∶???=?(??,????). ????為自助分布end=1輸出:??(??)=argmax=1
(???()=??.??∈??值得一提的是,自助采樣賦予了aggng一個(gè)額外優(yōu)勢(shì):給??個(gè)訓(xùn)練樣本,第??個(gè)樣本被選中0,1,2...次的概率近似為??=1的泊松分布,所以??個(gè)樣本至少出一次的概率1?(1/??)≈0.63。即對(duì)aggng的任一基分類器,訓(xùn)練時(shí)原始訓(xùn)練集中約有36.8的樣本未被使用。此時(shí),這個(gè)基分類器的好壞可以通過這些out-of-bag,OOB樣本估算,繼而對(duì)aggng算法的泛化誤差進(jìn)行估。隨機(jī)森算法圖8 隨機(jī)森林算法圖
隨機(jī)森(andomForest,F)是aggng的升級(jí),它在以決策樹為基學(xué)習(xí)構(gòu)建aggng集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假設(shè)??個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;而在隨機(jī)森林中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包??個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。這里??控制了隨機(jī)性的引入程度,如果??=,則基決策樹的構(gòu)建與傳統(tǒng)決策樹相同;??=1,則是隨機(jī)選擇一個(gè)屬性用于劃分。隨機(jī)森林算法生成過程如下:1、從原始數(shù)據(jù)集中每次隨機(jī)有放回抽樣選取與原始數(shù)據(jù)集相同數(shù)量的樣本數(shù)據(jù),構(gòu)造數(shù)據(jù)子集;2、每個(gè)數(shù)據(jù)子集從所有待選擇的特征中隨機(jī)選取一定數(shù)量的最優(yōu)特征作為決策樹的輸入特征;3、根據(jù)每個(gè)數(shù)據(jù)子集分別得到每棵決策樹,由多棵決策樹共同組成隨機(jī)森林;4、最后如果是分類問題,則按照投票的方式選取票數(shù)最多的類作為結(jié)果返回,如果是回歸問題,則按照平均法選取所有決策樹預(yù)測(cè)的平均值作為結(jié)果返回。Boosng算法oostng算法的工作機(jī)制是首先從訓(xùn)練集用初始權(quán)重訓(xùn)練出一個(gè)弱學(xué)習(xí)器1,根據(jù)弱學(xué)習(xí)的學(xué)習(xí)誤差率表現(xiàn)來更新訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器1學(xué)習(xí)誤差率高的訓(xùn)練樣本權(quán)重變高,使得這些誤差率高的點(diǎn)在后面的弱學(xué)習(xí)器2中得到更多的重視。然后基于調(diào)整權(quán)重后的訓(xùn)練集來訓(xùn)練弱學(xué)習(xí)器2,如此重復(fù)進(jìn)行,直到弱學(xué)習(xí)器數(shù)達(dá)到事先指定的數(shù)目??,最終將這??個(gè)弱學(xué)習(xí)器通過集合策略進(jìn)行整合,得到最終的強(qiáng)學(xué)習(xí)器。簡(jiǎn)單來說oostng就是串行地訓(xùn)練一系列弱分類器,使得被先前弱分類器分類錯(cuò)誤地樣本在后地到更多關(guān)注,最后將這些分類器組合成最優(yōu)強(qiáng)分類器的過程oostng算法的一般過程如下。常見的oostng算法有dabo、GT、Goost等。輸入:樣本分??;基學(xué)習(xí)算?;基學(xué)習(xí)器??.步驟:1=??. 初始化分布??????=1,…,??∶???=(??); 根據(jù)分??訓(xùn)練弱分類器????=???????()≠??()); 評(píng)估???的錯(cuò)誤率??1=??????????????????(??,????).nd輸出:??(??)=????????_??????????(?1(),…,???()}.GBDT圖9 隨機(jī)森林算法圖
GT是boostng算法的一種,它是一種迭代的決策樹算法GT的核心原理是先用初始值預(yù)測(cè)一顆決策樹,得到本輪的殘(即真實(shí)值減預(yù)測(cè)),然后用殘差作為下一輪決策樹的預(yù)測(cè)對(duì)象,這時(shí)會(huì)再產(chǎn)生一個(gè)殘差,再用這個(gè)殘差作為下一輪的預(yù)測(cè)對(duì)象,以此循環(huán)迭代直到最后一輪的預(yù)測(cè)殘差為0或非常小的時(shí)候就停止迭代,然后把所有輪的模型預(yù)測(cè)結(jié)果相加得到最終預(yù)測(cè)結(jié)果GT核心原理如下圖所示。XGBoostGoost(etreegradentboostng)是GT的一種工業(yè)實(shí)現(xiàn),也是通過斷增加新樹,擬合偽殘差去降低損失函數(shù)。Goost本質(zhì)上仍然屬于GT算法,但在算法精度、速度和泛化能力上均要優(yōu)于傳統(tǒng)的GT算法。從算法精度上來看Goost通過將損失函數(shù)展開到二階導(dǎo)數(shù),使得其更能逼近真實(shí)損失;從算法速度上來看,Goost使用了加權(quán)分位樹sketch和稀疏感知算法這兩個(gè)技巧,通過緩存優(yōu)化和模型并行來提高算法速度;從算法泛化能力上來看,通過對(duì)損失函數(shù)加入正則化項(xiàng)、加性模型中設(shè)置縮減率和列抽樣等方法,來防止模型過擬合。集成學(xué)習(xí)建模模型合理性討論回歸問題中,單個(gè)模型容易過擬合,而集學(xué)可以通過減少單個(gè)模型的過擬合來提高整體預(yù)測(cè)的穩(wěn)定性。且回歸問題往往存在多個(gè)潛在的模,這些模型可能針對(duì)不同的數(shù)據(jù)集表現(xiàn)得更好。將這些模型合并為一個(gè)集成模型可以提高準(zhǔn)確率,因?yàn)榧瘜W(xué)習(xí)可以從不同的模型中獲取更多的信息,并獲得更準(zhǔn)確的預(yù)測(cè)。它可以動(dòng)態(tài)調(diào)整每個(gè)模型的權(quán)重,根據(jù)不同數(shù)據(jù)集的特點(diǎn)來決定如何融合多個(gè)回歸模型的結(jié)果,從而提高預(yù)測(cè)準(zhǔn)確率。綜上所述,集成學(xué)習(xí)是一種非常有效地機(jī)器學(xué)習(xí)方法,可以利用集成學(xué)習(xí)幫助我們解決回歸問題。模型優(yōu)缺討論隨機(jī)森林優(yōu)點(diǎn):隨機(jī)森林是集成算法,模型精度往往比單棵決策樹更高;每次隨機(jī)選樣本和特征,提高了模型抗干擾能力,泛化能力更強(qiáng);對(duì)數(shù)據(jù)集適應(yīng)能力強(qiáng),可處理離散數(shù)據(jù)和缺失數(shù)據(jù),數(shù)據(jù)規(guī)范化要求低;在每次隨機(jī)選樣本時(shí)均有1/3的樣本未被選上,這部分樣本通常稱之為袋外數(shù)據(jù)OO(outofbag),可以直接拿來作為驗(yàn)證集,不需占用訓(xùn)練數(shù)據(jù)。缺點(diǎn):當(dāng)決策樹的數(shù)量較多時(shí),訓(xùn)練所需要時(shí)間較長(zhǎng);模型可解釋性不強(qiáng),屬于黑盒模型。GBDT優(yōu)點(diǎn):GT每一次的殘差計(jì)算都增大了分錯(cuò)樣本的權(quán)重,而分對(duì)的權(quán)重都趨于0因此泛化性能比較好。預(yù)測(cè)精度缺點(diǎn):對(duì)異常值比較敏感。分類器之間存在依賴關(guān)系,難以并行計(jì)算。XGBoost優(yōu)點(diǎn):Goost在代價(jià)函數(shù)里加入了正則項(xiàng),控制了模型的復(fù)雜度。Goost工具支持并行。Goost支持用戶自定義目標(biāo)函數(shù)和評(píng)估函數(shù)。對(duì)于特征值缺失的樣本Goost可以自動(dòng)學(xué)習(xí)出它的分裂方向。缺點(diǎn):算法參數(shù)過多,調(diào)參復(fù)雜。不適合處理非結(jié)構(gòu)化數(shù)據(jù)。不適合處理超高維特征數(shù)據(jù)。策略設(shè)計(jì)思路建模方法nput1包含了一天股票數(shù)據(jù)的信息nput2包含了一周股票數(shù)據(jù)的信息,他的維度均為c406(c為通道數(shù)。將nput1和nput2分別通過LTM層,這兩個(gè)LTM的權(quán)重不共享,得到c601維的矩陣,經(jīng)過歸一化處理之后拼接為一個(gè)c1201維的矩陣,此矩陣包含了兩個(gè)輸入的全局狀態(tài)信息。最后,將結(jié)果經(jīng)過集成學(xué)習(xí)模型輸出一個(gè)c1維的矩陣,即得到預(yù)測(cè)結(jié)果。圖10 使用LSTM+集成學(xué)習(xí)建模數(shù)據(jù)及參數(shù)選擇參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100max_features決定劃分時(shí)考慮的最大特征數(shù)量。默認(rèn)為automax_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Nonemin_samples_split拆分結(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)值為2min_samples_leaf最小葉節(jié)點(diǎn)樣本數(shù)。默認(rèn)值為1n_jobs并行線程數(shù)。默認(rèn)值為參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100max_features決定劃分時(shí)考慮的最大特征數(shù)量。默認(rèn)為automax_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Nonemin_samples_split拆分結(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)值為2min_samples_leaf最小葉節(jié)點(diǎn)樣本數(shù)。默認(rèn)值為1n_jobs并行線程數(shù)。默認(rèn)值為1參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100learning_rate學(xué)習(xí)率。默認(rèn)值為0.1loss損失函數(shù)。默認(rèn)值為ls(leastsqures)max_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Nonemin_samples_split拆分結(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)值為2min_samples_leaf最小葉節(jié)點(diǎn)樣本數(shù)。默認(rèn)值為1GT回歸的評(píng)估器是參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100learning_rate學(xué)習(xí)率。默認(rèn)值為0.1loss損失函數(shù)。默認(rèn)值為ls(leastsqures)max_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Nonemin_samples_split拆分結(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)值為2min_samples_leaf最小葉節(jié)點(diǎn)樣本數(shù)。默認(rèn)值為1參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100learning_rate 每個(gè)迭代產(chǎn)生的模型的學(xué)習(xí)率。默認(rèn)值為0.1max_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Noneobjective 給定損失函數(shù)。默認(rèn)為”reg:linear”Goost回歸的評(píng)估器是參數(shù)說明n_estimators子模型數(shù)量。通常為正整數(shù),默認(rèn)值為100learning_rate 每個(gè)迭代產(chǎn)生的模型的學(xué)習(xí)率。默認(rèn)值為0.1max_depth每棵樹的最大深度。通常為正整數(shù),默認(rèn)為Noneobjective 給定損失函數(shù)。默認(rèn)為”reg:linear”booster 給定模型的求解方式。默認(rèn)為”gbtree”n_jobs 并行線程數(shù)。默認(rèn)值為1reg_alphaL1正則項(xiàng)的權(quán)重。默認(rèn)為0reg_lambda L2正則項(xiàng)的權(quán)重。默認(rèn)為1策略具體過程隨機(jī)森林回歸在原有LTM結(jié)構(gòu)的基礎(chǔ),我們提取”concatenate”層的結(jié),將其作為隨機(jī)森林的輸入。利用skearn中的andoForestegressr函數(shù)進(jìn)行回歸擬合出預(yù)測(cè)數(shù)值。對(duì)真實(shí)數(shù)值和預(yù)測(cè)數(shù)值進(jìn)皮爾遜系的計(jì)算,得平均c值。使網(wǎng)格搜索,對(duì)超參數(shù)設(shè)范圍,將參數(shù)組合進(jìn)行循環(huán)迭代組合,通過窮舉法對(duì)所有參數(shù)進(jìn)行評(píng)分從而尋得最優(yōu)參數(shù)我們對(duì)隨機(jī)森林最重要的兩個(gè)參數(shù)(學(xué)習(xí)器個(gè)數(shù)決策樹度)進(jìn)行了調(diào)參,在兼顧效果和耗時(shí)的情況下,最終選擇了學(xué)習(xí)器個(gè)數(shù)為100,深度為8的超參數(shù)。繼續(xù)增加學(xué)習(xí)器個(gè)數(shù)以及增加深度,對(duì)效果的提升微乎其微,且訓(xùn)練時(shí)間更久在該參數(shù)下的擬合結(jié)果如圖在12核cpu上設(shè)置并行,訓(xùn)練隨機(jī)森林回歸模型預(yù)計(jì)耗時(shí)2.67小時(shí)。圖11 使用LSTM+隨機(jī)森林建模結(jié)果但在原模型架構(gòu)上加隨機(jī)森林回歸的效果并不理想。原模型的平均c值為0.1032,在原模型基礎(chǔ)上進(jìn)行隨機(jī)森林回歸得到的平均c值為0.0912。GBDT回歸我們將隨機(jī)森林模型替換為T模型,利用sken中的Gradentoostngegressor函數(shù)進(jìn)行回歸擬。效果也并不理想。圖12 使用LSTM+GBDT建模結(jié)果XGBoost回歸我們將GT模型替換為Goost模型,利用skearn中的Gegressor函數(shù)進(jìn)行回歸擬。兼顧準(zhǔn)確率和運(yùn)行時(shí)間,當(dāng)學(xué)習(xí)器個(gè)數(shù)為600,深度為3時(shí)效果較好。在該參數(shù)下的擬合結(jié)果如圖。圖13 使用LSTM+XGBoost建模結(jié)果Goost是三集成方法中效果最好的。平均c值和原模型幾乎一致,在2750、3250、4190批次的數(shù)據(jù)表現(xiàn)略優(yōu)于原模型。但它對(duì)模型的提升程度仍然有限。線性回歸理論模型定與估線性回歸的目標(biāo)是找到一個(gè)函數(shù),能將輸入的屬性映射到輸出屬性或目標(biāo)屬性上。該函數(shù)??作為輸入,返??,即??是??的函數(shù),在數(shù)學(xué)上一般記??=??(),但在機(jī)器學(xué)習(xí)領(lǐng)域,一般將假設(shè)函數(shù)記?,代表了英文hypothess,模型被記為:??=?(??)更一般的,輸入為一個(gè)向,表示輸入有多個(gè)變量,稱為多變量線性回歸問題,即??=?()為了選擇更合適的模型,對(duì)模型做出假設(shè)是必要的,最簡(jiǎn)單有效的方式就是假設(shè)輸入與輸出是線性關(guān)系,用公式表示如下:??=?()=1??1+2??2+?+??????+??其表示包含d個(gè)屬性的輸入??=(??1;??2;…;????,在第??個(gè)屬性上的取值用????表示。一般用向量的形式寫成:??=?()=????+??模型需要學(xué)習(xí)的任務(wù)是找到這樣的一個(gè)函數(shù),來擬合輸入與輸出,通俗的說,就是確定最佳和b,使得?(????)???。一般情況下,我們采用損失函數(shù)來衡量一個(gè)模型和真實(shí)數(shù)據(jù)之間的差別。為了找到最佳和b的值,線性回歸使用了均方誤差的變體來表示損失函數(shù),??(,??表示整個(gè)數(shù)據(jù)集上的平均損失,損失函數(shù)公式如下:1(,??)=2??
??∑???;,??)?????2??1??和????表示的是??維的數(shù)據(jù)。值得注意的是,公式中1/是為了求導(dǎo)方便而加入的,如果??(,??進(jìn)行求導(dǎo)1/就會(huì)被約去1/是為了除去數(shù)據(jù)集大小對(duì)損失的影響,唯一能直接??(,??產(chǎn)生影響的只和??兩個(gè)參數(shù)。損失函數(shù)越小,表示假設(shè)模型能更好地對(duì)數(shù)據(jù)進(jìn)行擬合。因此,我們的目標(biāo)是讓均方誤差最小化,以產(chǎn)生最小的損失函數(shù)值:1argmin
??2???;,??)?????)2????
2??
??1如何去求解這個(gè)最小值,分別有兩種方法:最小二乘法和梯度下降法。最小二乘法在損失函??(,??的最小值處和??的偏導(dǎo)數(shù)一定為0,也就是說,求解以下方程組,能得和??的拐點(diǎn):????)=0????????(??){???? =0同時(shí),計(jì)算他們的二階偏導(dǎo)數(shù),如果大于0,則該拐點(diǎn)為最小值,否則為最大值。梯度下降梯度下降基本思想梯度下降算法的基本思想是:隨機(jī)選取一組參數(shù)初值,計(jì)算損失,然后尋找能讓損失在數(shù)值上下降最多的另一組參數(shù),反復(fù)迭代且到達(dá)到一個(gè)局部最優(yōu)。由于沒有嘗試所有的參數(shù)組合,所以無法確定是否就是全局最優(yōu)。如果選擇不同的一組初始參數(shù),可能找到不同的局部最優(yōu)值。參數(shù)的更新方式為:????() 1??=
????
=??∑(?(????)?????)????1????1=?????????隨機(jī)梯度下
?? ??當(dāng)訓(xùn)練集規(guī)模較大時(shí),可以考慮使用隨機(jī)梯度下降來減小計(jì)算量。隨機(jī)梯度下降的方式與批量梯度下降非常類似,主要區(qū)別在于批量梯度下降每次更新參數(shù)是使用所有的訓(xùn)練數(shù)據(jù),而隨機(jī)梯度下降算法每次只使用一條訓(xùn)練數(shù)據(jù)就可以更新參數(shù)。隨機(jī)梯度下降算法根據(jù)每一個(gè)訓(xùn)練實(shí)例更新參數(shù)集,并不需要計(jì)算全部訓(xùn)練集才進(jìn)行隨機(jī)梯度下降算更新,因此計(jì)算速度較快,在批量梯度下降算法還沒有完成一次迭代時(shí)就已經(jīng)更新多次。但這種只根據(jù)一個(gè)訓(xùn)練實(shí)例更新參數(shù)的辦法也存在一個(gè)問題:不是每一次迭代的步伐都邁向“正確”的方向。因此,算法雖然會(huì)逐步邁向局部最小值的位置,但可能只是在最小值位置附近徘徊,無法收斂到局部最小值那一點(diǎn)上。線性回歸應(yīng)用模型的合理討論線性回歸可以用來預(yù)測(cè)股票價(jià)格。其基本思路是通過歷史的數(shù)據(jù),找到股票價(jià)格與其他市場(chǎng)變量之間的線性關(guān)系,然后利用這個(gè)關(guān)系預(yù)測(cè)未來的股票價(jià)格。具體來說,需要收集一些歷史數(shù)據(jù),例如過去一年的股票價(jià)格和市場(chǎng)變量數(shù)據(jù)。市場(chǎng)變量可以包括股市指數(shù)、商品價(jià)格、貨幣匯率等等。接下來,可以使用線性回歸模型來探索這些變量之間的關(guān)系,并建立一個(gè)模型來預(yù)未來的股票價(jià)格。模型的優(yōu)缺討論多元線性回模型優(yōu)點(diǎn):能夠從多個(gè)自變量中找到對(duì)因變量有影響的變量。能夠考慮多個(gè)自變量的影響,且調(diào)整多個(gè)自變量的權(quán)重。樣本量要求較低,可以利用樣本的數(shù)量來提高預(yù)測(cè)精度。缺點(diǎn):計(jì)算過程比較復(fù)雜,需要建立高維的線性方程組;如果樣本數(shù)據(jù)數(shù)量不夠大,或者設(shè)計(jì)矩陣不滿秩,會(huì)導(dǎo)致多元回歸模型過于復(fù)雜,過擬合的風(fēng)險(xiǎn)較高;對(duì)于非線性的數(shù)據(jù)結(jié)構(gòu),多元線性回歸不能很好地適應(yīng)。隨機(jī)梯度下降線性回模型優(yōu)點(diǎn):訓(xùn)練速度非常、內(nèi)存占用??梢栽诰€學(xué)習(xí),即在新增數(shù)據(jù)時(shí)立即更新模型。對(duì)噪聲數(shù)據(jù)不敏缺點(diǎn):因?yàn)殡S機(jī)抽取的樣本不一定代表整個(gè)數(shù)據(jù)集,所以GD有可能無法收斂到全局最小值,收斂結(jié)果比較不穩(wěn)定。不易于并行實(shí)現(xiàn)策略設(shè)計(jì)思路建模方法圖14 使用LSTM+線性回歸建模nput1包含了一天股票數(shù)據(jù)的信息nput2包含了一周股票數(shù)據(jù)的信息,他的維度均為c406(c為通道數(shù)。將nput1和nput2分別通過LTM層,這兩個(gè)LTM的權(quán)重不共享,得到c601維的矩陣,經(jīng)過歸一化處理之后拼接為一個(gè)c1201維的矩陣,此矩陣包含了兩個(gè)輸入的全局狀態(tài)信息,將此矩陣輸入到線性回歸模型中,得到最后的結(jié)果。數(shù)據(jù)及參數(shù)選擇參數(shù)說明fit_intercept是否有截?fù)?jù),如果沒有則直線過原點(diǎn)normalize 是否將數(shù)據(jù)歸一化n_jobs 并行線程數(shù)。默認(rèn)值為1多元線回歸的評(píng)估器是LinearRgrsio參數(shù)說明fit_intercept是否有截?fù)?jù),如果沒有則直線過原點(diǎn)normalize 是否將數(shù)據(jù)歸一化n_jobs 并行線程數(shù)。默認(rèn)值為1參數(shù)說明loss損失函數(shù)。默認(rèn)為'squared_error'penalty 正則化項(xiàng)。默認(rèn)為'l2'。'參數(shù)說明loss損失函數(shù)。默認(rèn)為'squared_error'penalty 正則化項(xiàng)。默認(rèn)為'l2'。'l1'和'elasticnet'為可選項(xiàng),可能會(huì)給模型帶來稀疏性(特征選擇)。alpha乘以正則化項(xiàng)的常數(shù)。值越高,正則化越強(qiáng)。max_iter 訓(xùn)練數(shù)據(jù)的最大迭代次數(shù)。默認(rèn)值為1000learning_rate 學(xué)習(xí)率。random_state 傳遞int以獲得跨多個(gè)函數(shù)調(diào)用的可重現(xiàn)輸出。learning_rate 學(xué)習(xí)率。early_stopping當(dāng)驗(yàn)證分?jǐn)?shù)沒有提高時(shí),是否使用提前停止來終止訓(xùn)練。n_iter_no_change 在停止擬合之前等待沒有改進(jìn)的迭代次數(shù)。策略具體過程在原有LTM結(jié)構(gòu)的基礎(chǔ),我們提取”concatenate”層的結(jié),將其作為隨機(jī)森林的輸入。利用skearn中的near_ode.Lnearegrsson()函數(shù)進(jìn)行回歸擬合,輸出預(yù)測(cè)數(shù)值。對(duì)真實(shí)數(shù)值和預(yù)測(cè)數(shù)值進(jìn)皮爾遜系的計(jì)算,得平均c值。將多元線性回歸模型替換為隨機(jī)梯度下降模型,利用skearn中的near_od.Gegressor()進(jìn)行回歸擬合。由于兩種方法得到的結(jié)果趨勢(shì)十分相近,我們將原模型,原模多元線性回歸,原模隨機(jī)梯度下降線性回歸的結(jié)果展現(xiàn)在一張圖中,便于觀察和比較。圖15 使用LSTM+線性回歸建模結(jié)果可以看到,兩種線性回歸的方法效果十分接近,總體上的平均c值都略高于原模型。支持向量回歸理論支持向量機(jī)支持向量機(jī)定義支持向量機(jī))是一種二元分類模型,定義為特征空間上間隔最大的線性分類器模型,學(xué)習(xí)策略就是使其間隔最大化。M是從線性可分情況下二元分類的最優(yōu)分類平面發(fā)展而來的,最優(yōu)的含義是要求分類平面不但能夠?qū)蓚€(gè)類別正確分割開來,而且能使分類間隔最大。也就是說,圖16 SVM二分類示意圖
M試圖尋找一個(gè)滿足分類要求的超平面并且使訓(xùn)練集中的數(shù)據(jù)點(diǎn)盡量遠(yuǎn)離該平面,即使分類平面兩間隔最大化。如圖16所示M所要找到的??2這樣的超平面進(jìn)行劃。最大間隔超平面M原先是為二元分類問題設(shè)計(jì)的,但可以擴(kuò)展至能夠處理多元分類問題。假定有一些給定的數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)屬于兩個(gè)類別之一,即二元分類,其分類目標(biāo)是,確定一個(gè)新的數(shù)據(jù)點(diǎn)屬于兩個(gè)類別中的哪一個(gè)。用支持向量機(jī)的觀點(diǎn),將一個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)D維向量,分類問題就轉(zhuǎn)換為是否可以用一個(gè)-1維超平面將這些數(shù)據(jù)點(diǎn)按類別分割開來,這就是線性分類器。對(duì)于一個(gè)給定的線性可分問,有無數(shù)個(gè)能對(duì)數(shù)據(jù)進(jìn)行分類的超平面,最佳的超平面應(yīng)該是能夠?qū)蓚€(gè)類別最大限度地分離開來的超平面,這樣能夠使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。所以選擇的超平面應(yīng)該能夠?qū)⑴c兩側(cè)最接近的數(shù)據(jù)點(diǎn)的距離最大化。如果存在這樣一個(gè)超平面,可稱之為最大間隔超平面,所定義的線性分類器稱為最大間隔分類器。最大間隔分類器意味著具有更好的泛化能力,能夠容忍更多的噪聲影響。如果某個(gè)數(shù)據(jù)點(diǎn)受到噪聲影響而發(fā)生位移,最大間隔分類器能夠最大限度地防止噪聲造成的錯(cuò)誤分類。支持向量與最大間隔假設(shè)樣本在線性可分的情況下??維樣本空間中可以將訓(xùn)練樣本完全分類的超平面方程為:??????+??=0對(duì)于正類來說????+??>;對(duì)于負(fù)類來說????+??<。式中,??=(??1,??2,…,????為??維樣本中的一個(gè)點(diǎn)??=(1,2,…,??)為超平面的法向量,決定了超平面的方向??為位移,決定了超平面與原點(diǎn)的距離。可以看出,任何一個(gè)超平面都可以(,??)來唯一確定。任意一(??,??)到超平面的距離可以表示為:??=
????+??|‖??1??其‖=√∑??????1??假設(shè)距離超平面最近的正樣本或負(fù)樣本到超平面的距離1或-1,則最大間隔表示為:1 1 2??=‖+‖=‖這個(gè)間隔只與法向量有關(guān),也就是只與超平面的法向量有關(guān),而與位??無關(guān)。所有樣本被正確分類需要滿足:????(??????+??)≥1, ??=1,2,…,??于是我們的目標(biāo)函數(shù)就可以寫成:max????????.??.????????????+??)≥1, ??=1,2,…,??又可以寫成更一般的形式:1min
‖????2??.??.????????????+??)≥1, ??=1,2,…,??這就是支持向量機(jī)M的基本模型。支持向量回歸支持向量機(jī)回歸)用非線性映射將數(shù)據(jù)映射到高維數(shù)據(jù)特征空間中,使得在高維數(shù)據(jù)特征空間中自變量與因變量具有很好的線性回歸特征,在該特征空間進(jìn)行擬合后再返回到原始空間。圖17 SVR示意圖在M中,我們希望靠超平面最近的樣本點(diǎn)之間的間隔最大,而在R中,我們同樣也是希望間隔最大,不同的是它使靠超平面最遠(yuǎn)的樣本點(diǎn)之間的間隔最大,但是這個(gè)最大對(duì)于偏差有個(gè)限制條件:????????+???????|≤??我們將這個(gè)偏差成??管道,如圖2所示。類似于R的優(yōu)化問題可以被如下定義:1min????
‖??.??.|????????+???????|≤??, ??=1,2,…,??支持向量回歸應(yīng)用模型的合理討論支持向量回()通過將數(shù)據(jù)映射到高維進(jìn)行超平面的劃分,在面對(duì)大量數(shù)據(jù)的情況下運(yùn)行速度十分緩慢,于是我們考慮使用線性支持向量回(LV)。相比于,LR使用了線性內(nèi)核,模型更簡(jiǎn)單,計(jì)算成本更低,所需參數(shù)較少,在線性可分離的數(shù)據(jù)集上有更好的性能。在預(yù)測(cè)股票價(jià)格方面LR模型可以使用一些相關(guān)的因素,如股票過去的價(jià)格走勢(shì)、市場(chǎng)指數(shù)、公司業(yè)績(jī)等因素作為訓(xùn)練數(shù)據(jù),預(yù)測(cè)未來的股票價(jià)格走勢(shì)。需要注意的是LR模型是一種監(jiān)督學(xué)習(xí)模型,它需要大量的訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)預(yù)測(cè)的準(zhǔn)確性。模型的優(yōu)缺討論優(yōu)點(diǎn):在處理線性問題時(shí)表現(xiàn)出色,特別是在高維數(shù)據(jù)集上,可以有效地處理大量的特征;具有一定的泛化能力,它可以應(yīng)用于很多不同的問題領(lǐng)域,包括預(yù)測(cè)、分類、聚類等。缺點(diǎn):對(duì)噪聲數(shù)據(jù)敏感,如果訓(xùn)練集中存在錯(cuò)誤的標(biāo)簽或離群點(diǎn),會(huì)對(duì)模型產(chǎn)生很大的影響;對(duì)非線性問題效果不佳;訓(xùn)練時(shí)間長(zhǎng),在處理大型數(shù)據(jù)集時(shí)需要更多的時(shí)間和計(jì)算資源;模型容量大小和復(fù)雜度難以自動(dòng)調(diào)整,需要進(jìn)行手動(dòng)調(diào)整。策略設(shè)計(jì)思路建模方法nput1包含了一天股票數(shù)據(jù)的信息nput2包含了一周股票數(shù)據(jù)的信息,他的維度均為c406(c為通道數(shù)。將nput1和nput2分別通過LTM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度購(gòu)車環(huán)保補(bǔ)貼申請(qǐng)合同3篇
- 二零二五版電子商務(wù)支付平臺(tái)跨境支付合規(guī)審查合同3篇
- 二零二五年貨車駕駛員駕駛技能考核及評(píng)價(jià)合同3篇
- 二零二五版房產(chǎn)抵押合同變更及合同履行監(jiān)督協(xié)議6篇
- 二零二五版酒店物業(yè)管理安保保潔服務(wù)全面承包合同3篇
- 二零二五版高空作業(yè)安全協(xié)議書-高空雨棚安全檢測(cè)與維護(hù)合同3篇
- 二零二五年度空壓機(jī)租賃與能源管理優(yōu)化合同3篇
- 二零二五版人工智能企業(yè)股權(quán)整合與行業(yè)應(yīng)用開發(fā)合同3篇
- 二零二五年度會(huì)議禮品定制及贈(zèng)送服務(wù)合同范本3篇
- 二零二五年度特種防盜門制造與銷售承攬合同范本3篇
- 2020小升初復(fù)習(xí)-小升初英語(yǔ)總復(fù)習(xí)題型專題訓(xùn)練-完形填空15篇
- 2023年浙江省公務(wù)員考試面試真題解析
- GB/T 5796.3-2022梯形螺紋第3部分:基本尺寸
- GB/T 16407-2006聲學(xué)醫(yī)用體外壓力脈沖碎石機(jī)的聲場(chǎng)特性和測(cè)量
- 簡(jiǎn)潔藍(lán)色科技商業(yè)PPT模板
- 錢素云先進(jìn)事跡學(xué)習(xí)心得體會(huì)
- 道路客運(yùn)車輛安全檢查表
- 宋曉峰辣目洋子小品《來啦老妹兒》劇本臺(tái)詞手稿
- 附錄C(資料性)消防安全評(píng)估記錄表示例
- 噪音檢測(cè)記錄表
- 推薦系統(tǒng)之協(xié)同過濾算法
評(píng)論
0/150
提交評(píng)論