第七章-機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用_第1頁
第七章-機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用_第2頁
第七章-機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用_第3頁
第七章-機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用_第4頁
第七章-機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器學習與大數(shù)據(jù)技術(shù)作者:牟少敏教授第七章隨機森林在棉蚜等級預測中的應用基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用局部支持向量回歸在小麥蚜蟲預測中的應用機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)中的應用基于Spark的支持向量機在小麥病害圖像識別中的應用Hadoop平臺下基于粒子群的局部支持向量機深度學習在小麥蚜蟲短期預測中的應用創(chuàng)新與貢獻研究意義選題背景第七章7.1簡介 機器學習、大數(shù)據(jù)以及圖像處理技術(shù)的迅速發(fā)展,為其在農(nóng)業(yè)中的應用提供了強有力的支撐。如:為了提高農(nóng)業(yè)生產(chǎn)效率,2017年9月美國的卡耐基梅隆大學機器人科學家提出了FarmView計劃,就是設計和實現(xiàn)集人工智能、物聯(lián)網(wǎng)技

2、術(shù)、計算機視覺和大數(shù)據(jù)技術(shù)于一體的農(nóng)業(yè)智能機器人。 傳統(tǒng)的病蟲害預測預報方法有統(tǒng)計法、實驗法和觀察法。本章主要結(jié)合我們的科研工作,介紹機器學習、大數(shù)據(jù)技術(shù)和圖像處理技術(shù)在農(nóng)業(yè)病蟲害預測預報等方面的應用。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用棉花是我國的重要經(jīng)濟作物,在山東省濱州地區(qū)種植比較廣泛。棉蚜是造成棉花減產(chǎn)的主要害蟲之一,由于棉蚜蟲害的特點是發(fā)生時間長、繁殖速度快、危害嚴重、難防治,因此制約了濱州地區(qū)棉花的高產(chǎn)和優(yōu)產(chǎn)。影響棉蚜發(fā)生的條件中氣象條件和天敵數(shù)量均會對棉蚜的發(fā)生產(chǎn)生直接影響。本節(jié)主要介紹隨機森林在棉蚜等級預測中的應用。隨機森林算法(Random F

3、orest,RF)由加利福尼亞大學的Leo Breiman提出的一種由多棵決策樹構(gòu)成的集成分類算法。7.2.1 隨機森林原理 創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用 Bagging算法是1996年由Breiman首次提出。Bagging算法在訓練過程中抽取部分數(shù)據(jù)樣本進行訓練,從而提高了隨機森林的訓練速度,在規(guī)模大的數(shù)據(jù)集里體現(xiàn)明顯。抽樣時采取有放回的抽樣方法,這樣使得一些出現(xiàn)概率低的樣本被選取的概率也會降低,減少了樣本中噪點的影響。Bagging算法的分類過程:分類的過程類似于簡單多數(shù)投票法,是從基分類器集合中各分類器的分類結(jié)果中選取分類器投票數(shù)最多的分類結(jié)果的

4、過程。具體的過稱為:首先各分類器對數(shù)據(jù)集的測試樣本進行分類,并把每個分類器的分類結(jié)果記錄下來,然后對分類器的選取結(jié)果進行統(tǒng)計,得票數(shù)最多的分類結(jié)果就是最終模型的分類結(jié)果。Bagging算法的原理如圖7-1所示。圖7-1 Bagging算法原理圖創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用隨機子空間算法隨機抽取特征集的部分進行訓練,提高了高維數(shù)據(jù)集的訓練過程。該算法的工作原理如下:(1)采用無放回的抽樣方法在特征集中隨機抽取一部分特征形成特征子集。(2)對特征子集的數(shù)據(jù)進行訓練,形成基分類器。(3)重復上述步驟1和步驟2,直到生成n個分類器。(4)把生成的每個分類器對需要

5、分類的測試樣本進行分類,并且對分類器分類的結(jié)果進行統(tǒng)計,最終分類器投票數(shù)最多的分類結(jié)果就是最終的分類結(jié)果。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用隨機森林算法以決策樹為基分類樹,引入了上述兩個隨機化的過程,結(jié)合了Bagging算法和隨機子空間算法的優(yōu)點,從而使得每棵分類樹具有不同的分類能力。采用Bagging算法的有放回抽樣對訓練集進行抽樣,并結(jié)合隨機子空間的算法,使得訓練集中只抽取部分特征進行訓練。當輸入待分類樣本時,隨機森林輸出的結(jié)果由每棵決策樹的分類結(jié)果投票決定。隨機森林是一個樹型分類器 的集合。 作為算法中的元分類器是由CART算法組成但沒有剪枝的分類回歸樹

6、。 作為獨立分布的隨機向量,決定了每棵決策樹的生長;參數(shù)X作為分類器的輸入向量。 7.2.2 隨機森林構(gòu)建 創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用隨機森林的算法構(gòu)建的步驟如下。(1)首先假設數(shù)據(jù)集的樣本總數(shù)為N,N為每棵決策樹采樣的樣本數(shù)。在N個樣本中有放回的隨機性選擇n(nN)個樣本,用選取的n個樣本訓練一棵決策樹。(2)假定每個樣本有M個屬性,在每棵決策樹的節(jié)點需要分裂時,從M個屬性中隨機選擇m(mM)個屬性,然后從已選擇的m個屬性中依據(jù)Gini指標選擇最佳屬性作為當前節(jié)點的分裂屬性。(3)每棵決策樹的節(jié)點分裂過程是遵循步驟(2)進行的,從而使得決策樹中的每個

7、節(jié)點不純度達到最小值,直到不能分裂,此過程不對樹進行剪枝。(4)根據(jù)生成的多個樹分類器對新的測試數(shù)據(jù) 進行測試,分類結(jié)果按每個樹分類器的投票而決定,即分類公式為 (7-1) 創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用公式(7-1)中用majority vote表示多數(shù)投票,Ntree表示隨機森林樹的個數(shù)。隨機森林的隨機性體現(xiàn)在樣本的隨機選擇和屬性的隨機選擇,有了這兩個因素,即使每棵樹沒有進行剪枝也不會出現(xiàn)過擬合。隨機森林模型構(gòu)建中需要設置n和m兩個參數(shù)。Breiman指出,在模型訓練過程中,隨機從特征集中抽取特征的個數(shù)m對于隨機森林的分類性能有較大影響,因此m的選擇是

8、模型訓練過程當中比較重要的環(huán)節(jié)。在隨機森林的實際應用中,隨機森林樹的數(shù)量n一般取值比較大,m取值為 或 。 7.2.3 袋外數(shù)據(jù)OOB和OOB估計創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用在隨機森林模型訓練過程中每次進行抽樣生成自助樣本集,全樣本集中有一部分的樣本數(shù)據(jù)不會出現(xiàn)在自助樣本集中,沒有選取的樣本個數(shù)比例是初始訓練樣本集的 (其中N是初始訓練樣本集中的樣本個數(shù))。當N足夠大時, 收斂于1/e0.368。公式結(jié)果表明約有37%的樣本不會選中,我們稱這37%的樣本數(shù)據(jù)為袋外數(shù)據(jù)(Out Of Bag,OOB)。袋外數(shù)據(jù)可以用來預測Bagging算法生成的基分類器的

9、分類能力,用袋外數(shù)據(jù)準確率作為分類器的預測指標。袋外數(shù)據(jù)準確率對基分類器提供的分類結(jié)果準確率的預判有重要的參考作用。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用使用袋外數(shù)據(jù)對隨機森林泛化誤差進行估計,也稱為OOB估計。進行OOB估計時每棵生成的決策樹計算出了OOB誤差率,并且需要耗費很少的資源就可以得到隨機森林的泛化誤差估計。交叉驗證也能用來進行估計泛化誤差,在進行交叉驗證法估計時,由于數(shù)據(jù)的劃分和合并處理導致算法運行過程中進行大量的計算,這樣就使得算法的時間復雜度和空間復雜度過高,導致隨機森林算法的運行效率變低。和交叉驗證相比,OOB估計的效率是很高的。Wolpert

10、等人建議,OOB估計一般作為隨機森林泛化誤差估計。7.2.4 實驗結(jié)果與分析創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用本實驗將隨機森林用于數(shù)據(jù)分類預測中,幾乎不需要輸入準備,模型訓練速度快,樣本選擇具有隨機性,而且隨機森林不易產(chǎn)生過擬合,從而有著更好的效率和準確率。1數(shù)據(jù)預處理數(shù)據(jù)的預處理是數(shù)據(jù)進行分類的前提,有時數(shù)據(jù)影響因子的冗雜和數(shù)據(jù)本身的不平衡性會影響最終結(jié)果預測的準確性,所以進行實驗之前對數(shù)據(jù)進行預處理,可以提高數(shù)據(jù)集分類的速度和精確度。不平衡性是指數(shù)據(jù)中的被解釋變量分布不均衡,如果數(shù)據(jù)集的被解釋變量在類別的分布上差別較大,可以認為該數(shù)據(jù)集是不平衡的。對不平衡

11、數(shù)據(jù)的進行分類時,機器學習算法可能產(chǎn)生不穩(wěn)定,導致預測結(jié)果可能是有偏差的,而且預測的精度可能變得具有誤導性。機器學習算法在不平衡數(shù)據(jù)集上精度下降的主要原因有以下兩點:算法模型的目標是最小化總體的誤差,小類對于總體誤差的貢獻是很低的。算法模型本身假設數(shù)據(jù)集是分布平衡的,假定不同類別的誤差帶來相同的損失。從表7-1到表7-3可以看出,總數(shù)據(jù)集、訓練集合測試集是不平衡的。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用類別記錄數(shù)數(shù)據(jù)所占比11980.7982500.202類別記錄數(shù)數(shù)據(jù)所占比11550.7992390.201類別記錄數(shù)數(shù)據(jù)所占比1430.8002110.200表7

12、-1總體數(shù)據(jù)集的不平衡性結(jié)果表7-2訓練集不平衡性結(jié)果表7-3測試集不平衡性結(jié)果創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用由表7-1看出全部實驗數(shù)據(jù)的類別比例約為4:1,由表7-2和表7-3看出測試集和訓練集的數(shù)據(jù)類別比例也是4:1,數(shù)據(jù)中類別是2的數(shù)據(jù)量偏少,這會導致模型訓練時沒法從樣本量少的類別中獲取足夠的信息來進行精確預測。因此本實驗進行前選擇了對數(shù)據(jù)進行平衡性修補。本實驗選擇的是過采樣和欠采樣相結(jié)合的方式對數(shù)據(jù)進行不平衡性修正。通過表7-1、表7-2和表7-3看出訓練集和測試集類別的比例和總體數(shù)據(jù)集的比例是一樣的,所以我們只對總體實驗數(shù)據(jù)集中的類別是2的數(shù)據(jù)進

13、行了補充,補充之后的數(shù)據(jù)平衡性結(jié)果如表7-4所示。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用類別記錄數(shù)數(shù)據(jù)所占比11000.49321030.507表7-4 修正之后的數(shù)據(jù)平衡性結(jié)果補充之后的數(shù)據(jù)類別比例約為1:1,屬于平衡數(shù)據(jù)集,這樣模型建立時不會因為沒有獲取到足夠的信息導致預測精度的下降,因此補充后的數(shù)據(jù)集可以用來構(gòu)建模型。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用2 棉蚜發(fā)生的影響因子及篩選(1)棉蚜發(fā)生的影響因子棉蚜蟲害的發(fā)生受多種因素的影響,主要包括以下幾種影響因素:1)溫度對棉蚜發(fā)生的影響溫度的適宜是導致棉蚜數(shù)量急劇增長的主導因素

14、,棉蚜生長發(fā)育的適宜溫度是2428,平均氣溫高于29對棉蚜有抑制作用。2)濕度和降水對棉蚜的影響降水是抑制棉蚜種群數(shù)量增長的重要因素。降水不僅對棉蚜有沖刷作用,另一方面能增加田間濕度,導致蚜繭蜂寄生蚜量會增多,抑制蚜的增長。3)天敵對棉蚜發(fā)生的影響天敵也是造成棉蚜種群數(shù)量減少的主要因素,棉蚜的天敵包括:瓢蟲、蜘蛛、食蚜蠅、草蛉、蚜繭蜂等,棉蚜的主要天敵是瓢蟲,對棉蚜的數(shù)量增長起抑制作用,與棉蚜的增長相關(guān)性比較大。4)施氮量對于棉蚜的影響Cisneros 等研究表明,棉蚜的發(fā)生與施氮量呈正相關(guān) ,即氮肥水平高的農(nóng)田 ,蚜蟲發(fā)生趨于嚴重。但也有研究表明,蚜蟲的發(fā)生與施氮肥水平二者呈不相關(guān)或負相關(guān)。

15、5)二氧化碳濃度對于棉蚜發(fā)生的影響大氣CO2 濃度對于棉蚜的生長發(fā)育和繁殖都有影響,CO2 濃度升高顯著影響棉蚜的相對生長率。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用(2) 影響因子的篩選由于各種因素的限制,前期采集到的數(shù)據(jù)中只包括了氣象數(shù)據(jù)和棉蚜天敵數(shù)據(jù)。在濱州市采集的氣象數(shù)據(jù)中包括了15個影響因子數(shù)據(jù):20-20時降水量(X1),極大風速(X2),平均本站氣壓(X3),平均風速(X4),平均氣溫(X5),平均水汽壓(X6),平均相對濕度(X7),日照時數(shù)(X8),日最低本站氣壓(X9),日最低氣溫(X10),日最高本站氣壓(X11),日最高氣溫(X12),最大風

16、速(X13),最小相對濕度(X14),天敵數(shù)據(jù)(X15)。為了減少因子中變量的冗余性,提高變量的獨立性,所以需要對這15個影響因子數(shù)據(jù)進行皮爾遜相關(guān)性分析,計算影響因子和棉蚜等級之間的相關(guān)系數(shù)。用R軟件計算得到的相關(guān)系數(shù)如表7-5所示。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用XX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相關(guān)系數(shù)0.050.12-0.22-0.0190.300.340.13-0.09-0.190.30-0.220.23-0.00190.190.19表7-5相關(guān)系數(shù)XX1X2X3X5X6X7X9X10X11X12X14 X1

17、5相關(guān)系數(shù)0.050.12-0.220.300.340.13-0.190.30-0.220.230.190.19表7-6篩選后相關(guān)系數(shù)創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用 從表7-5的相關(guān)系數(shù)得出,影響因子中的20-20時的降水量、日照時數(shù)、平均風速、最大風速這4個氣象因子的相關(guān)系數(shù)偏小,說明這四個氣象因子對于等級的分類預測影響較小。另外因為棉蚜的增長受相對濕度影響較大,降雨量的多少會影響相對濕度的大小,所以對20-20時降水量因子進行了保留。目前在棉蚜發(fā)生程度預測的論文中只考慮了氣象因子的影響,從表7-5中看到X15的相關(guān)系數(shù)是比較大的,說明天敵和棉蚜的發(fā)生相

18、關(guān)性比較大,所以影響因子數(shù)據(jù)中最終保留了前期加的棉蚜天敵數(shù)據(jù)。篩選后的相關(guān)系數(shù)表如表7-6,表中的一條記錄表示5到9月份采集到的一天的數(shù)據(jù)。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用 3 評價指標蟲害發(fā)生統(tǒng)計方法我國對于蟲害發(fā)生預測預報的方法可以分為以下幾種類型。蟲害發(fā)生量預測:可以提前預測蟲害的發(fā)生量或者蟲害的密度,通過預測得到的發(fā)生量大小給農(nóng)作物提供防治的方法。蟲害發(fā)生期預測:在蟲害常見的發(fā)生期中主要分為始見期、始省期、高峰期、省末期和終見期。我們可以通過預測蟲害的發(fā)生時期確定蟲害的防治方法,以便確定防治時期適當。蟲害發(fā)生程度預測:蟲害發(fā)生的分級標準主要分為輕發(fā)生

19、、偏輕發(fā)生、中等發(fā)生、偏重發(fā)生、大發(fā)生、特大發(fā)生6個等級。通過預測蟲害的發(fā)生等級及時明確農(nóng)作物受蟲害危害情況,以便制定防止策略。蟲害分布預測:預測蟲害發(fā)生的面積和區(qū)域范圍,主要是針對一些遷飛性害蟲的擴散方向和范圍進行預測預報。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用主要是從蟲害的發(fā)生程度進行的預測分析,具體應用在棉蚜蟲害發(fā)生程度預測當中。按照2010中國農(nóng)業(yè)出版社出版的主要農(nóng)作物病蟲害測報技術(shù)規(guī)范應用手冊對棉蚜的發(fā)生程度分級標準進行劃分等級。棉蚜發(fā)生程度分級標準如表7-7所示。級別12345輕發(fā)生偏輕發(fā)生中等發(fā)生偏重發(fā)生大發(fā)生百株蚜量(頭)50000表7-7棉蚜發(fā)生

20、程度分級標準創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用(2)預測評判標準為了對模型的泛化能力和預測能力進行評判,采用OOB估計和模型的預測準確率作為模型的預測評判標準。使用袋外數(shù)據(jù)對隨機森林泛化誤差進行估計,進行OOB估計時每棵生成的決策樹計算出了OOB誤差率,OOB誤差率在利用訓練集進行模型訓練時自動計算數(shù)值,OOB誤差率的大小體現(xiàn)模型泛化能力的好壞。模型預測準確率體現(xiàn)模型預測性能的優(yōu)劣。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用4實驗結(jié)果與分析(1)基于隨機森林的棉蚜等級預測本實驗的編程語言是R語言,在RStudio環(huán)境下運行,加載Ran

21、donForest包,將數(shù)據(jù)導入進行實驗。隨機森林算法的優(yōu)點是在運算量沒有顯著提高的前提下提高了分類預測精度,并且對于多元共線性不敏感,對缺失數(shù)據(jù)的分類預測表現(xiàn)比較穩(wěn)健,而且模型訓練速度快,樣本選擇具有隨機性不易產(chǎn)生過擬合。本實驗將隨機森林算法用于棉蚜蟲害等級的短期預測中,提高了棉蚜預測的效率和準確率,及時的為農(nóng)業(yè)生產(chǎn)者提供準確的預警信息,提前采取防治措施,從而降低棉蚜對棉花的危害。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用基于隨機森林的棉蚜短期預測模型如下:有放回的進行隨機抽樣。隨機森林對訓練集中的樣本有放回的隨機選擇,選擇的樣本數(shù)小于訓練集總的樣本數(shù)。設置模型參數(shù)

22、。隨機森林預測模型中樹的個數(shù)n取100,n的數(shù)量選取依據(jù)如圖2所示,通過計算得出節(jié)點m為4。模型訓練。通過訓練集中選取的樣本對模型進行訓練,得到模型的OOB和模型內(nèi)分類的誤差率。預測。使用構(gòu)建的隨機森林預測模型對測試集進行分類預測,結(jié)合表7-7得到棉蚜的發(fā)生程度。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用隨機森林預測模型的構(gòu)建流程圖如下圖7-2所示。圖7-2隨機森林預測模型創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用 (2)實驗結(jié)果分析 實驗采用的數(shù)據(jù)是濱州市植保站。 表7-8訓練集分類結(jié)果類別12分類誤差率1143159.5%231551.9

23、%從表7-8可以看出,實驗分類結(jié)果中等級1的分類錯誤率為9.5%,等級2的分類錯誤率為1.9%,表明模型分類結(jié)果中每一類的分類錯誤率都比較小,棉蚜蟲害等級判別的準確率比較高。測試樣本的分類準確率為82.2%,測試集實驗分類結(jié)果如表7-9所示。隨機森林模型內(nèi)含有判別函數(shù),輸入采集到的樣本數(shù)據(jù)可以判別棉蚜的等級,部分樣本數(shù)據(jù)的棉蚜等級預測結(jié)果如表7-10所示,Y1代表的是隨機森林模型預測的等級結(jié)果,Y2代表的是棉蚜實際等級。結(jié)合表7-10可以得到棉蚜的發(fā)生程度,從而提前對棉區(qū)采取相應的防治措施,減少棉蚜給棉花帶來的危害。創(chuàng)新與貢獻研究意義選題背景第七章7.2隨機森林在棉蚜等級預測中的應用類別121

24、364241表7-9測試集分類結(jié)果序號X1X2X3X5X6X7X9X10X11X12X14X15Y1Y210327661007722716258100581711009127346011232700711008322622884100741921009227058102230961002530734579100102621003834455122247100100531911336310020158100742512851153270063100232902346110011243100343393237226032766100153023578499922421004035261721703

25、276610079227249911006519710086275701211表7-10棉蚜預測等級實驗將隨機森林算法用于棉蚜等級的短期預測中,實驗結(jié)果表明模型泛化性好,誤分類率低。隨機森林為棉蚜蟲害等級預測提供了一種新的方法。創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用 支持向量機在解決小樣本、高維模式分類等問題時,具有全局優(yōu)化、泛化能力強的特點。但其不能夠有效地利用樣本局部信息且在處理非凸數(shù)據(jù)集時存在不足。針對此問題,Brailovsky等人于2006年首次提出了局部支持向量機算法。Zhang等人將KNN(K Nearest Neighbo

26、r)算法與支持向量機進行結(jié)合,提出一種新的局部支持向量機,稱為SVM-KNN。局部支持向量機與支持向量機相比具有較高的分類精度,已被廣泛的用于生物信息和網(wǎng)絡流量預測等領(lǐng)域。創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用 支持向量機與局部支持向量機都是將分類樣本通過核函數(shù)映射到高維空間H中,使之具有線性可分性。核函數(shù)的實質(zhì)是一種映射關(guān)系 ,將樣本數(shù)據(jù)從輸入空間 映射到高維空間H中。核函數(shù)的定義如下 。 設 , 為定義在 上的函數(shù),若存在從 到高維空間H的映射(7-2)使得 ,則稱 為一個核函數(shù)。創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函

27、數(shù)的局部支持向量機在樹木圖像分類中的應用名稱表達式說明Gauss徑向基核Gauss徑向基核是最為常用的核函數(shù)多項式核其中 多層感知核為標量, 為偏離參數(shù)傅里葉核 且q是 的常數(shù)為常數(shù)B-樣條核是 階B-樣條核函數(shù)表7-11 常用核函數(shù)對于局部支持向量機,目前缺乏一種能夠有效處理圖像紋理信息的核函數(shù)。將Victor L. Brailovsky等人提出的鄰域核函數(shù)應用于局部支持向量機中,使其能夠有效的處理圖像數(shù)據(jù),以彌補局部支持向量機在圖像分類上的不足。創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用7.3.1鄰域核函數(shù)鄰域核函數(shù)能反映圖像像素點鄰域信

28、息變化的差異,對圖像的分類具有重要意義。假設有兩幅大小為M(M=NN)像素點的圖像,分別存儲于兩個矩陣中。將圖像中某個像素點編號為t,并對每幅圖像的相鄰像素點進行編號,如圖7-3所示。t:-11t:-7t:-6t:+8t:+12t:-9t:-3t:-2t:+4t:+10t:-5t:-1tt:+1t:+5t:-10t:-4t:+2t:+3t:+9t:-12t:-8t:+6t:+7t:+11圖7-3 對像素點進行編號創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用根據(jù)圖像像素點的編號,定義圖像的二級(d=2)鄰域核函數(shù)K(x,y),如公式(7-3)-(

29、7-4)所示。(7-3)(7-4)二級鄰域核函數(shù)使用像素點t的四鄰域像素的變化信息。其中,S的取值為2,M為圖像像素點的總個數(shù),x和y分別為兩幅圖像中對應的像素點。可以看出,二級鄰域核的實質(zhì)是將兩幅圖像中t像素點及其鄰域點求積的累加和。通過K(x,y)值的大小反映兩幅圖像鄰域信息變化的差異。對于像素點取值為1的二值化圖像來說,兩幅圖像鄰域信息變化差距越大,則K(x,y)的值越小。反之,K(x,y)的值越大。創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用根據(jù)二級鄰域核函數(shù),可以定義三級(d=3)鄰域核函數(shù),如公式(7-5)-(7-6)所示。 (7-

30、5)三級鄰域核函數(shù)中S的取值為4。n級鄰域核函數(shù)的定義依次類推,在此不再進行贅述。(7-6)創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用7.3.2基于鄰域核函數(shù)的局部支持向量機通過鄰域核函數(shù)的定義可以看出鄰域核函數(shù)能較好的反映不同圖像之間鄰域信息變化的差異。將鄰域核函數(shù)應用于局部支持向量機中,提出一種新的局部支持向量機算法-基于鄰域核函數(shù)的局部支持向量機(Neighborhood-LSVM),該算法能夠在一定程度上提高圖像的分類精度基于鄰域核函數(shù)的局部支持向量機算法如圖7-4所示。圖7-4 基于鄰域核函數(shù)的局部支持向量機創(chuàng)新與貢獻研究意義選題背

31、景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用(1)圖像預處理:統(tǒng)一圖像大小,并將圖像灰度化。(2)提取圖像紋理特征值:針對樹木圖像數(shù)據(jù)集的特點,本文提取了樹木圖像的對比度、相關(guān)性、熵等紋理特征值。(3)將所有圖像進行二值化處理:圖像中每個像素點的取值定為+1(黑)或-1(白)。(4)利用提取的圖像紋理特征值,使用K近鄰算法選取測試圖像的K個近鄰圖像。對于選取的近鄰圖像和測試圖像使用二級鄰域核函數(shù)計算K(x,y) 的值,公式(7-7)中 的取值如下:(5)使用K(x,y)的值構(gòu)建分類模型,對測試圖像進行分類。(7-7)創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核

32、函數(shù)的局部支持向量機在樹木圖像分類中的應用7.3.3實驗結(jié)果與分析為檢驗基于鄰域核函數(shù)的局部支持向量機在圖像分類上的有效性,使用樹木圖像數(shù)據(jù)集進行測試。樹木圖像數(shù)據(jù)集共采集白玉蘭、槐樹等8種樹木351幅圖像。樹木圖像數(shù)據(jù)集如表7-12所示。編號C1C2C3C4C5C6C7C8名稱白玉蘭暴馬丁香槐樹黃連木黃山欒美國黑核桃柿烏桕數(shù)量5033653929163089表7-12 樹木圖像數(shù)據(jù)集根據(jù)樹木圖像數(shù)據(jù)集共進行了8組實驗。針對每組實驗分別使用基于鄰域核函數(shù)的局部支持向量機(Neighborhood-LSVM)、局部支持向量機(SVM-KNN)和標準支持向量機(SVM)三種算法。創(chuàng)新與貢獻研究意義

33、選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用測試編號訓練圖像數(shù)測試圖像數(shù)標準化圖像大小圖像種類1235116256*256C1-C8210153256*256C3、C83235116800*800C1-C849346800*800C1、C858644800*800C3、C8610252800*800C3、C878332800*800C1、C3883321000*1000C1、C3在每組實驗中,SVM-KNN算法使用不同的K值進行測試,對于Neighborhood -LSVM算法只是選取部分K值進行測試。分別取每種分類算法中分類精度最高的結(jié)果進行展示。實驗數(shù)據(jù)集如

34、表7-13所示,分類精度如表7-14所示。表7-13 實驗數(shù)據(jù)集表創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用測試編號Neighborhood-LSVMSVM-KNNSVM10.42370.46610.288120.75470.75470.717030.38980.18640.161040.80850.51060.446850.61360.52270.500060.71430.60710.589370.93750.87500.562580.90630.81250.5625 表7-14 分類精度結(jié)果將表7-15的分類精度繪制成折線圖如圖7-5所示

35、。圖7-5 分類精度折線圖創(chuàng)新與貢獻研究意義選題背景第七章7. 3 基于鄰域核函數(shù)的局部支持向量機在樹木圖像分類中的應用由圖7-5可以看出,針對樹木圖像數(shù)據(jù)集,Neighborhood-LSVM的分類精度要高于SVM-KNN, SVM是三種分類方法中精度最低的。使用SVM算法對樹木圖像進行分類時,首先提取圖像特征值,然后使用所有訓練圖像的特征值訓練分類模型,最后使用分類模型進行分類。SVM-KNN與SVM不同之處是SVM-KNN需要根據(jù)提取的特征值選取測試圖像的K個近鄰,使用K個近鄰圖像的特征值訓練分類模型,最后使用分類模型進行分類。Neighborhood-LSVM算法根據(jù)圖像的特征值選取測

36、試圖像的K個近鄰圖像,對于選中的K個近鄰圖像借助于鄰域核函數(shù)構(gòu)建分類模型,而放棄使用提取的圖像特征值構(gòu)建分類模型。相對于前兩種算法,Neighborhood-LSVM中影響分類結(jié)果的因素更為廣泛和準確,減少了對圖像特征值提取的依賴,因此其分類精確度要高于SVM和SVM-KNN算法?;卩徲蚝撕瘮?shù)的局部支持向量機利用圖像像素點鄰域變化等信息,提高了圖像分類精度。經(jīng)樹木圖像數(shù)據(jù)集測試驗證,結(jié)果表明該算法對圖像的分類精度高于標準的SVM和SVM-KNN,為圖像的分類提供了一種可行方案。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用近年來,隨著對支持向量機研究的深入,

37、Steinwart于2002年證明了在一般情況下,支持向量機并不能滿足全局一致性。為進一步改進支持向量機,滿足算法的一致性需求。2006年ZHANG等人在局部學習算法的啟發(fā)下提出了局部支持向量機的思想。局部支持向量機不但具有適合小樣本、非線性、高維模式的優(yōu)勢,同時能夠滿足算法的一致性要求。我們將局部支持向量回歸應用于小麥蚜蟲百株蚜量預測中,構(gòu)建基于局部支持向量回歸的小麥蚜蟲短期預測模型,可以提高小麥蚜蟲預測的準確率,具有一定的研究和應用價值。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用7.4.1小麥蚜蟲預測原理小麥蚜蟲的預測一般分為長期預測、中期預測和短期預

38、測三種類型,其中短期預測由于其期限較短,預測準確率較高而使用廣泛,短期預測的期限一般是7-10天。對小麥蚜蟲的短期發(fā)生情況進行預測,可以幫助農(nóng)民能夠及時掌握小麥蚜蟲近期的發(fā)生情況,以便采取有效的防治措施。通常構(gòu)建小麥蚜蟲短期預測模型主要步驟如下。(1)數(shù)據(jù)的獲取。通過田間采集直接計數(shù)或者通過傳感采集與小麥蚜蟲發(fā)生相關(guān)的農(nóng)田信息。(2)數(shù)據(jù)預處理。對采集到的小麥蚜蟲數(shù)據(jù)進行統(tǒng)計分析以及對影響因子進行特征選擇、特征變換以及歸一化處理。(3)構(gòu)建預測模型。將預處理后的數(shù)據(jù)劃分為訓練集和測試集兩部分。利用訓練集數(shù)據(jù)進行模型參數(shù)的學習。(4)模型的評價。通過測試集檢驗預測模型的預測效果,使用均方誤差等評

39、價指標對模型的預測效果進行評價。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用7.4.2數(shù)據(jù)來源與預處理1數(shù)據(jù)來源實驗采用的數(shù)據(jù)主要包含兩部分:1990-2013年山東煙臺地區(qū)小麥蚜蟲百株蚜量數(shù)據(jù)和煙臺地區(qū)氣象數(shù)據(jù)。將1990-2007年(1992-1994年無)的78條數(shù)據(jù)作為訓練集,2008-2013年的26條數(shù)據(jù)作為測試集。預測對象為小麥蚜蟲的百株蚜量以及發(fā)生程度,其中發(fā)生程度據(jù)分為5級,輕發(fā)生(1級)、偏輕發(fā)生(2級)、中發(fā)生(3級)、偏重發(fā)生(4級)、大發(fā)生(5級),主要以小麥蚜蟲發(fā)生盛期的百株蚜量來確定,各級指標如表7-15所示。影響因子為蟲源基數(shù)

40、(x19)以及降雨量、氣溫、日照時數(shù)等氣象因子(x1-x18)。發(fā)生程度12345百株蚜量(頭,Y)Y 500500Y15001500Y25002500Y3500Y3500表7-15小麥蚜蟲發(fā)生程度分級指標創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用2 特征選擇選擇正確有效的特征,對回歸模型的構(gòu)建及預測預報具有重要意義。特征選擇作為數(shù)據(jù)預處理的一個重要過程,其主要任務是去除不相關(guān)或者冗余的特征。首先,特征選擇可以揭示各個特征對預測對象的重要程度;其次,進行選擇特征,可以刪掉無關(guān)的特征,從而降低數(shù)據(jù)的維數(shù),縮小問題規(guī)模,提高模型的構(gòu)建效率;最后,特征選擇可以使

41、得構(gòu)建的模型具有更好的泛化能力。相關(guān)分析是研究隨機變量之間是否存在某種依存關(guān)系的一種常用方法,通過相關(guān)分析找到各影響因子與預測對象的相關(guān)關(guān)系,可以達到特征選擇的目的。相關(guān)分析得到的相關(guān)關(guān)系是一種非確定性的關(guān)系,它并不能確切到由其中的一個變量去精確決定另一個變量的程度。Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)是相關(guān)分析中常用的兩種相關(guān)系數(shù)。其中,Pearson相關(guān)系數(shù)研究的是連續(xù)數(shù)據(jù)之間的相關(guān)關(guān)系,適用于兩個變量之間的相關(guān)關(guān)系的計算;Spearman相關(guān)系數(shù)是一種秩相關(guān)系數(shù),通過將兩列數(shù)變?yōu)橄鄳牡燃?,根?jù)等級之差來計算相關(guān)系數(shù)。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸

42、在小麥蚜蟲預測中的應用小麥蚜蟲短期預測模型的構(gòu)建,其影響因子包含多個氣象因子,考慮到各氣象因子之間存在一定的相關(guān)關(guān)系,因此通過相關(guān)分析刪除無關(guān)的或者冗余的影響因子,提高構(gòu)建預測模型的準確率和泛化能力。另外,特征選擇主要研究的是各個影響因子與預測對象的相關(guān)關(guān)系,屬于變量之間的相關(guān)關(guān)系,因此采用Pearson相關(guān)系數(shù)計算相關(guān)關(guān)系。影響因子 與預測對象 的Pearson相關(guān)系數(shù)的 計算公式如下:(7-8) 其中 , , 為 , 的樣本方差和協(xié)方差。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用將百株蚜量與19個影響因子進行相關(guān)分析,相關(guān)系數(shù)以及顯著性檢驗結(jié)果如表7-

43、16所示,其中r為相關(guān)系數(shù),p為顯著性檢驗的P值。變量x1x2x3x4x5x6x7x8x9x10r0.004950.004950.00495-0.03086-0.120440.012010.231460.12303-0.031040.0991p0.96020.96020.96020.75580.22330.90370.01810.21340.75450.3169變量x11x12x13x14x15x16x17x18x19r0.09910.0991-0.110390.28725-0.119840.13983-0.072640.028790.79788p0.31690.31690.26460.003

44、10.22560.15690.46370.7717.0001表7-16相關(guān)分析結(jié)果取顯著性水平為0.5,由表7-16相關(guān)分析的顯著性檢驗結(jié)果可知,變量x1-x4、x6、x9、x18的P值均明顯大于0.5,與百株蚜量的相關(guān)關(guān)系不顯著,因此,使用其余12個變量預測百株蚜量的值。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用3歸一化處理歸一化方法是一種常用的數(shù)據(jù)預處理方法。歸一化方法主要有兩種,一種是為了數(shù)據(jù)處理的方便,將數(shù)據(jù)映射為0、1之間的小數(shù),另一種是去掉量綱,將有量綱的表達式,化為無量綱的表達式,成為純量。由于不同影響因子的取值范圍差距較大,為了避免“大數(shù)吃

45、小數(shù)”的情況,選用第二種歸一化的方法,對各個影響因子進行無量綱化處理,去掉其量綱,公式如下:(7-9)針對小麥蚜蟲數(shù)據(jù),通過多次對比實驗發(fā)現(xiàn),僅對影響因子進行歸一化比對影響因子及預測對象均歸一化的效果明顯好,因此,將小麥蚜蟲的各個影響因子歸一化到0,1范圍內(nèi),預測對象未進行歸一化處理。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用7.4.3支持向量回歸與局部支持向量回歸1 支持向量回歸 支持向量回歸解決回歸問題的基本思路為:首先通過一個非線性映射 將樣本由輸入空間映射到高維特征空間H中;然后在高維特征空間中對樣本進行線性回歸,找到擬合最優(yōu)的回歸函數(shù) ,即最優(yōu)回

46、歸超平面;最后使用最優(yōu)回歸函數(shù)對其它樣本進行回歸預測。標準的支持向量回歸的損失函數(shù)為 不敏感損失函數(shù),其數(shù)學表達式為:(7-10)創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用其中, 為核寬,即回歸函數(shù)允許的最大誤差,使用 不敏感損失函數(shù)可以提高回歸模型的泛化能力。支持向量回歸構(gòu)建回歸模型的原則是結(jié)構(gòu)化風險最小化原則,即不僅要使經(jīng)驗風險最小,同時也要降低模型的復雜度,提高模型的泛化能力。支持向量回歸求最優(yōu)回歸超平面的問題可以轉(zhuǎn)化為如下的優(yōu)化問題:目標函數(shù): (7-11)約束條件: (7-12)創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲

47、預測中的應用根據(jù)對偶原理,用Lagrange乘數(shù)法,可求解公式(7-11)-(7-12)對應的優(yōu)化問題,最優(yōu)回歸超平面為 (7-13)創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用2 局部支持向量回歸支持向量機使用全部訓練樣本構(gòu)造回歸模型,忽略了樣本的局部變化信息。而局部支持向量機則是在支持向量機的基礎上引入了局部學習算法,因此局部支持向量機構(gòu)造的回歸模型蘊含局部化的思想,能夠有效地捕捉樣本的局部變化趨勢,從而提高模型的預測精度。2007年,Cheng等人根據(jù)訓練樣本與測試樣本的相似度提出了一種新的局部支持向量機(Localized Support Vecto

48、r Machine,LSVM),稱為LSVM。LSVM使用相似度函數(shù)表示訓練樣本創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用根據(jù)相似度函數(shù) 的取值的不同,可產(chǎn)生兩種LSVM的變種,當 取0,1之間的實數(shù)時,得到的LSVM稱為SLSVM(Soft Localized Support Vector Machine,SLSVM);當 為二值函數(shù)時,得到的LSVM稱為HLSVM (Hard Localized Support Vector Machine,HLSVM),此時的相似度函數(shù)表達式為:(7-14)其中,計算 的K近鄰時使用的距離函數(shù)為歐式距離。創(chuàng)新與貢獻研

49、究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用基于HLSVM的局部支持向量回歸(Hard Localized Support Vector Regression,HLSVR)構(gòu)造回歸模型的步驟如下:(1)確定K值。(2)選取每個測試樣本的K個近鄰樣本。(3)對于選取的K近鄰樣本,使用支持向量機進行回歸建模。(4)使用建立的支持向量回歸模型對該測試樣本進行預測。(5)對每個測試樣本執(zhí)行(2)-(4),直到所有測試樣本預測完成。與標準的SVR相比,使用HLSVR對測試樣本進行預測,可以充分利用樣本的局部信息,選取與測試樣本相似度較大的樣本參與模型的構(gòu)建,能夠有效地提高預測精度

50、;并且HLSVR能夠減少參與模型構(gòu)建的樣本數(shù)量,從而降低了構(gòu)建單個模型的時間。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用7.4.4實驗結(jié)果與分析1 基于HLSVR的小麥蚜蟲百株蚜量短期預測模型蟲害的發(fā)生量是對蟲害發(fā)生情況預測的主要指標,以小麥蚜蟲百株蚜量作為預測對象,使用HLSVR構(gòu)造小麥蚜蟲百株蚜量的短期預測模型。由于氣象條件對小麥蚜蟲的發(fā)生有重要影響,因此該模型使用某一時期的百株蚜量(簡稱蟲源基數(shù))和同時期的氣象因子作為影響因子,下一時期的小麥蚜蟲百株蚜量作為預測對象,進行回歸模型的構(gòu)建?;贖LSVR的小麥蚜蟲百株蚜量短期預測模型建模過程為:首先,通

51、過特征選擇剔除對預測對象無顯著影響的因子;然后,對數(shù)據(jù)進行歸一化處理,提高建模效率;最后,選擇合適的核函數(shù)及參數(shù)構(gòu)建回歸預測模型,并對未來樣本進行預測。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用2實驗結(jié)果及分析利用局部支持向量回歸構(gòu)造小麥蚜蟲短期預測模型,并與支持向量回歸進行對比實驗。核函數(shù)是解決非線性回歸問題的關(guān)鍵,它可以將樣本從低維空間向高維空間進行映射。核函數(shù)的類型、核參數(shù)的選取直接影響著模型預測精度的高低。目前,RBF核是應用最廣泛的核函數(shù)。無論樣本維數(shù)高低、樣本數(shù)量多少,RBF核函數(shù)均可以通過調(diào)節(jié)其核參數(shù)得到較為理想的預測結(jié)果。上述兩種模型均使用

52、RBF核函數(shù)。支持向量回歸模型參數(shù)的選取采用網(wǎng)格參數(shù)尋優(yōu),尋優(yōu)過程采用十折交叉驗證法,十折交叉驗證可以有效的避免過擬合,是對預測誤差的一種比較好的估計。由于局部支持向量回歸目前并無較好的調(diào)參算法,其懲罰系數(shù)C、核寬 、核參數(shù) 的值與支持向量回歸中對應參數(shù)的值相等。而對于近鄰數(shù)K,給定多個值,使用十折交叉驗證選擇最優(yōu)的K值。具體選取的參數(shù)值如表7-17所示。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用SVRHLSVRC CK40969.77E-04540969.77E-04540表7-17 模型參數(shù)使用上述兩個模型對2008-2013年小麥蚜蟲百株蚜量進行預測

53、,百株蚜量的均方誤差(Mean Square Error,MSE)以及發(fā)生程度的準確率如表7-19所示。MSE表達式為:其中 分別為實際值、預測值,n為測試樣本的數(shù)目。MSE 越小,預測模型的準確度越高。 (7-15)創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用為了對小麥蚜蟲的發(fā)生程度進行評價,使用準確率(Accuracy,AC)作為發(fā)生程度的評價指標,計算準確率時按照預測發(fā)生程度與實際發(fā)生程度等級相同時準確率為100%,預測與實際的發(fā)生程度相差一級時準確率為50%,相差兩級及以上時準確率記為0進行計算,表達式如公式(7-16)所示:(7-16)其中,M表示

54、發(fā)生程度的實際值與預測值相等的樣本個數(shù),D表示發(fā)生程度等級的實際值與預測值相差一級的樣本個數(shù),N代表訓練集或測試集樣本總數(shù)。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用支持向量回歸只需要針對所有訓練樣本構(gòu)建一個回歸預測模型,對所有測試集樣本采用該模型進行預測。而局部支持向量回歸則是針對每個測試樣本分別建立預測模型,理論上局部支持向量回歸比支持向量回歸有更好的預測能力以及推廣能力。由表7-18的均方誤差可以看出,用HLSVR對1990-2007年的小麥蚜蟲數(shù)據(jù)進行回代檢驗,其均方誤差小于SVR,對于未參與模型構(gòu)建的2008-2013年的小麥蚜蟲的數(shù)據(jù),HLSV

55、R模型預測百株蚜量的均方誤差明顯小于SVR。HLSVR模型以及SVR模型的回代檢驗的均方誤差均高于預測的均方誤差,主要是因為1990-2007年小麥蚜蟲的百株蚜量存在比較大的值,而2008-2013年小麥蚜蟲的百株蚜量值相對比較小,導致回代檢驗時,較大的百株蚜量對應較大的誤差。創(chuàng)新與貢獻研究意義選題背景第七章7. 4 局部支持向量回歸在小麥蚜蟲預測中的應用模型百株蚜量均方誤差發(fā)生程度準確率預測回代預測回代SVR19936621310880.77%91.03%HLSVR19636219878082.69%91.03%表7-18均方誤差及發(fā)生程度準確率由表7-18的發(fā)生程度的準確率可以看出,對19

56、90-2007年的小麥蚜蟲發(fā)生程度進行回代檢驗,HLSVR的回代準確率等于SVR的回代準確率。但是,對2008-2013年的小麥蚜蟲的26條數(shù)據(jù)進行預測,HLSVR的預測準確率明顯高于SVR。因此,與SVR相比,基于HLSVR的小麥蚜蟲百株蚜量短期預測模型的準確度更高,泛化能力更強。創(chuàng)新與貢獻研究意義選題背景第七章7. 5 深度學習在小麥蚜蟲短期預測中的應用目前,羅杰斯特回歸、神經(jīng)網(wǎng)絡以及支持向量機等模型均已用于小麥蚜蟲的預測預報。但是這些淺層學習模型對輸入特征具有很強的依賴性,并且它們的特征學習能力有限。深度學習通過多隱藏層的學習結(jié)構(gòu),實現(xiàn)對底層特征的高度抽象,從而提取到更有利于回歸預測的特

57、征。將深度信念網(wǎng)絡與局部支持向量回歸進行結(jié)合,可以充分發(fā)揮深度信念網(wǎng)絡自動提取特征的優(yōu)勢,提高小麥蚜蟲的短期預測的準確率。創(chuàng)新與貢獻研究意義選題背景第七章7. 5 深度學習在小麥蚜蟲短期預測中的應用7.5.1數(shù)據(jù)來源與預處理實驗數(shù)據(jù)主要包括兩部分,一是小麥蚜蟲的百株蚜量,二是對應的氣象數(shù)據(jù)。小麥蚜蟲的百株蚜量數(shù)據(jù)來自于山東省農(nóng)作物病蟲預測預報觀測數(shù)據(jù)集和山東省煙臺植保站,從1978年至2013年共36年的數(shù)據(jù)。由于小麥蚜蟲百株蚜量在采集以及計數(shù)的過程中均存在一定的誤差,而發(fā)生程度是根據(jù)百株蚜量的取值范圍計算得出,其范圍較大,誤差相對較小,因此發(fā)生程度成為衡量小麥蚜蟲危害程度的重要指標。發(fā)生程度

58、的分級標準及計算方法見表7-15。創(chuàng)新與貢獻研究意義選題背景第七章7. 5 深度學習在小麥蚜蟲短期預測中的應用氣象數(shù)據(jù)主要來源于國家氣象信息中心。每條記錄均包含區(qū)站號、20-20時降水量、平均風速等18個屬性。為更好的利用氣象數(shù)據(jù),對其進行預處理。由于1978-1989年的氣象數(shù)據(jù)中,極大風速、日最低本站氣壓、日最高本站氣壓3項缺損嚴重,并且考慮到這3個因子在蟲害預測中使用頻率較低,因此去掉這3個因子,最終保留了15個氣象因子,與蟲源基數(shù)共同構(gòu)成影響因子,預測因子為當前日期對應的百株蚜量。實驗數(shù)據(jù)共222條記錄,其中180條用作訓練集,剩余的42條構(gòu)成測試集。為避免計算過程中因量綱不同而產(chǎn)生較

59、大的誤差,對實驗數(shù)據(jù)進行歸一化處理。創(chuàng)新與貢獻研究意義選題背景第七章7. 5 深度學習在小麥蚜蟲短期預測中的應用7.5.2模型評價指標為檢驗預測模型對小麥蚜蟲百株蚜量的預測能力以及模型的泛化能力,使用構(gòu)建好的預測模型對測試集樣本進行預測,并對訓練集樣本進行回代檢驗。使用的評價指標包括均方根誤差(Root Mean Square Error, RMSE)、平均絕對誤差(Mean Absolute Error, MAE)公式(7-17)-(7-18)所示。(7-17) (7-18)其中, 表示第 個小麥蚜蟲樣本的實際值, 表示使用預測模型得到的第 個樣本的預測值。創(chuàng)新與貢獻研究意義選題背景第七章7

60、. 5 深度學習在小麥蚜蟲短期預測中的應用7.5.3基于DBN_LSVR的小麥蚜蟲短期預測模型深度學習在特征的自動提取方面有較強的優(yōu)勢,而局部支持向量回歸也是目前淺層學習中預測能力較好的模型,因此將深度信念網(wǎng)絡與局部支持向量回歸進行結(jié)合,提出了DBN_LSVR模型,并用與小麥蚜蟲的百株蚜量的短期預測模型,并且根據(jù)表7-15中的發(fā)生程度的分級標準得到小麥蚜蟲的發(fā)生程度的等級。創(chuàng)新與貢獻研究意義選題背景第七章7. 5 深度學習在小麥蚜蟲短期預測中的應用相比于分類問題,深度學習在回歸預測領(lǐng)域的研究相對較少,目前在回歸預測方面的應用,深度學習的隱藏層層數(shù)一般設置為2或者3。主要有兩個原因,一個是隨著模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論