合肥市二手房成交價格研究_第1頁
合肥市二手房成交價格研究_第2頁
合肥市二手房成交價格研究_第3頁
合肥市二手房成交價格研究_第4頁
合肥市二手房成交價格研究_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 合肥市二手房成交價格研究 劉海Summary:二手房交易市場比重的增大,使得對于二手房房價預測構建模型有重要意義。選取合肥市2019年6月至2020年6月的二手房成交記錄作為研究數據。針對BP神經網絡模型易陷入局部最優(yōu)和傳統(tǒng)遺傳算法的BP神經網絡收斂速度過慢的不足,建立雙鏈遺傳算法的BP神經網絡模型,對研究數據進行仿真訓練,并檢驗了模型的泛化能力。實驗結果表明使用模型在精度和收斂速度的雙重考量下最優(yōu)。Abstract: The increasing proportion of the second-hand housing market makes it important to build

2、 a model for the prediction of second-hand housing prices. This paper selects the transaction records of second-hand houses in Hefei City from June 2019 to June 2020 as the research data. The BP neural network model is easy to fall into the local optimum and the convergence speed of the traditional

3、Genetic Algorithm is too slow. In this paper, the BP neural network model of Double-chain Genetic Algorithm is established, the research data are simulated and trained, and the generalization ability of the model is tested. The experimental results show that the proposed model is optimal under the c

4、onsideration of both accuracy and convergence speed.Key:房價預測;BP神經網絡;遺傳算法;雙鏈遺傳算法Key words: house price forecast;BP neural network;Genetic Algorithm;Double-chain Genetic Algorithm:F224 :A :1006-4311(2020)29-0003-040 引言近年來中國房地產行業(yè)發(fā)展迅速,人們買房的需求不斷增加,使得房屋交易由新房交易為主逐步轉變成新房和二手房交易“并駕齊驅”1。因此建立模型能夠對二手房房價進行一房一價預測在

5、交易中有重要的參考價值。在機器學習算法中BP神經網絡由于具有良好的泛化能力、學習能力和映射能力,使得其在房價預測中有一定的優(yōu)勢2-4。然而BP神經網絡在訓練過程容易使模型參數收斂為局部極值,無法達到最優(yōu),所以將遺傳算法(GA)與BP神經網絡模型進行組合,補足了神經網絡的缺點5。李春生、李霄野6等用遺傳算法改進BP神經網絡,對中國2005年至2015年的房價進行研究,發(fā)現改進后的算法比單一的BP神經網絡的性能更好。杭曉亞、柳敘豐7等運用GA-BP模型對青島市的房價進行預測,效果也十分顯著。但是傳統(tǒng)的遺傳算法存在收斂過慢或早收斂現象8,因此使用雙鏈遺傳算法優(yōu)化BP神經網絡建立模型對合肥市二手房房價

6、進行預測研究。1 BP神經網絡和雙鏈遺傳算法1.1 BP神經網絡BP神經網絡(Back Propagation Network)是一種通過誤差反向傳播進行參數調優(yōu)的多層前饋神經網絡,是運用最普遍的神經網絡模型9。模型由輸入層、隱含層、輸出層組成,且各層神經元之間采用全連接形式10。一個隱含層的BP神經網絡拓撲結構如圖1所示。BP神經網絡的訓練過程由信號的正向傳播和誤差的反向傳播構成。正向傳播時,信號由輸入層進入網絡,通過隱含層的信號處理后將信號傳入輸出層,當輸出層輸出與期望輸出之間的誤差滿足預設精度則模型訓練終止,否則進入誤差反向傳播階段;反向傳播時,通過梯度下降法優(yōu)化目標函數將誤差反向傳向各

7、層,對各層每個神經元的權值和閾值進行調整11。信號的正向傳播和誤差的反向傳播更替進行,直到誤差精度達到預設要求或者迭代至預設的次數。1.2 雙鏈遺傳算法遺傳算法(Genetic Algorithm,GA)是基于達爾文進化論的思想提出的一種優(yōu)化搜索計算模型,通過模擬自然界物種在繁衍后代過程中個體的選擇、基因的交叉、變異,將優(yōu)良基因保留而淘汰劣質基因的原則實現對問題解的優(yōu)化12。傳統(tǒng)的遺傳算法在對個體進行編碼時采用的時單鏈染色體結構,本文使用了一種改進算法,引入更符合自然界遺傳規(guī)律的雙鏈染色體結構13-14,稱之為雙鏈遺傳算法(Double-chain Genetic Algorithm,DGA)

8、。1.2.1 染色體的雙鏈結構雙鏈遺傳算法中每個個體有兩條染色體,含有兩份相同的遺傳信息,在進行遺傳操作時通過解鏈只對其中的一條染色體進行交叉、變異產生子代染色體,使得既能參與遺傳進化生成子代基因,又能保留父代潛在的優(yōu)秀基因,使得迭代進行的遺傳操作時,增加種群的多樣性,擴大了搜索空間15-16。1.2.2 雙鏈染色體遺傳操作Step1:對需要優(yōu)化的問題進行編碼處理;Step2:初始化種群X0,設定最大遺傳代數G,初始遺傳代數g=0;Step3:計算初始種群個體X0每條鏈適應度值;Step4:對初始種群中個體進行選擇、交叉、變異操作產生新的個體Xg,此時種群中新個體的雙鏈染色體中既包含父代信息基

9、因鏈也包含子代信息基因鏈;Step5:計算新個體Xg中父代鏈和子代鏈的適應度值,將適應度值更優(yōu)的基因鏈代入下一次遺傳操作中,直到g=G時結束。2 數據來源及數據預處理2.1 數據來源本文使用的數據來自鏈家二手房網(https:/),采集2019年6至2020年6月合肥市二手房成交數據,共得到12581條有效數據。其中每條數據含有特征變量28個,對特征變量進行分類,分為3個類型,分別為數值變量、名義變量和序數變量。具體變量如表1所示。2.2 原始變量的衍生在鏈家網上收集到的房屋戶型數據的具體形式有2室1廳1廚1衛(wèi)、3室1廳1廚2衛(wèi)等52種形式,若按照處理名義變量的方式來處理此變量,易導致維度災難

10、,因此本文根據房屋戶型變量的數據特征,將其衍生出臥室數量、廚房數量、客廳數量、衛(wèi)生間數量4個數值變量。在鏈家網上收集到的梯戶比例數據的具體形式有2梯4戶、1梯2戶、1梯4戶等155種形式,按照處理名義變量的方式來處理也會造成維度災難,因此構造新的梯戶比例:梯數與戶數的比值。2.3 數據的預處理原始數據中可能含有大量的缺失值和異常值,不利于對數據的分析以及后續(xù)的建模,為了提升原始數據的質量以便后續(xù)工作的進行,需要對數據進行預處理。本文首先對數據的缺失值進行處理,表2展示了有缺失值的特征變量的統(tǒng)計信息。表2展示了原始數據中部分特征變量的缺失信息。其中瀏覽次數、套內面積、供暖方式缺失比例分別為55.

11、32%、75.5%、96.7%,缺失比例過大,因此將這三個變量直接刪除;有無電梯缺失比例小于1%,因此將缺失的記錄刪除;戶型結構缺失比例為32.2%,采用眾數插補的方式對缺失值進行補充。對原始數據缺失值進行處理之后在對數據的異常值進行處理,本文通過箱線圖、經驗判斷的方式對異常值進行檢測,并刪除異常值。2.4 數據量化處理接著對名義變量和序數變量進行量化處理。其中名義變量采用one-hot編碼處理。序數變量為所在樓層,取值為低、中、高,可分別取值為0、1、2。為消除數值變量量綱的影響,將數值變量進行歸一化,歸一化的公式為:其中xstd為歸一化后的數據,xmin和xmax分別為每個數值變量的最小值

12、與最大值。至此完成對數據的處理,下面將處理后的數據用于建模。3 DGA-BP二手房成交價格預測模型3.1 DGA-BP模型參數設置DGA-BP模型設置的參數分為BP神經網絡參數設置和雙鏈遺傳算法參數設置,設置具體如下:確定BP神經網絡模型的基本結構。確定BP神經網絡的隱含層層數及各層神經元個數。設定神經網絡輸入層有54個神經元,1個隱含層且隱含層神經元有109,輸入層有1神經元。同時通過多次調整確定BP神經網絡的學習率為0.01,預設迭代次數為30000次。設定適應度函數,用于計算種群中個體的適應度。本文使用測試集誤差本文使用BP神經網絡測試集的測試誤差作為適應度函數,適應度函數為:yi為測試

13、集中數據的真實值,i為數據的估計值。設定最大遺傳代數,初始化種群,隨機產生一個初始種群,將種群中每個個體通過格雷編碼的方式進行編碼,每個個體含有兩條信息相同的染色體,都含有神經網絡權值和閾值的全部信息,并計算初始種群中每個個體的每條鏈的適應度值。本文設定種群規(guī)模為50,最大遺傳代數為200。進行遺傳操作設定:選擇算子:本文采用輪盤賭的方式進行選擇操作;交叉算子:本文采用兩點交叉的方式進行交叉操作;變異操作:本文設定的變異概率為0.01。3.2 模型評價指標平均絕對誤差(MAE)。平均絕對誤差是期望值與預測值差值的平均值。計算公式如下:其中n為樣本數目,yi為期望值,i為估計值。均方誤差(MSE

14、)。均方誤差是期望值與預測值差值平方的平均值。計算公式為:其中n為樣本數目,yi為期望值,i為估計值??蓻Q系數(R2)??蓻Q系數是判定模型擬合能力的指標,可決系數越大則模型的擬合能力越強。其計算公式如下:式中:SSE為回歸平方和;SST為總離差平方和;SSR為殘差平方和,其計算公式如下:其中yi為樣本的期望值,yi為樣本的平均值,i為樣本的估計值。3.3 實驗結果本文使用有效數據9817條數據,按照3:7的比例將數據集劃分為測試集與訓練集,通過與BP神經網絡和傳統(tǒng)的GA-BP模型進行比較,突出本文使用的DGA-BP模型的優(yōu)越性。其中圖2表示DGA-BP模型在收斂速度上與GA-BP模型的比較結果

15、。從圖中可以看出DGA-BP模型的收斂速度遠遠快于GA-BP模型,在進化到53代時就達到最佳收斂,收斂速度遠遠快于GA-BP模型。表3表示了BP模型、GA-BP模型、DGA-BP模型在測試集上的計算結果的展示,從表中可以看出在MAE、MSE、R2指標的測度中,GA-BP模型和DGA-BP模型的計算結果都優(yōu)于BP模型。從上述敘述中可以總結得出DGA-BP模型在收斂速度和算法精度的綜合考量中最優(yōu),于此同時新抓取了合肥市二手房成交數據800條,使用DGA-BP模型進行擬合,得出其MAE為784、MSE為787652、R2為0.9123。其前100個數據擬合結果展示如圖3所示,通過新抓取數據的驗證,可

16、以看出DGA-BP模型能夠對合肥市二手房成交價格進行較好的預測。4 結論本文通過采集合肥市2019年6月至2020年6月城區(qū)二手房成交記錄數據,對比傳統(tǒng)BP神經網絡模型和GA-BP模型,建立一種能夠對二手房成交價格進行有效預測的DGA-BP模型,該模型彌補了BP模型和GA-BP模型的不足,使得在追求模型收斂速度和預測精度的雙重考量為最優(yōu)選擇。在進化到54代時,對測試集進行擬合,可決系數R2為0.9406,對新抓取數據的擬合,可決系數為0.9123。說明模型有較好的泛化能力。然而在建模時將搜索到的所有指標都投入模型中,沒有考察變量的有效性從而對指標進行篩選,使得本文建立的模型未能最簡化,也降低了

17、模型的收斂速度。今后對如何在眾多指標中篩選中穩(wěn)健的重要指標是研究的一個方向點。Reference:1姜沛言,孫聰,劉洪玉.住房市場研究中的樣本城市選擇J.統(tǒng)計與決策,2016(05):29-33.2李廣勝,郭歡.基于GM(1,1)模型的南京市房價預測研究J.江漢大學學報(自然科學版),2020,48(02):10-13.3高文,李富星,牛永潔.基于BP神經網絡對房價預測的研究J.延安大學學報(自然科學版),2018,37(03):37-40.4王筱欣,高攀.基于BP神經網絡的重慶市房價驗證與預測J.重慶理工大學學報(社會科學),2016,30(09):49-53.5張立毅,劉婷,孫云山,李鏘.

18、遺傳算法優(yōu)化神經網絡權值盲均衡算法的研究J.計算機工程與應用,2009,45(11):162-164.6李春生,李霄野,張可佳.基于遺傳算法改進的BP神經網絡房價預測分析J.計算機技術與發(fā)展,2018,28(08):144-147,151.7杭曉亞,柳敘豐,趙澤昆.基于GA-BP神經網絡的青島房價預測J.四川建筑,2015,35(06):233-236.8PHOLDEE N, BUREERAT, S. Hybrid real-code population-based incremental learning and approximate gradients for multi-objective truss designJ. Engineering Optimization, 2014, 46(8):1032-1051.9李英冰,陳雨勁,歐陽茜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論