版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Z市建筑物尺度人口估算實(shí)證研究目錄TOC\o"1-2"\h\u4381Z市建筑物尺度人口估算實(shí)證研究 118038摘要 129647第一章緒論 2224081.1研究背景 2115861.2研究現(xiàn)狀 373781.3研究內(nèi)容與技術(shù)路線 4249851.4本章小結(jié) 526576第二章理論基礎(chǔ)與研究數(shù)據(jù) 6273222.1研究區(qū)概況 6101752.2理論基礎(chǔ) 7194762.3數(shù)據(jù)來源 817492.4數(shù)據(jù)預(yù)處理 13290602.5本章小結(jié) 1627149第三章基于隨機(jī)森林的人口估算模型 17313323.1隨機(jī)森林算法理論基礎(chǔ) 17124133.2實(shí)現(xiàn)過程 1966633.3人口估算建模 21139163.4人口估算結(jié)果 2285003.5人口估算結(jié)果精度評(píng)價(jià) 232793.6本章小結(jié) 248286第四章模型解釋與分析 25258944.1特征重要性分析 25206474.2特征貢獻(xiàn)分析 26152384.3本章小結(jié) 288691第五章結(jié)論與展望 29112645.1研究結(jié)論 29324015.2研究不足與展望 2931394參考文獻(xiàn) 30摘要隨著我國城鎮(zhèn)化建設(shè)的穩(wěn)步推進(jìn),城市人口也在不可避免的持續(xù)增長。在這個(gè)發(fā)展背景下,實(shí)現(xiàn)城市的人口分布監(jiān)測(cè),對(duì)城市的資源分配、生態(tài)維護(hù)和建設(shè)規(guī)劃等多方面都有著重要的意義。本文以鄭州市為研究范圍,使用POI數(shù)據(jù)(PointofInterest,興趣點(diǎn))、夜間燈光數(shù)據(jù)等與人口分布息息相關(guān)的要素通過構(gòu)建隨機(jī)森林人口估算模型得到了鄭州市的人口分布數(shù)據(jù)并依據(jù)特征重要性評(píng)價(jià)了模型的精度。主要探究成果為下面兩項(xiàng):(1)經(jīng)過數(shù)據(jù)預(yù)處理后提取出POI興趣點(diǎn)數(shù)據(jù)、珞珈一號(hào)夜間燈光數(shù)據(jù)和街道建筑物的輪廓特征,然后基于隨機(jī)森林回歸算法建立估算效果較優(yōu)的隨機(jī)森林人口估算模型。該模型輸出鄭州市人口分布數(shù)據(jù),與實(shí)有人口數(shù)據(jù)進(jìn)行對(duì)比。模型精度良好;(2)在完成隨機(jī)森林模型的訓(xùn)練及輸出人口估算結(jié)果后,運(yùn)用特征重要性指標(biāo)定量分析了各個(gè)特征在人口估算模型之中的重要性,并評(píng)估模型精度提升的方向;(3)探究各個(gè)特征對(duì)最終估算結(jié)果基于特征值的特征貢獻(xiàn)。思考產(chǎn)生誤差的隱含原因和改進(jìn)目標(biāo)。該人口估算方法是基于常見的數(shù)據(jù)能以較短的時(shí)間成本得到相對(duì)準(zhǔn)確的人口分布數(shù)據(jù),提供了獲取人口分布數(shù)據(jù)的新方法,為人口分布監(jiān)測(cè)提供了新思路、新渠道。關(guān)鍵詞:人口估算;隨機(jī)森林;夜間燈光遙感數(shù)據(jù)第一章緒論1.1研究背景在近四十年以來隨著國家城鎮(zhèn)化建設(shè)的不斷邁進(jìn),我國的城鎮(zhèn)化率從1978年的17.9%增長到了2020年的60.60%。隨著改革開放和城市建設(shè)的推進(jìn),城市人口的增加也使得城市的生態(tài)、經(jīng)濟(jì)、發(fā)展等方面產(chǎn)生相互影響。人口的分布狀況影響著城市的生態(tài)建設(shè)、城市建設(shè)以及資源分配等多方面問題,而城市的生態(tài)建設(shè)和城市建設(shè)又反過來影響著人口的分布。所以,在城鎮(zhèn)化建設(shè)如火如荼的當(dāng)今,能以較短得時(shí)間、人力成本較低的方式獲得相對(duì)準(zhǔn)確的人口數(shù)據(jù),對(duì)城市的建設(shè)規(guī)劃和生態(tài)環(huán)境維護(hù)等方面都有著深遠(yuǎn)意義REF_Ref27954\r\h[1]。目前,最為主要的人口數(shù)據(jù)獲取方式是十年一度的人口普查,其數(shù)據(jù)真實(shí)、完整。但人口普查數(shù)據(jù)獲取的時(shí)間間隔過長,無法刻畫普查間隔期內(nèi)的人口數(shù)據(jù),難以滿足更短時(shí)間的人口變化和更小尺度的人口統(tǒng)計(jì)研究。所以,要想獲取相對(duì)準(zhǔn)確、過程簡潔的人口數(shù)據(jù)就得借助于地理信息系統(tǒng)和遙感數(shù)據(jù)等新技術(shù)。基于GIS和遙感得發(fā)展,我們可以較為容易得獲取許多與人口分布有關(guān)得數(shù)據(jù)其人口分布數(shù)據(jù),也可以更加直觀得將抽象數(shù)據(jù)分析和展示出來。當(dāng)前這一領(lǐng)域得研究主要集中于格網(wǎng)尺度得人口估算和街道建筑物尺度得人口估算。其中格網(wǎng)數(shù)據(jù)擁有計(jì)算便捷、規(guī)則性強(qiáng)等優(yōu)勢(shì)的同時(shí)也有著對(duì)自然地物的分割的缺陷,相對(duì)難以刻畫真實(shí)人口分布狀況。相對(duì)而言,街道建筑物尺度更能反映人口分布得真實(shí)區(qū)域,故而本次論文選用街道尺度能夠真實(shí)刻畫人口統(tǒng)計(jì)情況。在上述背景下,生成以街道為基本單位的人口分布數(shù)據(jù)成為了一個(gè)亟待解決的問題。目前也有一些能夠準(zhǔn)確反映人口聚集的數(shù)據(jù)分別從不同的維度刻畫了人口的分布信息,為人口估算的研究提供了必要的資源。1.2研究現(xiàn)狀近年來,地理信息系統(tǒng)和遙感技術(shù)取得了長足發(fā)展,我們可以輕松獲取到諸如路網(wǎng)水系、POI數(shù)據(jù)以及土地利用等與人類分布密切相關(guān)的數(shù)據(jù),也可使用各類遙感數(shù)據(jù)派生出許多與人口分布模式相關(guān)的因子,如建筑物密度、建筑物容積率、綠化覆蓋率等。這些數(shù)據(jù)和因子有助于我們從更多不同的角度來描述人口分布。其中不同的土地利用類型影響著人口的分布,如居住地與水域山地的人口分布是截然不同的,與此同時(shí),交通方便與否、房價(jià)與收入比例合理程度以及城市建設(shè)等多個(gè)因素也同樣影響人口的分布。所以人口分布本身就是一個(gè)超多因素影響得復(fù)雜模型?,F(xiàn)提出一些已有的主要人口估算模型如下;國內(nèi)外早期的人口估算方法是應(yīng)用區(qū)域插值。其輸入人口統(tǒng)計(jì)數(shù)據(jù),經(jīng)過不同空間單元之間的區(qū)域變換,變換前后的空間單元分別標(biāo)記為A、B區(qū)域。A區(qū)一般為行政區(qū)劃單元,B區(qū)更低一級(jí)的行政區(qū)劃單元或特定分辨率的格網(wǎng)單元。區(qū)域轉(zhuǎn)換一般是運(yùn)用區(qū)域插值將A區(qū)數(shù)據(jù)轉(zhuǎn)換為更精細(xì)的柵格數(shù)據(jù),再將它們聚合或分解到B區(qū)中。區(qū)域插值受A區(qū)域聚合或分解操作的誤差影響,其準(zhǔn)確度在很大程度上取決于如怎么樣去定義A區(qū)和B區(qū),所以受認(rèn)為影響較大。插值過程中的泛化程度以及分區(qū)表面的特征。隨著近些年地理信息系統(tǒng)、遙感技術(shù)和機(jī)器算法模型的發(fā)展,我們可以獲取到更多的與人口分布密切相關(guān)得空間數(shù)據(jù)和更有效估算方式,在這個(gè)基礎(chǔ)上,人口估算方法已經(jīng)從最開始的人口數(shù)據(jù)空間化向人口估算模型轉(zhuǎn)變,運(yùn)用估算模型來評(píng)估人口和受其影響的各個(gè)變量之間的關(guān)系,最后再通過該關(guān)系直接應(yīng)用于變量來獲取相對(duì)準(zhǔn)確的人口數(shù)據(jù)。估算模型辦法能夠較為便捷的獲取相對(duì)準(zhǔn)確的人口分布數(shù)據(jù),但其也存在忽視的問題,例如與人口關(guān)系復(fù)雜的變量難以刻畫,或者與人口關(guān)系是否存在的變量難以確定等新問題?;诖耍瑱C(jī)器學(xué)習(xí)的人口估算方法應(yīng)運(yùn)而生,在數(shù)據(jù)中尋找規(guī)則,學(xué)習(xí)到人口數(shù)據(jù)與各種變量之間的復(fù)雜關(guān)系并變現(xiàn)出來。如一些較難刻畫的人口與變量的非線性關(guān)系可以通過機(jī)器學(xué)習(xí)的算法實(shí)現(xiàn),故而機(jī)器學(xué)習(xí)可以完美解決上述兩個(gè)統(tǒng)計(jì)模型的遺留問題,是當(dāng)前人口估算研究的前沿REF_Ref28251\r\h[3]。1.3研究內(nèi)容與技術(shù)路線本節(jié)在總結(jié)前人研究經(jīng)驗(yàn)的基礎(chǔ)上提出讓隨機(jī)森林人口分布估算模型的研究基礎(chǔ)理論和實(shí)現(xiàn)路線方法。1.3.1研究內(nèi)容通過對(duì)人口估算辦法理論和隨機(jī)森林等集成學(xué)習(xí)算法的學(xué)習(xí)來對(duì)鄭州市人口分布做一個(gè)有依據(jù)和理論支持的成果。大量搜集既往研究成果學(xué)習(xí)并綜合研判,對(duì)自身研究論文做出理論補(bǔ)充和合理規(guī)劃;分析客觀事實(shí)并得出結(jié)論,對(duì)理論和技術(shù)部分做合理歸納并分析其因果關(guān)系并從而得到結(jié)論。1.3.2研究方法根據(jù)當(dāng)前人口估算研究的辦法,本文致力于運(yùn)用常見的和盡可能簡單的數(shù)據(jù)來刻畫相對(duì)準(zhǔn)確的鄭州市人口分布。基于此,本文的研究內(nèi)容如下;(1)本文運(yùn)用POI數(shù)據(jù)、夜間燈光數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)等表述人口分布的變量數(shù)據(jù)并提取其特征,為接下來的機(jī)器學(xué)習(xí)建模訓(xùn)練建立估算模型提供數(shù)據(jù)支持。(2)運(yùn)用隨機(jī)森林回歸算法,結(jié)合基于夜間燈光遙感影像、POI數(shù)據(jù)及街道區(qū)劃數(shù)據(jù)構(gòu)建的特征,將鄭州市街道尺度實(shí)有人口數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),將數(shù)據(jù)按照8:2的比例分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)對(duì)人口估算模型進(jìn)行訓(xùn)練和建立,使模型精度達(dá)到相對(duì)準(zhǔn)確。最后建立一個(gè)結(jié)合多變量的鄭州市人口估算模型,直接向模型輸入變量,從而得到鄭州市人口分布估算的結(jié)果。將模型輸出的人口分布估算結(jié)果與普查人口數(shù)據(jù)做對(duì)比,并作出模型精度方面得評(píng)價(jià)。(3)評(píng)估人口估算模型中各個(gè)主要特征的重要性,以及各特征對(duì)最終得人口估算模型輸出的人口估算結(jié)果所做出的特征貢獻(xiàn)。1.3.3技術(shù)路線本文在提取到有關(guān)人口分布信息的特征數(shù)據(jù)之后,與實(shí)有人口數(shù)據(jù)合為原始數(shù)據(jù)集參與建立隨機(jī)森林人口估算模型,具體技術(shù)路線如圖1.1。圖1.1技術(shù)路線圖1.4本章小結(jié)本章首先闡述了人口數(shù)目及其分布與城市建設(shè)等方面的相互關(guān)系,指出其緊迫性和重要性,然后解釋了人口分布估算模型建立的必要性和可行性,在其基礎(chǔ)上總結(jié)了之前學(xué)者在人口估算方面的經(jīng)驗(yàn)和方法,進(jìn)而提出本次論文所采用的人口估算辦法——隨機(jī)森林人口估算模型以及其基理論和技術(shù)路線。第二章理論基礎(chǔ)與研究數(shù)據(jù)2.1研究區(qū)概況本文選取鄭州市作為研究區(qū)域。鄭州市是河南省省會(huì)、特大城市、中原城市群核心城市。常住人口1260萬人是河南省省會(huì)、特大城市、中原城市群核心城市,國務(wù)院批復(fù)確定的中國中部地區(qū)重要的中心城市、國家重要的綜合交通樞紐,如圖2.1所示,截至2021年,全市下轄6個(gè)區(qū)、1個(gè)縣、代管5個(gè)縣級(jí)市,總面積7567平方千米,常住人口1260萬人,城鎮(zhèn)人口987.9萬人,城鎮(zhèn)化率78.4%。2020年地區(qū)生產(chǎn)總值12003億元。圖2.1鄭州市區(qū)劃2.2理論基礎(chǔ)2.2.1鄭州市人口分布鄭州市作為河南省省會(huì),準(zhǔn)確及時(shí)地獲取其人口數(shù)據(jù)對(duì)城市建設(shè)和資源調(diào)配等方面具有深遠(yuǎn)意義。其人口主要分布于市區(qū)、市區(qū)東郊和新鄭市,在市區(qū)北部和西部人口密度較低,關(guān)于鄭州市相對(duì)準(zhǔn)確的人口估算成果而查找過往研究資料發(fā)現(xiàn),學(xué)者何克福和李娟從GDP影響人口分布的角度結(jié)合DMSP夜間燈光數(shù)據(jù)研究了鄭州市的人口分布估算模型。但從其他角度或者更優(yōu)的算法模型探究鄭州市人口估算的課題還鮮有人涉足,而本文將基于前輩所做的人口估算工作經(jīng)驗(yàn)提出了一種準(zhǔn)確性更優(yōu)的人口估算模型。2.2.2地理信息系統(tǒng)地理信息系統(tǒng)是強(qiáng)大的空間信息技術(shù),其結(jié)合了地理學(xué)、遙感及計(jì)算機(jī)科學(xué)多學(xué)科,可以快速準(zhǔn)確的輸入、分析、查詢、存儲(chǔ)、輸出地理數(shù)據(jù)因而在愈多領(lǐng)域取得了廣泛的應(yīng)用。依靠GIS技術(shù)可以對(duì)相關(guān)的研究對(duì)象進(jìn)行空間特征的相關(guān)分析,其可視化的特點(diǎn)也可以對(duì)分析對(duì)象和輸出結(jié)果做可視化表達(dá),地理信息系統(tǒng)把這種獨(dú)特的視覺化效果和地理分析功能和一般的數(shù)據(jù)庫查詢分析等操作集成在一起。從而讓人更加直觀的了解到相關(guān)內(nèi)容,為相關(guān)決策和發(fā)展預(yù)測(cè)提供技術(shù)支持。基于地理信息系統(tǒng)強(qiáng)大的功能,本次論文運(yùn)用地理信息系統(tǒng)分析處理了能夠表現(xiàn)人口分布相關(guān)的夜間燈光數(shù)據(jù)和POI數(shù)據(jù),完成了夜間燈光影像的亮度、坡度和曲率提取以及POI數(shù)據(jù)的合并分類工作,并根據(jù)隨機(jī)森林人口估算模型的所需提取了上述數(shù)據(jù)在尺度上的特征數(shù)據(jù)。最后對(duì)人口估算模型輸出的結(jié)果進(jìn)行可視化分析。2.2.3隨機(jī)森林算法隨機(jī)森林算法是集成學(xué)習(xí)算法的一種,于1995年被最早提出,其源于bagging算法,隨機(jī)森林顧名思義以“隨機(jī)”和“森林”為特點(diǎn),“隨機(jī)”意思使對(duì)特征數(shù)據(jù)隨機(jī)采樣,“森林”的意思是組合多顆決策樹,使各顆決策樹的結(jié)果相互彌補(bǔ)從而避免了結(jié)果的局限性,使最終估算結(jié)果準(zhǔn)確性更高。所以隨機(jī)森林算法天然就比單一算法具有更高的精度,抗噪聲能力和避免過擬合方面因?yàn)橛?xùn)練數(shù)據(jù)和隨機(jī)數(shù)據(jù)的劃分而產(chǎn)生兩個(gè)隨機(jī)性的引入也比一般算法更具優(yōu)勢(shì)。除此之外隨機(jī)森林能夠處理高維特征的輸入數(shù)據(jù)并不需要降維,也能評(píng)估各個(gè)特征在問題上的重要程度以便于后續(xù)改進(jìn)。尤其使在對(duì)各個(gè)特征數(shù)據(jù)與人口分布之間的關(guān)系不甚清楚的情況下,隨機(jī)森林可以完美的避開這一點(diǎn)而建立相對(duì)準(zhǔn)確的估算模型,是探究人口分布的優(yōu)秀工具REF_Ref28402\r\h[7]。2.3數(shù)據(jù)來源本文使用的數(shù)據(jù)包括珞珈一號(hào)夜間燈光遙感影像、POI數(shù)據(jù)、鄭州市街道區(qū)劃數(shù)據(jù)、鄭州市街道尺度實(shí)有人口數(shù)據(jù)和鄭州市建筑物矢量輪廓數(shù)據(jù)。2.3.1珞珈一號(hào)夜間燈光遙感影像本文選用夜間燈光遙感影像可以變現(xiàn)人口分布的狀況,其由于檢測(cè)范圍大以及時(shí)空分辨率高等優(yōu)勢(shì)正成為探測(cè)人類活動(dòng)信息的關(guān)鍵數(shù)據(jù)。例如人口估算、建成區(qū)監(jiān)測(cè)、GDP估算以及多個(gè)社會(huì)經(jīng)濟(jì)方面的監(jiān)測(cè)。夜間燈光影像記錄的燈光強(qiáng)度、曲率和坡度等信息與人口數(shù)量有正相關(guān)關(guān)系,過往的研究表明了夜間燈光和人口數(shù)量之間存在的關(guān)系,也開發(fā)了其他表征人口數(shù)據(jù)的變量結(jié)合夜間燈光數(shù)據(jù)估算人口分布數(shù)據(jù)的新方向。目前監(jiān)測(cè)人口活動(dòng)分布廣泛使用的有DMSP/OLS和NPP/VIIRS夜間燈光遙感數(shù)據(jù),這兩種數(shù)據(jù)的空間分辨率相對(duì)珞珈一號(hào)存在不足,只能在較為宏觀的角度來刻畫人口。隨著珞珈一號(hào)的升空,在空間分辨率方面取得較大提升,相比前兩種夜間燈光數(shù)據(jù),其更有利于反映小尺度省的人口分布估算。如表2.1所示對(duì)珞珈一號(hào)、DMSP/OLS及NPP/VIIRS三種數(shù)據(jù)的參數(shù)進(jìn)行比較,可以看出在空間分辨率方面的區(qū)別。珞珈一號(hào)是武漢大學(xué)與相關(guān)機(jī)構(gòu)共同研發(fā)的夜光遙感衛(wèi)星,于2018年6月升空,彌補(bǔ)了我國在夜間燈光數(shù)據(jù)獲取方面的不足。它是中國第一顆專注于夜間燈光遙感的衛(wèi)星,也是目前國際上第三顆具備夜間燈光數(shù)據(jù)拍攝能力的衛(wèi)星,具有重要的價(jià)值和意義。珞珈一號(hào)01星重量22千克,采用大相對(duì)孔徑像方遠(yuǎn)心光學(xué)系統(tǒng)、大像元高靈敏成像器件等,珞珈一號(hào)改進(jìn)前代產(chǎn)品以使其能夠獲取較高精度的夜間燈光影像。珞珈一號(hào)的夜間動(dòng)態(tài)范圍高達(dá)14位,空間分辨率約為130米,圖幅為250公里,優(yōu)于美國國防氣象衛(wèi)星。珞珈一號(hào)衛(wèi)星可以為人口、GDP等社會(huì)經(jīng)濟(jì)指標(biāo)、生態(tài)建設(shè)維護(hù)、城市建設(shè)以及公共衛(wèi)生等多方面提供數(shù)據(jù)支持,使我國遙感衛(wèi)星從地表檢測(cè)轉(zhuǎn)向社會(huì)經(jīng)濟(jì)發(fā)展檢測(cè)具有重要意義。本次所用影像如圖2.2所示,該數(shù)據(jù)在湖北數(shù)據(jù)與應(yīng)用中心可以免費(fèi)下載REF_Ref27954\r\h[1]。表2.1DMSP/OLS、NPP/VHRS和Luojia1-01參數(shù)對(duì)比DMSP/OLS NPP/VIIRS Luojia1-01發(fā)射機(jī)構(gòu)美國國防部NASA武漢大學(xué)波長范圍1992年-2013年2011年至今2018年至今軌道高度830KM830KM645KM空間分辨率2.7KM742M130M幅寬3000KM3000KM260KM重訪周期12小時(shí)12小時(shí)15天在軌定標(biāo)否是是圖2.2鄭州市夜間燈光遙感影像(珞珈一號(hào))2.3.2POI數(shù)據(jù)POI數(shù)據(jù)中文翻譯是興趣點(diǎn)數(shù)據(jù),其在地理信息系統(tǒng)中可以代表一個(gè)房子、一個(gè)公交站、一個(gè)商鋪等地理實(shí)體,一般應(yīng)用在導(dǎo)航地圖中。而在人口分布估算的實(shí)驗(yàn)中,POI數(shù)據(jù)也是一項(xiàng)可以突出人口分布空間差異的數(shù)據(jù),作為地理實(shí)體的一種抽象表征數(shù)據(jù),無論是二維的、三維的、真實(shí)的、虛擬的,都能抽象成一個(gè)零維的點(diǎn)。另外POI數(shù)據(jù)還具有多種優(yōu)勢(shì),例如數(shù)量多、信息豐富等都可以作為反映人口分布的輸入數(shù)據(jù)用以彌補(bǔ)夜間燈光數(shù)據(jù)刻畫人口分布的片面性。每個(gè)POI數(shù)據(jù)包含四方面信息,即名稱、類別、坐標(biāo)、分類,一般按照一級(jí)分類和二級(jí)分類與相應(yīng)的行業(yè)或名稱對(duì)應(yīng)如表2.2所示。由于其特點(diǎn)和優(yōu)勢(shì),POI數(shù)據(jù)被廣泛應(yīng)用于導(dǎo)航、城市結(jié)構(gòu)和城市功能區(qū)分析等地理現(xiàn)象的研究REF_Ref28656\r\h[2]。本文所用POI數(shù)據(jù)來自數(shù)據(jù)云平臺(tái),如圖2.3所示。是由中國科學(xué)院地理科學(xué)與資源研究所建立的數(shù)據(jù)中心,所采用鄭州市POI點(diǎn)數(shù)據(jù)共計(jì)17萬余。在研究區(qū)鄭州市共提取到POI數(shù)據(jù)分為十余類,根據(jù)中國土地利用分類標(biāo)準(zhǔn),將POI數(shù)據(jù)重新劃分為商務(wù)住宅、商業(yè)服務(wù)、公共服務(wù)余交通運(yùn)輸共四大類,POI數(shù)據(jù)記錄了這些地理實(shí)體的名稱、地址、坐標(biāo)以及類別編號(hào)。圖2.3POI數(shù)據(jù)表2.2POI數(shù)據(jù)類別類別編號(hào)一級(jí)類別二級(jí)類別1商務(wù)住宅居民小區(qū)賓館酒店餐飲服務(wù)購物廣場(chǎng)2商業(yè)服務(wù)會(huì)展中心金融服務(wù)休閑娛樂公共設(shè)施3公共服務(wù)生活服務(wù)醫(yī)療服務(wù)運(yùn)動(dòng)健身政府機(jī)構(gòu)4交通運(yùn)輸交通設(shè)施汽車服務(wù)2.3.3鄭州市街道區(qū)劃數(shù)據(jù)在建立估算模型和結(jié)果可視化的過程中,需要對(duì)學(xué)習(xí)數(shù)據(jù)做一個(gè)基本單元的分類提取與展示,故而本研究使用街道區(qū)劃數(shù)據(jù)作為人口數(shù)據(jù)空間化的基底數(shù)據(jù),數(shù)據(jù)采集于2019年,其記錄了鄭州市199個(gè)街道信息包含名稱、編號(hào)、位置等字段。將作為影響人口分布的變量特征提取和人口空間分布可視化的基底數(shù)據(jù)來使用。數(shù)據(jù)來源于BIGEMAP地圖下載器。2.3.4鄭州市第六次人口普查數(shù)據(jù)隨機(jī)森林建立估算模型需要真實(shí)數(shù)據(jù)作為建模前的學(xué)習(xí)數(shù)據(jù)和估算結(jié)果的驗(yàn)證數(shù)據(jù),所以本文采用鄭州市實(shí)有人口數(shù)據(jù)作為本實(shí)驗(yàn)中的機(jī)器學(xué)習(xí)輸入數(shù)據(jù)和人口估算結(jié)果的驗(yàn)證數(shù)據(jù),來源于國家統(tǒng)計(jì)局官網(wǎng),從第六次人口普查數(shù)據(jù)中裁剪所得。記錄了2010年鄭州市各街道區(qū)劃內(nèi)常住人口數(shù)量,字段包括人口總數(shù)、男/女人口數(shù)、未成年人口數(shù)、成年人口數(shù)以及65歲以上人口數(shù)據(jù)。在后續(xù)的模型建立過程中,將實(shí)有人口數(shù)據(jù)作為模型的輸入數(shù)據(jù)和估算結(jié)果的驗(yàn)證數(shù)據(jù)。本文所用人口數(shù)據(jù)及其字段如表2.3所示。表2.3鄭州市實(shí)有人口數(shù)據(jù)字段名字段類型備注FIDString記錄編碼所屬區(qū)縣String記錄所在區(qū)縣名稱所屬街道String記錄所在街道名稱經(jīng)度Double記錄中心點(diǎn)經(jīng)度緯度Double記錄中心點(diǎn)緯度某年齡段男(女)人數(shù)Long記錄特定年齡段特定性別人口數(shù),如“男人/女人(四個(gè)字段)數(shù)”、“未成年數(shù)”等合計(jì)Long記錄街道內(nèi)常住人口數(shù)量2.3.5鄭州市建筑物輪廓數(shù)據(jù)本文使用了建筑物輪廓數(shù)據(jù)作為建筑物特征,通過人工目視解譯高分辨率遙感影像所得。鄭州市共計(jì)12萬余建筑物面狀要素,包含面積、樓層、編號(hào)字段,刪除面積為0的四千多個(gè)數(shù)據(jù)后投入使用。該數(shù)據(jù)來源于博文測(cè)繪GIS服務(wù)中心。2.4數(shù)據(jù)預(yù)處理2.4.1實(shí)有人口數(shù)據(jù)與行政區(qū)劃數(shù)據(jù)匹配在隨機(jī)森林建立人口估算模型的過程中,需要統(tǒng)一單元作為最終估算結(jié)果可視化的單位,并且需要各個(gè)單元的人口數(shù)據(jù)作為機(jī)器學(xué)習(xí)的輸入訓(xùn)練數(shù)據(jù)和結(jié)果檢驗(yàn)數(shù)據(jù),所以在空間上兩者需要達(dá)到一對(duì)一匹配的處理。而實(shí)際獲取到人口數(shù)據(jù)有183個(gè),街道區(qū)劃數(shù)據(jù)有199個(gè),并非一一對(duì)應(yīng),有的街道有多個(gè)人口點(diǎn),有的街道無人口點(diǎn)。主要原因是(1)人口數(shù)據(jù)是2010年第六次人口普查結(jié)果,而街道區(qū)劃是2019年的數(shù)據(jù),十年來有一些新成立的街道未進(jìn)行人口普查故而無人口數(shù)據(jù),也有一些之前存在的街道改名或分解導(dǎo)致數(shù)據(jù)無法匹配;(2)人口數(shù)據(jù)和街道數(shù)據(jù)的統(tǒng)計(jì)單位不同,導(dǎo)致坐標(biāo)不統(tǒng)一而出現(xiàn)人口點(diǎn)與街道面之間的偏移現(xiàn)象。以街道行政區(qū)劃數(shù)據(jù)的空間位置為基準(zhǔn),經(jīng)過兩項(xiàng)處理使得人口點(diǎn)數(shù)據(jù)和街道數(shù)據(jù)建立一對(duì)一的關(guān)系。(1)對(duì)于無人口普查數(shù)據(jù)的街道根據(jù)互聯(lián)網(wǎng)搜集最新人口數(shù)據(jù)或根據(jù)周邊街道人口數(shù)據(jù)進(jìn)行合理估算。對(duì)于存在人口數(shù)據(jù)但無對(duì)于街道面的點(diǎn),選擇刪除;(2)對(duì)于人口點(diǎn)和街道面出現(xiàn)偏移的情況采用手動(dòng)修改人口點(diǎn)坐標(biāo)的方式平移至對(duì)應(yīng)行政區(qū)面中心。經(jīng)過這兩項(xiàng)處理,實(shí)現(xiàn)了199個(gè)人口點(diǎn)與199個(gè)街區(qū)面的一一匹配。2.4.2特征提取在隨機(jī)森林建立鄭州市人口估算模型的過程中,決策樹的生成和分裂都需要特征數(shù)據(jù)作為樣本來采集。特征是某一類對(duì)象與其他類對(duì)象有所區(qū)分的相應(yīng)特點(diǎn),或這些特點(diǎn)特征的集合。對(duì)本次隨機(jī)森林建立人口估算模型而言,需要提供不同單元的各個(gè)特征用于機(jī)器學(xué)習(xí)和訓(xùn)練。在特征選取之前,我們不知道每一個(gè)屬性特征的重要程度甚至有用與否,為了使得最終的人口估算結(jié)果相對(duì)準(zhǔn)確,本著應(yīng)有盡有的原則,選取了與人口分布數(shù)據(jù)關(guān)聯(lián)性各異甚至可能不相關(guān)的各種特征,以便于后續(xù)的模型訓(xùn)練和學(xué)習(xí)REF_Ref28728\r\h[4]。城市人口的數(shù)量及其分布一般偏向于環(huán)境良好、資源豐富的地區(qū),與各種社會(huì)經(jīng)濟(jì)指標(biāo)有較強(qiáng)規(guī)律。故而一般認(rèn)為,通過觀察夜間燈光數(shù)據(jù),其亮度的強(qiáng)度和面積能夠部分反映人類經(jīng)濟(jì)活動(dòng)的強(qiáng)弱也能側(cè)面反映出人類的分布情況,但人類的聚集是個(gè)復(fù)雜的分布,受多方面因素影響,例如房價(jià)收入比例、生態(tài)文明建設(shè)狀況、地區(qū)發(fā)展前景等,所以在采用夜間燈光數(shù)據(jù)作為刻畫人類分布的輸入數(shù)據(jù)之外我們繼續(xù)引入POI數(shù)據(jù)作為地理實(shí)體的分布來反映人類分布情況,這兩類數(shù)據(jù)可以相對(duì)準(zhǔn)確的反映出區(qū)域內(nèi)人口的分布。圖2.4夜間燈光影像坡度首先通過將夜間燈光遙感數(shù)據(jù)裁剪出鄭州市范圍,再運(yùn)用地理信息系統(tǒng)得到其坡度和曲率數(shù)據(jù),如圖2.4所示為夜間燈光影像坡度,最后根據(jù)現(xiàn)有行政區(qū)劃提取相應(yīng)的燈光特征。對(duì)先前做好分類工作的POI點(diǎn)數(shù)據(jù)進(jìn)行核密度處理,對(duì)得到的柵格數(shù)據(jù)同樣根據(jù)現(xiàn)有行政區(qū)劃提取至相應(yīng)單元。最后選取了各行政區(qū)內(nèi)的建筑物特征作為補(bǔ)充,數(shù)據(jù)有建筑物面積和高度。數(shù)據(jù)處理后得到共計(jì)二十多個(gè)特征。街道建筑面積、夜間燈光輻亮度MIN、夜間燈光輻亮度MEAN、夜間燈光輻亮度MAX、夜間燈光坡度MIN、夜間燈光坡度MAX、夜間燈光坡度MEAN、夜間燈光曲率MIN、夜間燈光曲率MAX、夜間燈光曲率MEAN、商務(wù)住宅MIN、商務(wù)住宅MAX、商務(wù)住宅MEAN、公共服務(wù)MIN、公共服務(wù)MAX、公共服務(wù)MEAN、商業(yè)服務(wù)MIN、商業(yè)服務(wù)MAX、商業(yè)服務(wù)MEAN、交通業(yè)務(wù)MIN、交通業(yè)務(wù)MAX、交通業(yè)務(wù)MEAN、*特征名稱中的MEAN表示均值,MIN表示最小值,MAX表示最大值。2.5本章小結(jié)本章首先介紹了研究區(qū)域鄭州市的基本情況以及所用人口估算方法的基本數(shù)據(jù)及其來源,著重介紹了各數(shù)據(jù)在模型建立過程中所承擔(dān)的作用和貢獻(xiàn)。之后介紹了數(shù)據(jù)處理方面的基本理論和處理的流程并得到了建立隨機(jī)森林人口估算模型所需要的二十余個(gè)與人口分布有密切關(guān)系的特征變量。
第三章基于隨機(jī)森林的人口估算模型3.1隨機(jī)森林算法理論基礎(chǔ)隨機(jī)森林本質(zhì)是是一種有監(jiān)督學(xué)習(xí)的算法,是以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法。在了解隨機(jī)森林之前我們首先要指導(dǎo)集成學(xué)習(xí)的思想和其分支bagging算法。本次論文我們的目標(biāo)是學(xué)習(xí)一個(gè)穩(wěn)定且在各方面表現(xiàn)良好的模型,但現(xiàn)實(shí)往往不甚理想的得到多個(gè)在個(gè)別方面表現(xiàn)較好的弱監(jiān)督模型。對(duì)此問題,集成學(xué)習(xí)算法就展現(xiàn)了優(yōu)勢(shì),它將多個(gè)弱監(jiān)督模型進(jìn)行組合而使其成為相互之間錯(cuò)誤能夠得到彌補(bǔ)和糾正的強(qiáng)監(jiān)督模型。嚴(yán)格來說,集成學(xué)習(xí)并不是一種分類器,而是一種分類器結(jié)合的辦法,通俗的講就相當(dāng)于多個(gè)決策著決策同一件事,以期降低偏差、改進(jìn)預(yù)測(cè)效果。對(duì)于集成學(xué)習(xí)算法的首要問題,個(gè)體學(xué)習(xí)器的種類的不同可以將他們分為同質(zhì)和非同質(zhì)。在同質(zhì)學(xué)習(xí)器中,可以根據(jù)之間是否存在依賴關(guān)系而分為兩類,bagging算法就是依賴關(guān)系不強(qiáng)的個(gè)體學(xué)習(xí)器算法之一。Bagging的基本思路是:當(dāng)有一個(gè)訓(xùn)練集D,使用基于Bagging思想的算法在該訓(xùn)練集上進(jìn)行分類或回歸時(shí),首先從中均勻、有放回地(使用自助抽樣法)選出m個(gè)大小為rf的子集作為新的訓(xùn)練集。其次在這m個(gè)訓(xùn)練集上使用分類、回歸等算法,則可得到m個(gè)模型,再通過取平均值、取多數(shù)票等方法,即可得到最終結(jié)果。當(dāng)Bagging應(yīng)用于決策樹算法時(shí),給定訓(xùn)練集X和目標(biāo)Y。Bagging方法重復(fù)B次從訓(xùn)練集中有放回地采樣,在這些樣本上重復(fù)訓(xùn)練決策樹模型,在訓(xùn)練結(jié)束之后,對(duì)未知樣的預(yù)測(cè)可以通過對(duì)所有單個(gè)回歸樹的預(yù)測(cè)求平均來實(shí)現(xiàn)如果簡單地在同一個(gè)數(shù)據(jù)集上訓(xùn)練多棵決策樹會(huì)產(chǎn)生強(qiáng)相關(guān)的決策樹,決策樹之間的相似性較高。Bagging是一種通過產(chǎn)生不同訓(xùn)練集從而降低決策樹之間關(guān)聯(lián)性的方法。所有單個(gè)回歸樹的預(yù)測(cè)的標(biāo)準(zhǔn)差可以作為預(yù)測(cè)的不確定性的估計(jì)REF_Ref27954\r\h[1]。Bagging算法的子采樣就是放回抽樣,即每一次采集樣本之后都在放回后有一定概率被繼續(xù)采集,通常我們采集與訓(xùn)練集樣本數(shù)一樣的樣本,這樣我們得到的訓(xùn)練集和樣本集的樣本個(gè)數(shù)就相同而樣本內(nèi)容不同。例如采集Y次,則Y個(gè)采樣集之間胡不一樣。Bagging算法對(duì)弱學(xué)習(xí)器沒有限制,最常用的一般是決策樹和神經(jīng)網(wǎng)絡(luò)。因?yàn)殡S機(jī)采樣的原因,該算法的泛化能力較強(qiáng),但對(duì)于訓(xùn)練集的擬合程度就會(huì)差一些,也就是模型偏差較大。在理解bagging算法的基礎(chǔ)上,我們就能很好的掌握隨機(jī)森林算法。隨機(jī)森林就是一個(gè)進(jìn)化版的bagging算法,他們的思想是共通的,知識(shí)進(jìn)行了特有的改進(jìn)。隨機(jī)森林的特點(diǎn)也是隨機(jī)采樣,隨機(jī)采樣就是從我們的訓(xùn)練集當(dāng)中有放回的采集固定個(gè)數(shù)的樣本,這就會(huì)導(dǎo)致有些樣本被多次采集,而有些樣本卻沒有被采集到,對(duì)于一個(gè)包括X各樣本的訓(xùn)練集進(jìn)行隨機(jī)采樣,任意一個(gè)樣本被采集到的概率為1/X,不被采集到的概率為1-1/X,那么經(jīng)過X次采樣都沒有被采集的概率為(1-1/X)的X次方,當(dāng)X趨向無窮大時(shí),(1-1/X)的X次方等于1/e,約等于0.368。通常我們把這些沒有被采集到的約36.8%的數(shù)據(jù)被稱為袋外數(shù)據(jù),這些袋外數(shù)據(jù)沒有參與訓(xùn)練集模型的擬合,因此可以用來檢測(cè)模型的泛化能力REF_Ref28833\r\h[5]。圖3.1隨機(jī)森林原理隨機(jī)森林相比于bagging算法,用決策樹作為弱學(xué)習(xí)器,決策樹是樹狀結(jié)構(gòu),可以用枝節(jié)和節(jié)點(diǎn)形象刻畫決策過程和決策結(jié)果。其算法核心與上述一樣是為了組合多個(gè)決策樹以降低單一結(jié)果的片面性和提升預(yù)測(cè)的準(zhǔn)確程度。其過程是首先隨機(jī)有放回的抽取M個(gè)樣本,共進(jìn)行N次采樣,從而生成N個(gè)訓(xùn)練集。對(duì)這N個(gè)訓(xùn)練集分別訓(xùn)練N個(gè)決策樹模型,在單個(gè)決策樹模型的每次分裂中根據(jù)其信息增益或基尼指數(shù)選擇一個(gè)最好的特征進(jìn)行分裂每棵決策樹都依次分裂直到該節(jié)點(diǎn)的所有訓(xùn)練樣例都屬于同一類截止。通過袋外數(shù)據(jù)誤差比對(duì)確定各個(gè)特征的重要性。隨機(jī)森林就是生成的多顆決策樹的組合,對(duì)于分類問題我們通常使用投票的辦法投票法有考慮類別權(quán)重的復(fù)雜投票也有簡單的相對(duì)多數(shù)投票。對(duì)于回歸問題我們使用算術(shù)平均值或者考慮權(quán)重的加權(quán)平均值REF_Ref28934\r\h[9]。由于隨機(jī)森林采樣過程中對(duì)樣本和特征都進(jìn)行了隨機(jī)引入,所以在抗噪聲和防止過擬合方面相比一般算法有一定優(yōu)勢(shì)。本次模型實(shí)現(xiàn)流程如圖3.1所示。3.2實(shí)現(xiàn)過程隨機(jī)森林是一種特殊的bagging算法,與其他集成學(xué)習(xí)算法類似,都是對(duì)弱監(jiān)督模型/決策樹進(jìn)行組合而得到預(yù)測(cè)效果更好的強(qiáng)監(jiān)督模型。具體實(shí)現(xiàn)過程分為一下幾個(gè)過程。(1)隨機(jī)采樣首先對(duì)樣本數(shù)據(jù)按照8:2的比例劃分為測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。其采用隨機(jī)選點(diǎn)的方式產(chǎn)生,保證了樣本的隨機(jī)性。同時(shí)也保證了樣本數(shù)據(jù)在研究區(qū)域范圍內(nèi)的均勻分布,可以更有效的使模型學(xué)習(xí)到不同因子對(duì)不同地塊的人口分布影響,使得模型更能反映人口的空間分布。之后對(duì)樣本數(shù)據(jù)進(jìn)行有放回的抽樣參與訓(xùn)練,共計(jì)采集N次并由此構(gòu)建N個(gè)決策樹。在這個(gè)過程中不可避免的會(huì)有數(shù)據(jù)被多次采樣,而有的數(shù)據(jù)沒有被采樣,假設(shè)訓(xùn)練集中樣本個(gè)數(shù)為X,當(dāng)X足夠大時(shí),我們可以推導(dǎo)出每個(gè)未被抽取的樣本概率,大約為36.8%。這些沒有被采樣的數(shù)據(jù)被稱為袋外數(shù)據(jù),它們沒有參與訓(xùn)練。(2)決策樹分裂決策樹分裂和樣本采集類似,其分裂過程沒有用到全部待選特征同樣是采用無放回的在待選特征中選取。在單個(gè)決策樹模型的每次分裂中根據(jù)其信息增益或基尼指數(shù)選擇一個(gè)最好的特征進(jìn)行分裂每棵決策樹都依次分裂直到該節(jié)點(diǎn)的所有訓(xùn)練樣例都屬于同一類截止。至此構(gòu)建森林和各個(gè)決策樹建立完成。(3)參數(shù)調(diào)優(yōu)初步建模完成后,將特征數(shù)據(jù)和比對(duì)數(shù)據(jù)按照2比8的比例分為訓(xùn)練和測(cè)試部分,訓(xùn)練數(shù)據(jù)作為輸入?yún)⑴c到訓(xùn)練中。隨機(jī)森林模型的訓(xùn)練實(shí)際上就是模型參數(shù)的調(diào)優(yōu),在眾多不同組合產(chǎn)生復(fù)雜影響關(guān)系的情況下,唯有不斷訓(xùn)練調(diào)整以得到適合我們問題的參數(shù)組合。隨機(jī)森林模型的參數(shù)主要包括決策樹參數(shù)(決策樹深度、結(jié)點(diǎn)分裂最小樣本數(shù)、最大葉子結(jié)點(diǎn)數(shù)、葉子節(jié)點(diǎn)最小樣本數(shù)等)和隨機(jī)森林框架參數(shù)(決策樹個(gè)數(shù)等)兩種。n_estimators:最大弱學(xué)習(xí)器個(gè)數(shù)(決策樹個(gè)數(shù))。默認(rèn)值為一百,該參數(shù)決定了隨機(jī)森林的復(fù)雜程度,值越大則決策樹個(gè)數(shù)越多;max_features:尋找最佳分裂時(shí)考慮的最大特征數(shù)量。決策樹在分裂節(jié)點(diǎn)時(shí)會(huì)根據(jù)衡量標(biāo)準(zhǔn),比如基尼系數(shù),考慮所有的特征,選擇信息增益最大的特征進(jìn)行分裂,但是這樣比較耗時(shí),特別是特征很多的時(shí)候。所以如果特征數(shù)非常多,我們可以只考慮的部分特征,以控制決策樹的生成時(shí)間random_state:該參數(shù)控制隨機(jī)狀態(tài)。為了保證同樣的算法模型在不同的訓(xùn)練集和測(cè)試集上的效果相同,所以該參數(shù)可以控制程序每次運(yùn)行都對(duì)訓(xùn)練集和測(cè)試集作恒定劃分。表3.1隨機(jī)森林本模型參數(shù)最優(yōu)取值參數(shù)名稱scikit-learn參數(shù)名最優(yōu)取值最大弱學(xué)習(xí)器個(gè)數(shù)n_estimators17最大特征數(shù)max_features100隨機(jī)種子random_state21運(yùn)用網(wǎng)格搜索法對(duì)待優(yōu)化的參數(shù)進(jìn)行調(diào)整,該實(shí)現(xiàn)過程是構(gòu)建一個(gè)包括所有參數(shù)的所有取值范圍在內(nèi)的參數(shù)字典,再對(duì)每一個(gè)待優(yōu)化的參數(shù)作一一嘗試并尋求最優(yōu)取值。其可以判斷每一個(gè)參數(shù)的每個(gè)值對(duì)結(jié)果精度的影響,以求最終獲得最優(yōu)的參數(shù)組合。即模型訓(xùn)練結(jié)束。在調(diào)優(yōu)參數(shù)的過程中,有的參數(shù)對(duì)模型整體精度和效率影響較大,本次模型得到這些參數(shù)的最優(yōu)取值如表3.1所示。(4)分類與回歸在將多個(gè)決策樹組合成隨機(jī)森林及模型訓(xùn)練結(jié)束之后,我們可以用隨機(jī)森林模型對(duì)新的數(shù)據(jù)進(jìn)行分類和回歸預(yù)測(cè)。其中分類問題是根據(jù)各決策樹輸出結(jié)果的投票決定,若結(jié)果A決策樹票數(shù)多于結(jié)果B,則最終結(jié)果為A,這類似于少數(shù)服從多數(shù);而回歸模型則是基于各決策樹做加權(quán)平均值或者簡單的算術(shù)平均值,值得注意的是,加權(quán)平均值由于權(quán)重估算不準(zhǔn)確而并不一定比算術(shù)平均值更具優(yōu)勢(shì)。(5)重要性評(píng)價(jià)特征重要性是模型評(píng)估的重要環(huán)節(jié),對(duì)于某個(gè)特征Y,其實(shí)現(xiàn)原理是先對(duì)每一顆決策樹使用相應(yīng)的袋外數(shù)據(jù)來計(jì)算它的袋外數(shù)據(jù)誤差,再將其與加入噪聲干擾的后的袋外誤差做一個(gè)比較。若對(duì)某個(gè)特征而言,加入噪聲之后,其袋外準(zhǔn)確率大幅度下降,則證明該特征對(duì)模型影響較大,也就是重要性較高。通常我們使用變換后的預(yù)測(cè)誤差與原來相比差的均值來反映特征重要性。3.3人口估算建模首先將第二章的二十余個(gè)特征和鄭州市人口普查數(shù)據(jù)作為建模的特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)。并對(duì)其進(jìn)行劃分,本次實(shí)驗(yàn)按照8比2的比例隨機(jī)選取了測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)REF_Ref28999\r\h[6]。Sklearn機(jī)器學(xué)習(xí)庫包含各大類的模型以及數(shù)據(jù)處理函數(shù),對(duì)初學(xué)者及其有幫助。運(yùn)用Python編程語言和第三方開源機(jī)器學(xué)習(xí)算法庫編寫。使用各個(gè)參數(shù)的初始默認(rèn)值構(gòu)建初始模型,之后記錄初始模型的精度、特征重要度和平均精確度減少值,并根據(jù)平均精確度較少值做特征篩選。某特征的平均精確度減少的越多,就表明該特征對(duì)模型精度提升的正向效應(yīng)越強(qiáng)。代碼實(shí)現(xiàn)如下:轉(zhuǎn)換所有特征形式為float;隨機(jī)對(duì)數(shù)據(jù)采樣構(gòu)建子集并選取最有特征;構(gòu)造多個(gè)決策樹并組合創(chuàng)建隨機(jī)森林;用測(cè)試集完成測(cè)試并輸出結(jié)果。由于本次建模選取特征較少,所以沒有用初始模型按照特征重要性對(duì)特征數(shù)據(jù)做篩選。最終應(yīng)用的特征如表3.1所示。表3.1選取特征建筑面積商務(wù)住宅MAX夜間燈光輻亮度MIN商務(wù)住宅MEAN夜間燈光輻亮度MEAN公共服務(wù)MIN夜間燈光輻亮度MAX公共服務(wù)MAX夜間燈光坡度MIN公共服務(wù)MEAN夜間燈光坡度MEAN商業(yè)服務(wù)MIN夜間燈光坡度MAX商業(yè)服務(wù)MAX夜間燈光曲率MEAN商業(yè)服務(wù)MEAN夜間燈光曲率MIN交通業(yè)務(wù)MIN夜間燈光曲率MAX交通業(yè)務(wù)MAX商務(wù)住宅MIN交通業(yè)務(wù)MEAN*特征名稱中的MEAN表示均值,MIN表示最小值,MAX表示最大值.3.4人口估算結(jié)果上一節(jié)通過訓(xùn)練模型得到了預(yù)測(cè)效果較好的鄭州市人口估算模型,該模型輸入二十余個(gè)特征并輸入鄭州市各個(gè)街道的人口預(yù)測(cè)結(jié)果如圖3.3所示。其中預(yù)測(cè)值如圖3.2所示,R方=0.90,預(yù)測(cè)效果良好。使用地理信息系統(tǒng)和鄭州市區(qū)劃數(shù)據(jù)作為位置數(shù)據(jù)實(shí)現(xiàn)估算結(jié)果的可視化,結(jié)果顯示鄭州市人口主要集中于市區(qū)周邊和新鄭市,市區(qū)以西和東南方向人口密度較低,結(jié)果符合預(yù)期。圖3.2預(yù)測(cè)結(jié)果圖3.3人口估算結(jié)果3.5人口估算結(jié)果精度評(píng)價(jià)對(duì)估算結(jié)果與真實(shí)數(shù)據(jù)進(jìn)行比較,將兩者生成散點(diǎn)圖如圖3.4所示,觀察可知絕大多數(shù)散點(diǎn)位于趨勢(shì)線附近,位于下方的散點(diǎn)數(shù)多于上方的散點(diǎn)數(shù),表明結(jié)果相對(duì)較為高估。模型估算結(jié)果得到判定系數(shù)呈現(xiàn)R方=0.90,總體精度良好。圖3.4估算人口3.6本章小結(jié)本章首先對(duì)集成學(xué)習(xí)算法和決策樹進(jìn)行了解釋,并詳細(xì)描述了隨機(jī)森林算法的原理。再此基礎(chǔ)上勾勒出一個(gè)切實(shí)可行的實(shí)施過程并經(jīng)過特征采集、數(shù)據(jù)訓(xùn)練,運(yùn)用Python編程語言實(shí)現(xiàn)了估算模型的建立。最后對(duì)模型輸入特征得到了估算結(jié)果,將真實(shí)數(shù)據(jù)于估算數(shù)據(jù)進(jìn)行對(duì)比得到判定系數(shù)R方=0.90。總體精度良好。第四章模型解釋與分析上一章描述了集成學(xué)習(xí)和隨機(jī)森林算法的理論基礎(chǔ)與實(shí)現(xiàn)的過程,運(yùn)用第二章所建立的特征數(shù)據(jù)訓(xùn)練構(gòu)建了一個(gè)鄭州市的隨機(jī)森林人口估算模型,經(jīng)過與人口普查數(shù)據(jù)比較分析,對(duì)預(yù)測(cè)結(jié)果和模型精度做出了評(píng)價(jià)。本章繼上一章的基礎(chǔ)上對(duì)模型進(jìn)行解釋分析,從而找到誤差產(chǎn)生的原因,一般而言,當(dāng)決策樹的特征數(shù)量和深度、數(shù)量較大時(shí),森林結(jié)構(gòu)也會(huì)趨于復(fù)雜,即使對(duì)于一顆深度為10的決策樹,分析表述也是極其困難的。該算法相當(dāng)于一個(gè)黑匣子,在特征數(shù)較大的情況下不具有解釋分析的可行性。因此我們了解隨機(jī)森林內(nèi)部機(jī)制通常是利用其袋外數(shù)據(jù)錯(cuò)誤率得出的特征重要性和基于決策路徑特征值的特征貢獻(xiàn)方面來刻畫。本章也將從這兩個(gè)方面來對(duì)模型進(jìn)行解釋分析REF_Ref29071\r\h[8]。4.1特征重要性分析特征重要性,就是描述特征數(shù)據(jù)對(duì)模型估算結(jié)果所產(chǎn)生影響的重要程度,也能夠反映出該特征在特征庫中的重要程度,屬于模型解釋分析的重要指標(biāo)之一。一般而言特征重要性的計(jì)算是通過比較某特征在每顆決策樹的袋外數(shù)據(jù)誤差和隨機(jī)添加噪聲后的袋外數(shù)據(jù)誤差來評(píng)價(jià)該特征對(duì)模型影響程度,弱加入噪聲后,其袋外準(zhǔn)確率大幅下降,則表明其影響較大,也即重要性較高。在隨機(jī)森林的特征選擇和模型解譯過程中,特征重要性是一個(gè)十分重要的指標(biāo)。一個(gè)特征的特征重要性既可以反映出該特征對(duì)于模型預(yù)測(cè)結(jié)果起到的效果,同時(shí)也可表示出該特征在多維特征庫中的重要程度。特征重要性表示當(dāng)模型特征庫中的某特征序列被加入噪聲干擾時(shí),對(duì)模型精確度的影響程度。特征重要性的計(jì)算是基于每次有放回抽樣的過程中始終未被采集的大約三分之一的數(shù)據(jù),這些數(shù)據(jù)被稱作袋外數(shù)據(jù)。由于其沒有被采樣,所以這些數(shù)據(jù)也沒有參與建立決策樹,故而模型可以通過計(jì)算袋外數(shù)據(jù)誤差進(jìn)行模型預(yù)測(cè)結(jié)果的精度評(píng)價(jià),故而在做模型的精度評(píng)價(jià)時(shí)候,可以通過計(jì)算袋外數(shù)據(jù)的誤差來進(jìn)行。這種對(duì)模型精度進(jìn)行評(píng)價(jià)的方法稱為袋外估計(jì)法。特征重要性的計(jì)算思路如下:對(duì)隨機(jī)森林中的決策樹利用其袋外數(shù)據(jù)計(jì)算誤差;計(jì)算隨機(jī)對(duì)袋外數(shù)據(jù)的所有樣本特征加入噪聲干擾后的誤差;比較兩個(gè)誤差的出最終特征重要性排序。如圖4.1可視化了隨機(jī)森林人口分布估算模型的特征重要性。可以看出建筑物面積是重要性最高的特征,達(dá)到了0.23,表明其對(duì)模型估算結(jié)果影響最大。影響最小的是坡度MAX,對(duì)模型精度影響可以忽略不計(jì)。其他值得關(guān)注的重要特征有商業(yè)服務(wù)POI核密度平均值商業(yè)服務(wù)MEAN、公共服務(wù)POI核密度平均值公共服務(wù)MEAN、商務(wù)住宅POI核密度平均值商務(wù)住宅MEAN、夜間燈光數(shù)據(jù)坡度最小值坡度MIN、商務(wù)住宅最大值商務(wù)住宅MAX和商業(yè)服務(wù)最大值商業(yè)服務(wù)MAX。其特征重要性均超過0.05。圖4.1特征重要性4.2特征貢獻(xiàn)分析特征重要性是從總體的角度評(píng)估各個(gè)特征數(shù)據(jù)對(duì)模型最終預(yù)測(cè)結(jié)果的貢獻(xiàn),而在更精細(xì)的尺度上,例如基于特征值、分地塊等方面評(píng)估特征重要性會(huì)得到不一樣的結(jié)果,對(duì)提升后續(xù)模型精度的工作上,特征貢獻(xiàn)分析比特征重要性更為關(guān)鍵。本文將從特征值方面來評(píng)估主要特征數(shù)據(jù)的特征貢獻(xiàn)。4.2.1特征貢獻(xiàn)分析原理我們通常把決策樹從生成到輸出結(jié)果的路徑成為決策路徑,每一次結(jié)點(diǎn)的分裂就是一次特征主導(dǎo)的決策。我們通過觀察決策樹的每一次結(jié)點(diǎn)分裂對(duì)最終模型預(yù)測(cè)結(jié)果的增強(qiáng)或削弱影響及它們?cè)诓煌悇e樣本中的分布可以得出每個(gè)特征到底對(duì)最終輸出的人口分布結(jié)果產(chǎn)生什么樣的作用及效果REF_Ref27954\r\h[1]。了解決策貢獻(xiàn)之前先要清楚一個(gè)基本理論,即在模型中的一個(gè)學(xué)習(xí)器訓(xùn)練的過程中,對(duì)每一個(gè)最終所得的結(jié)果而言,都有確定的一條從初始點(diǎn)到最末端的決策路徑。決策路徑的每一次決策就是一次樹的劃分,其受到一些由特征所主導(dǎo)的決策產(chǎn)生,每一次樹的分裂都會(huì)對(duì)最終結(jié)果產(chǎn)生積極或消極的影響。隨機(jī)森林可以依據(jù)決策路徑生成基于個(gè)體樣本的特征貢獻(xiàn)序列,通過觀察特征貢獻(xiàn)在空間和不同類別樣本中的分布,可以了解到各個(gè)特征對(duì)于每個(gè)樣本的人口估算結(jié)果起到了什么作用。如果特征貢獻(xiàn)為正,表明該特征對(duì)人口數(shù)量有增加的效果。反之,如果特征貢獻(xiàn)為負(fù)值,則表示該特征降低了人口的估計(jì)值REF_Ref27954\r\h。在完成回歸樹的構(gòu)建后,回歸樹中的每一個(gè)子結(jié)點(diǎn)均通過某個(gè)特征與父結(jié)點(diǎn)建立了聯(lián)系,這種聯(lián)系進(jìn)而不斷上溯到根結(jié)點(diǎn)。根結(jié)點(diǎn)的估計(jì)值是所有樣本因變量的平均值,每一個(gè)子結(jié)點(diǎn)的估計(jì)值都是在父結(jié)點(diǎn)估計(jì)值的基礎(chǔ)上發(fā)生一定程度的增益或者損失。從父結(jié)點(diǎn)估計(jì)值到子結(jié)點(diǎn)估計(jì)值的增益或者損失即為特征對(duì)父結(jié)點(diǎn)劃分產(chǎn)生的貢獻(xiàn),稱為特征貢獻(xiàn)。當(dāng)發(fā)生增益時(shí)特征為正,當(dāng)存在損失時(shí)特征貢獻(xiàn)為負(fù)。隨著回歸樹深度不斷增加,結(jié)點(diǎn)不斷分解,估計(jì)值越來越接近目標(biāo)值。具體每個(gè)特征的最終貢獻(xiàn)取決于它經(jīng)過的決策路徑和結(jié)點(diǎn),增強(qiáng)為正,削弱為負(fù),結(jié)果等于經(jīng)過結(jié)點(diǎn)的貢獻(xiàn)之和。4.2.2基于特征值的特征貢獻(xiàn)分析觀察對(duì)模型的特征重要性較高的建筑物面積、商業(yè)服務(wù)MEAN、公共服務(wù)MEAN和商務(wù)住宅MEAN隨著特征值變化的特征貢獻(xiàn)變化。觀察散點(diǎn)圖發(fā)現(xiàn)與人口分布關(guān)系緊密的幾個(gè)特征,如圖4.3所示,鄭州市建筑物面積、商務(wù)住宅核密度均值隨著特征值的增加而增加,變化的趨勢(shì)較為明顯。特征貢獻(xiàn)隨公共服務(wù)POI核密度均值的增加總體呈現(xiàn)上漲趨勢(shì),商業(yè)服務(wù)POI均值的特征貢獻(xiàn)變化趨勢(shì)相對(duì)較緩。如圖4.2所示,夜間燈光輻亮度MEAN對(duì)特征的貢獻(xiàn)比較不同,總體上隨著特征值增加,特征貢獻(xiàn)是下降的。按地域分地段分析,夜間燈光輻亮度均值MEAN特征在模型的特征優(yōu)選過程中在住宅區(qū)是正向影響,在其他地段影響相反。這表明在一些公共設(shè)施和燈火通明的公路上,燈光強(qiáng)度并不能很好的代表人口聚集程度。圖4.2夜間燈光亮度MEAN特征貢獻(xiàn)圖4.3建筑物面積特征貢獻(xiàn)4.3本章小結(jié)本章探尋了人口分布估算模型的特征重要性和特定值的特征貢獻(xiàn)。首先介紹了特征重要性性地基礎(chǔ)理論和計(jì)算辦法,然后解釋分析了本次實(shí)驗(yàn)建立的人口分布估算模型的特征重要性,通過可視化觀察結(jié)果,得出鄭州市建筑物面積特征的重要性最高,達(dá)到了0.23,夜間燈光數(shù)據(jù)坡度MAX的特征重要性最低的結(jié)論。第二節(jié)簡要介紹了模型特征貢獻(xiàn)的基本理論和方法,進(jìn)一步分析了特征值方面的特征貢獻(xiàn),得到鄭州市建筑物面積隨著特征值的增大而總體增大,夜間燈光輻亮度MEAN隨特征值的增大而較小的結(jié)論并解釋了其原因。第五章結(jié)論與展望5.1研究結(jié)論本文運(yùn)用機(jī)器學(xué)習(xí)之中隨機(jī)森林算法和夜間燈光、POI等于人口分布息息相關(guān)的數(shù)據(jù)建立鄭州市人口分布估算模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電視劇拍攝協(xié)議書
- 文化娛樂產(chǎn)業(yè)的數(shù)字創(chuàng)意產(chǎn)業(yè)發(fā)展研究
- 金融業(yè)智能投顧與財(cái)富管理方案
- 跨國貿(mào)易平臺(tái)合作協(xié)議
- 公司內(nèi)部管理制度與流程操作指南手冊(cè)
- 環(huán)保行業(yè)循環(huán)經(jīng)濟(jì)智能管理方案
- 健康食品行業(yè)食品安全追溯系統(tǒng)升級(jí)方案
- 出版行業(yè)數(shù)字化出版與內(nèi)容管理系統(tǒng)方案
- 船舶行業(yè)智能化船舶與港口裝卸方案
- 印刷行業(yè)綠色印刷與數(shù)字化出版方案
- 《國有企業(yè)采購操作規(guī)范》【2023修訂版】
- 保密與信息安全培訓(xùn)
- 砂石料供應(yīng)、運(yùn)輸、售后服務(wù)方案-1
- 2022-2023學(xué)年江蘇省徐州市銅山區(qū)四校聯(lián)考五年級(jí)(上)期末科學(xué)試卷(人教版)
- 個(gè)體工商戶公司章程范本:免修版模板范本
- 2023四川測(cè)繪地理信息局直屬事業(yè)單位招考筆試參考題庫(共500題)答案詳解版
- 山東師范大學(xué)《古代文學(xué)專題(一)》期末復(fù)習(xí)題
- 【《“雙減”背景下小學(xué)數(shù)學(xué)創(chuàng)新作業(yè)設(shè)計(jì)問題研究》(論文)】
- 健康養(yǎng)生管理系統(tǒng)
- 口風(fēng)琴在小學(xué)音樂課堂中的運(yùn)用與實(shí)踐 論文
- 塑件模具驗(yàn)收?qǐng)?bào)告
評(píng)論
0/150
提交評(píng)論