基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究_第1頁(yè)
基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究_第2頁(yè)
基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究_第3頁(yè)
基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究_第4頁(yè)
基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)通信DataCommuincation基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究ResearchonUrbanizationTrendandPopulationForecastofChinaBasedonMachineLearningYaoShuwei,JiangDapeng,ChenLong,WangYue(ChinaUnicomSmartCityResearchInstitute,Beijing100048,China)摘要:機(jī)器學(xué)習(xí)廣泛應(yīng)用于NLP、數(shù)據(jù)挖掘、語(yǔ)音識(shí)別等領(lǐng)域。以國(guó)家統(tǒng)計(jì)局公示的城鄉(xiāng)人口及性別差異數(shù)據(jù)為數(shù)據(jù)集,分析中國(guó)近70年的人口城鎮(zhèn)化趨勢(shì)、男女人口數(shù)量及比例差異、人口增長(zhǎng)率變化,結(jié)合二次指數(shù)平滑法,建立時(shí)間序列人口預(yù)測(cè)數(shù)學(xué)模型,為預(yù)測(cè)模型構(gòu)建數(shù)據(jù)迭代器,并給出2022年全國(guó)人口總量的預(yù)測(cè)值。研究結(jié)果驗(yàn)證了建立的模型在預(yù)測(cè)人口總數(shù)方面的合理性。Abstract:關(guān)鍵詞:機(jī)器學(xué)習(xí);時(shí)間序列預(yù)測(cè);二次指數(shù)平滑法文章編號(hào):1007-3043(2023)02-0058-06開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):onurbanizaationKeywords:機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究[J].郵電設(shè)計(jì)技術(shù),2023(2):58-63.0前言黨的十八大以來(lái),以人為本的新型城鎮(zhèn)化進(jìn)程不斷推進(jìn),中國(guó)根據(jù)自身國(guó)情探索出了一條具有中國(guó)特色的城鎮(zhèn)化發(fā)展道路。2013年戶籍人口城鎮(zhèn)化率只率更是達(dá)到64.72%。城鎮(zhèn)化是國(guó)家和地區(qū)現(xiàn)代化的重要標(biāo)志,人口性別結(jié)構(gòu)的均衡發(fā)展則是人口城鎮(zhèn)化協(xié)調(diào)發(fā)展的重要保障。二次指數(shù)平滑法[1]在指數(shù)平滑的基礎(chǔ)之上,擴(kuò)展收稿日期:2023-01-10了對(duì)以時(shí)間為單一變量序列趨勢(shì)的支持。結(jié)合中國(guó)近70年的城鄉(xiāng)人口數(shù)據(jù),本文分析了中國(guó)近70年城鎮(zhèn)化人口特征、城鎮(zhèn)化過(guò)程中男女人口數(shù)量及比例差異、人口增長(zhǎng)變化等情況,對(duì)一次指數(shù)平滑值再做一次指數(shù)平滑操作,建立人口預(yù)測(cè)數(shù)學(xué)模型,給出2022年中國(guó)人口總數(shù)的預(yù)測(cè)值。該預(yù)測(cè)值是基于近70年的歷史城鎮(zhèn)人口數(shù)據(jù)的加權(quán)平均,各參數(shù)值計(jì)算過(guò)程性較強(qiáng)。1機(jī)器學(xué)習(xí)算法基于時(shí)間序列對(duì)未來(lái)觀測(cè)值進(jìn)行預(yù)測(cè),常見(jiàn)的算法有Arima算法和HoltWinters算法[2]。時(shí)間序列是隨582023/02/DTPT基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究數(shù)據(jù)通信DataCommuincation著自變量時(shí)間不斷變化而變化的數(shù)據(jù)序列,本文中時(shí)間序列就是近70年城鎮(zhèn)人口數(shù)據(jù)序列。Arima算法在做時(shí)間序列研究時(shí)需要從數(shù)據(jù)集中找到數(shù)據(jù)的季節(jié)性、趨勢(shì)性規(guī)律,更多地用于需求預(yù)測(cè)分析和業(yè)務(wù)場(chǎng)景規(guī)劃。HoltWinters算法對(duì)具有線性趨勢(shì)以及對(duì)數(shù)據(jù)范圍周期波動(dòng)的時(shí)間序列有很好的適應(yīng)性。一次指數(shù)平滑法可以用于沒(méi)有季節(jié)性和趨勢(shì)性特點(diǎn)的數(shù)據(jù)序列,二次指數(shù)平滑法可以用于有趨勢(shì)但是缺少季節(jié)性特征的數(shù)據(jù)序列。針對(duì)中國(guó)人口城鎮(zhèn)化趨勢(shì)的分析,一次指數(shù)平滑法和二次指數(shù)平滑法的共同特點(diǎn)是都擁有加權(quán)因子,不同的地方是二次指數(shù)平滑法需要對(duì)一次平滑值再做平滑,二次指數(shù)平滑法在一次指數(shù)平滑法的算法模型基礎(chǔ)上添加了時(shí)間趨勢(shì)量。預(yù)測(cè)值是觀測(cè)值的加權(quán)平均,可以利用便于調(diào)節(jié)的參數(shù)控制歷史人口數(shù)據(jù)和當(dāng)前階段數(shù)據(jù)的權(quán)重,權(quán)重的分配原則是新數(shù)據(jù)的權(quán)重大于舊數(shù)據(jù)的權(quán)重,適用于城鎮(zhèn)化趨勢(shì)分析這種帶有線性趨勢(shì)的序列。在給出二次指數(shù)平滑法公式之前,先分析一下指數(shù)平滑法的遞推公式。ststxt(1)式中:st?1——第t?1時(shí)間的預(yù)測(cè)值xt——第t期的一次平滑值一次指數(shù)平滑對(duì)觀測(cè)值進(jìn)行預(yù)測(cè)的公式為:sixip(2)式中:p——自變量統(tǒng)計(jì)時(shí)間步長(zhǎng) 式中:bt?1——時(shí)間趨勢(shì)統(tǒng)計(jì)量 式中:β——趨勢(shì)平滑常數(shù)二次指數(shù)平滑法對(duì)觀測(cè)值進(jìn)行預(yù)測(cè)的公式為:si+p=st+p×bt(5)二次指數(shù)平滑法保留了趨勢(shì)和平滑信息,可以在人口城鎮(zhèn)化趨勢(shì)分析的基礎(chǔ)上實(shí)現(xiàn)對(duì)2022年總?cè)丝诘念A(yù)測(cè)。預(yù)測(cè)公式為:Rt+T=mt+ntT(6)式中:Rt+T——第t+T期的預(yù)測(cè)值mt——趨勢(shì)方程截距nt——趨勢(shì)方程斜率T——時(shí)間t到具體預(yù)測(cè)期的時(shí)間跨度基于二次指數(shù)平滑法進(jìn)行預(yù)測(cè)的流程如圖1所示。平滑初值確定數(shù)據(jù)收集預(yù)處理構(gòu)建模型平滑初值確定數(shù)據(jù)收集預(yù)處理構(gòu)建模型選取平滑常數(shù)預(yù)測(cè)值比較分析比較分析2數(shù)據(jù)準(zhǔn)備2.1數(shù)據(jù)說(shuō)明數(shù)據(jù)集收集自國(guó)家統(tǒng)計(jì)局官方網(wǎng)站公布的中國(guó)城鄉(xiāng)人口數(shù)據(jù),共計(jì)73條數(shù)據(jù),包括年末總?cè)丝跀?shù)、男性人口數(shù)、女性人口數(shù)、城鎮(zhèn)人口數(shù)和鄉(xiāng)村國(guó)人口特征(單位:萬(wàn)人)年份年末總?cè)丝谀行匀丝谂匀丝诔擎?zhèn)人口鄉(xiāng)村人口2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)集的數(shù)據(jù)缺失和數(shù)據(jù)類型檢查以及數(shù)據(jù)不一致性檢查,異常數(shù)據(jù)不利于后期的預(yù)測(cè)模型建立,也會(huì)影響預(yù)測(cè)結(jié)果的穩(wěn)定性,導(dǎo)致分析結(jié)果出現(xiàn)偏差。2.2.1列名替換和排序數(shù)據(jù)集中的特征名稱為中文命名,而且過(guò)于冗郵電設(shè)計(jì)技術(shù)/2023/0259數(shù)據(jù)通信DataCommuincation基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究長(zhǎng)。為了方便數(shù)據(jù)處理和結(jié)果查看,對(duì)數(shù)據(jù)列名進(jìn)行替換,替換后的數(shù)據(jù)集按照年份升序排列,如表2所示。al2.2.2數(shù)據(jù)缺失和數(shù)據(jù)類型檢查數(shù)據(jù)缺失指的是數(shù)據(jù)集中某些特征屬性的值是不完整的,數(shù)據(jù)類型檢查主要是針對(duì)數(shù)據(jù)集的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)進(jìn)行檢查。機(jī)器學(xué)習(xí)分析模型使用結(jié)構(gòu)化數(shù)據(jù)更易于做數(shù)據(jù)分析,如果數(shù)據(jù)集中存在非結(jié)構(gòu)化數(shù)據(jù),需要將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。機(jī)器學(xué)習(xí)中預(yù)處理階段關(guān)于數(shù)據(jù)缺失的處理方法主要包括刪除存在缺失值的行或者列、補(bǔ)全缺失值和使用合適的算法或者工具包對(duì)已知存在數(shù)據(jù)缺失的數(shù)據(jù)集進(jìn)行建模。鑒于本文所使用的數(shù)據(jù)集的規(guī)模以及利用二次指數(shù)平滑法做預(yù)測(cè)分析時(shí)對(duì)數(shù)據(jù)趨勢(shì)連續(xù)性的要求,如果檢查發(fā)現(xiàn)數(shù)據(jù)集存在數(shù)據(jù)缺失的情況,采用人工補(bǔ)全缺失值的辦法進(jìn)行處理。這一階段針對(duì)數(shù)據(jù)缺失和數(shù)據(jù)類型檢查的結(jié)果如圖2所示。ural73non-nullint6473non-nullint6473non-nullint6473non-nullint6473non-nullint6473non-nullint64圖2數(shù)據(jù)缺失和數(shù)據(jù)類型檢查結(jié)果從檢查結(jié)果可知,本文使用的數(shù)據(jù)集中不存在數(shù)據(jù)丟失和數(shù)據(jù)類型異常的問(wèn)題,所有特征數(shù)據(jù)類型為2.2.3數(shù)據(jù)不一致性檢查數(shù)據(jù)不一致性檢查主要是檢查數(shù)據(jù)是否存在矛盾、不相容的情況。根據(jù)本文使用的數(shù)據(jù)集的特征,預(yù)處理階段的數(shù)據(jù)不一致性檢查著重關(guān)注城鎮(zhèn)人口和鄉(xiāng)村人口、男性人口和女性人口這2組數(shù)據(jù)與總?cè)丝诘膶?duì)應(yīng)關(guān)系。男性人口和女性人口與總?cè)丝诘膶?duì)應(yīng)關(guān)系檢查人口與女性人口之和不等于當(dāng)年總?cè)丝跀?shù)量,對(duì)這條數(shù)據(jù)進(jìn)行修正。表3男女人口與總?cè)丝趯?duì)應(yīng)關(guān)系不一致性檢查(單位:萬(wàn)人)al同樣,需要檢查城鎮(zhèn)人口和鄉(xiāng)村人口與總?cè)丝诘膶?duì)應(yīng)關(guān)系,檢查結(jié)果顯示數(shù)據(jù)集中城鄉(xiāng)人口的對(duì)應(yīng)關(guān)byterritoryformatsumdftotaldfurban-df[′rural′])))圖3城鄉(xiāng)人口與總?cè)丝趯?duì)應(yīng)關(guān)系不一致性檢查結(jié)果3數(shù)據(jù)分析3.1人口特征分析以可以在同一張圖上展示這4個(gè)特征隨自變量時(shí)間的4所示。結(jié)合圖4可以得出以下結(jié)論。a)在所有觀察期內(nèi),男性人口均多于女性人口,但兩者之間的數(shù)量差異在2018年前后出現(xiàn)轉(zhuǎn)折,男女人口差距在不斷縮小。村人口相應(yīng)減少。達(dá)到平衡狀態(tài),居住在城鎮(zhèn)地區(qū)的人口成為中國(guó)的主要人口,這也印證了人口城鎮(zhèn)化是國(guó)家經(jīng)濟(jì)增長(zhǎng)、社會(huì)文明發(fā)展的必然階段。3.2男女人口數(shù)量差異及增長(zhǎng)率差異百分比分析男女人口增長(zhǎng)率差異百分比代表的是當(dāng)年男女100%。該值可以用來(lái)描述男女人口增速差異,從性別分析人口的變化,具體情況如圖5所示。結(jié)合圖5可以得知,雖然目前男性人口的數(shù)量仍然高于女性,但是在總體趨勢(shì)上兩者的增長(zhǎng)率差異百分比卻在下降。在2018年前后男女人口增長(zhǎng)率差異百分比出現(xiàn)下降拐點(diǎn),表明男女人口之間的數(shù)量差異602023/02/DTPT基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究數(shù)據(jù)通信DataCommuincation人口/萬(wàn)男男性人口女性人口城鎮(zhèn)人口鄉(xiāng)村人口020102020年份圖4中國(guó)近70年城鎮(zhèn)化人口特征數(shù)量差異/萬(wàn)數(shù)量差異/萬(wàn)年份圖5男女人口數(shù)量差異及增長(zhǎng)率差異百分比在不斷縮小,也進(jìn)一步印證了隨著國(guó)家經(jīng)濟(jì)的發(fā)展、社會(huì)養(yǎng)老制度的不斷完善,女性社會(huì)地位顯著提高,適齡婚育人群認(rèn)識(shí)到“養(yǎng)兒養(yǎng)女同等重要”。3.3人口增長(zhǎng)率分析人口增長(zhǎng)率(人口增長(zhǎng)速度)反應(yīng)的是固定期限內(nèi)因?yàn)檫w移或者自然變動(dòng)而引起的人口增長(zhǎng)變化的利率。人口增長(zhǎng)率的計(jì)算公式為:式中:e——年末人口數(shù)s——年初人口數(shù)a——年平均人口中國(guó)近70年人口增量變化情況如圖6所示。經(jīng)過(guò)上述一系列對(duì)中國(guó)人口動(dòng)態(tài)的數(shù)據(jù)分析,發(fā)現(xiàn)自1970年以來(lái),人口增長(zhǎng)率逐漸下降,目前人口總量趨于穩(wěn)定。鄉(xiāng)村生活方式向城市生活方式的急劇變遷,人口總數(shù)/萬(wàn)人口增量人口總數(shù)/萬(wàn)人口增1000年份圖6人口增長(zhǎng)變化使人口素質(zhì)得到有效提升,生育觀念也在悄然改變,人口城鎮(zhèn)化過(guò)程在一定程度上有效限制了人口增長(zhǎng)率。男女比例失衡的局面可能是由部分地區(qū)生育意放了生育政策,民眾的思想觀念也在發(fā)生轉(zhuǎn)變,相信可以在一定程度上緩解當(dāng)前男女性別比例失衡的狀況。4時(shí)間序列預(yù)測(cè)4.1模型建立時(shí)間序列預(yù)測(cè)[3]是一種運(yùn)用歷史時(shí)間序列數(shù)據(jù)進(jìn)行定量預(yù)測(cè)和統(tǒng)計(jì)分析的回歸預(yù)測(cè)方法,該方法基于事物發(fā)展的延續(xù)性推測(cè)其未來(lái)發(fā)展趨勢(shì)。很明顯本文的數(shù)據(jù)沒(méi)有季節(jié)性,只能使用歷史人口數(shù)據(jù)和人口城鎮(zhèn)化主要趨勢(shì)。因此,可以利用簡(jiǎn)單的方法,即二次指數(shù)平滑來(lái)進(jìn)行時(shí)間序列預(yù)測(cè),給出2022年中國(guó)人口總數(shù)預(yù)測(cè)值。郵電設(shè)計(jì)技術(shù)/2023/0261數(shù)據(jù)通信DataCommuincation基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究構(gòu)建的預(yù)測(cè)模型可以用下面2個(gè)公式表示:式中:s——時(shí)間序列最后一期的一次平滑值s——時(shí)間序列最后一期的二次平滑值將求得的mt和nt代入式(6)即可以計(jì)算出2022年中國(guó)人口總數(shù)的預(yù)測(cè)值。代碼實(shí)現(xiàn)二次指數(shù)平滑法,并創(chuàng)建迭代器用于模型參數(shù)遍歷,具體如圖7所示。為了尋找到平均絕對(duì)誤差最小值對(duì)應(yīng)的平滑常數(shù)和趨勢(shì)平滑常數(shù),步長(zhǎng)從最大值0.1開(kāi)始。用熱力圖展現(xiàn)迭代器的輸出結(jié)果,查找最小值過(guò)程的迭代器輸出如圖8所示。算法中的返回一系列預(yù)測(cè)值或者在平均絕對(duì)誤差內(nèi)的匹配值,uealphabeta值分別為0.5和0.9,取最小值附近的值再次平滑,輸出結(jié)果如圖9所示。二次平滑后程序輸出的最小值為1226.9528,對(duì)4.2人口總數(shù)預(yù)測(cè)預(yù)測(cè)模型所需的參數(shù)都已經(jīng)確定,將4個(gè)參數(shù)代入算法模型中,得到真實(shí)值和預(yù)測(cè)值2條曲線。觀察原始數(shù)據(jù)和預(yù)測(cè)值,分析2022年中國(guó)人口總數(shù)預(yù)測(cè)的ifn1:ifn≥len(endog):1)#運(yùn)用公式(4)trend=beta×(level-last_level)+(1-beta)×trend#運(yùn)用公式(5),運(yùn)用公式(5),自變量統(tǒng)計(jì)時(shí)間步長(zhǎng)一般取1圖7二次指數(shù)平滑法迭代器合理性。預(yù)測(cè)值和原始數(shù)據(jù)的變化曲線如圖10所示。根據(jù)圖10中原始值和預(yù)測(cè)值的趨勢(shì)關(guān)系可知,構(gòu)建的模型在描述數(shù)據(jù)趨勢(shì)進(jìn)度變化方面效率適中。自2005年以來(lái),預(yù)測(cè)所需的指標(biāo)較前幾個(gè)時(shí)期有所改為結(jié)合二次指數(shù)平滑法給出的2022年中國(guó)人口總數(shù)的預(yù)測(cè)值是合理的,預(yù)測(cè)所得2022年中國(guó)的人口總數(shù)5結(jié)束語(yǔ)人口城鎮(zhèn)化是社會(huì)發(fā)展的必要趨勢(shì),在這個(gè)過(guò)程中要注意男女性別比例差異,采取有效措施控制男女比例失衡的局面。同時(shí),需要關(guān)注人口增長(zhǎng)率降低帶 30.8圖8第1次平滑622023/02/DTPT基于機(jī)器學(xué)習(xí)的中國(guó)人口城鎮(zhèn)化趨勢(shì)及人口預(yù)測(cè)研究數(shù)據(jù)通信DataCommuincationo870.880.890.9

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論