數據分析算法與模型一附答案_第1頁
數據分析算法與模型一附答案_第2頁
數據分析算法與模型一附答案_第3頁
數據分析算法與模型一附答案_第4頁
數據分析算法與模型一附答案_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據分析算法與模型模擬題(一)一、計算題(共4題,100分)1、影響中國人口自然增長率的因素有很多,據分析主要因素可能有:(1)從宏觀經濟上看,經濟整體增長是人口自然增長的基本源泉;(2)居民消費水平,它的高低可能會間接影響人口增長率。(3)文化程度,由于教育年限的高低,相應會轉變人的傳統(tǒng)觀念,可能會間接影響人口自然增長率(4)人口分布,非農業(yè)與農業(yè)人口的比率也會對人口增長率有相應的影響。為了全面反映中國“人口自然增長率”的全貌,選擇人口增長率作為被解釋變量,以反映中國人口的增長;選擇“國名收入”及“人均GDP作為經濟整體增長的代表;選擇“居民消費價格指數增長率”作為居民消費水平的代表。暫不考

2、慮文化程度及人口分布的影響。從中國統(tǒng)計年鑒收集到以下數據(見表1):表1中國人口增長率及相關數據生松人口自然增1長率國民總收入居民消費價格指數土銖人均GDP干傷(%)(億元)率(CPI)%(元)198815.731503718.81366198915.0417001181519199014.39187183.11644199112.98218263.41893199211.6269376.42311199311.453526014.72998199411.21481082455598111742701428.35846199710.06780

3、612.8642019989.1483024-0.8679619998.1888479-1.4715920007.58980000.4785820016.951080680.7862220026.45119096-0.8939820036.011351741.21054220045.871595873.91233620055.891840891.81404020065.382131321.516024設定的線性回歸模型為:巴T法1多元線性回歸.xlsx(1)求出模型中的各個參數,試從多個角度評價此線性回歸模型,并檢驗模型的經濟意義;(2)檢驗模型中是否存在多重共線性問題(逐步回歸),若有,試消

4、除多重共線性。解:(1)首先進行數據預處理,數據經檢查,無缺失值,接著將數據導入dataHoop平臺中,進行異常值檢驗等分析,數據基本正常,但是數據存在多重共線性,多重共線性將在第二問中詳述。然后對數據進行多元線性回歸擬合,以人口自然增長率(Y)作為因變量,國民總收入(X1)、居民消費價格指數增長率(X2)和人均GDPX3)作為自變量,得到擬合結果為:Y=14.7236+0.0003X1+0.0644X2-0.0052X3調整R方為0.8831,F檢驗的p值為0,(常數項)t檢驗的p值為0,國民總收入t檢驗的p值為0.0427,居民消費價格指數增長率t檢驗的p值為0.1359,人均GDPt檢驗

5、的p值為0.0243。該模型解釋為在其他變量不變的情況下,國民收入每增長1億元,則人口增長率隨之增長0.0003%;在其他變量不變的情況下,居民消費價格指數增長率每增長1%則人口增長率隨之增長0.0644%;在其他變量不變的情況下,人均GDP®增長1元,則人口增長率隨之降低0.0052%。居民消費價格指數增長率CPI與人口增長率呈正增長與現(xiàn)實情況不符,說明模型反映出的統(tǒng)計學意義與實際情況不完全相符,可能是因為自變量之間存在共線性。(2)發(fā)現(xiàn)國民收入與人均GDPffi關系數高達0.9996,兩個變量間極高度相關,因此得到回歸方程存在多重共線性。變量間的多重共性對基于最小二乘法的回歸模型

6、模擬結果有非常嚴重的影響,導致回歸結果不準確。采用“逐步回歸法”對模型進行優(yōu)化消除變量間的多重共線性。分別對單個變量進行分析:國民總收入(X1):h結里推述1算法參數噪翌型檢范(常數項)1353250.0000國民思收入億兀.-0.00010.0000昉調整昉p值什檢胺)居民消費價格指數增長率(X2):分析倒1算法萋蜀幽及椅驍素數P值(t*洋敵狗753920.0000房妄消要松留言數情快點CPL0.26590.0036昉調整R方響F檢驗)0.40100.365800036人均GDPX3):分析圖算法教模矍及檢跑席數項)13,82060.0000人均GDP元.-0.00070.0000R方強整昉

7、p囿F檢裝)通過對比,X3的調整R方更高,且均通過檢驗,所以采用X3為基礎變量;人均GDPX3)和國民總收入(X1):4制(常數項)15.74180.0000國民總收入,1Z元.0.00040.0307人均GDP.元-0.00580.01621R萬調整R方3自任椅腳)1(L3722fl.OOOO人均GDPX3)和居民消費價格指數增長率(X2):k用去冬救堂型及松獨系數P值。樓裝)(:常數歷)1281210X000人均GDP.元.0.00060.0000居民消身份招用散值長壽CPL+0.07800AO29居民;謂價格指激增長窣TPL0.07800A029R方鞫差R方p囿F檢迎10.8707085

8、460.0000顯然X1和X3的組合的調整R方更大,且均通過了檢驗算法參數人均GDPX3)、國民總收入(X1)和居民消費價格指數增長率(X2):系數p值1472360.0000國民總收入.億元0.00030,0427居民消費飾格指數增長率CPL0,06440.1359算法參數分析圖槨型及檢驗結果描述分析圖捶型及能長奉CPL人均GDP,元-0,005200243RJj調整R方P值(F檢驗)0.90260.8831QOOOO當加入X2后,雖然調整R方有了一定的增加,但是X2的假設檢驗并沒有通過,所以采用X1和X3兩個變量的方程。方程為:Y=15.7418+0.0004X1-0.0058X32、對近

9、期上映的10部電影進行調查研究,抽取290人對這10部電影的評分(分值010分),結果如下表所示。(1)根據表中數據對這10部電影的評分進行因子分析,并解析各個因子的含義;(2)可否利用電影的評分數據對這290名觀影者進行聚類分析?給出你的理由。雷法2因子分析.xlsx解:(1)首先計算所有變量的相關系數矩陣,從結果可以看出,大部分的相關系數均大于0.3,所以,此數據適合做因子分析。按因子為4個進行分析,結果得到第四個因子比例僅占比3流右,所以該數據隱含因子設定為3個。國子貢等專F_172F.3市常率0,的600.281S0尸5260.0372安才壺制史034600,62750.8801091

10、73載荷矩陣如下:F_1J2F_3諜影重重打0.8332-0.26-0.255功夫熊弱?一0.5404-0.1221|0.7553北京遇上工-0.06170B97?-0.2828倫敦陷落0.7916-0-42B6-0.2032瘋狂動物布-0.0003-0.32030.8804血戰(zhàn)鋼鋸也0.8986-0.2969F0345大魚海棠-0.2067-0.11960.9318七月與安3-0.444508445-0.0993湄公河行用0.9433一。.072-0.1543六弄咖啡隹-0.32060.8739-0.2233所以,容易看出,第一因子為動作片,第二因子為愛情片,第三因子為動畫片。(2)同觀眾可

11、能會偏好不同類型的電影,體現(xiàn)在對不同類型電影的評分不同。因此可以利用電影評分數據對觀眾進行聚類分析。3、某超市為了優(yōu)化商品擺放結構,對近期顧客購買的商品類型進行了統(tǒng)計,如附表所小。(1)寫出所有有效強關聯(lián)規(guī)則(minsupport=10%,minconfidence=50%);(2)結合實際情況分析顧客喜歡的商品搭配,并對該超市提出合理的建議。匕依法3關聯(lián)分析.xlsx(1)支持度大于1的均為有效強關聯(lián)規(guī)則。數據無缺失值,幾個變量(商品)的值為T/F,在DATEHOOP關聯(lián)分析中可被識別,故直接將數據導入datehoop對變量果蔬、鮮肉、奶制品、蔬菜制品、肉制品、冷凍食品、啤酒、紅酒、軟飲料、

12、魚類、糖果進行關聯(lián)分析。設置最小支持度為0.1、最小置信度為0.5,得到的強關聯(lián)規(guī)則中提升度大于1的有效強關聯(lián)規(guī)則如下所示:冷凍食品->蔬菜制品,蔬菜制品->冷凍食品,啤酒->冷凍食品,冷凍食品->啤酒,啤酒->蔬菜制品,蔬菜制品->啤酒,鮮肉->紅酒,紅酒->鮮肉,冷凍食品,啤酒->蔬菜制品,蔬菜制品,啤酒->冷凍食品,蔬菜制品,冷凍食品->啤酒支持度排電項目1項目2支持度署信度接升度1冷凍食品-蜓t;木菜制品0.1730.57281.89062磕菜制品Tcgt;【冷凍食品CL1730.5711.89063腳酒Tgt,冷凍食品

13、0.170.53021.9212屯冷凍食品-我呂t;啤酒0.170,56291.92125啤酒一蔬菜制品0.1670.571,S8116蔬菜制品Ygt;【噂酒】0.1670.55121.881110紅酒814i0.52171.817911圖酒一把gt;鮮肉00.1440.50171.81797冷凍食品啤酒】Tgt;林菜制on0.1460.85882.8344:8蔬菜制品啤酒at;冷凍食品0.1460.07432.3949g蔬菜制品冷凍食品-ast;啤酒10.146Q,S4322.3803(2)由(1)可見,蔬菜制品、冷凍食品、啤酒之前存在較高的關聯(lián)性,故建議將三類商品陳列區(qū)域互相臨近;另,紅酒

14、與鮮肉之前存在較高的關聯(lián)性,故建議將兩類商品陳列區(qū)域互相臨近。4、某市為調查駕駛員視力情況(“1”表示視力正常,“0”表示有視力缺陷)、年齡、是否有駕駛教育經歷(“1”表示有,“0”表示沒有),這三個因素對是否曾引起交通事故(“1”表示發(fā)生過,“0”表示未發(fā)生過)的影響,隨機抽樣調查了45名駕駛員,得到數據如下:(1)建立模型分析駕駛員視力情況、年齡、是否有駕駛教育經歷對是否曾引起交通事故的影響,寫出詳細的思路過程。(2)若要應用此模型預測某批駕駛員中可能會引起過交通事故的人都有哪些,則還需要進行的研究步驟有哪些?請說明。算法4邏輯回歸.xlsx(1)數據類型是數值型的不需要數值化,而且不存在

15、缺失值。邏輯回歸要考慮異常值的影響,以及變量是否存在共線性,因此我們進行異常值分析和相關性分析。異常值分析發(fā)現(xiàn)異常值較多,猜測可能是分類的影響,因此不做處理。由相關矩陣可看出變量之間雖然也有相關,但不是很強,因此可以進行邏輯回歸。以accident為因變量,視力狀況、age、drive為自變量進行邏輯回歸分析,分析結果如下:a里/三小果等迷性絲馱植驗Intercept視力狀況鄧drive1-OJOBL9-0.7412D.03ZO-1.4972ArnjrflryAIKI弄注咨教PrfjfM(wRecallFlSuppOfl00.7826o.as7io.aia221PrecisionRefillFlscoreSupportI0Q78260.85710.01322110.36

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論