數(shù)據(jù)分析算法及模型模擬題三附答案_第1頁(yè)
數(shù)據(jù)分析算法及模型模擬題三附答案_第2頁(yè)
數(shù)據(jù)分析算法及模型模擬題三附答案_第3頁(yè)
數(shù)據(jù)分析算法及模型模擬題三附答案_第4頁(yè)
數(shù)據(jù)分析算法及模型模擬題三附答案_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、-. z.一、計(jì)算題共4題,100分1、通過(guò)分析關(guān)于二手車(chē)的相關(guān)變量,研究這些變量怎么影響二手車(chē)的交易價(jià)格。二手車(chē)抽樣 - 預(yù)處理.csv收集的數(shù)據(jù)包含:變量名代表含義數(shù)據(jù)類(lèi)型備注yuanjia原價(jià)連續(xù)變量汽車(chē)原價(jià)baojia報(bào)價(jià)連續(xù)變量汽車(chē)報(bào)價(jià)licheng里程連續(xù)變量累計(jì)里程數(shù)單位:萬(wàn)公里pailiang排量.L.連續(xù)變量發(fā)動(dòng)機(jī)單位時(shí)間內(nèi)釋放的能量mali最大馬力.Ps.連續(xù)變量最大動(dòng)力輸出changshang廠商離散變量十一分類(lèi)排名前十的廠商分別用1-10表示,以及前十以外的其他水平cheshen_type車(chē)身構(gòu)造-車(chē)類(lèi)型離散變量四分類(lèi)SUV、兩廂、三廂、MPVpengzhuang排除重

2、大碰撞離散變量排除重大碰撞0&存在重大碰撞1waiguan_*iufu外觀修復(fù)檢查離散變量排除外觀修復(fù)0&存在外觀修復(fù)1waiguan_que*ian外觀缺陷檢查離散變量排除外觀缺陷0&存在外觀缺陷1neishi_que*ian內(nèi)飾缺陷檢查離散變量排除內(nèi)飾缺陷0&存在內(nèi)飾缺陷1shangpaishijian上牌時(shí)間連續(xù)變量與2017年2月之間的時(shí)間差單位:月對(duì)數(shù)據(jù)進(jìn)展預(yù)處理,分析應(yīng)采用的模型,寫(xiě)出詳細(xì)的思路和數(shù)據(jù)分析過(guò)程,用多種方法檢驗(yàn)和解釋模型,說(shuō)明模型的實(shí)際意義。答案解析:因變量采用車(chē)輛報(bào)價(jià)數(shù)據(jù),自變量選擇除車(chē)輛報(bào)價(jià)數(shù)據(jù)之外的其他變量,進(jìn)展線性回歸分析可以看到刪除了三個(gè)變量,R方和調(diào)整R方

3、都接近1,模型擬合度很好。由于自變量中真皮座椅、外觀缺陷、車(chē)身類(lèi)型未通過(guò)t檢驗(yàn),因此需要將這三個(gè)變量刪除后再做線性回歸分析,可得:模型擬合效果很好,且通過(guò)了F檢驗(yàn)和t檢驗(yàn),常數(shù)項(xiàng)的t檢驗(yàn)可以不通過(guò)可以根據(jù)此模型對(duì)二手車(chē)進(jìn)展價(jià)格評(píng)估2、利用Apriori算法,寫(xiě)出以下購(gòu)物籃數(shù)據(jù)的頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則設(shè)定支持度為2,置信度為0.7假設(shè)此購(gòu)物籃數(shù)據(jù)為*超市隨機(jī)選取的7位顧客的交易數(shù)據(jù),請(qǐng)結(jié)合之前得到的結(jié)果為該超市提一些建議。答案解析:先將給定的數(shù)據(jù)整理成datahoop關(guān)聯(lián)分析可識(shí)別的格式,導(dǎo)入datahoop平臺(tái),對(duì)變量牛肉、雞肉、牛奶、奶酪、靴子、衣服進(jìn)展關(guān)聯(lián)分析。設(shè)置最小支持度為2/7=0.2

4、86,最小置信度為0,可以得到頻繁項(xiàng)集刪除重復(fù)。設(shè)置最小支持?jǐn)?shù)為2/7=0.286、最小置信度=0.7,可以得到提升度1的有效強(qiáng)關(guān)聯(lián)規(guī)則刪除單項(xiàng)解答:首先對(duì)原數(shù)據(jù)進(jìn)展預(yù)處理至然后再處理至導(dǎo)入datahoop平臺(tái),設(shè)置支持度為0.286,置信度為0刪除重復(fù)項(xiàng)一項(xiàng)頻繁項(xiàng)集:e、a、d、b、c二項(xiàng)頻繁項(xiàng)集:a,e、d,e、b,e再將支持度和置信度的值分別設(shè)置成0.286和0.7,導(dǎo)入datahoop平臺(tái)二項(xiàng)的有效強(qiáng)關(guān)聯(lián)規(guī)則:aee ad eb e三項(xiàng)的強(qiáng)關(guān)聯(lián)規(guī)則:a,d e(d,e) a(a,b) e從上面數(shù)據(jù)可以看出牛肉和雞肉等肉食產(chǎn)品可以放在一起,方便客戶選擇,牛奶和奶酪則要放在附近的走道旁,讓

5、需要的顧客更方便拿取3、以下數(shù)據(jù)是31個(gè)省市各行業(yè)的工資情況,各行業(yè)工資難免相關(guān),因此,請(qǐng)先進(jìn)展降維處理再進(jìn)展聚類(lèi)分析。降維、聚類(lèi).*ls答案解析:分析數(shù)據(jù)發(fā)現(xiàn)無(wú)缺失值,且不需要進(jìn)展其他處理。本案例采用k-means算法進(jìn)展聚類(lèi),因此還需考慮異常值和共線性。由于數(shù)據(jù)量太少,單獨(dú)一個(gè)數(shù)據(jù)也可能是一個(gè)特殊的類(lèi),因此這里不做異常值處理。由相關(guān)系數(shù)矩陣分析發(fā)現(xiàn)變量之間存在共線性,所以不能直接進(jìn)展聚類(lèi),接下來(lái)用主成分分析對(duì)變量進(jìn)展降維處理。設(shè)置主成分個(gè)數(shù)為2時(shí)發(fā)現(xiàn)累計(jì)奉獻(xiàn)率為0.9557,效果很好,可以用PC1和PC2進(jìn)展聚類(lèi)分析。這里PC1和PC2是由標(biāo)準(zhǔn)化后的變量求得的,很小,且沒(méi)有量綱差距,所以聚

6、類(lèi)分析時(shí)不再進(jìn)展標(biāo)準(zhǔn)化。接下來(lái)用k-means算法對(duì)PC1和PC2進(jìn)展聚類(lèi)分析,分別選3,4,5個(gè)類(lèi)別進(jìn)展聚類(lèi),發(fā)現(xiàn)聚成三類(lèi)時(shí)效果最好。解答:先將數(shù)據(jù)導(dǎo)入datahoop平臺(tái),進(jìn)展降維處理得出的奉獻(xiàn)率和累計(jì)奉獻(xiàn)率值均在0至1之間將數(shù)據(jù)進(jìn)展聚類(lèi)分析因?yàn)橹耙堰M(jìn)展降維處理所以不再進(jìn)展標(biāo)準(zhǔn)化,設(shè)置聚類(lèi)個(gè)數(shù)為3,初始中心點(diǎn)選擇次數(shù)為10,最大迭代次數(shù)為300, 樣本個(gè)數(shù)依次為 LINK E*cel.SheetBinaryMacroEnabled.12 C:UsersAdministratorDownloadse*port (4).csv e*port (4)!R9C22:R11C22 a f 5 h

7、* MERGEFORMAT 2452再將聚類(lèi)個(gè)數(shù)設(shè)置成4,其他數(shù)值不變樣本個(gè)數(shù)為 LINK E*cel.SheetBinaryMacroEnabled.12 C:UsersAdministratorDownloadse*port (5).csv e*port (5)!R9C22:R12C22 a f 5 h * MERGEFORMAT 22261可以看出樣本存在不均衡因此聚類(lèi)分為3類(lèi)時(shí)分類(lèi)效果最好4、為了研究影響泰坦尼克號(hào)生還與否的影響因素有哪些,收集如下數(shù)據(jù):train.csvtrain-原始.csv收集變量包括:PassengerId,Survived,Pclass,Se*,Age,Sib

8、Sp,Parch,Ticket,F(xiàn)are,Cabin,EmbarkedPassengerId = 乘客IDSurvived = 是否生還Pclass = 乘客等級(jí)(1/2/3等艙位)Name = 乘客*Se* = 性別Age = 年齡SibSp = 堂兄弟/妹個(gè)數(shù)Parch = 父母與小孩個(gè)數(shù)Ticket = 船票信息Fare = 票價(jià)Cabin = 客艙Embarked = 登船港口對(duì)收集進(jìn)展預(yù)處理,選擇適當(dāng)?shù)乃惴ㄟM(jìn)展分析,并評(píng)價(jià)和解釋模型,要求寫(xiě)出具體的思路過(guò)程。答案解析:本次分析選取變量包括:Survived= 是否生還、Pclass = 乘客等級(jí)(1/2/3等艙位)、Se* = 性別、Age = 年齡、SibSp = 堂兄弟/妹個(gè)數(shù)、Parch = 父母與小孩個(gè)數(shù)、Fare = 票價(jià)本案例研究以上選取的變量對(duì)于乘客是否獲救的影響。通過(guò)原始數(shù)據(jù)截圖可以看到,性別屬于定性的變量,因此對(duì)此進(jìn)展研究需要對(duì)這些變量進(jìn)展前期數(shù)值轉(zhuǎn)換。本次處理把性別進(jìn)展0和1處理,female女轉(zhuǎn)換成0,male男轉(zhuǎn)換成1。本案例選取的變量中,年齡Age存在缺失值,因此對(duì)于年齡的缺失值需要進(jìn)展處理,本次對(duì)年齡的缺失值用所有年齡數(shù)據(jù)的平均值進(jìn)展填充。原始數(shù)據(jù)中不存在類(lèi)別不均衡的問(wèn)題,為了進(jìn)展分類(lèi)模型的構(gòu)建和檢驗(yàn),將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。選取前594條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論