![基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測_第1頁](http://file4.renrendoc.com/view15/M00/0D/11/wKhkGWejhZeAd7xdAAFugmZZL-M387.jpg)
![基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測_第2頁](http://file4.renrendoc.com/view15/M00/0D/11/wKhkGWejhZeAd7xdAAFugmZZL-M3872.jpg)
![基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測_第3頁](http://file4.renrendoc.com/view15/M00/0D/11/wKhkGWejhZeAd7xdAAFugmZZL-M3873.jpg)
![基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測_第4頁](http://file4.renrendoc.com/view15/M00/0D/11/wKhkGWejhZeAd7xdAAFugmZZL-M3874.jpg)
![基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測_第5頁](http://file4.renrendoc.com/view15/M00/0D/11/wKhkGWejhZeAd7xdAAFugmZZL-M3875.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
目錄1引言 引言1.1研究背景及意義1.1.1研究背景泰坦尼克號沉沒事故是20世紀(jì)最為令人扼腕的一次海難事件。事件發(fā)生在1912年4月14日23時(shí)40分左右,行進(jìn)中的泰坦尼克號與一座冰山相碰撞,兩千兩百余名船員及乘客中,逾一千五百余人喪生,其中僅有三百多具罹難者的遺體被尋回。這場轟動(dòng)性的悲劇震驚了當(dāng)時(shí)的國際社會(huì),而且引發(fā)了后來者們對于這場悲劇的思索和探究,當(dāng)然,更多的人希冀的是有更好更完善的相關(guān)政策法規(guī)促使大家能夠避免這類事情的發(fā)生或者可以提高遭遇者在此類事件的存活幾率。除了比較出名的泰坦尼克號沉沒事故外,還有此后發(fā)生的諸多海難也是令人極度惋惜、悲痛不已,如1987年12月“杜納巴茲號”在菲律賓和一艘油輪相撞事件、1993年2月17日凌晨的海地“內(nèi)普圖諾”號客輪沉沒事件、1994年9月28日的塔林“埃斯托尼亞號”客輪沉沒事件、2000年6月22日中國四川渡輪沉沒事件、2002年9月26日的塞內(nèi)加爾“喬拉號”客輪失事事件、2014年4月16日韓國客輪“歲月號”浸水失事等等事件,這些相類似的事件的緣由、結(jié)果等等,都是值得我們探尋、研究的。盡管在科技迅猛發(fā)展的今天,我們可以用科技的手段來解決很多的隱患,從而減少意外、不幸的降臨,但我們誰都不知道的是——意外和明天,誰會(huì)更快地來臨,所以,對于一些海難沉船事故的研究,或者說不應(yīng)該只是海難沉船等事故,更多的其他的災(zāi)難性事件的探究,將應(yīng)該是不能減少的的!1.1.2研究意義隨著科學(xué)技術(shù)的發(fā)展,沉船海難等事故的發(fā)生率雖說也在逐步地降低,這源于兩個(gè)方面的舉措,一方面是源于船舶的安全性能的增強(qiáng)、救生艇等自救舉措、設(shè)施的完善,另一方面是由于當(dāng)今各種運(yùn)動(dòng)的普及使得游泳這項(xiàng)技能也被越來越多的人學(xué)會(huì),從而有可能使得人們在海難中的存活能力提高,但我們就應(yīng)該僅僅依賴這兩方面的因素就認(rèn)為我們在水上、海上的行程就安穩(wěn)無憂了嗎?我們的社會(huì)在不斷地前進(jìn),但我們對大自然的探索還是略顯稚嫩的啊,特別是對于海洋這方面的災(zāi)難性事件的研究上。而且由于經(jīng)濟(jì)的迅猛發(fā)展、人們生活水平的不斷提高,選擇船舶這一交通工具出行、游玩的人也在逐漸地增多,但是只是單純地依賴船舶的安全性、救生艇等舉措就足夠了嗎?不,不是的,我們還應(yīng)該知曉若是處于海難之中,除了有游泳技能的、可以坐上救生艇等工具能逃生的等等之外,還有哪些海難中的乘客是可以憑借某些因素存活下來的,假如將來我們面對相類似的海難事件時(shí),我們是否能采用這類人的舉措從而提高自身的存活率呢?這就是我們基于機(jī)器學(xué)習(xí)算法進(jìn)行隨機(jī)森林模型的分析以預(yù)測哪些乘客可能在沉船海難中幸存下來的研究的意義所在。1.2國內(nèi)外研究現(xiàn)狀1.2.1國內(nèi)研究現(xiàn)狀在互聯(lián)網(wǎng)時(shí)代伴隨下的大數(shù)據(jù)興起和人工智能快速發(fā)展的當(dāng)下,人們對于泰坦尼克號沉船事故等的大事件也有了更多不同的研究思路及方法。源于大部分人感慨——現(xiàn)代交通救援速度的發(fā)展為什么遠(yuǎn)遠(yuǎn)比不上交通運(yùn)輸發(fā)展的狀況呢?陳宇皓(2019)認(rèn)為——利用對大數(shù)據(jù)的分析,以更好地預(yù)測事件中的不同類型乘客的幸存率以協(xié)助救援的實(shí)施,應(yīng)當(dāng)是十分有效的方法;而且在對數(shù)據(jù)處理中實(shí)施的各種算法和進(jìn)行算法學(xué)習(xí)的時(shí)候,陳宇皓更是運(yùn)用了創(chuàng)新性的思維,以泰坦尼克號的有效數(shù)據(jù)集為例,選擇了KNN(k-NearesNeighbor)模型,并且結(jié)合數(shù)據(jù)預(yù)處理、可視化分析等方法,對海難事故中乘客的幸存率進(jìn)行了預(yù)測,同時(shí)對兩種模型的優(yōu)劣進(jìn)行了對照,以優(yōu)化實(shí)驗(yàn)的預(yù)測更具備實(shí)施性。[1]同時(shí),王可晴(2019)在對機(jī)器學(xué)習(xí)算法的研究學(xué)習(xí)中,以"泰坦尼克號失事事件"為例,將機(jī)器學(xué)習(xí)算法中的不同分類模型方法,用來分析海難中乘客幸存的因素——是運(yùn)氣因素、抑或是存在一定的規(guī)律性。[2]在其他角度的研究中,陳宇、鄭迪(2014)從韓國客輪“歲月”號失事事件追溯到了“泰坦尼克”海難事件,分析了一個(gè)世紀(jì)以來的海難失事事故中,在職權(quán)梯度、群體思維、認(rèn)知遲滯以及ISM規(guī)則的運(yùn)行效果等人為因素影響下的海難事件幸存率的狀況,還原了船只中的海員工作的復(fù)雜性、高危性和在面對突發(fā)事件時(shí)的巨大責(zé)任壓力的種種狀況,以此探討針對人為因素的海事調(diào)查,檢討現(xiàn)行國際公約對改變海難事件發(fā)生率的真實(shí)意義。[3]但又有部分學(xué)者認(rèn)為——海上環(huán)境和氣候條件影響下的海運(yùn),出現(xiàn)意外的變故總是難以避免的。其中,高凡(2015)認(rèn)為——隨著世界航運(yùn)業(yè)的不斷蓬勃發(fā)展,海上船只的數(shù)量將與日俱增,海上交通也會(huì)日益繁忙,但與此同時(shí),海上求生技能與海上求生知識也將越來越受到重視,靈活運(yùn)用海上求生的知識和技能,以此將面臨的海上風(fēng)險(xiǎn)降到最低、最大限度地延長遇險(xiǎn)人員的求生時(shí)間也顯得更加重要。[4]孔祥生、朱金善、薛滿福(2018)等則以2018年1月6日的“桑吉”輪與“長峰水晶”輪碰撞事件為例,在對中國、伊朗、巴拿馬三國以及中國香港地區(qū)共同簽署的事故安全調(diào)查報(bào)告的基礎(chǔ)上,根據(jù)《1972年國際海上避碰規(guī)則》及《STCW規(guī)則》等法規(guī),分析了兩船的相遇局面、事故發(fā)生起因和雙方的責(zé)任,并總結(jié)經(jīng)驗(yàn)教訓(xùn),供后來者參考研究。[5]王光源、劉建東、章堯卿、毛世超(2017)等人則結(jié)合海洋氣象水文要素的特性,分析了海洋水文要素信息和遇險(xiǎn)海域風(fēng)壓差、流壓差的大小和方向變化規(guī)律,對海上遇險(xiǎn)目標(biāo)的受力情況進(jìn)行了分析,研究建立了遇險(xiǎn)目標(biāo)海上漂移模型、風(fēng)壓模型和漂移位置模型,分析估算遇險(xiǎn)目標(biāo)的漂移位置信息,且在此基礎(chǔ)上,利用總搜尋誤差、搜尋安全系數(shù)估算出搜尋半徑,進(jìn)一步確定搜尋區(qū)域,為實(shí)施救援的研究提供了一定的借鑒意義。[6]程建國(2014)在對海難事故研究時(shí)認(rèn)為——海上船只發(fā)生火災(zāi)是常見的海難事故,面對火災(zāi)時(shí),為降低損失,應(yīng)當(dāng)展開對遇難船舶的救助,尤其是在救助工作中,救援人員救助應(yīng)當(dāng)首先保證——有效地救助失事船只上的遇險(xiǎn)者的同時(shí)懂得自我保護(hù)和自救也是非常重要的。[7]苗水清、鄭海英、白海濤(2019)等則認(rèn)為——將決策樹算法運(yùn)用在沉船事件的分析和研究,而后進(jìn)行數(shù)據(jù)分類測試,對于事故分析是具有一定的可行性和有效性的。[8]另外一方面,王旭東(2011)則認(rèn)為——海難出現(xiàn)時(shí),因?yàn)楹K疁囟冗^低,若缺乏相應(yīng)的保暖自救措施,大部分人都會(huì)被慢慢凍死,這是造成海難遇險(xiǎn)人員大量死亡的最直接原因,所以遇到突發(fā)事故,落水人員在海上必須掌握正確的海上自救技能或者方法,才可能有更多的獲救機(jī)會(huì),因此海上冷水自救求生,也應(yīng)當(dāng)是研究的比較重要的海難課題方向。[9]秦雨晴、李貴強(qiáng)、陳婷婷(2019)等則認(rèn)為——在海難事件中,往往伴隨有惡劣天氣、設(shè)備損壞、值班人員作業(yè)疏忽、船只碰撞、擱淺、失火、海盜襲擊等關(guān)鍵因素,不同的因素固然對海難事件有著不同的影響,一般大型的海難事件都是由多種因素造成的,但最重要的因素就是人為因素,他們利用SHELL模型分析人為因素是如何影響船只的航行安全的,從而希望能夠降低人為因素影響下的意外變故的產(chǎn)生。[10]1.2.2國外研究現(xiàn)狀與國內(nèi)的研究情況相比,國外的學(xué)者們對于海難事故的研究探索起步是比較早的,這其中主要源于近代國外的航海大發(fā)現(xiàn)等的地理活動(dòng)早于我們國內(nèi),而其遭遇海難的事件也是多于國內(nèi)的。其中,F(xiàn)reyBS、SavageDA、TorglerB(2011)在收集了泰坦尼克號乘客和船員的個(gè)人數(shù)據(jù)集的基礎(chǔ)上,運(yùn)用了標(biāo)準(zhǔn)的經(jīng)濟(jì)人模型預(yù)測分析了以下問題:體力(男性和壯年)或社會(huì)地位(作為頭等艙或二等乘客)是否增加了生存機(jī)會(huì)?獨(dú)自旅行還是陪伴旅行對生存是有利的?一個(gè)人的角色或功能(作為船員或乘客)是否會(huì)影響生存的概率?做社會(huì)規(guī)范,比如“婦女和兒童第一!”有什么效果嗎?國籍是否影響生存機(jī)會(huì)?研究發(fā)現(xiàn)——處于最佳年齡的溺水者也很重要,壯年時(shí)淹死的人比老年人少,金融手段高的乘客,比老年人出行更少,財(cái)力雄厚的頭等艙乘客比二等頭等艙乘客更能自救,二等艙乘客比三等艙乘客更能自救(相比三等艙),能夠獲得更好信息的船員(與三等艙相比)。能夠接觸到更好的信息和關(guān)系資源的船員比船上的其他人更容易生存下來。[11]同時(shí),ProshantoK.Mukherjee、MarkBrownrigg(2013)以泰坦尼克號沉船事件為例,研究整個(gè)國際社會(huì)嚴(yán)重關(guān)切的問題——海上安全,并引用了近現(xiàn)代大家比較關(guān)注的幾次海難事件——齊布魯格附近的自由企業(yè)號的滾滾渡輪先驅(qū)號的傾覆、菲律賓唐納帕斯號的沉沒、波羅的海的愛沙尼亞號等等,并以此來探尋海事安全標(biāo)準(zhǔn)的遵守、執(zhí)行與乘客生還率的相關(guān)性。[12]1.2.3研究發(fā)展趨勢以以上國內(nèi)外學(xué)者的研究狀況來看,較為少數(shù)的學(xué)者關(guān)注了海難中的遇難者的一些自救行為是否會(huì)對將來的我們有借鑒意義,其中雖然不乏運(yùn)氣因素而存活的幸存者,但也有較少一部分的幸存者的自救行為是可供研究的,并且極可能是具備積極自救意義的行為方式;極為少數(shù)的學(xué)者以相似的海難事件為例,試圖找出此類海難事件的共性,以此探尋能否提前避免事故的發(fā)生;較多的學(xué)者關(guān)注的是——航行中的海事制度、海難第三方的搜救措施及辦法、船舶運(yùn)行機(jī)制和救援措施、人類的自救能力等等,學(xué)者們認(rèn)為:船舶的救援機(jī)制和救援設(shè)備、人類的自救能力是遇難者們能否自救或者能否等待及時(shí)被救援的關(guān)鍵因素。1.3研究思路及方法1.3.1研究思路第一,在論文指導(dǎo)老師的指導(dǎo)下,確定論文的選題;且在指導(dǎo)老師的培訓(xùn)下,已經(jīng)掌握相應(yīng)的畢業(yè)論文的寫作。第二,通過對研究課題——基于機(jī)器學(xué)習(xí)算法的泰坦尼克生還預(yù)測的關(guān)鍵字查詢,知悉泰坦尼克號失事等事件發(fā)生的起因、事發(fā)過程及結(jié)果,進(jìn)而通過整合所查詢的事件及相關(guān)的數(shù)據(jù)得出初步的幸存乘客率。第三,通過對所得到的官方數(shù)據(jù)的分析,得出幸存乘客率以及幸存者能夠存活的因素。第四,整合幸存者能夠存活的因素,在此基礎(chǔ)上作出相應(yīng)的對策建議,當(dāng)我們遭遇海難事故等事件時(shí),我們是否能夠采取這些對策建議從而使自己能夠存活。第五,對所研究的整個(gè)課題進(jìn)行總結(jié)。1.3.2研究方法本文采用的研究方法主要有文獻(xiàn)研究法和機(jī)器學(xué)習(xí)算法。第一,文獻(xiàn)研究法。通過查閱相關(guān)的國內(nèi)外的文獻(xiàn),包括但不限于期刊、學(xué)術(shù)論文、調(diào)查報(bào)告等文獻(xiàn),而后梳理國內(nèi)外關(guān)于“泰坦尼克號失事等事件中乘客生存機(jī)會(huì)”的各類研究,以此了解國內(nèi)外有關(guān)研究的重點(diǎn)及思路,為更好地研究出對策建議做好準(zhǔn)備。第二,機(jī)器學(xué)習(xí)算法并不是單純的一種算法,而是包括但不限于線性回歸、Logistic回歸、線性判別分析、分類和回歸樹、樸素貝葉斯、K最近鄰算法、學(xué)習(xí)向量量化、支持向量機(jī)、袋裝法和隨機(jī)森林、Boosting和AdaBoost等算法,本文主要運(yùn)用以決策樹為基礎(chǔ)的隨機(jī)森林模型進(jìn)行分析、建模以及預(yù)測和評估的。1.4研究需要解決的問題第一,查詢與泰坦尼克號失事等相類似的事件,然后運(yùn)用相關(guān)的機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)分析。第二,分析在這些相類似的事件中幸存者能夠存活的原因,并且就其原因進(jìn)行研究、得出結(jié)論。第三,當(dāng)我們或者說其他人遭遇相類似的事件時(shí),應(yīng)該怎樣結(jié)合該研究的結(jié)論、從而進(jìn)行自救或者延長自身的存活時(shí)間使自己被救援成功。2基于生還預(yù)測的機(jī)器學(xué)習(xí)模型2.1相關(guān)概念的界定2.1.1“機(jī)器學(xué)習(xí)算法”機(jī)器學(xué)習(xí)是一門多領(lǐng)域的交叉學(xué)科,涉及的學(xué)科包括但不限于概率論、統(tǒng)計(jì)學(xué)、凸分析、算法復(fù)雜度理論等,而“機(jī)器學(xué)習(xí)算法”是通過構(gòu)建機(jī)器學(xué)習(xí)算法預(yù)測模型并將其用于操作流程以優(yōu)化決策的過程,與此同時(shí),算法預(yù)測模型也是可以為事件的決策提供關(guān)鍵的數(shù)據(jù)支撐。其中,“機(jī)器學(xué)習(xí)算法”可以細(xì)分為線性回歸、Logistic回歸、分類和回歸樹、樸素貝葉斯、K最近鄰算法、支持向量機(jī)、袋裝法和隨機(jī)森林、Boosting和AdaBoost等,其中本文所采用的是隨機(jī)森林機(jī)器學(xué)習(xí)算法,也被大家稱為隨機(jī)森林預(yù)測模型。2.1.2隨機(jī)森林的基本概念隨機(jī)森林是使用袋裝法來創(chuàng)建一堆隨機(jī)數(shù)據(jù)子集的決策樹,該模型在數(shù)據(jù)集的隨機(jī)樣本上進(jìn)行多次的訓(xùn)練,以此從隨機(jī)森林模型中獲得較好的預(yù)測性能。在這個(gè)模型中,需要將其中所有決策樹的輸出結(jié)果結(jié)合起來,以進(jìn)行最終的預(yù)測。隨機(jī)森林算法的最終預(yù)測是通過輪詢每個(gè)決策樹的輸出結(jié)果或者僅僅通過使用在決策樹中出現(xiàn)最多次的預(yù)測輸出來導(dǎo)出,其基本原理是把決策樹組合成隨機(jī)森林模型,在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成大量的決策樹,再對這些決策樹的輸出的結(jié)果進(jìn)行匯總。隨機(jī)森林的一大優(yōu)勢在于——它既可以用在分類上,又可以用在回歸問題上,這兩類問題又是當(dāng)下多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)所需要面對的主要痛點(diǎn)。接下來,本文將探討隨機(jī)森林如何用在分類問題上,因?yàn)榉诸愑袝r(shí)也被認(rèn)為是機(jī)器學(xué)習(xí)的基石。從圖2.1可以看到當(dāng)下機(jī)器學(xué)習(xí)模型中的隨機(jī)森林模型的其中一類:圖2.1隨機(jī)森林的基本構(gòu)造上圖的隨機(jī)森林模型就是將大量的決策樹整合成森林,并合起來用來預(yù)測最終結(jié)果的模型。2.2生還預(yù)測模型2.2.1隨機(jī)森林隨機(jī)森林也是一種有監(jiān)督的“機(jī)器學(xué)習(xí)算法”,從字面理解,它就是一個(gè)“森林”,有所不同的是——構(gòu)建這個(gè)“森林”的是大量的決策樹。這個(gè)“森林”將會(huì)采用的是——隨機(jī)有放回的選擇訓(xùn)練數(shù)據(jù)集,然后構(gòu)造出分類器,最后組合成學(xué)習(xí)到的模型用來增加“森林”整體的效果。其中,隨機(jī)森林分類器將會(huì)使用所有的決策樹分類器和bagging分類器的超參數(shù)來控制模型整體的結(jié)構(gòu)。將其傳遞給決策樹分類器,對于決策樹而言會(huì)更加的方便和優(yōu)化。要注意的是,隨機(jī)森林算法中決策樹的增長會(huì)給模型帶來額外的隨機(jī)性。隨機(jī)森林的每個(gè)節(jié)點(diǎn)將會(huì)被分割成最小化誤差的最佳特征,在隨機(jī)森林中會(huì)選擇隨機(jī)選擇的特征來構(gòu)建最佳分割,因此,在這個(gè)隨機(jī)森林模型中,僅考慮用于分割節(jié)點(diǎn)的隨機(jī)子集,甚至可以通過在每個(gè)特征上使用隨機(jī)閾值來使決策樹更加地隨機(jī),而不是像普通的決策樹一樣來搜索最佳的閾值,在這個(gè)過程中,通常可以得到更好的模型。2.2.2決策樹決策樹,顧名思義其形狀就是樹形的結(jié)構(gòu),由邊和節(jié)點(diǎn)構(gòu)成,決策樹的集成是可以構(gòu)成隨機(jī)森林,這樣一來,決策樹和隨機(jī)森林的關(guān)系就很明白了。決策樹中的每一個(gè)分支節(jié)點(diǎn)所表示的是其屬性的不同取值,到達(dá)葉結(jié)點(diǎn)的輸出就是決策樹對于輸入數(shù)據(jù)樣本的最終分類的判斷。2.2.3集成學(xué)習(xí)集成學(xué)習(xí)的核心思想就是算法集成,通過對幾種算法的整合給出最終分類,具體工作原理就是由每種算法構(gòu)成的分類器對輸入數(shù)據(jù)樣本進(jìn)行預(yù)測,然后對輸出預(yù)測結(jié)果進(jìn)行整合,最后得出最終結(jié)果。接下來本文采用的隨機(jī)森林算法也是一種集成學(xué)習(xí)算法。它是將大量的決策樹進(jìn)行整合來完成模型預(yù)測的,在分類問題預(yù)測的結(jié)果是所有的決策樹預(yù)測結(jié)果的投票體現(xiàn);在回歸問題上,是所有的決策樹預(yù)測結(jié)果的均值表現(xiàn)。在模型訓(xùn)練時(shí),通過Bootstrap抽樣來形成每棵決策樹的訓(xùn)練集,在訓(xùn)練每棵決策樹的每個(gè)節(jié)點(diǎn)時(shí),所用的特征也是從整個(gè)特征向量中抽取的一部分特征。通過將多棵決策樹集成和使用每次采樣的樣本和特征分量訓(xùn)練每棵決策樹,可以有效地降低模型的方差。整個(gè)的隨機(jī)森林算法充分體現(xiàn)了集成思想的精髓,通過整合多顆決策樹的輸出結(jié)果,給出最終的預(yù)測。3泰坦尼克乘客數(shù)據(jù)集處理首先,要做的就是——導(dǎo)入泰坦尼克乘客數(shù)據(jù)集,并對整個(gè)的數(shù)據(jù)集做相關(guān)的處理工作。其次,就是要使用Python語言實(shí)現(xiàn)隨機(jī)森林算法的整個(gè)流程,并且要在泰坦尼克乘客數(shù)據(jù)集的基礎(chǔ)上驗(yàn)證隨機(jī)森林算法的有效性,并查看其他Kaggle的靈感、集中精力做一些說明性的數(shù)據(jù)可視化過程,之后使用隨機(jī)森林算法對泰坦尼克號輪船上的乘客進(jìn)行命運(yùn)預(yù)測。3.1數(shù)據(jù)的探索所以,在進(jìn)一步對數(shù)據(jù)的建模展開之前,首先要做的就是——對數(shù)據(jù)的變量名、數(shù)值分布和缺失值的情況等等都要有初步的了解,圖2.2是針對變量age的傾斜度畫出的直方圖。圖2.2變量age傾斜度示意圖而為了更好的展現(xiàn)數(shù)據(jù)集中的特征的情況,在機(jī)器學(xué)習(xí)算法中是可以通過箱型圖的表現(xiàn)形式以展示age變量的數(shù)值分布以及異常值的情況,如圖2.3所示。圖2.3變量age箱型圖3.2變量的處理首先,要對之前導(dǎo)入的包含1309個(gè)樣本、將近80%乘客的信息和生存狀態(tài)以及每個(gè)樣本包含了14個(gè)屬性的泰坦尼克乘客數(shù)據(jù)集進(jìn)行加載、檢查以及核對,在此過程中,對于數(shù)據(jù)集的變量、它們的類型和每個(gè)變量的前幾個(gè)觀察都有更進(jìn)一步的了解,但由于有幾個(gè)變量名稱不能百分之百地說明問題,為了使研究的12個(gè)變量的1309次的觀測展現(xiàn)得更明確清晰,我們必須處理以下的一些問題:表3-1觀測變量變量描述身份乘客身份或身份證存活存活(1)或死亡(0)等級乘客的等級姓名乘客的姓名性別乘客的性別年齡乘客的年齡親人船上父母/子女人數(shù)船票票號價(jià)格票價(jià)艙位座艙地點(diǎn)登船港其次,還需要解決的問題是數(shù)據(jù)的填充。由于隨機(jī)森林模型的要求是模型的數(shù)據(jù)樣本是完全沒有缺失值的,所以,需要用中位數(shù)填充所有訓(xùn)練集中的數(shù)值變量。在做數(shù)據(jù)填充時(shí),無論是用統(tǒng)計(jì)量還是機(jī)器學(xué)習(xí)模型,都必須要用訓(xùn)練集中的信息。而且在做模型測試前對測試集做數(shù)據(jù)填充時(shí),也是需要用訓(xùn)練集的統(tǒng)計(jì)量或者基于訓(xùn)練集訓(xùn)練的機(jī)器學(xué)習(xí)模型的。4生還預(yù)測模型與模型優(yōu)化4.1特征工程4.1.1“姓名”變量存在什么?首先要進(jìn)行的是特征工程,而第一個(gè)引起注意的變量是乘客姓名,因?yàn)檫@個(gè)變量可以分解為其他有意義的變量,分解出來的變量既可以提供預(yù)測,也可以用于創(chuàng)建額外的新變量。第一,從乘客姓名中獲取標(biāo)題,再按照性別顯示的標(biāo)題計(jì)數(shù)。第二,將單元格數(shù)極低的標(biāo)題合并為“罕見”級別,也相應(yīng)地重新分Mlle、Ms和Mme。第三,再一次做按照性別顯示的標(biāo)題計(jì)數(shù)。最后,從乘客姓名中取姓,發(fā)現(xiàn)有875個(gè)獨(dú)特的姓氏,也許,可以根據(jù)這些姓氏推斷出什么。4.1.2“關(guān)聯(lián)”和“親人”變量是否一齊下沉或游泳?現(xiàn)在,我們已經(jīng)把乘客名字這個(gè)變量分成了一些新的變量,接下來我們就可以更進(jìn)一步,做一些新的家庭變量。首先,我們將依據(jù)兄弟姐妹或者配偶的數(shù)量來設(shè)置一個(gè)家庭規(guī)模變量的大小以及子女或者父母的人數(shù)的多少。第一,需要?jiǎng)?chuàng)建一個(gè)家庭規(guī)模變量,包括乘客本身,再創(chuàng)建一個(gè)家庭變量,這主要是了解我們的家庭規(guī)模變量是什么樣子的,接下來將它放在訓(xùn)練數(shù)據(jù)中,嘗試?yán)斫馑c生存的關(guān)系。圖2.3是使用ggplot2方法可視化家庭規(guī)模與生存之間的關(guān)系。圖2.4ggplot2方法下的家庭規(guī)模與生存之間的關(guān)系從上圖可以看到,單身和家庭規(guī)模超過數(shù)字4的人都有生存損失,我們可以將這個(gè)變量分解成三個(gè)層次,這將是有幫助的,因?yàn)榇蠹彝ハ鄬κ禽^少,先創(chuàng)建一個(gè)離散的家庭大小變量。之后使用馬賽克圖顯示家庭的大小。圖2.5生存家庭規(guī)模圖2.5顯示,我們保留了我們的規(guī)則——即單身和大家庭都有生存損失,但這對小家庭的乘客是有利的。由于數(shù)據(jù)這里的263行缺少年齡值,對于需要用到“年齡”變量做一些進(jìn)一步的事情就只能等解決了缺失值才可以繼續(xù)進(jìn)行下去。4.1.3其他變量的情況除了“姓名”、“關(guān)聯(lián)”和“親人”變量,在“艙位”這個(gè)變量中也可能有一些潛在的有用信息,包括他們的甲板。但是這個(gè)變量似乎有很多缺失的值,之后又嘗試性地創(chuàng)建了一個(gè)Deck變量——乘客甲板A-F,然而這里會(huì)有更多無法確定的過程,包括查看有多個(gè)房間的艙位(例如,第28行:“C23C25C27”),考慮到這個(gè)專欄的稀疏性,嘗試性的實(shí)驗(yàn)也無法進(jìn)一步進(jìn)行。4.2缺失值的處理現(xiàn)在,需要準(zhǔn)備的是——開始探索泰坦尼克乘客數(shù)據(jù)集中丟失的數(shù)據(jù),并通過計(jì)算糾正它。由于考慮到數(shù)據(jù)集的大小很小,不應(yīng)該選擇刪除包含缺失值的整個(gè)觀察(行)或者變量(列)。同時(shí),在數(shù)據(jù)分布的情況下,可以選擇用一個(gè)合理的值替換丟失的值,例如平均值、中值或者眾數(shù)。最后,才可以進(jìn)行預(yù)測,接下來將使用后面兩種方法進(jìn)行一些數(shù)據(jù)的可視化來指導(dǎo)模型的決策。4.2.1合理價(jià)值估算從導(dǎo)入的泰坦尼克乘客數(shù)據(jù)集可以看到——乘客62及830失蹤。接下來將根據(jù)可以想象的有可能相關(guān)的現(xiàn)有數(shù)據(jù)來推斷他們對登船價(jià)值:乘客和票價(jià),可以看到的是——他們分別支付了80美元和NA,他們的級別是1級和NA級,那他們是從哪里出發(fā)的?所以,接下來會(huì)把失蹤的乘客身份證處理掉,隨后使用ggplot2方法可視化登船地點(diǎn)、乘客登機(jī)和中位票價(jià)。圖2.6ggplot2方法下的登船地點(diǎn)、乘客登機(jī)和中位票價(jià)從查堡這個(gè)地點(diǎn)出發(fā)的頭等艙乘客(“C”)的票價(jià)中值與我們的登船不足乘客支付的80美元相當(dāng)吻合。我認(rèn)為我們可以安全地用“C”替換NA值,而且還可以在這里修復(fù)少量的NA值。同時(shí),繼續(xù)使用ggplot2方法可視化。圖2.7ggplot2方法下的登船地點(diǎn)、費(fèi)用和密度從上圖這個(gè)可視化的角度來看,用班次和班次的中位數(shù)(8.05美元)代替NA的票價(jià)價(jià)值似乎是相當(dāng)合理的,所以,在后續(xù)的實(shí)驗(yàn)中,會(huì)將遺失的船費(fèi)值改為班次或者登船票價(jià)的中位數(shù)。4.2.2預(yù)測歸責(zé)隨后,由于在前面提到的——泰坦尼克乘客數(shù)據(jù)集的數(shù)據(jù)中有相當(dāng)多的年齡值缺失,對于將要被用于測試的年齡值,我們需要對這里進(jìn)行一定的補(bǔ)救——?jiǎng)?chuàng)建一個(gè)基于其他變量的預(yù)測年齡的模型。第一,先把失蹤年齡值的數(shù)目確定下來。第二,使用rPart(回歸的遞歸分區(qū))來預(yù)測缺失的年齡,首先需要分解因子變量,然后執(zhí)行小鼠估算。第三,將變量因素轉(zhuǎn)化為因素,隨后設(shè)置隨機(jī)種子,之后,執(zhí)行小鼠估算,排除某些不太有用的變量.第四,需要保存完整的輸出。最后,需要將得到的結(jié)果與乘客年齡的原始分布進(jìn)行比較,以確保沒有什么事情是完全錯(cuò)誤的。圖2.8小鼠估算下的age分布與乘客年齡的原始分布可以看到,用小鼠估算的輸出來代替原始數(shù)據(jù)中的年齡向量是可行的,這對于后續(xù)的專題工程有很大幫助——可以使用AGE變量來做更多的特征工程4.3相關(guān)特征創(chuàng)建現(xiàn)在,每位乘客的年齡都已經(jīng)可以確認(rèn)了,接下來需要?jiǎng)?chuàng)造兩個(gè)新的年齡因變量:孩子和母親。第一,孩子就是18歲以下的人,母親是乘客;第二,女性;第三,超過18歲;第四,有0個(gè)以上的孩子。這里是沒有“小姐”的頭銜。首先,我們來看看年齡和生存之間的關(guān)系,在這里,我把性別也包括在內(nèi),因?yàn)樗旧砭褪且粋€(gè)重要的預(yù)測因素。圖2.9ggplot2方法下的年齡和生存之間的關(guān)系隨后,創(chuàng)建一個(gè)“兒童”列,并指明是兒童還是成人。很顯然,結(jié)果顯示——兒童并不意味著一定安全,因?yàn)樗麄儽旧砗艽蟮拇婊羁赡苄远际且蕾嚦扇说?。所以,接下來就是?chuàng)建母變量來完成我們的特征工程,也許我們可以希望母親們更有可能在泰坦尼克號上幸存下來。但是,增加了母親變量后,兒童的存活幾率會(huì)有那么稍微低上升,但這不能代表什么,所以,現(xiàn)在需要再確認(rèn)所有變量是否都得到了處理,這涉及到數(shù)據(jù)的完整與否。到了現(xiàn)在這一步,對于泰坦尼克乘客數(shù)據(jù)集中所有相關(guān)缺失值的處理,其中也包括一些與小鼠估算有關(guān)的相關(guān)推測,較為成功地創(chuàng)造了幾個(gè)新的變量,接下來就是要看看這些變量是否能夠協(xié)助建立一個(gè)可靠地預(yù)測生存的模型了。5模型預(yù)測結(jié)果與評估接下來就是準(zhǔn)備預(yù)測泰坦尼克號乘客中的幸存者,上面的這些變量是精心策劃和處理的,為此,下面的測試和評估將依賴隨機(jī)森林分類算法繼續(xù)進(jìn)行,畢竟,前期花了那么多時(shí)間都是在估算這個(gè)步驟上。5.1測試集和訓(xùn)練集首先,需要將之前導(dǎo)入的泰坦尼克乘客數(shù)據(jù)集的數(shù)據(jù)分割回原始的測試集和訓(xùn)練集。整個(gè)泰坦尼克乘客數(shù)據(jù)集包含有1309個(gè)樣本,先將其中的418個(gè)樣本劃分到測試集里,而后將剩下的891個(gè)樣本劃分到訓(xùn)練集里,這時(shí)候,測試集與訓(xùn)練集占總樣本的比例就分別是31.9%和68.1%。5.2建立模型其次,就是在訓(xùn)練集上使用隨機(jī)森林算法建立模型。第一步,就是要設(shè)置隨機(jī)種子;第二步,需要進(jìn)行模型的構(gòu)建,但要注意的是——并非所有可能的變量都會(huì)被使用。圖3.1隨機(jī)森林模型從上面兩圖可以看出——模型出現(xiàn)了誤差。黑線顯示的是總的錯(cuò)誤率,但低于20%,紅線和綠線分別顯示“死亡”和“存活”的錯(cuò)誤率,但明顯可以看到,對于死亡的預(yù)測要比生存成功得多。5.3特征重要性排序和預(yù)測基于上述的模型出現(xiàn)誤差的情況,接下來需要通過繪制在所有決策樹上計(jì)算出的基尼系數(shù)的平均值來看相對變量的重要性,需要通過獲取重要性來創(chuàng)建一個(gè)基于重要性的秩變量,所以,接下來就是使用ggplot2方法來可視化變量的相對重要性。圖3.2ggplot2方法下的變量相對重要性從上圖可以看到——在我們所有的預(yù)測變量中,乘客等級具有最高的相對重要性,而艙位卻跌到了第5位,其他相對較高的相對重要性則是性別、費(fèi)用和年齡。主要是源于在事故的變化中,男性總是比女性有優(yōu)勢的,主要但不局限于體能、自救技能和決斷力等等;費(fèi)用則是代表著你在船上的相對優(yōu)勢——艙位的選擇上、是否能在短時(shí)間內(nèi)依賴船員或者其他工具存活等等;年齡可以體現(xiàn)出不同階段的人的體能、思維靈活度和膽力等素質(zhì),可以明顯看出的是——成人存活下來的幾率總是比兒童和老人要大的。6結(jié)論本文通過對導(dǎo)入的泰坦尼克乘客數(shù)據(jù)集進(jìn)行隨機(jī)森林模型預(yù)測研究得出如下結(jié)論:第一.測試的結(jié)果是通過隨機(jī)森林模型來確定的,因此一方面它的精度受整個(gè)模型的數(shù)據(jù)的完整度的影響,但這一點(diǎn)已經(jīng)通過合理價(jià)值估算和預(yù)測歸責(zé)解決了;另一方面,則是受模型誤差的影響,后面的分析預(yù)測是通過繪制在所有決策樹上計(jì)算出的基尼系數(shù)的平均值來進(jìn)行擬合的。雖然本文采用的是隨機(jī)森林模型時(shí)是優(yōu)先選擇了屬性取值較多的特征作為樹節(jié)點(diǎn)的,但是這樣構(gòu)造的樹深度淺,對于復(fù)雜且特征量大的模型是不夠準(zhǔn)確的。第二,在最后的預(yù)測中,模型出現(xiàn)了較大的誤差,導(dǎo)致了模型對死亡的預(yù)測要比生存的預(yù)測要成功得多,后面雖然用了基尼系數(shù)的平均值進(jìn)行最后的預(yù)測,但預(yù)測的結(jié)果還是不夠精準(zhǔn)。由于本人學(xué)術(shù)水平有限,所以對機(jī)器學(xué)習(xí)算法的理論基礎(chǔ)的理解不夠透徹,在隨機(jī)森林模型的構(gòu)建上會(huì)有所缺陷和疏漏,會(huì)導(dǎo)致后續(xù)的分析也不夠精準(zhǔn);而且在本文中,本人只是在泰坦尼克乘客數(shù)據(jù)集做隨機(jī)森林模型的分析和預(yù)測,并沒有獲取到其他的一手資料,所以本文僅代表個(gè)人的一些觀點(diǎn),希望能在以后學(xué)習(xí)中進(jìn)一步完善和期望與更多學(xué)者和老師交流學(xué)習(xí)。參考文獻(xiàn):[1]陳宇皓.基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第25章 第3節(jié) 《遠(yuǎn)離煙酒 拒絕毒品》教學(xué)設(shè)計(jì)-2024-2025學(xué)年初中生物八年級下冊同步教學(xué)(蘇科版)
- 2025年酒店總經(jīng)理任期目標(biāo)與績效管理合同
- Unit 3 Fascinating Parks Explore theme parks and write about a park 教學(xué)設(shè)計(jì)-2024-2025學(xué)年高中英語人教版(2019)選擇性必修第一冊
- 第1章第3節(jié) 怎樣學(xué)習(xí)化學(xué)教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級化學(xué)滬教版(全國)(2024)上冊
- 家政人員派遣合同模板
- 汽車賽事運(yùn)輸合同樣本
- 二零二五年度醫(yī)院與醫(yī)療志愿者簽訂的志愿服務(wù)勞動(dòng)合同書
- 二零二五年度家庭育兒嫂雇傭服務(wù)協(xié)議
- 二零二五年度房屋租賃合同終止起訴狀
- 第一單元第1課《認(rèn)識計(jì)算機(jī)》教學(xué)設(shè)計(jì) 2023-2024學(xué)年滇人版(2016)初中信息技術(shù)七年級下冊
- 航拍中國優(yōu)秀課件
- 《做自己的心理醫(yī)生 現(xiàn)代人的心理困惑和自我療愈策略》讀書筆記思維導(dǎo)圖PPT模板下載
- 2022-2023學(xué)年上海市楊浦區(qū)上海同濟(jì)大附屬存志學(xué)校七年級數(shù)學(xué)第二學(xué)期期中綜合測試模擬試題含解析
- 小學(xué)音樂組集體備課計(jì)劃
- XX學(xué)校服采購工作方案(含一封信、備案表、反饋表)
- 血液透析安全注射臨床實(shí)踐專家共識解讀
- GB/T 41873-2022塑料聚醚醚酮(PEEK)樹脂
- SB/T 10940-2012商用制冰機(jī)
- GB/T 33107-2016工業(yè)用碳酸二甲酯
- GB/T 25945-2010鋁土礦取樣程序
- GB/T 18938-2008家用和類似用途的面包片電烘烤器性能測試方法
評論
0/150
提交評論