畢業(yè)設(shè)計(jì)(論文):機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第1頁(yè)
畢業(yè)設(shè)計(jì)(論文):機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第2頁(yè)
畢業(yè)設(shè)計(jì)(論文):機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第3頁(yè)
畢業(yè)設(shè)計(jì)(論文):機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第4頁(yè)
畢業(yè)設(shè)計(jì)(論文):機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本科畢業(yè)設(shè)計(jì)(論文)課題名稱:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究專業(yè):信息與計(jì)算科學(xué)姓名:學(xué)號(hào):指導(dǎo)教師:數(shù)理學(xué)院年月本科畢業(yè)設(shè)計(jì)(論文)第一章緒論本章主要介紹本課題的研究目的和意義以及機(jī)器學(xué)習(xí)國(guó)內(nèi)外現(xiàn)狀。1.1課題研究的目的與意義機(jī)器學(xué)習(xí)是人工智能的中心,也是讓計(jì)算機(jī)系統(tǒng)擁有智能的唯一路徑,目前機(jī)器學(xué)習(xí)已經(jīng)應(yīng)用在生活中的各個(gè)領(lǐng)域,機(jī)器學(xué)習(xí)這些發(fā)展迅速,前景很好,機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型主要解決弱二分類問題,現(xiàn)實(shí)的社會(huì),我們會(huì)面臨許許多多的分類,劃分到正確的類別至關(guān)重要。本課題主要研究機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型以及應(yīng)用研究,掌握機(jī)器學(xué)習(xí)基本知識(shí),理解邏輯斯蒂回歸模型的實(shí)現(xiàn)思路,并且能夠深入應(yīng)用,研究它,并充分的利用它,對(duì)于機(jī)器學(xué)習(xí)的發(fā)展有很大的意義。1.2國(guó)內(nèi)外現(xiàn)狀機(jī)器學(xué)習(xí)在我國(guó)已經(jīng)得到廣泛的關(guān)注,并且也取得了優(yōu)秀的成果,但是主要集中在數(shù)據(jù)挖掘?qū)哟危兇獾臋C(jī)器學(xué)習(xí)研究者相對(duì)較少,主要的理論知識(shí),學(xué)習(xí)方法等基礎(chǔ)部分沒有得到充分的重視,不過就目前來說,國(guó)內(nèi)已經(jīng)有北京大學(xué),復(fù)旦大學(xué)等依靠雄厚的統(tǒng)計(jì)學(xué)實(shí)力,都已經(jīng)建立起數(shù)據(jù)科學(xué)專業(yè)和大數(shù)據(jù)研究院,以及一些知名的互聯(lián)網(wǎng)公司以及研究機(jī)構(gòu),也紛紛投入到機(jī)器學(xué)習(xí)的研究中,代表的有百度的BML和MSRA(微軟亞洲研究院)。對(duì)于國(guó)外來說,首先國(guó)外機(jī)器學(xué)習(xí)起步早,而且眾所周知國(guó)外的研究氛圍是明顯優(yōu)于國(guó)內(nèi)的,所以在機(jī)器學(xué)習(xí)這塊的研究也是大大的領(lǐng)先國(guó)內(nèi),國(guó)外機(jī)器學(xué)習(xí)主要包括研究算法,用數(shù)據(jù)建立模型,然后再進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的決策或者預(yù)測(cè),像Google,F(xiàn)acebook,雅虎,亞馬遜等一些非常優(yōu)秀的技術(shù)公司,利用機(jī)器學(xué)習(xí)讓他們的研究產(chǎn)品和應(yīng)用程序更加智能。第二章機(jī)器學(xué)習(xí)基本知識(shí)本章節(jié)主要介紹機(jī)器學(xué)習(xí)的一些基本知識(shí),主要有機(jī)器學(xué)習(xí)的定義,機(jī)器學(xué)習(xí)的主要策略,機(jī)器學(xué)習(xí)的幾大組成部分以及其學(xué)習(xí)的相關(guān)分類。2.1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)中的“機(jī)器”一般指計(jì)算機(jī)系統(tǒng)?!皩W(xué)習(xí)”通常指的是一種學(xué)習(xí)過程。由此“機(jī)器學(xué)習(xí)”就是指機(jī)器自己學(xué)習(xí)的過程[1]。蘭利認(rèn)為“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),主要研究對(duì)象就是人工智能,尤其是機(jī)器如何通過經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”[2]。米切爾認(rèn)為機(jī)器學(xué)習(xí)就是計(jì)算機(jī)程序隨著經(jīng)驗(yàn)積累自動(dòng)提高系統(tǒng)自身的性能[3]。2.2主要策略研究機(jī)器學(xué)習(xí)的人們都很清楚機(jī)械學(xué)習(xí)、類比學(xué)習(xí)、通過事例學(xué)習(xí)以及通過傳授學(xué)習(xí)這四個(gè)類別是機(jī)器學(xué)習(xí)常采用的機(jī)器學(xué)習(xí)策略[4]。2.3基本結(jié)構(gòu)機(jī)器學(xué)習(xí)的學(xué)習(xí)部分會(huì)利用環(huán)境提供的一些信息來修改和完善自己的知識(shí)庫(kù),通過不斷地修改和完善來增強(qiáng)機(jī)器學(xué)習(xí)系統(tǒng)的執(zhí)行部分的能力,并且執(zhí)行部分還能夠在完成任務(wù)的同時(shí),將一些有用的信息再次反饋給機(jī)器學(xué)習(xí)系統(tǒng)的學(xué)習(xí)部分,達(dá)到良性的循環(huán)完善[5]。環(huán)境向機(jī)器學(xué)習(xí)系統(tǒng)提供的信息至關(guān)重要,它是影響機(jī)器學(xué)習(xí)系統(tǒng)的第一因素。由于環(huán)境向機(jī)器學(xué)習(xí)系統(tǒng)提供的信息是互不相同的,所以有時(shí)候知識(shí)庫(kù)里已經(jīng)存在的執(zhí)行部分的一般性原則世界決不了的,這樣就需要系統(tǒng)就需要在不斷地學(xué)習(xí)過程中完善自己,但是環(huán)境提供的信息質(zhì)量高的話,系統(tǒng)的執(zhí)行部分就可以以很小的誤差來完成認(rèn)為[8]。知識(shí)庫(kù)是影響機(jī)器學(xué)習(xí)系統(tǒng)的另一個(gè)因素。知識(shí)說起來很廣泛,它有很多表現(xiàn)形式像特征向量、產(chǎn)生式規(guī)則、一階邏輯語(yǔ)句、框架和語(yǔ)義網(wǎng)絡(luò)等等。由于表現(xiàn)形式各不相同,它們也擁有各自的特點(diǎn),所以選在表現(xiàn)形式的時(shí)候可以參考以下幾點(diǎn),良好表達(dá)能力,知識(shí)庫(kù)易修改,表現(xiàn)方式好,容易推理[9]。機(jī)器學(xué)習(xí)系統(tǒng)的核心部分就是執(zhí)行部分,整個(gè)學(xué)習(xí)系統(tǒng)最核心的就是在學(xué)習(xí),即在執(zhí)行的同時(shí)能將自身的不足點(diǎn)改進(jìn)和完善,所以執(zhí)行部分的動(dòng)作是一切的核心所在。執(zhí)行部分相關(guān)的三個(gè)特性復(fù)雜性,透明性和反饋性我就不介紹了[10]。2.4機(jī)器學(xué)習(xí)分類2.4.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí),指的是對(duì)機(jī)器學(xué)習(xí)的過程提供錯(cuò)誤提示。做法是將最終結(jié)果以0,1形式添加到數(shù)組局中。然后通過一些算法讓機(jī)器自我縮減誤差[11]。2.4.2非監(jiān)督學(xué)習(xí)非監(jiān)督學(xué)習(xí)又稱歸納性學(xué)習(xí)(clustering)利用K方式(Kmeans),建立中心(centriole),通過循環(huán)和遞減運(yùn)算(iteration&descent)來減小誤差,來達(dá)到分類的目的[12]。2.4小結(jié)現(xiàn)在機(jī)器學(xué)習(xí),在國(guó)內(nèi)的發(fā)展很是火熱,學(xué)習(xí)氛圍也很好,并且取得很不錯(cuò)的成果,在生活中應(yīng)用領(lǐng)域也很多,在現(xiàn)在這個(gè)大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)處理?yè)碛刑貏e優(yōu)秀的性能,所以很多領(lǐng)域用處特別廣。我們主要研究的機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型主要解決的是softbinaryclassification問題,首先它是一種典型的回歸模型,在國(guó)內(nèi)也應(yīng)用于許多領(lǐng)域,諸如金融,醫(yī)學(xué),建筑等等領(lǐng)域,并且在大數(shù)據(jù)時(shí)代,在這個(gè)數(shù)據(jù)挖掘興起的時(shí)代,無噪聲數(shù)據(jù),即noiselessdata,對(duì)于建立模型來說是非常重要的,會(huì)建立出高準(zhǔn)確率的模型,那么實(shí)際中的應(yīng)用將會(huì)取得更加優(yōu)秀的表現(xiàn),,然而因?yàn)樾再|(zhì)緣由,主要是用于解決二分類問題的,并且在解決二分類問題上擁有不錯(cuò)的表現(xiàn),無論是在算法設(shè)計(jì)上,還是在驗(yàn)證的準(zhǔn)確率上都占有一定的優(yōu)勢(shì)。下一章,我們就主要研究機(jī)器學(xué)習(xí)中邏輯斯蒂回歸模型具體的設(shè)計(jì)流程以及算法計(jì)算過程和求解的思路及想法。第三章機(jī)器學(xué)習(xí)之邏輯斯蒂回歸本章主要介紹下邏輯斯蒂回歸模型在機(jī)器學(xué)習(xí)中的應(yīng)用原理,以及機(jī)器學(xué)習(xí)中邏輯斯蒂回歸的設(shè)計(jì)思路和求解方法。3.1邏輯斯蒂邏輯斯蒂回歸模型主要解決二分類問題,它的主要思想是采用最大似然估計(jì)法[6],在機(jī)器學(xué)習(xí)過程中,用數(shù)據(jù)訓(xùn)練出邏輯回歸模型后,它的求解的算法主要是梯度下降法和牛頓法[7]。3.2學(xué)習(xí)流程3.2.1目標(biāo)問題醫(yī)院病人的數(shù)據(jù),我們來判斷發(fā)病的可能性,yesorno然而現(xiàn)實(shí)還有其他情況,同樣的數(shù)據(jù),結(jié)果是想知道一個(gè)月或者兩個(gè)月發(fā)病的可能性(0到1區(qū)間值),我們稱之為軟性資料分類問題;表3.SEQ表\*ARABIC\s11病人數(shù)據(jù)Age40yearsGenderMaleBloodpressure130/85Cholesterollevel240Weight70圖3.SEQ圖\*ARABIC\s11LearnFloor通過表3.1和圖3.1,我們有一個(gè)不知道的目標(biāo)函數(shù)P(y|x),它包含了f(x)和noise,環(huán)境提供的數(shù)據(jù)信息,我們?cè)O(shè)計(jì)一個(gè)hypothesis,加入到learningalgorithm,當(dāng)然還包括errormeasure(錯(cuò)誤測(cè)量),最后找到一個(gè)好的hypothesis,直到,結(jié)束,由于我們需要的結(jié)果是病人是否發(fā)病,這是一個(gè)二分類問題,所以y的值只有兩種1或者0,所以目標(biāo)函數(shù):下階段目標(biāo):所以我們需要做的就是怎么找出一個(gè)好的hypothesis和targetfunction很接近[13]。首先,我們研究下機(jī)器學(xué)習(xí)所需要的數(shù)據(jù)資料部分:Ideal(noiseless)data這個(gè)基本上是理想的資料,每對(duì)應(yīng)一個(gè)x都有一個(gè)P概率值,即對(duì)于發(fā)病或者不發(fā)病都會(huì)有一個(gè)概率值在0~1之間,這樣就直接有結(jié)果了:actual(noisy)data這個(gè)是現(xiàn)實(shí)中的資料,我們醫(yī)院中對(duì)于每一個(gè)病人的資料中是沒有發(fā)病的概率是0.2,0.5,0.9等等,只有發(fā)?。?代表)或者不發(fā)?。?代表):一般來說,我們手上有的只是現(xiàn)實(shí)中的這種資料,所以不能直接得出我們想要的:targetfunction于是我們就進(jìn)入第二部分——需要重新去定義logisticshypothesis。圖3.SEQ圖\*ARABIC\s12θ(s)公式圖第一步:對(duì)于每個(gè)病人,我們都有一系列的features,每個(gè)病人都不一樣的,即(),然后通過公式,w加權(quán)之后,我們來算出一個(gè)分?jǐn)?shù)s,然而我們需要的不僅僅是這個(gè)分?jǐn)?shù),這是linearregression處理問題需要做的事件,而我們有興趣的是找到一個(gè)0~1之間的值,我們可以想象下,分?jǐn)?shù)越高,就是心臟病二次發(fā)作的可能性越大,分?jǐn)?shù)越低,就是心臟病二次發(fā)作可能性越??;第二步:通過計(jì)算,得到分?jǐn)?shù)s,目標(biāo)是把s通過算法變成0到1之間的值,一個(gè)方法是用一個(gè)像上面這樣的一個(gè)s型的函數(shù),圖3.2中的線形圖,也就是我們研究的邏輯斯蒂回歸模型,每一個(gè)分?jǐn)?shù)s的值,都有一個(gè)對(duì)應(yīng)的在0~1之間的值,就是我們需要知道的概率值,我們把它叫做logisticfunction,所以我的想要的Logistichypothesis:這個(gè)邏輯斯蒂function,曲線圖見圖3.2,具體就是下面式子:我們可以簡(jiǎn)單的驗(yàn)證下這個(gè)function)然后這個(gè)function配合W,以及,得到logistichypothesis:最后我們的邏輯回歸要做的就是,用這個(gè)邏輯斯蒂函數(shù),以及w求分?jǐn)?shù)這塊,來想方法接近我們的目標(biāo)函數(shù)——[14]。3.2.2邏輯回歸誤差函數(shù)設(shè)計(jì)Logisticregression和linearregression以及l(fā)inearclassification的共同點(diǎn):1.這三種都是用來研究機(jī)器學(xué)習(xí)算法關(guān)于分類問題的;2.大家都需要w和x混在一起算一個(gè)分?jǐn)?shù)s,公式。下面是線性分類和線性回歸以及邏輯回顧三種模型的對(duì)比,我們的目的是要求解出這個(gè)errorfunction。1.Linearclassification圖3.SEQ圖\*ARABIC\s13linearclassification示意圖線性分類算法,計(jì)算完分?jǐn)?shù),我們?nèi)∵@個(gè)分?jǐn)?shù)是大于0還是小于0,來做classification的動(dòng)作,所以最簡(jiǎn)單的err就是0/12.Linearregression圖3.SEQ圖\*ARABIC\s14linearregression示意圖線性回歸算法,算完分?jǐn)?shù)后,就直接輸出這個(gè)分?jǐn)?shù)s,我們用的err是squared.3.Logisticregression圖3.SEQ圖\*ARABIC\s15logisticregression示意圖邏輯斯蒂回歸算法,算完分?jǐn)?shù)后,它要通過一個(gè)s型的logistic函數(shù)來做輸出的動(dòng)作,那么它的errfunction什么樣子呢,我們又要怎么defineforlogisticregression?要回答怎樣設(shè)計(jì)出邏輯回歸誤差函數(shù)這樣的問題,首先咱們有一個(gè)目標(biāo)P,然而我們還不知道真正的結(jié)果P,所以當(dāng)設(shè)計(jì)的目標(biāo)P和真正的目標(biāo)P是一樣的時(shí)候,有一種特殊的方法來定義邏輯回歸誤差函數(shù)[15]。由于我們的目標(biāo)函數(shù):本身存在的特性,即發(fā)病和不發(fā)病的概率和是1,所以有以下特征:即:下面我們來分析,對(duì)于y分析,當(dāng)y取值為+1時(shí),P(y|x)=f(x);當(dāng)y取值為-1時(shí),P(y|x)=1-f(x)。邏輯斯蒂回歸模型對(duì)因變量數(shù)據(jù)假設(shè)要求不高,假如我們有一組數(shù)據(jù)即:根據(jù)上述的分析的式子,P的值收到f的影響,兩者之間密不可分,我們是可以把P(x)換成f(x)即:然而我們是不知道f(x),我們只是想要知道h,那么我們可以假裝h就是f,則結(jié)果為:接著,這里我們新增一個(gè)變量likelihood,它表示的是我們假裝的h會(huì)產(chǎn)生和f一模一樣的可能性大小。IfThenlikelihoodprobabilityusingfProbabilityusingfusuallylargeLikelihood(h)(probabilityusingf)largeg=likelihood(h)首先通常情況下,f產(chǎn)生真正資料的可能性是很大的,那么h產(chǎn)生資料的可能性大小和f真正產(chǎn)生資料的可能心大小應(yīng)該就很接近的,所以h和f是很接近的。然后我們想要的g就是從所有的h中去一個(gè)可能性最高的h來當(dāng)做我們的g,就是我們機(jī)器學(xué)習(xí)從數(shù)據(jù)資料中所學(xué)習(xí)出來的結(jié)果。由于logistic的特性,s型曲線,存在斜對(duì)稱性,并且,所以存在如果是這樣的話,我們可以把原來h即可能性寫成下面的樣子:注:這里的到P()都是一樣的,因?yàn)?,我們?cè)诤饬靠赡苄?,所以所有的h用的都是同樣的到,那么對(duì)于這樣的h來說,它們的值是相同的。最后,Likelihood(logistich)我們需要做的的事情就是從所有的h中找一個(gè)h,使得這個(gè)可能性likelihood是最高的。就是找一個(gè)maxlikelihood(logistich)即:這里是練乘,從算法上改成連加好點(diǎn),取個(gè)log,一番處理,得到:帶入最后我們得到logisticregressionerrorfunction:3.2.3邏輯回歸誤差函數(shù)求解接下來就開始求解,就是找一個(gè)w,讓最小,圖3.SEQ圖\*ARABIC\s16▽?duì)n(w)曲線圖第一步,就是把梯度算出來;下面開始求解:梯度的樣子,我們已經(jīng)求出來了,然后我們想要的結(jié)果是:既然梯度是用來對(duì),做一個(gè)加權(quán)平均的話,那么我們想要梯度的值是0,就需要所有的的值都是0才行,要使得所有的,只有一種情況就是>>0,這個(gè)的前提就是所有的都是同號(hào)的,那就需要所有的w取正,那就是只有在線性可分,可是現(xiàn)在不是線性可分,所有肯定會(huì)存在一個(gè)w和y相乘小于0,所以就不會(huì)以這樣的方法求出這個(gè)梯度,我們現(xiàn)在的不是一個(gè)線性方程,所以不能一步求解,所以我們要去PLA里面,PLA部分所做的就是,一步一步的探索,糾正錯(cuò)誤,再探索,再糾正的一個(gè)循環(huán)過程,就是從某一個(gè)w出發(fā),然后再想辦法修正這個(gè)w.每次勘探這個(gè)w在哪里犯的錯(cuò)誤,然后對(duì)這個(gè)錯(cuò)誤進(jìn)行修正,最后當(dāng)整個(gè)循環(huán)過程停止時(shí),把最后的w作為結(jié)果g返回。Fort=0,1,...findamistakeofcalled(Tryto)correctthemistakeby

Whenstop,returnlastwasg對(duì)于這個(gè)過程,有一個(gè)簡(jiǎn)化的步驟,就是隨便去一個(gè)點(diǎn),然后這個(gè)點(diǎn)有兩種情形,一種是對(duì)的,一種是錯(cuò)的,如果是錯(cuò)的就加上,如果是對(duì)的就加上前面的一項(xiàng)是0的項(xiàng),簡(jiǎn)答說就是不做處理。(equivalently)picksomen,andupdatebyWhenstopreturnlastwasg這里更新的式子里面有兩樣?xùn)|西,第一樣,v就是我們跟新的向量是多少,也代表了我們更新的方向,在PLA中,有錯(cuò)的話,表示就是更新錯(cuò)誤的方向,沒錯(cuò)的話,就是等同于不做處理。第二樣,就是我偷偷塞進(jìn)來的一個(gè)常量,這個(gè)常量就是表示我們走了多大的步

有了,就有不同的糾錯(cuò)方向,和走不同大小的步子,大體思路就是決定方向,走一步,再?zèng)Q定方向,再走一步,這樣的演算法我們叫Iterativeoptimization。圖3.SEQ圖\*ARABIC\s17IterativeOptimization曲線圖Fort=0,1Whenstop,returnlastwasgLinearapproximationAgreedyapproachforsomegiven>0:現(xiàn)在任然是一個(gè)非線性的公式,不好求解,所以我們想辦法變成線性的式子,每一條彎彎曲曲的曲線,如果我們只看一小段的話,看起來是跟線段是一樣的,在數(shù)學(xué)來說,我們可以把這個(gè)函數(shù),在它的周圍一小段線段的地方,用一個(gè)小的線段來表示。如果夠小的話,這里用到一維的泰勒展開,得到下面公式;

GradientdescentAnapproximategreedyapproachforsomegivensmall:這里我們想要得到最小的,又因?yàn)橐粋€(gè)是已知項(xiàng),一個(gè)是給予設(shè)定值項(xiàng)(givenpositive),所以想得到兩個(gè)向量的乘積的最小值,就需要兩個(gè)向量方向相反,因此:·optimalv:oppositedirectionof帶入我們這個(gè)最好的v,就得到我們理想的更新,就是往梯度的反方向進(jìn)行更新,·gradientdescent:forsmall,原本我們的是原先設(shè)定好的,現(xiàn)在需要確定什么樣的值最好,見圖3.8可能好理解一點(diǎn),就是下降梯度,太小太大都不好,適中的才好的,由圖3.8中可以看出,值固定并不好,應(yīng)該是坡度是正相關(guān)的,圖3.SEQ圖\*ARABIC\s18梯度下降η值選擇betterbemonotonicof我們可以簡(jiǎn)化一點(diǎn),因?yàn)楹褪浅杀壤年P(guān)系,這也是我們需要的,所以我們把看成,看下面的式子:注:這里的是一個(gè)新的,在機(jī)器學(xué)習(xí)里稱之為學(xué)習(xí)的速度,最后得出:最后分為兩步:computeupdatebyUntilorenoughiterationsReturnlastasg注:數(shù)值上來說要得到0是很困難的,實(shí)際上達(dá)到很接近谷底或接近0就可以了,最后返回第t+1個(gè)w作為我們g。第四章建立模型及其測(cè)試和驗(yàn)證本章主要是我們的實(shí)驗(yàn)內(nèi)容,具體實(shí)驗(yàn)內(nèi)容包括導(dǎo)入訓(xùn)練數(shù)據(jù),測(cè)試數(shù)據(jù),通過訓(xùn)練數(shù)據(jù)建立模型,通過測(cè)試數(shù)據(jù)測(cè)試模型以及用交叉驗(yàn)證檢驗(yàn)算法的準(zhǔn)確率同時(shí)和其他相似算法對(duì)比。4.1數(shù)據(jù)導(dǎo)入準(zhǔn)備和導(dǎo)入工作我從互聯(lián)網(wǎng)上找到一份關(guān)于病人心臟病二次發(fā)作概率的機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),即下文中將用到的RapidMiner.邏輯回歸_Training和RapidMiner.邏輯回歸_Scoring;圖4.SEQ圖\*ARABIC\s11導(dǎo)入數(shù)據(jù)第一步:在左下角的Repository中,點(diǎn)擊AddData,這是開始選擇數(shù)據(jù),見圖4.1;第二步:隨后會(huì)出現(xiàn)一個(gè)彈框,這里有兩個(gè)選項(xiàng),一個(gè)是MyComputer和Database,點(diǎn)擊MyComputer,從本地電腦中選擇么數(shù)據(jù)(一般是Excel表格數(shù)據(jù)),Database是軟件存儲(chǔ)的數(shù)據(jù)庫(kù),見圖4.1;圖4.SEQ圖\*ARABIC\s12導(dǎo)入數(shù)據(jù)完成第三步:隨后一直點(diǎn)擊next,中間有些設(shè)置的地方,有需要的可以設(shè)置,有的也可以在后面的設(shè)計(jì)中設(shè)置,直到最后Finish,完成數(shù)據(jù)庫(kù)的導(dǎo)入工作,見圖4.2;圖4.SEQ圖\*ARABIC\s13數(shù)據(jù)所在位置最后輸入我們給這組數(shù)據(jù)定義的名稱,點(diǎn)擊完成,在LocalRepository的data中就能看到我們導(dǎo)入的數(shù)據(jù)集了,見圖4.3。4.2建立邏輯斯蒂回歸模型本小節(jié)我們將用到前一小節(jié)導(dǎo)入的訓(xùn)練數(shù)據(jù)——Rapidminer.邏輯回歸_Training來建立模型以及對(duì)邏輯斯蒂回歸模型進(jìn)行分析。圖4.SEQ圖\*ARABIC\s14初次建立模型第一步:在左下角LocalRepository的data中導(dǎo)入訓(xùn)練數(shù)據(jù)集——RapidMiner.邏輯回歸_Training,導(dǎo)入數(shù)據(jù)見4.1節(jié);第二步:在左側(cè)的Operators選擇SetRole,拖入到Process中,點(diǎn)擊SetRole模塊在右側(cè)的Parameters中,為訓(xùn)練數(shù)據(jù)設(shè)置目標(biāo)結(jié)果項(xiàng),attributename選擇2nd_Heart_Attack,targetrole選擇為label,見圖4.4;第三步:在左側(cè)的Operators選擇LogisticRegression,然后導(dǎo)入LogisticRegression模型到Process中,見圖4.4;第四步:連接好每個(gè)模塊,點(diǎn)擊運(yùn)行按鈕,生成模型。下面是得到的模型的描述(Description)見圖4.5:圖4.SEQ圖\*ARABIC\s15LogisticRegressionDescription首先模型指標(biāo)類型是二項(xiàng)式GML,后面是模型的編號(hào),然后是幾個(gè)重要的模型參數(shù)軍方誤差MSE:0.067899734,R^2:0.728344,ROC曲線下的區(qū)域AUC:0.95735294,logloss損失函數(shù):0.24539642;后面是訓(xùn)練數(shù)據(jù)誤差分析,yes的有1個(gè)誤差項(xiàng),no的有6個(gè),誤差總比例7/138;這個(gè)還是很小的,最主要的就是后面的增益表,主要是以下項(xiàng):組,累積數(shù)據(jù)分?jǐn)?shù),下限閾值,提升,累積提升,響應(yīng)率,累積響應(yīng)率,捕獲率,累積捕獲率,增益,累積增益,通過這些數(shù)據(jù)可以看出,分為16組,在不斷的學(xué)習(xí)中,累計(jì)收益,累計(jì)捕獲率和累計(jì)響應(yīng)率最后變成0,其他的值也達(dá)到終點(diǎn)。下面是得到的模型的關(guān)于輸入項(xiàng)的數(shù)值(data)見圖4.6:圖4.SEQ圖\*ARABIC\s16LogisticRegressiondata有7個(gè)輸入信息項(xiàng),他們分別表示年齡,婚姻狀態(tài),性別,體重等級(jí),膽固醇水平,是否參加過壓力控制課程,應(yīng)對(duì)自然壓力水平,具體數(shù)值表示的這些因素對(duì)于病人心臟斌二次發(fā)作概率的影響。4.3測(cè)試邏輯斯蒂回歸模型本小節(jié)我們將用到前一小節(jié)導(dǎo)入的訓(xùn)練數(shù)據(jù)——Rapidminer.邏輯回歸_Scoring來測(cè)試剛建立的邏輯斯蒂回歸模型。圖4.SEQ圖\*ARABIC\s17LogisticRegression測(cè)試數(shù)據(jù)第一步:在左下角LocalRepository的data中導(dǎo)入訓(xùn)練數(shù)據(jù)集——RapidMiner.邏輯回歸_Scoring,導(dǎo)入數(shù)據(jù)見4.1節(jié);第二步:在左側(cè)的Operators選擇ApplyModel,拖入到Process中,然后把數(shù)據(jù)集的out出口連接到ApplyModel模塊的unl輸入端,見圖4.7;第三步:連接好每個(gè)模塊,點(diǎn)擊運(yùn)行按鈕,得到測(cè)試數(shù)據(jù)的結(jié)果,見圖4.8。圖4.SEQ圖\*ARABIC\s18LogisticRegression測(cè)試數(shù)據(jù)結(jié)果4.4幾種算法的交叉驗(yàn)證本小節(jié)做了logisticregression,linearregression和SupperVectorMachine的交叉驗(yàn)證實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)結(jié)果,圖4.SEQ圖\*ARABIC\s19交叉驗(yàn)證初始化第一步:在左下角LocalRepository的data中導(dǎo)入訓(xùn)練數(shù)據(jù)集——RapidMiner.邏輯回歸_Training,導(dǎo)入數(shù)據(jù)見4.1節(jié);第二步:在左側(cè)的Operators中,我們選擇SetRole,拖入到Process中,點(diǎn)擊SetRole模塊在右側(cè)的Parameters中,為訓(xùn)練數(shù)據(jù)設(shè)置目標(biāo)結(jié)果項(xiàng),attributename選擇2nd_Heart_Attack,targetrole選擇為label,見圖4.9;第三步:在左側(cè)的Operators中,我們選擇CrossValidation并把它拖入到Process中,鏈接CrossValidation(交叉驗(yàn)證模塊),然后鏈接輸出(見圖4.9)。第四步:點(diǎn)擊運(yùn)行按鈕,進(jìn)入交叉驗(yàn)證的Design部分;圖4.SEQ圖\*ARABIC\s110交叉驗(yàn)證logisticregression第五步:左邊從左側(cè)的Operators選擇需要驗(yàn)證的算法模塊,然后導(dǎo)入,算法主要有LogisticRegression,LinearRegression,SVM(見圖4.10)[13];第六步:右邊從左側(cè)的Operators中選擇我們的ApplyModel和Performance,然后導(dǎo)入,鏈接Performance(這里選擇Classification類型的,因?yàn)槲覀冏龅牡姆诸愡@塊的研究),見圖4.10;第七步:連接好每個(gè)模塊,點(diǎn)擊上方運(yùn)行按鈕,得到驗(yàn)證的結(jié)果分析,見圖4.10。圖4.SEQ圖\*ARABIC\s111LogisticRegression交叉驗(yàn)證結(jié)果下面是是我們用LinearRegression和SupperVectorMachine做交叉驗(yàn)證,再和我們主要研究的LogisticRegression對(duì)比;下面我直接給出交叉驗(yàn)證的第二步設(shè)計(jì)以及驗(yàn)證結(jié)果。Linearregression交叉驗(yàn)證設(shè)計(jì)第二部分:圖4.SEQ圖\*ARABIC\s112交叉驗(yàn)證linearregressionLinearregression交叉驗(yàn)證結(jié)果:圖4.SEQ圖\*ARABIC\s113LinearRegression交叉驗(yàn)證結(jié)果SupperVectorMachine交叉驗(yàn)證設(shè)計(jì)第二部分:圖4.SEQ圖\*ARABIC\s114交叉驗(yàn)證SupperVectorMachineSupperVectorMachine交叉驗(yàn)證結(jié)果:圖4.SEQ圖\*ARABIC\s115SupperVectorMachine交叉驗(yàn)證結(jié)果第五章結(jié)果分析本章節(jié)主要分析下本文做的實(shí)驗(yàn)的結(jié)果,通過對(duì)實(shí)驗(yàn)結(jié)果數(shù)據(jù)的分析,我們得到邏輯斯蒂回歸模型在處理二分類問題上擁有優(yōu)異的處理性能,而且相比較相似的算法準(zhǔn)去率更高。5.1通過建立出來的模型的數(shù)據(jù)顯示圖5.SEQ圖\*ARABIC\s11LogisticRegression模型數(shù)據(jù)上圖中的數(shù)據(jù)是我們建立的模型分析得出輸入的環(huán)境因素(age,Marital_Status,Gender,Weight_Category,Cholesterol,Stress_Management,Trait_Anxiety,Intercept)對(duì)輸出項(xiàng)的影響權(quán)重值,就是我們輸入的值,對(duì)于輸出值2nd_Heart_Attack的影響大小。從上圖中實(shí)驗(yàn)數(shù)據(jù),還有上述建立模型后的結(jié)果,簡(jiǎn)單分析下,Marital_Status,Weight_Category即病人的婚姻狀態(tài)和人員的體重對(duì)心臟病的二次發(fā)作影響比較大,然后病人的年齡,性別,是否參與壓力控制課程,及自然壓力水平和應(yīng)壓能力即Age,Gender,Stress_Management和Trait_Anxiety的值比較小,說明它們對(duì)于心臟病二次發(fā)作的可能性影響比較低,權(quán)重的值有正負(fù)之分,意思是對(duì)結(jié)果的影響有起到正作用和負(fù)作用,最后面的intercept不是環(huán)境因素,它是截距。5.2測(cè)試結(jié)果分析圖5.SEQ圖\*ARABIC\s12LogisticRegression測(cè)試結(jié)果數(shù)據(jù)第一例是序號(hào)列,第二例,淡綠色的那一列就是輸出項(xiàng)生成的目標(biāo)結(jié)果,表示的是心臟病是否會(huì)再次發(fā)作,后面的兩列黃色的是通過模型的出的發(fā)病的概率。通過用訓(xùn)練數(shù)據(jù)——RapidMiner.邏輯回歸_Training來建立模型,并且用測(cè)試數(shù)據(jù)——RapidMiner.邏輯回歸_Scoring來測(cè)試我們建立的模型來看,我們的模型準(zhǔn)確性很高,我們可以直接看到測(cè)試數(shù)據(jù)產(chǎn)生的結(jié)果,我們可以觀察這些數(shù)據(jù),一般婚姻狀態(tài)差(3表示喪偶),體重超標(biāo),膽固醇值比較高的,一般結(jié)果都為yes(可能發(fā)生心臟病二次發(fā)作),這使得我們對(duì)這個(gè)測(cè)試結(jié)果是表示信服的。5.3邏輯斯蒂回歸模型及其他模型算法的交叉驗(yàn)證對(duì)比accuracy:94.23%+/-4.35%(mikro:94.20%)表5.1LogisticRegressionTrueyesTruenoClassprecisionpred.Yes67790.54%pred.No16398.44%Classrecall98.53%90.00%accuracy:89.84%+/-5.50%(mikro:89.50%)表5.2LinearRegressionTrueyesTruenoClassprecisionpred.Yes61789.71%pred.No76390.00%Classrecall89.71%90.00%accuracy:85.98%+/-2.82%(mikro:85.95%)表5.3SupperVectorMachineTrueyesTruenoClassprecisionpred.Yes56690.32%pred.No126484.21%Classrecall82.35%91.43%通過第5章實(shí)驗(yàn)數(shù)據(jù)——表5.1-5.3來看,我們對(duì)這幾個(gè)模型進(jìn)行了交叉驗(yàn)證測(cè)試,然后通過數(shù)據(jù)結(jié)果的對(duì)比,結(jié)果如下:LogisticRegression的結(jié)果:accuracy:94.23%+/-4.35%(mikro:94.20%);LinearRegression的結(jié)果:accuracy:89.84%+/-5.50%(mikro:89.50%);SupperVectorMachine的結(jié)果:accuracy:85.98%+/-2.82%(mikro:85.95%);觀察上述表格數(shù)據(jù)結(jié)果,Trueyes表示的正確的數(shù)據(jù),Trueno表示不正確的數(shù)據(jù),classprecision表示類精度,通過數(shù)據(jù)的對(duì)比,可以很明顯的看出來LogisticRegression的準(zhǔn)確率要明顯高于Linearregression和SupperVectorMachine,所以對(duì)于分類的問題,LogisticRegression的優(yōu)勢(shì)還是明顯大于LinearRegression和SupperVectorMachine,這就說明對(duì)于解決分類這塊的問題,邏輯斯蒂回歸模型模型的算法設(shè)計(jì)是明顯優(yōu)于線性回歸算法和SupperVectorMachine算法的。第六章總結(jié)和展望6.1總結(jié)通過對(duì)機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究的學(xué)習(xí),對(duì)于機(jī)器學(xué)習(xí)的學(xué)習(xí)部分的結(jié)構(gòu),機(jī)器學(xué)習(xí)的分類,以及對(duì)機(jī)器學(xué)習(xí)的常用算法,如回歸算法,分類算法等的了解,本文用Rapidminer軟件做了一系列的實(shí)驗(yàn)來學(xué)習(xí)和研究我們的機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究。對(duì)于實(shí)驗(yàn)的理論知識(shí)部分,本文分析邏輯斯蒂回歸的特性,再加上機(jī)器學(xué)習(xí)的學(xué)習(xí)力流程設(shè)計(jì)出LogisticHypothesis,再結(jié)合邏輯斯蒂回歸模型分析出邏輯回歸誤差函數(shù),然后我們通過梯度下降法求解邏輯回歸誤差函數(shù),最后得出g。下面是實(shí)驗(yàn)部分,對(duì)于整個(gè)機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究的實(shí)驗(yàn),我個(gè)人將其分成兩大部分。第一部分——機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型的建立和測(cè)試,首先本文通過網(wǎng)絡(luò)資源尋找合適的數(shù)據(jù)集來做我們的實(shí)驗(yàn)的data,其次通過Rapidminer,我們需要把數(shù)據(jù)先導(dǎo)入到我們的軟件存儲(chǔ)數(shù)據(jù)的DB(數(shù)據(jù)庫(kù))中,然后將數(shù)據(jù)導(dǎo)入到模型建立設(shè)計(jì)中,再選擇SetRole即為數(shù)據(jù)集設(shè)置輸出項(xiàng)以及輸出項(xiàng)的數(shù)據(jù)類型,然后在軟件Rapidminer提供的算法中尋找邏輯斯蒂回歸即logisticregression拖入到設(shè)計(jì)模塊中,然后連接好模塊,點(diǎn)擊運(yùn)行按鈕,軟件自動(dòng)生成模型,接下來就是對(duì)于建立的模型進(jìn)行測(cè)試,我們需要從數(shù)據(jù)庫(kù)(DB)中導(dǎo)入我們的測(cè)試數(shù)據(jù),鏈接好到模型,點(diǎn)擊運(yùn)行按鈕,即可得知數(shù)據(jù)測(cè)試的結(jié)果。第二部分——邏輯斯蒂回歸算法和其他相似算法交叉驗(yàn)證對(duì)比,本實(shí)驗(yàn)部分主要研究邏輯斯蒂回歸算法在處理分類問題上是的優(yōu)缺點(diǎn)同相似算法比較,實(shí)驗(yàn)部分首先還是一樣,導(dǎo)入數(shù)據(jù)庫(kù)(DB)中的訓(xùn)練數(shù)據(jù),然后設(shè)置好輸出項(xiàng),以及其數(shù)據(jù)類型,選擇交叉驗(yàn)證模塊導(dǎo)入,設(shè)計(jì)模塊中鏈接好各模塊后,點(diǎn)擊運(yùn)行按鈕,進(jìn)入交叉驗(yàn)證的第二步,第二步分為左右兩側(cè),左側(cè)是選擇我們需要驗(yàn)證的算法,右側(cè)是應(yīng)用算法,并且通過performance顯示輸出的驗(yàn)證結(jié)果。通過整個(gè)機(jī)器學(xué)習(xí)及邏輯斯蒂回歸模型及應(yīng)用研究的學(xué)習(xí)和研究過程,本文實(shí)驗(yàn)部分得出的結(jié)果展示出,邏輯斯蒂回歸對(duì)于解決二分類問題準(zhǔn)確率的確要高于類似的解決分類的算法,例如線性回歸等,并且相比較其他的算法,邏輯斯蒂回歸算法的求解思路也是誤差較小的,機(jī)器學(xué)習(xí)對(duì)于邏輯斯蒂回歸的logistichypothesis的設(shè)計(jì)也是很準(zhǔn)確的把握邏輯斯蒂回歸的特性,邏輯斯蒂回歸是一條s型的曲線,有一定的對(duì)稱性,根據(jù)邏輯斯蒂回歸設(shè)計(jì)的hypothesis的長(zhǎng)相是更加符合機(jī)器學(xué)習(xí)模型的設(shè)計(jì)的,所以綜合來說機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型對(duì)于處理softbinaryclassification問題的確在目前的研究領(lǐng)域來說處于最優(yōu)地位。6.2展望本課題研究機(jī)器學(xué)習(xí)之邏輯斯蒂回歸及應(yīng)用研究,雖然對(duì)理論基礎(chǔ)知識(shí)做了理性的分析,以及從網(wǎng)上查找了合適的數(shù)據(jù)集來做實(shí)驗(yàn),通過一系列的實(shí)驗(yàn)研究,數(shù)據(jù)分析,取得了一定的成果,但是在邏輯斯蒂回歸模型原理,數(shù)據(jù)算法還是有待研究的,邏輯回歸的算法還是存在一點(diǎn)小瑕疵,我們最后的結(jié)果是取得一個(gè)接近0的點(diǎn),但是存在誤差范圍,本文做的實(shí)驗(yàn),實(shí)驗(yàn)部分基本是沒有問題的,想驗(yàn)證邏輯斯蒂回歸算法是否是最適合處理softbinaryclassification問題,我們還是需要大量的數(shù)據(jù)和實(shí)驗(yàn)結(jié)果來驗(yàn)證,所以想要驗(yàn)證邏輯斯蒂回歸模型的優(yōu)異性,還是欠缺大量實(shí)驗(yàn)數(shù)據(jù)來做比證。接下來我們還可以邏輯回歸的算法,還可以在研究下,怎么優(yōu)化模型,減小誤

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論