畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)綜述:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第1頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)綜述:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第2頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)綜述:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第3頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)綜述:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第4頁
畢業(yè)設(shè)計(jì)(論文)文獻(xiàn)綜述:機(jī)器學(xué)習(xí)之邏輯斯蒂回歸模型及應(yīng)用研究_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢業(yè)設(shè)計(jì)(論文)--文獻(xiàn)綜述綜述題目機(jī)器學(xué)習(xí)之邏輯斯蒂回歸專業(yè)信息與計(jì)算科學(xué)姓名學(xué)號(hào)指導(dǎo)教師機(jī)器學(xué)習(xí)之邏輯斯蒂回歸摘要:二十一世紀(jì),我們已經(jīng)步入人工智能的時(shí)代,所以機(jī)器學(xué)習(xí),已經(jīng)漸漸深入到我們的日常生活中了,而且起到至關(guān)重要的作用,在生活中的許多領(lǐng)域,我們已經(jīng)在使用機(jī)器學(xué)習(xí)給我?guī)淼谋憷?,就像你淘寶購物,淘寶給你的推薦,你最近瀏覽的商品,你在醫(yī)院所留下的數(shù)據(jù),醫(yī)院也會(huì)對(duì)你的身體健康狀態(tài)的有個(gè)數(shù)值哦,本文介紹機(jī)器學(xué)習(xí),以及邏輯斯蒂回歸模型,學(xué)習(xí)它們,讓技術(shù)更豐富我們的生活。關(guān)鍵詞:機(jī)器學(xué)習(xí),算法,邏輯斯蒂回歸YuanJiankang(Hefei,AnhuiUniversityofArchitectureandArchitecture)Abstract:Inthetwenty-firstcentury,wehaveenteredtheeraofartificialintelligence,somachinelearninghasgraduallypenetratedintoourdailylife,andplayedavitalroleinmanyareasoflife,wehaveUsethemachinetolearntobringmetheconvenience,asyouTaobaoshopping,Taobaotoyourrecommendation,yourecentlybrowsethegoods,youleftinthehospitaldata,thehospitalwillbeonyourhealthstatusofavalueOh,thisarticledescribesmachinelearning,aswellastheLogisticregressionmodel,learningthem,makingtechnologyricherourlives.Keywords:machinelearning,algorithm,logicalregression一 機(jī)器學(xué)習(xí)1.一個(gè)故事說明機(jī)器學(xué)習(xí)定義這個(gè)例子來源于我真實(shí)的生活經(jīng)驗(yàn),我在思考這個(gè)問題的時(shí)候突然發(fā)現(xiàn)它的過程可以被擴(kuò)充化為一個(gè)完整的機(jī)器學(xué)習(xí)的過程,因此我決定使用這個(gè)例子作為所有介紹的開始。這個(gè)故事稱為“等人問題”【1】。我相信大家都有跟別人相約,然后等人的經(jīng)歷?,F(xiàn)實(shí)中不是每個(gè)人都那么守時(shí)的,于是當(dāng)你碰到一些愛遲到的人,你的時(shí)間不可避免的要浪費(fèi)。我就碰到過這樣的一個(gè)例子。對(duì)我的一個(gè)朋友小Y而言,他就不是那么守時(shí),最常見的表現(xiàn)是他經(jīng)常遲到。當(dāng)有一次我跟他約好3點(diǎn)鐘在某個(gè)麥當(dāng)勞見面時(shí),在我出門的那一刻我突然想到一個(gè)問題:我現(xiàn)在出發(fā)合適么?我會(huì)不會(huì)又到了地點(diǎn)后,花上30分鐘去等他?我決定采取一個(gè)策略解決這個(gè)問題。要想解決這個(gè)問題,有好幾種方法。第一種方法是采用知識(shí):我搜尋能夠解決這個(gè)問題的知識(shí)。但很遺憾,沒有人會(huì)把如何等人這個(gè)問題作為知識(shí)傳授,因此我不可能找到已有的知識(shí)能夠解決這個(gè)問題。第二種方法是問他人:我去詢問他人獲得解決這個(gè)問題的能力。但是同樣的,這個(gè)問題沒有人能夠解答,因?yàn)榭赡軟]人碰上跟我一樣的情況。第三種方法是準(zhǔn)則法:我問自己的內(nèi)心,我有否設(shè)立過什么準(zhǔn)則去面對(duì)這個(gè)問題?例如,無論別人如何,我都會(huì)守時(shí)到達(dá)。但我不是個(gè)死板的人,我沒有設(shè)立過這樣的規(guī)則。事實(shí)上,我相信有種方法比以上三種都合適。我把過往跟小Y相約的經(jīng)歷在腦海中重現(xiàn)一下,看看跟他相約的次數(shù)中,遲到占了多大的比例。而我利用這來預(yù)測(cè)他這次遲到的可能性。如果這個(gè)值超出了我心里的某個(gè)界限,那我選擇等一會(huì)再出發(fā)。假設(shè)我跟小Y約過5次,他遲到的次數(shù)是1次,那么他按時(shí)到的比例為80%,我心中的閾值為70%,我認(rèn)為這次小Y應(yīng)該不會(huì)遲到,因此我按時(shí)出門。如果小Y在5次遲到的次數(shù)中占了4次,也就是他按時(shí)到達(dá)的比例為20%,由于這個(gè)值低于我的閾值,因此我選擇推遲出門的時(shí)間。這個(gè)方法從它的利用層面來看,又稱為經(jīng)驗(yàn)法。在經(jīng)驗(yàn)法的思考過程中,我事實(shí)上利用了以往所有相約的數(shù)據(jù)。因此也可以稱之為依據(jù)數(shù)據(jù)做的判斷【2】。2.機(jī)器學(xué)習(xí)的定義從廣義上來說,機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。但從實(shí)踐的意義上來說,機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測(cè)的一種方法。3.機(jī)器學(xué)習(xí)的范圍其實(shí),機(jī)器學(xué)習(xí)跟模式識(shí)別,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘,計(jì)算機(jī)視覺,語音識(shí)別,自然語言處理等領(lǐng)域有著很深的聯(lián)系。從范圍上來說,機(jī)器學(xué)習(xí)跟模式識(shí)別,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘是類似的,同時(shí),機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等交叉學(xué)科。因此,一般說數(shù)據(jù)挖掘時(shí),可以等同于說機(jī)器學(xué)習(xí)。同時(shí),我們平常所說的機(jī)器學(xué)習(xí)應(yīng)用,應(yīng)該是通用的,不僅僅局限在結(jié)構(gòu)化數(shù)據(jù),還有圖像,音頻等應(yīng)用【3】。4.算法4.1回歸算法在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè):一.回歸算法比較簡(jiǎn)單,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石,如果不理解回歸算法,無法學(xué)習(xí)那些強(qiáng)大的算法?;貧w算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸【4】。線性回歸就是我們前面說過的房?jī)r(jià)求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?一般使用“最小二乘法”來求解?!白钚《朔ā钡乃枷胧沁@樣的,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值,而觀測(cè)到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī),可能求解不出來,也可能計(jì)算量太大。

邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質(zhì)上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測(cè)結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會(huì)點(diǎn)擊此廣告等等。實(shí)現(xiàn)方面的話,邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對(duì)數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè),例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。4.2神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落。現(xiàn)在,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯\o"大型網(wǎng)站架構(gòu)知識(shí)庫"\t"/baidu_24256693/article/details/_blank"架構(gòu)。在這個(gè)網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元,可以認(rèn)為是模擬了一個(gè)神經(jīng)元,若干個(gè)處理單元組成了一個(gè)層,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò),也就是"神經(jīng)網(wǎng)絡(luò)"[5]。在神經(jīng)網(wǎng)絡(luò)中,每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。4.3SVM(支持向量機(jī))支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù),則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。但是,通過跟高斯“核”的結(jié)合,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果?!昂恕笔聦?shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間[6]。4.4聚類算法前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的,而算法的目的則是通過訓(xùn)練,推測(cè)出這些數(shù)據(jù)的標(biāo)簽。這類算法有一個(gè)統(tǒng)稱,即無監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。4.5降維算法降維算法也是一種無監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實(shí)表示的是數(shù)據(jù)的特征量的大小,例如,房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜恚L(zhǎng)與寬事實(shí)上與面積表示的信息重疊了,例如面積=長(zhǎng)×寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時(shí)在計(jì)算上也能帶來加速。4.6推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益[7]。

二.邏輯斯蒂回歸模型1.簡(jiǎn)介L(zhǎng)ogit模型(Logitmodel,也譯作“評(píng)定模型”,“分類評(píng)定模型”,又作Logisticregression,“邏輯回歸”)是離散選擇法模型之一,屬于多重變量分析范疇,是社會(huì)學(xué)、生物統(tǒng)計(jì)學(xué)、臨床、數(shù)量心理學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、市場(chǎng)營銷等統(tǒng)計(jì)實(shí)證分析的常用方法。邏輯分布(Logisticdistribution)公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))其中參數(shù)β常用極大似然估計(jì)[8]。Logit模型是最早的離散選擇模型,也是目前應(yīng)用最廣的模型。Logit模型是Luce(1959)根據(jù)IIA特性首次導(dǎo)出的;Marschark(1960)證明了Logit模型與最大效用理論的一致性;Marley(1965)研究了模型的形式和效用非確定項(xiàng)的分布之間的關(guān)系,證明了極值分布可以推導(dǎo)出Logit形式的模型;McFadden(1974)反過來證明了具有Logit形式的模型效用非確定項(xiàng)一定服從極值分布。此后Logit模型在心理學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)及交通領(lǐng)域得到了廣泛的應(yīng)用,并衍生發(fā)展出了其他離散選擇模型,形成了完整的離散選擇模型體系,如Probit模型、NL模型(NestLogitmodel)、MixedLogit模型等。模型假設(shè)個(gè)人n對(duì)選擇枝j的效用由效用確定項(xiàng)和隨機(jī)項(xiàng)兩部分構(gòu)成:Logit模型的應(yīng)用廣泛性的原因主要是因?yàn)槠涓怕时磉_(dá)式的顯性特點(diǎn),模型的求解速度快,應(yīng)用方便。當(dāng)模型選擇集沒有發(fā)生變化,而僅僅是當(dāng)各變量的水平發(fā)生變化時(shí)(如出行時(shí)間發(fā)生變化),可以方便的求解各選擇枝在新環(huán)境下的各選擇枝的被選概率。根據(jù)Logit模型的IIA特性,選擇枝的減少或者增加不影響其他各選擇之間被選概率比值的大小,因此,可以直接將需要去掉的選擇枝從模型中去掉,也可將新加入的選擇枝添加到模型中直接用于預(yù)測(cè)[9]。Logit模型這種應(yīng)用的方便性是其他模型所不具有的,也是模型被廣泛應(yīng)用的主原因之一。2.相比其他模型的優(yōu)點(diǎn)

(1)模型考察了對(duì)兩種貨幣危機(jī)定義情況下發(fā)生貨幣危機(jī)的可能性,即利率調(diào)整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形,而以往的模型只考慮一種情況。(2)該模型不僅可以在樣本內(nèi)進(jìn)行預(yù)測(cè),還可以對(duì)樣本外的數(shù)據(jù)進(jìn)行預(yù)測(cè)。(3)模型可以對(duì)預(yù)測(cè)的結(jié)果進(jìn)行比較和檢驗(yàn),克服了以往模型只能解釋貨幣危機(jī)的局限。3.相比其他模型的缺點(diǎn)

雖然Logit模型能夠在一定程度上克服模型事后預(yù)測(cè)事前事件的缺陷,綜合了FR模型中FR概率分析法和KLR模型中信號(hào)分析法的優(yōu)點(diǎn),但是,它只是在利率、匯率等幾個(gè)主要金融資產(chǎn)或經(jīng)濟(jì)指標(biāo)的基礎(chǔ)上預(yù)警投機(jī)沖擊性貨幣危機(jī),與一般貨幣危機(jī)預(yù)警還有所差異。所以僅用幾個(gè)指標(biāo)來定義貨幣危機(jī)從而判斷發(fā)生貨幣危機(jī)的概率就會(huì)存在一定問題,外債、進(jìn)出口、外匯儲(chǔ)備、不良貸款等因素對(duì)貨幣危機(jī)的影響同樣非常重要。

三.總結(jié)機(jī)器學(xué)習(xí)是目前業(yè)界最為Amazing與火熱的一項(xiàng)技術(shù),從網(wǎng)上的每一次淘寶的購買東西,到自動(dòng)駕駛汽車技術(shù),以及網(wǎng)絡(luò)攻擊抵御系統(tǒng)等等,都有機(jī)器學(xué)習(xí)的因子在內(nèi),同時(shí)機(jī)器學(xué)習(xí)也是最有可能使人類完成AIdream的一項(xiàng)技術(shù),各種人工智能目前的應(yīng)用,如微軟小冰聊天機(jī)器人,到計(jì)算機(jī)視覺技術(shù)的進(jìn)步,都有機(jī)器學(xué)習(xí)努力的成分。作為一名當(dāng)代的計(jì)算機(jī)領(lǐng)域的開發(fā)或管理人員,以及身處這個(gè)世界,使用者IT技術(shù)帶來便利的人們,最好都應(yīng)該了解一些機(jī)器學(xué)習(xí)的相關(guān)知識(shí)與概念,因?yàn)檫@可以幫你更好的理解為你帶來莫大便利技術(shù)的背后原理,以及讓你更好的理解

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論