機器學習與應用:線性回歸、嶺回歸、邏輯回歸、聚類課件_第1頁
機器學習與應用:線性回歸、嶺回歸、邏輯回歸、聚類課件_第2頁
機器學習與應用:線性回歸、嶺回歸、邏輯回歸、聚類課件_第3頁
機器學習與應用:線性回歸、嶺回歸、邏輯回歸、聚類課件_第4頁
機器學習與應用:線性回歸、嶺回歸、邏輯回歸、聚類課件_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器學習與應用-第三天第二天知識回顧課程第三天1、回歸算法-線性回歸分析2、線性回歸實例3、回歸性能評估4、分類算法-邏輯回歸5、邏輯回歸實例6、聚類算法-kmeans7、k-means實例回歸算法-線性回歸分析回憶回歸問題的判定?線性模型試圖學得一個通過屬性的線性組合來進行預測的函數(shù):線性回歸預測結(jié)果與真實值是有一定的誤差單變量:多變量:損失函數(shù)(誤差大小)盡量去減少這個損失(兩種方式)如何去求模型當中的W,使得損失最???(目的是找到最小損失對應的W值)最小二乘法之正規(guī)方程(不做要求)注:X,y代表著什么?損失函數(shù)直觀圖(單變量舉例)w1w0直接求解到最小值最小二乘法之梯度下降(理解過程)我

2、們以單變量中的w0,w1為例子:理解:沿著這個函數(shù)下降的方向找,最后就能找到山谷的最低點,然后更新W值使用:面對訓練數(shù)據(jù)規(guī)模十分龐大的任務(wù)表示方向正規(guī)方程與梯度下降的對比?sklearn線性回歸正規(guī)方程、梯度下降A(chǔ)PIsklearn.linear_model.LinearRegression正規(guī)方程sklearn.linear_model.SGDRegressor梯度下降LinearRegression、SGDRegressorsklearn.linear_model.LinearRegression()普通最小二乘線性回歸coef_:回歸系數(shù)sklearn.linear_model.SGDR

3、egressor( )通過使用SGD最小化線性模型coef_:回歸系數(shù)線性回歸實例1、sklearn線性回歸正規(guī)方程、梯度下降A(chǔ)PI2、波士頓房價數(shù)據(jù)集分析流程波士頓房價數(shù)據(jù)案例分析流程1、波士頓地區(qū)房價數(shù)據(jù)獲取2、波士頓地區(qū)房價數(shù)據(jù)分割3、訓練與測試數(shù)據(jù)標準化處理4、使用最簡單的線性回歸模型LinearRegression和梯度下降估計SGDRegressor對房價進行預測回歸性能評估(均方誤差(Mean Squared Error)MSE) 評價機制:sklearn回歸評估APIsklearn.metrics.mean_squared_errormean_squared_error(y_t

4、rue,y_pred)均方誤差回歸損失y_true:真實值y_pred:預測值return:浮點數(shù)結(jié)果mean_squared_error注:真實值,預測值為標準化之前的值1、LinearRegression與SGDRegressor評估2、特點:線性回歸器是最為簡單、易用的回歸模型。從某種程度上限制了使用,盡管如此,在不知道特征之間關(guān)系的前提下,我們?nèi)匀皇褂镁€性回歸器作為大多數(shù)系統(tǒng)的首要選擇。小規(guī)模數(shù)據(jù):LinearRegression(不能解決擬合問題)以及其它大規(guī)模數(shù)據(jù):SGDRegressor問題:訓練數(shù)據(jù)訓練的很好啊,誤差也不大,為什么在測試集上面有問題呢?經(jīng)過訓練后,知道了天鵝是有

5、翅膀的,天鵝的嘴巴是長長的。簡單的認為有這些特征的都是天鵝。因為機器學習到的天鵝特征太少了,導致區(qū)分標準太粗糙,不能準確識別出天鵝。分析上圖1分析上圖2機器通過這些圖片來學習天鵝的特征,經(jīng)過訓練后,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的彎曲的,天鵝的脖子是長長的有點曲度,天鵝的整個體型像一個2且略大于鴨子。這時候機器已經(jīng)基本能區(qū)別天鵝和其他動物了。然后,很不巧已有的天鵝圖片全是白天鵝的,于是機器經(jīng)過學習后,會認為天鵝的羽毛都是白的,以后看到羽毛是黑的天鵝就會認為那不是天鵝。欠擬合過擬合模型復雜度過擬合與欠擬合過擬合:一個假設(shè)在訓練數(shù)據(jù)上能夠獲得比其他假設(shè)更好的擬合, 但是在訓練數(shù)據(jù)外的數(shù)據(jù)集

6、上卻不能很好地擬合數(shù)據(jù),此時認為這個假設(shè)出現(xiàn)了過擬合的現(xiàn)象。(模型過于復雜)欠擬合:一個假設(shè)在訓練數(shù)據(jù)上不能獲得更好的擬合, 但是在訓練數(shù)據(jù)外的數(shù)據(jù)集上也不能很好地擬合數(shù)據(jù),此時認為這個假設(shè)出現(xiàn)了欠擬合的現(xiàn)象。(模型過于簡單)對線性模型進行訓練學習會變成復雜模型欠擬合原因以及解決辦法原因:學習到數(shù)據(jù)的特征過少解決辦法:增加數(shù)據(jù)的特征數(shù)量過擬合原因以及解決辦法原因:原始特征過多,存在一些嘈雜特征,模型過于復雜是因為模型嘗試去兼顧各個測試數(shù)據(jù)點解決辦法:進行特征選擇,消除關(guān)聯(lián)性大的特征(很難做)交叉驗證(讓所有數(shù)據(jù)都有過訓練)正則化(了解)盡量減小高次項特征的影響作用:可以使得W的每個元素都很小,

7、都接近于0優(yōu)點:越小的參數(shù)說明模型越簡單,越簡單的模型則越不容易產(chǎn)生過擬合現(xiàn)象L2正則化帶有正則化的線性回歸-Ridgesklearn.linear_model.RidgeRidgesklearn.linear_model.Ridge(alpha=1.0)具有l(wèi)2正則化的線性最小二乘法alpha:正則化力度coef_:回歸系數(shù)觀察正則化程度的變化,對結(jié)果的影響?線性回歸 LinearRegression與Ridge對比嶺回歸:回歸得到的回歸系數(shù)更符合實際,更可靠。另外,能讓估計參數(shù)的波動范圍變小,變的更穩(wěn)定。在存在病態(tài)數(shù)據(jù)偏多的研究中有較大的實用價值。分類算法-邏輯回歸廣告點擊率判斷用戶的性別

8、預測用戶是否會購買給定的商品類判斷一條評論是正面的還是負面的邏輯回歸是解決二分類問題的利器邏輯回歸sigmoid函數(shù)邏輯回歸公式公式:輸出:0,1區(qū)間的概率值,默認0.5作為閥值注:g(z)為sigmoid函數(shù)邏輯回歸的損失函數(shù)、優(yōu)化(了解)與線性回歸原理相同,但由于是分類問題,損失函數(shù)不一樣,只能通過梯度下降求解對數(shù)似然損失函數(shù):完整的損失函數(shù):cost損失的值越小,那么預測的類別準確度更高當y=1時:sklearn邏輯回歸APIsklearn.linear_model.LogisticRegressionLogisticRegressionsklearn.linear_model.Logi

9、sticRegression(penalty=l2, C = 1.0)Logistic回歸分類器coef_:回歸系數(shù)LogisticRegression回歸案例良惡性乳腺癌腫瘤預測pd.read_csv(,names=column_names)column_names:指定類別名字,Sample code number,Clump Thickness, Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion, Single Epithelial Cell Size,Bare Nuclei,Bland Chromati

10、n,Normal Nucleoli,Mitoses,Classreturn:數(shù)據(jù)replace(to_replace=,value=):返回數(shù)據(jù)dropna():返回數(shù)據(jù)pandas使用良惡性乳腺癌腫分類流程1、網(wǎng)上獲取數(shù)據(jù)(工具pandas)2、數(shù)據(jù)缺失值處理、標準化3、LogisticRegression估計器流程LogisticRegression總結(jié)應用:廣告點擊率預測、電商購物搭配推薦優(yōu)點:適合需要得到一個分類概率的場景缺點:當特征空間很大時,邏輯回歸的性能不是很好(看硬件能力)多分類問題邏輯回歸解決辦法:1V1,1Vallsoftmax方法-邏輯回歸在多分類問題上的推廣將在后面的神

11、經(jīng)網(wǎng)絡(luò)算法中介紹非監(jiān)督學習的特點?“物以類聚,人以群分”非監(jiān)督學習(unsupervised learning)主要方法:k-meansk-means步驟1、隨機設(shè)置K個特征空間內(nèi)的點作為初始的聚類中心2、對于其他每個點計算到K個中心的距離,未知的點選擇最近的一個聚類中心點作為標記類別3、接著對著標記的聚類中心之后,重新計算出每個聚類的新中心點(平均值)4、如果計算得出的新中心點與原中心點一樣,那么結(jié)束,否則重新進行第二步過程k-means APIsklearn.cluster.KMeansKmeanssklearn.cluster.KMeans(n_clusters=8,init=k-means+)k-means聚類n_clusters:開始的聚類中心數(shù)量init:初始化方法,默認為k-means +labels_:默認標記的類型,可以和真實值比較(不是值比較)1、降維之后的數(shù)據(jù)2、k-means聚類3、聚類結(jié)果顯示k-means對Instacart Market用戶聚類Kmeans性能評估指標Kmeans性能評估指標APIsklearn.metric

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論