版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第6章回歸分析目錄CONTENTS6.1
回歸分析概述6.2線性回歸6.3邏輯回歸6.4本章小結(jié)6.1回歸分析概述學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高回歸分析通過研究一個(gè)或多個(gè)自變量與因變量的關(guān)系,建立自變量與因變量的數(shù)學(xué)模型,從而利用該模型進(jìn)行預(yù)測。根據(jù)自變量與因變量的個(gè)數(shù),回歸分析可分為一元回歸分析、多元回歸分析、邏輯回歸分析等。根據(jù)自變量與因變量的函數(shù)表達(dá)式可分為線性回歸和非線性回歸分析。線性回歸是回歸分析中最基本的分析方法,對于非線性回歸,可借助數(shù)學(xué)手段將其轉(zhuǎn)換為線性回歸來解決。線性回歸的數(shù)學(xué)公式可表示為:6.2線性回歸6.2.1單變量線性回歸假設(shè)數(shù)據(jù)集D={(x1,y1),(x2,y2),(x3,y3),…,(xm,ym)},它的線性模型就是試圖通過該數(shù)據(jù)集學(xué)習(xí)一個(gè)線性方程以進(jìn)行預(yù)測:為了學(xué)習(xí)到參數(shù)W和b,可用最小二乘逼近來擬合,預(yù)測函數(shù)h(x)與y之間的差值平方和為:6.2線性回歸梯度下降法分別對W和b求偏導(dǎo)來求解參數(shù)W和b:W和b的迭代求解:6.2單變量線性回歸defOptimization(x,y,w,lr,iter):m=len(x)alpha=lrh=0foriinrange(iter):sum0=0.0sum1=0.0forjinrange(m):h=w[0]+w[1]*x[j]sum1+=(h-y[j])*x[j]sum0+=(h-y[j])w[0]-=alpha*sum0/mw[1]-=alpha*sum1/mreturnw6.2線性回歸LinearRegression是sklearn.linear_model子類模塊下中的回歸模型,主要通過調(diào)用LinearRegression函數(shù)、fit函數(shù)和predict函數(shù)來訓(xùn)練和預(yù)測模型。LinearRegression(copy_X=True,fit_intercept=True,n_jobs=1,normalize=False)fit(X,y[,n_jobs])返回值分為兩個(gè)部分:coef_和intercept_,其中coef_存儲(chǔ)LinearRegression模型的回歸系數(shù)。intercept_存儲(chǔ)LinearRegression模型的回歸截距。::predict(X)主要是利用訓(xùn)練模型預(yù)測,使用訓(xùn)練得到的估計(jì)器或模型對輸入的X數(shù)據(jù)集進(jìn)行預(yù)測,返回結(jié)果為預(yù)測值。數(shù)據(jù)集X通常劃分為訓(xùn)練集和測試集:6.2線性回歸根據(jù)表6-1所示的房屋面積和房價(jià)之間的對應(yīng)關(guān)系,建立線性回歸模型。clf=LinearRegression()x=np.array(x)y=np.array(y)x=x.reshape(len(x),1)y=y.reshape(len(y),1)clf.fit(x,y)pre=clf.predict(x)plt.plot(x,pre)plt.xlabel('面積(平方米)')plt.ylabel('房價(jià)(萬元)')plt.show()6.2線性回歸(1)牛頓法求解線性回歸問題的原理假設(shè)要求f(x)的解,二階泰勒展開式為:將非線性優(yōu)化問題min
f(x)近似為二次函數(shù)的最優(yōu)化求解問題:6.2線性回歸牛頓法求解線性回歸問題的算法實(shí)現(xiàn)6.2線性回歸6.3.1多變量回歸分析原理對于多變量中的自變量與因變量的關(guān)系可表示為:(1)解析法求解利用最小二乘法最小代價(jià)函數(shù):對公式(8-19)中的參數(shù)求偏導(dǎo),則有:6.2線性回歸梯度下降法迭代公式:在數(shù)據(jù)量特別大的情況下,一般會(huì)使用梯度下降求解法。6.2線性回歸【例6-2】根據(jù)表6-2所示的運(yùn)輸里程、運(yùn)輸次數(shù)與運(yùn)輸總時(shí)間的對應(yīng)關(guān)系,利用解析法建立多元線性回歸模型。X=xdata[:,:-1]Y=xdata[:,-1]X_one=np.ones(len(X))X0=np.vstack(np.ones((len(X),1)))#10*1X=np.hstack((X0,X))X_T=np.transpose(X)#將X轉(zhuǎn)置X_TX=np.matmul(X_T,X)#計(jì)算X_T*XX_TX_inv=np.linalg.inv(X_TX)#計(jì)算(X_T*X)^(-1)X_TX_inv_X_T=np.matmul(X_TX_inv,X_T)#計(jì)算(X_T*X)^(-1)*X_TW=np.matmul(X_TX_inv_X_T,Y)#計(jì)算(X_T*X)^(-1)*X_T*Y,即W6.2線性回歸多項(xiàng)式回歸是線性回歸模型的一種,假設(shè)存在一個(gè)函數(shù),只有一個(gè)自變量,即只有一個(gè)特征屬性,滿足多項(xiàng)式函數(shù)如下:其損失函數(shù)為:6.2線性回歸【例6-4】根據(jù)給定的數(shù)據(jù)集x=[6,9,15,29,35,46,60,66,73,91,95],y=[16,25,61,67,51,38,36,49,68,82,98],擬合出多項(xiàng)式回歸曲線。deffit_poly(n):para=np.random.randn(n)w=leastsq(err_func,para,args=(np.array(x),np.array(y)))returnw[0]#返回多項(xiàng)式系數(shù)6.3邏輯回歸學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高為了提高分類器的魯棒性,需要降低線性回歸模型的敏感性,通過在線性模型中引入一個(gè)sigmoid函數(shù),可以有效提高分類的效果。sigmoid函數(shù)定義如下:基于線性函數(shù)的邏輯回歸分類模型定義為:sigmoid函數(shù)曲線如圖6-8所示。6.3邏輯回歸代價(jià)函數(shù)如公式6-31所示:為了避免陷入局部最低點(diǎn),我們可以將h(z)
的取值看作樣本屬于類1的后驗(yàn)概率,因此構(gòu)造符合特定條件的損失函數(shù):6.3邏輯回歸在參數(shù)下,極大似然函數(shù)為:其對數(shù)似然函數(shù)為:代價(jià)函數(shù)6.3邏輯回歸參數(shù)學(xué)習(xí)可用向量表示為:對樣本和標(biāo)簽用向量進(jìn)行表示:若用A表示線性輸出,則:6.3邏輯回歸真實(shí)標(biāo)簽與經(jīng)過sigmoid函數(shù)變換后的預(yù)測標(biāo)簽的誤差表示為:向量化的邏輯回歸算法描述如下:輸入:訓(xùn)練樣本X、標(biāo)簽y、學(xué)習(xí)步長、迭代次數(shù)、初始化參數(shù)。過程:(1)當(dāng)i<=N時(shí),重復(fù)執(zhí)行以下步驟,直至當(dāng)前均值向量不再更新:①計(jì)算A=。②計(jì)算誤差E=y-g(A)。③更新,使。(2)當(dāng)i>N時(shí),停止迭代,輸出參數(shù)的值。輸出:參數(shù)的值。6.4邏輯回歸1.查看數(shù)據(jù)利用Pandas在線下載樣本數(shù)據(jù),原始數(shù)據(jù)的下載地址為:。該數(shù)據(jù)共包含699條樣本,每個(gè)樣本有11列數(shù)據(jù),其中第1列是id,第2~10列是與腫瘤相關(guān)的特征,第11列表示腫瘤類型。6.3邏輯回歸2.缺失值處理使用()查看各屬性特征信息,其結(jié)果如圖9-3所示。由于“?”的存在,導(dǎo)致數(shù)據(jù)類型為object。數(shù)據(jù)共包含16個(gè)缺失值,將缺失值先轉(zhuǎn)換為NaN,然后再進(jìn)行刪除。data=data.replace(to_replace="?",value=np.NaN)data=data.dropna()查看是否還有缺失值情況,如圖9-4所示。6.3邏輯回歸3.選擇特征X=data.iloc[:,1:10]y=data["Class"]#分割數(shù)據(jù)X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)print(X_train,X_test,y_train,y_test)6.3邏輯回歸4.?dāng)?shù)據(jù)標(biāo)準(zhǔn)化data_standard=StandardScaler()X_train=data_standard.fit_transform(X_train)X_test=data_standard.transform(X_test)5.模型訓(xùn)練在對數(shù)據(jù)的缺失值進(jìn)行填充、劃分和標(biāo)準(zhǔn)化后,利用邏輯回歸函數(shù)對樣本進(jìn)行訓(xùn)練,從而得到邏輯回歸模型。LR_model=LogisticRegression()LR_model.fit(X_train,y_train)#邏輯回歸的模型參數(shù):回歸系數(shù)和偏置print("模型的回歸系數(shù):{}".format(LR_model.coef_))print("模型的回歸偏置:{}".format(LR_ercept_))
classPro1=k1/(n*v)6.3邏輯回歸對于腫瘤的預(yù)測,我們希望建立的模型在保證準(zhǔn)確率的前提下,對患有惡性腫瘤的病人能夠準(zhǔn)確篩選出來,這就是召回率(recall/查全率),即惡性腫瘤患者被診斷出的概率,與之對應(yīng)的評價(jià)指標(biāo)還有精確率(Precission),指的是被診斷為惡性腫瘤,確認(rèn)患有的概率是多少。在介紹召回率和準(zhǔn)確率之前,先來了解一下混淆矩陣(ConfusionMatrix)。對于二分類來說,其混淆矩陣為二行二列的,如表所示。6.3邏輯回歸(1)TP,即TruePostive,為真正例,樣本的真實(shí)類別是正例,且模型預(yù)測的結(jié)果也是正例。(2)FP,即FalsePositive,為假正例,樣本的真實(shí)類別是負(fù)例,但模型預(yù)測的結(jié)果為正例。(3)FN,即FalseNegative,為假負(fù)例,樣本的真實(shí)類別是正例,但模型預(yù)測的結(jié)果為負(fù)例。(4)TN,即TrueNegative,為真負(fù)例,樣本的真實(shí)類別是負(fù)例,且模型預(yù)測的結(jié)果也是負(fù)例。6.3邏輯回歸1.精確率與召回率精確率是指分類正確的正樣本占預(yù)測為正的樣本個(gè)數(shù)的比例,在信息檢索領(lǐng)域稱為查準(zhǔn)率。2.召回率召回率是指分類正確的正樣本占真正的正樣本個(gè)數(shù)的比例,在信息檢索領(lǐng)域稱為查全率。6.3邏輯回歸3.準(zhǔn)確率準(zhǔn)確率是指分類正確的樣本占總樣本個(gè)數(shù)的比例。4.F1-scoreF1-score是綜合考慮精確率和召回率的一個(gè)評價(jià)指標(biāo)。6.3邏輯回歸5.ROC曲線與AUC在分類模型中,ROC(ReceiverOperatingCharacteristicCurve,受試者工作特征曲線)曲線和AUC(AreaUnderROCCurve,ROC曲線下的面積)經(jīng)常作為衡量一個(gè)模型泛化性能的指標(biāo)。6.3邏輯回歸fori,valueinenumerate(thersholds):print("%f%f%f"%(fpr_train[i],tpr_train[i],value))plt.plot(fpr_train,tpr_train,'k--',label='ROC(面積={0:.2f})'.format(auc),lw=1)plt.plot([0,1],[0,1],color='navy',lw=2,linestyle='--')plt.xlabel('假正率')plt.ylabel('真正率')plt.title('ROC曲線')plt.legend(loc="lowerright")plt.rcParams['font.sans-serif']=['SimHei']#顯示中文plt.rcParams['axes.unicode_minus']=Falseplt.show()6.3邏輯回歸y_predict=LR_model.predict(X_test)#分類報(bào)告,'Benign','Malignant'良性和惡性,f1_score綜合評判精確率和召回率的分?jǐn)?shù)print(classification_report(y_test,y_predict,target_names=['Benign','Malignant']))roc_auc_score(y_test,y_predict)print("AUC指標(biāo):",roc_auc_score(y_test,y_predict))precisionrecallf1-scoresuppor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本相似度課程設(shè)計(jì)理念
- 節(jié)能減排項(xiàng)目外包合同
- 招標(biāo)公告酒店用品采購
- 婚前保證書樣本
- 工程分包合同的續(xù)簽策略
- 二手房屋買賣合同簽訂要點(diǎn)
- 水泥砂漿購買合同樣本
- 個(gè)人抵押貸款合同格式模板
- 航空器材購銷合同
- 食品添加劑生產(chǎn)銷售購銷合同
- 高端醫(yī)療器械招商方案
- 肝衰竭病人的護(hù)理
- 一年級詩詞大會(huì)(經(jīng)典誦讀比賽)課件
- GB/T 13296-2023鍋爐、熱交換器用不銹鋼無縫鋼管
- 公眾號(hào)運(yùn)維服務(wù)方案
- 第三課 民族問題的內(nèi)涵與產(chǎn)生根源 (1)課件
- 計(jì)算表-V型濾池
- 2023國家開放大學(xué)《經(jīng)濟(jì)學(xué)基礎(chǔ)》形考任務(wù)1-4參考答案
- 初中科學(xué)《九年級第四章集體備課》基于“大概念”理念的單元設(shè)計(jì)計(jì)劃課件
- 管理學(xué)原理 王光健版
- 中國標(biāo)準(zhǔn)文獻(xiàn)分類法二級目錄
評論
0/150
提交評論