




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章緒論思維導(dǎo)圖1.1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)(MachineLearning)是一種人工智能(AI)分支,關(guān)注如何設(shè)計(jì)和開發(fā)算法和模型,使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí),不斷改進(jìn)和優(yōu)化,以完成特定任務(wù),而無須明確的程序指令。數(shù)據(jù)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)泛化能力任務(wù)多樣性迭代改進(jìn)1.2機(jī)器學(xué)習(xí)的發(fā)展歷史(1)起始階段(1950s—1960s):開始探索用機(jī)器來模擬人類智能的可能性,如邏輯推理和符號(hào)處理知識(shí)表達(dá)與專家系統(tǒng)(1970s—1980s):基于人類專家的知識(shí)構(gòu)建規(guī)則來做推理。連接主義與神經(jīng)網(wǎng)絡(luò)(1980s—1990s):通過模擬人腦神經(jīng)元的連接方式,研究人員開發(fā)出一些用于模式識(shí)別和分類任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。統(tǒng)計(jì)機(jī)器學(xué)習(xí)(1990s—2000s):統(tǒng)計(jì)方法在機(jī)器學(xué)習(xí)中變得更加流行。支持向量機(jī)(SVM)、決策樹、隨機(jī)森林等算法被廣泛應(yīng)用于分類、回歸和聚類問題。深度學(xué)習(xí)復(fù)興(2010s):隨著大規(guī)模數(shù)據(jù)集和強(qiáng)大的計(jì)算資源的可用性,深度學(xué)習(xí)在圖像識(shí)別、自然語言處理、語音識(shí)別等領(lǐng)域取得了突破性成果。特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等架構(gòu)對(duì)這一進(jìn)展起到了關(guān)鍵作用。強(qiáng)化學(xué)習(xí)和自動(dòng)化(2010s—至今):強(qiáng)化學(xué)習(xí)關(guān)注智能體如何在環(huán)境中采取行動(dòng)以最大化累積獎(jiǎng)勵(lì)。這個(gè)領(lǐng)域在游戲、機(jī)器人控制和金融交易等領(lǐng)域有著廣泛應(yīng)用。解釋性和可解釋性(2010s—至今):隨著機(jī)器學(xué)習(xí)應(yīng)用的增多,人們開始關(guān)注模型的解釋性和可解釋性。特別是在涉及法律、醫(yī)療等對(duì)解釋性有要求的領(lǐng)域,解釋模型的決策過程變得至關(guān)重要。1.2機(jī)器學(xué)習(xí)的發(fā)展歷史(2)1.3機(jī)器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)根據(jù)學(xué)習(xí)方式:1.3.1
監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指在給定輸入和輸出數(shù)據(jù)的情況下,學(xué)習(xí)輸入與輸出之間的映射關(guān)系,以便對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測。輸入數(shù)據(jù)通常稱為特征輸出數(shù)據(jù)通常稱為標(biāo)簽或目標(biāo)變量監(jiān)督是指已經(jīng)知道訓(xùn)練數(shù)據(jù)中期待的標(biāo)簽帶有離散分類標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)被稱為分類任務(wù)帶有連續(xù)的數(shù)值標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)被稱為回歸任務(wù)監(jiān)
督
學(xué)
習(xí)
的
流
程1.用于預(yù)測離散結(jié)果的分類給定新的數(shù)據(jù)x1和x2的值,可以通過此決策邊界對(duì)其進(jìn)行預(yù)測預(yù)
測
類
別0250個(gè)訓(xùn)練樣本34個(gè)標(biāo)簽為負(fù)類(0)16個(gè)標(biāo)簽為正類(1)紅色虛線為決策邊界訓(xùn)
練012.用于預(yù)測連續(xù)結(jié)果的回歸給定新的數(shù)據(jù)x的值,通過直線可以得到預(yù)測的連續(xù)數(shù)據(jù)均方誤差:(真實(shí)值-預(yù)測值)2預(yù)
測
回
歸02藍(lán)色圓圈:訓(xùn)練數(shù)據(jù)紅色直線:擬合直線訓(xùn)
練011.3.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)是關(guān)注從無標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)模式、結(jié)構(gòu)和關(guān)系,而無須提供明確的輸出標(biāo)簽。算法的目標(biāo)是從數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便進(jìn)行數(shù)據(jù)的聚類、降維、密度估計(jì)等任務(wù)。與監(jiān)督學(xué)習(xí)不同,無監(jiān)督學(xué)習(xí)沒有預(yù)先標(biāo)記的輸出結(jié)果無監(jiān)督學(xué)習(xí)通常用于探索數(shù)據(jù)的特征、發(fā)現(xiàn)隱藏的關(guān)系,以及生成新的有關(guān)數(shù)據(jù)的見解。1.用聚類尋找子群分為4個(gè)簇紅色五角星為聚類中心聚
類
效
果02簇內(nèi)的數(shù)據(jù)點(diǎn)應(yīng)該盡可能相似,而簇之間的數(shù)據(jù)點(diǎn)應(yīng)該有明顯的差異。聚
類01在市場分析中,將購買行為相似的客戶劃分為不同的市場細(xì)分,以便更好地定位市場營銷策略;在社交網(wǎng)絡(luò)中,識(shí)別具有相似興趣和關(guān)系的用戶群體;在圖像分割中,將圖像中相似顏色和紋理的像素分組,從而實(shí)現(xiàn)圖像的分割。2.2.通過降維壓縮數(shù)據(jù)無監(jiān)督降維是特征預(yù)處理中一種常用的數(shù)據(jù)去噪方法,用于減少數(shù)據(jù)的特征維度,保留最重要的信息,同時(shí)降低數(shù)據(jù)的復(fù)雜性。無監(jiān)督降維02高維數(shù)據(jù)指的是具有大量特征(維度)的數(shù)據(jù)集。高維數(shù)據(jù)集011.3.3半監(jiān)督學(xué)習(xí)在半監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)集同時(shí)包含有標(biāo)簽(已標(biāo)記)和無標(biāo)簽(未標(biāo)記)的樣本。目標(biāo)是利用這些未標(biāo)記樣本的信息來提高模型的性能和泛化能力。自訓(xùn)練(Self-Training)偽標(biāo)簽(Pseudo-Labeling)圖半監(jiān)督學(xué)習(xí)半監(jiān)督SVM生成模型半監(jiān)督學(xué)習(xí)1.3.3半監(jiān)督學(xué)習(xí)---自訓(xùn)練(Self-Training)使用已標(biāo)記數(shù)據(jù)訓(xùn)練初始模型,然后使用這個(gè)模型來預(yù)測未標(biāo)記數(shù)據(jù)的標(biāo)簽,并將其作為新的已標(biāo)記數(shù)據(jù)。這樣迭代多次,逐漸提高模型性能。自訓(xùn)練的一般步驟如下:
初始模型訓(xùn)練:使用帶標(biāo)簽的數(shù)據(jù)標(biāo)記未標(biāo)記的數(shù)據(jù):利用初始模型對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測,得到每個(gè)樣本的類別預(yù)測概率或類別標(biāo)簽。
再訓(xùn)練模型:將帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)與帶標(biāo)簽的數(shù)據(jù)一起,作為新的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行再訓(xùn)練。重復(fù)步驟2和3:迭代執(zhí)行步驟2和3,直到收斂或達(dá)到預(yù)設(shè)的迭代次數(shù)。1.3.3半監(jiān)督學(xué)習(xí)---偽標(biāo)簽(Pseudo-Labeling)偽標(biāo)簽方法類似于自訓(xùn)練,但在每次迭代時(shí),將模型對(duì)未標(biāo)記數(shù)據(jù)的預(yù)測作為“偽標(biāo)簽”來處理。這樣可以將未標(biāo)記數(shù)據(jù)轉(zhuǎn)化為帶標(biāo)簽的數(shù)據(jù),并與已標(biāo)記數(shù)據(jù)一起訓(xùn)練模型。自訓(xùn)練的一般步驟如下:
初始模型訓(xùn)練:使用帶標(biāo)簽的數(shù)據(jù)
標(biāo)記未標(biāo)記的數(shù)據(jù):利用初始模型對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測,通常會(huì)選擇預(yù)測概率高于某個(gè)閾值或置信度高的樣本,將其視為可靠的偽標(biāo)簽。(篩選)
再訓(xùn)練模型:將帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)與帶標(biāo)簽的數(shù)據(jù)一起,作為新的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行再訓(xùn)練。重復(fù)步驟2和3:迭代執(zhí)行步驟2和3,直到收斂或達(dá)到預(yù)設(shè)的迭代次數(shù)。1.3.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過智能體(Agent)與環(huán)境的交互,在不斷試錯(cuò)中學(xué)習(xí)如何采取行動(dòng)以最大化獎(jiǎng)勵(lì)信號(hào),從而實(shí)現(xiàn)自主決策。定義環(huán)境初始化選擇動(dòng)作與環(huán)境交互更新策略迭代學(xué)習(xí)訓(xùn)練終止評(píng)估性能它不需要給定數(shù)據(jù)的標(biāo)簽或類別,也不需要直接對(duì)數(shù)據(jù)進(jìn)行處理,而是通過智能體與環(huán)境的交互,學(xué)習(xí)如何從環(huán)境中獲取最大的獎(jiǎng)勵(lì)信號(hào)。以一個(gè)智能體學(xué)習(xí)在迷宮中找到寶藏為例來說明強(qiáng)化學(xué)習(xí)的過程:1.4
基本術(shù)語與符號(hào)(1)標(biāo)簽Dataset也稱為類別或目標(biāo)變量,是描述數(shù)據(jù)的一個(gè)變量FeatureLabel特征也稱為屬性,是描述數(shù)據(jù)的一些量。數(shù)據(jù)集機(jī)器學(xué)習(xí)模型需要從數(shù)據(jù)中學(xué)習(xí),數(shù)據(jù)集是機(jī)器學(xué)習(xí)模型使用的數(shù)據(jù)集合。1.4
基本術(shù)語與符號(hào)(2)模型TrainingSet模型是根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到的數(shù)據(jù)模式和規(guī)律的表示。它可以用于進(jìn)行預(yù)測、分類、聚類等任務(wù)。TestSetModel測試集測試集是用于評(píng)估機(jī)器學(xué)習(xí)模型性能的數(shù)據(jù)子集。模型在測試集上進(jìn)行預(yù)測,以衡量其在未見過的數(shù)據(jù)上的泛化能力。(高考真題)訓(xùn)練集訓(xùn)練集是用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)子集。模型根據(jù)訓(xùn)練集中的樣本學(xué)習(xí)數(shù)據(jù)的模式和規(guī)律。(高考模擬題)1.4
基本術(shù)語與符號(hào)(3)特征工程Training特征工程是指選擇、提取、轉(zhuǎn)換和創(chuàng)造特征,以改善模型的性能和泛化能力。TestingFeatureEngineering測試使用訓(xùn)練好的模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測的過程。訓(xùn)練使用數(shù)據(jù)集來學(xué)習(xí)模型的過程。1.4
基本術(shù)語與符號(hào)(4)標(biāo)簽OverfittingUnderfitting欠擬合指機(jī)器學(xué)習(xí)模型在訓(xùn)練集和測試集上表現(xiàn)都不好的情況,這是因?yàn)槟P瓦^于簡單,無法捕捉數(shù)據(jù)中的復(fù)雜性和變化。過擬合指機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)非常好,但在測試集上表現(xiàn)不佳的情況,這是因?yàn)槟P瓦^度擬合了訓(xùn)練集中的噪聲和隨機(jī)性。1.4.2基本符號(hào)1.5機(jī)器學(xué)習(xí)的過程1.6
將Python用于機(jī)器學(xué)習(xí)Python作為一種編程語言,為機(jī)器學(xué)習(xí)提供了便捷的實(shí)現(xiàn)工具。語法簡潔易懂豐富的庫和框架跨平臺(tái)易于集成龐大的社區(qū)支持搭建實(shí)驗(yàn)環(huán)境1.6.1安裝Python解釋器1.6.2安裝PyCharm1.6.3安裝Anaconda/downloads/windows/https://www.jetbrains.com/pycharm/download/CommunityEdition是免費(fèi)的/products/distribution1.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包NumPy:一個(gè)用于科學(xué)計(jì)算的庫,提供了高性能的多維數(shù)組對(duì)象及其相關(guān)操作。pandas:一個(gè)用于數(shù)據(jù)處理和分析的庫,提供了數(shù)據(jù)結(jié)構(gòu)和函數(shù),用于處理結(jié)構(gòu)化數(shù)據(jù)。Matplotlib:一個(gè)數(shù)據(jù)可視化庫,支持繪制各種圖表,如折線圖、散點(diǎn)圖、柱狀圖等。011.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包Seaborn:Seaborn是基于Matplotlib的高級(jí)繪圖庫,專注于統(tǒng)計(jì)數(shù)據(jù)可視化。scikit-learn:一個(gè)提供了各種機(jī)器學(xué)習(xí)算法的庫,如分類、回歸、聚類、降維等。TensorFlow:Google開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)框架,可以用于構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)模型。021.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包Keras:一個(gè)基于TensorFlow的高級(jí)神經(jīng)網(wǎng)絡(luò)API,提供了簡潔易用的界面,用于構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型。PyTorch:Facebook開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)框架,提供了靈活且易用的深度學(xué)習(xí)API。XGBoost:一個(gè)高效的梯度提升樹(GradientBoostingTree)實(shí)現(xiàn),適用于各種監(jiān)督學(xué)習(xí)任務(wù)。LightGBM:一個(gè)高效的梯度提升樹實(shí)現(xiàn),具有較低的內(nèi)存占用和更快的訓(xùn)練速度。spaCy:一個(gè)用于自然語言處理的庫,提供了詞性標(biāo)注、命名實(shí)體識(shí)別、依存關(guān)系解析等功能。03使用scikit-learn庫進(jìn)行鳶尾花分類任務(wù)(1)#導(dǎo)入所需的庫importnumpyasnpfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.metricsimportaccuracy_score#加載數(shù)據(jù)iris=load_iris()X=iris.datay=iris.target#劃分訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)python代碼實(shí)現(xiàn)使用scikit-learn庫進(jìn)行鳶尾花分類任務(wù)(1)#數(shù)據(jù)預(yù)處理scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.transform(X_test)#構(gòu)建模型model=KNeighborsClassifier(n_neighbors=3)#訓(xùn)練模型model.fit(X_train,y_train)#預(yù)測模型y_pred=model.predict(X_test)#評(píng)估模型accuracy=accuracy_score(y_test,y_pred)print("Accuracy:{:.2f}".format(accuracy))python代碼實(shí)現(xiàn)感謝觀看第二章模型評(píng)估與調(diào)優(yōu)思維導(dǎo)圖2.1訓(xùn)練誤差和過擬合錯(cuò)誤率:是指分類錯(cuò)誤的樣本數(shù)占總樣本數(shù)的比例精度:1-錯(cuò)誤率誤差:把學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本的真實(shí)輸出之間的差異訓(xùn)練誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差泛化誤差:在新樣本上的誤差01思考題那是不是訓(xùn)練誤差越小越好呢?我們希望得到泛化誤差小的學(xué)習(xí)器,然而,我們實(shí)現(xiàn)并不知道新樣本是什么樣?我們能做的是努力使訓(xùn)練誤差最小化。模型選擇模型選擇的目標(biāo):新樣本上表現(xiàn)好的學(xué)習(xí)器模型學(xué)習(xí)方法:應(yīng)該從訓(xùn)練樣本中盡可能學(xué)出適用于所有潛在樣本的“普遍規(guī)律”過擬合:把訓(xùn)練樣本的自身特點(diǎn)當(dāng)做了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣反而會(huì)導(dǎo)致泛化性能下降;欠擬合:對(duì)訓(xùn)練樣本的一般性質(zhì)沒有學(xué)好。欠擬合:比較容易克服,在決策樹學(xué)習(xí)中擴(kuò)展分支,在神經(jīng)網(wǎng)絡(luò)中增加訓(xùn)練輪數(shù)。過擬合:很麻煩,過擬合是機(jī)器學(xué)習(xí)面臨的關(guān)鍵障礙。各類學(xué)習(xí)算法都必然帶有一些針對(duì)過擬合的措施,然而必須認(rèn)識(shí)到,過擬合是無法徹底避免的,人們所能做的只是緩解,或者說減少風(fēng)險(xiǎn)。應(yīng)對(duì)措施02思考題在現(xiàn)實(shí)任務(wù)中,有多種學(xué)習(xí)算法可供選擇,甚至對(duì)同一個(gè)學(xué)習(xí)算法,當(dāng)使用不同的參數(shù)配置時(shí),也會(huì)產(chǎn)生不同的模型,那么應(yīng)該選用哪一種學(xué)習(xí)算法(模型)、使用哪一種參數(shù)配置呢?這就是機(jī)器學(xué)習(xí)中的模型選擇問題。2.2評(píng)估方法理想解決方案:對(duì)候選模型的泛化誤差進(jìn)行評(píng)估,然后選擇泛化誤差最小的那個(gè)模型,但無法直接獲得泛化誤差;訓(xùn)練誤差又由于過擬合現(xiàn)象的存在不適合作為標(biāo)準(zhǔn)?,F(xiàn)實(shí)解決方案:測試誤差作為泛化誤差的近似,使測試誤差最小。測試樣本也是從樣本真實(shí)分布中獨(dú)立同分布采樣而得,測試集和訓(xùn)練集盡可能互斥,即測試樣本盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。需使用一個(gè)“測試集”(testset)來測試學(xué)習(xí)器對(duì)新樣本的判別能力,然后以測試集上的“測試誤差”作為泛化誤差的近似。03思考題測試樣本為什么要盡可能不出現(xiàn)在訓(xùn)練集中呢?04思考題只有一個(gè)包含m個(gè)樣本的數(shù)據(jù)集D,既要訓(xùn)練又要測試,怎樣才能做到呢?2.2評(píng)估方法2.2.1留出法2.2.2交叉驗(yàn)證法2.2.4自助法2.2.3留一法交叉驗(yàn)證2.2.1留出法將數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和測試集。使用訓(xùn)練集來訓(xùn)練模型。使用測試集來評(píng)估模型的性能。根據(jù)測試集上的性能指標(biāo)來選擇最優(yōu)的模型。留出法步驟02它將數(shù)據(jù)集(D)隨機(jī)地分成訓(xùn)練集(train_set)和測試集(test_set)兩部分(8:2),這兩個(gè)集合互斥,然后使用訓(xùn)練集來訓(xùn)練模型,使用測試集來評(píng)估模型的性能,用測試誤差作為對(duì)泛化誤差的估計(jì)。留出法01留出法優(yōu)缺點(diǎn)克服缺點(diǎn)1)需要進(jìn)行若干次隨機(jī)劃分、重復(fù)進(jìn)行試驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。2)沒有完美的解決方案,2/3到4/5的樣本用于訓(xùn)練缺點(diǎn)數(shù)據(jù)集劃分存在隨機(jī)性評(píng)估結(jié)果存在不穩(wěn)定性優(yōu)點(diǎn)簡單易用,計(jì)算速度快,適用于小規(guī)模的數(shù)據(jù)集。2.2.2交叉驗(yàn)證法交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于k的取值,“k折交叉驗(yàn)證”k折交叉驗(yàn)證02交叉驗(yàn)證法01圖2-210折交叉驗(yàn)證示意圖重復(fù)p次不同的劃分,p次k折交叉驗(yàn)證結(jié)果的均值圖2-3訓(xùn)練誤差和測試誤差隨折數(shù)不同的變化圖訓(xùn)練誤差趨于穩(wěn)定,測試誤差剛開始下降比較迅速,但當(dāng)?shù)?次迭代以后,也趨于穩(wěn)定。10折交叉驗(yàn)證回歸模型的平均訓(xùn)練誤差為0.2130,說明模型在訓(xùn)練數(shù)據(jù)上擬合得相對(duì)不錯(cuò)。平均測試誤差為0.3360,測試誤差略高于訓(xùn)練誤差,但相對(duì)來說,這個(gè)誤差值仍然相對(duì)較小,說明該模型在未見過的數(shù)據(jù)上也能表現(xiàn)良好?!纠?-1】下面對(duì)包含了100個(gè)樣本點(diǎn)的數(shù)據(jù)集用一元線性回歸進(jìn)行擬合。此數(shù)據(jù)集使用np.random.rand(80)來生成一個(gè)包含100個(gè)隨機(jī)樣本的數(shù)組x,然后通過正弦函數(shù)和噪聲生成對(duì)應(yīng)的標(biāo)簽y。然后對(duì)100個(gè)樣本點(diǎn)進(jìn)行使用了KFold類來執(zhí)行K折交叉驗(yàn)證。將數(shù)據(jù)集分為10個(gè)折(K=10),然后迭代每個(gè)折,依次將每個(gè)折作為驗(yàn)證集,其他折作為訓(xùn)練集,訓(xùn)練模型并計(jì)算訓(xùn)練誤差和測試誤差。2.2.3留一法交叉驗(yàn)證留一法不受隨機(jī)采樣劃分方式的影響留一法的評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確優(yōu)點(diǎn)02定義01留一法交叉驗(yàn)證是k折交叉驗(yàn)證的特殊情況,當(dāng)k等于數(shù)據(jù)集大小時(shí),每個(gè)子集只包含一個(gè)樣本。當(dāng)數(shù)據(jù)集D比較大時(shí),訓(xùn)練m個(gè)模型的計(jì)算開銷可能是難以忍受的。留一法的估計(jì)結(jié)果也未必永遠(yuǎn)比其他評(píng)估方法準(zhǔn)確。缺點(diǎn)03圖2-4留一法的測試誤差和訓(xùn)練誤差變化圖留一法的訓(xùn)練誤差比較穩(wěn)定,平均值為0.2185,說明模型在訓(xùn)練數(shù)據(jù)上擬合得相對(duì)不錯(cuò)。留一法的測試誤差在剛開始時(shí)下降迅速,當(dāng)?shù)螖?shù)為4次以后逐漸趨于穩(wěn)定,平均測試誤差為0.2284,測試誤差略高于訓(xùn)練誤差,但相對(duì)來說,這個(gè)誤差值仍然相對(duì)較小,說明該模型在未見過的數(shù)據(jù)上也能表現(xiàn)良好。10折交叉驗(yàn)證的平均測試誤差為0.3360,由此表明留一法表現(xiàn)較好?!纠?-2】假設(shè)有100個(gè)樣本(生成方式與例1相同,用一元線性回歸模型進(jìn)行擬合數(shù)據(jù)點(diǎn)),拿99個(gè)做訓(xùn)練集,留1個(gè)測試。完成之后每份數(shù)據(jù)都恰好被用作一次測試集,對(duì)這100次測試的擬合度做平均,則可以得出這個(gè)模型的擬合度。03思考題希望評(píng)估的是用D訓(xùn)練出的模型。但在留出法和交叉驗(yàn)證法中,由于保留了一部分樣本用于測試,因此實(shí)際評(píng)估的模型比使用的訓(xùn)練集D小,這必然會(huì)引入一些因訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計(jì)偏差。留一法受訓(xùn)練樣本規(guī)模變化的影響較小,但計(jì)算復(fù)雜度太高。有沒有什么辦法可以減少訓(xùn)練樣本規(guī)模不同造成的影響,同時(shí)還能比較高效地進(jìn)行實(shí)驗(yàn)估計(jì)呢?2.2.4自助法0102圖2-5自助采樣法訓(xùn)練誤差和測試誤差變化情況此方法訓(xùn)練誤差在0.15和0.32之間波動(dòng),測試誤差在0.11和0.36之間波動(dòng);平均訓(xùn)練誤差為0.2167,平均測試誤差為0.2292;和留一法的訓(xùn)練誤差相比較低,但沒有留一法穩(wěn)定,測試誤差比留一法偏高,所以相對(duì)而言,留一法表現(xiàn)較好?!纠?-3】采用100個(gè)數(shù)據(jù)樣本點(diǎn),其生成方式與例1和例2相同,用一元線性回歸模型進(jìn)行擬合數(shù)據(jù)點(diǎn)),訓(xùn)練集和測試集的劃分采用自助采樣法,這里選擇100次采樣。自助法優(yōu)缺點(diǎn)適用場景在初始數(shù)據(jù)量足夠時(shí),留出法和交叉驗(yàn)證法更常用一些;當(dāng)初始數(shù)據(jù)量較小時(shí),可采用自助法。缺點(diǎn)自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差優(yōu)點(diǎn)在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測試集時(shí)很有用。能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,有利于集成學(xué)習(xí)。2.3優(yōu)化參數(shù):從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)到的參數(shù)超參數(shù):單獨(dú)優(yōu)化的算法參數(shù),此參數(shù)一般由人工設(shè)定。邏輯回歸的正則化參數(shù)或者決策樹的深度參數(shù)。調(diào)參:參數(shù)配置不同,學(xué)得模型的性能往往有顯著差別;還需對(duì)參數(shù)進(jìn)行設(shè)定,“參數(shù)調(diào)節(jié)”或簡稱“調(diào)參”。模型選擇基本的思路:對(duì)每種參數(shù)配置都訓(xùn)練出模型,然后把對(duì)應(yīng)最好模型的參數(shù)作為結(jié)果。模型選擇的基本思路參數(shù)取值問題在實(shí)數(shù)范圍內(nèi)取值,對(duì)每種參數(shù)配置都訓(xùn)練出模型來是不可行的。對(duì)每個(gè)參數(shù)選定一個(gè)范圍和變化步長,[0,0.2]步長為0.05,5個(gè)參數(shù)。參數(shù)組合問題每一組訓(xùn)練/測試集就有55=3125個(gè)模型需要考察導(dǎo)致極大的調(diào)參工程驗(yàn)證集從訓(xùn)練集劃分出來的集合稱為驗(yàn)證集,專門用來調(diào)參數(shù)的,通過驗(yàn)證集把參數(shù)確定好,也就是最終的模型確定好,然后用測試集來對(duì)模型進(jìn)行評(píng)估。對(duì)每種參數(shù)配置都訓(xùn)練出模型,然后把對(duì)應(yīng)最好模型的參數(shù)作為結(jié)果。2.3.1用學(xué)習(xí)和驗(yàn)證曲線調(diào)試算法在調(diào)試機(jī)器學(xué)習(xí)算法時(shí),學(xué)習(xí)曲線和驗(yàn)證曲線是兩個(gè)非常有用的工具,它們可以幫助人們了解模型的性能和訓(xùn)練過程中的問題。驗(yàn)證曲線通過調(diào)整模型參數(shù)來調(diào)優(yōu)模型。學(xué)習(xí)曲線可以幫助人們評(píng)估模型圖2-6學(xué)習(xí)曲線【例2-4】用支持向量機(jī)對(duì)鳶尾花數(shù)據(jù)集進(jìn)行分類,使用Python中的scikit-learn庫來創(chuàng)建和訓(xùn)練模型,然后使用matplotlib庫來繪制學(xué)習(xí)曲線和驗(yàn)證曲線圖2-7驗(yàn)證曲線
2.3.2通過網(wǎng)格搜索調(diào)優(yōu)機(jī)器學(xué)習(xí)模型網(wǎng)格搜索方法非常簡單,它屬于暴力窮舉搜索類型,預(yù)先定義好不同的超參數(shù)值,然后讓計(jì)算機(jī)針對(duì)每種組合分別評(píng)估模型的性能,從而獲得最優(yōu)組合參數(shù)值。通過嵌套式交叉驗(yàn)證選擇算法通過網(wǎng)格搜索調(diào)優(yōu)超參數(shù)1.通過網(wǎng)格搜索調(diào)優(yōu)超參數(shù)(1)利用網(wǎng)格搜索交叉驗(yàn)證來尋找SVM模型在鳶尾花數(shù)據(jù)集上的最佳參數(shù)組合,并在測試集上評(píng)估模型的性能,代碼實(shí)現(xiàn)如下:importnumpyasnpfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.svmimportSVCfromsklearn.model_selectionimportGridSearchCV#加載數(shù)據(jù)集iris=load_iris()X,y=iris.data,iris.target#將數(shù)據(jù)集分為訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#創(chuàng)建一個(gè)SVM分類器svm_classifier=SVC()1.通過網(wǎng)格搜索調(diào)優(yōu)超參數(shù)(2)#定義參數(shù)網(wǎng)格param_grid={'C':[0.1,1,10],'gamma':[0.1,1,10],'kernel':['linear','rbf']}#創(chuàng)建GridSearchCV實(shí)例grid_search=GridSearchCV(svm_classifier,param_grid,cv=5,scoring='accuracy')#在訓(xùn)練集上執(zhí)行網(wǎng)格搜索grid_search.fit(X_train,y_train)#輸出最佳參數(shù)和對(duì)應(yīng)的交叉驗(yàn)證準(zhǔn)確率print("BestParameters:",grid_search.best_params_)print("BestCross-ValidationAccuracy:",grid_search.best_score_)#在測試集上評(píng)估模型性能best_model=grid_search.best_estimator_test_accuracy=best_model.score(X_test,y_test)print("TestAccuracy:",test_accuracy)根據(jù)三個(gè)參數(shù)的不同取值構(gòu)造出了3×3×2=18種模型。1.通過網(wǎng)格搜索調(diào)優(yōu)超參數(shù)(3)運(yùn)行結(jié)果:2.通過嵌套式交叉驗(yàn)證選擇算法內(nèi)層循環(huán)通過網(wǎng)格搜索等方式選擇最佳的參數(shù)組合或模型;在外層循環(huán)中,使用選定的算法、參數(shù)或模型在測試集上評(píng)估性能。05思考題如何評(píng)估模型的性能優(yōu)劣?泛化性能實(shí)驗(yàn)估計(jì)方法性能度量:衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)任務(wù)需求2.4.1錯(cuò)誤率與準(zhǔn)確率預(yù)測為真,實(shí)際上也為真的數(shù)據(jù)真陽性(TP)預(yù)測為真,實(shí)際上為假的數(shù)據(jù)假陽性(FP)預(yù)測為假,但實(shí)際上為真的數(shù)據(jù)假陰性(FN)預(yù)測為假,實(shí)際上也為假的數(shù)據(jù)真陰性(TN)錯(cuò)誤率是分類任務(wù)中的一種性能度量,它表示分類器在所有樣本中預(yù)測錯(cuò)誤的比例?;煜仃囀怯糜诿枋龇诸惾蝿?wù)中分類器性能的一種矩陣。
表2-1混淆矩陣
預(yù)測為陽性
預(yù)測為陰性實(shí)際為陽性 TPFN實(shí)際為陰性 FPTN錯(cuò)誤率(Err)=(預(yù)測錯(cuò)誤的樣本數(shù))/(總樣本數(shù))準(zhǔn)確率=(預(yù)測正確的樣本數(shù))/(總樣本數(shù))03思考題錯(cuò)誤率和準(zhǔn)確率雖常用,但并不能滿足所有任務(wù)需求,做研究經(jīng)常查閱資料,假如想搜索關(guān)于分類學(xué)習(xí)目前都有哪些算法?在搜索結(jié)果中會(huì)關(guān)心“檢索出的信息中有多少比例是關(guān)于分類學(xué)習(xí)算法的?”或者“所有分類學(xué)習(xí)算法有多少比例被挑了出來?”2.4.2查準(zhǔn)率、查全率與F1(1)它表示分類器預(yù)測為正例的樣本中,實(shí)際為正例的比例。查準(zhǔn)率(Precision)01F1值越大,性能越好。F1度量03又稱召回率,它表示實(shí)際為正例的樣本中,被分類器正確預(yù)測為正例的比例。查全率(Recall)02P-R曲線特別適用于不平衡數(shù)據(jù)集。它顯示了在不同閾值下的查準(zhǔn)率(Precision)和查全率(Recall)之間的關(guān)系。2.4.2查準(zhǔn)率、查全率與F1(2)04平均查全率06平均查準(zhǔn)率05平均F1值072.4.3ROC與AUC是指實(shí)際觀測為陽的樣本中,模型能夠正確識(shí)別出來的比例。真陽性率(TPR)是指實(shí)際觀測為陰的樣本中,被模型錯(cuò)誤地劃分成陽性的比例。假陽性率(FPR)以FPR為橫軸,以TPR(也稱為靈敏度或召回率)為縱軸繪制,
在不同閾值下ROC曲線計(jì)算曲線下的面積為AUC,可以評(píng)估模型性能,AUC值越大,模型性能越好AUC接收者操作特征曲線(ReceiverOperatingCharacteristicCurve,ROC曲線)是評(píng)估二分類模型性能的常用工具。它可以幫助理解模型在不同閾值下的表現(xiàn),以及在真陽性率(TruePositiveRate,TPR)和假陽性率(FalsePositiveRate,F(xiàn)PR)之間的權(quán)衡。預(yù)測為陽性
預(yù)測為陰性實(shí)際為陽性 TPFN實(shí)際為陰性 FPTN此模型AUC=0.91,可見此模型性能較好。TPR反映了模型在識(shí)別真實(shí)正例時(shí)的能力FPR反映了模型在識(shí)別真實(shí)陰樣本時(shí)的錯(cuò)誤率TPR和FPR來評(píng)價(jià)一個(gè)模型的預(yù)測能力。TPR越高、FPR越低,說明模型的預(yù)測能力越好。2.4.4多元分類評(píng)分指標(biāo)宏平均計(jì)算每個(gè)類別的指標(biāo)后取平均,它在計(jì)算每個(gè)類別的指標(biāo)時(shí)對(duì)每個(gè)類別都給與了相同的權(quán)重,不考慮各類別樣本數(shù)量的差異。宏平均01微平均則是在所有類別上求和后計(jì)算指標(biāo),微平均考慮了每個(gè)樣本的貢獻(xiàn),而不是每個(gè)類別的貢獻(xiàn)。微平均適用于當(dāng)關(guān)注整體性能,而不考慮各個(gè)類別之間的重要性或樣本數(shù)量差異時(shí)。微平均02感謝觀看第3章回歸分析思維導(dǎo)圖01思考題父輩高的群體,兒輩的平均身高低于父輩的身高;父輩矮的群體,兒輩的平均身高高于其父輩的身高。分析此現(xiàn)象的原因?3.1引言回歸分析是研究因變量與自變量之間的依存關(guān)系,用自變量的已知值或固定值來估計(jì)或預(yù)測因變量的總體平均值3.1.1回歸分析的概述回歸分析是一種統(tǒng)計(jì)學(xué)方法,用于研究自變量(或預(yù)測變量)與因變量之間的關(guān)系。在回歸分析中,試圖建立一個(gè)數(shù)學(xué)模型來描述自變量與因變量之間的關(guān)系,并使用該模型進(jìn)行預(yù)測和推斷。經(jīng)濟(jì)學(xué):GDP與就業(yè)率;通貨膨脹與銀行利率金融學(xué):股票價(jià)格與市盈率、市凈率、財(cái)務(wù)指標(biāo)醫(yī)學(xué):探索疾病與遺傳因素、生活方式、環(huán)境因素社會(huì)科學(xué):教育成果與家庭背景、犯罪率與社會(huì)經(jīng)濟(jì)因素等市場營銷:研究市場需求和消費(fèi)者行為工程和科學(xué)領(lǐng)域:建立物理模型和預(yù)測性模型3.1.2回歸分析的目標(biāo)回歸分析的目標(biāo)是通過建立一個(gè)數(shù)學(xué)模型來描述自變量與因變量之間的關(guān)系,并利用該模型進(jìn)行以下幾個(gè)方面的分析和預(yù)測1)描述關(guān)系:可以確定自變量對(duì)因變量的影響方向和程度。2)預(yù)測因變量:用于預(yù)測因變量的數(shù)值3)確定影響因素:確定哪些自變量對(duì)因變量的影響最為顯著4)模型比較和選擇3.1.3回歸分析的步驟回歸分析用于探索自變量和因變量之間的關(guān)系并建立數(shù)學(xué)模型來描述這種關(guān)系,其基本原理可以概括為以下幾個(gè)步驟:1)數(shù)據(jù)收集:自變量和因變量
,隨機(jī),總體2)建立假設(shè):兩者關(guān)系的假設(shè)3)模型選擇:適當(dāng)4)模型擬合:最小二乘法5)模型評(píng)估:擬合程度和統(tǒng)計(jì)顯著性6)解釋和預(yù)測:3.2一元線性回歸最小二乘法求參數(shù)w和b3.2.2參數(shù)w和b的推導(dǎo)過程02一元線性回歸是針對(duì)單個(gè)特征(解釋變量、自變量x)和連續(xù)響應(yīng)值(目標(biāo)變量、因變量y)之間的關(guān)系進(jìn)行建模3.2.1一元線性回歸模型01033.2.3參數(shù)w和b求解的代碼實(shí)現(xiàn)3.2.1一元線性回歸模型公式:y=f(x)=wx+b其中,b代表軸截距,w代表特征變量x的加權(quán)系數(shù)。02思考題哪條直線擬合這些樣本點(diǎn)更好呢?圖3-1直線擬合樣本點(diǎn)圖3-2直線擬合樣本點(diǎn)的誤差3.2.2參數(shù)w和b的推導(dǎo)過程(1)3.2.2參數(shù)w和b的推導(dǎo)過程(2)3.2.2參數(shù)w和b求解的代碼實(shí)現(xiàn)(1)classSimpleLinearRegression:def__init__(self):self.w=Noneself.b=Nonedeffit(self,x,y):n=len(x)sum_x=sum(x)sum_y=sum(y)sum_x_squared=sum(x_i*x_iforx_iinx)sum_xy=sum(x[i]*y[i]foriinrange(n))self.w=(n*sum_xy-sum_x*sum_y)/(n*sum_x_squared-sum_x*sum_x)self.b=(sum_y-self.w*sum_x)/ndefpredict(self,x):return[self.w*xi+self.bforxiinx]3.2.2參數(shù)w和b求解的代碼實(shí)現(xiàn)(2)#示例用法x=[1,2,3,4,5]y=[2,3,4,5,6]#創(chuàng)建模型實(shí)例model=SimpleLinearRegression()#擬合模型model.fit(x,y)#輸出參數(shù)print("斜率w:",model.w)print("截距b:",model.b)#進(jìn)行預(yù)測new_x=[6,7,8]predicted_y=model.predict(new_x)print("預(yù)測結(jié)果:",predicted_y)運(yùn)行結(jié)果:斜率w:1.0截距b:1.0預(yù)測結(jié)果:[7.0,8.0,9.0]3.3多元線性回歸3.3.2參數(shù)W求解的代碼實(shí)現(xiàn)023.3.1多元線性回歸模型和參數(shù)求解01在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸。3.3.1多元線性回歸模型和參數(shù)求解(1)3.3.1多元線性回歸模型和參數(shù)求解(2)3.3.1多元線性回歸模型和參數(shù)求解(3)3.3.1多元線性回歸模型和參數(shù)求解(4)3.3.1多元線性回歸模型和參數(shù)求解(5)3.3.1多元線性回歸模型和參數(shù)求解(6)3.3.2參數(shù)W求解的代碼實(shí)現(xiàn)(1)importnumpyasnpclassMultipleLinearRegression:def__init__(self):self.coefficients=Nonedeffit(self,X,y):n,m=X.shapeX_design=np.column_stack([X,np.ones(n)])#加入一列常數(shù)項(xiàng)
self.coefficients=np.linalg.inv(X_design.T@X_design)@X_design.T@ydefpredict(self,X):n,m=X.shapeX_design=np.column_stack([X,np.ones(n)])#加入一列常數(shù)項(xiàng)returnX_design@self.coefficients@代表矩陣
相乘3.3.2參數(shù)W求解的代碼實(shí)現(xiàn)(2)#示例用法X=np.array([[1,2,3],[2,3,4],[3,4,5],[4,5,6]])#輸入數(shù)據(jù)X為非奇異矩陣y=np.array([3,4,5,6])#創(chuàng)建模型實(shí)例model=MultipleLinearRegression()#擬合模型model.fit(X,y)#輸出參數(shù)print("回歸系數(shù):",model.coefficients)#進(jìn)行預(yù)測new_X=np.array([[5,6,7]])#新的輸入數(shù)據(jù)predicted_y=model.predict(new_X)print("預(yù)測結(jié)果:",predicted_y)運(yùn)行結(jié)果:回歸系數(shù):[-1.75-1.8753.0.]預(yù)測結(jié)果:[1.]3.4
對(duì)率回歸3.4.4參數(shù)求解的代碼實(shí)現(xiàn)043.4.1對(duì)率回歸模型01對(duì)率回歸就是在線性回歸的基礎(chǔ)上舔磚加瓦,構(gòu)建出的一種分類模型。3.4.2損失函數(shù)推導(dǎo)023.4.3參數(shù)更新公式推導(dǎo)033.4.1
對(duì)率回歸模型單位階躍函數(shù)性質(zhì)不好,既不連續(xù)也不可微3.4.1
對(duì)率回歸模型對(duì)率回歸的優(yōu)點(diǎn)對(duì)率回歸是直接對(duì)分類可能性進(jìn)行建模,無須事先假設(shè)數(shù)據(jù)分布,這樣就避免了假設(shè)分布不準(zhǔn)確所帶來的問題;用極大似然估計(jì)確定最優(yōu)參數(shù);對(duì)率回歸不是僅僅預(yù)測出類別,而是可得到“類別”的近似概率預(yù)測,這對(duì)許多需要利用概率輔助決策的任務(wù)很有用。對(duì)率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù),有很好的數(shù)學(xué)性質(zhì),現(xiàn)在有許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解。用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率,因此,其對(duì)應(yīng)的模型稱為“對(duì)數(shù)幾率回歸”。3.4.2損失函數(shù)推導(dǎo)(1)3.4.2損失函數(shù)推導(dǎo)(2)3.4.2損失函數(shù)推導(dǎo)(3)3.4.3參數(shù)更新公式推導(dǎo)(1)3.4.3參數(shù)更新公式推導(dǎo)(2)整理一下得到式(3-28):最終參數(shù)更新公式如(3-29)所示3.4.4參數(shù)求解的代碼實(shí)現(xiàn)(1)importnumpyasnpclassLogisticRegression:def__init__(self,learning_rate=0.01,num_iterations=1000):self.learning_rate=learning_rateself.num_iterations=num_iterationsself.wb=Nonedefsigmoid(self,z):return1/(1+np.exp(-z))3.4.4參數(shù)求解的代碼實(shí)現(xiàn)(2)deffit(self,X,y):n,m=X.shapeself.wb=np.zeros(m+1)#初始化權(quán)重向量和偏置項(xiàng)X_design=np.column_stack([X,np.ones(n)])#加入一列常數(shù)項(xiàng)foriinrange(self.num_iterations):
linear_model=np.dot(X_design,self.wb)y_predicted=self.sigmoid(linear_model)dwb=(1/n)*np.dot(X_design.T,(y_predicted-y))self.wb-=self.learning_rate*dwbdefpredict(self,X):n,m=X.shapeX_design=np.column_stack([X,np.ones(n)])#加入一列常數(shù)項(xiàng)linear_model=np.dot(X_design,self.wb)y_predicted=self.sigmoid(linear_model)y_predicted_cls=[1ifi>0.5else0foriiny_predicted]returny_predicted_cls3.4.4參數(shù)求解的代碼實(shí)現(xiàn)(3)#示例用法X=np.array([[1],[2],[3],[4]])#輸入特征y=np.array([0,0,1,1])#標(biāo)簽#創(chuàng)建模型實(shí)例model=LogisticRegression()#擬合模型model.fit(X,y)#進(jìn)行預(yù)測new_X=np.array([[1],[3]])#新的輸入特征predicted_y=model.predict(new_X)print("預(yù)測結(jié)果:",predicted_y)運(yùn)行結(jié)果:預(yù)測結(jié)果:[0,1]3.5多項(xiàng)式回歸多項(xiàng)式回歸是研究一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式的回歸分析方法。曲線一元多項(xiàng)式回歸多元多項(xiàng)式回歸0102一元多項(xiàng)式回歸模型多元線性回歸模型02思考題圖中哪個(gè)曲線擬合的比較好?圖3-4
三種一元多項(xiàng)式回歸3.6
正則化回歸嶺回歸模型01彈性網(wǎng)絡(luò)03最小絕對(duì)收縮與選擇算子023.6.1嶺回歸模型(RidgeRegression)嶺回歸通過在損失函數(shù)中添加參數(shù)平方和的懲罰項(xiàng),來限制模型參數(shù)的增長。3.6.2最小絕對(duì)收縮與選擇算子(LASSO回歸)LASSO回歸(LeastAbsoluteShrinkageandSelectionOperatorRegression)在損失函數(shù)中使用參數(shù)的絕對(duì)值之和作為懲罰項(xiàng)。最小絕對(duì)收縮與選擇算子(LASSO)有選擇變量的能力。3.6.3彈性網(wǎng)絡(luò)彈性網(wǎng)絡(luò)(ElasticNet)的代價(jià)函數(shù)中同時(shí)包含嶺回歸和LASSO回歸中的正則化項(xiàng)彈性網(wǎng)絡(luò)是嶺回歸和LASSO回歸的一個(gè)折中模型,LASSO中的正則化項(xiàng)傾向于產(chǎn)生稀疏系數(shù),使得模型有選擇變量的能力;嶺回歸中的正則化項(xiàng)可以克服LASSO的一些限制,例如可以克服選擇變量個(gè)數(shù)的限制。3.7
回歸模型的評(píng)價(jià)指標(biāo)
MSEMAERMSE決定系數(shù)R2回歸算法的評(píng)價(jià)指標(biāo)就是均方誤差MSE(MeanSquaredError),均方根誤差RMSE(RootMeanSquaredError),平均絕對(duì)誤差MAE(MeanAbsoluteError),決定系數(shù)R2(R-Squared)。從是否預(yù)測到了正確的值角度,用評(píng)價(jià)指標(biāo)MSE,RMSE,MAE來對(duì)模型進(jìn)行評(píng)價(jià);從是否擬合了足夠信息的角度,用評(píng)價(jià)指標(biāo)R2來對(duì)模型進(jìn)行評(píng)價(jià)。從反映預(yù)測值相對(duì)于真實(shí)值的偏離程度,用評(píng)價(jià)指標(biāo)MRE進(jìn)行評(píng)價(jià)。MRE數(shù)據(jù)單位與原數(shù)據(jù)相同更加魯棒決定系數(shù)R2圖3-5真實(shí)值和預(yù)測值曲線方差的本質(zhì)是任意一個(gè)值和樣本均值的差異,差異越大,這些值所帶的信息越多。分子是真實(shí)值和預(yù)測值之間的差值,也就是模型沒有捕獲到的信息總量,分母是真實(shí)標(biāo)簽所帶的信息量,所以兩者相除代表模型沒有捕獲到的信息量占真實(shí)標(biāo)簽中所帶的信息量的比例。R2的取值范圍為0到1,越接近1,說明模型的擬合效果越好。3.8實(shí)踐利用對(duì)率回歸對(duì)信用卡欺詐行為進(jìn)行分類3.8.2構(gòu)建信用卡欺詐行為分類模型02分別利用一元
線性回歸、多元線性回歸、多項(xiàng)式回歸和正則化回歸進(jìn)行房價(jià)預(yù)測3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型013.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(數(shù)據(jù)集)1)CRIM:城鎮(zhèn)人均犯罪率。2)ZN:住宅用地超過25,000平方英尺的比例。3)INDUS:城鎮(zhèn)非零售商業(yè)用地的比例。4)CHAS:是否靠近CharlesRiver(如果房屋位于河邊,則為1;否則為0)。5)NOX:一氧化氮濃度(每千萬份)。6)RM:每個(gè)住宅的平均房間數(shù)。7)AGE:1940年以前建造的自住房屋的比例。8)DIS:距離五個(gè)波士頓就業(yè)中心的加權(quán)距離。9)RAD:距離高速公路的便利指數(shù)。10)TAX:每10,000美元的全值財(cái)產(chǎn)稅率。11)PTRATIO:城鎮(zhèn)的師生比例。12)B:計(jì)算方法為1000*(Bk-0.63)2,其中Bk是城鎮(zhèn)中黑人的比例。13)LSTAT:人口中地位較低人群的百分比。14)MEDV:自住房屋的中位數(shù)價(jià)值(以千美元為單位)。3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(1)加載數(shù)據(jù)集importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_squared_error,r2_scoredf=pd.read_csv('d:/data/Boston_Housing_Data.csv')df.head()3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(2)可視化數(shù)據(jù)集的重要特點(diǎn)MEDV與特征RM和LSTAT之間存在著線性關(guān)系。1)創(chuàng)建散點(diǎn)圖矩陣。3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)2)用相關(guān)系數(shù)矩陣查看關(guān)系3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(3)實(shí)現(xiàn)一元線性回歸模型importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotasplt#讀取數(shù)據(jù)集data=pd.read_csv('d:/data/Boston_Housing_Data.csv')#提取自變量和因變量X=data['RM'].values.reshape(-1,1)#自變量:房間總數(shù)y=data['MEDV']#因變量:房屋中位數(shù)價(jià)值#數(shù)據(jù)集拆分為訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(3)實(shí)現(xiàn)一元線性回歸模型#創(chuàng)建并擬合線性回歸模型model=LinearRegression()model.fit(X_train,y_train)#獲取回歸系數(shù)和截距slope=model.coef_[0]intercept=ercept_print(f'斜率:{slope}')print(f'截距:{intercept}')運(yùn)行結(jié)果:3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(3)實(shí)現(xiàn)一元線性回歸模型#繪制原始數(shù)據(jù)點(diǎn)和回歸線plt.scatter(X_test,y_test,label='ActualPrices',alpha=0.5)plt.plot(X_test,slope*X_test+intercept,color='red',label='RegressionLine')plt.xlabel('RM(AverageNumberofRooms)')plt.ylabel('Price')plt.legend()plt.title('BostonHousingPricesPrediction(LinearRegression)')plt.show()運(yùn)行結(jié)果:3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(4)評(píng)估一元線性回歸模型性能importnumpyasnpimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_squared_error,r2_score#讀取數(shù)據(jù)集data=pd.read_csv('d:/data/Boston_Housing_Data.csv')#提取自變量和因變量X=data['RM'].values.reshape(-1,1)#自變量:房間總數(shù)y=data['MEDV']#因變量:房屋中位數(shù)價(jià)值#數(shù)據(jù)劃分X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#創(chuàng)建線性回歸模型model=LinearRegression()#使用最小二乘法在訓(xùn)練集上擬合模型model.fit(X_train,y_train)#在訓(xùn)練集上進(jìn)行預(yù)測y_train_pred=model.predict(X_train)3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(4)評(píng)估一元線性回歸模型性能#在測試集上進(jìn)行預(yù)測y_test_pred=model.predict(X_test)#計(jì)算均方誤差和決定系數(shù)train_mse=mean_squared_error(y_train,y_train_pred)train_r2=r2_score(y_train,y_train_pred)test_mse=mean_squared_error(y_test,y_test_pred)test_r2=r2_score(y_test,y_test_pred)#輸出評(píng)價(jià)指標(biāo)print("訓(xùn)練集評(píng)價(jià)指標(biāo):")print(f"MeanSquaredError(MSE):{train_mse:.2f}")print(f"CoefficientofDetermination(R2):{train_r2:.2f}\n")print("測試集評(píng)價(jià)指標(biāo):")print(f"MeanSquaredError(MSE):{test_mse:.2f}")print(f"CoefficientofDetermination(R2):{test_r2:.2f}")運(yùn)行結(jié)果為:3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(一元線性回歸)(4)對(duì)新樣本進(jìn)行房價(jià)預(yù)測#給出新的樣本進(jìn)行預(yù)測new_rm=np.array([[4]])#為新樣本的RM值predicted_price=model.predict(new_rm)print(f"預(yù)測的房價(jià)為:{predicted_price[0]:.2f}")運(yùn)行結(jié)果為:3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多元線性回歸)選擇特征RM、ZN和B作為自變量,MEDV作為因變量建立一個(gè)多元線性回歸模型importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_squared_error,r2_scoreimportmatplotlib.pyplotasplt#讀取波士頓數(shù)據(jù)集df=pd.read_csv('d:/data/Boston_Housing_Data.csv')#計(jì)算RM特征的均值rm_mean=df['RM'].mean()#使用均值替代NaN值df['RM'].fillna(rm_mean,inplace=True)#計(jì)算ZN的特征均值zn_mean=df['ZN'].mean()#使用均值替代NaN值df['ZN'].fillna(zn_mean,inplace=True)#計(jì)算B的特征均值b_mean=df['B'].mean()#使用均值替代NaN值df['B'].fillna(b_mean,inplace=True)3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多元線性回歸)選擇特征RM、ZN和B作為自變量,MEDV作為因變量建立一個(gè)多元線性回歸模型#提取自變量和因變量X=df[['RM','ZN','B']]#自變量y=df['MEDV']#因變量#數(shù)據(jù)集拆分為訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)#創(chuàng)建并擬合多元線性回歸模型model=LinearRegression()model.fit(X_train,y_train)#在訓(xùn)練集上進(jìn)行預(yù)測并計(jì)算殘差y_train_pred=model.predict(X_train)train_residuals=y_train-y_train_pred#在測試集上進(jìn)行預(yù)測并計(jì)算殘差y_test_pred=model.predict(X_test)test_residuals=y_test-y_test_pred#輸出訓(xùn)練集和測試集的模型評(píng)估結(jié)果train_mse=mean_squared_error(y_train,y_train_pred)train_r2=r2_score(y_train,y_train_pred)test_mse=mean_squared_error(y_test,y_test_pred)test_r2=r2_score(y_test,y_test_pred)3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多元線性回歸)選擇特征RM、ZN和B作為自變量,MEDV作為因變量建立一個(gè)多元線性回歸模型print('TrainData-MeanSquaredError(MSE):',train_mse)print('TrainData-CoefficientofDetermination(R2):',train_r2)print('TestData-MeanSquaredError(MSE):',test_mse)print('TestData-CoefficientofDetermination(R2):',test_r2)運(yùn)行結(jié)果:3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多元線性回歸)圖3-11殘差圖殘差圖中有一條線通過x軸原點(diǎn)。在理想情況下,殘差剛好為0,這是現(xiàn)實(shí)和實(shí)際應(yīng)用中可能永遠(yuǎn)都達(dá)不到的目標(biāo)。然而,期望好的回歸模型的殘差成隨機(jī)分布在中心線附近。從圖3-11中觀察到無論訓(xùn)練數(shù)據(jù)的殘差還是測試數(shù)據(jù)的殘差都有離中心線比較遠(yuǎn)的異常點(diǎn),這些異常點(diǎn)導(dǎo)致此模型的誤差加大。3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多元線性回歸)新樣本的預(yù)測的代碼實(shí)現(xiàn)運(yùn)行結(jié)果:#給出新的樣本進(jìn)行預(yù)測new_rm=np.array([[6,2.5,200.98]])#為新樣本的RM值predicted_price=model.predict(new_rm)print(f"預(yù)測的房價(jià)為:{predicted_price[0]:.2f}")3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(多項(xiàng)式回歸)房屋價(jià)格(MEDV)與特征(LSTAT)成非線性關(guān)系,可用特征(LSTAT)作為自變量,房屋價(jià)格(MEDV)作為因變量,利用多項(xiàng)式回歸為波士頓房價(jià)預(yù)測進(jìn)行建模圖3-12多項(xiàng)式回歸擬合曲線3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(正則化回歸)
(1)利用嶺回歸訓(xùn)練波士頓房價(jià)預(yù)測模型3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(正則化回歸)
(2)利用LASS回歸模型訓(xùn)練波士頓房價(jià)預(yù)測模型3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(正則化回歸)
(3)利用彈性網(wǎng)絡(luò)模型訓(xùn)練波士頓房價(jià)預(yù)測模型3.8.1構(gòu)建波士頓房價(jià)預(yù)測模型(正則化回歸)5.綜合分析各種波士頓房價(jià)預(yù)測模型表3-1六種回歸模型的評(píng)價(jià)指標(biāo)信息評(píng)價(jià)指標(biāo)MSE(Trainset)R2(Trainset)MSE(Testset)R2(Testset)一元線性回歸43.0000000.51000046.1400000.370000多元線性回歸39.0198880.55607033.2100080.554306多項(xiàng)式回歸(degree=8)30.9525290.64370523.6076120.678080嶺回歸(alpha=10)30.7916020.64968425.9607630.651595LASS回歸(alpha=0.1)39.0408670.55583233.1311730.555364彈性網(wǎng)絡(luò)(Alpha=0.1,L1Ratio=0.7)39.2127250.55387633.0688710.5562013.8.2構(gòu)建信用卡欺詐行為分類模型(數(shù)據(jù)集)1)“distance_from_home”:交易地點(diǎn)與持卡人住所的距離。2)“distance_from_last_transaction”:當(dāng)前交易與上一筆交易之間的距離。3)“ratio_to_median_purchase_price”:交易金額與該持卡人歷史交易中位數(shù)的比值。4)“repeat_retailer”:該交易是否為重復(fù)零售商。5)“used_chip”:是否使用芯片技術(shù)進(jìn)行交易。6)“used_pin_number”:是否使用了PIN碼進(jìn)行交易。7)“online_order”:該交易是否是線上訂單。8)“fraud”:這是目標(biāo)變量(標(biāo)簽),用于表示該交易是否為欺詐交易?!癴raud”的取值通常為0(非欺詐交易)或1(欺詐交易),是二分類問題的標(biāo)簽。3.8.2構(gòu)建信用卡欺詐行為分類模型(代碼實(shí)現(xiàn))#導(dǎo)入所需的庫和模塊importnumpyasnpimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score,confusion_matrix#Step1:加載數(shù)據(jù)集data=pd.read_csv('d://card_transdata.csv')#Step2:劃分特征和標(biāo)簽X=data.drop('fraud',axis=1)y=data['fraud']3.8.2構(gòu)建信用卡欺詐行為分類模型(代碼實(shí)現(xiàn))#Step3:數(shù)據(jù)預(yù)處理#把數(shù)據(jù)劃分為訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#將特征值標(biāo)準(zhǔn)化為均值為0,方差為1scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.transform(X_test)#Step4:創(chuàng)建和訓(xùn)練對(duì)率回歸模型lr_model=LogisticRegression()lr_model.fit(X_train,y_train)#Step5:預(yù)測和評(píng)估模型y_pred=lr_model.predict(X_test)3.8.2構(gòu)建信用卡欺詐行為分類模型(代碼實(shí)現(xiàn))#計(jì)算評(píng)估指標(biāo)accuracy=accuracy_score(y_test,y_pred)precision=precision_score(y_test,y_pred)recall=recall_score(y_test,y_pred)f1=f1_score(y_test,y_pred)conf_matrix=confusion_matrix(y_test,y_pred)print("Accuracy:",accuracy)print("Precision:",precision)print("Recall:",recall)print("F1Score:",f1)print("ConfusionMatrix:")print(conf_matrix)運(yùn)行結(jié)果:3.8.2構(gòu)建信用卡欺詐行為分類模型(性能評(píng)估)ROC曲線和AUC來衡量模型優(yōu)劣ROC曲線展示了模型在不同閾值下的表現(xiàn),AUC值越接近1,表示模型性能越好。在類別不平衡的情況下,使用ROC曲線和AUC來評(píng)估模型性能更為合適,因?yàn)樗鼈儗?duì)類別分布不敏感,能夠綜合考慮模型在不同閾值下的表現(xiàn)。通過運(yùn)行結(jié)果可見,此模型效果較好。3.8.2構(gòu)建信用卡欺詐行為分類模型(預(yù)測)代碼實(shí)現(xiàn):#加載新的數(shù)據(jù)用于預(yù)測new_data=pd.read_csv('d://data/new_card.csv')#對(duì)新數(shù)據(jù)進(jìn)行與訓(xùn)練數(shù)據(jù)相同的預(yù)處理new_X=new_data.drop('fraud',axis=1)new_X=scaler.transform(new_X)#使用之前的標(biāo)準(zhǔn)化器#使用訓(xùn)練好的模型進(jìn)行預(yù)測new_predictions=lr_model.predict(new_X)#輸出預(yù)測結(jié)果print("NewDataPredictions:")print(new_predictions)運(yùn)行結(jié)果:根據(jù)此結(jié)果表明新的數(shù)據(jù)沒有發(fā)生信用卡欺詐行為。感謝觀看第四章決策樹思維導(dǎo)圖4.1決策樹基礎(chǔ)決策樹是一種基本的機(jī)器學(xué)習(xí)算法,用于解決分類和回歸問題。它是一種非常直觀和易于理解的模型,類似于人類在做決策時(shí)的思維過程,因此也被稱為分類與回歸樹(ClassificationandRegressionTrees,CART)。4.1.1決策樹的概念01思考題決策樹長什么樣子呢?決策樹的生成過程是一個(gè)遞歸的過程,從根節(jié)點(diǎn)開始,通過選擇最優(yōu)特征和特征值對(duì)數(shù)據(jù)集進(jìn)行劃分,生成子樹,直到滿足停止條件。在劃分?jǐn)?shù)據(jù)集時(shí),通常使用一些劃分準(zhǔn)則(如信息增益、基尼系數(shù)等)來衡量特征的重要性,選擇最優(yōu)特征進(jìn)行劃分。4.1.2決策樹的優(yōu)缺點(diǎn)1)易于理解和解釋2)可視化3)處理分類和回歸問題4)特征重要性1)容易過擬合2)不穩(wěn)定性3)對(duì)連續(xù)特征不敏感優(yōu)點(diǎn)缺點(diǎn)4.2決策樹的劃分準(zhǔn)則信息增益比信息增益比是信息增益除以劃分特征的熵,用于解決信息增益對(duì)于取值較多的特征有偏好的問題。信息增益比在處理離散特征時(shí)相對(duì)平衡了特征取值較多的情況?;嶂笖?shù)基尼指數(shù)衡量特征劃分前后數(shù)據(jù)集的不純度變化?;嵯禂?shù)越小,表示特征的劃分帶來的數(shù)據(jù)不純度減少越大?;嵯禂?shù)在處理離散特征時(shí)也比較常用。信息增益信息增益是基于信息論的概念,用于衡量特征劃分前后數(shù)據(jù)集的純度變化。信息增益越大,表示特征的劃分帶來的數(shù)據(jù)純度提升越大。信息增益在處理離散特征時(shí)比較常用。方差在回歸問題中,決策樹的劃分準(zhǔn)則可以使用樣本標(biāo)簽的方差。方差衡量數(shù)據(jù)的離散程度,劃分后的子集方差越小,表示特征的劃分對(duì)目標(biāo)變量的解釋能力越強(qiáng)。02思考題選擇哪種劃分準(zhǔn)則比較好呢?4.2.1信息增益信息增益(InformationGain)是一種用于衡量特征劃分對(duì)數(shù)據(jù)純度提升的指標(biāo),常用于決策樹算法中。它基于信息論的概念,用于選擇最優(yōu)的劃分特征,將數(shù)據(jù)集劃分為不同的子集,以便于更好地對(duì)目標(biāo)變量進(jìn)行分類。在信息增益的計(jì)算過程中,使用熵(Entropy)來衡量數(shù)據(jù)集的不確定性或純度。熵越高表示數(shù)據(jù)集越不純,即包含更多不同類別的樣本;熵越低表示數(shù)據(jù)集越純,即樣本都屬于同一類別。1)計(jì)算原始數(shù)據(jù)集的熵(Entropy),表示數(shù)據(jù)集的不確定性。4.2.1信息增益2)對(duì)于每個(gè)特征,計(jì)算在該特征條件下的條件熵(ConditionalEntropy),表示在特征的每個(gè)取值下數(shù)據(jù)集的不確定性。4.2.2增益率信息增益分裂準(zhǔn)則對(duì)可取值數(shù)目較多的屬性有所偏好,為了減少這種偏好帶來的不利影響,著名的C4.5決策樹算法不直接使用信息增益,而是使用“增益率”來選擇最優(yōu)劃分屬性。屬性A的可能取值數(shù)目越多,則(4-5)式的值通常會(huì)越大。增益率分裂準(zhǔn)則對(duì)可取值數(shù)目較少的屬性有所偏好,因此C4.5算法并不是直接選擇增益率最大的候選劃分屬性,而是使用了一個(gè)啟發(fā)式方法,先從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的屬性。4.2.3基尼指數(shù)CART決策樹使用“基尼指數(shù)”來選擇劃分屬性,數(shù)據(jù)集D的純度可用基尼指數(shù)來度量4.3決策樹的建立4.3.1決策樹的歸納過程4.3.2決策樹實(shí)例分析4.3.3決策樹停止準(zhǔn)則4.3.4決策樹剪枝決策樹學(xué)習(xí)算法是從一組樣本數(shù)據(jù)集(一個(gè)樣本數(shù)據(jù)也可以稱為實(shí)例)為基礎(chǔ)的一種歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的樣本數(shù)據(jù)(概念)中推理出決策樹表示形式的分類規(guī)則。決策樹是一種類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)(非樹葉節(jié)點(diǎn))表示在屬性上的測試,每個(gè)分支表示該測試上的一個(gè)輸出,而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào),樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn),4.3.1決策樹的歸納過程(1)基本的決策樹算法包括ID3,C4.5,CART,他們都采用貪心(非回溯的)方法,其中決策樹以自頂向下遞歸的方式構(gòu)造,從訓(xùn)練樣本和它們相關(guān)聯(lián)的類標(biāo)號(hào)開始構(gòu)造決策樹。隨著樹的構(gòu)建,訓(xùn)練集遞歸地劃分成較小的子集。4.3.1決策樹的歸納過程(2)三種可能得情況:4.3.1決策樹的歸納過程(3)4.3.1決策樹的歸納過程(4)算法的偽代碼:4.3.2決策樹實(shí)例分析(數(shù)據(jù)集)貸款申請(qǐng)?jiān)u估信息數(shù)據(jù)集D由五個(gè)特征:年齡、有工作、信用狀況、有房子和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 圍墻施工的合同范本
- 墻體造白合同范本
- 路燈生產(chǎn)安裝合同范本
- 小吃門面租賃合同范本
- 2025年度貨車掛靠物流配送服務(wù)合作協(xié)議
- 二零二五年度兒童生活照料與情感關(guān)懷服務(wù)協(xié)議
- 2025年度鋼琴制作工藝研發(fā)合作協(xié)議
- 二零二五年度車輛過戶與抵押權(quán)轉(zhuǎn)移合同協(xié)議
- 二零二五年度房地產(chǎn)銷售公司項(xiàng)目信息及客戶隱私保密合同
- 2025年度貨車司機(jī)勞動(dòng)合同與車輛保險(xiǎn)合同
- 2025下半年江蘇鹽城廣播電視總臺(tái)招聘7人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年纖維混合絮片項(xiàng)目可行性研究報(bào)告
- 白油供貨合同范例
- 建設(shè)項(xiàng)目非重大變動(dòng)及環(huán)??尚行哉撟C報(bào)告
- 國外綠地發(fā)展-形成38課件講解
- 2025年湘教版初中地理七年級(jí)下冊重點(diǎn)知識(shí)點(diǎn)梳理與歸納
- 【MOOC】現(xiàn)代老年醫(yī)學(xué)-浙江大學(xué) 中國大學(xué)慕課MOOC答案
- 小紅書品牌博主合作合同(2024年版)
- 腫瘤內(nèi)科學(xué)(中級(jí)341)專業(yè)實(shí)踐能力衛(wèi)生專業(yè)技術(shù)資格考試試題與參考答案
- 2023年貴州省公務(wù)員錄用考試《行測》真題及答案解析
- 家族族譜模板
評(píng)論
0/150
提交評(píng)論