財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)

上傳人：y*** IP屬地：山東上傳時間：2024-07-31 格式：PPTX 頁數(shù)：65 大?。?.01MB 積分：15 舉報 版權(quán)申訴

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)_第2頁

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)_第3頁

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)_第4頁

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)_第5頁

已閱讀5頁，還剩60頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第11章——建立上市公司價值分類判斷指標(biāo)體系——應(yīng)用機器學(xué)習(xí)

王彥超教授博士生導(dǎo)師中央財經(jīng)大學(xué)會計學(xué)院CONTENTS目錄11.1Sklearn概述和安裝11.2K-最近鄰算法11.3K-均值算法11.4降維算法11.5線性回歸11.6邏輯回歸11.7樸素貝葉斯11.8決策樹11.9隨機森林11.10支持向量機11.11Adaboost算法11.12應(yīng)用實踐11.13實操練習(xí)題

應(yīng)用場景分析：機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計學(xué)等學(xué)科。機器學(xué)習(xí)這一術(shù)語看似高深，其實在生活的方方面面，如人臉識別、手機相冊依據(jù)人物自動分類功能等均運用了機器學(xué)習(xí)的思想和方法。機器學(xué)習(xí)是計算機模擬人類學(xué)習(xí)和決策行為的科學(xué)，選擇合適的算法模型訓(xùn)練數(shù)據(jù)，實現(xiàn)預(yù)測功能。Sklearn是Python中傳統(tǒng)機器學(xué)習(xí)的首選庫，本章重點介紹sklearn庫的算法邏輯及應(yīng)用。通過本章的學(xué)習(xí)，將掌握基本的機器學(xué)習(xí)方法，構(gòu)造機器學(xué)習(xí)模型流程和評估模型效果。機器學(xué)習(xí)之SklearnSklearn概述和安裝K-最近鄰算法K-均值算法降維算法線性回歸邏輯回歸樸素貝葉斯決策樹隨機森林支持向量機Adaboost算法案例應(yīng)用：建立科技上市公司價值分類判斷指標(biāo)體系11.1Sklearn概述和安裝11.1Sklearn概述和安裝Sklearn，全稱scikit-learn，是Python中機器學(xué)習(xí)的庫，建立在Numpy、Scipy、Matplotlib等庫基礎(chǔ)之上，涵蓋了機器學(xué)習(xí)樣例數(shù)據(jù)、數(shù)據(jù)預(yù)處理、模型驗證、特征選擇、分類、回歸、聚類、降維等幾乎所有環(huán)節(jié)，功能十分強大。Sklearn的建模和優(yōu)化有統(tǒng)一的形式，分類和回歸算法都是類似的思想，邏輯大致如圖11-1所示：首先導(dǎo)入數(shù)據(jù)，選擇合適的算法將數(shù)據(jù)進行擬合訓(xùn)練，得到一個模型；接著把需要預(yù)測的數(shù)據(jù)輸入該模型中，進行預(yù)測；最后輸出結(jié)果。11.1Sklearn概述和安裝安裝Scikit-learn需要：Python（≥2.7或≥3.4）、NumPy（≥1.8.2）、SciPy（≥0.13.3）。注意：Scikit-learn0.20是支持Python2.7和Python3.4的最后一個版本。Scikit-learn0.21將需要Python3.5或更高版本。需要先安裝Scikit-learn庫。如果已經(jīng)安裝Scikit-learn庫，請輸入以下代碼，驗證是否安裝成功。如果沒有報錯，則為成功安裝。In[1]：importsklearn本教材使用的Scikit-learn版本為1.0.2。不同版本在代碼編寫上略有差異，建議讀者在學(xué)習(xí)時安裝相同的版本。11.2K-最近鄰算法11.2K-最近鄰算法（K-NearestNeighbor）（1）原理KNN算法的核心思想是用距離最近的k個樣本數(shù)據(jù)來代表目標(biāo)數(shù)據(jù)的分類?？梢宰龀鲱惐龋号袛嘁粋€人消費水平，可以通過其身邊朋友來判斷。具體而言，如果一個樣本在特征空間中的k個最相鄰樣本的大多數(shù)屬于一個類別，則該樣本也屬于這個類別，并具有這個類別的樣本特征。該方法在確定分類決策上，只依據(jù)最近鄰的一個或幾個樣本類別決定待分樣本的所屬類別。11.2K-最近鄰算法（K-NearestNeighbor）（1）原理如圖所示，已知存在兩個類別，一類為“正方形”，另一類為“三角形”，若判斷新加入的藍(lán)色屬于什么類別，當(dāng)k=3時，則離藍(lán)色最近的3個“鄰居”是a、b和c，多數(shù)屬于“三角形”，所以藍(lán)色被劃分為“三角形”；而當(dāng)k=5時，則離藍(lán)色最近的5個“鄰居”是a、b、c、d和e，多數(shù)屬于“正方形”，所以藍(lán)色被劃分為“正方形”。11.2K-最近鄰算法（K-NearestNeighbor）（2）KNN算法代碼實現(xiàn)Python中的Sklearn模塊提供了KNN算法實現(xiàn)分類和預(yù)測的功能，該功能存在于子模塊neighbors中。其中，KNeighborClassifier類可以解決分類問題，而KNeighborsRegressor類可以解決預(yù)測問題。neighbors.KNeighborsClassifier()、neighbors.KNeighborsRegressor()基本語法：neighbors.KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1)neighbors.KNeighborsRegressor(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1)11.2K-最近鄰算法（K-NearestNeighbor）（2）KNN算法代碼實現(xiàn)參數(shù)說明：n_neighbors：用于指定近鄰樣本個數(shù)k，默認(rèn)為5。weights：用于指定近鄰樣本的投票權(quán)重，默認(rèn)為’uniform’，表示所有近鄰樣本的投票權(quán)重一樣；如果為’distance’，則表示投票權(quán)重與距離成反比，即近鄰樣本與未知類別的樣本點距離越遠(yuǎn)，權(quán)重越小，反之，權(quán)值越大。algorithm：用于指定近鄰樣本的搜尋算法，如果為’ball_tree’，表示使用球樹搜尋法尋找近鄰樣本；如果為’kd_tree’，表示使用KD樹搜尋法尋找近鄰樣本；如果為’brute’，表示使用暴力搜尋法尋找近鄰樣本。默認(rèn)為’auto’，表示KNN算法會根據(jù)數(shù)據(jù)特征自動選擇最佳的搜尋算法。11.2K-最近鄰算法（K-NearestNeighbor）（2）KNN算法代碼實現(xiàn)參數(shù)說明：leaf_size：用于指定球樹或kd樹葉子節(jié)點所包含的最小樣本量，用于控制樹的生長條件，會影響樹的查詢速度，默認(rèn)為30。metric：用于指定距離的度量指標(biāo)，默認(rèn)為閔可夫斯基距離。p：當(dāng)參數(shù)metric為閔可夫斯基距離時，p=1，表示計算點之間的曼哈頓距離；p=2，表示計算點之間的歐氏距離；該參數(shù)的默認(rèn)值為2。metric_params：為metric參數(shù)所對應(yīng)的距離指標(biāo)添加關(guān)鍵字參數(shù)。n_jobs：用于設(shè)置KNN算法并行計算所需的CPU數(shù)量，默認(rèn)為1，表示僅使用1個CPU運行算法，即不使用并行運算功能。11.3K-均值算法11.3K-均值算法（K-Means）（1）原理K-Means聚類算法是一種迭代求解的聚類分析算法。算法思想是：隨機選擇k個對象作為初始聚類中心，計算每個對象和各個聚類中心之間的距離，將其分配給距離最近的聚類中心。聚類中心及分配給它們的對象就代表著一個聚類。每分配一個樣本，聚類的中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。此過程將不斷重復(fù)，直至滿足設(shè)置的終止條件。其具體的算法步驟如下：11.3K-均值算法（K-Means）（1）原理首先明確k值（隨機），即希望數(shù)據(jù)經(jīng)過聚類得到k個聚類；在數(shù)據(jù)集中隨機選擇k個樣本作為質(zhì)心；分別計算每個樣本到k個質(zhì)心的距離，樣本屬于距離最小的質(zhì)心所屬的聚類；第一輪將所有的樣本聚類后得到k個聚類，然后按均值重新計算每個聚類的質(zhì)心；如果新計算出來的質(zhì)心和原來的質(zhì)心之間的距離小于某一個設(shè)置的臨界值，表示重新計算的質(zhì)心位置變化不大，數(shù)據(jù)整體趨于穩(wěn)定，或表示數(shù)據(jù)已經(jīng)收斂，聚類已經(jīng)達(dá)到期望結(jié)果，算法可終止；反之，如果新質(zhì)心和原來質(zhì)心的距離變化很大，需要重復(fù)迭代3-5步驟，直至位置變化不大，達(dá)到收斂狀態(tài)。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理①首先給定需要進行聚類劃分的樣本集。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理②假設(shè)將樣本分為2類，則隨機選擇2個聚類中心（k=2）。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理③遍歷每一個綠點，計算每個樣本點到質(zhì)心的距離，并將數(shù)據(jù)點劃分到離它最近的質(zhì)心的類中。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理④計算2個數(shù)據(jù)集的各自的質(zhì)心（紅點、藍(lán)點的均值），將聚類中心移動到均值處，變成新的聚類中心。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理⑤計算出目前紅點的均值和藍(lán)點的均值，找到新的聚類中心。11.3K-均值算法（K-Means）（2）圖解K-Means算法的原理⑥重復(fù)上述③④⑤步驟（計算質(zhì)心-分配-重新計算），不斷迭代，直至新的聚類中心位置不再改變以及各個數(shù)據(jù)點的位置也不再發(fā)生改變，如圖14-7所示。11.3K-均值算法（K-Means）（3）K-Means算法代碼實現(xiàn)Python的Sklearn模塊提供了有關(guān)K-Means算法分類的功能，該功能存在于子模塊cluster中，利用sklearn.cluster.k_means()函數(shù)可以建立K-Means模型。sklearn.cluster.k_means()基本語法：sklearn.cluster.k_means(X,n_clusters,init='k-means++',precompute_distances='deprecated',n_init=10,max_iter=300,random_state=None,copy_x=True)11.3K-均值算法（K-Means）（3）K-Means算法代碼實現(xiàn)sklearn.cluster.k_means()參數(shù)說明：n_clusters：用于指定生成的聚類數(shù)，即產(chǎn)生的質(zhì)心數(shù)。init：有三個可選值：’k-means++’，‘random’，或者傳遞一個ndarray向量。此參數(shù)指定初始化方法，默認(rèn)值為‘k-means++’?！甼-means++’用一種特殊的方法選定初始質(zhì)心從而能加速迭代過程的收斂；‘random’隨機從訓(xùn)練數(shù)據(jù)中選取初始質(zhì)心；如果傳遞的是一個ndarray，則應(yīng)該形如(n_clusters,n_features)并給出初始質(zhì)心。precompute_distances：三個可選值，‘a(chǎn)uto’，True或者False。預(yù)計算距離，計算速度更快但占用更多內(nèi)存?！產(chǎn)uto’：如果樣本數(shù)乘以聚類數(shù)大于14million的話則不予計算距離；True：總是預(yù)先計算距離；False：永遠(yuǎn)不預(yù)先計算距離。11.3K-均值算法（K-Means）（3）K-Means算法代碼實現(xiàn)sklearn.cluster.k_means()參數(shù)說明：n_init：用不同的質(zhì)心初始化值運行算法的次數(shù)，最終解是在inertia意義下選出的最優(yōu)結(jié)果。max_iter：用于指定執(zhí)行一次k_means算法所進行的最大迭代數(shù)。random_state：可選用于初始化質(zhì)心的生成器（generator）。如果值為一個整數(shù)，則確定一個seed。默認(rèn)值為numpy的隨機數(shù)生成器。copy_x：布爾型，默認(rèn)值=True。當(dāng)precomputingdistances時，將數(shù)據(jù)中心化會得到更準(zhǔn)確的結(jié)果。如果把此參數(shù)值設(shè)為True，原始數(shù)據(jù)不會被改變。如果是False，則會直接在原始數(shù)據(jù)上做修改，并在函數(shù)返回時將其還原。11.4降維算法（PCA）11.4降維算法（PCA）（1）原理主成分分析（PrincipalComponentAnalysis，PCA）是一種無監(jiān)督的多元統(tǒng)計分析方法?；舅枷胧窃诒M量保證數(shù)據(jù)信息的前提下，將高維數(shù)據(jù)簡化為低維數(shù)據(jù)，即通過獲取數(shù)據(jù)的主要投影方向，實現(xiàn)數(shù)據(jù)向主要特征方向上的映射，最終達(dá)到數(shù)據(jù)降維、去噪的效果。11.4降維算法（PCA）（2）圖解原理如圖所示，給出一個投影方向，坐標(biāo)系中的點投影到這一條直線上，每個“紅點”就是點在投影方向的投影，PCA算法使得這些“紅點”到原點的方差最大。按照右圖給出的投影方向，投出來的點到原點的平方和遠(yuǎn)遠(yuǎn)小于左圖中的方差和，所以我們會選擇左圖的投影方式。11.4降維算法（PCA）（2）PCA算法步驟對所有的樣本數(shù)據(jù)進行中心化，也稱為數(shù)據(jù)中心平移到坐標(biāo)原點。求取樣本的協(xié)方差矩陣。對協(xié)方差矩陣進行特征值分解。取出最大的n個特征值對應(yīng)的特征向量，將所有特征向量標(biāo)準(zhǔn)化后，組成特征向量矩陣W。對樣本集中的每一個樣本，轉(zhuǎn)化為新的樣本，得到輸出樣本集。11.5線性回歸11.5

線性回歸（1）線性回歸介紹線性回歸模型是機器學(xué)習(xí)模型中應(yīng)用最廣泛的模型之一，這是因為線性模型的形式非常簡潔，同時在應(yīng)對實際問題時容易建模。雖然線性模型結(jié)構(gòu)較為簡單，但其中蘊含重要的機器學(xué)習(xí)基本思想，非線性模型也是通過線性基礎(chǔ)引入層次結(jié)構(gòu)或者高維映射形成。下面簡要介紹一下線性回歸模型的分析原理。11.5

線性回歸（2）算法簡要流程機器學(xué)習(xí)模型以數(shù)據(jù)集為基礎(chǔ)，第一步需要確定解決問題所需要的數(shù)據(jù)集，第二步需要實現(xiàn)線性模型算法，Sklearn庫提供了相應(yīng)的函數(shù)，只需要提前聲明之后引用該函數(shù)，即可使用線性模型。第三步，模型在數(shù)據(jù)集上訓(xùn)練，調(diào)整模型的相關(guān)參數(shù)，使模型在數(shù)據(jù)集上的預(yù)測效果達(dá)到最優(yōu)。11.6邏輯回歸11.6邏輯回歸（1）邏輯回歸介紹邏輯回歸雖然被稱為回歸，但實際上是分類模型，且在二分類的問題上有較好分類效果，其簡單、可并行、可解釋性強的特點使其深受科研人員、業(yè)界研發(fā)人員的喜愛。邏輯回歸的本質(zhì)即為：假設(shè)數(shù)據(jù)服從這個分布，使用極大似然估計做參數(shù)的估計。邏輯回歸的分布實質(zhì)上是連續(xù)型的概率分布，其分布函數(shù)與密度函數(shù)分別如下所示，其中μ表示位置參數(shù)，γ>0表示形狀參數(shù)。11.6邏輯回歸（2）邏輯回歸的優(yōu)劣勢邏輯回歸模型的優(yōu)點非常明顯：模型清晰，背后模型計算的概率值經(jīng)得起推敲；輸出值落在0至1之間，具有概率意義；建模簡單，運算過程也非常高效；可以使用L1、L2正則化的方法解決過擬合的問題；可以使用L2正則化的方法解決多重共線性的問題。邏輯回歸模型也存在一些缺點：不能夠很好地處理特征間關(guān)系，實際上是由邏輯回歸的計算形式?jīng)Q定；當(dāng)特征維度上升時，模型運算性能不夠好；邏輯回歸模型容易出現(xiàn)欠擬合現(xiàn)象，精準(zhǔn)度常常不夠高。11.7樸素貝葉斯11.7樸素貝葉斯（1）樸素貝葉斯介紹

樸素貝葉斯（NaiveBayes）是一個非常簡單，但是實用性很強的分類模型，與基于線性假設(shè)的模型（線性分類器和支持向量機分類器）不同，樸素貝葉斯分類器的構(gòu)造基礎(chǔ)是貝葉斯理論。樸素貝葉斯法是典型的生成學(xué)習(xí)方法，實際上學(xué)習(xí)到生成數(shù)據(jù)的機制，屬于生成模型。11.7樸素貝葉斯（2）樸素貝葉斯的優(yōu)缺點

樸素貝葉斯模型的優(yōu)點：第一，對大數(shù)據(jù)集訓(xùn)練速度快、支持增量式運算；第二，實時對新增樣本進行訓(xùn)練、結(jié)果可解釋性強、對小規(guī)模的數(shù)據(jù)表現(xiàn)很好；第三，能處理多分類任務(wù)，適合增量式訓(xùn)練，尤其是數(shù)據(jù)量超出內(nèi)存時，可以一批批進行增量訓(xùn)練。樸素貝葉斯模型的缺點：第一，給定輸出類別的情況下,假設(shè)屬性之間相互獨立，樸素貝葉斯方法就擁有最小的誤差率，但實際應(yīng)用中很難成立；第二，需要知道先驗概率，且先驗概率很多時候取決于假設(shè)，假設(shè)的模型很多，有時由于假設(shè)的先驗?zāi)Ｐ蛯?dǎo)致預(yù)測效果佳。第三，通過先驗和數(shù)據(jù)決定后驗概率，進而決定分類，分類決策存在錯誤率。第四，輸入數(shù)據(jù)的表達(dá)形式很敏感。11.8決策樹11.8

決策樹（1）決策樹介紹決策樹的思想，基于常用的“ifelse”思想進行拓展，不過，決策樹算法會更為復(fù)雜一些。11.8

決策樹（2）決策樹含義決策樹的結(jié)構(gòu)為樹形，下面對其進行解釋。根節(jié)點：最頂部節(jié)點。葉子節(jié)點：每條路徑最末尾的節(jié)點，也就是最外層節(jié)點。非葉子節(jié)點：一些條件節(jié)點，會有更多分支，也叫做分支節(jié)點。分支：分叉。11.8

決策樹（3）決策樹優(yōu)缺點決策樹優(yōu)點：第一，能夠同時處理數(shù)值型和連續(xù)型的數(shù)據(jù)。其他技術(shù)通常只支持一種數(shù)據(jù)類型，可以查看算法文章以獲得更多的信息。第二，能夠簡單地解釋和理解其原理，且能夠以可視化的方式來顯示決策樹。第三，數(shù)據(jù)準(zhǔn)備工作較少。其他技術(shù)通常需要正則化后的數(shù)據(jù)，處理缺失數(shù)據(jù)。但需注意該模塊目前不支持缺失數(shù)據(jù)的處理。第四，可處理帶有多輸出的問題。11.8

決策樹（3）決策樹優(yōu)缺點決策樹優(yōu)點：第五，該算法為白盒模型，如果在模型中可以觀察到特定情況，則可以通過簡單的布爾邏輯條件來表達(dá)這一情況。相比之下，黑盒模型（例如人造神經(jīng)網(wǎng)絡(luò)）的結(jié)果可能不太容易表現(xiàn)出來。第六，可以使用統(tǒng)計測試來驗證模型，這使得模型可靠性更強。第七，能夠良好地辨別“人造數(shù)據(jù)”。11.8

決策樹（3）決策樹優(yōu)缺點決策樹缺點：第一，決策樹學(xué)習(xí)器能夠為當(dāng)前問題創(chuàng)建出超復(fù)雜的樹，但是這個樹的泛化能力較差，這種低效現(xiàn)象稱為“過擬合”。可以通過對葉子節(jié)點設(shè)置最小值或給樹的深度設(shè)置最大值等“修剪機制”來避免過擬合現(xiàn)象。第二，文本決策樹穩(wěn)定性較弱，可能會因為細(xì)微的改變而產(chǎn)生一個完全不同的樹。這個問題可以通過樹的整體方法來緩解。11.9隨機森林11.9隨機森林（1）隨機森林介紹隨機森林是一種以決策樹為基礎(chǔ)的更高級算法。與決策樹一樣，隨機森林可以用于回歸和分類。顧名思義，隨機森林是用隨機的方式構(gòu)建出一個森林，這一森林由很多相互不關(guān)聯(lián)的決策樹組成。理論上，隨機森林的表現(xiàn)一般要優(yōu)于單一的決策樹，因為隨機森林是基于多個決策樹投票的結(jié)果。簡單來說，在隨機森林中，每個決策樹都有自己的結(jié)果，通過統(tǒng)計每個決策樹的結(jié)果，選擇投票數(shù)最多的結(jié)果作為其最終結(jié)果。11.9隨機森林（2）構(gòu)建隨機森林的四個步驟①一個樣本容量為N的樣本，有放回的抽取N次，每次抽取1個，最終形成了N個樣本。這選擇好了的N個樣本用來訓(xùn)練一個決策樹，作為決策樹根節(jié)點處的樣本。②當(dāng)每個樣本有M個屬性時，在決策樹的每個節(jié)點需要分裂時，隨機從這M個屬性中選取出m個屬性，滿足條件m<<M。然后從這m個屬性中采用某種策略（比如說信息增益）來選擇1個屬性作為該節(jié)點的分裂屬性。③決策樹形成過程中每個節(jié)點都要按照步驟2來分裂。④按照步驟1~3建立大量的決策樹，這樣就構(gòu)成了隨機森林了。11.9隨機森林（3）隨機森林的優(yōu)缺點隨機森林的優(yōu)點：第一，可以出來很高維度（特征多）的數(shù)據(jù)，不用降維，無需做特征選擇。第二，可以判斷特征的重要程度。第三，可以判斷不同特征之間的相互影響。第四，訓(xùn)練速度比較快，容易做成并行方法。第五，對于不平衡的數(shù)據(jù)集來說，可以平衡誤差。第六，如果有很大一部分的特征遺失，仍可以維持準(zhǔn)確度。隨機森林的缺點：第一，對于有不同取值屬性的數(shù)據(jù)，取值劃分較多的屬性會對隨機森林產(chǎn)生更大的影響，在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。第二，已經(jīng)被證明，隨機森林在某些噪音較大的分類或回歸問題上會過擬合。11.10支持向量機11.10

支持向量機（1）支持向量機介紹支持向量機模型是英文直譯過來的名稱，英文為supportvectormachines，簡稱SVM，是一種二分類模型，其基本模型是定義在特征空間上的間隔最大的線性分類器；SVM還包括核技巧，這使其成為實質(zhì)上的非線性分類器。SVM的學(xué)習(xí)策略就是間隔最大化，可形式化為一個求解凸二次規(guī)劃的問題，也等價于正則化的合頁損失函數(shù)的最小化問題。SVM的學(xué)習(xí)算法就是求解凸二次規(guī)劃的最優(yōu)化算法。11.10

支持向量機（1）支持向量機介紹支持向量機學(xué)習(xí)的基本想法，是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。如圖所示，即為分離超平面，對于線性可分的數(shù)據(jù)集來說，這樣的超平面有無窮多個（即感知機），但是幾何間隔最大的分離超平面卻是唯一的。11.10

支持向量機（2）支持向量機優(yōu)缺點支持向量機優(yōu)點：支持向量機是一種有堅實理論基礎(chǔ)的適用小樣本的機器學(xué)習(xí)方法，基本上不涉及概率測度及大數(shù)定律等，也簡化了通常的分類和回歸等問題；計算的復(fù)雜性取決于支持向量的數(shù)目，而不是樣本空間的維數(shù)，因此在處理維度較多的現(xiàn)實問題時擁有更高的效率；少數(shù)支持向量決定了最終結(jié)果，因此對異常值不敏感,這可以抓住關(guān)鍵樣本、剔除大量冗余樣本，屏蔽異常樣本對模型的影響，具有較好的魯棒性；支持向量機模型的泛化能力較強，解決實際問題的能力較為出色。11.10

支持向量機（2）支持向量機優(yōu)缺點支持向量機缺點：支持向量機模型也存在一定缺點：不能夠很好地處理大樣本數(shù)據(jù)集，巨大的數(shù)據(jù)量將會導(dǎo)致訓(xùn)練模型的時間變長；解決多分類問題較為困難，傳統(tǒng)的支持向量機模型能夠解決二分類問題，但對于多分類問題則需要構(gòu)建多個二分類的支持向量機模型組合來解決；支持向量機模型對于參數(shù)與核函數(shù)的選擇較為敏感，當(dāng)參數(shù)或者核函數(shù)發(fā)生變化時，模型效果有明顯變化。11.11Adaboost算法11.11Adaboost算法（1）Adaboost算法介紹

Adaboost算法是一種集成學(xué)習(xí)算法，集成學(xué)習(xí)按照個體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類：一類是個體學(xué)習(xí)器之間存在強依賴關(guān)系，另一類是

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

財經(jīng)大數(shù)據(jù)分析-以Python為工具課件 ch11-建立上市公司價值分類判斷指標(biāo)體系-應(yīng)用機器學(xué)習(xí)