《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸

上傳人：熊*** IP屬地：山東上傳時(shí)間：2024-01-30 格式：PPTX 頁(yè)數(shù)：53 大小：2.57MB 積分：30 舉報(bào) 版權(quán)申訴

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸_第2頁(yè)

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸_第3頁(yè)

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸_第4頁(yè)

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸_第5頁(yè)

已閱讀5頁(yè)，還剩48頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章數(shù)據(jù)挖掘算法基礎(chǔ)數(shù)據(jù)挖掘算法基礎(chǔ)1聚類(lèi)目錄分類(lèi)與回歸2關(guān)聯(lián)規(guī)則3智能推薦4時(shí)間序列5分類(lèi)算法構(gòu)造一個(gè)分類(lèi)模型，模型的輸入為樣本的屬性值，輸出為對(duì)應(yīng)的類(lèi)別，將每個(gè)樣本映射到預(yù)先定義好的類(lèi)別?；貧w算法則是建立兩種或兩種以上變量間相互依賴(lài)的函數(shù)模型，然后使用函數(shù)模型預(yù)測(cè)目標(biāo)的值。常用的分類(lèi)算法與回歸算法常用的分類(lèi)與回歸算法：常用的分類(lèi)算法與回歸算法算法名稱(chēng)算法描述回歸分析回歸分析是確定預(yù)測(cè)屬性（數(shù)值型）與其他變量間相互依賴(lài)的定量關(guān)系最常用的統(tǒng)計(jì)學(xué)方法。包括線(xiàn)性回歸、非線(xiàn)性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹(shù)決策樹(shù)采用自頂向下的遞歸方式，在內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較，并根據(jù)不同的屬性值從該結(jié)點(diǎn)向下分支，最終得到的葉結(jié)點(diǎn)是學(xué)習(xí)劃分的類(lèi)最近鄰分類(lèi)最近鄰分類(lèi)是一種典型的“懶惰學(xué)習(xí)”算法，基于指定的距離度量，找出測(cè)試樣本的最近鄰，并基于投票法對(duì)測(cè)試樣本進(jìn)行分類(lèi)支持向量機(jī)支持向量機(jī)的基本思想是在樣本空間或特征空間中，構(gòu)造出最優(yōu)超平面，使得超平面與不同類(lèi)樣本集之間的距離最大，從而達(dá)到最大化泛化能力的目的。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng)，表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型集成學(xué)習(xí)集成算法使用多種算法的組合進(jìn)行預(yù)測(cè)，比單一分類(lèi)器具有更高的準(zhǔn)確率和魯棒性，通常分為Bagging（聚合）、Boosting（提升）和Stacking（堆疊）三種模式對(duì)于分類(lèi)模型的評(píng)價(jià)，常用的模型評(píng)價(jià)指標(biāo)包括了準(zhǔn)確率、精確率、反饋率、混淆矩陣和ROC曲線(xiàn)等。分類(lèi)與回歸的模型評(píng)價(jià)分類(lèi)模型的評(píng)價(jià)指標(biāo)準(zhǔn)確率準(zhǔn)確率（Accuracy）是指預(yù)測(cè)正確的結(jié)果所占總樣本的百分比：錯(cuò)誤率

錯(cuò)誤率（Fallibility）是指預(yù)測(cè)錯(cuò)誤的結(jié)果所占總樣本的百分比：分類(lèi)與回歸的模型評(píng)價(jià)精確率精確率（Precision）是指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率：反饋率反饋率（Recall）是指實(shí)際為正樣本預(yù)測(cè)為正樣本占實(shí)際為正樣本的總數(shù)概率：分類(lèi)與回歸的模型評(píng)價(jià)分類(lèi)與回歸的模型評(píng)價(jià)ROC曲線(xiàn)接收者操作特征曲線(xiàn)（ReceiverOperatingCharacteristiccurve，ROC曲線(xiàn)）是一種非常有效的模型評(píng)價(jià)方法，可為選定臨界值給出定量提示。對(duì)于回歸模型，常用的模型評(píng)價(jià)指標(biāo)包括了絕對(duì)誤差與相對(duì)誤差、誤差分析中的綜合指標(biāo)（平均絕對(duì)誤差、均方誤差、均方根誤差）、平均絕對(duì)百分誤差和Kappa統(tǒng)計(jì)量等。絕對(duì)誤差（AbsoluteError）：相對(duì)誤差（RelativeError）：平均絕對(duì)誤差（MeanAbsoluteError，MAE）：分類(lèi)與回歸的模型評(píng)價(jià)回歸模型的評(píng)價(jià)指標(biāo)均方誤差（MeanSquaredError，MSE）：均方根誤差：平均絕對(duì)百分誤差：分類(lèi)與回歸的模型評(píng)價(jià)Kappa統(tǒng)計(jì)Kappa統(tǒng)計(jì)是比較兩個(gè)或多個(gè)觀(guān)測(cè)者對(duì)同一事物，或觀(guān)測(cè)者對(duì)同一事物的兩次或多次觀(guān)測(cè)結(jié)果是否一致，將由隨機(jī)造成的一致性和實(shí)際觀(guān)測(cè)的一致性之間的差別大小作為評(píng)價(jià)基礎(chǔ)的統(tǒng)計(jì)指標(biāo)。Kappa取值在區(qū)間[-1,1]內(nèi)，其值的大小均有不同意義，具體如下：當(dāng)Kappa=1時(shí)，說(shuō)明兩次判斷的結(jié)果完全一致。當(dāng)Kappa=-1時(shí)，說(shuō)明兩次判斷的結(jié)果完全不一致。當(dāng)Kappa=0時(shí)，說(shuō)明兩次判斷的結(jié)果是隨機(jī)造成。當(dāng)Kappa<0時(shí)，說(shuō)明一致程度比隨機(jī)造成的還差，兩次檢查結(jié)果很不一致，在實(shí)際應(yīng)用中無(wú)意義。當(dāng)Kappa>0時(shí)，說(shuō)明有意義，Kappa愈大，說(shuō)明一致性愈好。當(dāng)

時(shí)，說(shuō)明已經(jīng)取得相當(dāng)滿(mǎn)意的一致程度。當(dāng)Kappa<0.4時(shí)，說(shuō)明一致程度不夠。分類(lèi)與回歸的模型評(píng)價(jià)對(duì)于由d個(gè)屬性組成的樣本集，其中是

在第

個(gè)屬性上的取值，線(xiàn)性模型即通過(guò)學(xué)習(xí)得到一個(gè)屬性的線(xiàn)性組合來(lái)預(yù)測(cè)樣本標(biāo)簽的函數(shù)：

其中，表示回歸系數(shù)的集合，其中回歸系數(shù)表示屬性在預(yù)測(cè)目標(biāo)變量時(shí)的重要性，b為常數(shù)。線(xiàn)性模型線(xiàn)性回歸模型使用scikit-learn庫(kù)中l(wèi)inear_model模塊的LinearRegression類(lèi)可以建立線(xiàn)性回歸模型，其基本使用格式和常用參數(shù)描述如下：classsklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)線(xiàn)性模型參數(shù)名稱(chēng)說(shuō)明fit_intercept接收bool。表示是否有截?fù)?jù)，若沒(méi)有則直線(xiàn)過(guò)原點(diǎn)。默認(rèn)為T(mén)ruenormalize接收bool，表示是否將數(shù)據(jù)歸一化，默認(rèn)為Falsecopy_X接收bool，表示是否復(fù)制數(shù)據(jù)表進(jìn)行運(yùn)算，默認(rèn)為T(mén)ruen_jobs接收int，表示計(jì)算時(shí)使用的核數(shù)，默認(rèn)為1

邏輯回歸是一種廣義的線(xiàn)性回歸模型，但實(shí)際是邏輯回歸是一個(gè)分類(lèi)算法。具體的分類(lèi)方法：設(shè)定一個(gè)分類(lèi)閾值，將預(yù)測(cè)結(jié)果大于分類(lèi)閾值的樣本歸為正類(lèi)，反之歸為反類(lèi)。其中，的取值范圍是，與線(xiàn)性模型中的一致。線(xiàn)性模型邏輯回歸模型邏輯回歸模型的建模步驟：線(xiàn)性模型使用scikit-learn庫(kù)中l(wèi)inear_model模塊的LogisticRegression類(lèi)可以建立邏輯回歸模型，其語(yǔ)法格式和常用參數(shù)描述如下：classsklearn.linear_model.LogisticRegression(penalty='l2',class_weight=None,random_state=None,solver='liblinear',max_iter=100)線(xiàn)性模型參數(shù)名稱(chēng)說(shuō)明penalty接收str。表示正則化選擇參數(shù)，可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù)，可選參數(shù)為newton-cg,lbfg,liblinear,sag，當(dāng)penalty='l2'時(shí)，4種都可選；當(dāng)penalty='l1'時(shí)，只能選liblinear。默認(rèn)為liblinearclass_weight接收balanced以及字典，表示類(lèi)型權(quán)重參數(shù)，如對(duì)于因變量取值為0或1的二元模型，可以定義class_weight={0:0.9,1:0.1}，這樣類(lèi)型0的權(quán)重為90%，而類(lèi)型1的權(quán)重為10%。默認(rèn)為None決策樹(shù)是一樹(shù)狀結(jié)構(gòu)，它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類(lèi)，非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分，根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn)，多數(shù)類(lèi)的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類(lèi)。決策樹(shù)根部節(jié)點(diǎn)(rootnode)中間節(jié)點(diǎn)(non-leafnode)分支(branches)葉節(jié)點(diǎn)(leafnode）決策樹(shù)問(wèn)題：對(duì)于給定樣本集，如何判斷應(yīng)該先選擇在哪個(gè)屬性上進(jìn)行拆分？理想情況：在拆分過(guò)程中，當(dāng)葉節(jié)點(diǎn)只擁有單一類(lèi)別時(shí)，將不必繼續(xù)拆分。目標(biāo)是尋找較小的樹(shù)，希望遞歸過(guò)程盡早停止較小的樹(shù)意味著什么？當(dāng)前最好的拆分屬性產(chǎn)生的拆分中目標(biāo)類(lèi)的分布應(yīng)該盡可能地單一（單純），多數(shù)類(lèi)占優(yōu)。決策樹(shù)算法通常按照純度的增加來(lái)選擇拆分屬性。用于評(píng)價(jià)拆分分類(lèi)目標(biāo)變量的純度度量包括：熵(entropy，信息量)信息增益(Gain)信息增益率基尼(Gini，總體發(fā)散性)改變拆分準(zhǔn)則（splittingcriteria）導(dǎo)致樹(shù)的外觀(guān)互不相同。決策樹(shù)純度的度量常用的決策樹(shù)算法：決策樹(shù)決策樹(shù)算法算法描述ID3算法其核心是在決策樹(shù)的各級(jí)節(jié)點(diǎn)上，使用信息增益方法作為屬性的選擇標(biāo)準(zhǔn)，來(lái)幫助確定生成每個(gè)節(jié)點(diǎn)時(shí)所應(yīng)采用的合適屬性C4.5算法C4.5決策樹(shù)生成算法相對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇節(jié)點(diǎn)屬性。C4.5算法可以克服ID3算法存在的不足：ID3算法只適用于離散的描述屬性，而C4.5算法既能夠處理離散的描述屬性，也可以處理連續(xù)的描述屬性CART算法CART決策樹(shù)是一種十分有效的非參數(shù)分類(lèi)和回歸方法，通過(guò)構(gòu)建樹(shù)、修剪樹(shù)、評(píng)估樹(shù)來(lái)構(gòu)建一個(gè)二叉樹(shù)。當(dāng)終結(jié)點(diǎn)是連續(xù)變量時(shí)，該樹(shù)為回歸樹(shù)；當(dāng)終結(jié)點(diǎn)是分類(lèi)變量，該樹(shù)為分類(lèi)樹(shù)SLIQ算法SLIQ算法對(duì)C4.5決策樹(shù)分類(lèi)算法的實(shí)現(xiàn)方法進(jìn)行了改進(jìn)，使得其能處理比C4.5大得多的訓(xùn)練集，在一定范圍內(nèi)具有良好的可伸縮性決策樹(shù)天氣情況對(duì)是否打高爾夫球的影響日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？ID3算法簡(jiǎn)介及其原理決策樹(shù)天氣Yes濕度風(fēng)YesNoNoYes晴陰雨>75<=75是否日期天氣溫度(華氏度)濕度起風(fēng)打球?1Sunny8585FNo2Sunny8090TNo3Overcast8378FYes4Rainy7096FYes5Rainy6880FYes6Rainy6570TNo7Overcast6465TYes8Sunny7295FNo9Sunny6970FYes10Rainy7580FYes11Sunny7570TYes12Overcast7290TYes13Overcast8175FYes14Rainy7180TNo如果數(shù)據(jù)集D中共有N類(lèi)樣本，出現(xiàn)的概率分別為，則D的信息熵為：打球問(wèn)題的信息熵為：決策樹(shù)日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？天氣屬性的信息增益晴：打球記錄2條，不打球記錄為3條陰：打球記錄4條，不打球記錄0條雨：打球記錄3條，不打球記錄2條某屬性a的信息增益為：決策樹(shù)日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？決策樹(shù)ID3算法具體流程對(duì)當(dāng)前樣本集合，計(jì)算所有屬性的信息增益選擇信息增益最大的屬性作為測(cè)試屬性，將測(cè)試屬性中取值相同的樣本劃為同一個(gè)子樣本集若子樣本集的類(lèi)別屬性只含有單個(gè)類(lèi)別，則分支為葉子節(jié)點(diǎn)，判斷其屬性值并標(biāo)上相應(yīng)的符號(hào)，然后返回調(diào)用處；否則對(duì)子樣本集遞歸調(diào)用本算法使用scikit-learn庫(kù)中tree模塊的DecisionTreeClassifier類(lèi)可以建立決策樹(shù)模型，其語(yǔ)法格式和常用參數(shù)描述如下：classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,random_state=None,max_leaf_nodes=None,min_impurity_split=None,class_weight=None)決策樹(shù)參數(shù)名稱(chēng)參數(shù)說(shuō)明criterion接收gini或entropy。表示衡量分割質(zhì)量的功能。默認(rèn)為ginisplitter接收best或random。表示用于在每個(gè)節(jié)點(diǎn)上選擇拆分的策略。默認(rèn)為bestmax_depth接收int。表示樹(shù)的最大深度。默認(rèn)為Nonemin_samples_split接收int或float。表示拆分內(nèi)部節(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)為2

Graphviz是一款由AT&TResearch和LucentBell實(shí)驗(yàn)室開(kāi)源的可視化圖形工具，可以很方便的用來(lái)繪制結(jié)構(gòu)化的圖形網(wǎng)絡(luò)，支持多種格式輸出。用graphviz可視化決策樹(shù)的步驟如下：下載并安裝graphviz：/設(shè)置字體：edge[fontname="SimHei"];node[fontname="SimHei"];生成pdf：dot-Tpdf路徑\tree.dot-o路徑\tree.pdf決策樹(shù)K近鄰（K-NearestNeighbor，KNN）算法是一種常用的監(jiān)督學(xué)習(xí)方法。其原理非常簡(jiǎn)單：對(duì)于給定測(cè)試樣本，基于指定的距離度量找出訓(xùn)練集中與其最近的k個(gè)樣本，然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。距離度量一般采用歐式距離，對(duì)于維歐式空間的兩點(diǎn)、，兩點(diǎn)間的歐式距離計(jì)算為：最近鄰分類(lèi)確定預(yù)測(cè)樣本類(lèi)別：投票法平均法最近鄰分類(lèi)使用scikit-learn庫(kù)中neighbors模塊的KNeighborsClassifier類(lèi)可以實(shí)現(xiàn)K近鄰算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi)，KNeighborsClassifier類(lèi)的基本使用格式和常用參數(shù)說(shuō)明如下：classsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,*,weights='uniform',algorithm='auto',p=2,metric='minkowski',metric_params=None,n_jobs=None,**kwargs)最近鄰分類(lèi)參數(shù)名稱(chēng)說(shuō)明n_neighbors接收int。表示“鄰居”數(shù)。默認(rèn)為5weights接收str。表示分類(lèi)判斷時(shí)最近鄰的權(quán)重，可選參數(shù)為uniform和distance，uniform表示權(quán)重相等，distance表示按距離的倒數(shù)賦予權(quán)重。默認(rèn)為uniformalgorithm接收str。表示分類(lèi)時(shí)采取的算法，可選參數(shù)為auto、ball_tree、kd_tree和brute，一般選擇auto自動(dòng)選擇最優(yōu)的算法。默認(rèn)為autop接收int。表示Minkowski指標(biāo)的功率參數(shù)，p=1表示曼哈頓距離，p=2表示歐式距離。默認(rèn)為2metric接收str。表示距離度量。默認(rèn)為minkowskin_jobs接收int。表示計(jì)算時(shí)使用的核數(shù)。默認(rèn)為None支持向量機(jī)（SupportVectorMachines，SVM）的思想是在樣本空間中找到一個(gè)劃分超平面，將不同類(lèi)別的樣本分開(kāi)。支持向量機(jī)支持向量機(jī)簡(jiǎn)介在樣本空間中，劃分超平面可通過(guò)線(xiàn)性方程來(lái)描述：其中，為法向量，決定了超平面的方向；b為位移項(xiàng)，決定了超平面與原點(diǎn)之間的距離。支持向量機(jī)線(xiàn)性支持向量機(jī)的基本步驟：將原問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題：

原問(wèn)題：凸優(yōu)化問(wèn)題：支持向量機(jī)線(xiàn)性支持向量機(jī)通過(guò)構(gòu)建拉格朗日函數(shù)，將原問(wèn)題對(duì)偶化。構(gòu)造拉格朗日函數(shù)：對(duì)偶問(wèn)題：支持向量機(jī)對(duì)對(duì)偶化后的問(wèn)題進(jìn)行求解。KKT條件：于是，對(duì)于訓(xùn)練樣本，有或；若，則該樣本不會(huì)在中出現(xiàn)，也就是不會(huì)對(duì)目標(biāo)函數(shù)有任何影響；若，則必有，所對(duì)應(yīng)的樣本點(diǎn)位于最大間隔邊界上，是一個(gè)支持向量。支持向量機(jī)SMO算法的思路是先固定

之外的所有參數(shù)，然后求

的極值。由于存在約束條件

，只更新一個(gè)

會(huì)不滿(mǎn)足約束條件。于是，SMO每次選擇兩個(gè)變量

和

，固定其他參數(shù)。這樣，在參數(shù)初始化后，SMO算法不斷地執(zhí)行以下兩個(gè)步驟：(1)

選擇一對(duì)需要更新的變量

和

；(2)

固定

和

以外的參數(shù)，求解下式獲得更新后的

和

。循環(huán)執(zhí)行這過(guò)程，直到求出所有的

。

其中

，

是一個(gè)常數(shù)。支持向量機(jī)SMO算法求解：(1)通過(guò) 可解出。(2)對(duì)任意的支持向量，都有。假設(shè)有S個(gè)支持向量，可求出對(duì)應(yīng)S個(gè)，取平均值作為最終的結(jié)果：支持向量機(jī)求解偏移項(xiàng)：而在現(xiàn)實(shí)場(chǎng)景應(yīng)用中，樣本空間很可能不存在一個(gè)能正確劃分樣本的超平面。對(duì)于這類(lèi)問(wèn)題的常用解決方法：將樣本從原始空間映射到一個(gè)更高維的特征空間，使得樣本在這個(gè)特征空間內(nèi)線(xiàn)性可分。然而由于映射后的特征空間維數(shù)可能很高，直接計(jì)算通常是很困難的，為了避開(kāi)這個(gè)障礙，會(huì)利用已知的核函數(shù)直接進(jìn)行計(jì)算：支持向量機(jī)非線(xiàn)性支持向量機(jī)核函數(shù)名稱(chēng)表達(dá)式說(shuō)明線(xiàn)性核k為核函數(shù)，和為樣本多項(xiàng)式核為多項(xiàng)式次數(shù)高斯核為高斯核的帶寬（width）拉普拉斯核Sigmoid核為雙曲正切函數(shù)，，

使用scikit-learn庫(kù)中svm模塊的SVC類(lèi)可以實(shí)現(xiàn)支持向量機(jī)算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi)，SVC類(lèi)的基本使用格式和常用參數(shù)說(shuō)明如下：classsklearn.svm.SVC(*,C=1.0,kernel=‘rbf’,degree=3,gamma=‘scale’,coef0=0.0,tol=0.001,max_iter=-1,random_state=None)支持向量機(jī)參數(shù)名稱(chēng)說(shuō)明C接收f(shuō)loat。表示對(duì)誤分類(lèi)的懲罰參數(shù)。默認(rèn)為1.0kernel接收str。表示核函數(shù)，可選參數(shù)為linear、poly、rbf、sigmoid、precomputed。默認(rèn)為rbfdegree接收int。表示多項(xiàng)式核函數(shù)poly的維度。默認(rèn)為3gamma接收str。表示rbf、poly、sigmoid核函數(shù)的參數(shù),若是auto，則自動(dòng)設(shè)置參數(shù)。默認(rèn)為autocoef0接收int或float。表示核函數(shù)的常數(shù)項(xiàng),對(duì)poly和sigmoid有效，默認(rèn)為0.0tol接收f(shuō)loat。表示停止訓(xùn)練的誤差大小。默認(rèn)為0.001max_iter接受int。表示最大迭代次數(shù)，-1表示無(wú)限制。默認(rèn)為-1神經(jīng)網(wǎng)絡(luò)（NeuralNetworks）能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu)，是一個(gè)具備學(xué)習(xí)功能的自適應(yīng)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)介紹常用于實(shí)現(xiàn)分類(lèi)和回歸的神經(jīng)網(wǎng)絡(luò)算法：神經(jīng)網(wǎng)絡(luò)算法名稱(chēng)算法描述BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)，學(xué)習(xí)算法是δ學(xué)習(xí)規(guī)則，是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一LM神經(jīng)網(wǎng)絡(luò)是基于梯度下降法和牛頓法結(jié)合的多層前饋網(wǎng)絡(luò)，特點(diǎn)：迭代次數(shù)少，收斂速度快，精確度高RBF徑向基神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù)，從輸人層到隱含層的變換是非線(xiàn)性的，而從隱含層到輸出層的變換是線(xiàn)性的，特別適合于解決分類(lèi)問(wèn)題FNN模糊神經(jīng)網(wǎng)絡(luò)FNN模糊神經(jīng)網(wǎng)絡(luò)是具有模糊權(quán)系數(shù)或者輸入信號(hào)是模糊量的神經(jīng)網(wǎng)絡(luò)，是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物，它匯聚了神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)的優(yōu)點(diǎn)，集聯(lián)想、識(shí)別、自適應(yīng)及模糊信息處理于一體GMDH神經(jīng)網(wǎng)絡(luò)GMDH網(wǎng)絡(luò)也稱(chēng)為多項(xiàng)式網(wǎng)絡(luò)，它是前饋神經(jīng)網(wǎng)絡(luò)中常用的一種用于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。它的特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)不固定，而且在訓(xùn)練過(guò)程中不斷改變ANFIS自適應(yīng)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)鑲嵌在一個(gè)全部模糊的結(jié)構(gòu)之中，在不知不覺(jué)中向訓(xùn)練數(shù)據(jù)學(xué)習(xí)，自動(dòng)產(chǎn)生、修正并高度概括出最佳的輸入與輸出變量的隸屬函數(shù)以及模糊規(guī)則；另外神經(jīng)網(wǎng)絡(luò)的各層結(jié)構(gòu)與參數(shù)也都具有了明確的、易于理解的物理意義BP神經(jīng)網(wǎng)絡(luò)，是指采用誤差逆?zhèn)鞑ィ˙ackPropagation，BP）算法訓(xùn)練的多層前饋網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)輸出層隱層輸入層x1xixdb1b2bhbqy1yjylw2jv1hvihvdhwqjwhjw1j第j個(gè)輸出層神經(jīng)元的輸入：第h個(gè)隱層神經(jīng)元的輸出：第h個(gè)隱層神經(jīng)元的輸入：第j個(gè)輸出層神經(jīng)元的輸出：BP神經(jīng)網(wǎng)絡(luò)算法的學(xué)習(xí)過(guò)程：神經(jīng)網(wǎng)絡(luò)使用scikit-learn庫(kù)中neural_network模塊的MLPClassifier類(lèi)可以建立多層感知器分類(lèi)模型，其使用格式和常用參數(shù)說(shuō)明如下：classsklearn.neural_network.MLPClassifier(hidden_layer_sizes=100,activation=’relu’,solver=’adam’,alpha=0.0001,learning_rate_init=0.001,max_iter=200,tol=0.0001)神經(jīng)網(wǎng)絡(luò)參數(shù)名稱(chēng)說(shuō)明hidden_layer_sizes接收tuple。表示隱層結(jié)構(gòu)，其長(zhǎng)度表示隱層層數(shù)，元素表示每一個(gè)隱層的神經(jīng)元個(gè)數(shù)。如(80,90)表示包含兩個(gè)隱層，第一個(gè)隱層有80個(gè)神經(jīng)元，第2個(gè)隱層有90個(gè)神經(jīng)元。默認(rèn)為100activation接收str。表示激活函數(shù)，可選參數(shù)有identity、logistics、tanh、relu，默認(rèn)為relusolver接收str。表示優(yōu)化算法的類(lèi)型，可選參數(shù)有l(wèi)bfgs、sgd、adam，默認(rèn)為adammax_iter接收int。表示最大迭代次數(shù)。默認(rèn)為200tol接收f(shuō)loat。表示優(yōu)化過(guò)程的收斂性閾值。默認(rèn)為0.0001learning_rate_init接收f(shuō)loat。表示初始學(xué)習(xí)率，默認(rèn)為0.001集成學(xué)習(xí)算法通過(guò)組合多種學(xué)習(xí)算法來(lái)獲得比任何單獨(dú)的學(xué)習(xí)算法具有更好的預(yù)測(cè)性能的估計(jì)器。對(duì)于訓(xùn)練集數(shù)據(jù)，我們通過(guò)訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器（individuallearner），通過(guò)一定的結(jié)合策略，就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器，以達(dá)到博采眾長(zhǎng)的目的。集成算法Bagging的個(gè)體弱學(xué)習(xí)器的訓(xùn)練集是通過(guò)隨機(jī)采樣得到的。通過(guò)T次的隨機(jī)采樣，我們就可以得到T個(gè)采樣集，對(duì)于這T個(gè)采樣集，我們可以分別獨(dú)立的訓(xùn)練出T個(gè)弱學(xué)習(xí)器，再對(duì)這T個(gè)弱學(xué)習(xí)器通過(guò)集合策略來(lái)得到最終的強(qiáng)學(xué)習(xí)器。集成算法Bagging隨機(jī)森林（RandomForest，RF）是Bagging的一個(gè)拓展，RF在以決策樹(shù)為基分類(lèi)器構(gòu)建Bagging學(xué)習(xí)器的基礎(chǔ)上，進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。集成算法使用scikit-learn庫(kù)中ensemble模塊的RandomForestClassifier類(lèi)可以建立隨機(jī)森林模型，其基本使用格和常用參數(shù)說(shuō)明式如下：classsklearn.ensemble.RandomForestClassifier(n_estimators=100,criterion=’gini’,max_depth=None,min_samples_split=2,min_samples_leaf=1,max_leaf_nodes=None)集成算法參數(shù)名稱(chēng)參數(shù)說(shuō)明n_estimators接收int。表示隨機(jī)森林中決策樹(shù)數(shù)量。默認(rèn)為100criterion接收str。表示決策樹(shù)進(jìn)行屬性選擇時(shí)的評(píng)價(jià)標(biāo)準(zhǔn)，可選參數(shù)為gini、entropy。默認(rèn)為ginimax_depth接收int或None。表示決策樹(shù)劃分時(shí)考慮的最大特征數(shù)。默認(rèn)為Nonemin_samples_split接收int或float。表示內(nèi)部結(jié)點(diǎn)最小的樣本數(shù)，若是float，則表示百分?jǐn)?shù)。默認(rèn)為2min_samples_leaf接收int或float。表示葉結(jié)點(diǎn)最小的樣本數(shù)，若是float，則表示百分?jǐn)?shù)。默認(rèn)為1max_leaf_nodes接受in-t或None。表示最大的葉結(jié)點(diǎn)數(shù)。默認(rèn)為NoneBoosting（提升）是一個(gè)可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法。這個(gè)算法的工作機(jī)制為：賦予一個(gè)相等的初始權(quán)重給每個(gè)訓(xùn)練樣本；迭代地學(xué)習(xí)k個(gè)分類(lèi)器，學(xué)習(xí)得到弱學(xué)習(xí)器1之后，更新權(quán)重，使得后面的分類(lèi)器更關(guān)注誤分類(lèi)的訓(xùn)練樣本；最后的分類(lèi)器組合每個(gè)個(gè)體分類(lèi)器的表決結(jié)果。集成算法Boosting梯度提升機(jī)（GradientBoostingMachine，GBM）是一種Boosting的方法，其提高模型精度的方法與傳統(tǒng)Boosting對(duì)正確、錯(cuò)誤樣本進(jìn)行加權(quán)不同，該模型通過(guò)在殘差減少的梯度（Gradient）方向上建立一個(gè)新的模型，從而降低新模型的殘差（Residual）。即每個(gè)新模型的建立是為了使得之前模型的殘差往梯度方向減少。集成算法使用scikit-learn庫(kù)中ensemble模塊的Grad

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-（1）分類(lèi)與回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔