《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(1)分類(lèi)與回歸_第1頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(1)分類(lèi)與回歸_第2頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(1)分類(lèi)與回歸_第3頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(1)分類(lèi)與回歸_第4頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(1)分類(lèi)與回歸_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章數(shù)據(jù)挖掘算法基礎(chǔ)數(shù)據(jù)挖掘算法基礎(chǔ)1聚類(lèi)目錄分類(lèi)與回歸2關(guān)聯(lián)規(guī)則3智能推薦4時(shí)間序列5分類(lèi)算法構(gòu)造一個(gè)分類(lèi)模型,模型的輸入為樣本的屬性值,輸出為對(duì)應(yīng)的類(lèi)別,將每個(gè)樣本映射到預(yù)先定義好的類(lèi)別?;貧w算法則是建立兩種或兩種以上變量間相互依賴(lài)的函數(shù)模型,然后使用函數(shù)模型預(yù)測(cè)目標(biāo)的值。常用的分類(lèi)算法與回歸算法常用的分類(lèi)與回歸算法:常用的分類(lèi)算法與回歸算法算法名稱(chēng)算法描述回歸分析回歸分析是確定預(yù)測(cè)屬性(數(shù)值型)與其他變量間相互依賴(lài)的定量關(guān)系最常用的統(tǒng)計(jì)學(xué)方法。包括線(xiàn)性回歸、非線(xiàn)性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹(shù)決策樹(shù)采用自頂向下的遞歸方式,在內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該結(jié)點(diǎn)向下分支,最終得到的葉結(jié)點(diǎn)是學(xué)習(xí)劃分的類(lèi)最近鄰分類(lèi)最近鄰分類(lèi)是一種典型的“懶惰學(xué)習(xí)”算法,基于指定的距離度量,找出測(cè)試樣本的最近鄰,并基于投票法對(duì)測(cè)試樣本進(jìn)行分類(lèi)支持向量機(jī)支持向量機(jī)的基本思想是在樣本空間或特征空間中,構(gòu)造出最優(yōu)超平面,使得超平面與不同類(lèi)樣本集之間的距離最大,從而達(dá)到最大化泛化能力的目的。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型集成學(xué)習(xí)集成算法使用多種算法的組合進(jìn)行預(yù)測(cè),比單一分類(lèi)器具有更高的準(zhǔn)確率和魯棒性,通常分為Bagging(聚合)、Boosting(提升)和Stacking(堆疊)三種模式對(duì)于分類(lèi)模型的評(píng)價(jià),常用的模型評(píng)價(jià)指標(biāo)包括了準(zhǔn)確率、精確率、反饋率、混淆矩陣和ROC曲線(xiàn)等。分類(lèi)與回歸的模型評(píng)價(jià)分類(lèi)模型的評(píng)價(jià)指標(biāo)準(zhǔn)確率準(zhǔn)確率(Accuracy)是指預(yù)測(cè)正確的結(jié)果所占總樣本的百分比:錯(cuò)誤率

錯(cuò)誤率(Fallibility)是指預(yù)測(cè)錯(cuò)誤的結(jié)果所占總樣本的百分比:分類(lèi)與回歸的模型評(píng)價(jià)精確率精確率(Precision)是指所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率:反饋率反饋率(Recall)是指實(shí)際為正樣本預(yù)測(cè)為正樣本占實(shí)際為正樣本的總數(shù)概率:分類(lèi)與回歸的模型評(píng)價(jià)分類(lèi)與回歸的模型評(píng)價(jià)ROC曲線(xiàn)接收者操作特征曲線(xiàn)(ReceiverOperatingCharacteristiccurve,ROC曲線(xiàn))是一種非常有效的模型評(píng)價(jià)方法,可為選定臨界值給出定量提示。對(duì)于回歸模型,常用的模型評(píng)價(jià)指標(biāo)包括了絕對(duì)誤差與相對(duì)誤差、誤差分析中的綜合指標(biāo)(平均絕對(duì)誤差、均方誤差、均方根誤差)、平均絕對(duì)百分誤差和Kappa統(tǒng)計(jì)量等。絕對(duì)誤差(AbsoluteError):相對(duì)誤差(RelativeError):平均絕對(duì)誤差(MeanAbsoluteError,MAE):分類(lèi)與回歸的模型評(píng)價(jià)回歸模型的評(píng)價(jià)指標(biāo)均方誤差(MeanSquaredError,MSE):均方根誤差:平均絕對(duì)百分誤差:分類(lèi)與回歸的模型評(píng)價(jià)Kappa統(tǒng)計(jì)Kappa統(tǒng)計(jì)是比較兩個(gè)或多個(gè)觀(guān)測(cè)者對(duì)同一事物,或觀(guān)測(cè)者對(duì)同一事物的兩次或多次觀(guān)測(cè)結(jié)果是否一致,將由隨機(jī)造成的一致性和實(shí)際觀(guān)測(cè)的一致性之間的差別大小作為評(píng)價(jià)基礎(chǔ)的統(tǒng)計(jì)指標(biāo)。Kappa取值在區(qū)間[-1,1]內(nèi),其值的大小均有不同意義,具體如下:當(dāng)Kappa=1時(shí),說(shuō)明兩次判斷的結(jié)果完全一致。當(dāng)Kappa=-1時(shí),說(shuō)明兩次判斷的結(jié)果完全不一致。當(dāng)Kappa=0時(shí),說(shuō)明兩次判斷的結(jié)果是隨機(jī)造成。當(dāng)Kappa<0時(shí),說(shuō)明一致程度比隨機(jī)造成的還差,兩次檢查結(jié)果很不一致,在實(shí)際應(yīng)用中無(wú)意義。當(dāng)Kappa>0時(shí),說(shuō)明有意義,Kappa愈大,說(shuō)明一致性愈好。當(dāng)

時(shí),說(shuō)明已經(jīng)取得相當(dāng)滿(mǎn)意的一致程度。當(dāng)Kappa<0.4時(shí),說(shuō)明一致程度不夠。分類(lèi)與回歸的模型評(píng)價(jià)對(duì)于由d個(gè)屬性組成的樣本集,其中是

在第

個(gè)屬性上的取值,線(xiàn)性模型即通過(guò)學(xué)習(xí)得到一個(gè)屬性的線(xiàn)性組合來(lái)預(yù)測(cè)樣本標(biāo)簽的函數(shù):

其中,表示回歸系數(shù)的集合,其中回歸系數(shù)表示屬性在預(yù)測(cè)目標(biāo)變量時(shí)的重要性,b為常數(shù)。線(xiàn)性模型線(xiàn)性回歸模型使用scikit-learn庫(kù)中l(wèi)inear_model模塊的LinearRegression類(lèi)可以建立線(xiàn)性回歸模型,其基本使用格式和常用參數(shù)描述如下:classsklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)線(xiàn)性模型參數(shù)名稱(chēng)說(shuō)明fit_intercept接收bool。表示是否有截?fù)?jù),若沒(méi)有則直線(xiàn)過(guò)原點(diǎn)。默認(rèn)為T(mén)ruenormalize接收bool,表示是否將數(shù)據(jù)歸一化,默認(rèn)為Falsecopy_X接收bool,表示是否復(fù)制數(shù)據(jù)表進(jìn)行運(yùn)算,默認(rèn)為T(mén)ruen_jobs接收int,表示計(jì)算時(shí)使用的核數(shù),默認(rèn)為1

邏輯回歸是一種廣義的線(xiàn)性回歸模型,但實(shí)際是邏輯回歸是一個(gè)分類(lèi)算法。具體的分類(lèi)方法:設(shè)定一個(gè)分類(lèi)閾值,將預(yù)測(cè)結(jié)果大于分類(lèi)閾值的樣本歸為正類(lèi),反之歸為反類(lèi)。其中,的取值范圍是,與線(xiàn)性模型中的一致。線(xiàn)性模型邏輯回歸模型邏輯回歸模型的建模步驟:線(xiàn)性模型使用scikit-learn庫(kù)中l(wèi)inear_model模塊的LogisticRegression類(lèi)可以建立邏輯回歸模型,其語(yǔ)法格式和常用參數(shù)描述如下:classsklearn.linear_model.LogisticRegression(penalty='l2',class_weight=None,random_state=None,solver='liblinear',max_iter=100)線(xiàn)性模型參數(shù)名稱(chēng)說(shuō)明penalty接收str。表示正則化選擇參數(shù),可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù),可選參數(shù)為newton-cg,lbfg,liblinear,sag,當(dāng)penalty='l2'時(shí),4種都可選;當(dāng)penalty='l1'時(shí),只能選liblinear。默認(rèn)為liblinearclass_weight接收balanced以及字典,表示類(lèi)型權(quán)重參數(shù),如對(duì)于因變量取值為0或1的二元模型,可以定義class_weight={0:0.9,1:0.1},這樣類(lèi)型0的權(quán)重為90%,而類(lèi)型1的權(quán)重為10%。默認(rèn)為None決策樹(shù)是一樹(shù)狀結(jié)構(gòu),它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類(lèi),非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類(lèi)的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類(lèi)。決策樹(shù)根部節(jié)點(diǎn)(rootnode)中間節(jié)點(diǎn)(non-leafnode)分支(branches)葉節(jié)點(diǎn)(leafnode)決策樹(shù)問(wèn)題:對(duì)于給定樣本集,如何判斷應(yīng)該先選擇在哪個(gè)屬性上進(jìn)行拆分?理想情況:在拆分過(guò)程中,當(dāng)葉節(jié)點(diǎn)只擁有單一類(lèi)別時(shí),將不必繼續(xù)拆分。目標(biāo)是尋找較小的樹(shù),希望遞歸過(guò)程盡早停止較小的樹(shù)意味著什么?當(dāng)前最好的拆分屬性產(chǎn)生的拆分中目標(biāo)類(lèi)的分布應(yīng)該盡可能地單一(單純),多數(shù)類(lèi)占優(yōu)。決策樹(shù)算法通常按照純度的增加來(lái)選擇拆分屬性。用于評(píng)價(jià)拆分分類(lèi)目標(biāo)變量的純度度量包括:熵(entropy,信息量)信息增益(Gain)信息增益率基尼(Gini,總體發(fā)散性)改變拆分準(zhǔn)則(splittingcriteria)導(dǎo)致樹(shù)的外觀(guān)互不相同。決策樹(shù)純度的度量常用的決策樹(shù)算法:決策樹(shù)決策樹(shù)算法算法描述ID3算法其核心是在決策樹(shù)的各級(jí)節(jié)點(diǎn)上,使用信息增益方法作為屬性的選擇標(biāo)準(zhǔn),來(lái)幫助確定生成每個(gè)節(jié)點(diǎn)時(shí)所應(yīng)采用的合適屬性C4.5算法C4.5決策樹(shù)生成算法相對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇節(jié)點(diǎn)屬性。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用于離散的描述屬性,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續(xù)的描述屬性CART算法CART決策樹(shù)是一種十分有效的非參數(shù)分類(lèi)和回歸方法,通過(guò)構(gòu)建樹(shù)、修剪樹(shù)、評(píng)估樹(shù)來(lái)構(gòu)建一個(gè)二叉樹(shù)。當(dāng)終結(jié)點(diǎn)是連續(xù)變量時(shí),該樹(shù)為回歸樹(shù);當(dāng)終結(jié)點(diǎn)是分類(lèi)變量,該樹(shù)為分類(lèi)樹(shù)SLIQ算法SLIQ算法對(duì)C4.5決策樹(shù)分類(lèi)算法的實(shí)現(xiàn)方法進(jìn)行了改進(jìn),使得其能處理比C4.5大得多的訓(xùn)練集,在一定范圍內(nèi)具有良好的可伸縮性決策樹(shù)天氣情況對(duì)是否打高爾夫球的影響日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F?16雨8079F?17晴7870T?ID3算法簡(jiǎn)介及其原理決策樹(shù)天氣Yes濕度風(fēng)YesNoNoYes晴陰雨>75<=75是否日期天氣溫度(華氏度)濕度起風(fēng)打球?1Sunny8585FNo2Sunny8090TNo3Overcast8378FYes4Rainy7096FYes5Rainy6880FYes6Rainy6570TNo7Overcast6465TYes8Sunny7295FNo9Sunny6970FYes10Rainy7580FYes11Sunny7570TYes12Overcast7290TYes13Overcast8175FYes14Rainy7180TNo如果數(shù)據(jù)集D中共有N類(lèi)樣本,出現(xiàn)的概率分別為,則D的信息熵為:打球問(wèn)題的信息熵為:決策樹(shù)日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F?16雨8079F?17晴7870T?天氣屬性的信息增益晴:打球記錄2條,不打球記錄為3條陰:打球記錄4條,不打球記錄0條雨:打球記錄3條,不打球記錄2條某屬性a的信息增益為:決策樹(shù)日期天氣溫度(華氏度)濕度起風(fēng)打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F?16雨8079F?17晴7870T?決策樹(shù)ID3算法具體流程對(duì)當(dāng)前樣本集合,計(jì)算所有屬性的信息增益選擇信息增益最大的屬性作為測(cè)試屬性,將測(cè)試屬性中取值相同的樣本劃為同一個(gè)子樣本集若子樣本集的類(lèi)別屬性只含有單個(gè)類(lèi)別,則分支為葉子節(jié)點(diǎn),判斷其屬性值并標(biāo)上相應(yīng)的符號(hào),然后返回調(diào)用處;否則對(duì)子樣本集遞歸調(diào)用本算法使用scikit-learn庫(kù)中tree模塊的DecisionTreeClassifier類(lèi)可以建立決策樹(shù)模型,其語(yǔ)法格式和常用參數(shù)描述如下:classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,random_state=None,max_leaf_nodes=None,min_impurity_split=None,class_weight=None)決策樹(shù)參數(shù)名稱(chēng)參數(shù)說(shuō)明criterion接收gini或entropy。表示衡量分割質(zhì)量的功能。默認(rèn)為ginisplitter接收best或random。表示用于在每個(gè)節(jié)點(diǎn)上選擇拆分的策略。默認(rèn)為bestmax_depth接收int。表示樹(shù)的最大深度。默認(rèn)為Nonemin_samples_split接收int或float。表示拆分內(nèi)部節(jié)點(diǎn)所需的最少樣本數(shù)。默認(rèn)為2

Graphviz是一款由AT&TResearch和LucentBell實(shí)驗(yàn)室開(kāi)源的可視化圖形工具,可以很方便的用來(lái)繪制結(jié)構(gòu)化的圖形網(wǎng)絡(luò),支持多種格式輸出。用graphviz可視化決策樹(shù)的步驟如下:下載并安裝graphviz:/設(shè)置字體:edge[fontname="SimHei"];node[fontname="SimHei"];生成pdf:dot-Tpdf路徑\tree.dot-o路徑\tree.pdf決策樹(shù)K近鄰(K-NearestNeighbor,KNN)算法是一種常用的監(jiān)督學(xué)習(xí)方法。其原理非常簡(jiǎn)單:對(duì)于給定測(cè)試樣本,基于指定的距離度量找出訓(xùn)練集中與其最近的k個(gè)樣本,然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。距離度量一般采用歐式距離,對(duì)于維歐式空間的兩點(diǎn)、,兩點(diǎn)間的歐式距離計(jì)算為:最近鄰分類(lèi)確定預(yù)測(cè)樣本類(lèi)別:投票法平均法最近鄰分類(lèi)使用scikit-learn庫(kù)中neighbors模塊的KNeighborsClassifier類(lèi)可以實(shí)現(xiàn)K近鄰算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi),KNeighborsClassifier類(lèi)的基本使用格式和常用參數(shù)說(shuō)明如下:classsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,*,weights='uniform',algorithm='auto',p=2,metric='minkowski',metric_params=None,n_jobs=None,**kwargs)最近鄰分類(lèi)參數(shù)名稱(chēng)說(shuō)明n_neighbors接收int。表示“鄰居”數(shù)。默認(rèn)為5weights接收str。表示分類(lèi)判斷時(shí)最近鄰的權(quán)重,可選參數(shù)為uniform和distance,uniform表示權(quán)重相等,distance表示按距離的倒數(shù)賦予權(quán)重。默認(rèn)為uniformalgorithm接收str。表示分類(lèi)時(shí)采取的算法,可選參數(shù)為auto、ball_tree、kd_tree和brute,一般選擇auto自動(dòng)選擇最優(yōu)的算法。默認(rèn)為autop接收int。表示Minkowski指標(biāo)的功率參數(shù),p=1表示曼哈頓距離,p=2表示歐式距離。默認(rèn)為2metric接收str。表示距離度量。默認(rèn)為minkowskin_jobs接收int。表示計(jì)算時(shí)使用的核數(shù)。默認(rèn)為None支持向量機(jī)(SupportVectorMachines,SVM)的思想是在樣本空間中找到一個(gè)劃分超平面,將不同類(lèi)別的樣本分開(kāi)。支持向量機(jī)支持向量機(jī)簡(jiǎn)介在樣本空間中,劃分超平面可通過(guò)線(xiàn)性方程來(lái)描述:其中,為法向量,決定了超平面的方向;b為位移項(xiàng),決定了超平面與原點(diǎn)之間的距離。支持向量機(jī)線(xiàn)性支持向量機(jī)的基本步驟:將原問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題:

原問(wèn)題:凸優(yōu)化問(wèn)題:支持向量機(jī)線(xiàn)性支持向量機(jī)通過(guò)構(gòu)建拉格朗日函數(shù),將原問(wèn)題對(duì)偶化。構(gòu)造拉格朗日函數(shù):對(duì)偶問(wèn)題:支持向量機(jī)對(duì)對(duì)偶化后的問(wèn)題進(jìn)行求解。KKT條件:于是,對(duì)于訓(xùn)練樣本 ,有或;若 ,則該樣本不會(huì)在 中出現(xiàn),也就是不會(huì)對(duì)目標(biāo)函數(shù)有任何影響;若,則必有 ,所對(duì)應(yīng)的樣本點(diǎn)位于最大間隔邊界上,是一個(gè)支持向量。支持向量機(jī)SMO算法的思路是先固定

之外的所有參數(shù),然后求

的極值。由于存在約束條件

,只更新一個(gè)

會(huì)不滿(mǎn)足約束條件。于是,SMO每次選擇兩個(gè)變量

,固定其他參數(shù)。這樣,在參數(shù)初始化后,SMO算法不斷地執(zhí)行以下兩個(gè)步驟:(1)

選擇一對(duì)需要更新的變量

;(2)

固定

以外的參數(shù),求解下式獲得更新后的

。循環(huán)執(zhí)行這過(guò)程,直到求出所有的

。

其中

,

是一個(gè)常數(shù)。支持向量機(jī)SMO算法求解:(1)通過(guò) 可解出。(2)對(duì)任意的支持向量,都有 。假設(shè)有S個(gè)支持向量,可求出對(duì)應(yīng)S個(gè),取平均值作為最終的結(jié)果:支持向量機(jī)求解偏移項(xiàng):而在現(xiàn)實(shí)場(chǎng)景應(yīng)用中,樣本空間很可能不存在一個(gè)能正確劃分樣本的超平面。對(duì)于這類(lèi)問(wèn)題的常用解決方法:將樣本從原始空間映射到一個(gè)更高維的特征空間,使得樣本在這個(gè)特征空間內(nèi)線(xiàn)性可分。然而由于映射后的特征空間維數(shù)可能很高,直接計(jì)算通常是很困難的,為了避開(kāi)這個(gè)障礙,會(huì)利用已知的核函數(shù)直接進(jìn)行計(jì)算:支持向量機(jī)非線(xiàn)性支持向量機(jī)核函數(shù)名稱(chēng)表達(dá)式說(shuō)明線(xiàn)性核k為核函數(shù),和為樣本多項(xiàng)式核為多項(xiàng)式次數(shù)高斯核為高斯核的帶寬(width)拉普拉斯核Sigmoid核為雙曲正切函數(shù),,

使用scikit-learn庫(kù)中svm模塊的SVC類(lèi)可以實(shí)現(xiàn)支持向量機(jī)算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi),SVC類(lèi)的基本使用格式和常用參數(shù)說(shuō)明如下:classsklearn.svm.SVC(*,C=1.0,kernel=‘rbf’,degree=3,gamma=‘scale’,coef0=0.0,tol=0.001,max_iter=-1,random_state=None)支持向量機(jī)參數(shù)名稱(chēng)說(shuō)明C接收f(shuō)loat。表示對(duì)誤分類(lèi)的懲罰參數(shù)。默認(rèn)為1.0kernel接收str。表示核函數(shù),可選參數(shù)為linear、poly、rbf、sigmoid、precomputed。默認(rèn)為rbfdegree接收int。表示多項(xiàng)式核函數(shù)poly的維度。默認(rèn)為3gamma接收str。表示rbf、poly、sigmoid核函數(shù)的參數(shù),若是auto,則自動(dòng)設(shè)置參數(shù)。默認(rèn)為autocoef0接收int或float。表示核函數(shù)的常數(shù)項(xiàng),對(duì)poly和sigmoid有效,默認(rèn)為0.0tol接收f(shuō)loat。表示停止訓(xùn)練的誤差大小。默認(rèn)為0.001max_iter接受int。表示最大迭代次數(shù),-1表示無(wú)限制。默認(rèn)為-1神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一個(gè)具備學(xué)習(xí)功能的自適應(yīng)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)介紹常用于實(shí)現(xiàn)分類(lèi)和回歸的神經(jīng)網(wǎng)絡(luò)算法:神經(jīng)網(wǎng)絡(luò)算法名稱(chēng)算法描述BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),學(xué)習(xí)算法是δ學(xué)習(xí)規(guī)則,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一LM神經(jīng)網(wǎng)絡(luò)是基于梯度下降法和牛頓法結(jié)合的多層前饋網(wǎng)絡(luò),特點(diǎn):迭代次數(shù)少,收斂速度快,精確度高RBF徑向基神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù),從輸人層到隱含層的變換是非線(xiàn)性的,而從隱含層到輸出層的變換是線(xiàn)性的,特別適合于解決分類(lèi)問(wèn)題FNN模糊神經(jīng)網(wǎng)絡(luò)FNN模糊神經(jīng)網(wǎng)絡(luò)是具有模糊權(quán)系數(shù)或者輸入信號(hào)是模糊量的神經(jīng)網(wǎng)絡(luò),是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它匯聚了神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)的優(yōu)點(diǎn),集聯(lián)想、識(shí)別、自適應(yīng)及模糊信息處理于一體GMDH神經(jīng)網(wǎng)絡(luò)GMDH網(wǎng)絡(luò)也稱(chēng)為多項(xiàng)式網(wǎng)絡(luò),它是前饋神經(jīng)網(wǎng)絡(luò)中常用的一種用于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。它的特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)不固定,而且在訓(xùn)練過(guò)程中不斷改變ANFIS自適應(yīng)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)鑲嵌在一個(gè)全部模糊的結(jié)構(gòu)之中,在不知不覺(jué)中向訓(xùn)練數(shù)據(jù)學(xué)習(xí),自動(dòng)產(chǎn)生、修正并高度概括出最佳的輸入與輸出變量的隸屬函數(shù)以及模糊規(guī)則;另外神經(jīng)網(wǎng)絡(luò)的各層結(jié)構(gòu)與參數(shù)也都具有了明確的、易于理解的物理意義BP神經(jīng)網(wǎng)絡(luò),是指采用誤差逆?zhèn)鞑ィ˙ackPropagation,BP)算法訓(xùn)練的多層前饋網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)輸出層隱層輸入層x1xixdb1b2bhbqy1yjylw2jv1hvihvdhwqjwhjw1j第j個(gè)輸出層神經(jīng)元的輸入:第h個(gè)隱層神經(jīng)元的輸出:第h個(gè)隱層神經(jīng)元的輸入:第j個(gè)輸出層神經(jīng)元的輸出:BP神經(jīng)網(wǎng)絡(luò)算法的學(xué)習(xí)過(guò)程:神經(jīng)網(wǎng)絡(luò)使用scikit-learn庫(kù)中neural_network模塊的MLPClassifier類(lèi)可以建立多層感知器分類(lèi)模型,其使用格式和常用參數(shù)說(shuō)明如下:classsklearn.neural_network.MLPClassifier(hidden_layer_sizes=100,activation=’relu’,solver=’adam’,alpha=0.0001,learning_rate_init=0.001,max_iter=200,tol=0.0001)神經(jīng)網(wǎng)絡(luò)參數(shù)名稱(chēng)說(shuō)明hidden_layer_sizes接收tuple。表示隱層結(jié)構(gòu),其長(zhǎng)度表示隱層層數(shù),元素表示每一個(gè)隱層的神經(jīng)元個(gè)數(shù)。如(80,90)表示包含兩個(gè)隱層,第一個(gè)隱層有80個(gè)神經(jīng)元,第2個(gè)隱層有90個(gè)神經(jīng)元。默認(rèn)為100activation接收str。表示激活函數(shù),可選參數(shù)有identity、logistics、tanh、relu,默認(rèn)為relusolver接收str。表示優(yōu)化算法的類(lèi)型,可選參數(shù)有l(wèi)bfgs、sgd、adam,默認(rèn)為adammax_iter接收int。表示最大迭代次數(shù)。默認(rèn)為200tol接收f(shuō)loat。表示優(yōu)化過(guò)程的收斂性閾值。默認(rèn)為0.0001learning_rate_init接收f(shuō)loat。表示初始學(xué)習(xí)率,默認(rèn)為0.001集成學(xué)習(xí)算法通過(guò)組合多種學(xué)習(xí)算法來(lái)獲得比任何單獨(dú)的學(xué)習(xí)算法具有更好的預(yù)測(cè)性能的估計(jì)器。對(duì)于訓(xùn)練集數(shù)據(jù),我們通過(guò)訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器(individuallearner),通過(guò)一定的結(jié)合策略,就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的。集成算法Bagging的個(gè)體弱學(xué)習(xí)器的訓(xùn)練集是通過(guò)隨機(jī)采樣得到的。通過(guò)T次的隨機(jī)采樣,我們就可以得到T個(gè)采樣集,對(duì)于這T個(gè)采樣集,我們可以分別獨(dú)立的訓(xùn)練出T個(gè)弱學(xué)習(xí)器,再對(duì)這T個(gè)弱學(xué)習(xí)器通過(guò)集合策略來(lái)得到最終的強(qiáng)學(xué)習(xí)器。集成算法Bagging隨機(jī)森林(RandomForest,RF)是Bagging的一個(gè)拓展,RF在以決策樹(shù)為基分類(lèi)器構(gòu)建Bagging學(xué)習(xí)器的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。集成算法使用scikit-learn庫(kù)中ensemble模塊的RandomForestClassifier類(lèi)可以建立隨機(jī)森林模型,其基本使用格和常用參數(shù)說(shuō)明式如下:classsklearn.ensemble.RandomForestClassifier(n_estimators=100,criterion=’gini’,max_depth=None,min_samples_split=2,min_samples_leaf=1,max_leaf_nodes=None)集成算法參數(shù)名稱(chēng)參數(shù)說(shuō)明n_estimators接收int。表示隨機(jī)森林中決策樹(shù)數(shù)量。默認(rèn)為100criterion接收str。表示決策樹(shù)進(jìn)行屬性選擇時(shí)的評(píng)價(jià)標(biāo)準(zhǔn),可選參數(shù)為gini、entropy。默認(rèn)為ginimax_depth接收int或None。表示決策樹(shù)劃分時(shí)考慮的最大特征數(shù)。默認(rèn)為Nonemin_samples_split接收int或float。表示內(nèi)部結(jié)點(diǎn)最小的樣本數(shù),若是float,則表示百分?jǐn)?shù)。默認(rèn)為2min_samples_leaf接收int或float。表示葉結(jié)點(diǎn)最小的樣本數(shù),若是float,則表示百分?jǐn)?shù)。默認(rèn)為1max_leaf_nodes接受in-t或None。表示最大的葉結(jié)點(diǎn)數(shù)。默認(rèn)為NoneBoosting(提升)是一個(gè)可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法。這個(gè)算法的工作機(jī)制為:賦予一個(gè)相等的初始權(quán)重給每個(gè)訓(xùn)練樣本;迭代地學(xué)習(xí)k個(gè)分類(lèi)器,學(xué)習(xí)得到弱學(xué)習(xí)器1之后,更新權(quán)重,使得后面的分類(lèi)器更關(guān)注誤分類(lèi)的訓(xùn)練樣本;最后的分類(lèi)器組合每個(gè)個(gè)體分類(lèi)器的表決結(jié)果。集成算法Boosting梯度提升機(jī)(GradientBoostingMachine,GBM)是一種Boosting的方法,其提高模型精度的方法與傳統(tǒng)Boosting對(duì)正確、錯(cuò)誤樣本進(jìn)行加權(quán)不同,該模型通過(guò)在殘差減少的梯度(Gradient)方向上建立一個(gè)新的模型,從而降低新模型的殘差(Residual)。即每個(gè)新模型的建立是為了使得之前模型的殘差往梯度方向減少。集成算法使用scikit-learn庫(kù)中ensemble模塊的Grad

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論