




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第12章Sklearn
《Python數(shù)據(jù)分析與應用》SklearnScikit-learn(sklearn)是機器學習中常用的第三方模塊,對常用的機器學習方法進行了封裝,具有分類、回歸、聚類、降維、模型選擇、預處理六大模塊
Sklearn(1)分類:識別某個對象屬于哪個類別,常用的算法有:SVM(支持向量機)、KNN(最近鄰)、randomforest(隨機森林)。(2)回歸:預測與對象相關(guān)聯(lián)的連續(xù)值屬性,常見的算法有:SVR(支持向量機)、ridgeregression(嶺回歸(3)聚類:將相似對象自動分組,常用的算法有:spectralclustering、K-means。Sklearn(4)降維:減少要考慮的隨機變量的數(shù)量,常見的算法有:PCA(主成分分析)、featureselection(特征選擇)。(5)模型選擇:用于比較、驗證、選擇參數(shù)和模型,常用的模塊有:gridsearch(網(wǎng)格搜索)、crossvalidation(交叉驗證)、metrics(度量)。(6)預處理:包括數(shù)據(jù)清洗和特征提取,常用的模塊有preprocessing(數(shù)據(jù)預處理)和featureextraction(特征提?。?。無監(jiān)督學習算法算
法
說
明cluster 聚類Decomposition因子分解Mixture高斯混合模型neural_network無監(jiān)督的神經(jīng)網(wǎng)絡Covariance協(xié)方差估計有監(jiān)督學習算
法
說
明tree決策樹svm支持向量機neighbors近鄰算法linear_model廣義線性模型neural_network神經(jīng)網(wǎng)絡kernel_ridge嶺回歸naive_bayes
樸素貝葉斯數(shù)據(jù)轉(zhuǎn)換模
塊
說
明feature_extraction特征提取feature_selection特征選擇preprocessing預處理評價指標術(shù)
語Sklearn函數(shù)混淆矩陣confusion_matrix準確率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲線roc_curveAUC面積roc_auc_score分類評估報告classification_report安裝SklearnSklearn數(shù)據(jù)集
機器學習領(lǐng)域有句話:“數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已?!?/p>
數(shù)據(jù)作為機器學習的最關(guān)鍵要素,決定著模型選擇、參數(shù)的設定和調(diào)優(yōu)。Sklearn的數(shù)據(jù)集是datasets模塊,導入數(shù)據(jù)集代碼如下所示: fromsklearnimportdatasets sklearn提供三種數(shù)據(jù)集,分別是小數(shù)據(jù)集、大數(shù)據(jù)集和生成數(shù)據(jù)集。Sklearn小數(shù)據(jù)集Sklearn大數(shù)據(jù)集Sklearn生成數(shù)據(jù)集劃分數(shù)據(jù)集根據(jù)數(shù)據(jù)集的特點,有留出法、交叉驗證法和自助法等,具體如下所示:數(shù)據(jù)集較小且可以有效劃分訓練集/測試集的時候,采用留出法。數(shù)據(jù)集較小且難以有效劃分訓練集/測試集的時候,采用自助法。數(shù)據(jù)集數(shù)量充足時,通常采用留出法或者k折交叉驗證法。K近鄰算法KNN具有如下個步驟:步驟1:
算距離。計算待分類樣本Xu與已分類樣本點的距離,計算距離有等方法。步驟2:
找鄰居。圈定與待分類樣本距離最近的3個已分類樣本,作為待分類樣本的近鄰。步驟3:
做分類。根據(jù)3個近鄰中的多數(shù)樣本所屬的類別來決定待分類樣本,將Xu的類別預測為ω1。K近鄰算法Sklearn提供了KneighborsClassifier解決分類問題
KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)
決策樹通過一系列規(guī)則對數(shù)據(jù)進行分類,將在不同條件下得到不同的結(jié)果的決策過程繪制成圖形,很像一棵倒立的樹。這種從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術(shù)叫做決策樹(DecisionTrees,縮寫DT)。決策樹類似于流程圖的樹結(jié)構(gòu),采用IF……THEN的思路,每個葉結(jié)點對應一個分類,非葉結(jié)點對應著某個屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分為若干子集。決策樹Sklearn提供DecisionTreeClassifier用于分類變量,具體語法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)參數(shù)解釋如下所示:criterion:內(nèi)置標準為gini(基尼系數(shù))或者entropy(信息熵)。splitter:切割方法,如splitter=’best’max_depth:決策樹最大深度min_samples_split:最少切割樣本的數(shù)量線性模型線性模型是用直線最大可能地擬合所有數(shù)據(jù)特征,利用數(shù)理統(tǒng)計中回歸分析確定變量間相互依賴的定量關(guān)系。根據(jù)自變量數(shù)目分為一元線性回歸和多元線性回歸,一元線性回歸是指自變量為單一特征,數(shù)學表達形式如下所示。參數(shù)w是指直線的斜率,b是指截距。線性模型
sklearn的linear_model模塊的LinearRegression函數(shù)實現(xiàn),具體語法如下所示:sklearn.linear_model.LinearRegression(fit_intercept=True)參數(shù):fit_intercept:是否計算截距,默認為計算。屬性:coef_:回歸系數(shù)(斜率)。intercept_:截距樸素貝葉斯
樸素貝葉斯模型或樸素貝葉斯分類器(NaiveBayesClassifier,簡稱NBC)發(fā)源于古典數(shù)學理論,是基于貝葉斯理論與特征條件獨立假設的分類方法
,通過單獨考量每一特征被分類的條件概率,做出分類預測。貝葉斯算法具有如下優(yōu)點:(1)有著堅實的數(shù)學基礎(chǔ),以及穩(wěn)定的分類效率。(2)所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。樸素貝葉斯
Sklearn提供GaussianNB用于高斯分布,具體語法如下所示:GaussianNB(priors=True)GaussianNB類的主要參數(shù)僅有一個,即先驗概率priorsSklearn提供MultinomialNB用于多項式分布,具體語法如下所示:MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)MultinomialNB參數(shù)比GaussianNB多,3個參數(shù)含義如下所示:alpha:先驗平滑因子,默認等于1,當?shù)扔?時表示拉普拉斯平滑fit_prior:是否去學習類的先驗概率,默認是True。class_prior:各個類別的先驗概率。支持向量機
支持向量機(SupportVectorMachine,縮寫SVM)的基本思想是在N維數(shù)據(jù)找到N-1維的超平面(hyperplane)作為分類的決策邊界。確定超平面的規(guī)則是找到離超平面最近的那些點,使這些點離超平面的距離盡可能遠。離超平面最近的實心圓和空心圓稱為支持向量,超平面的距離之和稱為“間隔距離”,“間隔距離”越大,分類的準確率越高。
支持向量機
kernel參數(shù)取值為linear,如下所示:SVC(kernel='linear',C)參數(shù)解釋如下:C:
懲罰系數(shù),用來控制損失函數(shù)的懲罰系數(shù),類似于LR中的正則化系數(shù)。C越大,相當于懲罰松弛變量,希望松弛變量接近0,即對誤分類的懲罰增大,趨向于對訓練集全分對的情況,這樣會出現(xiàn)訓練集測試時準確率很高,但泛化能力弱,容易導致過擬合。C值小,對誤分類的懲罰減小,容錯能力增強,泛化能力較強,但也可能欠擬合。Kmeans聚類
k均值聚類算法思路如下所示:首先在樣本數(shù)據(jù)集D中隨機選定K個值作為初始聚類中心(又稱為質(zhì)心,是指簇中所有數(shù)據(jù)的均值),然后計算各個數(shù)據(jù)到質(zhì)心的距離,將其歸屬到離它最近的質(zhì)心所在的類;如此迭代,計算質(zhì)心,如果相鄰兩次質(zhì)心沒有變化,說明聚類收斂。Kmeans聚類
sklearn的sklearn.cluster模塊提供了KMeans()函數(shù)用于實現(xiàn)kMeans算法。sklearn.cluster.KMeans(n_clusters,random_state)參數(shù):n_clusters:生成的聚類數(shù),即產(chǎn)生的質(zhì)心數(shù)。random_state:表示隨機數(shù)生成器的種子。DBSCAN聚類
基于密度的聚類則可以解決非球形簇的問題,“密度”可以理解為樣本點的緊密程度,如果在指定的半徑領(lǐng)域內(nèi),實際樣本量超過給定的最小樣本量閾值,則認為是密度高的對象,聚成一個簇。DBSCAN聚類
sklearn的sklearn.cluster模塊提供了cluster.DBSCAN函數(shù)用于實現(xiàn)DBSCAN算法。cluster.DBSCAN(eps=0.5,m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人舊車買賣合同范本
- 出口cip貿(mào)易合同范本
- 亮化耗材采購合同范本
- 半成品供貨合同范本
- 農(nóng)村環(huán)衛(wèi)勞務合同范本
- 化妝品oem合同范本
- 倉庫分揀合同范本
- 修路收費合同范本
- 主管績效合同范本
- 供用水安裝合同范本
- 2024年全國職業(yè)院校技能大賽高職組(建筑裝飾數(shù)字化施工賽項)備賽試題庫(含答案)
- 2024年單招職業(yè)技能測試題庫及參考答案(基礎(chǔ)題)
- 合肥市2024年中考理化生實驗評分細則
- 2024年湖南學業(yè)水平考試地理真題及答案
- 機械供應商發(fā)言稿
- 中考數(shù)學一輪復習提升練習第1章 數(shù)與式真題測試(基礎(chǔ)卷)(原卷版)
- 統(tǒng)編版(2024新教材)七年級上冊語文第一單元測試卷(含答案)
- 2025年中考英語復習熱點話題作文范文
- 二手房傭金協(xié)議
- 旅游服務質(zhì)量評價體系優(yōu)化策略
- 圍手術(shù)期護理管理制度
評論
0/150
提交評論