版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第12章Seaborn
《Python數(shù)據(jù)分析與應(yīng)用》SeabornSeaborn是基于matplotlib的圖形可視化python包,便于做出各種統(tǒng)計圖表。Pandas與Seaborn都是使用matplotlib作圖,但是兩者區(qū)別較大,如下所示:(1)Pandas善于簡單繪圖,而更豐富的圖使用Seaborn繪制。(2)Pandas沒有太多的參數(shù)優(yōu)化圖形,Seaborn提供大量參數(shù)調(diào)整圖形。安裝Seaborn繪圖特色Matplotlib繪圖Seaborn繪圖importmatplotlib.pyplotaspltx=[1,3,5,7,9,11,13,15,17,19]y_bar=[3,4,6,8,9,10,9,11,7,8]y_line=[2,3,5,7,8,9,8,10,6,7]plt.bar(x,y_bar)plt.plot(x,y_line,'-o',color='y‘)importmatplotlib.pyplotaspltx=[1,3,5,7,9,11,13,15,17,19]y_bar=[3,4,6,8,9,10,9,11,7,8]y_line=[2,3,5,7,8,9,8,10,6,7]importseabornassnssns.set()#聲明使用Seaborn樣式plt.bar(x,y_bar)plt.plot(x,y_line,'-o',color='y‘)相比于Matplotlib默認的純白色背景,Seaborn默認的淺灰色網(wǎng)格背景看起來的確要細膩舒適一些。而柱狀圖的色調(diào)、坐標(biāo)軸的字體大小也都有一些變化。圖表分類(1)矩陣圖(2)回歸圖(3)關(guān)聯(lián)圖(4)類別圖(5)分布圖數(shù)據(jù)集seaborn內(nèi)置數(shù)據(jù)集,包括常見的泰坦尼克、鳶尾花等經(jīng)典數(shù)據(jù)集。
使用load_dataset函數(shù)調(diào)用數(shù)據(jù)集。繪圖設(shè)置繪圖元素主題設(shè)置調(diào)色板設(shè)置繪圖元素
seaborn通過set_context方法設(shè)置繪圖元素參數(shù),主要影響標(biāo)簽、線條和其他元素的效果,與style有點區(qū)別,不會影響整體的風(fēng)格。語法如下所示:seaborn.set_context(context=None,font_scale=1,rc=None)主題設(shè)置Seaborn通過set_style設(shè)置darkgrid,whitegrid,dark,white,ticks5種主題風(fēng)格。其中,white和ticks包含沒有必要的上邊框和右邊框。另外,sns.despine()用于去掉圖形右邊和上面的邊線。調(diào)色板顏色不但代表各種特征,而且提高整個圖的觀賞性。Seaborn使用color_palette函數(shù)實現(xiàn)分類色板。繪圖seaborn共有5個大類21種圖。(1)關(guān)系類圖表(Relationalplots)(2)分類圖表(Categoricalplots)(3)分布圖(Distributionplot)(4)回歸圖(Regressionplots)(5)矩陣圖(Matrixplots)直方圖Seaborn提供distplot函數(shù)實現(xiàn)importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#生成100個成標(biāo)準(zhǔn)正態(tài)分布的隨機數(shù)x=np.random.normal(size=100)
#kde=True,進行核密度估計sns.distplot(x,kde=True)#密度曲線KDEplt.show()核密度圖
核密度圖一般與直方圖搭配使用,顯示數(shù)據(jù)的分布的“疏密程度”,核密度圖顯示為擬合后的曲線,“峰”越高表示數(shù)據(jù)越“密集”。Seaborn提供kdeplot函數(shù)實現(xiàn)。importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsnp.random.seed(4)#設(shè)置隨機數(shù)種子Gaussian=np.random.normal(0,1,1000)#創(chuàng)建一組平均數(shù)為0,標(biāo)準(zhǔn)差為1,總個數(shù)為1000的符合標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)ax.hist(Gaussian,bins=25,histtype="stepfilled",normed=True,alpha=0.6)sns.kdeplot(Gaussian,shade=True)plt.show()散點圖Seaborn提供stripplot函數(shù)實現(xiàn)。importseabornassnsimportmatplotlib.pyplotaspltsns.set(style="whitegrid",color_codes=True)tips=sns.load_dataset("tips")#“小費”數(shù)據(jù)集sns.stripplot(data=tips)plt.show()箱型圖Seaborn提供boxplot函數(shù)實現(xiàn)。importseabornassnsimportmatplotlib.pyplotasplt
sns.set_style("whitegrid")tips=sns.load_dataset("tips")#載入自帶數(shù)據(jù)集“tips”,研究三個變量關(guān)系,是否抽煙與日期為分類變量,消費是連續(xù)變量#結(jié)論發(fā)現(xiàn)吸煙者在周末消費明顯大于不吸煙的人ax=sns.boxplot(x="day",y="total_bill",hue="smoker",data=tips,palette="Set3")plt.show()小提琴圖
小提琴圖其實是箱線圖與核密度圖的結(jié)合,箱線圖展示了分位數(shù)的位置,小提琴圖用于展示任意位置的密度。通過小提琴圖可以知道哪些位置的密度較高。在小提琴圖中,白點是中位數(shù),黑色盒形的范圍是上四分位點和下四分位點,細黑線表示須,表示離群點的離群程度,越長表示離群點越遠。鳶尾花(Iris)數(shù)據(jù)集每類50個數(shù)據(jù),每個數(shù)據(jù)包含花萼長度(sepallength)、花萼寬度(sepalwidth)、花瓣長度(petallength)、花瓣寬度(petalwidth)4個屬性條形圖Seaborn提供barplot函數(shù)實現(xiàn)。importseabornassnsimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltx=np.arange(8)y=np.array([1,5,3,6,2,4,5,6])df=pd.DataFrame({"x-axis":x,"y-axis":y})sns.barplot("x-axis","y-axis",palette="RdBu_r",data=df)plt.xticks(rotation=90)plt.show()熱力圖Seaborn提供heatmap函數(shù)實現(xiàn)。importnumpyasnp;np.random.seed(0)importseabornassns;sns.set()importmatplotlib.pyplotaspltuniform_data=np.random.rand(10,12)f,ax=plt.subplots(figsize=(9,6))ax=sns.heatmap(uniform_data)plt.show()點圖Seaborn提供pointplot函數(shù)實現(xiàn)。importmatplotlib.pyplotaspltimportseabornassnsplt.figure(dpi=150)tips=sns.load_dataset("tips")sns.pointplot(x="time",y="total_bill",data=tips)多變量圖Seaborn提供jointplot函數(shù)實現(xiàn)。importseabornassnsimportmatplotlib.pyplotasplt
data=sns.load_dataset("exercise")sns.jointplot(x="id",y="pulse",data=data)plt.show()等高線圖
importseabornassnsimportmatplotlib.pyplotaspltdata=sns.load_dataset("exercise")sns.jointplot(x="id",y="pulse",kind="kde",data=data)#參數(shù)kind="kde"plt.show()第12章Sklearn
《Python數(shù)據(jù)分析與應(yīng)用》SklearnScikit-learn(sklearn)是機器學(xué)習(xí)中常用的第三方模塊,對常用的機器學(xué)習(xí)方法進行了封裝,具有分類、回歸、聚類、降維、模型選擇、預(yù)處理六大模塊
Sklearn(1)分類:識別某個對象屬于哪個類別,常用的算法有:SVM(支持向量機)、KNN(最近鄰)、randomforest(隨機森林)。(2)回歸:預(yù)測與對象相關(guān)聯(lián)的連續(xù)值屬性,常見的算法有:SVR(支持向量機)、ridgeregression(嶺回歸(3)聚類:將相似對象自動分組,常用的算法有:spectralclustering、K-means。Sklearn(4)降維:減少要考慮的隨機變量的數(shù)量,常見的算法有:PCA(主成分分析)、featureselection(特征選擇)。(5)模型選擇:用于比較、驗證、選擇參數(shù)和模型,常用的模塊有:gridsearch(網(wǎng)格搜索)、crossvalidation(交叉驗證)、metrics(度量)。(6)預(yù)處理:包括數(shù)據(jù)清洗和特征提取,常用的模塊有preprocessing(數(shù)據(jù)預(yù)處理)和featureextraction(特征提取)。無監(jiān)督學(xué)習(xí)算法算
法
說
明cluster 聚類Decomposition因子分解Mixture高斯混合模型neural_network無監(jiān)督的神經(jīng)網(wǎng)絡(luò)Covariance協(xié)方差估計有監(jiān)督學(xué)習(xí)算
法
說
明tree決策樹svm支持向量機neighbors近鄰算法linear_model廣義線性模型neural_network神經(jīng)網(wǎng)絡(luò)kernel_ridge嶺回歸naive_bayes
樸素貝葉斯數(shù)據(jù)轉(zhuǎn)換模
塊
說
明feature_extraction特征提取feature_selection特征選擇preprocessing預(yù)處理評價指標(biāo)術(shù)
語Sklearn函數(shù)混淆矩陣confusion_matrix準(zhǔn)確率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲線roc_curveAUC面積roc_auc_score分類評估報告classification_report安裝SklearnSklearn數(shù)據(jù)集
機器學(xué)習(xí)領(lǐng)域有句話:“數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已?!?/p>
數(shù)據(jù)作為機器學(xué)習(xí)的最關(guān)鍵要素,決定著模型選擇、參數(shù)的設(shè)定和調(diào)優(yōu)。Sklearn的數(shù)據(jù)集是datasets模塊,導(dǎo)入數(shù)據(jù)集代碼如下所示: fromsklearnimportdatasets sklearn提供三種數(shù)據(jù)集,分別是小數(shù)據(jù)集、大數(shù)據(jù)集和生成數(shù)據(jù)集。Sklearn小數(shù)據(jù)集Sklearn大數(shù)據(jù)集Sklearn生成數(shù)據(jù)集劃分數(shù)據(jù)集根據(jù)數(shù)據(jù)集的特點,有留出法、交叉驗證法和自助法等,具體如下所示:數(shù)據(jù)集較小且可以有效劃分訓(xùn)練集/測試集的時候,采用留出法。數(shù)據(jù)集較小且難以有效劃分訓(xùn)練集/測試集的時候,采用自助法。數(shù)據(jù)集數(shù)量充足時,通常采用留出法或者k折交叉驗證法。K近鄰算法KNN具有如下個步驟:步驟1:
算距離。計算待分類樣本Xu與已分類樣本點的距離,計算距離有等方法。步驟2:
找鄰居。圈定與待分類樣本距離最近的3個已分類樣本,作為待分類樣本的近鄰。步驟3:
做分類。根據(jù)3個近鄰中的多數(shù)樣本所屬的類別來決定待分類樣本,將Xu的類別預(yù)測為ω1。K近鄰算法Sklearn提供了KneighborsClassifier解決分類問題
KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)
決策樹通過一系列規(guī)則對數(shù)據(jù)進行分類,將在不同條件下得到不同的結(jié)果的決策過程繪制成圖形,很像一棵倒立的樹。這種從數(shù)據(jù)產(chǎn)生決策樹的機器學(xué)習(xí)技術(shù)叫做決策樹(DecisionTrees,縮寫DT)。決策樹類似于流程圖的樹結(jié)構(gòu),采用IF……THEN的思路,每個葉結(jié)點對應(yīng)一個分類,非葉結(jié)點對應(yīng)著某個屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分為若干子集。決策樹Sklearn提供DecisionTreeClassifier用于分類變量,具體語法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)參數(shù)解釋如下所示:criterion:內(nèi)置標(biāo)準(zhǔn)為gini(基尼系數(shù))或者entropy(信息熵)。splitter:切割方法,如splitter=’best’max_depth:決策樹最大深度min_samples_split:最少切割樣本的數(shù)量線性模型線性模型是用直線最大可能地擬合所有數(shù)據(jù)特征,利用數(shù)理統(tǒng)計中回歸分析確定變量間相互依賴的定量關(guān)系。根據(jù)自變量數(shù)目分為一元線性回歸和多元線性回歸,一元線性回歸是指自變量為單一特征,數(shù)學(xué)表達形式如下所示。參數(shù)w是指直線的斜率,b是指截距。線性模型
sklearn的linear_model模塊的LinearRegression函數(shù)實現(xiàn),具體語法如下所示:sklearn.linear_model.LinearRegression(fit_intercept=True)參數(shù):fit_intercept:是否計算截距,默認為計算。屬性:coef_:回歸系數(shù)(斜率)。intercept_:截距樸素貝葉斯
樸素貝葉斯模型或樸素貝葉斯分類器(NaiveBayesClassifier,簡稱NBC)發(fā)源于古典數(shù)學(xué)理論,是基于貝葉斯理論與特征條件獨立假設(shè)的分類方法
,通過單獨考量每一特征被分類的條件概率,做出分類預(yù)測。貝葉斯算法具有如下優(yōu)點:(1)有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。(2)所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。樸素貝葉斯
Sklearn提供GaussianNB用于高斯分布,具體語法如下所示:GaussianNB(priors=True)GaussianNB類的主要參數(shù)僅有一個,即先驗概率priorsSklearn提供MultinomialNB用于多項式分布,具體語法如下所示:MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)MultinomialNB參數(shù)比GaussianNB多,3個參數(shù)含義如下所示:alpha:先驗平滑因子,默認等于1,當(dāng)?shù)扔?時表示拉普拉斯平滑fit_prior:是否去學(xué)習(xí)類的先驗概率,默認是True。class_prior:各個類別的先驗概率。支持向量機
支持向量機(SupportVectorMachine,縮寫SVM)的基本思想是在N維數(shù)據(jù)找到N-1維的超平面(hyperplane)作為分類的決策邊界。確定超平面的規(guī)則是找到離超平面最近的那些點,使這些點離超平面的距離盡可能遠。離超平面最近的實心圓和空心圓稱為支持向量,超平面的距離之和稱為“間隔距離”,“間隔距離”越大,分類的準(zhǔn)確率越高。
支持向量機
kernel參數(shù)取值為linear,如下所示:SVC(kernel='linear',C)參數(shù)解釋如下:C:
懲罰系數(shù),用來控制損失函數(shù)的懲罰系數(shù),類似于LR中的正則化系數(shù)。C越大,相當(dāng)于懲罰松弛變量,希望松弛變量接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院2025年度藥品臨床試驗合同3篇
- 二零二五年度河流養(yǎng)殖水質(zhì)監(jiān)測與承包合同3篇
- 2025年智能防盜窗系統(tǒng)升級改造施工合同2篇
- 二零二四商標(biāo)權(quán)轉(zhuǎn)讓與品牌推廣一體化合同
- 2025年新型園林景觀設(shè)計施工一體化合同模板4篇
- 2025年度路面攤鋪工程與綠色建筑認證合同4篇
- 基于人工智能的2025年度智慧交通管理系統(tǒng)合同3篇
- 2025年度二零二五旅行社與旅游紀(jì)念品開發(fā)合作合同4篇
- 個人企業(yè)專項咨詢輔導(dǎo)服務(wù)協(xié)議版
- 2025年度環(huán)保材料買賣合同中產(chǎn)品環(huán)保性能與質(zhì)量檢測標(biāo)準(zhǔn)4篇
- 蓋洛普Q12解讀和實施完整版
- 2023年Web前端技術(shù)試題
- GB/T 20840.8-2007互感器第8部分:電子式電流互感器
- GB/T 14864-2013實心聚乙烯絕緣柔軟射頻電纜
- 品牌策劃與推廣-項目5-品牌推廣課件
- 信息學(xué)奧賽-計算機基礎(chǔ)知識(完整版)資料
- 發(fā)煙硫酸(CAS:8014-95-7)理化性質(zhì)及危險特性表
- 數(shù)字信號處理(課件)
- 公路自然災(zāi)害防治對策課件
- 耳鳴中醫(yī)臨床路徑
- 安徽身份證號碼前6位
評論
0/150
提交評論