數(shù)據(jù)挖掘?qū)嵱枅蟾?_第1頁
數(shù)據(jù)挖掘?qū)嵱枅蟾?_第2頁
數(shù)據(jù)挖掘?qū)嵱枅蟾?_第3頁
數(shù)據(jù)挖掘?qū)嵱枅蟾?_第4頁
數(shù)據(jù)挖掘?qū)嵱枅蟾?_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘基礎教程數(shù)據(jù)挖掘基礎教程頁腳內(nèi)容PAGE頁腳內(nèi)容PAGE14數(shù)據(jù)挖掘基礎教程頁腳內(nèi)容PAGE項目1:基于sklearn的數(shù)據(jù)分類挖掘一、項目任務①熟悉sklearn數(shù)據(jù)挖掘的基本功能。②進行用樸素貝葉斯、KNN、決策樹C4.5、SVM算法進行數(shù)據(jù)分類分析。二、項目環(huán)境及條件sklearn-0.18.0python-2.7.13numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64matplotlib-1.5.3-cp27-cp27m-win_amd64三、實驗數(shù)據(jù)Iris數(shù)據(jù)集Iris數(shù)據(jù)集是常用的分類實驗數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個數(shù)據(jù)集,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。Digits數(shù)據(jù)集美國著名數(shù)據(jù)集NIST的子集,模式識別常用實驗數(shù)據(jù)集,圖像屬于灰度圖像。分辨率為8x8

四、項目內(nèi)容及過程1.讀取數(shù)據(jù)集從sklearn中讀取iris和digits數(shù)據(jù)集并測試打印fromsklearnimportdatasetsiris=datasets.load_iris()digits=datasets.load_digits()print'iris:',iris.data,'\ndigits:',digits.data打印的數(shù)據(jù)集存在numpy.ndarray中,ndarray會自動省略較長矩陣的中間部分。Iris數(shù)據(jù)集的樣本數(shù)據(jù)為其花瓣的各項屬性Digits數(shù)據(jù)集的樣本數(shù)據(jù)為手寫數(shù)字圖像的像素值2.劃分數(shù)據(jù)集引入sklearn的model_selection使用train_test_split劃分digits數(shù)據(jù)集,訓練集和測試集比例為8:2fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(digits.data,digits.target,test_size=0.2)print'x_train:',x_train,'\nx_test:',x_test,'\ny_train:',y_train,'\ny_test:',y_test3.使用KNN和SVM對digits測試集分類引用sklearn的svm.SVC和neighbors.KNeighborsClassifier模塊調(diào)用算法,使用classification_report查看預測結(jié)果的準確率和召回率fromsklearn.metricsimportclassification_reportfromsklearnimportneighborsclf=neighbors.KNeighborsClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearn.svmimportSVCclf=SVC()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)KNN的預測結(jié)果:所有數(shù)字的預測正確率幾乎達到了100%SVM的預測結(jié)果:對部分數(shù)字的預測誤差較大,基本情況不如KNN考慮SVM分類器的特性,在分類前對特征值進行標準化后再分類:fromsklearnimportpreprocessingmin_max_scaler=preprocessing.MinMaxScaler()x_train=min_max_scaler.fit_transform(x_train)x_test=min_max_scaler.fit_transform(x_test)標準化數(shù)據(jù)后SVM的預測結(jié)果達到了KNN的準度:4.使用貝葉斯和決策樹對iris數(shù)據(jù)集分類fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4)fromsklearn.metricsimportclassification_reportfromsklearnimportnaive_bayesclf=naive_bayes.GaussianNB()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearnimporttreeclf=tree.DecisionTreeClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)決策樹和貝葉斯都有較好的分類效果五、實驗結(jié)果分析為什么用svm和knn處理digits數(shù)據(jù)集,用tree和bayes處理iris數(shù)據(jù)集,這是一個經(jīng)驗問題。我們都知道digits數(shù)據(jù)集的每一個特征就是像素點的像素值,他們的維度都是在0~255以內(nèi);像素點之間的維度完全一致,互相沒有優(yōu)先級。這種情況下使用線性分類器如KNN、SVM、Logistic會有更好的效果。而iris數(shù)據(jù)集雖然長度和寬度維度差不多相同,但是兩者之間有優(yōu)先級的區(qū)分,按照人腦分類的思維方式可能是先按照長度判斷再按照寬度等思維方式,很接近決策樹的算法原理,貝葉斯同樣。所以概率性分類器有更好的效果。實際情況也是使用SVM預測iris的結(jié)果和Bayes預測digits的結(jié)果不甚理想(雖然也有很高的準度了)。當然,通過調(diào)整分類器的參數(shù),能使各個分類器的預測結(jié)果都達到滿意結(jié)果,綜合表現(xiàn)還是KNN更搶眼,能在各種數(shù)據(jù)集面前都有出色表現(xiàn),但KNN在訓練樣本數(shù)量達到一定程度后,有超高的計算復雜度。所以面對實際情況,選用什么分類器,如何調(diào)節(jié)參數(shù)都是值得深思的問題。項目2:基于sklearn的數(shù)據(jù)聚類挖掘一、實驗任務①熟悉sklearn數(shù)據(jù)挖掘平臺的基本功能。②用K-Means進行數(shù)據(jù)聚類分析。二、實驗環(huán)境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64三、實驗數(shù)據(jù)隨機產(chǎn)生的100個坐標點,范圍為[0,100]

四、實驗內(nèi)容及過程1.隨機產(chǎn)生坐標值產(chǎn)生的隨機值在0-100,因為sklearn的k-means模塊要求輸入的坐標形式為[[x0,y0],…,[x…,y…],…,[xn,yn]],而實際產(chǎn)生的是[x0,…,xn]和[y0,…,yn],所以還需要對坐標進行一次轉(zhuǎn)換fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltimportrandomdefcreate_coordinate(): x,y=[],[] foriinrange(100): x.append(random.randint(0,100)) y.append(random.randint(0,100)) returnx,yx,y=create_coordinate()old_coordinate=[[x[i],y[i]]foriinrange(100)]coordinate=np.array(old_coordinate)printold_coordinate產(chǎn)生的隨機坐標值:

2.創(chuàng)建做圖函數(shù)使用k-means對坐標點分為3類,對0類標為紅色,1類標為綠色,2類標為藍色。并將三類坐標的中心點以‘*’表示在圖中defcreate_chart(x,y,label,center): x_0=[x[i]foriinrange(len(x))iflabel[i]==0] x_1=[x[i]foriinrange(len(x))iflabel[i]==1] x_2=[x[i]foriinrange(len(x))iflabel[i]==2] y_0=[y[i]foriinrange(len(y))iflabel[i]==0] y_1=[y[i]foriinrange(len(y))iflabel[i]==1] y_2=[y[i]foriinrange(len(y))iflabel[i]==2] plt.scatter(x_0,y_0,c='r') plt.scatter(x_1,y_1,c='g') plt.scatter(x_2,y_2,c='b') plt.scatter([i[0]foriincenter],[i[1]foriincenter],c='m',s=600,marker='*') plt.grid() plt.show()3.使用k-means聚類并預測新增點的類別kmeans=KMeans(n_clusters=3,random_state=0).fit(coordinate)printkmeans.predict([[0,0],[50,50],[100,100]])create_chart(x,y,kmeans.labels_,kmeans.cluster_centers_)對新點的預測:221點的聚類情況:五、實驗結(jié)果分析這次試驗,使用sklearn的k-means對100個坐標點聚類。K-means因為其本身算法的原因,點數(shù)越多聚類速度越慢。所以在20個點和100個點的聚類時間上有很大差距。聚類問題不同于分類問題,沒有明確的預測和分類結(jié)果,聚類時對數(shù)據(jù)的邊界可能會各不相同,聚類問題在用戶畫像/個性化推薦等應用上有較好地發(fā)揮。

實驗3:在Python程序中引用sklearn一、實驗任務①用Python開發(fā)一個綜合部分挖掘算法的演示程序,核心算法來自sklearn類庫。②演示程序界面友好。二、實驗環(huán)境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64PyQt4三、實驗數(shù)據(jù)Iris數(shù)據(jù)集Iris數(shù)據(jù)集是常用的分類實驗數(shù)據(jù)集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個數(shù)據(jù)集,分為3類,每類50個數(shù)據(jù),每個數(shù)據(jù)包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。Digits數(shù)據(jù)集美國著名數(shù)據(jù)集NIST的子集,模式識別常用實驗數(shù)據(jù)集,圖像屬于灰度圖像。分辨率為8x8

四、實驗內(nèi)容及過程使用PyQt4創(chuàng)建windows窗體,并提供可選擇的分類方式:SVM——支持向量機算法KNN——K鄰近算法Bayes——樸素貝葉斯算法Tree——C4.5決策樹算法Logistic——Logistic回歸算法可選擇的歸一化方式:Standard-標準歸一化MaxAndMin-最大最小歸一化可選擇的驗證比例可選范圍——(0,1)可調(diào)節(jié)的分類器參數(shù)根據(jù)具體分類器設置參數(shù)部分代碼確認按鈕響應事件 defOKPushButton_OnClick(self): data_name=self.data_comboBox.currentText() classify_name=self.classify_comboBox.currentText() normalization_name=self.normalization_comboBox.currentText() parameter_string=self.parameter_text.toPlainText() validation_string=self.validation_text.text() y_test,y_pred=self.load_datasets_and_classify(data_name,classify_name,normalization_name,parameter_string,validation_string) fromsklearn.metricsimportclassification_report self.descTextEdit.setText(classification_report(y_test,y_pred))分類算法執(zhí)行 defload_datasets_and_classify\(self,data_name,classify_name,normalization_name,parameter_string,validation_string): fromsklearnimportdatasets fromsklearn.model_selectionimporttrain_test_split rate=0.2 ifvalidation_string!='': try: rate=float(validation_string) except: self.alert_info(u"輸入的數(shù)值必須是0~1的浮點數(shù)") return ifdata_name=='iris': origin_data=datasets.load_iris() elifdata_name=='digits': origin_data=datasets.load_digits() else: self.alert_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論