版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了WEKAwine試驗?zāi)康腤EKA軟件聚類分析有關(guān)過程命令,并且可以對數(shù)據(jù)處理結(jié)果進展正確推斷分析,作出綜合評價。試驗數(shù)據(jù)178條記錄。13個屬性是13種化學(xué)成分。通過化學(xué)分析可以來推斷葡萄酒的起源。值得一提的是全部屬性變量都是連續(xù)變量。:多變量記錄數(shù):178領(lǐng)域:物理:整數(shù),實數(shù)屬性數(shù)目: 13捐贈日期1991-07-01:分類無網(wǎng)站點擊數(shù): 337319MostPopularDataSets〔hitssince2023〕中的wine數(shù)據(jù)集,這13種不同成分的數(shù)量。13個屬性,用決178個樣本分成118個訓(xùn)練樣本和60個測試樣本,承受樸實貝葉斯分類算法,計算出先同時輸出測試樣本計算的正確率和錯誤率。13種不同成分的數(shù)量。13種成分分別為:Alcohol,Malicacid,Ash,Alcalinityofash,Magnesium,Totalphenols,F(xiàn)lavanoids,Nonflavanoidphenols,Proanthocyanins,Colorintensity,Hue,OD280/OD315ofdilutedwines,Prolinewine.data”文件中,每行代表一種酒的樣本,共有59271348個樣本。試驗方法1【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了未知的,故此,這是一個“無指導(dǎo)的學(xué)習(xí)”過程,它傾向于數(shù)據(jù)的自然劃分。面信息給出聚類分析的爭論熱點、難點、缺乏和有待解決的一些問題等。FCMUCIMachineLearningRepositoryWINE數(shù)據(jù)集為根底,然后以WINE數(shù)據(jù)集在學(xué)習(xí)了解Weka軟件接口方面的根底后作聚類分析,使用最常見的K均值〔即FCMK均值聚類的步驟。KK個類中心。然后:將每個實例安排到距它最近的類中心,得到K個類;重復(fù)〔1〕和〔2〕,K個類中心的位置都固定,類的安排也固定。simpleKmeans〔K均值聚類k均值算法,并通過對試驗結(jié)果進展觀看分析,找出試驗中所存在的問題。然后再在學(xué)習(xí)了解Weka軟件接口方面的根底上對Weka軟件進展確定的擴展以參與的聚類算法來實現(xiàn)基于Weka平臺的聚類分析。KKK果并不愿定完全可信。K均值算法的劃分理論根底是i1
x vkAi k i2
〔1〕其中c是劃分的聚類數(shù),A是已經(jīng)屬于第i類的數(shù)據(jù)集vi
是相應(yīng)的點到第i類的平均距離,即
Nixv k1 ki Ni
,xAk i
〔2〕Ni
A中的對象數(shù)。i算法的根本過程step1:K個對象作為初始的類的中心;step2:repeat;step3:依據(jù)類中的平均值,將每個數(shù)據(jù)點(重)賦給最相近的類;2【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了step4:step5:until不再發(fā)生變化,即沒有對象進展被重安排時過程完畢。FCMFCM算法也是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一C均值算法是一般CCFCM則是具體算法之前我們先介紹一些模糊集合的根本學(xué)問。FCM-模糊集根本學(xué)問xA的程度的函數(shù),通常記做A
x,其自變量范圍是全部可能屬于集合A的對象〔即A
x1。A
x1表x完全隸屬于集合A,相當于傳統(tǒng)集合概念上的xA。一個定義在空間XAX上本點隸屬于每個類的隸屬度就是0,1區(qū)間里面的值。FCM的算法理論1973年,Bezdek提出了該算法,并作為早期硬C均值聚類〔HCM〕方法的一種改進,命名為模糊CFCM是一種目標函數(shù)法。假設(shè)將樣本空X要分為k個類,則類中心集Ccc1 2
,c,3
c使下式的目標函數(shù)值最小kminJm
n
m xij
c j
〔3〕k ij且有
i1j11 〔4〕j1,2, ,j1,2, ,kij其中U( )ij被稱為模糊隸屬度矩陣。ij
xi3
cj
m是?!驹瓌?chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了糊加權(quán)參數(shù),用于把握在模糊類間的程度依據(jù)參考的文獻中一般取值為1 應(yīng)用拉格朗日乘法并基于上述約束可得到如下式ij 1ijD2
〔5〕c
m1ijDt1且
tj1ic,1jNNi
mxij mij
1ic 〔6〕Dij
Xj類中心Ci
j1的歐氏距離,即XiFCM
C 。jstep1:m和聚類數(shù)k,以及迭代的次數(shù)s和算法終止誤差。step2:隨機化置初始化聚類的中心Ct0。0step3:計算隸屬度矩陣U可通過〔5〕式計算Us得來。step4:依據(jù)〔6〕式迭代計算聚類的中心C 。s1step5:檢驗Us1Us是否成立,成立則算法完畢否則goto step3。試驗配置FCM模糊聚1~5之間在試驗中設(shè)置如。也可以依據(jù)需要對其進展修改。FCMFCM算法需要兩個參數(shù)一個是聚類數(shù)目cmc要c1m,它是一個把握算法的m過大,則聚類效果會很次,而假設(shè)m過小則算法會接近K均值聚類算法。算法的輸出是c個聚類中心點向量和c*N的一個模糊劃分矩陣,個類的平均特征,可以認為是這個類的中心代表。FCM算法是圖像分割使用最多的方法之一,它的成功主要歸功于為解決每4【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了KFCM能夠保存初始圖像的更多信息。FCM對孤立點和其他人造圖像格外敏感。基于weka數(shù)據(jù)的預(yù)處理從網(wǎng)站下載的WINE原始數(shù)據(jù)集wine.dataWeka軟件需要的是ARFFWekaARFF文件格式的。轉(zhuǎn)換過程如下可以將數(shù)據(jù)文件的名稱改為wine.csv。然后,翻開Weka選擇Tools選項下的ArffViewer如以以下圖FileOpenfiles〔*.csv〕項。然后找到相應(yīng)的文件后單擊翻開后如以以下圖5【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了FileSaveas后彈出如以以下圖在文件名欄輸入相應(yīng)的文件名后單擊保存即可得到相應(yīng)的arff格式的數(shù)據(jù)K將自動實施這個分類型到數(shù)值型的變換,而且WEKA會自動對數(shù)值型的數(shù)據(jù)作標準化。WEKAStringToWordVector過濾6【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了ARFF文件中的文本數(shù)據(jù)轉(zhuǎn)換為空間向量模型,它同時擁有分詞、特征表ExplorerReprocessARFF文件,選擇StringToWordVector過濾器,再設(shè)置相關(guān)參數(shù)。聚類過程Openfile后彈出如以以下圖的數(shù)據(jù)集選WINE.arff數(shù)據(jù)集文件后翻開。chooseClusterClustererchooseWeka中供給的聚類算法ClustersSimpleKMeans,然后設(shè)置參數(shù)如以以下圖7【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了33K=3,下面的K返回。然后選中“ClusterMode”的“Usetrainingset”,點擊“Start”按鈕,觀看右邊“Clustereroutput”給出的聚類結(jié)果如下===Runinformation===Scheme: Weka.clusterers.SimpleKMeans-N3-A“Weka.core.EuclideanDistance-Rfirst-last“-I500-S10Relation: WINEDATInstances: 177Attributes: 148【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了1.42E+011.71E+002.43E+001.56E+011.27E+022.80E+003.06E+002.80E-012.29E+005.64E+001.04E+003.92E+001.07E+031Testmode: evaluateontrainingdata===Modelandevaluationontrainingset===kMeans======Numberofiterations:7Withinclustersumofsquarederrors:49.6509106890353569【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了Missingvaluesgloballyreplacedwithmean/modeClustercentroids:Cluster#Attribute FullData 0 1 2(177) (59) (49) (69)===================================================1.42E+0113.000613.730513.161212.26231.71E+002.33992.013.34451.90862.43E+002.36622.45852.43472.23861.56E+0119.516917.281421.438820.06381.27E+0299.5876106.542499.020494.04352.80E+002.29232.84861.67822.25263.06E+002.02342.97950.7982.07622.80E-010.36230.28880.45080.36232.29E+001.58691.89371.16311.62575.64E+005.05535.48957.34513.0581.04E+000.9571.06660.68591.05573.92E+002.60433.15071.69022.78621.07E+03 745.6781116.1017 627.551 512.82611 1.9435 1.0169 2.9796 2ClusteredInstances10【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了059(33%)149(28%)269(39%)也可以在左下角“Resultlist”中這次產(chǎn)生的結(jié)果上點右鍵,“Viewinseparatewindow”在窗口中掃瞄結(jié)果。結(jié)果分析首先我們留意到結(jié)果中有這么一行:Withinclustersumofsquarederrors:49.650910689035356你得到的數(shù)值會不一樣;實際上假設(shè)把“seed“參數(shù)改一下,得到的這個數(shù)值就可seed,并承受這個數(shù)值最小的那個結(jié)果。接下來“Clustercentroids:“之后列出了各個類中心的位置。對于數(shù)值型的屬〔Mean〕;分類型的就是它的眾數(shù)〔Mode〕,也就個類里的標準差〔StdDevs〕。最終的“ClusteredInstances“是各個類中實例的數(shù)目及百分比方下ClusteredInstances059(33%)149(28%)269(39%)實際的聚類各類中的實例安排如下NumberofInstancesclass159class271class348通過比照可以得出聚類的結(jié)果還是比較滿足的。為了觀看可視化的聚類結(jié)果,我們在左下方“Resultlist“列出的結(jié)果上右擊,點“Visualizeclusterassignments“。彈出的窗口給出了各實例的散點圖。最上方的11【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了不同的類“Cluster“給實例標上不同的顏色,如以以下圖“Save“把聚類ARFF文件。在這個的ARFF文件中,“instance_number“屬性表示某實例的編號,“Cluster“屬性表示聚類算法給出的該實例所在的類。試驗擴展〔unsupervisedlearning〕,這learning〕相對的。所謂無監(jiān)視學(xué)習(xí)就是在預(yù)先不知道WekaWeka的聚類算法來滿足具體的試驗需要。Weka中聚類的一般過程主要如下讀入需推想樣本初始化聚類算法〔并設(shè)置參數(shù)〕使用聚類算法對樣本進展聚類打印聚類結(jié)果或許過程可實現(xiàn)如下Instancesins=null;InstancestempIns=null;12【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了SimpleKMeansKM=null;DistanceFunctiondisFun=null;try{Filefile=newFile(“data.arff“);ArffLoaderloader=newArffLoader;loader.setFile(file);ins=loader.getDataSet;KM=newSimpleKMeans;KM.setNumClusters(2);KM.buildClusterer(ins);tempIns=KM.getClusterCentroids;System.out.println(“CentroIds:“+tempIns);}catch(Exceptione){e.printStackTrace;}首先讀入樣本過程比較簡潔可以調(diào)用ArffLoader函數(shù)和setFile函數(shù)以及getDataSet函數(shù)等在構(gòu)建聚類器時也是通過現(xiàn)有的類來實現(xiàn)的。SimpleKMean〕,所以需要有一個計算距離的公式常見的就是歐幾里得距離了。SimpleKMeanWeka中供給了設(shè)置距離setDistanceFunction(DistanceFunctiondf),可以便利我們設(shè)置自己的距離計算方法。初衷是相背離的,所以在聚類之前我們要記住刪除掉類別屬性。ClusterEvaluation類來打印更多的信息。FCMWeka中的聚類算法如以以下圖13【原創(chuàng)】R語言案例數(shù)據(jù)分析報告論文〔附代碼數(shù)據(jù)〕有問題到淘寶找“大數(shù)據(jù)部落”就可以了Java包importweka.classifiers.rules.DecisionTableHashKey;importweka.core.Attribute;importweka.core.DistanceFunction;importweka.core.EuclideanDistance;importweka.c
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨時占用土地租賃協(xié)議
- 快件賒銷協(xié)議書
- 2024建設(shè)工程補充合同范本
- 求職意向書樣本-書信范本
- 2024幼兒園保安聘用合同
- 勞務(wù)施工安全協(xié)議書范本2024年
- 浙江省初中名校七年級上學(xué)期語文期中試卷5套【附答案】
- 吉林省雜糧采購合同
- 4.1 夯實法治基礎(chǔ) (大單元教學(xué)設(shè)計) 2024-2025學(xué)年統(tǒng)編版道德與法治九年級上冊
- 家庭雇傭保姆合同模板
- 煤礦皮帶智能化集控系統(tǒng)PPT教學(xué)講授課件
- 個人財務(wù)管理系統(tǒng)的設(shè)計與實現(xiàn)--論文
- 分數(shù)乘除法整理復(fù)習(xí)(課堂PPT)
- 杭州會展業(yè)發(fā)展與對策研究文獻綜述
- 小學(xué)六年級英語上冊《Unit 1 How can I get there》教案
- 完整版方法驗證報告模板最終
- 電力管道資料表格(共30頁)
- 大班科學(xué)活動教案《豆豆家族》含PPT課件
- 【精品試卷】部編人教版(統(tǒng)編)一年級上冊語文第一單元測試卷含答案
- 金屬有機化學(xué)ppt課件
- 數(shù)學(xué)說題稿(共4頁)
評論
0/150
提交評論