版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第13卷第2期2000年6月聊城師院學報(自然科學版J ou rnal of Liaochen g T each ers U nivers ity(Nat.Sci.Vol.13No.2Ju n.2000用EXCEL進行模糊聚類分析a王文德1鞏建閩2石鳳來3(1聊城師范學院計算機系,聊城252059;2德州高專;3聊城市建行摘要聚類分析是統(tǒng)計方法中多元數據分析的三大方法之一,也是數據挖掘技術研究的方法之一,本文介紹了用電子表格軟件Ex cel實現(xiàn)模糊聚類分析的方法.關鍵詞Excel,模糊聚類分析,聚類分析分類號TP39作為一個國際流行的電子表格軟件,Ex cel的數據處理與統(tǒng)計分析、直觀的圖表功
2、能,為用戶提供了極大的方便.利用Excel“分析工具庫”中的分析工具(Excel為用戶提供了許多統(tǒng)計、金融和工程等函數可以進行較為復雜的統(tǒng)計或工程分析.Excel也是工程技術人員、科研人員進行數據處理與分析的有效工具之一.利用Excel的文件格式轉換器,可以打開許多類型的數據文件,如格式化文本文件. Lotusl-2-3的文件以及國內眾多用戶使用的XBase的.dbf文件.這為用戶使用Ex cel進行數據處理與分析提供了極大的方便,彌補了許多M IS管理軟件的不足.本文用Ex cel實現(xiàn)了對象間的模糊聚類分析.聚類分析是統(tǒng)計方法中多元數據分析的三大方法之一,也是當前人們研究數據挖掘(Data
3、M ining技術的工具和方法之一,模糊聚類分析是利用模糊數學的觀點來進行分類,它是眾多聚類分析方法中的一種.1模糊聚類分析的數學模型假設有n個要進行分類的對象(樣本,記為x1,x2,x n,每個對象(樣本x i(i=1,2,n有m個量化的指標,記為x i1,x i2,x im,可以把每一個對象看成m維空間中的一個點.把樣本列表表示如表1.顯然,表中的數據可以十分容易地在Excel中予以表示.表1指標x1x2x3x4 y1x11x21x n1 y2x12x22x n2y m x1m x2mx nm聚類分析的目的就是要把n個樣本對象按照一定的標準進行“物以類聚”.為此首先要定義樣本之間的距離或樣
4、本之間的相似系數.樣本x i與x j的距離或相似數記為d ij,d ij 的定義方法很多,在Ex cel中的計算也比較容易.假設通過計算得到樣本x1,x2,x n間a收稿日期:1999-11-20的模糊矩陣RR =d 11d 12d 1n d 21d 22d 2n d n 1d n 2d nn.由于R 不一定是模糊關系矩陣,為此需要通過平方法對R 進行改造,把模糊矩陣改造為模糊關系矩陣.即利用模糊矩陣的乘法:R 2=R .R ,R 2k =R k .R k ,k =1,2,4,直到找到最小的k ,使R 2k =R k 成立.記R =R k,則R 就是模糊關系矩陣.模糊聚類分析依據模糊關系矩陣R
5、 進行,取水平K 滿足0K 1,依次比較R 中的各元素,若該元素大于等于K ,則令該元素為1,否則為0,得到K 截矩陣R K ,由R K 進行分類.記R 2=(d *ij ,d *ij 的計算公式為d *ij=nk =1(d jk d kj (i ,j =1,2,n .(12模糊聚類分析的Excel 實現(xiàn)在Excel 工作表(sheet中樣本按下列條件x j k =1當x i 具有第k 個特征時,0當x i 不具有第k 個特征時,i =1,2,n ,k =1,2,m建立數據1,這里x ik 表示第i 個樣本的第k 個特征.為了確定樣本x i 與x j 的距離或相似數,本例中將相似系數d ij
6、定義為d ij =mk =1xikx jk +mk =1(1-x ik (1-x jk m ,i ,j =1,2,n ,其中的分子部分為x i 與x j 所有對應的取值中相同的個數;若對應的取值中相同的個數多,d ij 就大,說明兩者關系近.反之,d ij 就小,說明兩者關系遠.由于d ij 的計算只涉及兩列數據的乘積之和,因此利用Ex cel 的計算與填充功能進行計算是十分容易的.在計算過程中應注意靈活使用Ex cel 相對地址和絕對地址,這樣可以極大地提高計算效率.為了表述方便,我們僅取實際問題中前5個樣本進行聚類R =A BCDE1 1.0020.71 1.0030.630.49 1.0
7、040.600.530.581.0050.680.670.480.49 1.00(原問題參加聚類的樣本=13,量化指標=93,計算得到R (按sheet 中的表示.現(xiàn)在的問題要對R 進行平方法改造,按公式(1進行矩陣的模糊乘法運算,設在工作表(sheet中的數據安排如下31第2期王文德等:用EXCEL 進行模糊聚類分析 A B C D E1 1.000.710.630.600.6820.71 1.000.490.530.6730.630.49 1.000.580.4840.600.530.58 1.000.4950.680.670.480.491.00FG H I J 1.000.710.63
8、0.600.680.71 1.000.490.530.670.630.49 1.000.580.480.600.530.58 1.000.490.680.670.480.491.00K=L M N O P 1.000.710.630.600.680.71 1.000.630.600.680.630.63 1.000.600.630.600.600.60 1.000.600.680.680.630.601.00.其中,區(qū)域A1:E5為模糊矩陣R ,區(qū)域F1:J5為R 的副本,區(qū)域L1:P5為按公式(1計算的模糊矩陣R 2.在具體計算過程中,我們可以充分利用Ex cel 提供的函數來完成這一計算過
9、程,在引用單元格時應靈活使用相對地址和絕對地址,這樣可以做到事半功倍.例如單元格L1中的函數表達式為=M AX(M IN (ÇA1,F Ç1,MIN (ÇB1,F Ç2,MIN (ÇC 1,F Ç3,MIN (ÇD 1,F Ç4,MIN (ÇE1,F Ç5圖1給出了在L1中嵌套使用函數的過程.用類似辦法,通過數據和表達式的復制,不難計算出R 4=R 2.最終的模糊關系矩陣R (=R 2.模糊聚類分析依據R 進行,取水平K 滿足0K 1,依次比較R 中各元素,若該元素大于等于K ,則令該元素為1,
10、否則為0,得到K 截矩陣R K ,由R K 進行分類.分別取K =0.60,0.63,0.68,0.7,可以得到R =L M N O P7 1.0080.71 1.0090.630.63 1.00100.600.600.60 1.00110.680.680.630.601.00相應的分類結果.實際操作中,我們可以利用IF(函數,把K 的值作為變量存放在一個單元格中,本例中我們把K 的值放在單元格F13中.這樣,只需在單元格F13中輸入不同的K 值,就可以動態(tài)地得到不同的分類結果.在單元格L7中的計算公式如圖2所示.32聊城師院學報(自然科學版第13卷例如,在單元格F 13中輸入0.63,即讓K
11、 =0.63,可自動得到分類結果.這表明樣本分為兩類,一類是x 1,x 2,x 3,x 5,另兩類是x 4.實際上,只要靈活地應用Ex cel ,如果再配合使用V BA R 0.63=L M N O P11211311140001511101及Excel 的宏功能,可以解決許多的實際問題.筆者曾利用Ex cel 為一些單位進行過諸如多元回歸分析、相關分析等統(tǒng)計分析工作.由于統(tǒng)計分析結果圖文并茂,用戶容易接受和掌握分析方法.在人們開始重視數據挖掘(KDD的今天,當各行各業(yè)已經擁有了一些大大小小的數據庫系統(tǒng)時,我們不僅要建立和管理好數據系統(tǒng),更應該千方百計地利用已有的數據,讓現(xiàn)有的數據發(fā)揮更大、更
12、有效的作用,為決策提供更加科學的依據.在這方面,Excel 不失為數據處理與加工的一個良好工具,它的直觀性、用戶參與性,使得數據分析工作變的更容易為廣大技術人員掌握.參考文獻1肖蓓蕾,鞏建閩.從FU ZZY 聚類分析的角度探討茄科的分類地位.曲阜師范大學學報,1989.22方開泰,潘恩沛.聚類分析.北京:地質出版社,1982Making Fuzzy Clu stering Analysis with Microsoft ExcelWang Wende 1Gong Jianmin 2Shi Fenglai3(1Depar tm ent of Computer S cience ,Liaochen
13、g T eachers U nivers ity ,Liaochen g ;2Dezhou College;3Chin a Constru ction Bank Liaocheng Br anchAbstract Clustering analysis as a metho d of Data M ining is o ne o f the three metho d about M ultiv ar iate Statistics,this paper sho w s the w ay to make Fuzzy Cluttering Analysis w ith Microsoft Excel .Key words Excel ,Fuzzy Cluttering analysis ,Cluttering analysis (上接第29頁Realizing the Fill of Arbitbary Enclosed Graphic Zone by StackZheng Haiyang(Depar tm ent of M athem atics ,Guyuan T each ers College ,Guyuan 756000Abstract The paper discusses the algo rithm of re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省內江市2023-2024學年高三三模英語試題
- 2019-2025年中國谷物及谷物粉市場前景預測及投資規(guī)劃研究報告
- 【可行性報告】2024年高純超細石英粉相關行業(yè)可行性分析報告
- 煤化工有限責任公司年產46萬噸合成氨80萬噸尿素工程環(huán)評報告
- 一年級數學(上)計算題專項練習集錦
- 海鰻養(yǎng)殖知識培訓課件
- 中醫(yī)藥知識培訓
- 車輛檢修工知識培訓課件
- 春節(jié)購房 壯志凌云
- 春分市場突圍
- 《論拒不執(zhí)行判決、裁定罪“執(zhí)行能力”之認定》
- 工業(yè)設計基礎知識單選題100道及答案解析
- 山西省晉中市2023-2024學年高一上學期期末考試 化學 含解析
- 過程審核表(產品組評分矩陣評審提問表(評分))-2024年百度過
- 操作手冊模板【范本模板】
- 2025年湖北省武漢市高考數學模擬試卷附答案解析
- 【工作總結】建筑中級職稱專業(yè)技術工作總結
- 江蘇省2022年普通高中學業(yè)水平合格性考試數學試題(考試版)
- 2023年二輪復習解答題專題三:一次函數的應用方案選取型(原卷版+解析)
- 2024版小學英語新課程標準測試題及答案
- 2024年村級意識形態(tài)工作計劃
評論
0/150
提交評論