![數(shù)據(jù)分析聚類分析_第1頁](http://file4.renrendoc.com/view/80243e1d3c79f32e78608fc8874c94ae/80243e1d3c79f32e78608fc8874c94ae1.gif)
![數(shù)據(jù)分析聚類分析_第2頁](http://file4.renrendoc.com/view/80243e1d3c79f32e78608fc8874c94ae/80243e1d3c79f32e78608fc8874c94ae2.gif)
![數(shù)據(jù)分析聚類分析_第3頁](http://file4.renrendoc.com/view/80243e1d3c79f32e78608fc8874c94ae/80243e1d3c79f32e78608fc8874c94ae3.gif)
![數(shù)據(jù)分析聚類分析_第4頁](http://file4.renrendoc.com/view/80243e1d3c79f32e78608fc8874c94ae/80243e1d3c79f32e78608fc8874c94ae4.gif)
![數(shù)據(jù)分析聚類分析_第5頁](http://file4.renrendoc.com/view/80243e1d3c79f32e78608fc8874c94ae/80243e1d3c79f32e78608fc8874c94ae5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
聚類分析:聚類分析(ClusterAnalysis)是一種將數(shù)據(jù)集中的所有數(shù)據(jù),按攝影似性劃分為多種類別(Cluster,簇)的過程;簇是相似數(shù)據(jù)的集合。聚類分析是一種無監(jiān)督分類措施:數(shù)據(jù)集中的數(shù)據(jù)沒有預定義的類別標號(無訓練集和訓練的過程)。規(guī)定:聚類分析之后,應盡量保證類別相似的數(shù)據(jù)之間具有較高的相似性,而類別不一樣的數(shù)據(jù)之間具有較低的相似性。聚類分析在數(shù)據(jù)挖掘中的作用:作為一種獨立的工具來獲得數(shù)據(jù)集中數(shù)據(jù)的分布狀況;首先,對數(shù)據(jù)集執(zhí)行聚類,獲得所有簇;然后,根據(jù)每個簇中樣本的數(shù)目獲得數(shù)據(jù)集中沒類數(shù)據(jù)的大體分布狀況。作為其他數(shù)據(jù)挖掘算法的預處理環(huán)節(jié)。首先,對數(shù)據(jù)進行聚類——粗分類;然后,分別對每個簇進行特性提取和細分類,可以有效提高分類精度。聚類分析的經典應用:空間數(shù)據(jù)分析圖像處理——灰度圖像的二值化(對灰度像素進行聚類)。萬維網(wǎng)對WEB日志數(shù)據(jù)進行聚類,以發(fā)現(xiàn)類似的顧客訪問模式。金融領域顧客交易數(shù)據(jù)的聚類分析,以獲得奇異點(異常交易)。……常用的聚類分析措施:劃分法:以距離作為數(shù)據(jù)集中不一樣數(shù)據(jù)間的相似性度量,將數(shù)據(jù)集劃提成多種簇。屬于這樣的聚類措施有:K-means、K-medoids等。層次法:對給定的數(shù)據(jù)集進行層次分解,形成一種樹形的聚類成果。屬于這樣的聚類措施有:自頂向下法、自底向上法。相似性計算措施在聚類分析中,樣本之間的相似性一般采用樣本之間的距離來表達。兩個樣本之間的距離越大,表達兩個樣本越不相似性,差異越大;兩個樣本之間的距離越小,表達兩個樣本越相似性,差異性越小。特例:當兩個樣本之間的距離為零時,表達兩個樣本完全同樣,無差異。樣本之間的距離是在樣本的描述屬性(特性)上進行計算的。在不一樣應用領域,樣本的描述屬性的類型也許不一樣,因此相似性的計算措施也不盡相似。持續(xù)性屬性(如:重量、高度、年齡等)二值離散型屬性(如:性別、考試與否通過等)多值離散型屬性(如:收入分為高、中、低等)混合類型屬性(上述類型的屬性至少同步存在兩種)持續(xù)性屬性的相似性計算措施:對于持續(xù)型屬性,樣本之間的相似性一般采用如下三種距離公式計算。二值離散型屬性的相似性計算措施:二值離散型屬性只有0和1兩個取值。其中:0表達該屬性為空,1表達該屬性存在。例如:描述病人的與否抽煙的屬性,取值為1表達病人抽煙,取值為0表達病人不抽煙。假設二值離散型屬性的兩個取值具有相似的權重,則可以得到一種兩行兩列的也許性矩陣。多值離散型屬性的相似性計算措施:多值離散型屬性是指取值個數(shù)不小于2的離散型屬性。例如:成績可以分為優(yōu)、良、中、差。混合類型屬性的相似性計算措施:在實際中,數(shù)據(jù)集中數(shù)據(jù)的描述屬性一般不只一種類型,而是多種類型的混合體。持續(xù)型屬性二值離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產品銷售合同之一:戰(zhàn)略合作條款
- 產業(yè)園區(qū)廠房購買合同書
- 業(yè)務員崗位合同保密責任書2025
- 個人貸款抵押合同模板
- 個人借款合同度還款計劃書模板
- 個人貸款合同延期至全新協(xié)議
- 個人知識產權質押借款標準合同
- 2025年標準商業(yè)辦公租賃協(xié)議
- 云計算服務合同(三):企業(yè)級解決方案
- KTV廣告投放合同范本
- 《教育強國建設規(guī)劃綱要(2024-2035年)》解讀講座
- 2025河北邯鄲世紀建設投資集團招聘專業(yè)技術人才30人高頻重點提升(共500題)附帶答案詳解
- 慈溪高一期末數(shù)學試卷
- 《基于新課程標準的初中數(shù)學課堂教學評價研究》
- 貴州省黔東南州2024年七年級上學期數(shù)學期末考試試卷【附答案】
- 醫(yī)院廉潔自律承諾書
- 胚胎移植術前術后護理
- 企業(yè)招聘技巧培訓
- 學校校本課程《英文電影鑒賞》文本
- 中考語文句子排序練習題(文本版)
- 華為HCSA-Presales-IT售前認證備考試題及答案
評論
0/150
提交評論