版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
概述KMEANS算法又被成為K均值算法,是一種常用的聚類算法,由于不需要根據(jù)給定的訓(xùn)練集訓(xùn)練模型因此是一種無監(jiān)督學(xué)習(xí)算法。其本質(zhì)是根據(jù)選定的參數(shù)K將數(shù)據(jù)分類成K類,在聚類過程中從單一樣本開始通過不斷計(jì)算聚類數(shù)據(jù)的均值來作為整個(gè)類的中心進(jìn)而再將距離此類別中心最近的數(shù)據(jù)納入同一類。算法原理:1、以下圖樣本散點(diǎn)圖展示數(shù)據(jù)集的整體分布情況2、K值是KMEANS最重要的選擇參數(shù),直接決定著數(shù)據(jù)聚類的類別數(shù)量,在選擇K值后,會(huì)在數(shù)據(jù)中隨機(jī)選擇K個(gè)數(shù)據(jù)樣本最為初始中心點(diǎn),如K=3,則結(jié)果如下圖所示
3、計(jì)算和中心點(diǎn)距離最近的點(diǎn),將其歸入同類4、每個(gè)類別當(dāng)有了兩個(gè)以上的數(shù)據(jù)時(shí),類的中心就會(huì)發(fā)生變化,因此類中一旦有新的數(shù)據(jù)被劃入時(shí)就需要重新計(jì)算整個(gè)類的中心點(diǎn),這一步的計(jì)算也是整個(gè)算法的核心,所以稱為K均值算法5、通過幾步計(jì)算之后的結(jié)果,能夠更直觀的展示出類的聚合情況和中心點(diǎn)的位置情況
6、判斷聚類過程結(jié)束的標(biāo)準(zhǔn)有兩個(gè),一是中心點(diǎn)的位置不再發(fā)生變化,即結(jié)果收斂;二是執(zhí)行了最夠多次的迭代次數(shù)(通俗可以理解為計(jì)算了幾次中心點(diǎn)位置)注意事項(xiàng):1、K值是整個(gè)算法中最重要的參數(shù),但是也是最不好確定的參數(shù),如果需要比較好的確定K值,需要采用其他驗(yàn)證算法,如計(jì)算樣本離最近聚類中心的總和,總和越小,則聚類的效果越好;輪廓系數(shù),輪廓系數(shù)的范圍為-1至1之間,數(shù)字越大則聚類效果越好;蘭德指數(shù),范圍為-1至1之間,數(shù)字越大則聚類效果越好;同質(zhì)化得分,如果所有的聚類都只包含屬于單個(gè)類的成員的數(shù)據(jù)點(diǎn)則聚類結(jié)果將滿足同質(zhì)性,其取值范圍為0至1之間,值越大意味著聚類結(jié)果與真實(shí)情況越吻合。2、以上驗(yàn)證方法雖然對(duì)于確定K值有效,但是驗(yàn)證過程需要額外的計(jì)算力資源,并且占用的計(jì)算力接近于聚類過程所需要的計(jì)算力資源,數(shù)據(jù)集如果較大,則計(jì)算力的消耗會(huì)產(chǎn)生疊加效應(yīng)。3、較為簡(jiǎn)易的方法為,從數(shù)據(jù)集中隨機(jī)抽取部分小規(guī)模數(shù)據(jù),以散點(diǎn)圖等可視化手段來觀察數(shù)據(jù)的可能聚類數(shù)量,以此來判斷K的取值。這種方法可以認(rèn)為是經(jīng)驗(yàn)法的一種表現(xiàn)形式,相比經(jīng)驗(yàn)法的完全定性分析,隨機(jī)抽取數(shù)據(jù)觀察能夠在經(jīng)驗(yàn)的基礎(chǔ)上增加定量的分析部分,雖然隨機(jī)抽取的數(shù)據(jù)也可能有誤差,但是抽取的數(shù)據(jù)量越多,則準(zhǔn)確度越高。4、因?yàn)槌跏嫉闹行狞c(diǎn)選擇是根據(jù)K的值隨機(jī)選擇K個(gè)點(diǎn),所以選擇的隨機(jī)性加上迭代過程造成算法的結(jié)果只是局部最優(yōu)解,畢竟反復(fù)的計(jì)算最短距離的點(diǎn)和類的中心都是在局部已經(jīng)聚合的類的基礎(chǔ)上進(jìn)行的,而不是從全局的范圍進(jìn)行。算法使用場(chǎng)景:1、隱含類別的數(shù)據(jù)較為平衡的情況,如隱含類別的數(shù)據(jù)量差別較大,則聚類的效果就較差。2、數(shù)據(jù)最好是凸數(shù)據(jù),即隱含類別間的差異越大,則聚類效果越好,因?yàn)橹行狞c(diǎn)不再變化所需要的迭代次數(shù)較少,比較容易收斂。3、一般作為數(shù)據(jù)預(yù)處理,或者用于輔助分類貼標(biāo)簽使用,因?yàn)樵谝呀?jīng)經(jīng)過分類的數(shù)據(jù)上再進(jìn)行聚類,準(zhǔn)確度會(huì)非常高。阿里云PAI平臺(tái)算法模塊及參數(shù)設(shè)置說明:inputTableName:輸入表表名selectedColNames:輸入表中用于訓(xùn)練的列名,默認(rèn)選擇所有列即仇丁2?0「2代讓加$:輸入表中指定哪些分區(qū)參與訓(xùn)練,默認(rèn)選擇所有分區(qū)centerCount:聚類數(shù)K,是算法中最重要的參數(shù),決定數(shù)據(jù)的聚類數(shù)量loop:最大迭代次數(shù),算法中非常重要的參數(shù),當(dāng)最大迭代次數(shù)到達(dá)但是仍然無法收斂時(shí),則停止計(jì)算accuracy:中心點(diǎn)計(jì)算終止條件,如果兩次迭代之間變化低于該值,算法終止,默認(rèn)值0.0,值過大則會(huì)出現(xiàn)欠擬合情況,值較小則中心點(diǎn)容易在小范圍間變化造成計(jì)算結(jié)果無法收斂distanceType:距離度量方式,euclidean(歐式距離),cosine(夾角余弦),cityblock^哈頓距離),默認(rèn)為歐式距離舊工0位0W0坨。~:質(zhì)心初始化方法,random(隨機(jī)采樣),topk(輸入表前k行),uniform(均勻分布),external(指定初始質(zhì)心表),默認(rèn)值為隨機(jī)采樣initCenterTableName:初始質(zhì)心表名,當(dāng)質(zhì)心初始化方法采用指定初始質(zhì)心表方式時(shí)采用seed:初始隨機(jī)種子數(shù),正整數(shù),默認(rèn)值為當(dāng)前時(shí)間,seed設(shè)置為固定值則每次聚類結(jié)果是穩(wěn)定的enableSparse:輸入表數(shù)據(jù)是否為稀疏格式,默認(rèn)值為非稀疏格式itemDelimiter:當(dāng)輸入表數(shù)據(jù)為稀疏格式時(shí),kv間的分割符,默認(rèn)值為空格★Delimiter:當(dāng)輸入表數(shù)據(jù)為稀疏格式時(shí),key和value的分割符,默認(rèn)值冒號(hào)modelName:輸出模型的模型名idxTableName:輸出聚類結(jié)果表,和輸入表對(duì)應(yīng),并指明聚類后每條記錄所屬的類號(hào)idxTablePartition:輸出聚類結(jié)果表的分區(qū)表名clusterCountTableName:輸出聚類統(tǒng)計(jì)表,統(tǒng)計(jì)各個(gè)聚類包含的點(diǎn)的數(shù)目centerTableName:輸出聚類中心表coreNum
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版泥漿外運(yùn)承包合同(含應(yīng)急處理預(yù)案)4篇
- 二零二五版拌合料生產(chǎn)技術(shù)標(biāo)準(zhǔn)制定與執(zhí)行合同4篇
- 二零二五年度智能建筑暖通設(shè)備采購(gòu)合同4篇
- 二零二五版門閘安全標(biāo)準(zhǔn)認(rèn)證服務(wù)合同4篇
- 二零二五年度網(wǎng)絡(luò)安全年薪制勞動(dòng)合同4篇
- 二零二五年度沖擊錘施工材料質(zhì)量檢測(cè)合同2篇
- 二零二五年度租賃市場(chǎng)合同糾紛解決策略4篇
- 二零二五年度城市更新改造項(xiàng)目規(guī)劃合同4篇
- 二零二五年度農(nóng)業(yè)電商數(shù)據(jù)安全與隱私保護(hù)合同樣本3篇
- 2025年度二零二五年度獼猴桃出口貿(mào)易代理合同3篇
- 2024年供應(yīng)鏈安全培訓(xùn):深入剖析與應(yīng)用
- 飛鼠養(yǎng)殖技術(shù)指導(dǎo)
- 壞死性筋膜炎
- 整式的加減單元測(cè)試題6套
- 股權(quán)架構(gòu)完整
- 山東省泰安市2022年初中學(xué)業(yè)水平考試生物試題
- 注塑部質(zhì)量控制標(biāo)準(zhǔn)全套
- 人教A版高中數(shù)學(xué)選擇性必修第一冊(cè)第二章直線和圓的方程-經(jīng)典例題及配套練習(xí)題含答案解析
- 銀行網(wǎng)點(diǎn)服務(wù)禮儀標(biāo)準(zhǔn)培訓(xùn)課件
- 二年級(jí)下冊(cè)數(shù)學(xué)教案 -《數(shù)一數(shù)(二)》 北師大版
- 晶體三極管資料
評(píng)論
0/150
提交評(píng)論