數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)教案_第1頁
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)教案_第2頁
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)教案_第3頁
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)教案_第4頁
數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)教案_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)

哈爾濱商業(yè)大學王磊

概論:大數(shù)據(jù)和數(shù)據(jù)挖掘

學習目的:了解大數(shù)據(jù)基本概念和數(shù)據(jù)挖掘基本思想,掌握市場數(shù)據(jù)處理、分析和展示基本方

法和技能

一、大數(shù)據(jù)和大數(shù)據(jù)時代

1、什么是大數(shù)據(jù)(GigData):一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)

數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)

類型和價值密度低四大特征。

2、計算機數(shù)據(jù)存儲單位:

最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、

YB、BB、NB、DBo

它們按照進率1024(2的十次方)來計算:

>1Byte=8bit

>1KB=1,024Bytes=8192bit

>1MB=1,024KB=1,048,576Bytes

A1GB=1,024MB=1,048,576KB

>1TB=1,024GB=1,048,576MB

>1PB=1,024TB=1,048,576GB

>1EB=1,024PB=1,048,576TB

>1ZB=1,024EB=1,048,576PB

>1YB=1,024ZB=1,048,576EB

>1BB=1,024YB=1,048,576ZB

>1NB=1,024BB=1,048,576YB

>1DB=1,024NB=1,048,576BB

一般情況下:1個數(shù)字或英文字母占lB=8Bit,1個漢字占2B=16bit。

>《紅樓夢》含標點87萬字(不含標點853509字)

>1GB約等于671部紅樓夢

>1TB約等于631,903部

>1PB約等于647,068,911部

>美國國會圖書館藏書(151,785,778冊)(2011年4月:收錄數(shù)據(jù)235TB)

>1EB=4000倍美國國會圖書館存儲的信息量

3、大數(shù)據(jù)的特征

/容量(Volume):數(shù)據(jù)量巨大;

/種類(Variety):數(shù)據(jù)類型的多樣性(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù));

>結(jié)構(gòu)化數(shù)據(jù)

建立一個信息系統(tǒng)設計時肯定會涉及到數(shù)據(jù)的存儲,一般我們都會將系統(tǒng)信息保存

在某個指定的關(guān)系數(shù)據(jù)庫中。我們會將數(shù)據(jù)按業(yè)務分類,并設計相應的表,然后將對應

的信息保存到相應的表中。比如我們做一個業(yè)務系統(tǒng),要保存員工基本信息:工號、姓

名、性別、出生日期等等;我們就會建立一個對應的staff表。這種類別的數(shù)據(jù)最好處

理,只要簡單的建立一個對應的表就可以了。

>非結(jié)構(gòu)化數(shù)據(jù)

像圖片、聲音、視頻等等。這類信息我們通常無法直接知道他的內(nèi)容,數(shù)據(jù)庫也只

能將它保存在一個BLOB字段中,對以后檢索非常麻煩。一般的做法是,建立一個包含

三個字段的表(編號number、內(nèi)容描述varchar(1024)>內(nèi)容blob)。引用通過編號,

檢索通過內(nèi)容描述?,F(xiàn)在還有很多非結(jié)構(gòu)化數(shù)據(jù)的處理工具,市面上常見的內(nèi)容管理器

就是其中的一種。

>半結(jié)構(gòu)化數(shù)據(jù)

這樣的數(shù)據(jù)和上面兩種類別都不一樣,它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。因

為我們要了解數(shù)據(jù)的細節(jié)所以不能將數(shù)據(jù)簡單的組織成一個文件按照非結(jié)構(gòu)化數(shù)據(jù)處

理,由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個表和他對應。本文主要討論針對半結(jié)構(gòu)

化數(shù)據(jù)存儲常用的兩種方式。

先舉一個半結(jié)構(gòu)化的數(shù)據(jù)的例子,比如存儲員工的簡歷。不像員工基本信息那樣一致每

個員工的簡歷大不相同。有的員工的簡歷很簡單,比如只包括教育情況;有的員工的簡

歷卻很復雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、

技術(shù)技能等等。還有可能有一些我們沒有預料的信息。通常我們要完整的保存這些信息

并不是很容易的,因為我們不會希望系統(tǒng)中的表的結(jié)構(gòu)在系統(tǒng)的運行期間進行變更。

/質(zhì)量(Value):無法保證質(zhì)量(沙里淘金,價值密度低);以監(jiān)控視頻為例,一部一小

時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大

的機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題。

/速度(Velocity):指獲得數(shù)據(jù)的速度(實時獲取需要的信息);

4、大數(shù)據(jù)時代

半個世紀以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變

革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的

學科如天文學和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有

人類智力與發(fā)展的領(lǐng)域中。21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡、電子

商務等極大拓展了互聯(lián)網(wǎng)的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。

大數(shù)據(jù)時代的一些基本特征:

>硬件成本降低

>網(wǎng)絡帶寬提升

>云存儲、云計算興起

>網(wǎng)絡技術(shù)快速發(fā)展

>智能終端的普及

>電子商務、社交網(wǎng)絡、電子地圖等的全面應用

>物聯(lián)網(wǎng)("Internetofthings(IoT)”。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng))

二、數(shù)據(jù)挖掘概述

1、什么是數(shù)據(jù)挖掘

>數(shù)據(jù)挖掘(DataMining),一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過

程。

>數(shù)據(jù)挖掘一從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的

幺宗臺*.

>壺據(jù)以掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。

2、數(shù)據(jù)挖掘必備的基本技能

>計算機科學(軟件);

>統(tǒng)計學和應用數(shù)學;

>專業(yè)技術(shù)水平和實際工作經(jīng)驗。

3、大數(shù)據(jù)時代統(tǒng)計數(shù)據(jù)處理過程

>數(shù)據(jù)收集-DataCollection(數(shù)據(jù)抓取);

>數(shù)據(jù)處理-DataProcessing(數(shù)據(jù)預處理、數(shù)據(jù)清洗);

>數(shù)據(jù)分析-DataAnalysis(數(shù)據(jù)挖掘、建模、規(guī)律發(fā)現(xiàn));

>數(shù)據(jù)存儲-DataStorage(海量數(shù)據(jù)存儲和使用);

>數(shù)據(jù)交換(數(shù)據(jù)傳遞方式:Email.QQ、微信等;數(shù)據(jù)交換格式:格式化字符、HTML、

XML、JSON);

>數(shù)據(jù)展示(圖形、表格、公式、地圖;文字、圖像、視頻;網(wǎng)頁、博客。);

基本目的:

/預言(Predication):用歷史預測未來

/描述(Description):了解數(shù)據(jù)中潛在的規(guī)律

/展示(Presentation):展示和演示數(shù)據(jù)趨勢和規(guī)律

4、數(shù)據(jù)挖掘基本技術(shù)

/分類(Classification):首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用

數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類(信用卡申請者:

分類為低、中、高風險);

/估計(Estimation):根據(jù)購買模式,估計?一個家庭的孩子個數(shù),或估計一個家庭的收入;

/預測(Prediction):通過分類或估值得出模型,該模型用于對未知變量的預言;

/相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules):超市中客戶在購

買A的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)??蛻粼谫徺IA后,隔一段時間,會

購買B(序列分析);

/聚類(Clustering):聚類是對記錄分組,把相似的記錄放在一個聚集里。聚集和分類的

區(qū)別是聚類不依賴于預先定義好的類,不需要訓練集;

/描述和可視化(DescriptionandVisualization):是對數(shù)據(jù)挖掘結(jié)果的表示方式。一

般只是指數(shù)據(jù)可視化工具,包含報表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱

/異常檢測(AnomalyDetection):數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)“小的模式”(相

對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應用在如下領(lǐng)域:

令電信和信用卡欺騙

令貸款審批

令藥物研究

令氣象預報

令客戶分類

令網(wǎng)絡入侵檢測

。故障檢測與診斷等

5、數(shù)據(jù)挖掘經(jīng)典算法

/C4.5:是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法;

/K-means算法:是一種聚類算法;

/SVM:一種監(jiān)督式學習方法,廣泛運用于統(tǒng)計分類以及回歸分析中;

/Apriori:是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。

/EM:最大期望值法;

/pagerank:是google算法的重要內(nèi)容;

/Adaboost:是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器然后把

弱分類器集合起來,構(gòu)成一個更強的最終分類器;

/KNN:是一個理論上比較成熟的方法,也是最簡單的機器學習方法;

/NaiveBayes:在眾多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive

Bayes);

/Cart:分類與回歸樹,在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變

量空間的想法,第二個是用驗證數(shù)據(jù)進行減枝;

/BP神經(jīng)網(wǎng)絡。

三、大數(shù)據(jù)和數(shù)據(jù)挖掘案例

1、一天之間,互聯(lián)網(wǎng)上要發(fā)生多少事

/每天有2940億封電子郵件發(fā)出,如果這些是紙質(zhì)信件,在美國需要花費兩年時間處理;

/每天有200萬篇博客在網(wǎng)上發(fā)布,這些文章相當于《時代》雜志刊發(fā)770年的總量;

/每天有2.5億張照片上傳至社交網(wǎng)站Facebook,如果都打印出來,摞在一起能有80個

埃菲爾鐵塔那么高;

/每天有86.4萬小時視頻被上傳至視頻網(wǎng)站Youtube,相當于不間斷播放視頻98年;

/每天有1.87億個小時的音樂會在流媒體音樂網(wǎng)站Pandora上播放,如果一臺電腦從公

元元年就開始播放這些音樂會,到現(xiàn)在還沒完沒了地接著放;

/谷歌翻譯每天處理的文字數(shù)量,每天翻譯次數(shù)達十億次,相當于一百萬冊圖書,超過了

全世界的專業(yè)翻譯人員一年能夠翻譯的文字規(guī)模;

/百度每天的關(guān)鍵詞搜索量50億,谷歌33.3億;

/淘寶天貓雙11那一天營業(yè)額達191億人民幣。中國小商品城全年成交額才580.03億元

人民幣。

累積起來,互聯(lián)網(wǎng)一天之內(nèi)產(chǎn)生的信息總量,可以裝滿1.68億張DVD光盤。

2、尿布與啤酒〃的故事

在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉

措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市

的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠

準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧

客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在

這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意

外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一

個隱藏在“尿布與啤酒''背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常

要到超市去買嬰兒尿布,而他們中有30%?40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)

象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又

隨手帶回了他們喜歡的啤酒。

按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘

分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。

四、數(shù)據(jù)挖掘和統(tǒng)計分析技術(shù)有什么不同?

硬要去區(qū)分DataMining和Statistics的差異其實是沒有太大意義的。DataMining技術(shù)

或計算等理論方法,都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生。換另一個角度看,Data

Mining有相當大的比重是由高等統(tǒng)計學中的多變量分析(多元統(tǒng)計分析)所支撐。但是為

什么DataMining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言,

DataMining有下列幾項特性:

/處理大量實際數(shù)據(jù)更強勢,且無須太專業(yè)的統(tǒng)計背景去使用DataMining的工具;

/數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件,DataMining

的工具更符合企業(yè)需求;

/純就理論的基礎(chǔ)點來看,DataMining和統(tǒng)計分析有應用上的差別,畢竟DataMining

目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學家檢測用的。

五、數(shù)據(jù)處理工具和軟件(經(jīng)濟類專業(yè))

1、微信、百度云和博客

參考博客:http:〃www.cnblogs.com/cloudlj/

2、WORD、PPT

3、EXCEL,VBAforEXCEL.R

第一章數(shù)據(jù)處理

學習目的:理解運用數(shù)據(jù)挖掘方法前需要對數(shù)據(jù)進行清理、標準化等基礎(chǔ)工作,掌握數(shù)據(jù)相似

性和相異下分析方法

一、數(shù)據(jù)清理(EXCEL字符串函數(shù))

二、數(shù)據(jù)標準化和歸一化

1、最大最小值標準化方法;

vX-minX/八..maxX-X八

Y=(A)或/=(B)

maxX-minXmaxX-minJ

2、均值方差標準化方法

r=(0

s

數(shù)據(jù)實例一:現(xiàn)有男、女生各20人體重(公斤)數(shù)據(jù)如下,

男生5085537273616256647959666381867760825154

女生6262677850574854546469776056647451545355

問,男生還是女生體重變化較小?

解:

男生體重最大、最小值maxM=86、minM=50;

女生體重最大、最小值maxF=78、minF=48;

男生體重平均數(shù)和樣本標準差場=66.7,Ms=11.788;

女生體重平均數(shù)和樣本標準差場=60.45,Ms=8.9058;

男女生體重數(shù)據(jù)標準化計算表:

男生女生男生A女生A男生B女生B男生C女生C

50620.000.471.000.53-1.420.17

85620.970.470.030.531.550.17

53670.080.630.920.37-1.160.74

72780.611.000.390.000.451.97

73500.640.070.360.930.53-1.17

61570.310.300.690.70-0.48-0.39

62480.330.000.671.00-0.40-1.40

56540.170.200.830.80-0.91-0.72

64540.390.200.610.80-0.23-0.72

79640.810.530.190.471.040.40

59690.250.700.750.30-0.650.96

66770.440.970.560.03-0.061.86

63600.360.400.640.60-0.31-0.05

81560.860.270.140.731.21-0.50

86641.000.530.000.471.640.40

77740.750.870.250.130.871.52

60510.280.100.720.90-0.57-1.06

82540.890.200.110.801.30-0.72

51530.030.170.970.83-1.33-0.84

54550.110.230.890.77-1.08-0.61

三、數(shù)據(jù)相似性分析

相似性和相異性被許多數(shù)據(jù)挖掘技術(shù)所使用,如聚類、最近鄰分類、異常檢測等。兩個對象之

間的相似度是這兩個對象相似程度的數(shù)值度量,通常相似度是非

負值,并常常在0(不相似)和1(完全相似)之間取值。兩個對象之間的相異度是這兩個對

象差異程度的數(shù)值度量,兩個對象越相似,它們的相異度就越低,通常

用“距離”作為相異度的同義詞。數(shù)據(jù)對象之間相似性和相異性的度量有很多,如何選擇度量方

法依賴于對象的數(shù)據(jù)類型,數(shù)據(jù)的量值是否重要,數(shù)據(jù)的稀疏性等。

1.歐氏距離(EuclideanDistance)

歐氏距離是最易于理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。

⑴二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離:

九=JOi一%)2+(71一曠?)?

(2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:

22

%=V(^i-x2)+Oi-y2)+(-z2)

(3)兩個n維向量a(x11,x12,...,x1n)-igb(x21,x22,…,x2n)間的歐氏距離:

-x2k)

yk=1

也可以用表示成向量運算的形式:

d12=J(a-b)(a-by

歐式距離是高維空間中兩點之間的距離,它計算簡單、應用廣泛,但是沒有考慮變量之間的相

關(guān)性,當體現(xiàn)單一特征的多個變量參與計算時會影響結(jié)果的準確性,同時它對向量中得每個分

量的誤差都同等對待,一定程度上放大了較大變量誤差在距離測度中的作用。

兩個n維向量A(x11,x12,…,x1n)與B(x21,x22,…,x2n)間的歐氏距離定義為:

D(A,B)=[(x11-x21)A2+(x12-x22)A2+...+(x1n-x2n)A2]A0.5

歐式距離的公式是

d=sqrt(X(xi1-xi2)A)這里i=1,2..n

歐氏距離:(幺(Xi-Yi)2)1/2,即兩項間的差是每個變量值差的平方和再平方根,目的是計

算其間的整體距離即不相似性。

歐氏距離雖然很有用,但也有明顯的缺點。它將樣品的不同屬性(即各指標或各變量)之間的

差別等同看待,這一點有時不能滿足實際要求。例如,在教育研究中,經(jīng)常遇到對人的分析和

判別,個體的不同屬性對于區(qū)分個體有著不同的重要性。因此,有時需要采用不同的距離函數(shù)。

歐氏距離看作信號的相似程度。距離越近就越相似,就越容易相互干擾,誤碼率就越高。

2.曼哈頓距離(ManhattanDistance)

⑴二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離

%=反1-叼1+1%-y2l

(2)兩個n維向量a(x11,x12,…,x1n)與b(x21,x22,...,x2n)間的曼哈頓距離

n

di2=W|xlk-X2kl

k=l

曼哈頓距離也稱為城市街區(qū)距離(CityBlockdistance),想象在曼哈頓要從一個十字路口開車到

另外一個十字路口,駕駛距離是兩點間的直線距離嗎?顯然不是,除非你能穿越大樓。實際駕

駛距離就是“曼哈頓距離,

兩個n維向量A(x11,x12,…,x1n)與B(x21,x22,…,x2n)間的曼哈頓距離定義為:

D(A,B)=|x11-x21|+|x12-x22|+...+|x1n-x2n|

兩個n維向量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的曼哈頓距離

以上兩個距離都具有的數(shù)學性質(zhì)是:

非負性:d(i,j)>0距離是一個非負的數(shù)值

同一性:d(i,i)=0對象到自身的距離為0

對稱性:d(i,j)=d(j,i)距離是一個對稱函數(shù)

三角不等式:d(i,j)4d(i,k)+d(k,j)從對象i到對象j的直接距離不會大于途經(jīng)的任何其他對象k的

距離

3.切比雪夫距離(ChebyshevDistance)

數(shù)學上,切比雪夫距離(Chebyshevdistance)或是L8度量是向量空間中的一種度量,二個點

之間的距離定義為其各座標數(shù)值差的最大值。以(x1,y1)和(x2,y2)二點為例,其切比雪夫距離為

max(|x2-x1|,|y2-y11)。切比雪夫距離得名自俄羅斯數(shù)學家切比雪夫。

切比雪夫距離也稱為棋盤距離,國際象棋中,國王走一步能夠移動到相鄰的8個方格中的任意

一個,那么國王從格子A(x1,y1)走到格子B(x2,y2)最少需要多少步?你會發(fā)現(xiàn)最少步數(shù)總是

max{|x2-x1|,|y2-y1|}步。

兩個n維向量A(x11,x12,…,x1n)與B(x21,x22,…,x2n)間的切比雪夫距離定義為:

D(A,B)=max{|x11-

x21|,|x12-x22|,…,|x1n-x2n|},該公式的另一種等價形式是:D(A,B)=[(x11-x21)Ak+(x12-

x22)Ak+...+(x1n-x2n)Ak]A(1/k),其中k趨向于無窮大。

4.閔氏距離(MinkowskiDistance)

閔可夫斯基距離:

P=(Ti,T2,T?)andQ=(如.詼,…,胡)G映”

閔可夫斯基距離(Minkowskidistance)是衡量數(shù)值點之間距離的一種非常常見的方法,假設

數(shù)值點P和Q坐標如下:

那么,閔可夫斯基距離定義為:

/n\1/P

兇….

閔氏距離不是一種距離,而是一組距離的定義。

該距離最常用的p是2和1,前者是歐幾里得距離(Euclideandistance),后者是曼哈頓距

離(Manhattandistance)。假設在曼哈頓街區(qū)乘坐出租車從P點到Q點,白色表示高樓大

廈,灰色表示街道:

綠色的斜線表示歐幾里得距離,在現(xiàn)實中是不可能的。其他三條折線表示了曼哈頓距離,這三

條折線的長度是相等的。

當p趨近于無窮大時,閔可夫斯基距離轉(zhuǎn)化成切比雪夫距離(Chebyshevdistance):

我們知道平面上到原點歐幾里得距離(p=2)為1的點所組成的形狀是一個圓,當p取其他

數(shù)值的時候呢?

注意,當p<1時,閔可夫斯基距離不再符合三角形法則,舉個例子:當p<1,(0,0)至U(1,1)

A

的距離等于(11){1/p}>2,而(0,1)到這兩個點的距離都是10

閔可夫斯基距離比較直觀,但是它與數(shù)據(jù)的分布無關(guān),具有一定的局限性,如果x方向的幅值

遠遠大于y方向的值,這個距離公式就會過度放大x維度的作用。所以,在計算距離之前,

我們可能還需要對數(shù)據(jù)進行z-transform處理,即減去均值,除以標準差:

(\,/叫一出以一〃八

(力,協(xié))T(?-)

。rOy

〃:該維度上的均值

。:該維度上的標準差

可以看到,上述處理開始體現(xiàn)數(shù)據(jù)的統(tǒng)計特性了。這種方法在假設數(shù)據(jù)各個維度不相關(guān)的情況

下利用數(shù)據(jù)分布的特性計算出不同的距離。如果維度相互之間數(shù)據(jù)相關(guān)(例如:身高較高的信

息很有可能會帶來體重較重的信息,因為兩者是有關(guān)聯(lián)的),這時候就要用到馬氏距離

(Mahalanobisdistance)了。

兩個n維變量A(x11,x12,…,x1n)與B(x21,x22,…,x2n)間的閔氏距離定義為:D(A,B)=[|x11-

x21|Ap+|x12-x22|Ap+...+|x1n-x2n|ApF(1/p),其中p是一個可變參數(shù)。當p=1時為曼哈頓距離,

當p=2時為歐氏距

離,當p-8時為切比雪夫距離。

閔氏距離,包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點:(1)對各個分量的量

綱(Scale)沒有區(qū)別對待。(2)未考慮各個分量的分布(期望,方差等)可能是不同的。

5.標準化歐氏距離(StandardizedEuclideanDistance)

標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進,其基本思想是先將數(shù)據(jù)對象的各

個分量都進行均值為不標準差為s的標準化,然后再計算歐式距離。

兩個n維向量A(x11,x12,…,x1n)與B(x21,x22,…,x2n)的標準化歐氏距離定義為:

D(A,B)={[(x11-x21)/s1]A2+[(x12-x22)/s2]A2+...+[(x1n-x2n)/sn]A2}A0.5

6.馬氏星巨離(Maha山nobisDistance)

馬氏距離由印度統(tǒng)計學家馬哈拉諾斯(P.C.Mahalanobis)提出,表示數(shù)據(jù)的協(xié)方差距離,與

歐式距離不同,它考慮了各指標之間相關(guān)性的干擾,而且不受各指標量綱的影響,但是它的缺

點是夸大了變化微小的變量的作用。

設A、B是從均值向量為5協(xié)方差陣為£的總體G中抽取的兩個樣本,A、B兩點之間的馬氏

距離定義為:D(A,B)=[(A-B)TZ-1(A-B)]A0.5,A與總體G的馬氏距離定義為

D(A,G)=[(A-M)TZ-1(A-P)]A0.5O

當協(xié)方差矩陣E是單位矩陣(各個樣本向量之間獨立同分布),則馬氏公式就轉(zhuǎn)化為歐氏距離;

當協(xié)方差矩陣E是對角陣時,則馬氏距離就轉(zhuǎn)化為標準化歐式距離;

例1:已知兩樣本{(25,30,28,40,26),(30,45,32,41,30)},計算如下距離:

歐氏距離(18.8226)、曼哈頓距離(29)、切比雪夫距離(15)、閔氏距離(19.525/1.5)、

相關(guān)系數(shù)(0.667231)、夾角余弦(0.989811)、標準歐氏距離(3.263219、標準化時用樣本

標準差)

例2:現(xiàn)有樣本集為:{(1,2),(3,4),(4,6),(2,3),(3,5)},求兩樣本{(1,2),(2,3)}的馬氏距離。

解:D.,.=-¥,.)但(¥,一為)

5=-^―x\L''L'2](該樣本集為二維變量)

“一11^2/22_

當樣本集為四維變量時有,

AiL[2△14

L?\工22/23L/

S=—X

14/33

n-An工33

Ai工42243

41=Z(儲一儲)2=Z才:一:(241)2,工22=Z(12-兄)2=-](Z*2)2

幾=z(儲一月)(/一月)=z七(T(Z儲)x(z()

已知,n=5,=13,2蒞=20,2或=39,E屬=90,Z儲4=59

32

=39--x13=5.2,L=90--x20=10,Z12=59--x13x20=7

Ai52255

1力」5.271.31.75'

SXAi

〃一1£12G」4[710.1.752.5

1.31.7513.3333-9.3333"

1.752.59.33336.9333

-9.3333-

Z)=(;—:x13.33332-1)0.5

D,.j=yl(Xi-X./S-\X,.-y

-9.33336.93333-2

13.3333'9,3333x1)05=1.605=1.264911

x

-9.33336.9333J\_1_

7.漢明距離(HammingDistance)

在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數(shù)。換句

話說,它就是將一個字符串變換成另外一個字符串所需要替換的字符個數(shù)。

例如:1011101與例01001之間的漢明距離是2;"toned"與“roses”之間的漢明距離是3。

8.皮爾遜相關(guān)系數(shù)(PearsonCorrelationcoefficient)

相關(guān)公式:

(忑逐門-()()

covxn?二A-f-)-)二-2--x--sr

%可F-A?3)J國:甲)一百20

為N燈一

力吃?_必療、”,3_(^?F

P?A,S£二¥--

1葡

(E?\e浮立?)\

X?jJ

NQN

皮爾遜相關(guān)系數(shù)也稱為簡單相關(guān)系數(shù),它是衡量隨機變量X與丫相關(guān)程度的一種方法,相關(guān)系

數(shù)的取值范圍是[-1,1]。相關(guān)系數(shù)的絕對值越大,則表明X與丫相關(guān)度越高,負值表示負相關(guān),

正值表示正相關(guān)。

皮爾遜相關(guān)系數(shù)定義如下:r(X,Y)=Cov(X,Y)/[(D(X)A0.5)*(D(Y)A().5)]=E((X-EX)*(Y-EY))/

[(D(X)A0.5)*(D(Y)A0.5)]=[(X1-X_bar)(Y1-Y_bar)+(X2-X_bar)(Y2-Y_bar)+...+

(Xn-X_bar)(Yn-Y_bar)]/{[(X1-X_bar)A2+(X2-X_bar)A2+...(Xn-X_bar)]*[(Y1-

Y_bar)A2+(Y2-Y_bar)A2+...(Yn-Y_bar)]}A0.5o

Pearson相關(guān)系數(shù)要求參與計算的變量為服從雙變量正態(tài)分布的連續(xù)型數(shù)據(jù),并且僅適用于線

性相關(guān)的情況。另外,當極值對Pearson相關(guān)系數(shù)的影響非常大,因此在計算之前要首先進行

極值處理。

9.斯皮爾曼秩相關(guān)系數(shù)(SpearmanRankCorrelation)

與Pearson相關(guān)系數(shù)一樣,它也可以反映兩組變量聯(lián)系的緊密程度,取值在-1到+1之間,計

算方法上也完全相同,不同的是它建立在秩次的基礎(chǔ)之上,對原始變量的分布和樣本容量的大

小不作要求,屬于非參數(shù)統(tǒng)計方法,適用范圍更廣。

設R(R1,R2,…,Rn)表示X在(X1,X2,...,Xn)

中的秩,Q(Q1,Q2,...,Qn)表示丫在(丫1,Y2,...,Yn)中的秩,如果X和丫具有同步性,那么R

和Q也會表現(xiàn)出同步性,反之依然,將其代入

Pearson相關(guān)系數(shù),就得到秩之間的一致性,也就是Spearman相關(guān)系數(shù)。考慮到

R1+R2+…Rn=Q1+Q2+…+Qn=n(n+1)/2,

R1A2+R2A2+...+RnA2=Q1A2+Q2A2+...+QnA2=n(n+1)

(2n+1)/6,Spearman相關(guān)系數(shù)可以定義為:r(X,Y)=1-6*[(R1-Q1)A2+(R2-Q2)A2+.(Rn-QnF2]

/[n(nA2-1)]

10.肯德爾秩相關(guān)系數(shù)(KendallRankCorrelation)

Kendall在本質(zhì)設想方面與Spearman是一樣的,它從兩個變量是否協(xié)同一致的角度出發(fā)檢驗

兩變量之間是否存在相關(guān)性。什么是協(xié)同?假設兩

個變量X、丫有n對觀察值(X1,Y1)(X2,丫2)…(Xn,丫n),如果兇-Xi)g-Yi)>0(j>i),稱

(Xi,丫i)與(Xj,Yj)滿足協(xié)同性(concordant),或者說變化方向一致。否則,不滿足協(xié)同性。

全部數(shù)據(jù)共有n(n-1)/2對,如果用Nc表示同向數(shù)對的數(shù)目,Nd表示反向數(shù)對的數(shù)目,則Nc+Nd=

n(n-1)/2,Kendall相關(guān)系數(shù)由兩者的平均差定義:(Nc-Nd)/[n(n-1)/2]。Kendall相關(guān)系數(shù)的取值

范圍在-1到1之

間,當?shù)扔?時,表示兩個隨機變量擁有一致的等級相關(guān)性;當?shù)扔?1時,表示兩個隨機變量

擁有完全相反的等級相關(guān)性;當?shù)扔?時,表示兩個隨機變量是相互

獨立的。

2P,4。,

T=-|~:T-1=—:7-1

|n(n-1)n(n-1)

舉例:

假如我們設一組8人的身高和體重在那里A的人是最高的,第三重,等等:

PersonABCDEFGH

Rankby

12345678

Height

Rankby

34125786

Weight

我們看到,有一些相關(guān)的兩個排名之間的相關(guān)性,可以使用肯德爾頭系數(shù),客觀地衡量對應。

注意,A最高,但體重排名為3,比體重排名為4,5,6,7,8的重,貢獻5個同序?qū)?,即AB,AE,AF,

AG,AH,同理,我們發(fā)現(xiàn)B、C、D、E、F、G、H分別貢獻4、5、4、3、1、0、0個同序?qū)?,因此?/p>

尸=5+4+5+4+3+1+0+0=22.

因而R=(88/56)-1=0.57。這一結(jié)果顯示出強大的排名之間的規(guī)律,符合預期。

11.余弦相似度(CosineSimilarity)

幾何中夾角余弦可用來衡量兩個向量方向的差異,機器學習中用這一概念來衡量樣本向量之間

的差異。夾角余弦的取值范圍為11,1]。夾角余弦越大表

示兩個向量的夾角越小,夾角余弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角

余弦取最大值1,當兩個向量的方向完全相反夾角余弦取最小值-1。

兩個n維樣本向量A(x11,x12,…,x1n)和B(x21,x22,...,x2n)的夾角余弦定義為:cos0=

(A-B)/(|A|*|B|)

=(x11*x21+x12*x22+...X1n*X2n)/[(x11A2+x12"2+…+x1nA2)A0.5*

(x21A2+x22A2+...+x2nA2)A0.5],夾角余弦經(jīng)常應用于像文檔這樣的稀疏數(shù)據(jù),它變量的長度無

關(guān),如向量(1,2)和(2,4)的夾

角余弦與向量(1,2)和(10,20)的相等。

歐氏距離是最常見的距離度量,而余弦相似度則是最常見的相似度度量,很多的距離度量和相

似度度量都是基于這兩者的變形和衍生,所以下面重點比較下兩者在衡量個體差異時實現(xiàn)方式

和應用環(huán)境上的區(qū)別。

借助三維坐標系來看下歐氏距離和余弦相似度的區(qū)別:

從圖上可以看出距離度量衡量的是空間各點間的絕對距離,跟各個點所在的位置坐標(即個體

特征維度的數(shù)值)直接相關(guān);而余弦相似度衡量的是空間向量的夾角,更加的是體現(xiàn)在方向上

的差異,而不是位置。如果保持A點的位置不變,B點朝原方向遠離坐標軸原點,那么這個時

候余弦相似度cose是保持不變的,因為夾角不變,而A、B兩點的距離顯然在發(fā)生改變,這就

是歐氏距離和余弦相似度的不同之處。

根據(jù)歐氏距離和余弦相似度各自的計算方式和衡量特征,分別適用于不同的數(shù)據(jù)分析模型:歐

氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異

的分析,如使用用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上

區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于使用用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度

和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題(因為余弦相似度對絕對數(shù)值不

敏感)。

12.調(diào)整余弦相似度(AdjustedCosineSimilarity)

余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感。因此沒法衡量每個維數(shù)值的

差異,會導致這樣一個情況:比如用戶對內(nèi)容評分,5分制,X

和丫兩個用戶對兩個內(nèi)容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結(jié)果是0.98,兩者

極為相似,但從評分上看X似乎不喜歡這2個內(nèi)容,

而丫比較喜歡,余弦相似度對數(shù)值的不敏感導致了結(jié)果的誤差,需要修正這種不合理性。

調(diào)整余弦相似度,將所有維度上的數(shù)值都減去一個均值,比如X和丫的評分均值都是3,那么

調(diào)整后為(-2,-1)和(1,2),再用余弦相似度計算,得到-0.8,相似度為負值并且差異不小,但顯然

更加符合現(xiàn)實。

13.簡單匹配系數(shù)(SimpleMatchingCoefficient,SMC)

設A、B是兩個二元屬性組成的對象,這兩個對象的比較導致如下四個頻率變量:f00:A取0

并且B取。屬性的個數(shù);f01:A取0并且B取1屬性的個數(shù);f10:A取1并且B取。屬性的

個數(shù);f11:A取1并且B取1屬性的個數(shù)。

那么SMC就是兩個對象A、B屬性值匹配的屬性個數(shù)與所有屬性個數(shù)的比值,即

SMC(A,B)=(f11+fOO)/(fO1+f10+f11+f00)

14.Jaccard系數(shù)(JaccardCoefficient)

當數(shù)據(jù)對象的二元屬性是非對稱的時,例如用1表示商品被購買,用0表示商品未被購買。由

于未被購買的商品數(shù)遠遠大于被購買的商品數(shù),因此,如果用SMC計算數(shù)據(jù)對象的相似度,

其結(jié)果必然是所有的數(shù)據(jù)對象都是相似的。

Jaccard系數(shù)可以處理僅包含非對稱二元屬性的對象,它是匹配屬性的個數(shù)與不涉及0-0匹配

的屬性個數(shù)的比值,即J(A,B)=f11/(f01+f10+f11)o

15.廣義Jaccard系數(shù)(ExtendedTanimotoCoefficient)

廣義Jaccard系數(shù)又稱為Tanimoto系數(shù),常常用于文檔數(shù)據(jù),并在二元屬性情況下規(guī)約為

Jaccard系數(shù)。

該系數(shù)用EJ表示,定義如下:EJ(A,B)=(A-B)/(|A|*|A|+|B|*|B|-

AB)=(x11*x21+x12*x22+...+x1n*x2n)/[(x11A2+x12A+...x1nA2)+(x21A2+x22A2+...+x2nA2)-(x

11*x21+x12*x22+...+x1n*x2n)]

第二章EXCEL基礎(chǔ)

一、EXCEL絕對和相對單元格操作

二、EXCEL常用函數(shù)

三、EXCEL在數(shù)據(jù)挖掘算法中的運用

四、EXCEL在線練習(單選和判斷題)

鏈接:htlp://www.galaxyslalislics.com/sjfxsTK/mypa.slExcel.html

第三章KNN算法

地理學第一定律(Tobler'sFirstLaw)-k近鄰(KNN)等數(shù)據(jù)挖掘方法理論基礎(chǔ):

Allattributevaluesonageographicsurfacearerelatedtoeachother,butcloservaluesaremorestrongly

relatedthanaremoredistantones.

涵義:地理事物或?qū)傩栽诳臻g分布上互為相關(guān),存在集聚(clustering)、隨機(random)、規(guī)則(RegulaHty)分布。

一個空間單元內(nèi)的信息與其周圍單元信息有相似性,空間單元之間具有的連通性,屬性各階矩的空間非均

勻性或非靜態(tài)性??臻g分布模式主要有點模式、線模式、面模式和體模式,其中最早被提出和研究的是點模

式(pointpattern)?點模式分析的理論最早由Ripley(1977)提出,并不斷得到完善(Haase,1995;Dixon,

2002)。目前應用領(lǐng)域最廣的面模式——空間自相關(guān)??臻g因素表現(xiàn)在「空間自相關(guān)」(SpatialAuto-correlation)

與I■空間異質(zhì)」兩個概念上,空間自相關(guān)是認為「鄰近地區(qū)的影響」(neighborhoodeffect)的大小,空間異

質(zhì)旌指空間位置差異造成的觀察行為不恒定現(xiàn)象。例如在某個區(qū)域之中,存在著不同的次區(qū)域,各區(qū)域間誤

差的變異不相等。舉例說明:犯罪率與教育程度的關(guān)系,不同地區(qū)(文教區(qū)、貧困區(qū))可能不一樣,此即空間

異質(zhì)現(xiàn)象?;旧?,人的行為表現(xiàn)受到所處環(huán)境或周遭環(huán)境的影響非常明顯,空間分析學者嘗蕭結(jié)合日益成

熟的電腦科技GIS、空間計量方法、以及大型資料庫,目的在精確地界定空間因素的重要性及影響力:到底

是哪一種「空間因素」產(chǎn)生影響?影響有多大?如何建立模型?解釋自變數(shù)與因變數(shù)間的關(guān)系。

KNearestNeighbor算法又叫KNN算法,這個算法是機器學習里面一個比較經(jīng)典的算法,總體來說KNN算法

是相對比較容易理解的算法。其中的K表示最接近自己的K個數(shù)據(jù)樣本。KNN算法和K-Means算法不同的是,

K-Means算法用來聚類,用來判斷哪些東西是一個比較相近的類型,而KNN算法是用來做歸類的,也就是說,

有一個樣本空間里的樣本分成很兒個類型,然后,給定一個待分類的數(shù)據(jù),通過計算接近自己最近的K個樣

本來判斷這個待分類數(shù)據(jù)屬于哪個分類。你可以簡單的理解為由那離自己最近的K個點來投票決定待分類數(shù)

據(jù)歸為哪一類。

一個比較經(jīng)典的KNN圖如下:

從上圖中我們可以看到,圖中的有兩個類型的樣本數(shù)據(jù),一類是藍色的正方形,另一類是紅色的三角形。而

那個綠色的圓形是我們待分類的數(shù)據(jù)?

如果K=3,那么離綠色點最近的有2個紅色三角形和1個藍色的正方形,這3個點投票,于是綠色的這個待

分類點屬于紅色的三角形。

如果K=5,那么離綠色點最近的有2個紅色三角形和3個藍色的正方形,這5個點投票,于是綠色的這個待

分類點屬于藍色的正方形。

我們可以看到,機器學習的本質(zhì)一一是基于一種數(shù)據(jù)統(tǒng)計的方法!那么,這個算法有什么用呢?我們來看幾

個示例。

>KNN分類

產(chǎn)品質(zhì)量判斷假設我們需要判斷紙巾的品質(zhì)好壞,紙巾的品質(zhì)好壞可以抽像出兩個向量,一個是“酸腐蝕的

時間”,一個是“能承受的壓強”。如果我們的樣本空間如下:(所謂樣本空間,又叫TrainingData,也就是用

于機器學習的數(shù)據(jù))

向量XI向量X2

品質(zhì)Y

耐酸時間(秒)莊強(公斤/平方米)

77壞

74壞

34好

14好

那么,如果XI=3和X2=7,這個毛巾的品質(zhì)是什么呢?這里就可以用到KNN算法來判斷

了。

假設K=3,K應該是一個奇數(shù),這樣可以保證不會有平票,下面是我們計算(3,7)到所有點的

距離。

向量XI向量X2

計算到(3,7)的距離向量Y

耐酸時間(秒)莊強(公斤/平方米)

77(7—3、+(7-7)3=16壞

74^-3)3+(4-7),2=25N/A

34。-松-7y=g好

14好

所以,最后的投票,好的有2票,壞的有1票,最終需要測試的(3,7)是合格品。(當然,你還可以使用

權(quán)重——可以把距離值做為權(quán)重,越近的權(quán)重越大,這樣可能會更準確一些)

>KNN預測

假設我們有下面一組數(shù)據(jù),假設X是流逝的秒數(shù),Y值是隨時間變換的一個數(shù)值(你可以想像是股票值)

那么,當時間是6.5秒的時候,Y值會是多少呢?我們可以用KNN算法來預測之。

這里,讓我們假設K=2,于是我們可以計算所有X點到6.5的距離,如:X=5.1,距離是|6.5-5.1|=1.4,

X=1.2那么距離是|6.5-1.2|=5.3。于是我們得到下面的表:

XYX間距離

1235.5

1.2175.3

3.2123.3

4272.5

5.181.4

6.5?

K_________Y預測值

2—17.5

3|15.66667

注意,上圖中因為K=2,所以得到X=4和X=5.1的點最近,得到的Y的值分別為27和8,在這種情況下,

我們可以簡單的使用平均值來計算:(27+8)/2=17.5。

第四章聚類分析(最短距離法)

一、什么是聚類分析

聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統(tǒng)計方法,所謂類,通俗地說,就

是指相似元素的集合。嚴格的數(shù)學定義是較麻煩的,在不同問題中類的定義是不同的。詳見參考文獻⑴。

聚類分析起源于分類學,在考古的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類。隨著生產(chǎn)技術(shù)

和科學的發(fā)展,人類的認識不斷加深,分類越來越細,要求也越來越高,有時光憑經(jīng)驗和專業(yè)知識是不能進

行確切分類的,往往需要定性和定量分析結(jié)合起來去分類,于是數(shù)學工具逐漸被引進分類學中,形成了數(shù)值

分類學。后來隨著多元分析的引進,聚類分析又逐漸從數(shù)值分類學中分離出來而形成一個相對獨立的分支。

在社會經(jīng)濟領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行

分析,一般不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標,如百元固

定資產(chǎn)實現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標

對30個省市自治區(qū)進行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評價,就易于得出科學的分析。

又比如若對某些大城市的物價指數(shù)進行考察,而物價指數(shù)很多,有農(nóng)用生產(chǎn)物價指數(shù)、服務項目價指數(shù)、食

品消費物價指數(shù)、建材零售價格指數(shù)等等。由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進行分類。

總之,需要分類的問題很多,因此聚類分析這個有用的數(shù)學工具越來越受到人們的重視,它在許多領(lǐng)域中都

得到了廣泛的應用。

值得提出的是將聚類分析和其它方法聯(lián)合起來使用,如判別分析、主成分分析、回歸分析等往往效果更

好。

聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚

類預報法等。本章主要介紹常用的系統(tǒng)聚類法。

二、八種系統(tǒng)聚類方法

正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與

類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠樣品的距離,也可以定義為兩類重心之

間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。本節(jié)介紹常用的八種系

統(tǒng)聚類方法,即最短距離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論