數(shù)據(jù)挖掘分類算法介紹_第1頁
數(shù)據(jù)挖掘分類算法介紹_第2頁
數(shù)據(jù)挖掘分類算法介紹_第3頁
數(shù)據(jù)挖掘分類算法介紹_第4頁
數(shù)據(jù)挖掘分類算法介紹_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘分類算法介紹  -分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、bayes分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。決策樹例1一個自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計(jì)劃將廣告冊和禮品投遞給這些會員。但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。自行車廠商首先從所有會員中抽取了1000個會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會

2、員是否購買了自行車。數(shù)據(jù)如下: 事例列會員編號12496141772438125597輸入列婚姻狀況MarriedMarriedSingleSingle性別FemaleMaleMaleMale收入40000800007000030000孩子數(shù)1500教育背景BachelorsPartial CollegeBachelorsBachelors職業(yè)Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽車數(shù)0210上班距離0-1 Miles2-5 Miles5-10 Miles0-1 Miles區(qū)域EuropeEurope

3、PacificEurope年齡42604136預(yù)測列是否購買自行車NoNoYesYes 在分類模型中,每個會員作為一個事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買了自行車。使用1000個會員事例訓(xùn)練模型后得到的決策樹分類如下:  圖中矩形表示一個拆分節(jié)點(diǎn),矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個事例,年齡小于32歲的133個事例,年齡在39和67歲之間的602個事例,年齡32和39歲之間的229個事

4、例。所以第一次拆分后,年齡在39和67歲的節(jié)點(diǎn)顏色最深,年齡大于67歲的節(jié)點(diǎn)顏色最淺。節(jié)點(diǎn)中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點(diǎn)中的事例購買和不購買自行車的比例。如節(jié)點(diǎn)“年齡>=67”節(jié)點(diǎn)中,包含36個事例,其中28個沒有購買自行車,8個購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有74.62%的概率不購買自行車,有23.01%的概率購買自行車。 在圖中,可以找出幾個有用的節(jié)點(diǎn):1. 年齡小于32歲,居住在太平洋地區(qū)的會員有72.75%的概率購買自行車;2. 年齡在32和39歲之間的會員有68.42%的概率購買自行車;3. 年齡在39和67歲之間,上班

5、距離不大于10公里,只有1輛汽車的會員有66.08%的概率購買自行車;4. 年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內(nèi)的會員有51.92%的概率購買自行車; 在得到了分類模型后,將其他的會員在分類模型中查找就可預(yù)測會員購買自行車的概率有多大。隨后自行車廠商就可以有選擇性的投遞廣告冊。 數(shù)據(jù)挖掘的一般流程第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計(jì)算機(jī)是無法知道如何分類數(shù)據(jù)的。 第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個會員數(shù)據(jù)。通常的做法是將模型集

6、分成訓(xùn)練集和檢驗(yàn)集,比如從1000個會員數(shù)據(jù)中隨機(jī)抽取700個作為訓(xùn)練集,剩下300個作為檢驗(yàn)集。第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。由于時效性,模型內(nèi)容要經(jīng)常更新,比如十年前會員的消費(fèi)模式與現(xiàn)在有很大的差異,如果用十年前數(shù)據(jù)訓(xùn)練出來的模型來預(yù)測現(xiàn)在的會員是否會購買自行車是不合適的,所以要按時使用新的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。 第四步,模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確??梢杂媚P蛯?00個會員的檢驗(yàn)集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自行車,將預(yù)測的

7、情況與真實(shí)的情況對比,評估模型預(yù)測是否準(zhǔn)確。如果模型準(zhǔn)確度能滿足要求,就可以用于對新會員進(jìn)行預(yù)測。第五步,超市每天都會有新的會員加入,這些新加入的會員數(shù)據(jù)叫做預(yù)測集或得分集。使用模型對預(yù)測集進(jìn)行預(yù)測,識別出哪些會員可能會購買自行車,然后向這些會員投遞廣告。 Naïve BayesNaïve Bayes是一種由統(tǒng)計(jì)學(xué)中Bayes法發(fā)展而來的分類方法。 例1有A、B兩個政黨對四個議題進(jìn)行投票,A政黨有211個國會議員,B政黨有223個國會議員。下表統(tǒng)計(jì)了政黨對四個議題贊成或反對的票數(shù)。 國家安全法個人財(cái)產(chǎn)保護(hù)法遺產(chǎn)稅反分裂法總計(jì)贊成反對贊成反對贊成

8、反對贊成反對A政黨41166871141841117823211B政黨21442116172362101223A政黨20%80%43%57%94%6%89%11%49%B政黨98%2%97%3%83%17%99.50%0.50%51% A政黨的議員有20%概率贊成國家安全法,43%概率贊成個人財(cái)產(chǎn)保護(hù)法,94%概率贊成遺產(chǎn)稅,89%概率贊成反分裂法。B政黨的議員有98%概率贊成國家安全法,97%概率贊成個人財(cái)產(chǎn)保護(hù)法,83%概率贊成遺產(chǎn)稅,99.5%概率贊成反分裂法?;谶@樣的數(shù)據(jù),Naïve Bayes能預(yù)測的是如果一個議員對國家安全法投了贊成票,對個人財(cái)產(chǎn)保護(hù)法投了反對

9、票,對遺產(chǎn)稅投了贊成票,對反分裂法投了贊成票。哪么,這個議員有多大的概率屬于A政黨,又有多少的概率屬于B政黨。 例2一個產(chǎn)品在生產(chǎn)后經(jīng)檢驗(yàn)分成一等品、二等品、次品。生產(chǎn)這種產(chǎn)品有三種可用的配方,兩種機(jī)器,兩個班組的工人。下面是1000個產(chǎn)品的統(tǒng)計(jì)信息。 配方機(jī)器工人總計(jì)配方1配方2配方3機(jī)器1機(jī)器2班組1班組2一等品4711012123255130148278二等品299103165392175327240567次品742556698638117155一等品16.91%39.57%43.53%8.27%91.73%46.76%53.24%27.80%二等品52.73%18.

10、17%29.10%69.14%30.86%57.67%42.33%56.70%次品47.74%16.13%36.13%44.52%55.48%24.52%75.48%15.50% 使用Naïve Bayes模型,每次在制定生產(chǎn)計(jì)劃,確定生產(chǎn)產(chǎn)品所用的配方、機(jī)器及工人,便能預(yù)測生產(chǎn)中有多少的一等品、二等品和次品。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一種模擬生物上神經(jīng)元的工作的機(jī)器學(xué)習(xí)方法。下面是銀行用來識別給申請信用卡的客戶發(fā)放何種信用卡的神經(jīng)網(wǎng)絡(luò)。 圖中每個橢圓型節(jié)點(diǎn)接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出。輸入層節(jié)點(diǎn)接受客戶信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳遞給輸出層,輸出

11、層輸出客戶屬于哪類信用卡。這類似于人腦神經(jīng)元受到刺激時,神經(jīng)脈沖從一個神經(jīng)元傳遞到另一個神經(jīng)元。每個神經(jīng)元節(jié)點(diǎn)內(nèi)部包含有一個組合函數(shù)和激活函數(shù)f。X1, X2是其他神經(jīng)元的輸出值,對此神經(jīng)元來說是輸入值,組合函數(shù)將輸入值組合后傳遞給激活函數(shù)。激活函數(shù)經(jīng)過特定的計(jì)算后得到輸出值y,y有被傳遞給其他神經(jīng)元。輸入邊上的w1和w2是輸入權(quán)值,用于在組合函數(shù)中對每個輸入值進(jìn)行加權(quán)。訓(xùn)練模型時,客戶事例輸入,神經(jīng)網(wǎng)絡(luò)計(jì)算出客戶的類別,計(jì)算值與真實(shí)值比較后,模型會修正每個輸入邊上的權(quán)值。在大量客戶事例輸入后,模型會不斷調(diào)整,使之更吻合真實(shí)情況,就像是人腦通過在同一脈沖反復(fù)刺激下改變神經(jīng)鍵連接強(qiáng)度來進(jìn)行學(xué)習(xí)。

12、 回歸分類算法是建立事例特征對應(yīng)到分類的方法。分類必須是離散的,像信用卡的種類只有三種,如果是要通過客戶收入、婚姻狀況、職業(yè)等特征預(yù)測客戶會使用信用卡消費(fèi)多少金額時,分類算法就無能為力了,因?yàn)橄M(fèi)金額可能是大于0的任意值。這時只能使用回歸算法。例如,下表是工廠生產(chǎn)情況。 機(jī)器數(shù)量工人數(shù)量生產(chǎn)數(shù)量12604007783891181674 使用線性回歸后,得到了一個回歸方程:生產(chǎn)數(shù)量=+·機(jī)器數(shù)量+·工人數(shù)量。代表每多一臺機(jī)器就可以多生產(chǎn)單位的產(chǎn)品,每多一個工人就可以多生產(chǎn)單位的產(chǎn)品。 除了簡單的線性回歸和邏輯回歸兩種,決策樹可以建立自動

13、回歸樹模型,神經(jīng)網(wǎng)絡(luò)也可以進(jìn)行回歸,實(shí)際上,邏輯回歸就是去掉隱藏層的神經(jīng)網(wǎng)絡(luò)。例如,服裝銷售公司要根據(jù)各地分銷店面提交的計(jì)劃預(yù)計(jì)實(shí)際銷售量。使用自動回歸樹得到上圖的模型,假如山東銷售店提交的計(jì)劃童裝數(shù)量是500套,預(yù)計(jì)銷售量是-100+0.6×500=200套,按6Sigma原則,有99.97%的概率實(shí)際銷售量可能是200±90套。廣州提交計(jì)劃童裝300套,預(yù)計(jì)銷售量是20+0.98×300=314±30套。廣州的銷售店制定的童裝計(jì)劃比山東的準(zhǔn)確。 聚類分類算法的目的是建立事例特征到類別的對應(yīng)法則。但前提是類別是已存在的,如已知道動物可以分成哺

14、乳類和非哺乳類,銀行發(fā)行的信用卡有銀卡、金卡、白金卡三種。有時在分類不存在前,要將現(xiàn)有的事例分成幾類。比如有同種材料要分類裝入到各個倉庫中,這種材料有尺寸、色澤、密度等上百個指標(biāo),如果不熟悉材料的特性很難找到一種方法將材料分裝。又例如,銀行剛開始信用卡業(yè)務(wù)時,沒有將客戶分類,所有的客戶都使用同一種信用卡。在客戶積累到一定的數(shù)量后,為了方便管理和制定市場策略,需要將客戶分類,讓不同類別的客戶使用不同的信用卡。但問題是,銀行該把客戶分成幾個類別,誰該屬于哪一類。假定銀行僅僅要參照客戶的收入和使用信用卡銷售金額兩個指標(biāo)對客戶分類。通常情況下,僅僅是衡量這些指標(biāo)的高低來分類,如規(guī)定收入小于4000,且

15、消費(fèi)小于2000的客戶分成第一類;收入在4000至8000,消費(fèi)在2000至4000的客戶分成第二類;收入在8000至12000,消費(fèi)在4000至6000的客戶分成第三類;收入在12000以上,消費(fèi)在6000以上分成第四類。下面的圖展示了這種分類。圖中三角形的點(diǎn)代表客戶,圖中的紅色線條是對客戶的分類。可以看到這種不合理,第一類別沒有包含任何事例,而第四類也只有少量事例,而第二和第三類分界處聚集著大量事例。觀測圖像,發(fā)現(xiàn)大部分客戶事例聚集在一起形成了三個簇,下圖中用三個橢圓標(biāo)出了這些簇。 同在一個簇中的客戶有著類似的消費(fèi)行為,黑色簇中的客戶消費(fèi)額與收入成正比;藍(lán)色簇中的客戶不習(xí)慣使用信

16、用卡消費(fèi),可以對這類客戶發(fā)放一種低手續(xù)費(fèi)的信用卡,鼓勵他們使用信用卡消費(fèi);綠色簇中的客戶消費(fèi)額相對收入來說比較高,應(yīng)該為這類客戶設(shè)計(jì)一種低透支額度的信用卡。聚類模型就是這種可以識別有著相似特征事例,把這些事例聚集在一起形成一個類別的算法。聚類模型除了能將相似特征的事例歸為一類外,還常用來發(fā)現(xiàn)異常點(diǎn)。像上圖中用紅圈標(biāo)出的點(diǎn),這兩個客戶偏離了已有的簇,他們的消費(fèi)行為異于一般人,消費(fèi)遠(yuǎn)超出收入。意味他們有其他不公開的收入來源,這些客戶是有問題的??茖W(xué)試驗(yàn)中,研究人員對異常點(diǎn)很感興趣,通過研究不尋常的現(xiàn)象提出新的理論。聚類的另一個用途是發(fā)現(xiàn)屬性間隱含的關(guān)系。例如有30名學(xué)生考試成績:學(xué)號美術(shù)語文物理歷

17、史英語音樂數(shù)學(xué)化學(xué)310017450896153659687310027065885550659287310036550865463739196教師想知道學(xué)科之間是否有關(guān)聯(lián),如果學(xué)生某門學(xué)科成績優(yōu)秀,是否會在另一門學(xué)科上也有優(yōu)勢。通過聚類后將30名學(xué)生分成了3個類:變量狀態(tài)總體(全部)分類 3分類 2分類 1大小30101010語文平均值7471.689.659.4語文偏差13.394.383.955.46英語平均值7272.788.156.1英語偏差14.274.46.94.46音樂平均值7889.174.471音樂偏差9.717.314.125.27物理平均值757456.693.4物理偏

18、差15.964.424.844.95數(shù)學(xué)平均值7574.357.392.3數(shù)學(xué)偏差15.164.43.974.95美術(shù)平均值7890.671.871.4美術(shù)偏差10.435.384.715.66歷史平均值7373.287.658.1歷史偏差13.235.854.435.13化學(xué)平均值7474.756.290.6化學(xué)偏差15.093.065.396.02分類1學(xué)生的共同特點(diǎn)是他們的物理、數(shù)學(xué)、化學(xué)平均分都比較高,但語文、歷史、英語的分?jǐn)?shù)很低;分類2則恰恰相反。從中,可以得到規(guī)則:物理、數(shù)學(xué)和化學(xué)這三門學(xué)科是有相關(guān)性的,這三門學(xué)科相互促進(jìn),而與語文、歷史、英語三門學(xué)科相排斥。  分類1中的學(xué)生序列聚類新聞網(wǎng)站需要根據(jù)訪問者在網(wǎng)頁上的點(diǎn)擊行為來設(shè)計(jì)網(wǎng)站的導(dǎo)航方式。通過聚類算法可以發(fā)現(xiàn)網(wǎng)頁瀏覽者的行為模式,比如識別出了一類瀏覽者的行為:喜歡察看體育新聞和政治新聞。但瀏覽者訪問網(wǎng)頁是有順序的,先瀏覽體育新聞再瀏覽政治新聞,與先

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論