數(shù)據(jù)挖掘經(jīng)典方法_第1頁(yè)
數(shù)據(jù)挖掘經(jīng)典方法_第2頁(yè)
數(shù)據(jù)挖掘經(jīng)典方法_第3頁(yè)
數(shù)據(jù)挖掘經(jīng)典方法_第4頁(yè)
數(shù)據(jù)挖掘經(jīng)典方法_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在大數(shù)據(jù)時(shí)代, 數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲 也是一種決策支持過(guò)程。其主要基于人工智能,機(jī)器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計(jì)學(xué)等。通過(guò)對(duì)大 用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng),并做出正確的決策。目前,在很多領(lǐng)域尤其 是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、 神經(jīng)網(wǎng)絡(luò)方法、 Web 數(shù)據(jù)挖掘等。這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘.分類是找出數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類, 情況向用戶推薦關(guān)聯(lián)類的商品,從而增加商鋪的銷售量。 將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)

2、機(jī)會(huì)。決策樹(shù)是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算 下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下 的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論.貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯2.1 線性回歸(Naive Bayes)算法。這些算法主要利用Bayes 定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類 別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。由于貝葉斯定理的成 其分類準(zhǔn)確性就會(huì)下降。為此就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如 TAN 算 法,它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性

3、對(duì)之間的關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的 結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱“神經(jīng)元”,或“單元” ) 之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”, 以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行 類的功能,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)就可用于對(duì)象的識(shí)別. 網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann 機(jī))、競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming 網(wǎng)絡(luò), 自組織映射網(wǎng)絡(luò))等。歸分析回歸分析反映了數(shù)據(jù)庫(kù)中數(shù)據(jù)的屬性值的特性,通過(guò)函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來(lái)發(fā)現(xiàn)屬 中,回歸分析可以被應(yīng)用到各個(gè)方面.如通過(guò)對(duì)本季度銷售的回歸分析

4、,對(duì)下一季度的銷售 趨勢(shì)作出預(yù)測(cè)并做出針對(duì)性的營(yíng)銷改變。回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到 一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的 趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。 研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí),叫做多元回歸分析。c線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量 關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。線性回歸有很多實(shí)際用途。分為以下兩大類:1. 如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的和

5、 X 的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的 X 值,在沒(méi)有給定與它相配對(duì) y量X1,.,Xp,這些變量有可能與 y 相關(guān),線性回歸分析 Logistic回歸模型是一種概率模型,適合于病例對(duì)照研究、隨訪研究和橫斷面研究, 且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類.可用影響結(jié)果變量發(fā)生的因素為自變量與 因變量,建立回歸方程。ogistic一是尋找危險(xiǎn)因素正如上面所說(shuō)的尋找某一疾病的危險(xiǎn)因素等。二是預(yù)測(cè)如果已經(jīng)建立了 logistic 回歸模型,則可以根據(jù)模型,預(yù)測(cè)在不同的自變量情況下,發(fā) 生某病或某種情況的概率有多大。三是判別根據(jù) logistic 模型,判斷某人屬于某

6、病或?qū)儆谀撤N情況的概率有多大,也就是看一下這 個(gè)人有多大的可能性是屬于某病。 幾個(gè)類別.屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類 性很低。聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。 聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程 ,所以同一個(gè)簇中的對(duì)象 有很大的相 析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析, 所得到的聚類數(shù)未必一致。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等. 要求事先確定分類。它不僅要求確定分類的類數(shù),而且你還需要事先確定點(diǎn),也就是聚 類種子,然

7、后,根據(jù)其他點(diǎn)離這些種子的遠(yuǎn)近把所有點(diǎn)進(jìn)行分類.再然后就是將這幾類的中 心(均值)作為新的基石,再分類。如此迭代.系統(tǒng)聚類是將樣品分成若干類的方法,其基本思想是:先將每個(gè)樣品各看成一類,然后 規(guī)定類與類之間的距離,選擇距離最小的一對(duì)合并成新的一類,計(jì)算新類與其他類之間的距 離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品合為一類為止。則關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出 找出所有的高頻項(xiàng)目組;第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則挖掘技術(shù)已 經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶的需求,各銀行在自己的 ATM 機(jī)上通過(guò)捆綁 客戶

8、可能感興趣的信息供用戶了解并獲取相應(yīng)信息來(lái)改善自身的營(yíng)銷。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的 出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。 戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供 參考依據(jù).在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售.但是這個(gè)奇怪的舉措 真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn) 確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng) 發(fā)現(xiàn)是:”跟尿布一起購(gòu)買最多的商品竟是啤酒!經(jīng)過(guò)大量實(shí)

9、際調(diào)查和分析,揭示了一個(gè)隱 藏在尿布與啤酒”背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要 手帶回了他們喜歡的啤酒.因子分析的基本目的就是用少數(shù)幾個(gè)因子去描述許多指標(biāo)或因素之間的聯(lián)系,即將相關(guān) 是哪些,以及它們的影響力運(yùn)用這種研究技術(shù),我們還可以為市場(chǎng)細(xì)分做前期分析。設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中 可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析 或稱主分量分析,也是數(shù)學(xué)上用來(lái)降維的一種方法。主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如 P 個(gè)指標(biāo)),重新組合成一組新的 互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的

10、指標(biāo)。最經(jīng)典的做法就是用 F1 (選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá), 即 Var(F1)越大,表示 F1 包含的信息越多。因此在所有的線性組合中選取的F1 應(yīng)該是方差 最大的,故稱 F1 為第一主成分。如果第一主成分不足以代表原來(lái)P 個(gè)指標(biāo)的信息,再考慮 F2 中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov (F1,F2)=0,則稱 F2 為第二主成分,依此類推可以構(gòu) 它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問(wèn)題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類 是以用于分類預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第 為代表。第三類是用于聚類的自組織映射方法,以 ART 模型為代

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論