數(shù)據(jù)挖掘經(jīng)典方法_第1頁
數(shù)據(jù)挖掘經(jīng)典方法_第2頁
數(shù)據(jù)挖掘經(jīng)典方法_第3頁
數(shù)據(jù)挖掘經(jīng)典方法_第4頁
數(shù)據(jù)挖掘經(jīng)典方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、在大數(shù)據(jù)時代, 數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲 也是一種決策支持過程。其主要基于人工智能,機器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計學(xué)等。通過對大 用戶調(diào)整市場政策、減少風(fēng)險、理性面對市場,并做出正確的決策。目前,在很多領(lǐng)域尤其 是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問題,包括市場營銷策略制定、 神經(jīng)網(wǎng)絡(luò)方法、 Web 數(shù)據(jù)挖掘等。這些方法從不同的角度對數(shù)據(jù)進行挖掘.分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類, 情況向用戶推薦關(guān)聯(lián)類的商品,從而增加商鋪的銷售量。 將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)

2、機會。決策樹是用于分類和預(yù)測的主要技術(shù)之一,決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算 下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點向下 的分支,在決策樹的葉節(jié)點得到結(jié)論.貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進行分類的算法,如樸素貝葉斯2.1 線性回歸(Naive Bayes)算法。這些算法主要利用Bayes 定理來預(yù)測一個未知類別的樣本屬于各個類 別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由于貝葉斯定理的成 其分類準(zhǔn)確性就會下降。為此就出現(xiàn)了許多降低獨立性假設(shè)的貝葉斯分類算法,如 TAN 算 法,它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性

3、對之間的關(guān)聯(lián)來實現(xiàn)的。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的 結(jié)構(gòu)進行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(或稱“神經(jīng)元”,或“單元” ) 之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”, 以達到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進行 類的功能,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就可用于對象的識別. 網(wǎng)絡(luò)、隨機神經(jīng)網(wǎng)絡(luò)(Boltzmann 機)、競爭神經(jīng)網(wǎng)絡(luò)(Hamming 網(wǎng)絡(luò), 自組織映射網(wǎng)絡(luò))等。歸分析回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬 中,回歸分析可以被應(yīng)用到各個方面.如通過對本季度銷售的回歸分析

4、,對下一季度的銷售 趨勢作出預(yù)測并做出針對性的營銷改變。回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到 一個實值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的 趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。 研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。c線性回歸是利用數(shù)理統(tǒng)計中的回歸分析,來確定兩種或兩種以上變量間相互依賴的定量 關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛。線性回歸有很多實際用途。分為以下兩大類:1. 如果目標(biāo)是預(yù)測或者映射,線性回歸可以用來對觀測數(shù)據(jù)集的和

5、 X 的值擬合出一個預(yù)測模型。當(dāng)完成這樣一個模型以后,對于一個新增的 X 值,在沒有給定與它相配對 y量X1,.,Xp,這些變量有可能與 y 相關(guān),線性回歸分析 Logistic回歸模型是一種概率模型,適合于病例對照研究、隨訪研究和橫斷面研究, 且結(jié)果發(fā)生的變量取值必須是二分的或多項分類.可用影響結(jié)果變量發(fā)生的因素為自變量與 因變量,建立回歸方程。ogistic一是尋找危險因素正如上面所說的尋找某一疾病的危險因素等。二是預(yù)測如果已經(jīng)建立了 logistic 回歸模型,則可以根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā) 生某病或某種情況的概率有多大。三是判別根據(jù) logistic 模型,判斷某人屬于某

6、病或?qū)儆谀撤N情況的概率有多大,也就是看一下這 個人有多大的可能性是屬于某病。 幾個類別.屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類 性很低。聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。 聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程 ,所以同一個簇中的對象 有很大的相 析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析, 所得到的聚類數(shù)未必一致。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細分等. 要求事先確定分類。它不僅要求確定分類的類數(shù),而且你還需要事先確定點,也就是聚 類種子,然

7、后,根據(jù)其他點離這些種子的遠近把所有點進行分類.再然后就是將這幾類的中 心(均值)作為新的基石,再分類。如此迭代.系統(tǒng)聚類是將樣品分成若干類的方法,其基本思想是:先將每個樣品各看成一類,然后 規(guī)定類與類之間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類之間的距 離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品合為一類為止。則關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導(dǎo)出 找出所有的高頻項目組;第二極端為從這些高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則挖掘技術(shù)已 經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測客戶的需求,各銀行在自己的 ATM 機上通過捆綁 客戶

8、可能感興趣的信息供用戶了解并獲取相應(yīng)信息來改善自身的營銷。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的 出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。 戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供 參考依據(jù).在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售.但是這個奇怪的舉措 真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn) 確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng) 發(fā)現(xiàn)是:”跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實

9、際調(diào)查和分析,揭示了一個隱 藏在尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要 手帶回了他們喜歡的啤酒.因子分析的基本目的就是用少數(shù)幾個因子去描述許多指標(biāo)或因素之間的聯(lián)系,即將相關(guān) 是哪些,以及它們的影響力運用這種研究技術(shù),我們還可以為市場細分做前期分析。設(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個綜合變量,同時根據(jù)實際需要從中 可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析 或稱主分量分析,也是數(shù)學(xué)上用來降維的一種方法。主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如 P 個指標(biāo)),重新組合成一組新的 互相無關(guān)的綜合指標(biāo)來代替原來的

10、指標(biāo)。最經(jīng)典的做法就是用 F1 (選取的第一個線性組合,即第一個綜合指標(biāo))的方差來表達, 即 Var(F1)越大,表示 F1 包含的信息越多。因此在所有的線性組合中選取的F1 應(yīng)該是方差 最大的,故稱 F1 為第一主成分。如果第一主成分不足以代表原來P 個指標(biāo)的信息,再考慮 F2 中,用數(shù)學(xué)語言表達就是要求Cov (F1,F2)=0,則稱 F2 為第二主成分,依此類推可以構(gòu) 它的這一特點十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類 是以用于分類預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機;第 為代表。第三類是用于聚類的自組織映射方法,以 ART 模型為代

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論