數(shù)據(jù)挖掘經(jīng)典方法

上傳人：程*** IP屬地：四川上傳時(shí)間：2022-09-18 格式：DOCX 頁(yè)數(shù)：11 大小：24.71KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩6頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在大數(shù)據(jù)時(shí)代，數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲也是一種決策支持過(guò)程。其主要基于人工智能,機(jī)器學(xué)習(xí)，模式學(xué)習(xí)，統(tǒng)計(jì)學(xué)等。通過(guò)對(duì)大用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng)，并做出正確的決策。目前，在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等，數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、神經(jīng)網(wǎng)絡(luò)方法、 Web 數(shù)據(jù)挖掘等。這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘.分類是找出數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類，情況向用戶推薦關(guān)聯(lián)類的商品，從而增加商鋪的銷售量。將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中，從而大大增加了商業(yè)

2、機(jī)會(huì)。決策樹(shù)是用于分類和預(yù)測(cè)的主要技術(shù)之一，決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較，并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論.貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法，如樸素貝葉斯2.1 線性回歸(Naive Bayes)算法。這些算法主要利用Bayes 定理來(lái)預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。由于貝葉斯定理的成其分類準(zhǔn)確性就會(huì)下降。為此就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法，如 TAN 算法，它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性

3、對(duì)之間的關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱“神經(jīng)元”，或“單元” ) 之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò)，即“神經(jīng)網(wǎng)絡(luò)”, 以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行類的功能,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)就可用于對(duì)象的識(shí)別. 網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann 機(jī))、競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming 網(wǎng)絡(luò), 自組織映射網(wǎng)絡(luò))等。歸分析回歸分析反映了數(shù)據(jù)庫(kù)中數(shù)據(jù)的屬性值的特性，通過(guò)函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來(lái)發(fā)現(xiàn)屬中，回歸分析可以被應(yīng)用到各個(gè)方面.如通過(guò)對(duì)本季度銷售的回歸分析

4、，對(duì)下一季度的銷售趨勢(shì)作出預(yù)測(cè)并做出針對(duì)性的營(yíng)銷改變。回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征，產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù)，發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí)，叫做多元回歸分析。c線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析，來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法，運(yùn)用十分廣泛。線性回歸有很多實(shí)際用途。分為以下兩大類:1. 如果目標(biāo)是預(yù)測(cè)或者映射,線性回歸可以用來(lái)對(duì)觀測(cè)數(shù)據(jù)集的和

5、 X 的值擬合出一個(gè)預(yù)測(cè)模型。當(dāng)完成這樣一個(gè)模型以后,對(duì)于一個(gè)新增的 X 值,在沒(méi)有給定與它相配對(duì) y量X1，.，Xp，這些變量有可能與 y 相關(guān),線性回歸分析 Logistic回歸模型是一種概率模型，適合于病例對(duì)照研究、隨訪研究和橫斷面研究，且結(jié)果發(fā)生的變量取值必須是二分的或多項(xiàng)分類.可用影響結(jié)果變量發(fā)生的因素為自變量與因變量，建立回歸方程。ogistic一是尋找危險(xiǎn)因素正如上面所說(shuō)的尋找某一疾病的危險(xiǎn)因素等。二是預(yù)測(cè)如果已經(jīng)建立了 logistic 回歸模型，則可以根據(jù)模型，預(yù)測(cè)在不同的自變量情況下，發(fā) 生某病或某種情況的概率有多大。三是判別根據(jù) logistic 模型，判斷某人屬于某

6、病或?qū)儆谀撤N情況的概率有多大，也就是看一下這個(gè)人有多大的可能性是屬于某病。幾個(gè)類別.屬于同一類別的數(shù)據(jù)間的相似性很大，但不同類別之間數(shù)據(jù)的相似性很小，跨類性很低。聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程 ,所以同一個(gè)簇中的對(duì)象有很大的相析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析，所得到的聚類數(shù)未必一致。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等. 要求事先確定分類。它不僅要求確定分類的類數(shù)，而且你還需要事先確定點(diǎn),也就是聚類種子，然

7、后，根據(jù)其他點(diǎn)離這些種子的遠(yuǎn)近把所有點(diǎn)進(jìn)行分類.再然后就是將這幾類的中心(均值)作為新的基石，再分類。如此迭代.系統(tǒng)聚類是將樣品分成若干類的方法，其基本思想是:先將每個(gè)樣品各看成一類，然后規(guī)定類與類之間的距離,選擇距離最小的一對(duì)合并成新的一類，計(jì)算新類與其他類之間的距離,再將距離最近的兩類合并，這樣每次減少一類,直至所有的樣品合為一類為止。則關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出找出所有的高頻項(xiàng)目組；第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶的需求，各銀行在自己的 ATM 機(jī)上通過(guò)捆綁客戶

8、可能感興趣的信息供用戶了解并獲取相應(yīng)信息來(lái)改善自身的營(yíng)銷。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則，即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn)，即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。戶群，客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷，營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù).在一家超市里，有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售.但是這個(gè)奇怪的舉措真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，為了能夠準(zhǔn) 確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng) 發(fā)現(xiàn)是:”跟尿布一起購(gòu)買最多的商品竟是啤酒！經(jīng)過(guò)大量實(shí)

9、際調(diào)查和分析，揭示了一個(gè)隱藏在尿布與啤酒”背后的美國(guó)人的一種行為模式：在美國(guó)，一些年輕的父親下班后經(jīng)常要手帶回了他們喜歡的啤酒.因子分析的基本目的就是用少數(shù)幾個(gè)因子去描述許多指標(biāo)或因素之間的聯(lián)系，即將相關(guān) 是哪些，以及它們的影響力運(yùn)用這種研究技術(shù),我們還可以為市場(chǎng)細(xì)分做前期分析。設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量，同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析，也是數(shù)學(xué)上用來(lái)降維的一種方法。主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如 P 個(gè)指標(biāo))，重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的

10、指標(biāo)。最經(jīng)典的做法就是用 F1 (選取的第一個(gè)線性組合，即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá)，即 Var(F1)越大,表示 F1 包含的信息越多。因此在所有的線性組合中選取的F1 應(yīng)該是方差最大的，故稱 F1 為第一主成分。如果第一主成分不足以代表原來(lái)P 個(gè)指標(biāo)的信息，再考慮 F2 中，用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov (F1,F2)=0，則稱 F2 為第二主成分，依此類推可以構(gòu) 它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問(wèn)題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是以用于分類預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第為代表。第三類是用于聚類的自組織映射方法，以 ART 模型為代

人人文庫(kù)> 全部分類> 教育資料 > 英語(yǔ)等級(jí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘經(jīng)典方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘經(jīng)典方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔