數(shù)據(jù)挖掘參考資料_第1頁(yè)
數(shù)據(jù)挖掘參考資料_第2頁(yè)
數(shù)據(jù)挖掘參考資料_第3頁(yè)
數(shù)據(jù)挖掘參考資料_第4頁(yè)
數(shù)據(jù)挖掘參考資料_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中“挖掘”有趣知識(shí)的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD,也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過程以下步驟組成:(1數(shù)據(jù)清理,(2數(shù)據(jù)集成,(3數(shù)據(jù)選擇,(4數(shù)據(jù)變換,(5數(shù)據(jù)挖掘,(6模式評(píng)估,(7知識(shí)表示。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,

2、使用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索(informa tion retrieval領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。數(shù)據(jù)挖掘的起源需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探

3、索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1 來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2 人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。數(shù)據(jù)挖掘能做什么1數(shù)據(jù)挖掘能做以下六種不同事情(分析方法:·分類(Classification·

4、;估值(Estimation·預(yù)言(Prediction·相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules·聚集(Clustering·描述和可視化(Description and Visualization·復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等2數(shù)據(jù)挖掘分類以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘·直接數(shù)據(jù)挖掘目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫(kù)中表的屬性,即列進(jìn)行描述。

5、3;間接數(shù)據(jù)挖掘目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。·分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘3各種分析方法的簡(jiǎn)介·分類(Classification首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對(duì)于沒有分類的數(shù)據(jù)進(jìn)行分類。例子:a. 信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)b. 分配客戶到預(yù)先定義的客戶分片注意:類的個(gè)數(shù)是確定的,預(yù)先定義好的·估值(Estimation估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)

6、目的,估值的量是不確定的。例子:a. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)b. 根據(jù)購(gòu)買模式,估計(jì)一個(gè)家庭的收入c. 估計(jì)real estate的價(jià)值一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分(Score 01。然后,根據(jù)閾值,將貸款級(jí)別分類。·預(yù)言(Prediction通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個(gè)單獨(dú)的類。預(yù)言其目的是對(duì)未來未知變量的預(yù)測(cè),

7、這種預(yù)測(cè)是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。·相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules決定哪些事情將一起發(fā)生。例子:a. 超市中客戶在購(gòu)買A的同時(shí),經(jīng)常會(huì)購(gòu)買B,即A => B(關(guān)聯(lián)規(guī)則b. 客戶在購(gòu)買A后,隔一段時(shí)間,會(huì)購(gòu)買B (序列分析·聚集(Clustering聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。例子:a. 一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞

8、文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對(duì)客戶響應(yīng)最好?",對(duì)于這一類問題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問題,可能效果更好。·描述和可視化(Des cription and Visualization是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則1.什么是關(guān)聯(lián)規(guī)則在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事:"尿布與啤酒"的故事。在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美

9、國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%40%的人同時(shí)也為自己買一些啤酒

10、。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等

11、于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。2.關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法2.1關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets,第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(As sociation Rules。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始

12、資料集合中,找出所有高頻項(xiàng)目組(Large I temsets。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support,以一個(gè)包含A與B兩個(gè)項(xiàng)目的2 -itemset為例,我們可以經(jīng)由公式(1求得包含A,B項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support門檻值時(shí),則A,B稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset,一般表示為L(zhǎng)arge k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再

13、找到更長(zhǎng)的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimu m Confidence的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組A,B所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min _support=5% 且最小信賴

14、度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則尿布,啤酒,滿足下列條件,將可接受尿布,啤酒的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒>=5%且Confidence(尿布,啤酒>=70%。其中,Support(尿布,啤酒>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤酒>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某

15、消費(fèi)者出現(xiàn)購(gòu)買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)尿布,啤酒關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購(gòu)買尿布的交易,會(huì)同時(shí)購(gòu)買啤酒”的消費(fèi)行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫(kù)中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值,數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。2.2關(guān)聯(lián)規(guī)則的分類按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和

16、數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入=2300,涉及的收入是數(shù)值類型,所以是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考

17、慮。例如:IBM 臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺(tái)式機(jī)=>Sony打印機(jī),是一個(gè)較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購(gòu)買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個(gè)字段的信息,是兩個(gè)維上的一條關(guān)聯(lián)規(guī)則。2.3關(guān)聯(lián)

18、規(guī)則挖掘的相關(guān)算法1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶

19、給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù),是Apriori算法的兩大缺點(diǎn)。2.基于劃分的算法Savasere等設(shè)計(jì)了一個(gè)基于劃分的算法。這個(gè)算法先把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊,每次單獨(dú)考慮一個(gè)分塊并對(duì)它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個(gè)分塊可以被放入主存,每個(gè)階段只需被掃描一次。而算法的正確性是由每一個(gè)可能的頻集至少在某一個(gè)分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個(gè)處理器生成頻集。產(chǎn)生頻集的每一個(gè)

20、循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個(gè)獨(dú)立的處理器生成頻集的時(shí)間也是一個(gè)瓶頸。3.FP-樹頻集算法針對(duì)Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法: FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree,同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tr ee分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表

21、明,FP-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。3.該領(lǐng)域在國(guó)內(nèi)外的應(yīng)用3.1關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國(guó)內(nèi)外的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營(yíng)銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了一棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要一個(gè)住房改善貸款,這

22、些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購(gòu)物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購(gòu)買的捆綁包。也有一些購(gòu)物網(wǎng)站使用它們?cè)O(shè)置相應(yīng)的交叉銷售,也就是購(gòu)買某種商品的顧客會(huì)看到相關(guān)的另外一種商品的廣告。但是目前在我國(guó),“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對(duì)的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各

23、種有用的信息,譬如對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。可以說,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國(guó)的研究與應(yīng)用并不是很廣泛深入。3.2近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究由于許多應(yīng)用問題往往比超市購(gòu)買問題更復(fù)雜,大量研究從不同的角度對(duì)關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個(gè)方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。數(shù)據(jù)挖掘

24、技術(shù)實(shí)現(xiàn)在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。·數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。·數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉及的數(shù)

25、據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。·數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望

26、、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,其學(xué)術(shù)研究?jī)r(jià)值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<?、?shù)據(jù)倉(cāng)庫(kù)技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫(kù)“奴隸”到數(shù)據(jù)庫(kù)“主人”轉(zhuǎn)變的企業(yè)最終用戶的通途。統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo)

27、:發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計(jì)學(xué)家認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支。這是一個(gè)不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計(jì)算機(jī)學(xué)科,例如數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的有很大不同。1.統(tǒng)計(jì)學(xué)的性質(zhì)試圖為統(tǒng)計(jì)學(xué)下一個(gè)太寬泛的定義是沒有意義的。盡管可能做到,但會(huì)引來很多異議。相反,我要關(guān)注統(tǒng)計(jì)學(xué)不同于數(shù)據(jù)挖掘的特性。差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計(jì)學(xué)是一門比較保守的學(xué)科,目前有一種趨勢(shì)是越來越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯(cuò)誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個(gè)保守的觀點(diǎn)源于

28、統(tǒng)計(jì)學(xué)是數(shù)學(xué)的分支這樣一個(gè)看法,我是不同意這個(gè)觀點(diǎn)的,盡管統(tǒng)計(jì)學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支,但它同其它學(xué)科還有緊密的聯(lián)系。數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個(gè)趨勢(shì):在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時(shí)候和統(tǒng)計(jì)學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但它卻不能被證明(或還不能被證明。統(tǒng)計(jì)雜志傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會(huì)被放棄。正是

29、統(tǒng)計(jì)文獻(xiàn)顯示了(或夸大了統(tǒng)計(jì)的數(shù)學(xué)精確性。同時(shí)還顯示了其對(duì)推理的側(cè)重。盡管統(tǒng)計(jì)學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計(jì)論文的話就會(huì)發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會(huì)提到數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常常可以得到數(shù)據(jù)總體,例如關(guān)于一個(gè)公司的所有職工數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價(jià)值了(例如,年度業(yè)務(wù)的平均值,因?yàn)橛^測(cè)到的值也就是估計(jì)參數(shù)。這就意味著,建立的

30、統(tǒng)計(jì)模型可能會(huì)利用一系列概率表述(例如,一些參數(shù)接近于0,則會(huì)從模型中剔除掉,但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評(píng)估函數(shù):針對(duì)數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時(shí)常常會(huì)利用吻合度的單純特性(例如,應(yīng)用分支定理。但當(dāng)我們應(yīng)用概率陳述時(shí)則不會(huì)得到這些特性。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘部分交迭的第三個(gè)特性是在現(xiàn)代統(tǒng)計(jì)學(xué)中起核心作用的“模型”。或許“模型”這個(gè)術(shù)語更多的含義是變化。一方面,統(tǒng)計(jì)學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信

31、用卡業(yè)務(wù)的回歸模型可能會(huì)把收入作為一個(gè)獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會(huì)導(dǎo)致大的業(yè)務(wù)。這可能是一個(gè)理論模型(盡管基于一個(gè)不牢靠的理論。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個(gè)有很大預(yù)測(cè)價(jià)值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個(gè)模型的時(shí)候,常常關(guān)注的就是后者。還有其它方法可以區(qū)分統(tǒng)計(jì)模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計(jì)學(xué)是以模型為主的。而計(jì)算,模型選擇條件是次要的,只是如何建立一個(gè)好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計(jì)學(xué)中有一些以準(zhǔn)則為中心的獨(dú)立的特例。Gifi的關(guān)于學(xué)校的非線

32、性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點(diǎn),給定一些最常用的MVA(多變量分析問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1. 1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計(jì)分析,然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個(gè)合適的模型是不可能的,最合適的計(jì)算方法也是不可行的。在這種情形下,我們從另外一個(gè)角度出發(fā),應(yīng)用設(shè)計(jì)的一系列技術(shù)來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。相對(duì)于統(tǒng)計(jì)學(xué)而言,準(zhǔn)則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學(xué)科如計(jì)算機(jī)科學(xué)及相關(guān)學(xué)科也是如此。數(shù)據(jù)集的規(guī)模常常意味著傳統(tǒng)的統(tǒng)計(jì)學(xué)準(zhǔn)則不適合數(shù)據(jù)挖掘問題,不得不

33、重新設(shè)計(jì)。部分地,當(dāng)數(shù)據(jù)點(diǎn)被逐一應(yīng)用以更新估計(jì)量,適應(yīng)性和連續(xù)性的準(zhǔn)則常常是必須的。盡管一些統(tǒng)計(jì)學(xué)的準(zhǔn)則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機(jī)器學(xué)習(xí)。(正如“學(xué)習(xí)”所示的那樣2.數(shù)據(jù)挖掘的性質(zhì)由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計(jì)學(xué)工具包含很多可以手工實(shí)現(xiàn)的方法。因此,對(duì)于很多統(tǒng)計(jì)學(xué)家來說,1000個(gè)數(shù)據(jù)就已經(jīng)是很大的了。但這個(gè)“大”對(duì)于英國(guó)大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個(gè)長(zhǎng)途呼叫來說相差太遠(yuǎn)了。很明顯,面對(duì)這么多的數(shù)據(jù),則需要設(shè)計(jì)不同于那些“原則上可以用手工實(shí)現(xiàn)”的方法。這意味這計(jì)算機(jī)(正是計(jì)算機(jī)使得大數(shù)據(jù)可能實(shí)現(xiàn)對(duì)于

34、數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計(jì)算機(jī)在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準(zhǔn)則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導(dǎo)致了一些關(guān)聯(lián)任務(wù)。這里就有一個(gè)真正的危險(xiǎn):非預(yù)期的模式可能會(huì)誤導(dǎo)分析者,這一點(diǎn)我下面會(huì)討論。我不認(rèn)為在現(xiàn)代統(tǒng)計(jì)中計(jì)算機(jī)不是一個(gè)重要的工具。它們確實(shí)是,并不是因?yàn)閿?shù)據(jù)的規(guī)模。對(duì)數(shù)據(jù)的精確分析方法如bootstrap方法、隨機(jī)測(cè)試,迭代估計(jì)方法以及比較適合的復(fù)雜的模型正是有了計(jì)算機(jī)才是可能的。計(jì)算機(jī)已經(jīng)使得傳統(tǒng)統(tǒng)計(jì)模型的視野大大的擴(kuò)展了,還促進(jìn)了新工具的飛速發(fā)展。下面來關(guān)注一下歪曲數(shù)據(jù)的非預(yù)期的模式出現(xiàn)的可能性

35、。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進(jìn),垃圾出,它的引用到處可見。一個(gè)數(shù)據(jù)分析者,無論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對(duì)于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細(xì)的小型或偏離常規(guī)的模型的時(shí)候,這個(gè)問題尤其突出。當(dāng)一個(gè)人在尋找百萬分之一的模型的時(shí)候,第二個(gè)小數(shù)位的偏離就會(huì)起作用。一個(gè)經(jīng)驗(yàn)豐富的人對(duì)于此類最常見的問題會(huì)比較警覺,但出錯(cuò)的可能性太多了。此類問題可能在兩個(gè)層次上產(chǎn)生。第一個(gè)是微觀層次,即個(gè)人記錄。例如,特殊的屬性可能丟失或輸錯(cuò)了。我知道一個(gè)案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實(shí)的數(shù)據(jù)處理。第二個(gè)是宏觀層次,整個(gè)數(shù)據(jù)集被一些選擇機(jī)制所歪曲。

36、交通事故為此提供了一個(gè)好的示例。越嚴(yán)重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實(shí)上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個(gè)歪曲的映象-可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。統(tǒng)計(jì)學(xué)很少會(huì)關(guān)注實(shí)時(shí)分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會(huì)發(fā)生,沒有人能等三個(gè)月得到一個(gè)可能的欺詐的分析。類似的問題發(fā)生在總體隨時(shí)間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請(qǐng)隨時(shí)間、競(jìng)爭(zhēng)環(huán)境、經(jīng)濟(jì)波動(dòng)而變化。3.討論數(shù)據(jù)挖掘有時(shí)候是一次性的實(shí)驗(yàn)。這是一個(gè)誤解。它更應(yīng)該被看作是一個(gè)不斷的過程(盡管數(shù)據(jù)集時(shí)確定的。從一個(gè)角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點(diǎn)檢查可能會(huì)更接近等

37、等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式-同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。與把數(shù)據(jù)挖掘作為一個(gè)過程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識(shí)到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個(gè)事實(shí)并不能否定挖掘出它們的價(jià)值。沒有這些實(shí)驗(yàn),可能根本不會(huì)想到這些。實(shí)際上,只有那些可以依據(jù)過去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會(huì)是有價(jià)值的。顯然在數(shù)據(jù)挖掘存在著一個(gè)潛在的機(jī)會(huì)。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險(xiǎn)。所有真正的數(shù)據(jù)集(即使那些是以完全自動(dòng)方式搜集的數(shù)據(jù)都有產(chǎn)生錯(cuò)誤的可能。關(guān)于人的數(shù)

38、據(jù)集(例如事務(wù)和行為數(shù)據(jù)尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因?yàn)槠x了理想的過程。(當(dāng)然,這樣的結(jié)構(gòu)可能會(huì)是有意義的:如果數(shù)據(jù)有問題,可能會(huì)干擾搜集數(shù)據(jù)的目的,最好還是了解它們。與此相關(guān)聯(lián)的是如何確保(和至少為事實(shí)提供支持任何所觀察到的模式是“真實(shí)的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個(gè)特殊的數(shù)據(jù)集,由于一個(gè)隨機(jī)的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘工作者的研究。數(shù)據(jù)挖掘相關(guān)的10個(gè)問題NO.1 Data Mining 和統(tǒng)計(jì)分析有什么不同?硬要去區(qū)分Data Mining和Statistic

39、s的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,Data Mining有下列幾項(xiàng)特性:1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具;2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,Data Mining的工具更符合企業(yè)需求;3. 純就理論的基礎(chǔ)點(diǎn)

40、來看,Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。NO.2 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的關(guān)系為何?若將Data Warehousing(數(shù)據(jù)倉(cāng)庫(kù)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說,就是搜集來自其它系統(tǒng)的有用

41、數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以儲(chǔ)存決策支持系統(tǒng)(Design Suppor t System所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。許多人對(duì)于Data Warehousing和Data Mining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-L

42、ine Transactional Processing所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)昂哭中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data、詳細(xì)和匯總性的數(shù)據(jù)(detail ed and summarized data、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的,兩者的本質(zhì)與過程是兩回事。換句話說,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建

43、立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中、完備,且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過程與技術(shù)。NO.3 OLAP 能不能代替Data Mining?所謂OLAP(Online Analytical Process意指由數(shù)據(jù)庫(kù)所連結(jié)出來的在線分析處理程序。有些人會(huì)說:我已經(jīng)有OLAP的工具了,所以我不需要Data Mini ng。事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OL AP則用于查證假設(shè)。簡(jiǎn)單來說,OLAP是由使用者所主導(dǎo),使用者先

44、有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration,但Data Mining是用工具在幫助做探索。舉個(gè)例子來看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如

45、尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無法被OLAP取代的。NO.4 完整的Data Mining 包含哪些步驟?以下提供一個(gè)Data Mining的進(jìn)行步驟以為參考:1. 理解業(yè)務(wù)與理解數(shù)據(jù);2. 獲取相關(guān)技術(shù)與知識(shí);3. 整合與查詢數(shù)據(jù);4. 去除錯(cuò)誤或不一致及不完

46、整的數(shù)據(jù);5. 由數(shù)據(jù)選取樣本先行試驗(yàn);6. 建立數(shù)據(jù)模型7. 實(shí)際Data Mining的分析工作;8. 測(cè)試與檢驗(yàn);9. 找出假設(shè)并提出解釋;10. 持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出,Data Mining牽涉了大量的準(zhǔn)備工作與規(guī)劃過程,事實(shí)上許多專家皆認(rèn)為整套Data Mining的進(jìn)行有80的時(shí)間精力是花費(fèi)在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過程中的一個(gè)步驟而已,在進(jìn)行此步驟前還有許多的工作要先完成。NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)?Data Mining是近年來數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的

47、議題,看似神奇、聽來時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割,連結(jié)分析(Link Analysis、偏差偵測(cè)(Deviation Detection等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問世,例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其Data Minin

48、g 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡(jiǎn)變量的因素分析(Factor Analysi s、用來分類的判別分析(Discriminant Analysis,以及用來區(qū)隔群體的分群分析(Cluster Analysis等,在Data Mining過程中特別常用。在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees、類神經(jīng)網(wǎng)絡(luò)(Neural Network以及規(guī)則歸納法(Rules Induction等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上

49、,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees及CHAID(Chi-Square Automatic Interaction Detector兩種。類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段

50、的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的如果/則(If / Then之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。NO.6 Data Mining包含哪些主要功能?Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來說明:Classification和C lustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測(cè)類;Associatio n和Seque

51、nce則屬于序列規(guī)則類。Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作分類。(計(jì)算的結(jié)果最后會(huì)被分類為幾個(gè)少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為"可能會(huì)響應(yīng)" 或是"可能不會(huì)響應(yīng)" 兩類。Classification常被用來處理如前所述之郵寄對(duì)象篩選的問題。我們會(huì)用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個(gè)完整數(shù)據(jù)庫(kù)做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測(cè)試;譬如利用一個(gè)大型郵寄對(duì)象數(shù)據(jù)庫(kù)的部份取樣來建立一個(gè)Cl

52、assification Mo del,再利用這個(gè)Model來對(duì)數(shù)據(jù)庫(kù)的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測(cè)。Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會(huì)以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識(shí)來解讀這些分群的意義。Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)連續(xù)數(shù)值的可能值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測(cè)類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測(cè)的模式已不在止于傳統(tǒng)線性的局限,在

53、預(yù)測(cè)的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。Time-Series Forecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性。Association是要找出在某一事件或是數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個(gè)顧客同時(shí)也會(huì)買牛奶的機(jī)率是

54、85%。 Sequence Discovery與Association關(guān)系很密切,所不同的是Sequence Disc overy中事件的相關(guān)是以時(shí)間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是68%。NO.7 Data Mining在各領(lǐng)域的應(yīng)用情形為何?Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù),皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)

55、錄找出顧客偏好的產(chǎn)品組合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫(kù)行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對(duì)品牌價(jià)值等級(jí)的高低來區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對(duì)Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對(duì)于詐欺行為的偵測(cè)(Fr aud Detection都很有興趣,這些行業(yè)每年因?yàn)樵p欺行

56、為而造成的損失都非??捎^, Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測(cè)可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用Data Mining來分析市場(chǎng)動(dòng)向,并預(yù)測(cè)個(gè)別公司的營(yíng)運(yùn)以及股價(jià)走向。Data Mining的另一個(gè)獨(dú)特的用法是在醫(yī)療業(yè),用來預(yù)測(cè)手術(shù)、用藥、診斷、或是流程控制的效率。NO.8 Web Mining 和數(shù)據(jù)挖掘有什么不同?如果將Web視為CRM的一個(gè)新的Channel,則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。該如何測(cè)量一個(gè)網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪客是哪些人?什么原因吸引他們前來?如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素?以上種種皆屬Web Mining 分析之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論