版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章數(shù)據(jù)挖掘及其算法綜述1.1本文研究的目的及意義隨著數(shù)據(jù)庫和計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,加上先進(jìn)的數(shù)據(jù)自動(dòng)生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進(jìn)并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對(duì)數(shù)據(jù)進(jìn)行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識(shí)的信息技術(shù)是一個(gè)"以發(fā)現(xiàn)為驅(qū)動(dòng)"的過程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內(nèi)都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個(gè)領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之?dāng)?shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進(jìn)信息的傳播。近十幾年來數(shù)據(jù)挖掘軟件行業(yè)的發(fā)展飛速。各種應(yīng)用軟件層出不窮,如何選擇合適的挖掘工具,成為一個(gè)很重要的問題。在軟件的選擇上,不同的用途會(huì)有不同的要求,而本文是針對(duì)教學(xué)軟件的選擇來做一些研究。目前在這一方面的文獻(xiàn)幾乎空白。而數(shù)據(jù)挖掘這一專業(yè)的重要性日益突顯,本文通過實(shí)例研究與評(píng)估,為教學(xué)軟件的選擇提供一個(gè)參考。1.2數(shù)據(jù)挖掘算法簡述1.2.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)中提取模式的過程,是一個(gè)受多個(gè)學(xué)科影響的交叉領(lǐng)域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報(bào)表工具)無法回答事先未定義的綜合性問題或跨部門/機(jī)構(gòu)的問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門/機(jī)構(gòu)的問題,挖掘潛在的模式并預(yù)測未來的趨勢,用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實(shí)。1.2.2基本數(shù)據(jù)挖掘技術(shù)?決策樹決策樹可能是現(xiàn)在最流行的有指導(dǎo)數(shù)據(jù)挖掘結(jié)構(gòu)。創(chuàng)建一棵決策樹最常見的方法是從訓(xùn)練數(shù)據(jù)中選擇實(shí)例的一個(gè)子集來構(gòu)建一棵初始樹。剩余實(shí)例被用于檢驗(yàn)樹的準(zhǔn)確度。如果任意一個(gè)實(shí)例的分類錯(cuò)誤,將該實(shí)例添加到當(dāng)前的訓(xùn)練集中,重復(fù)該過程。它的一個(gè)主要目標(biāo)是最小化樹的層次和結(jié)點(diǎn)數(shù),從而最大化數(shù)據(jù)概化。決策樹已經(jīng)成功地應(yīng)用到現(xiàn)實(shí)問題中,它易于理解并能夠準(zhǔn)確地映射為一組產(chǎn)生式規(guī)則。?生成關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則能從大型數(shù)據(jù)庫中找到關(guān)聯(lián)關(guān)系,關(guān)聯(lián)規(guī)則和傳統(tǒng)的產(chǎn)生式規(guī)則不同,某規(guī)則中的前擔(dān)條件可能出現(xiàn)在另一條規(guī)則的結(jié)果里。同時(shí),關(guān)聯(lián)規(guī)則生成器允許規(guī)則的結(jié)果包含一個(gè)或多個(gè)屬性值。由于關(guān)關(guān)規(guī)則更復(fù)雜,已經(jīng)開發(fā)出專門的技術(shù),從而更有效地生成關(guān)聯(lián)規(guī)則。規(guī)則置信度和支持度有助于確定哪些已發(fā)現(xiàn)的關(guān)聯(lián)從市場前景看是有利的。然而,在解釋關(guān)聯(lián)規(guī)則時(shí)必須小心,因?yàn)樵S多已發(fā)現(xiàn)的關(guān)系價(jià)值并不高。?K-平均值算法K-平均值算法是一種統(tǒng)計(jì)的無指導(dǎo)聚類技術(shù)。算法中的所有屬性都必須是數(shù)值型的,并且用戶必須確定要發(fā)現(xiàn)的簇的數(shù)目。開始的時(shí)候,算法為每個(gè)簇任意選擇一個(gè)數(shù)據(jù)點(diǎn)。然后,每個(gè)數(shù)據(jù)實(shí)例被放置在與它最相似的簇里。通過計(jì)算產(chǎn)生新的簇中心,重復(fù)該過程直到簇中心不再改變?yōu)橹埂-平均值算法易于實(shí)現(xiàn)和理解。然而,該算法無法保證收斂到一個(gè)完全理想的解決方案,缺乏解釋所發(fā)現(xiàn)內(nèi)容的能力,也不能指出哪些屬性對(duì)確定所形成的簇時(shí)是重要的。盡管有這些不足之處,K-平均值算法還是使用最廣泛的聚類技術(shù)之一?!稊?shù)據(jù)挖掘教程》RichardJ.RoigerMichaelW.Geatz著翁敬農(nóng)譯1.3基本數(shù)據(jù)挖掘算法的詳細(xì)介紹1.3.1數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則什么是關(guān)聯(lián)規(guī)則在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個(gè)有趣的故事:"尿布與啤酒"的故事。在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法1)關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(LargeItemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequentk-itemset),一般表示為Largek或Frequentk。算法并從Largek的項(xiàng)目組中再產(chǎn)生Largek+1,直到無法再找到更長的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。A=>B規(guī)則的支持度S和置信度C,用集合的關(guān)系表示:(1)
S(2)
CAU—表示總體(參加關(guān)聯(lián)規(guī)則的所有案例)就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會(huì)同時(shí)購買啤酒”的消費(fèi)行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個(gè)區(qū)間的值對(duì)應(yīng)于某個(gè)值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。2)關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法Apriori算法使用候選項(xiàng)集找頻繁項(xiàng)集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn)。1.3.2數(shù)據(jù)挖掘中的分類算法分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。分類的目的是,學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。分類可描述如下:輸人數(shù)據(jù),或稱訓(xùn)練集(TrainingSet),是一條條的數(shù)據(jù)庫記錄(Record)組成的。每一條記錄包含若干條屬性(Attribute),組成一個(gè)特征向量。訓(xùn)練集的每條記錄還有一個(gè)特定的類標(biāo)簽(ClassLabel)與之對(duì)應(yīng)。該類標(biāo)簽是系統(tǒng)的輸人,通常是以往的一些經(jīng)驗(yàn)數(shù)據(jù)。一個(gè)具體樣本的形式可為樣本向量:(V1,V2,…,Vn,c)在這里Vi表示字段值,c表示類別。分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如可以通過客戶分類構(gòu)造一個(gè)分類模型來對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估;當(dāng)前的市場營銷中很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)客戶細(xì)分。客戶類別分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別,比如呼叫中心設(shè)計(jì)時(shí)可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征;其他分類應(yīng)用如文獻(xiàn)檢索和搜索引擎中的自動(dòng)文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測等等。機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的研究人員已經(jīng)提出了許多具體的分類預(yù)測方法。下面對(duì)分類流程作個(gè)簡要描述:訓(xùn)練:訓(xùn)練集——>特征選取——>訓(xùn)練——>分類器分類:新樣本——>特征選取——>分類——>判決最初的數(shù)據(jù)挖掘分類應(yīng)用大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方法都要求具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力且具有可擴(kuò)展能力。下面對(duì)兩種主要的分類方法做個(gè)簡要介紹:(1)決策樹決策樹歸納是經(jīng)典的分類算法。它采用自頂向下遞歸的各個(gè)擊破方式構(gòu)造決策樹。樹的每一個(gè)結(jié)點(diǎn)上使用信息增益度量選擇測試屬性??梢詮纳傻臎Q策樹中提取規(guī)則。(2)KNN法(K-NearestNeighbor)KNN法即K最近鄰法,最初由Cover和Hart于1968年提出的,是一個(gè)理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。KNN方法雖然從原理上也依賴于極限定理,但在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。因此,采用這種方法可以較好地避免樣本的不平衡問題。另外,由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。該方法的不足之處是計(jì)算量較大,因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)。目前常用的解決方法是事先對(duì)已知樣本點(diǎn)進(jìn)行剪輯,事先去除對(duì)分類作用不大的樣本。另外還有一種ReverseKNN法,能降低KNN算法的計(jì)算復(fù)雜度,提高分類的效率。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。百度百科神威《數(shù)據(jù)挖掘中分類算法小結(jié)》來源:神威異度空間/shenwei/Html/?841_1.html羅海蛟劉顯《數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用》微機(jī)發(fā)展,第十三卷1.3.3數(shù)據(jù)挖掘中的聚類分析聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個(gè)度量(Measurement)的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類分析以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。聚類的用途是很廣泛的。在商業(yè)上,聚類可以幫助市場分析人員從消費(fèi)者數(shù)據(jù)庫中區(qū)分出不同的消費(fèi)群體來,并且概括出每一類消費(fèi)者的消費(fèi)模式或者說習(xí)慣。它作為數(shù)據(jù)挖掘中的一個(gè)模塊,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點(diǎn),或者把注意力放在某一個(gè)特定的類上以作進(jìn)一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。聚類分析的算法可以分為分裂法(PartitioningMethods)、層次法(HierarchicalMethods)、基于密度的方法(density-basedmethods)、基于網(wǎng)格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMethods)。在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越高,以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。K-MEANS算法k-means算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來進(jìn)行計(jì)算的。k-means算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù).k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。百度百科第二章數(shù)據(jù)挖掘工具及其評(píng)價(jià)指標(biāo)體系2.1數(shù)據(jù)挖掘軟件的選擇面對(duì)信息爆炸的時(shí)代,如何從眾多的信息中發(fā)掘出其中有用和有意義的信息,成了人們?nèi)找骊P(guān)心的問題,能夠從大量的數(shù)據(jù)中提取知識(shí)和信息的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程,近年來逐漸成為被人們廣泛應(yīng)用的一種方法。為了適應(yīng)數(shù)據(jù)挖掘的發(fā)展和應(yīng)用,涌現(xiàn)出了大量不同的數(shù)據(jù)挖掘軟件,據(jù)著名數(shù)據(jù)挖掘網(wǎng)站KDnuggets統(tǒng)計(jì),截至到2005年約有50多種數(shù)據(jù)挖掘軟件問世。近幾年數(shù)據(jù)挖掘軟件的發(fā)展更是飛速。如何從這眾多的軟件中挑選出最適宜于使用者的一種,這受到多種因素的影響,比如使用者的分析能力、分析目的、數(shù)據(jù)的類型、數(shù)據(jù)挖掘軟件所能提供的分析方法及其易使用性等。通過對(duì)數(shù)據(jù)挖掘軟件的總體了解,本文選擇三個(gè)有代表性的軟件來做為研究和評(píng)估的對(duì)象。首先是SASEnterpriceMiner。SASEnterpriceMiner是屬于這個(gè)領(lǐng)域中最專業(yè),使用最廣泛的權(quán)威性數(shù)據(jù)挖掘工具之一。與之在同一個(gè)水平與層次的常用軟件還有SPSSClementine,IBMIntelligentMiner等。但由于我們學(xué)院正好只購買了SAS軟件,所以本文從經(jīng)濟(jì)方便的角度考慮,選了SAS。其次是開源的軟件Weka.Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化,與SAS軟件相對(duì)應(yīng)。Weka系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。最后一個(gè)軟件是基于Excel的數(shù)據(jù)挖掘工具iData分析器(iDA),這個(gè)軟件包是附在教材里的,也算是一款免費(fèi)的商業(yè)軟件,但是有使用時(shí)間的限制,只能使用100天,并且只能用于學(xué)習(xí)。筆者還研究過XLMiner這個(gè)軟件,這個(gè)軟件也是基于Excel的一個(gè)小插件。但由于它只能處理最多600個(gè)案例的關(guān)聯(lián)分析,200個(gè)案例的分類和聚類分析,不能滿足本文數(shù)據(jù)集的要求。所以最終還是選擇了iDA.2.2數(shù)據(jù)挖掘軟件的介紹2.2.1SAS/EnterpriseMinerSAS/EnterpreiseMiner是在數(shù)據(jù)挖掘市場上令人敬畏的競爭者。它支持SAS統(tǒng)計(jì)模塊,使之具有杰出的力量和影響,它還通過大量數(shù)據(jù)挖掘算法增強(qiáng)了那些模塊。SAS使用它的SEMMA方法學(xué)以提供一個(gè)能支持包括關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)回歸在內(nèi)的廣闊范圍的模型數(shù)據(jù)挖掘工具。SASEntelpriseMiner設(shè)計(jì)為被初學(xué)者和有經(jīng)驗(yàn)的用戶使用。它的GUI界面是數(shù)據(jù)流驅(qū)動(dòng)的,且它易于理解和使用。它允許一個(gè)分析者通過構(gòu)造一個(gè)使用鏈接連接數(shù)據(jù)結(jié)點(diǎn)和處理結(jié)點(diǎn)的可視數(shù)據(jù)流圖建造一個(gè)模型。另外,此界面允許把處理結(jié)點(diǎn)直接插入到數(shù)據(jù)流中。由于支持多種模型,所以EnterpriseMiner允許用戶比較(評(píng)估)不同模型并利用評(píng)估結(jié)點(diǎn)選擇最適合的。另外,EnterpriseMiner提供了一個(gè)能產(chǎn)生被任何SAS應(yīng)用程序所訪問的評(píng)分模型的評(píng)分結(jié)點(diǎn)。SASEnterpriseMiner能運(yùn)行在客戶/服務(wù)器上或(計(jì)算機(jī)的外圍設(shè)備)能獨(dú)立運(yùn)行的配置上。此外,在客戶/服務(wù)器模式下,EnterpriseMiner允許把服務(wù)器配置成一個(gè)數(shù)據(jù)服務(wù)器、計(jì)算服務(wù)器或兩者的綜合。EntepnseMiner被設(shè)計(jì)成能在所有SAS支持的平臺(tái)上運(yùn)行。該結(jié)構(gòu)支持胖客戶機(jī)配置(要求客戶機(jī)上的完全SAS許可證)以及瘦客戶機(jī)(瀏覽器)版本。數(shù)據(jù)訪問、操縱和預(yù)處理:直接數(shù)據(jù)界面貫穿于SAS數(shù)據(jù)集。然而,數(shù)據(jù)也能通過標(biāo)準(zhǔn)SAS數(shù)據(jù)程序(例如:訪問RDBMS和PC格式數(shù)據(jù)的ACCESS被訪問。對(duì)Oracle、Informix、Sybase和DB2RDBMS的支持是通過ACCESS來實(shí)現(xiàn)。數(shù)據(jù)操縱能力包括通過基本SA3引擎可用的所有特征。此外,各種各樣的數(shù)據(jù)取樣和數(shù)據(jù)劃分技術(shù)也通過合適的EntelprjseMiner結(jié)點(diǎn)被支持。數(shù)據(jù)挖掘技術(shù)、算法和應(yīng)用程序:SASEntelpriseMiner支持關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和經(jīng)典的統(tǒng)計(jì)回歸技術(shù)?!耜P(guān)聯(lián):此算法允許關(guān)聯(lián)規(guī)則勘測(例如市場劃分分析)和順序模式勘測?!窬垲悾簾o監(jiān)督學(xué)習(xí)技術(shù)用作初始知識(shí)勘測和數(shù)據(jù)可視化。●決策樹:支持幾種決策樹技術(shù):CHAIDandEntropyReductlon(二進(jìn)制和絕對(duì)變量)和F—TESTandVarianceReduc血n(為間隔目標(biāo)變量)?!裆窠?jīng)元網(wǎng)絡(luò):支持幾種神經(jīng)元網(wǎng)絡(luò),包括多層感知器(MLP)和基于半徑的函數(shù)(RBF)。EnterpdseMiner還提供了各種各樣的轉(zhuǎn)變和報(bào)錯(cuò)函數(shù)以及訓(xùn)練方法。設(shè)計(jì)這些能力是為了提供比標(biāo)準(zhǔn)向后傳播網(wǎng)絡(luò)更好的預(yù)測和運(yùn)行時(shí)性能?!窕貧w:EnterpdseMiner支持多種在標(biāo)準(zhǔn)SAS上已被實(shí)現(xiàn)的回歸技術(shù)。EnterpdseMiner支持市場劃分分析、分類、預(yù)測模型、顧客分析、計(jì)量經(jīng)濟(jì)時(shí)序的統(tǒng)計(jì)分析范圍、運(yùn)作研究和其它許多方面。使用工具:EntepnseMiner為構(gòu)造預(yù)測模型提供了大量選項(xiàng)。指定過程是在可視化編程環(huán)境中通過拖拉和按下動(dòng)作完成的。大量的默認(rèn)集使它能對(duì)初學(xué)者合適。EnterpriseMiner為神經(jīng)元網(wǎng)絡(luò)的解釋提供了日志文件和SAS源代碼。EnterpriseMiner支持兩種評(píng)估模型的方法:通過模型管理器或通過評(píng)估結(jié)點(diǎn)。模型管理器是從特定的模型分析輸出結(jié)果的好工具。評(píng)估結(jié)點(diǎn)在評(píng)估模型的概況和健壯性方面很有用。兩者都支持提升表、利潤表、ROI和別的指示器。由于評(píng)分結(jié)點(diǎn)能把模型存儲(chǔ)在SAS結(jié)構(gòu)中以各以后代入數(shù)據(jù),所以模型能通過使用評(píng)分結(jié)點(diǎn)被直接配置。有經(jīng)驗(yàn)的用戶能利用把任意復(fù)雜的代碼并入數(shù)據(jù)流的SAS代碼結(jié)點(diǎn)。關(guān)于元數(shù)據(jù),EnterpriseMiner使用了與SAS系統(tǒng)其它部分一樣的元數(shù)據(jù)。由于它在統(tǒng)計(jì)分析軟件上的豐富經(jīng)驗(yàn),所以SAS開發(fā)出了一個(gè)全功能、易于使用、可靠和易于管理的系統(tǒng)。模型選項(xiàng)和算法所覆蓋的廣闊范圍、設(shè)計(jì)良好的用戶界面、現(xiàn)存數(shù)據(jù)商店的能力和在統(tǒng)計(jì)分析市場所占的巨大份額(允許一個(gè)公司獲得一個(gè)增加的SAS部件而不是一個(gè)新的工具)都可能使SAS在數(shù)據(jù)挖掘市場上取得領(lǐng)先位置。由于它最近剛投放市場,所以在寫此書時(shí)只能獲得少數(shù)公布的用戶基推測試。這些結(jié)果表明EnterpriseMiner在可伸縮性、預(yù)測準(zhǔn)確性和處理時(shí)間上都表現(xiàn)得很好。總的來說,此工具適合于企業(yè)在數(shù)據(jù)挖掘方面的應(yīng)用以及CBM的全部決策支持應(yīng)用。2.2.WaikatoEnvironmentforKnowledgeAnalysis(WEKA)Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine)的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machinelearning)以及數(shù)據(jù)挖掘(dataminining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是NewZealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自NewZealand的theUniversityofWaikato。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看weka的接口文檔。在weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。WEKA自1993年由位于NewZealand的theUniversityofWaikato進(jìn)行開發(fā),最初的軟件基于C語言實(shí)現(xiàn)。1997年,開發(fā)小組用JAVA語言重新編寫了該軟件,并且對(duì)相關(guān)的數(shù)據(jù)挖掘算法進(jìn)行了大量的改進(jìn)。2005年8月,在第11屆ACMSIGKDD國際會(huì)議上,theUniversityofWaikato的Weka小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),Weka系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。3.2.2/view/2257668.html百度百科2.2.3基于Excel的數(shù)據(jù)挖掘工具iData分析器(iDA)iData分析器(iDA)是InformationAcumen公司的產(chǎn)品,通過可視化環(huán)境、集成工具以及對(duì)數(shù)據(jù)挖掘的過程支持,提供了進(jìn)行商業(yè)和技術(shù)分析的支持。iDA由一個(gè)預(yù)處理器、三個(gè)數(shù)據(jù)挖掘工具和一個(gè)報(bào)表生成器組成。iDA是Excel的插件,其用戶界面是MicrosoftExcel。還缺個(gè)圖以下是對(duì)每個(gè)組件的簡單描述:預(yù)處理器(Preprocessor):在將文件的數(shù)據(jù)表示成一個(gè)iDA挖掘引擎之前,文件需要進(jìn)行多種類型的錯(cuò)誤掃描,包括非法數(shù)值、空行和缺失項(xiàng)。預(yù)處理器能糾正多種類型的錯(cuò)誤,但它不能修正數(shù)值數(shù)據(jù)的錯(cuò)誤。預(yù)處理器輸出一個(gè)為數(shù)據(jù)挖掘準(zhǔn)備的數(shù)據(jù)文件,和一個(gè)報(bào)告未解決問題的性質(zhì)和位置的文檔。啟發(fā)式代理(Heuristicagent):啟發(fā)式代理對(duì)所擔(dān)交的包含數(shù)千個(gè)實(shí)例的數(shù)據(jù)文件做出響應(yīng)。啟發(fā)式代理允許我們決定是提取數(shù)據(jù)的代表性子集進(jìn)行分析,還是處理整個(gè)數(shù)據(jù)集。ESX:該組件是基于樣本的數(shù)據(jù)挖掘工具,它創(chuàng)建一個(gè)概念層次來概化數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)(Neuralnetwork):iDA包含兩個(gè)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),用于有指導(dǎo)學(xué)習(xí)的反向傳播神經(jīng)網(wǎng)絡(luò)和用于無指導(dǎo)聚類的自組織特征映射。RuleMaker:iDA的產(chǎn)生式規(guī)則生成器,它提供了許多規(guī)則生成選項(xiàng)。報(bào)表生成器:這個(gè)報(bào)表生成器為每個(gè)數(shù)據(jù)挖掘會(huì)話提供了許多匯總信息的工作表。RichardJ.RoigerMichaelW.Geatz《數(shù)據(jù)挖掘教程》翁敬農(nóng)譯1.CSDN一篇文章:/ctu_85/archive/2008/09/16/2937486.aspx2.中國域名網(wǎng)3.HanJiaweiMichelineKamber《數(shù)據(jù)挖掘概念與技術(shù)》4./bookfiles/327/10032713183.shtml2.3軟件評(píng)價(jià)指標(biāo)體系的設(shè)計(jì)針對(duì)數(shù)據(jù)挖掘教學(xué)工具建立的指標(biāo)體系,應(yīng)同時(shí)考慮教學(xué)的特點(diǎn)和工具本身的性能。參照袁立新的《構(gòu)建教育軟件評(píng)價(jià)指標(biāo)要注重“三個(gè)結(jié)合”》。第一個(gè)結(jié)合:評(píng)價(jià)指標(biāo)的類型是教育性和技術(shù)性的結(jié)合;第二個(gè)結(jié)合:評(píng)價(jià)指標(biāo)的性質(zhì)是共性與個(gè)性的結(jié)合;第三個(gè)結(jié)合:評(píng)價(jià)指標(biāo)的描述是定量與定性的結(jié)合。這是指標(biāo)設(shè)置的總參考。姚志紅等人的《教學(xué)軟件評(píng)價(jià)指標(biāo)體系設(shè)計(jì)》中詳細(xì)地介紹了指標(biāo)體系設(shè)計(jì)的步驟。第一步,收集現(xiàn)有的評(píng)價(jià)指標(biāo)體系;第二步對(duì)收集到的指標(biāo)體系進(jìn)行處理;第三步,分類歸納處理;第四步,完備性、合理性檢查與評(píng)價(jià)指標(biāo)的修改;第五步,對(duì)收集到的修改意見進(jìn)行處理;第六步,結(jié)束整理。吳載斌,王斌會(huì)的《數(shù)據(jù)挖掘軟件的介紹及其評(píng)價(jià)》中關(guān)于軟件的評(píng)價(jià)主要考慮如下幾個(gè)方面:1)軟件開發(fā)的目的或者解決問題的領(lǐng)域2)軟件實(shí)現(xiàn)的功能和方法3)對(duì)數(shù)據(jù)的操作能力4)軟件使用的容易程度5)軟件的運(yùn)行平臺(tái)等因素6)軟件的銷售價(jià)格和服務(wù)也是必須考慮的因素李逸波,于吉紅《合理選擇數(shù)據(jù)挖掘工具》中列出幾個(gè)主要的參考指標(biāo)為:1)數(shù)據(jù)挖掘的功能和方法;2)數(shù)據(jù)挖掘工具的可伸縮性;3)操作的簡易性;4)數(shù)據(jù)挖掘工具的可視化;5)數(shù)據(jù)挖掘工具的開放性綜上可以總結(jié)出適合本文的指標(biāo)體系。首先是軟件性能方面的評(píng)價(jià)指標(biāo),由于是教學(xué)軟件,目標(biāo)和解決問題的領(lǐng)域都相同,所以不考慮這一點(diǎn)。運(yùn)行平臺(tái)均為個(gè)人電腦windows系統(tǒng),所以也不考慮這點(diǎn),但由于在做本研究的過程中,有的軟件在有些機(jī)器上無法正常使用,所以需要加上健壯性這一評(píng)價(jià)指標(biāo)。合并重復(fù)項(xiàng),最后的評(píng)價(jià)指標(biāo)體系如下:軟件實(shí)現(xiàn)的功能和方法:即是否可以完成各種數(shù)據(jù)挖掘的任務(wù),如:關(guān)聯(lián)分析、分類分析、序列分析、回歸分析、聚類分析、自動(dòng)預(yù)測等。我們知道數(shù)據(jù)挖掘的過程一般包括數(shù)據(jù)抽樣、數(shù)據(jù)描述和預(yù)處理、數(shù)據(jù)變換、模型的建立、模型評(píng)估和發(fā)布等,因此一個(gè)好的數(shù)據(jù)挖掘工具應(yīng)該能夠?yàn)槊總€(gè)步驟提供相應(yīng)的功能集。數(shù)據(jù)挖掘工具還應(yīng)該能夠方便的導(dǎo)出挖掘的模型,從而在以后的應(yīng)用中使用該模型。軟件使用的容易程度:作為教學(xué)軟件,如果不是專業(yè)的挖掘者,只要在完成教學(xué)目標(biāo)的前提下,應(yīng)該考慮軟件使用的容易程度,讓學(xué)生花最少的時(shí)間掌握軟件的操作。軟件的可視化程度:這包括源數(shù)據(jù)的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結(jié)果的可視化,可視化的程度、質(zhì)量和交互的靈活性都將嚴(yán)重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力。畢竟人們接受外界信息的80%是通過視覺獲得的,自然數(shù)據(jù)挖掘工具的可視化能力就相當(dāng)重要。軟件的開放性:即數(shù)據(jù)挖掘工具與數(shù)據(jù)庫的結(jié)合能力。好的數(shù)據(jù)挖掘工具應(yīng)該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,應(yīng)盡可能的與其他工具進(jìn)行集成;盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)庫或數(shù)據(jù)倉庫之上進(jìn)行,但數(shù)據(jù)挖掘的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)變換等等將耗費(fèi)巨大的時(shí)間和資源,因此數(shù)據(jù)挖掘工具必須要與數(shù)據(jù)庫緊密結(jié)合,減少數(shù)據(jù)轉(zhuǎn)換的時(shí)間,充分利用整個(gè)的數(shù)據(jù)和數(shù)據(jù)倉庫的處理能力,在數(shù)據(jù)倉庫內(nèi)直接進(jìn)行數(shù)據(jù)挖掘,而且開發(fā)模型,測試模型,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,另外,多個(gè)數(shù)據(jù)挖掘項(xiàng)目可以同時(shí)進(jìn)行。軟件的伸縮性:也就是說解決復(fù)雜問題的能力,一個(gè)好的數(shù)據(jù)挖掘工具應(yīng)該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,可以盡可能高的提高處理的效率,盡可能使處理的結(jié)果有效。如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,挖掘的時(shí)間呈線性增長,那么可以認(rèn)為該挖掘工具的伸縮性較好。軟件的健壯性:一個(gè)軟件可以正確地運(yùn)行在不同環(huán)境下,則說明軟件在不同平臺(tái)下是健壯的。軟件的有效性:數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確率,模型的有效性等。軟件的銷售價(jià)格。SASSASWekaiDA軟件實(shí)現(xiàn)的功能和方法軟件的開放性軟件使用的容易程度軟件的可視化程度軟件的伸縮性軟件的健壯性軟件的有效性全好一般一般少李逸波于吉紅《合理選擇數(shù)據(jù)挖掘工具》2008-03-08來源:計(jì)算機(jī)與信息技術(shù)袁立新的《構(gòu)建教育軟件評(píng)價(jià)指標(biāo)要注重“三個(gè)結(jié)合”》姚志紅等人的《教學(xué)軟件評(píng)價(jià)指標(biāo)體系設(shè)計(jì)》吳載斌,王斌會(huì)的《數(shù)據(jù)挖掘軟件的介紹及其評(píng)價(jià)》第三章數(shù)據(jù)挖掘軟件基于不同算法的研究3.1數(shù)據(jù)集的選擇聚類和分類算法均使用標(biāo)準(zhǔn)原數(shù)據(jù)集bank-data.xls,該數(shù)據(jù)集來源于WEKA自帶數(shù)據(jù)集。案例如下:該數(shù)據(jù)集共有600個(gè)客戶,11個(gè)屬性。屬性的詳細(xì)信息如下:Age:數(shù)值型屬性,描述客戶的年齡;Sex:分類型屬性,描述客戶的性別,屬性值為FEMALE(女性),MALE(男性);Region:分類型屬性,描述客戶所在的區(qū)域,屬性值為INNER_CITY(市內(nèi)),TOWN(鎮(zhèn)里),RURAL( 鄉(xiāng)村),SUBURBAN(郊區(qū));Income:數(shù)值型屬性,描述客戶的收入;Married:分類型屬性,描述客戶的婚姻狀況,屬性值為YES(已婚),NO(未婚);Children:數(shù)值型屬性,描述客戶的孩子個(gè)數(shù),屬性值為0,1,2,3;Car:分類型屬性,描述客戶是否有車,屬性值為YES(有車),NO(沒車);Save_act:分類型屬性,描述客戶是否有定期儲(chǔ)蓄,屬性值為YES(有定期儲(chǔ)蓄),NO(沒有定期儲(chǔ)蓄);Current_act:分類型屬性,描述客戶是否有活期儲(chǔ)蓄,屬性值為YES(有活期儲(chǔ)蓄),NO(沒有活期儲(chǔ)蓄);Mortgage:分類型屬性,描述客戶是否有抵押,屬性值為YES(有抵押),NO(沒有抵押);Pep:分類型屬性,描述客戶是否購買個(gè)人參股計(jì)劃(PersonalEquityPlan)關(guān)聯(lián)數(shù)據(jù)集由于只能處理分類型數(shù)據(jù),利用WEKA的數(shù)據(jù)處理功能將age和income分成三箱,再利用記事本的替換功能,將其換成整數(shù)。Age分成三個(gè)年齡段,0_34;35_51;52_max;income的三個(gè)收入段分別為0_24386;24387_43758;43759_max.將income的屬性特征numeric改成{0,1,2,3}即可。得到的數(shù)據(jù)集命名為bank-data-final.csv。處理后數(shù)據(jù)如下:SAS/EM關(guān)聯(lián)算法的數(shù)據(jù)集存儲(chǔ)格式與WEKA不同,由一個(gè)ID的識(shí)別身份屬性,和一個(gè)target屬性構(gòu)成。因?yàn)殛P(guān)聯(lián)規(guī)則最常使用的環(huán)境是超市商場的客戶購物數(shù)據(jù)庫。由于商品的種類很多,但每個(gè)客戶購買的商品有限,如果每個(gè)商品為一個(gè)屬性,就會(huì)增加很多不必要的存儲(chǔ)空間,使挖掘速度變慢。所以相對(duì)來說SAS/EM的數(shù)據(jù)集存儲(chǔ)格式更為合理。數(shù)據(jù)格式轉(zhuǎn)換程序如下:datavar1;settemp;ID=_n_;lengthtar$21;tar=age;keepIDtar;run;datavar2;settemp;ID=_n_;tar=sex;keepIDtar;run;datavar3;settemp;ID=_n_;tar=region;keepIDtar;run;datavar4;settemp;ID=_n_;tar=income;keepIDtar;run;datavar5;settemp;ID=_n_;tar="mar_"||married;keepIDtar;run;datavar6;settemp;ID=_n_;tar="chi_"||left(children);keepIDtar;run;datavar7;settemp;ID=_n_;tar="car_"||car;keepIDtar;run;datavar8;settemp;ID=_n_;tar="sav_"||save_act;keepIDtar;run;datavar9;settemp;ID=_n_;tar="cur_"||current_act;keepIDtar;run;datavar10;settemp;ID=_n_;tar="mor_"||mortgage;keepIDtar;run;datavar11;settemp;ID=_n_;tar="pep_"||pep;keepIDtar;run;datasasData;setvar1var2var3var4var5var6var7var8var9var10var11;run;procsortdata=sasData;byID;run;輸出的數(shù)據(jù)集格式如下,文件名為sasData;并存儲(chǔ)在臨時(shí)邏輯庫work中。在分類中為了測試運(yùn)行速度,還將用到一個(gè)大數(shù)據(jù)集income.xls,該數(shù)據(jù)集來源于機(jī)器學(xué)習(xí)網(wǎng)站。共有23686個(gè)案例,14個(gè)屬性,屬性說明如下:age:continuous.workclass:Private,Self-emp-not-inc,Self-emp-inc,Federal-gov,Local-gov,State-gov,Without-pay,Never-worked.fnlwgt:cation:Bachelors,Some-college,11th,HS-grad,Prof-school,Assoc-acdm,Assoc-voc,9th,7th-8th,12th,Masters,1st-4th,10th,Doctorate,5th-6th,Pcation-num:continuous.marital-status:Married-civ-spouse,Divorced,Never-married,Separated,Widowed,Married-spouse-absent,Married-AF-spouse.occupation:Tech-support,Craft-repair,Other-service,Sales,Exec-managerial,Prof-specialty,Handlers-cleaners,Machine-op-inspct,Adm-clerical,Farming-fishing,Transport-moving,Priv-house-serv,Protective-serv,Armed-Forces.relationship:Wife,Own-child,Husband,Not-in-family,Other-relative,Unmarried.race:White,Asian-Pac-Islander,Amer-Indian-Eskimo,Other,Black.sex:Female,Male.capital-gain:continuous.capital-loss:continuous.hours-per-week:continuous.native-country:United-States,Cambodia,England,Puerto-Rico,Canada,Germany,Outlying-US(Guam-USVI-etc),India,Japan,Greece,South,China,Cuba,Iran,Honduras,Philippines,Italy,Poland,Jamaica,Vietnam,Mexico,Portugal,Ireland,France,Dominican-Republic,Laos,Ecuador,Taiwan,Haiti,Columbia,Hungary,Guatemala,Nicaragua,Scotland,Thailand,Yugoslavia,El-Salvador,Trinadad&Tobago,Peru,Hong,Holand-Netherlands.3.2關(guān)聯(lián)算法WEKA的關(guān)聯(lián)算法,使用數(shù)據(jù)集bank-data-final.csv,使用asssociations.apriori算法,設(shè)置產(chǎn)生的關(guān)聯(lián)規(guī)則滿足置信度confidence大于90%,將規(guī)則數(shù)目改成100,產(chǎn)生41條規(guī)則。最小的支持度support為10%(600個(gè)案例中至少覆蓋60個(gè)案例)輸出的結(jié)果按照置信度由大到小排列,每條規(guī)則都標(biāo)出覆蓋的案例個(gè)數(shù),即支持度。該數(shù)據(jù)集的所有屬性的支持度都比較低。前四條規(guī)則的置信度均為100%,并且條件項(xiàng)中都有income=43759_max,結(jié)果項(xiàng)都是save_act=yes.可以得出結(jié)論,高收入與有定期存款有很大的關(guān)聯(lián)。部份規(guī)則如下:1.income=43759_max80==>save_act=YES80conf:(1)9.income=43759_maxcurrent_act=YES63==>age=52_max61conf:(0.97)13.age=0_34married=YEScar=NO69==>income=0_2438666conf:(0.96)第九條和第十三條說明收入和年齡的關(guān)系,某種程度上來看,年齡越大收入越高。結(jié)果輸出如下圖:SAS/EM的關(guān)聯(lián)規(guī)則,使用修改格式后的數(shù)據(jù)集sasData,同樣讓其最小支持度為1%(60個(gè)案例),最小置信度為90%。Relations表示的是幾元的關(guān)聯(lián)規(guī)則,二元時(shí)產(chǎn)生2條規(guī)則,3元時(shí)產(chǎn)生12條規(guī)則,4元時(shí)產(chǎn)生30條,5元產(chǎn)生41條,6元仍是41條,說明同樣的支持度和置信度下不同的軟件產(chǎn)生的關(guān)聯(lián)規(guī)則完全相同。其中Lift是提升度,是A和B同時(shí)出現(xiàn)的概率與A和B單獨(dú)出現(xiàn)的概率乘積之比,即Lift(A=>B)=Pr(A,B)Pr?(A)Pr?(B),如果該值為1,則A和B是獨(dú)立的。該值越高,A和B3.3分類算法主要通過分類算法考察軟件的性能和運(yùn)行速度。IDA的分類算法,修改pep的參數(shù)值為輸出Output,其它屬性均為輸入Input,分類算法為有指導(dǎo)算法。選擇480(80%)個(gè)案例作為訓(xùn)練集。IDA按照輸出屬性值分類,分為兩類,一類值為YES,一類值為NO.從輸出表bank-dataRESTST中可以看到測試集的分類結(jié)果,共有120個(gè)案例,其中78(65%)個(gè)案例被模型正確分類,錯(cuò)誤率為35%。Weka的分類算法,使用J48算法,將數(shù)據(jù)集分成兩部份,80%用作training,20%用作test.錯(cuò)誤率為11.6667%SAS/EM的決策樹算法,設(shè)定60%為train,20%為validation,20%為test.測試數(shù)據(jù)集的錯(cuò)誤分類率為0.2066我們可以通過應(yīng)用經(jīng)典的假設(shè)檢驗(yàn)范例比較兩個(gè)用同樣訓(xùn)練數(shù)據(jù)創(chuàng)建的有指導(dǎo)學(xué)習(xí)者模型。假設(shè)兩個(gè)用相同訓(xùn)練數(shù)據(jù)創(chuàng)建的有指導(dǎo)學(xué)習(xí)者模型,M1和M2,它們的檢驗(yàn)集錯(cuò)誤率沒有顯著差別。比較兩個(gè)分類模型(M1和M2)性能最一般的統(tǒng)計(jì)形式為:ddxP=|E1-E2|q1-q(1n1其中:E1=模型M1的錯(cuò)誤率E2=模型M2的錯(cuò)誤率q=(E1+E2)/2n1=檢驗(yàn)集A中的實(shí)例個(gè)數(shù)n2=檢驗(yàn)集B中的實(shí)例個(gè)數(shù)(A和B分別代表M1和M2所對(duì)應(yīng)的檢驗(yàn)數(shù)據(jù)集)如果P>=2,根據(jù)統(tǒng)計(jì)學(xué)知識(shí)有95%的把握認(rèn)為M1和M2的檢驗(yàn)集性能差別是顯著的。設(shè)iDA的分類模型為M1,WEKA的分類模型為M2,SAS/EM的分類模型為M3,所以E1=0.35,E2=0.1167,E3=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年物聯(lián)網(wǎng)設(shè)備管理系統(tǒng)開發(fā)合同2篇
- 二零二四年墻體廣告租賃合同涵蓋廣告位更新維護(hù)責(zé)任3篇
- 2025年房地產(chǎn)項(xiàng)目委托產(chǎn)權(quán)登記及過戶服務(wù)合同3篇
- 二零二五年度衛(wèi)生間清潔保養(yǎng)服務(wù)合同3篇
- 二零二五年房地產(chǎn)物業(yè)管理服務(wù)委托合同模板3篇
- 2025年度生態(tài)環(huán)保型建筑材料采購合同3篇
- 二零二五年服裝店庫存管理師聘用合同樣本3篇
- 2025年度網(wǎng)絡(luò)安全防護(hù)技術(shù)解決方案定制合同3篇
- 二零二五年度河堤施工環(huán)境保護(hù)與污染防治合同3篇
- 二零二五年度環(huán)保材料買賣合同規(guī)范文本2篇
- 【人教版】九年級(jí)化學(xué)上冊(cè)期末試卷及答案【【人教版】】
- 四年級(jí)數(shù)學(xué)上冊(cè)期末試卷及答案【可打印】
- 人教版四年級(jí)數(shù)學(xué)下冊(cè)課時(shí)作業(yè)本(含答案)
- 中小學(xué)人工智能教育方案
- 高三完形填空專項(xiàng)訓(xùn)練單選(部分答案)
- 護(hù)理查房高鉀血癥
- 項(xiàng)目監(jiān)理策劃方案匯報(bào)
- 《職業(yè)培訓(xùn)師的培訓(xùn)》課件
- 建筑企業(yè)新年開工儀式方案
- 營銷組織方案
- 初中英語閱讀理解專項(xiàng)練習(xí)26篇(含答案)
評(píng)論
0/150
提交評(píng)論