數(shù)據(jù)挖掘論文_第1頁
數(shù)據(jù)挖掘論文_第2頁
數(shù)據(jù)挖掘論文_第3頁
數(shù)據(jù)挖掘論文_第4頁
數(shù)據(jù)挖掘論文_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

pa車行數(shù)據(jù)挖掘案例——電子商務(wù)數(shù)據(jù)挖掘應(yīng)用內(nèi)容摘要本論文討論了電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘工具的現(xiàn)狀與主流方法,并通過pa車行的數(shù)據(jù)挖掘案例分析C4.5、k-means聚類、貝葉斯聚類三種方法的原理、實(shí)現(xiàn)與案例并討論不同方法的優(yōu)缺點(diǎn)和局限性。關(guān)鍵字C4.5;k-means聚類;貝葉斯聚類目錄1電子商務(wù)和數(shù)據(jù)挖掘概述 11.1電子商務(wù) 11.2數(shù)據(jù)挖掘技術(shù) 11.3.數(shù)據(jù)挖掘過程 21.3.1確立目標(biāo) 21.3.2數(shù)據(jù)準(zhǔn)備 21.3.3模式分析 22.數(shù)據(jù)挖掘的具體應(yīng)用場景和意義 32.1決策樹分類算法 32.1.1C4.5算法簡介 32.1.2C4.5算法的實(shí)現(xiàn) 42.1.3C4.5算法的基本原理 52.1.4實(shí)例:本論文以C4.5算法計(jì)算pa車行的各項(xiàng)指標(biāo)對其影響 72.2k-means算法 82.2.1k-means算法簡介 82.2.2K-means原理 82.2.3實(shí)例:本論文以k-means算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果 92.3貝葉斯分類算法 92.3.1貝葉斯分類算法簡介 92.3.2貝葉斯分類算法原理 102.3.3實(shí)例:本論文以貝葉斯分類算法算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果 101電子商務(wù)和數(shù)據(jù)挖掘概述1.1電子商務(wù)電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動(dòng)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來越強(qiáng)大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司創(chuàng)造更多潛在的利潤。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進(jìn)而指導(dǎo)企業(yè)調(diào)整營銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)1.2數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(DataMining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的知識。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且,要對數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí)慣分析等。而電子商務(wù)中的數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、、信息學(xué)、學(xué)等多個(gè)領(lǐng)域。1.3.數(shù)據(jù)挖掘過程挖掘數(shù)據(jù)過程可以分為3個(gè)步驟:確立分析目標(biāo),數(shù)據(jù)預(yù)準(zhǔn)備,模式分析,挖掘結(jié)果的表述和評價(jià)。1.3.1確立目標(biāo)清晰地定義業(yè)務(wù)問題和認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是進(jìn)行數(shù)據(jù)挖掘的第一步,也是最重要步。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,首要的條件是要對用戶的目標(biāo)有一個(gè)清晰明確的定義因此,在挖掘之前要明確業(yè)務(wù)的目標(biāo)和需求。1.3.2數(shù)據(jù)準(zhǔn)備實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進(jìn)行挖掘,要通過預(yù)處理提供準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個(gè)文件或多個(gè)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。

1.3.3模式分析模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段,對得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù)來分析大量的數(shù)據(jù),可以挖掘出商品的消費(fèi)規(guī)律與客戶的訪問模式,幫助企業(yè)制定有效的營銷策略,充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢,促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,提高企業(yè)競爭力。在大多數(shù)的商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶,如開展廣告活動(dòng);也可以根據(jù)所了解的目標(biāo)客戶群,將他們分類,然后進(jìn)行直銷活動(dòng)。但是,隨客戶數(shù)量不斷增長和每位客戶的細(xì)節(jié)因素增多,要得出選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會變得很困難。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。算法能夠以圖形化的形式表現(xiàn)挖掘的結(jié)果,從而方便于使用者快速做出決定或預(yù)測。決策樹實(shí)際在各行業(yè)應(yīng)用非常廣泛,如客戶資源管理(CRM)系統(tǒng)等。4.挖掘結(jié)果的表述和評價(jià)這個(gè)階段分為結(jié)果表述和結(jié)果評價(jià)兩個(gè)步驟。將挖掘出的結(jié)果以一種易于理解的形表示出來,并進(jìn)行分析和評價(jià)。具體包括消除無關(guān)的、多余的模式,過濾出要呈現(xiàn)給用的信息。利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示,轉(zhuǎn)化為用戶以理解的語言。成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)可以把原始數(shù)據(jù)轉(zhuǎn)換為更簡潔、更易理解、可確定義關(guān)系的形式,此外還可以解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突及利用統(tǒng)計(jì)方法模式進(jìn)行評價(jià),從而決定是否需要重復(fù)以前的操作,以得到最優(yōu)、最適合的模式。我們可將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去,實(shí)現(xiàn)知識的同化。綜上所述,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投的過程,這一過程要反復(fù)進(jìn)行。在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)化問的解決方案。2.數(shù)據(jù)挖掘的具體應(yīng)用場景和意義2.1決策樹分類算法2.1.1C4.5算法簡介數(shù)據(jù)挖掘中最常用、最經(jīng)典的分類算法,是決策樹(DecisionTree)用于分類和預(yù)測的主要技術(shù),它著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同屬性判斷從該節(jié)點(diǎn)向下分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。因此,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)就對應(yīng)著一條合理規(guī)則,整棵樹就對應(yīng)著一組表達(dá)式規(guī)則?;跊Q策樹算法的一個(gè)最大的優(yōu)點(diǎn)是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識,只要訓(xùn)練事例能夠用屬性即結(jié)論的方式表達(dá)出來,就能使用該算法進(jìn)行學(xué)習(xí)。決策樹技術(shù)是一種對海量數(shù)據(jù)集進(jìn)行分類的非常有效的方法。通過構(gòu)造決策樹模型,提取有價(jià)值的分類規(guī)則,幫助決策者做出準(zhǔn)確的預(yù)測已經(jīng)應(yīng)用在很多領(lǐng)域。決策樹算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法,首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹的典型算法有ID3、C4.5和CART等,基于決策樹的分類模型有如下幾個(gè)特點(diǎn):(1)決策樹方法結(jié)構(gòu)簡單,便于理解;(2)決策樹模型效率高,對訓(xùn)練集較大的情況較為適合;(3)決策樹方法通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識;(4)決策樹方法具有較高的分類精確度。本論文主要通過分析C4.5算法來研究決策樹算法。在決策樹算法中,最常用的、最經(jīng)典的是C4.5算法,它在決策樹算法中的主要優(yōu)點(diǎn)是:形象直觀。該算法通過兩個(gè)步驟來建立決策樹:樹的生成階段和樹的剪枝階段。該算法主要基于信息論中的熵理論。熵在系統(tǒng)學(xué)上是表示事物的無序度,是系統(tǒng)混亂程度的統(tǒng)計(jì)量。C4.5基于生成的決策樹中節(jié)點(diǎn)所含的信息熵最小的原理。它把信息增益率作為屬性選擇的度量標(biāo)準(zhǔn),可以得出很容易理解的決策規(guī)則。C4.5算法的優(yōu)點(diǎn)是產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。缺點(diǎn)就是在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。此外,C4.5算法只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時(shí),程序無法運(yùn)行。2.1.2C4.5算法的實(shí)現(xiàn)假設(shè)用S代表當(dāng)前樣本集,當(dāng)前候選屬性集用A表示,則C4.5算法C4.5formtree(S,A)的偽代碼如下。 算法:Generate_decision_tree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵決策樹 輸入:訓(xùn)練樣本samples;候選屬性的集合attributelist 輸出:一棵決策樹創(chuàng)建根節(jié)點(diǎn)N;IFS都屬于同一類C,則返回N為葉節(jié)點(diǎn),標(biāo)記為類C;IFattributelist為空ORS中所剩的樣本數(shù)少于某給定值則返回N為葉節(jié)點(diǎn),標(biāo)記N為S中出現(xiàn)最多的類;FOReachattributelist中的屬性計(jì)算信息增益率informationgainratio;N的測試屬性test.attribute=attributelist具有最高信息增益率的屬性;IF測試屬性為連續(xù)型則找到該屬性的分割閾值;Foreach由節(jié)點(diǎn)N一個(gè)新的葉子節(jié)點(diǎn){If該葉子節(jié)點(diǎn)對應(yīng)的樣本子集S’為空則分裂此葉子節(jié)點(diǎn)生成新葉節(jié)點(diǎn),將其標(biāo)記為S中出現(xiàn)最多的類 Else 在該葉子節(jié)點(diǎn)上執(zhí)行C4.5formtree(S’,S’.attributelist),繼續(xù)對它分裂; }計(jì)算每個(gè)節(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝。2.1.3C4.5算法的基本原理設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號Ci(I=1,……,m)具有m個(gè)不同的值,設(shè)si是類Ci中的樣本數(shù)。對一個(gè)給定的樣本分類所需的期望信息由下式給出:I(I(s1,……,sm)=i=1m 其中,pi是任意樣本屬于Ci的概率,并用s 設(shè)屬性A具有v個(gè)子集s1,……,sv;其中,sj包含S中這樣一些樣本,它們在A上具有值aj。如果A選作測試屬性,則這些子集對應(yīng)于由包含集合S的節(jié)點(diǎn)生長出來的分枝。設(shè)sij是子集E(A)=E(A)=i=1v 其中,項(xiàng)sij+…+SmjS充當(dāng)?shù)趈個(gè)子集的權(quán)I(I(S1j,S其中,pij=SijSj是sj 在A上分枝將獲得的編碼信息是:Gain(A)=I(Gain(A)=I(s1,……,sm)– 以上和ID3算法的基本原理相同,而C4.5所不同的是在后面使用信息增益比例來取代信息增益。SplitInfo(S,A)=SplitInfo(S,A)=-i=1c 其中,s1到sc 這時(shí),在屬性A上所得到的信息增益比為:GainRatio(S,A)=GainRatio(S,A)=Gain(S,A)SplitInfo(S,A) C4.5算法計(jì)算每個(gè)屬性的信息增益比。具有最高信息增益比的屬性選作給定集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。當(dāng)然C4.5算法本身也存在一些不足之處,如處理連續(xù)屬性比較耗時(shí)、計(jì)算信息增益率的速度還有待提高等,2.1.4實(shí)例:本論文以C4.5算法計(jì)算pa車行的各項(xiàng)指標(biāo)對其影響C4.5可以看出不同層級分類,但無法發(fā)現(xiàn)其中關(guān)鍵因素所在點(diǎn),也即無法處理模糊數(shù)據(jù)的聚類分組,因此我們引入k-means算法。2.2k-means算法2.2.1k-means算法簡介k-means算法接受參數(shù)k;然后將事先輸入的n個(gè)數(shù)據(jù)對象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個(gè)“中心對象”(引力中心)來進(jìn)行計(jì)算的。假設(shè)要把樣本集分為c個(gè)類別,算法描述如下:(1)適當(dāng)選擇c個(gè)類的初始中心;(2)在第k次迭代中,對任意一個(gè)樣本,求其到c個(gè)中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的c個(gè)聚類中心,如果利用(2)(3)的迭代法更新后,值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。2.2.2K-means原理K-means面對的第一個(gè)問題是如何保證收斂,前面的算法中強(qiáng)調(diào)結(jié)束條件就是收斂,可以證明的是K-means完全可以保證收斂性。下面我們定性的描述一下收斂性,我們定義畸變函數(shù)(distortionfunction)如下:J函數(shù)表示每個(gè)樣本點(diǎn)到其質(zhì)心的距離平方和。K-means是要將J調(diào)整到最小。假設(shè)當(dāng)前J沒有達(dá)到最小值,那么首先可以固定每個(gè)類的質(zhì)心,調(diào)整每個(gè)樣例的所屬的類別來讓J函數(shù)減少,同樣,固定,調(diào)整每個(gè)類的質(zhì)心也可以使J減小。這兩個(gè)過程就是內(nèi)循環(huán)中使J單調(diào)遞減的過程。當(dāng)J遞減到最小時(shí),和c也同時(shí)收斂。2.2.3實(shí)例:本論文以k-means算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果k-means聚類分析可以發(fā)現(xiàn)不同關(guān)鍵點(diǎn)并找出其關(guān)聯(lián)性,但對于目標(biāo)函數(shù)的實(shí)現(xiàn)無法尋找具體的線性關(guān)系,因此我們引入貝葉斯分類算法2.3貝葉斯分類算法2.3.1貝葉斯分類算法簡介貝葉斯分類算法是統(tǒng)計(jì)學(xué)分類方法,它是一類利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論