數(shù)據(jù)挖掘論文

上傳人：9*** IP屬地：湖北上傳時(shí)間：2022-12-28 格式：DOCX 頁數(shù)：13 大?。?97.42KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

pa車行數(shù)據(jù)挖掘案例——電子商務(wù)數(shù)據(jù)挖掘應(yīng)用內(nèi)容摘要本論文討論了電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘工具的現(xiàn)狀與主流方法，并通過pa車行的數(shù)據(jù)挖掘案例分析C4.5、k-means聚類、貝葉斯聚類三種方法的原理、實(shí)現(xiàn)與案例并討論不同方法的優(yōu)缺點(diǎn)和局限性。關(guān)鍵字C4.5；k-means聚類；貝葉斯聚類目錄1電子商務(wù)和數(shù)據(jù)挖掘概述 11．1電子商務(wù) 11．2數(shù)據(jù)挖掘技術(shù) 11．3.數(shù)據(jù)挖掘過程 21.3.1確立目標(biāo) 21．3．2數(shù)據(jù)準(zhǔn)備 21.3.3模式分析 22.數(shù)據(jù)挖掘的具體應(yīng)用場景和意義 32.1決策樹分類算法 32.1.1C4.5算法簡介 32.1.2C4.5算法的實(shí)現(xiàn) 42.1.3C4.5算法的基本原理 52.1.4實(shí)例：本論文以C4.5算法計(jì)算pa車行的各項(xiàng)指標(biāo)對其影響 72.2k-means算法 82.2.1k-means算法簡介 82.2.2K-means原理 82.2.3實(shí)例：本論文以k-means算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果 92.3貝葉斯分類算法 92.3.1貝葉斯分類算法簡介 92.3.2貝葉斯分類算法原理 102.3.3實(shí)例：本論文以貝葉斯分類算法算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果 101電子商務(wù)和數(shù)據(jù)挖掘概述1．1電子商務(wù)電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò)，采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購，網(wǎng)上、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動(dòng)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展，電子商務(wù)正顯示越來越強(qiáng)大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù)，并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識，為公司創(chuàng)造更多潛在的利潤。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù)，發(fā)現(xiàn)隱藏在其后的規(guī)律性，提取出有效信息，進(jìn)而指導(dǎo)企業(yè)調(diào)整營銷策略，給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)1．2數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(DataMining)，又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)，是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的，但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科，它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的知識。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域，它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用，而且，要對數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理，以指定實(shí)際問題的求解，企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)，甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用，如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí)慣分析等。而電子商務(wù)中的數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、、信息學(xué)、學(xué)等多個(gè)領(lǐng)域。1．3.數(shù)據(jù)挖掘過程挖掘數(shù)據(jù)過程可以分為3個(gè)步驟：確立分析目標(biāo)，數(shù)據(jù)預(yù)準(zhǔn)備，模式分析，挖掘結(jié)果的表述和評價(jià)。1.3.1確立目標(biāo)清晰地定義業(yè)務(wù)問題和認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是進(jìn)行數(shù)據(jù)挖掘的第一步，也是最重要步。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值，首要的條件是要對用戶的目標(biāo)有一個(gè)清晰明確的定義因此，在挖掘之前要明確業(yè)務(wù)的目標(biāo)和需求。1．3．2數(shù)據(jù)準(zhǔn)備實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此，數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進(jìn)行挖掘，要通過預(yù)處理提供準(zhǔn)確、簡潔的數(shù)據(jù)。預(yù)處理主要完成以下工作：包括合并數(shù)據(jù)，將多個(gè)文件或多個(gè)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行合并處理；選擇數(shù)據(jù)，提取出適合分析的數(shù)據(jù)集合；數(shù)據(jù)清洗、過濾，剔除一些無關(guān)記錄，將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。

1.3.3模式分析模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段，對得到的模式進(jìn)行數(shù)據(jù)分析，得出有意義的結(jié)論。常用的技術(shù)手段有：關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果，也是未來商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù)來分析大量的數(shù)據(jù)，可以挖掘出商品的消費(fèi)規(guī)律與客戶的訪問模式，幫助企業(yè)制定有效的營銷策略，充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢，促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新，提高企業(yè)競爭力。在大多數(shù)的商業(yè)領(lǐng)域中，業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶，如開展廣告活動(dòng)；也可以根據(jù)所了解的目標(biāo)客戶群，將他們分類，然后進(jìn)行直銷活動(dòng)。但是，隨客戶數(shù)量不斷增長和每位客戶的細(xì)節(jié)因素增多，要得出選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會變得很困難。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。算法能夠以圖形化的形式表現(xiàn)挖掘的結(jié)果，從而方便于使用者快速做出決定或預(yù)測。決策樹實(shí)際在各行業(yè)應(yīng)用非常廣泛，如客戶資源管理（CRM）系統(tǒng)等。4．挖掘結(jié)果的表述和評價(jià)這個(gè)階段分為結(jié)果表述和結(jié)果評價(jià)兩個(gè)步驟。將挖掘出的結(jié)果以一種易于理解的形表示出來，并進(jìn)行分析和評價(jià)。具體包括消除無關(guān)的、多余的模式，過濾出要呈現(xiàn)給用的信息。利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示，轉(zhuǎn)化為用戶以理解的語言。成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)可以把原始數(shù)據(jù)轉(zhuǎn)換為更簡潔、更易理解、可確定義關(guān)系的形式，此外還可以解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突及利用統(tǒng)計(jì)方法模式進(jìn)行評價(jià)，從而決定是否需要重復(fù)以前的操作，以得到最優(yōu)、最適合的模式。我們可將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去，實(shí)現(xiàn)知識的同化。綜上所述，數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程，也是一個(gè)在資金上和技術(shù)上高投的過程，這一過程要反復(fù)進(jìn)行。在反復(fù)過程中，不斷地趨近事物的本質(zhì)，不斷地優(yōu)化問的解決方案。2.數(shù)據(jù)挖掘的具體應(yīng)用場景和意義2.1決策樹分類算法2.1.1C4.5算法簡介數(shù)據(jù)挖掘中最常用、最經(jīng)典的分類算法，是決策樹（DecisionTree）用于分類和預(yù)測的主要技術(shù)，它著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則，采用自頂向下的遞歸方式，在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較，并根據(jù)不同屬性判斷從該節(jié)點(diǎn)向下分支，在決策樹的葉節(jié)點(diǎn)得到結(jié)論。因此，從根節(jié)點(diǎn)到葉節(jié)點(diǎn)就對應(yīng)著一條合理規(guī)則，整棵樹就對應(yīng)著一組表達(dá)式規(guī)則?；跊Q策樹算法的一個(gè)最大的優(yōu)點(diǎn)是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識，只要訓(xùn)練事例能夠用屬性即結(jié)論的方式表達(dá)出來，就能使用該算法進(jìn)行學(xué)習(xí)。決策樹技術(shù)是一種對海量數(shù)據(jù)集進(jìn)行分類的非常有效的方法。通過構(gòu)造決策樹模型，提取有價(jià)值的分類規(guī)則，幫助決策者做出準(zhǔn)確的預(yù)測已經(jīng)應(yīng)用在很多領(lǐng)域。決策樹算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法，首先對數(shù)據(jù)進(jìn)行處理，利用歸納算法生成可讀的規(guī)則和決策樹，然后對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹的典型算法有ID3、C4.5和CART等，基于決策樹的分類模型有如下幾個(gè)特點(diǎn)：（1）決策樹方法結(jié)構(gòu)簡單，便于理解；（2）決策樹模型效率高，對訓(xùn)練集較大的情況較為適合；（3）決策樹方法通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識；（4）決策樹方法具有較高的分類精確度。本論文主要通過分析C4.5算法來研究決策樹算法。在決策樹算法中，最常用的、最經(jīng)典的是C4.5算法，它在決策樹算法中的主要優(yōu)點(diǎn)是：形象直觀。該算法通過兩個(gè)步驟來建立決策樹：樹的生成階段和樹的剪枝階段。該算法主要基于信息論中的熵理論。熵在系統(tǒng)學(xué)上是表示事物的無序度，是系統(tǒng)混亂程度的統(tǒng)計(jì)量。C4.5基于生成的決策樹中節(jié)點(diǎn)所含的信息熵最小的原理。它把信息增益率作為屬性選擇的度量標(biāo)準(zhǔn)，可以得出很容易理解的決策規(guī)則。C4.5算法的優(yōu)點(diǎn)是產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確率較高。缺點(diǎn)就是在構(gòu)造樹的過程中，需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序，因而導(dǎo)致算法的低效。此外，C4.5算法只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集，當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時(shí)，程序無法運(yùn)行。2.1.2C4.5算法的實(shí)現(xiàn)假設(shè)用S代表當(dāng)前樣本集，當(dāng)前候選屬性集用A表示，則C4.5算法C4.5formtree(S,A)的偽代碼如下。算法：Generate_decision_tree由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵決策樹輸入：訓(xùn)練樣本samples；候選屬性的集合attributelist 輸出：一棵決策樹創(chuàng)建根節(jié)點(diǎn)N；IFS都屬于同一類C，則返回N為葉節(jié)點(diǎn)，標(biāo)記為類C；IFattributelist為空ORS中所剩的樣本數(shù)少于某給定值則返回N為葉節(jié)點(diǎn)，標(biāo)記N為S中出現(xiàn)最多的類；FOReachattributelist中的屬性計(jì)算信息增益率informationgainratio；N的測試屬性test.attribute=attributelist具有最高信息增益率的屬性；IF測試屬性為連續(xù)型則找到該屬性的分割閾值；Foreach由節(jié)點(diǎn)N一個(gè)新的葉子節(jié)點(diǎn){If該葉子節(jié)點(diǎn)對應(yīng)的樣本子集S’為空則分裂此葉子節(jié)點(diǎn)生成新葉節(jié)點(diǎn)，將其標(biāo)記為S中出現(xiàn)最多的類 Else 在該葉子節(jié)點(diǎn)上執(zhí)行C4.5formtree(S’,S’.attributelist)，繼續(xù)對它分裂； }計(jì)算每個(gè)節(jié)點(diǎn)的分類錯(cuò)誤，進(jìn)行剪枝。2.1.3C4.5算法的基本原理設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號Ci(I=1,……,m)具有m個(gè)不同的值，設(shè)si是類Ci中的樣本數(shù)。對一個(gè)給定的樣本分類所需的期望信息由下式給出：I(I(s1,……,sm)=i=1m 其中，pi是任意樣本屬于Ci的概率，并用s 設(shè)屬性A具有v個(gè)子集s1,……,sv;其中，sj包含S中這樣一些樣本，它們在A上具有值aj。如果A選作測試屬性，則這些子集對應(yīng)于由包含集合S的節(jié)點(diǎn)生長出來的分枝。設(shè)sij是子集E(A)=E(A)=i=1v 其中，項(xiàng)sij+…+SmjS充當(dāng)?shù)趈個(gè)子集的權(quán)I(I(S1j,S其中，pij=SijSj是sj 在A上分枝將獲得的編碼信息是：Gain(A)=I(Gain(A)=I(s1,……,sm)– 以上和ID3算法的基本原理相同，而C4.5所不同的是在后面使用信息增益比例來取代信息增益。SplitInfo(S,A)=SplitInfo(S,A)=-i=1c 其中，s1到sc 這時(shí)，在屬性A上所得到的信息增益比為：GainRatio(S,A)=GainRatio(S,A)=Gain(S,A)SplitInfo(S,A) C4.5算法計(jì)算每個(gè)屬性的信息增益比。具有最高信息增益比的屬性選作給定集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn)，并以該屬性標(biāo)記，對屬性的每個(gè)值創(chuàng)建分枝，并據(jù)此劃分樣本。當(dāng)然C4.5算法本身也存在一些不足之處，如處理連續(xù)屬性比較耗時(shí)、計(jì)算信息增益率的速度還有待提高等，2.1.4實(shí)例：本論文以C4.5算法計(jì)算pa車行的各項(xiàng)指標(biāo)對其影響C4.5可以看出不同層級分類，但無法發(fā)現(xiàn)其中關(guān)鍵因素所在點(diǎn)，也即無法處理模糊數(shù)據(jù)的聚類分組，因此我們引入k-means算法。2.2k-means算法2.2.1k-means算法簡介k-means算法接受參數(shù)k；然后將事先輸入的n個(gè)數(shù)據(jù)對象劃分為k個(gè)聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個(gè)“中心對象”（引力中心）來進(jìn)行計(jì)算的。假設(shè)要把樣本集分為c個(gè)類別，算法描述如下：（1）適當(dāng)選擇c個(gè)類的初始中心；（2）在第k次迭代中，對任意一個(gè)樣本，求其到c個(gè)中心的距離，將該樣本歸到距離最短的中心所在的類；（3）利用均值等方法更新該類的中心值；（4）對于所有的c個(gè)聚類中心，如果利用（2）（3）的迭代法更新后，值保持不變，則迭代結(jié)束，否則繼續(xù)迭代。2.2.2K-means原理K-means面對的第一個(gè)問題是如何保證收斂，前面的算法中強(qiáng)調(diào)結(jié)束條件就是收斂，可以證明的是K-means完全可以保證收斂性。下面我們定性的描述一下收斂性，我們定義畸變函數(shù)（distortionfunction）如下：J函數(shù)表示每個(gè)樣本點(diǎn)到其質(zhì)心的距離平方和。K-means是要將J調(diào)整到最小。假設(shè)當(dāng)前J沒有達(dá)到最小值，那么首先可以固定每個(gè)類的質(zhì)心，調(diào)整每個(gè)樣例的所屬的類別來讓J函數(shù)減少，同樣，固定，調(diào)整每個(gè)類的質(zhì)心也可以使J減小。這兩個(gè)過程就是內(nèi)循環(huán)中使J單調(diào)遞減的過程。當(dāng)J遞減到最小時(shí)，和c也同時(shí)收斂。2.2.3實(shí)例：本論文以k-means算法計(jì)算pa車行的各項(xiàng)指標(biāo)聚類結(jié)果k-means聚類分析可以發(fā)現(xiàn)不同關(guān)鍵點(diǎn)并找出其關(guān)聯(lián)性，但對于目標(biāo)函數(shù)的實(shí)現(xiàn)無法尋找具體的線性關(guān)系，因此我們引入貝葉斯分類算法2.3貝葉斯分類算法2.3.1貝葉斯分類算法簡介貝葉斯分類算法是統(tǒng)計(jì)學(xué)分類方法，它是一類利用

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘論文

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔