數(shù)據(jù)挖掘論文.doc_第1頁
數(shù)據(jù)挖掘論文.doc_第2頁
數(shù)據(jù)挖掘論文.doc_第3頁
數(shù)據(jù)挖掘論文.doc_第4頁
數(shù)據(jù)挖掘論文.doc_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘論文數(shù)據(jù)挖掘分類方法及其應用課程名稱:數(shù)據(jù)挖掘概念與技術 姓 名 學 號: 指導教師: 數(shù)據(jù)挖掘分類方法及其應用作 者: 來 煜摘要:社會的發(fā)展進入了網(wǎng)絡信息時代,各種形式的數(shù)據(jù)海量產(chǎn)生,在這些數(shù)據(jù)的背后隱藏這許多重要的信息,如何從這些數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)有用信息,越來越受到關注。為了適應信息處理新需求和社會發(fā)展各方面的迫切需要而發(fā)展起來一種新的信息分析技術,這種局勢稱為數(shù)據(jù)挖掘。分類技術是數(shù)據(jù)挖掘中應用領域極其廣泛的重要技術之一。各種分類算法有其自身的優(yōu)劣,適合于不同的領域。目前隨著新技術和新領域的不斷出現(xiàn),對分類方法提出了新的要求。關鍵字:數(shù)據(jù)挖掘;分類方法;數(shù)據(jù)分析Abstract:The development of the society entered the network information age, mass produce various forms of data, hidden behind the data that a number of important information, how to find out some rule from these data, find useful information, more and more attention. In order to meet the new demand information processing and the urgent needs of the social development in all aspects and developed a new kind of information analysis technology, this situation is called data mining. Classification technique is widely applied in data mining field of one of the important technology. All kinds of classification algorithm has its own advantages and disadvantages, and suitable for different fields. Now with the new technology and new fields appear constantly, puts forward new requirements for classification method. Key words: data mining; Classification method; Data analysisl 引言數(shù)據(jù)是知識的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。過去幾年中,從數(shù)據(jù)庫中發(fā)現(xiàn)知識這一領域發(fā)展的很快。廣闊的市場和研究利益促使這一領域的飛速發(fā)展。計算機技術和數(shù)據(jù)收集技術的進步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫技術使我們很容易存儲大量的數(shù)據(jù)流,但現(xiàn)在還沒有一種成熟的技術幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經(jīng)驗知識經(jīng)過分析、篩選、比較、綜合、再提取出知識和規(guī)則。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應該打個折扣。目前,傳統(tǒng)的知識獲取技術面對巨型數(shù)據(jù)倉庫無能為力,數(shù)據(jù)挖掘技術就應運而生。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數(shù)據(jù)分析的基礎上進行科學研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘通過在大量數(shù)據(jù)的基礎上對各種學習算法的訓練,得到數(shù)據(jù)對象間的關系模式,這些模式反映了數(shù)據(jù)的內在特性,是對數(shù)據(jù)包含信息的更高層次的抽象。目前,在需要處理大數(shù)據(jù)量的科研領域中,數(shù)據(jù)挖掘受到越來越多的關注,同時,在實際問題中,大量成功運用數(shù)據(jù)挖掘的實例說明了數(shù)據(jù)挖掘對科學研究具有很大的促進作用。數(shù)據(jù)挖掘可以幫助人們對大規(guī)模數(shù)據(jù)進行高效的分析處理,以節(jié)約時間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。分類技術是數(shù)據(jù)挖掘中應用領域極其廣泛的重要技術之一。至今已提出了多種分類算法,主要有決策樹、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡、支持向量機和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術等。大部分技術都是使用學習算法確定分類模型,擬合輸入數(shù)據(jù)中樣本類別和屬性集之間的聯(lián)系,預測未知樣本的類別。訓練算法的主要目標是建立具有好的泛化能力的模型,該模型能夠準確地預測未知樣本的類別。1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)準備是從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。分類技術是數(shù)據(jù)挖掘中應用領域極其廣泛的重要技術之一。各種分類算法有其自身的優(yōu)劣,適合于不同的領域。目前隨著新技術和新領域的不斷出現(xiàn),對分類方法提出了新的要求。2數(shù)據(jù)挖掘分類算法介紹 分類是用于識別什么樣的事務屬于哪一類的方法,可用于分類的算法有決策樹、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡、支持向量機和貝葉斯、k臨近法、遺傳算法、粗糙集以及模糊邏輯技術等。下面對若干分類問題進行簡要分析。21基于決策樹的分類 基于決策樹的分類算法是數(shù)據(jù)挖掘中最為典型的分類算法。決策樹是一個類似于流程圖的樹結構,其每個內部節(jié)點表示在一個屬性上的測試,每個分枝代表一個測試輸出,每個葉節(jié)點代表類或類分布。 211決策樹算法基本思想。開始時所有的訓練樣本在根部,基于最高信息增益自頂向下遞歸地劃分數(shù)據(jù)集,生成決策樹。當一個結點上所有樣本都屬于同一類或者沒有剩余屬性可以用來進一步劃分樣本時停止劃分,形成一個葉結點。如果葉結點上的樣本不屬于同一類,則根據(jù)大多數(shù)樣本的分類來確定葉結點的類別。 創(chuàng)建決策樹時,因數(shù)據(jù)中存在噪聲和孤立點,許多分枝反映的是訓練數(shù)據(jù)集中的異常。剪枝方法可以剪去不可靠的分枝,提高分類速度和分類的準確度。常用的剪枝方法有:先剪枝和后剪枝。前者通過提前停止樹的構造而對樹剪枝;后者在完全創(chuàng)建好的樹上剪去分枝。 212典型的決策樹算法。最為典型的決策樹學習算法是ID3,它采用自頂向下不回溯策略,能保證找到一個簡單的樹。算法c45和c50是ID3的擴展,它們將分類領域從類別屬性擴展到數(shù)值型屬性。在決策樹中,從根到樹葉的每條路徑以IFTHEN形式表示一條分類規(guī)則,沿著給定路徑上的每個屬性一值對形成規(guī)則前件的一個合取項,葉結點包含類預測,形成規(guī)則后件。 213優(yōu)缺點。決策樹很擅長處理非數(shù)值型數(shù)據(jù),從決策樹中可以方便地提取分類規(guī)則。其主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。不足之處是ID3算法偏向于選擇屬性較多的屬性,而屬性較多的屬性往往不是最優(yōu)的屬性:學習簡單的邏輯表達能力較差。 22基于統(tǒng)計的分類 貝葉斯分類算法是基于貝葉斯定理的一種統(tǒng)計學分類算法。它們可以預測類成員關系的可能性,如給定樣本屬于一個特定類的概率。如果出現(xiàn)類別重疊現(xiàn)象,貝葉斯分類算法采用兩種方法處理這種情況:一是選擇后驗概率最大的類別,二是選擇效用函數(shù)最大(或損失最小)的類別。貝葉斯分類也是一種常用的分類方法,它是一種對屬性集和類變量的概率關系建模的方法。其理論基礎是貝葉斯定理,可用式221表示。 p(cx)p(xc)p(c)/p(x) 221其中x是類標號未知的數(shù)據(jù)樣本。設c為某種假定,如數(shù)據(jù)樣本I屬于某特定類民則P(cx)為c成立的概率,也稱為類c的先驗概率;P(x)為x的支持度。P(cx)是規(guī)定數(shù)據(jù)樣本x,假定c成立的概率,稱作類c的后驗概率。P(xvc)是假定c成立的情況下,樣本x的支持度,也稱為類條件概率。 準確估計類標號和屬性值的每一種可能組合的后驗概率非常困難,因為即便屬性數(shù)目不是很大,仍然需要很大的訓練集。此時,貝葉斯定理很有用,因為它允許我們用先驗概率P(c)、類條件概率P(xc)和P(x)來表示后驗概率。 在比較不同類c的后驗概率時,分母P(x)總是常數(shù),因此可以忽略。先驗概率P(c)可以通過計算訓練集中屬于每個類的訓練記錄所占的比例很容易地估計。因此類c的后驗概率P(xc)的確定取決于對類條件概率P(xc)的估計。對類條件概率P(xc)的估計,常使用兩種貝葉斯分類方法來實現(xiàn):樸素貝葉斯分類和貝葉斯信念網(wǎng)絡。 23基于神經(jīng)網(wǎng)絡的分類 231基本思想。經(jīng)常用于分類的還有人工神經(jīng)網(wǎng)絡方法。神經(jīng)網(wǎng)絡3為解決大復雜度問題提供了一種相對來說比較有效的簡單方法,它是模仿人腦神經(jīng)網(wǎng)絡的結構和某些工作機制而建立的一種非線形預測模型,經(jīng)過學習進行模式識別的。其工作機理是通過學習改變神經(jīng)元之間的連接強度。神經(jīng)網(wǎng)絡有前向神經(jīng)網(wǎng)絡、反饋神經(jīng)網(wǎng)絡、自組織神經(jīng)網(wǎng)絡等,在神經(jīng)網(wǎng)絡中,由權重和網(wǎng)絡的拓撲結構決定了它所能識別的模式類型。神經(jīng)網(wǎng)絡分類過程可以分為訓練和分類兩個階段。在訓練階段,首先定義網(wǎng)絡的拓撲結構,再對訓練樣本中的每個屬性的值進行規(guī)范化預處理,然后用神經(jīng)網(wǎng)絡對已預處理的輸入進行學習。訓練完畢后,用訓練好的神經(jīng)網(wǎng)絡對標識樣本進行分類。 最流行的神經(jīng)網(wǎng)絡學習算法是后向傳播算法。后向傳播算法是在多層前饋神經(jīng)網(wǎng)絡上進行學習的。這種神經(jīng)網(wǎng)絡具有一個輸入層和一個輸出層,在兩者之間可能包含多個中間層,這些中間層叫做隱藏層。后向傳播通過迭代地處理一組訓練樣本,將每個樣本的網(wǎng)絡預測與實際知道的類標號比較,進行學習。對于每個訓練樣本,修改權值,使得網(wǎng)絡預測和實際類之間的均方誤差最小。這種修改后向進行,即由輸出層,經(jīng)由每個隱藏層,到第一個隱藏層。一般的,權將最終收斂,學習過程停止。算法的每一次迭代包括兩個階段:前向階段和后向階段。在前向階段,使用前一次迭代所得到的權值計算網(wǎng)絡中每一個神經(jīng)元的輸出值。計算是向前進行的,先計算第k層神經(jīng)元的輸出,再計算第k1層的輸出。在后向階段,以相反的方向應用權值更新公式,先更新k1層的權值,再更新第k層的權值。 232優(yōu)缺點。神經(jīng)網(wǎng)絡法的優(yōu)點是有較強的抗噪能力,對未經(jīng)訓練的數(shù)據(jù)也具有較好的預測分類能力。神經(jīng)網(wǎng)絡的主要缺點是用加權鏈連結單元的網(wǎng)絡所表示的知識很難被人理解、學習時間較長,僅適用于時間容許的應用場合;對于如網(wǎng)絡結構等關鍵參數(shù),通常需要經(jīng)驗方能有效確定。 24基于源自關聯(lián)規(guī)則挖掘概念的分類 241基本思想。關聯(lián)規(guī)則聚類系統(tǒng)是基于聚類挖掘關聯(lián)規(guī)則,然后使用規(guī)則進行分類。挖掘形如Aquan1Aquan2Acat的關聯(lián)規(guī)則;其中,Aquan1,Aquan2是在量化屬性區(qū)間上的測試,為給定訓練數(shù)據(jù)的分類屬性指定一個類標號。關聯(lián)規(guī)則畫在2-D柵格上。算法掃描柵格,搜索規(guī)則的矩形聚類。由ARCS產(chǎn)生的聚類關聯(lián)規(guī)則用于分類,其準確率與C45差不多,精確度比C45高一點。 關聯(lián)分類挖掘形如condsety的規(guī)則,condset是項屬性一值對的集合,y是類標號。若給定數(shù)據(jù)集中的樣本s包含condset并且屬于類y,則規(guī)則的支持度為s。若規(guī)則滿足預先指定的最小支持度,則該規(guī)則是頻繁;若給定數(shù)據(jù)集中包含conset的樣本c屬于類y,則規(guī)則的置信度為c;若滿足最小置信度,則該規(guī)則是精確的。如果一個規(guī)則項集具有相同的condset,則選擇具有最高置信度的規(guī)則作為可能規(guī)則,代表該集合。 242關聯(lián)分類方法由兩步組成。第一步是找出所有頻繁的、精確的PR集合。算法使用迭代方法,類似Apriori。第二步使用一種啟發(fā)式方法構造分類,發(fā)現(xiàn)的規(guī)則按支持度和置信度遞減的優(yōu)先次序組織,用滿足新樣本滿足該樣本的第一個規(guī)則對其分類。CBA是關聯(lián)分類的經(jīng)典算法,該方法比c45更精確。 25其他分類方法 用于數(shù)據(jù)分類的方法還有:基于案例的推理分類法、遺傳算法等。 251基于案例的推理分類法?;诎咐耐评矸诸惙ㄊ腔谝蟮?,其存放的樣本是復雜的符號描述。當給定一個待分類的新案例時,基于案例的推理首先檢查是否存在一個同樣的訓練案例。如果找到一個,則返回附在該案例上的解。如果找不到同樣的案例,則基于案例的推理將搜索具有類似于新案例成分的訓練案例,這些訓練案例可視為新案例的鄰接者。 252遺傳算法。遺傳算法結合了自然進化的思想。遺傳學習開始時創(chuàng)建了一個由隨機產(chǎn)生的規(guī)則組成的初始群體,每個規(guī)則可以用一個二進制位串表示。根據(jù)適者生存的原則,形成由當前群體中最適合的規(guī)則組成的新群體,以及這些規(guī)則的后代。后代通過使用諸如交叉和變異等遺傳操作來創(chuàng)建。由先前的規(guī)則群體產(chǎn)生新的規(guī)則群體的過程繼續(xù)進化,直到群體中每個規(guī)則滿足預先指定的適合度值3數(shù)據(jù)挖掘的應用 數(shù)據(jù)挖掘技術已應用于許多領域,如在學校、銀行、電信、股市、保險、交通、零售等領域已得到廣泛的應用。31數(shù)據(jù)挖掘技術在高校中的應用 隨著招生規(guī)模的擴大,高校的學生人數(shù)就達到上萬人,甚至幾萬人,考試成績達到幾十萬個數(shù)據(jù),還有大量的學習成績以外的影響因素,傳統(tǒng)的學習成績分析方法已不能完全滿足需要,對此引入數(shù)據(jù)挖掘技術以找到影響學生成績的真實原因,制定相應的措施,提高教育教學質量。 32 數(shù)據(jù)挖掘技術在金融企業(yè)中的應用 321數(shù)據(jù)挖掘技術在證券行業(yè)中得到廣泛應用,數(shù)據(jù)挖掘技術作為分析與輔助決策工具已經(jīng)越來越得到國內券商的重視。322數(shù)據(jù)挖掘技術也應用于銀行業(yè),數(shù)據(jù)挖掘可以從大量的歷史記錄中發(fā)現(xiàn)或挖掘出這種關聯(lián)關系更深層次的、更詳盡的方面。323數(shù)據(jù)挖掘技術也應用于保險業(yè)保險金的確定:對受險人員的分類有助于確定適當?shù)谋kU金額度。通過數(shù)據(jù)挖掘可以得到對不同行業(yè)的人、不同年齡段的人、處于不同社會層次的人的保險金該如何確定。險種關聯(lián)分析:分析購買了某種保險的人是否同時購買另一種保險。預測什么樣的顧客會購買新險種。33 數(shù)據(jù)挖掘技術在零售企業(yè)中的應用從超市銷售管理系統(tǒng)、客戶資料管理及其他運營數(shù)據(jù)中,可以收集到關于商品銷售、客戶信息、庫存及超市店面信息等的信息資料。數(shù)據(jù)從各種應用系統(tǒng)中采集,經(jīng)按不同條件分類,存放到數(shù)據(jù)倉庫,允許管理人員、分析人員、采購人員、市場人員和客戶訪問,利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行分析,為管理者提供高效的科學決策工具。4數(shù)據(jù)挖掘應用實例41提出問題。一個自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計劃將廣告冊和禮品投遞給這些會員。但是投遞廣告冊是需要成本的,不可能投遞給所有的超市會員。而這些會員中有的人會響應廣告宣傳,有的人就算得到廣告冊不會購買。所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。42自行車廠商首先從所有會員中抽取了1000個會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。數(shù)據(jù)如表1所示。表1 會員實例模型數(shù)據(jù)事例列會員編號12496141772438125597輸入列婚姻狀況MarriedMarriedSingleSingle性別FemaleMaleMaleMale收入40000800007000030000孩子數(shù)1500教育背景BachelorsPartial CollegeBachelorsBachelors職業(yè)Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽車數(shù)0210上班距離0-1 Miles2-5 Miles5-10 Miles0-1 Miles區(qū)域EuropeEuropePacificEurope年齡42604136預測列是否購買自行車NoNoYesYes在分類模型中,每個會員作為一個事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預測的分類是客戶是否購買了自行車。43訓練數(shù)據(jù)集填充模型使用1000個會員事例訓練模型后得到的決策樹分類如圖1所示:圖1 會員事例訓練模型后得到的決策樹分類431圖中矩形表示一個拆分節(jié)點,矩形中文字是拆分條件。矩形顏色深淺代表此節(jié)點包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點包含所有的1000個事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個事例,年齡小于32歲的133個事例,年齡在39和67歲之間的602個事例,年齡32和39歲之間的229個事例。所以第一次拆分后,年齡在39和67歲的節(jié)點顏色最深,年齡大于67歲的節(jié)點顏色最淺。節(jié)點中的條包含兩種顏色,紅色和藍色,分別表示此節(jié)點中的事例購買和不購買自行車的比例。如節(jié)點“年齡=67”節(jié)點中,包含36個事例,其中28個沒有購買自行車,8個購買了自行車,所以藍色的條比紅色的要長。表示年齡大于67的會員有7462%的概率不購買自行車,有2301%的概率購買自行車。432在圖中,可以找出幾個有用的節(jié)點:1年齡小于32歲,居住在太平洋地區(qū)的會員有7275%的概率購買自行車;2年齡在32和39歲之間的會員有6842%的概率購買自行車;3年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有6608%的概率購買自行車;4年齡小于32歲,不住在太平洋地區(qū),上班距離在1公里范圍內的會員有5192%的概率購買自行車;44模型訓練后,還無法確定模型的分類方法是否準確??梢杂媚P蛯?00個會員的檢驗集進行查詢,查詢后,模型會預測出哪些會員會購買自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論