版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘神經網絡法的研究現狀和發(fā)展趨勢綜述摘要:隨著計算機技術的迅猛發(fā)展,數據挖掘技術越來越受到世界的關注。從數據挖掘的概念出發(fā),介紹了數據挖掘的對象、功能及其挖掘過程,結合數據挖掘的幾種常見挖掘算法:決策樹法、關聯規(guī)則法和神經網絡法等,對其主要思想及其改進做了相關描述;總結了國內外數據挖掘的研究現狀和應用,指出了數據挖掘的發(fā)展趨勢。關鍵詞:數據挖掘;決策樹法;關聯規(guī)則法;神經網絡法;研究現狀;發(fā)展趨勢0引言數據挖掘作為一個新興的多學科交叉應用領域,正在各行各業(yè)的決策支持活動中扮演著越來越重要的角色。隨著信息技術的迅速發(fā)展,各行各業(yè)都積累了海量異構的數據資料。這些數據往往隱含著各種各樣有用的信息,僅僅依靠數據庫的查詢檢索機制和統(tǒng)計學方法很難獲得這些信息,迫切需要將這些數據轉化成有用的信息和知識,從而達到為決策服務的目的。數據挖掘分析得到的信息和知識現在已經得到了廣泛的應用,例如商務管理、生產控制、市場分析、工程設計和科學探索等。數據挖掘是一個多學科領域,它融合了數據庫技術、人工智能、機器學習、統(tǒng)計學、知識工程、信息檢索等最新技術的研究成果。本文主要介紹了數據挖掘的幾種主要算法及其改進,并對國內外的研究現狀及研究熱點進行了總結,最后指出其發(fā)展趨勢<sup>[1]</sup>。1研究背景數據挖掘目前數據挖掘是人工智能和數據庫領域的研究熱點,數據挖掘是發(fā)現數據庫中隱含知識的重要步驟。數據挖掘出現于20世紀80年代末,早期主要研究從數據庫中發(fā)現知識(KnowlegdeDiscoveryinDatabase,KDD),數據挖掘的概念源于1995年在加拿大召開了第一屆知識發(fā)現和數據挖掘國際會議<sup>[2]</sup>。數據挖掘作為一種多學科綜合的產物,綜合利用人工智能、機器學習、模式識別、統(tǒng)計學、數據庫、可視化技術等,自動分析數據并從中得到潛在隱含的知識,從而幫助決策者做出合理并正確的決策。數據挖掘對象數據挖掘的對象可以是任何類型的數據源,可以是關系數據庫,此類包含結構化數據的數據源;也可以是數據倉庫、文本、多媒體數據、空間數據、時序數據、Web數據,此類包含半結構化數據甚至是異構型數據的數據源<sup>[2]</sup>。發(fā)現知識的方法可以是數字的、非數字的,也可以是歸納的,最終被發(fā)現了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數據自身的維護等<sup>[1]</sup>。數據挖掘功能目前數據挖掘的主要功能包括概念描述、關聯分析、分類、聚類和偏差檢測等。概念描述主要用于描述對象內涵并且概括此對象相關特征,概念描述分為特征性描述和區(qū)別性描述,特征性描述描述對象的相同特征,區(qū)別性描述描述對象的不同特征;關聯分析主要用來發(fā)現數據庫中相關的知識以及數據之間的規(guī)律,關聯分為簡單關聯、時序關聯、因果關聯;分類和聚類就是根據需要訓練相應的樣本來對數據分類和合并;偏差分析用于對對象中異常數據的檢測。數據挖掘過程數據挖掘主要分3個階段:數據準備、數據挖掘、結果的評價和表達。數據準備主要是完成對大量數據的選擇、凈化、推測、轉換、數據的縮減,數據準備階段的工作好壞將影響到數據挖掘的效率和準確度以及最終模式的有效性,在數據準備階段可以消除在挖掘過程中無用的數據,從而提高數據挖掘的效率和準確度;數據挖掘的工作首先需要選擇相應的挖掘實施算法,例如決策樹、分類、聚類、粗糙集、關聯規(guī)則、神經網絡、遺傳算法等,然后對數據進行分析,從而得到知識的模型;結果評價和表達主要是確定知識的模式模型是否有效以便發(fā)現有意義的模型<sup>[3]</sup>。2數據挖掘主要方法2.1決策樹法決策樹法是數據挖掘的分類功能中一種比較常用的方法。決策樹法起源于概念學習系統(tǒng)CLS,然后發(fā)展到ID3方法,ID3算法是由Quinlan首先提出,該算法是以信息論為基礎,以信息熵和信息增益度為衡量標準。ID3算法的主要思想是:首先計算各屬性的信息增益,然后選取具有最高增益的屬性作為給定集合的測試屬性。所以造成ID3用信息增益選擇屬性時偏向選擇取值多的屬性,但是取值多的屬性不一定找到最優(yōu)解,為了克服此問題,出現了改進算法—一C4.5算法<sup>[4]</sup>。C4.5算法不但克服了ID3偏向選擇取值多的屬性這一缺點,還實現了對連續(xù)屬性的離散化處理和對不完整數據的處理。雖然C4.5算法在速度和預測精度等方面占有優(yōu)勢,但是由于C4.5在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,導致該算法在性能方面較為低效。針對C4.5算法效率不高的問題,很多學者提出了針對改進措施:一種有效的C4.5的改進模型R-C4.5,該決策樹模型通過合并分類較差的分支,減少了無意義的分支進一步的劃分,有效避免了碎片的產生,在保持模型預測準確率的同時,有效改進了樹的健壯性<sup>[5]</sup>。而從C4.5在連續(xù)值屬性離散化方面的局限性來看,C4.5算法在對連續(xù)值屬性進行離散化處理時,為了找到較好的劃分點,C4.5算法需要測試所有潛在的劃分信息增益,這樣就大大降低了該算法分類的效率。基于Fayyad和Irani對C4.5算法的改進,調整了其對連續(xù)值屬性懲罰的基礎,指定一個閾值a,通過a值的判定與增益率的判定,決定是否繼續(xù)構造節(jié)點<sup>[6]</sup>。此外,考慮到有新樣本添加到數據庫中的情況,按照C4.5算法,需要對所有的樣本進行重新學習,這樣會造成大量時間的浪費,所以在此提出一種增量學習方法,最大限度地保留決策樹中的原本分支及分類結果,減少了計算量<sup>[7]</sup>。2.2關聯規(guī)則法關聯模式中最著名的是Apriori算法,它是由R.Agrawal等人首先提出來的<sup>[8]</sup>,其算法思想是:首先找出頻繁性至少和預定義的最小支持度一樣的所有頻集,然后由頻集產生強關聯規(guī)則。最典型的例子就是沃爾瑪尿布和啤酒事件,在此例中,商家就是利用統(tǒng)計這兩種商品在一次購買中共同出現的頻數,將出現頻數多的搭配轉化為關聯規(guī)則<sup>[9]</sup>。Apriori算法的實現是通過對數據庫D的多次掃描來發(fā)現所有的頻繁項目集。在每一次掃描中只考慮具有同一長度的所有項目集,在進行第一次掃描中,Apriori算法計算D中所有單個項目的支持度,生成所有長度為1的頻繁項目集;在后續(xù)的每一次掃描中,首先以K-1次掃描所生成的所有項目集為基礎產生新的候選項目集,然后掃描數據庫D,計算這些候選項目集的支持度,刪除其支持度低于用戶給定的最小支持度的項目集;最后,生成所有長度為K的頻繁項目集。重復以上過程直到再也發(fā)現不了新的頻繁項目集為止。由此可見,若要提高Apriori算法的效率,可以減少對數據庫的掃描次數或者減少不必要的頻繁項目集的生成<sup>[10]</sup>,對Apriori算法的改進主要方法有:①基于劃分的方法:其基本思想是:對于整個交易數據庫而言,如果一個項集是頻繁項集,那么它必然有這樣的結果,即至少在一個分割的部分內它是頻繁的;②基于抽樣的方法:首先從數據庫中抽取一個樣本并生成該樣本的候選項集,當然希望這些項集在全局數據庫中是頻繁的,在接下來的一次掃描中,算法將統(tǒng)計這些項集確切的支持度以及負邊界的支持度。如果在負邊界中沒有一個是頻繁的,那么算法將找到所有的頻繁項集,否則,負邊界中的項集有可能是頻繁項集;③增量更新方法:其基本思想是使用該技術來對所發(fā)現的頻繁項集和相應的關聯規(guī)則進行維護,以便在數據庫發(fā)生變化時避免對所有的頻繁項集和相應的關聯規(guī)則重新進行挖掘分析,即只對發(fā)生變化的那部分數據進行關聯分析;④概念層次的方法;⑤基于散列和壓縮技術的方法<sup>[H]</sup>。所以也有很多學者對Apriori算法進行了改進,例如,對Apriori的改進算法AprioriTid算法,在AprioriTid算法中僅在第一次掃描時用事務數據庫D計算候選頻繁項目集的支持度,其他各次掃描用上一次掃描生成的候選數據庫D?來計算候選頻繁項目集的支持度,減少了I/O的操作時間,提高了算法的效率<sup>[8]</sup>,此外,在對Apriori的改進算法中,基于新的數據結構和改進了的產生候選集的連接方法,也實現了對事物挖掘上優(yōu)于Apriori算法的效率<sup>[12]</sup>。針對Apriori算法的固有缺陷,J.Han等提出了不產生候選挖掘頻繁項集的方法:FPtree頻集算法。FPtree頻集算法采用分而治之的策略,第一遍掃描的過程中把數據庫中的頻集壓縮進一棵頻繁模式樹(FPtree),同時依然保留其中的關聯信息,隨后再將FPtree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然后再對這些條件庫分別進行挖掘,當原始數據量很大的時候,才可以結合劃分的方法,使得一個FPtree可以放入主存中,實驗表明,FPgrowth對不同長度的規(guī)則較之Apriori算法有巨大的提高。2.3神經網絡法神經網絡具有結構復雜、網絡訓練時間長、結果表示不容易理解等缺點,但其對噪聲數據的高承受能力和低錯誤率,神經網絡具有較好的并行性,這些優(yōu)點是其他方法所不及的,而且各種網絡訓練算法的陸續(xù)提出與優(yōu)化,尤其是各種網絡剪枝算法和規(guī)則提取算法的不斷提出與完善,使得神經網絡在數據挖掘的應用中越來越受到大家的青睞<sup>[13]</sup>。其中使用較為廣泛的有多層前饋式(multilayerfeedforward)神經網絡和后向傳播(backpropagation,BP)神經網絡。多層前饋式神經網絡迭代學習用于元組類標號預測的一組權重,而BP神經網絡搜索一組權重,這組權重可對數據建模,使得神經元組的網絡類預測和實際類標號之間的均方距離最小,可用于語言綜合、語音識別、自適應控制等<sup>[14]</sup>。現在已經提出來一些神經網絡方面的數據挖掘算法改進,用以彌補神經網絡結構復雜、網絡訓練時間長、結構表示不易理解等不足,比如,提出的基于模糊神經網絡的數據挖掘算法,把模糊理論和神經網絡結合起來構造、訓練模糊神經網絡<sup>[15]</sup>。3研究現狀隨著海量數據的增加,大數據時代的到來,導致人們對數據的研究和利用越來越多,其中數據挖掘技術的不斷進步和發(fā)展也給整個世界信息的發(fā)展帶來了許多成果。在科學學領域方面,先進的現代化科學觀測儀器的使用造成每天都要產生巨量的數據,如各種同步衛(wèi)星每小時傳回地球的遙感圖像數據就達50千兆字節(jié)。天文學上有一個很著名的應用系統(tǒng)——SKICAT,這是第一個相當成功的數據挖掘應用,也是人工智能技術在天文學和空間科學上第一批成功的應用之一。目前,科學家已利用SKICAT發(fā)現了16個新的極其遙遠的類星體。在市場營銷方面,條形碼技術在商業(yè)上的普遍使用使得很多行業(yè)每天都積累了大量數據,從市場營銷來說,通過數據分析了解客戶購物行為的一些特征,對提高競爭力及促進銷售是有很大幫助。在金融投資方面,目前國內有很多進行股票分析的軟件,并且定期有專家進行股票交易預測。數據挖掘技術還可以應用在甄別詐騙上,進行詐騙甄別主要是通過總結正常行為和詐騙行為之間的關系,得到詐騙行為的一些特征,這樣當某項業(yè)務符合這些特征時,可以向決策人員提出警告。這方面比較成功的系統(tǒng)有FALCON和FAIS系統(tǒng)。在Web應用上,世界上最強大的搜索引擎Google相比其他很多搜索引擎,它的搜索結果更讓人滿意,其中Google使用的搜索算法主要是PageRank算法,在2001年9月被授予美國專利,Google的PageRank是根據網站的外部鏈接和內部鏈接的數量和質量兩衡量網站的價值。4數據挖掘發(fā)展趨勢現今,數據挖掘的發(fā)展趨勢主要在以下幾個方面:數據挖掘語言的標準化:語言的標準化對于數據挖掘系統(tǒng)的開發(fā)和數據挖掘技術的普遍使用是至關重要的。其可改進多個數據挖掘系統(tǒng)和功能間的互操作,促進其在企業(yè)和社會中的使用。數據挖掘的可視化:可視化要求已經成為數據挖掘系統(tǒng)中必不可少的技術??梢栽诎l(fā)現知識的過程中進行很好的人機交互。數據的可視化起到了推動人們主動進行知識發(fā)現的作用。分布式數據挖掘:分布式技術的到來為日益增長的數據提供了有力支持,而分布式數據挖掘中將分布式技術和數據挖掘技術的結合,也使對分離數據庫的可協(xié)作數據挖掘工作開發(fā)了一個重要領域。數據挖掘與數據庫系統(tǒng)和Web數據庫系統(tǒng)的集成:數據庫系統(tǒng)和Web數據庫已經成為信息處理系統(tǒng)的主流。數據挖掘系統(tǒng)的理想體系結構是與數據庫和數據倉庫系統(tǒng)的緊耦合。挖掘復雜數據類型的新方法:挖掘復雜數據類型是數據挖掘的重要前沿研究課題,也有人稱復雜類型的數據挖掘是“下一代數據挖掘”。伴隨著數據的增多,需要處理的數據類型也變得越來越復雜,例如數據流、時間序列、時間空間、多媒體和文本數據,雖然現在在很多復雜數據類型的挖掘方面取得了一些進展,但是在應用需求和可用技術之間仍然存在較大的距離。數據挖掘中的隱私保護和信息安全:隨著信息技術的發(fā)展,越來越多的數據涌入了網絡,其中包括大量電子形式的個人信息,而挖掘技術的發(fā)展和科技的更新,在相反的一面上也使大量的個人信息受到了威脅,因此保護隱私的數據挖掘方法愈顯重要<sup>[16]</sup>。5結語Internet的迅猛發(fā)展使得網絡上的各種資源信息異常豐富,而數據的迅速增加與數據分析方法的滯后之間的矛盾也越來越突出,人們希望在對已有的大量數據分析的基礎上進行科學研究、商業(yè)決策或者企業(yè)管理,而數據挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數據分析處理而出現的。數據挖掘技術的發(fā)展給科技的發(fā)展、經濟的推動和每個人的生活都帶來了巨大的便利,數據挖掘技術也被越來越多的行業(yè)和領域所采用,并取得了很好的效果。參考文獻:[1]王惠中,彭安群.數據挖掘研究現狀及發(fā)展趨勢J].工礦自動化,2011(2).[2]潘有能^乂1挖掘:聚類、分類與信息提取[乂].杭州:浙江大學出版社,2012.[3]王桂芹,黃道.數據挖掘技術綜述[C].全國第18屆計算機技術與應用(CACIS)學術會議論文集,2007.[4]李會,胡笑梅.決策樹中ID3算法與C4.5算法分析與比較J].水電能源科學,200
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 去健身房鍛煉身體的說說范文
- 2025年粵教新版九年級歷史上冊月考試卷含答案
- 2025年華師大新版八年級物理下冊月考試卷含答案
- 2025年新世紀版選擇性必修二化學下冊月考試卷
- 2025年滬科新版九年級地理下冊月考試卷含答案
- 2025年湘師大新版必修2歷史上冊階段測試試卷
- 2025年華東師大版九年級科學上冊階段測試試卷含答案
- 2025年外研版八年級歷史上冊階段測試試卷
- 2025年粵教版必修1語文上冊階段測試試卷
- 2025年北師大版選修2地理上冊月考試卷含答案
- 醫(yī)院醫(yī)療質量管理委員會會議記錄五篇
- 《中國高考評價體系》解讀(化學學科)
- 公司發(fā)展能力提升方案
- 電梯安全守則及乘客須知
- IT硬件系統(tǒng)集成項目質量管理方案
- 《容幼穎悟》2020年江蘇泰州中考文言文閱讀真題(含答案與翻譯)
- 水上水下作業(yè)應急預案
- API520-安全閥計算PART1(中文版)
- 2023年廣東省廣州地鐵城際鐵路崗位招聘筆試參考題庫附帶答案詳解
- 商務提成辦法
- 直流電機電樞繞組簡介
評論
0/150
提交評論