


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、探索數(shù)據(jù)挖掘關(guān)于數(shù)據(jù)挖掘技術(shù)的與深思論文范文 摘要:隨著信息技術(shù)的發(fā)展,人類積累的數(shù)據(jù)量急劇增長。但是,由于數(shù)據(jù)量的擴(kuò)大和數(shù)據(jù)涉及面的加寬,以往的數(shù)據(jù)分析方法已經(jīng)不再適用,大量的數(shù)據(jù)需要分析、處理,并從中抽取有價(jià)值的數(shù)據(jù)和信息,數(shù)據(jù)挖掘技術(shù)由此誕生。本文對數(shù)據(jù)挖掘技術(shù)進(jìn)行了比較全面的介紹,主要介紹了目前在數(shù)據(jù)挖掘中常用的算法和工具,為解決這一難題提供了希望。關(guān)鍵詞:數(shù)據(jù)挖掘;算法1007-9599 (2012) 15-0000-02隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。如何處理這些豐富的數(shù)據(jù),使人們得到有益的信息成了目前亟待
2、解決的問題。傳統(tǒng)的統(tǒng)計(jì)技術(shù)不能完成數(shù)據(jù)的分析。因此,綜合各種學(xué)科和技術(shù)的數(shù)據(jù)挖掘技術(shù)產(chǎn)生。1 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的,隱含的、事先未知而潛在有用的,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式的信息和知識。簡言之,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。2 數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。 為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù)
3、,并查找特定類型的模式和趨勢。算法根據(jù)您的數(shù)據(jù)創(chuàng)建的挖掘模型可以采用多種形式,這包括:(1)說明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。(2)預(yù)測結(jié)果并描述不同條件是如何影響該結(jié)果的決策樹。(3)預(yù)測銷量的數(shù)學(xué)模型。算法分類很多,但其中經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。1)C4.5就是一個決策樹算法,它是決策樹核心算法ID3的改進(jìn)算法,2)CART也是一種決策樹算法,相對于上著有條件實(shí)現(xiàn)一個節(jié)點(diǎn)下面有多個子樹的多元分類,CART只是分類兩個子樹,所以說CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。3)K-
4、Means 算法是一個聚類算法,首先從n個數(shù)據(jù)對象任意選擇k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。4)Apriori算法通用于關(guān)聯(lián)規(guī)則。通過頻繁項(xiàng)集的一些規(guī)律來減少計(jì)算復(fù)雜度。5)EM算法是通過先假設(shè)幾個值,然后通過反復(fù)迭代,以期望得到最好的擬合。6)PageRank是Google算法的重要內(nèi)容。PageRank是通過網(wǎng)頁間的連接反復(fù)來實(shí)現(xiàn)。7)AdaBoost是一種迭代算法,它根據(jù)
5、每次訓(xùn)練集之中每個樣本的分類和總體分類來確定樣本。算法的完成時通過數(shù)據(jù)的改變和分布來實(shí)現(xiàn)。8)KNN算法是一個理論上比較成熟的方法,實(shí)現(xiàn)起來就是對每個訓(xùn)練樣本都計(jì)算與其相似度,選擇相似度Top-K個訓(xùn)練樣本出來,看這K個樣本中那個類別的多些,誰多選誰。9)SVM算法是一種監(jiān)督式學(xué)習(xí)的方法,是想找一個分類得最”好”的分類線/分類面。10)NB算法是ML中的一個非常基礎(chǔ)和簡單的算法,NB認(rèn)為各個特征是獨(dú)立的,所以一個樣本,可以通過對其所有出現(xiàn)特征在給定類別的概率相乘。3 數(shù)據(jù)挖掘的主要方法目前,研究數(shù)據(jù)挖掘的方法有很多,主要方法包括傳統(tǒng)統(tǒng)計(jì)方法,粗集方法,模糊集方法、統(tǒng)計(jì)分析、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排
6、斥反例方法等。(1)傳統(tǒng)統(tǒng)計(jì)方法:傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。(2)粗集方法:粗集是一種處理含糊性和不確定性的數(shù)學(xué)工具,它把那些無法確認(rèn)的個體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。(3)模糊集方法:模糊處理技術(shù)是一種用精確的數(shù)學(xué)語言對模糊性進(jìn)行描述的方法。模糊集則對集合中子類的邊界的不清楚定義進(jìn)行模型化,它體現(xiàn)的是隸屬邊界的模糊性。(4)統(tǒng)計(jì)分析方法主要指數(shù)理統(tǒng)計(jì)。它側(cè)重于數(shù)據(jù)的收集、整理和分析,從而找出現(xiàn)象的規(guī)律性或者是數(shù)據(jù)的特征,做出正確的判斷??蛇M(jìn)行常用統(tǒng)計(jì)、回歸分析、相關(guān)分析和差異分析
7、。(5)神經(jīng)網(wǎng)絡(luò)是由大量的、簡單的神經(jīng)元廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細(xì)胞為基礎(chǔ)的生物模型。典型的神經(jīng)網(wǎng)絡(luò)模型主要分三大類:前饋式神經(jīng)網(wǎng)絡(luò)模型、反饋式神經(jīng)網(wǎng)絡(luò)模型和自組織映射神經(jīng)網(wǎng)絡(luò)模型。(6)覆蓋正例排斥反例方法是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則,從而找出規(guī)律。就是在正例集合中任意選一個種子,然后到反例集合中逐個比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。比較有代表性的算法有aq11方法、洪家榮的aq15方法和ae5方法。4 數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個不斷反復(fù)重復(fù)過程,通常涉及定義商業(yè)問題、 建立數(shù)據(jù)挖掘模型、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模
8、型、評價(jià)模型和實(shí)施等步驟。(1)定義商業(yè)問題:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標(biāo)有明確的定義。(2)建立數(shù)據(jù)挖掘模型:根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中。在數(shù)據(jù)庫中,可以數(shù)據(jù)收集、數(shù)據(jù)描述、選擇、合并整合、構(gòu)建元數(shù)據(jù)等。(3)分析數(shù)據(jù):察看數(shù)據(jù)挖掘模型以獲得更詳細(xì)的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。(4)準(zhǔn)備數(shù)據(jù):這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E劃分成4個部分:選擇變量、選擇記錄、創(chuàng)建
9、新變量、轉(zhuǎn)換變量。(5)建立模型:準(zhǔn)備好數(shù)據(jù)和類型,就需要選擇適合的模型。選取有用的參數(shù)和數(shù)據(jù),根據(jù)參數(shù)來生成模型。選擇什么樣的模型決定了處。 理那些數(shù)據(jù)。(6)評價(jià)模型:模型建好之后,需對模型進(jìn)行一個全面的評估。評估包括模型的評估結(jié)果和解釋模型的價(jià)值。最終生成一個最優(yōu)的模型,該模型應(yīng)用于實(shí)際。隨著應(yīng)用數(shù)據(jù)的不同,該模型的準(zhǔn)確率會發(fā)生變化。(7)實(shí)施:模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。一種是分析人員對模型應(yīng)用的表現(xiàn)進(jìn)行監(jiān)控,通過監(jiān)控得到的數(shù)據(jù)作為參考,從而對模型進(jìn)行修正和提出行動方案建議。另一種是把模型應(yīng)用到數(shù)據(jù)集上,不同的數(shù)據(jù)集會有不同的結(jié)構(gòu),從而找到運(yùn)作規(guī)律的變化。5 數(shù)據(jù)挖掘的主要工具源于:代寫碩士論文數(shù)據(jù)挖掘的工具繁多,但主要的有三類:通用型工具、綜合數(shù)據(jù)挖掘工具和面向特定應(yīng)用的工具。通用型工具采用普通的數(shù)據(jù)挖掘算法,處理多種形式的數(shù)據(jù)挖掘,挖掘內(nèi)容由用戶自己來決定。數(shù)據(jù)處理的類型是普通的,其中包括的主要工具有IBM 公司的QUEST 系統(tǒng),SGI 公司的MineSet 系統(tǒng),綜合數(shù)據(jù)挖掘工具這一部分市場反映了商業(yè)對具有多功能的決策支持工具的真實(shí)和迫切的需求。商業(yè)要求該工具能提供管理報(bào)告、在線分析處理和普通結(jié)構(gòu)中的數(shù)據(jù)挖掘能力。面向特定應(yīng)用工具這一部分工具正在快速發(fā)展,這些工具是縱向的、貫穿這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 5.1透鏡 說課稿2025年初中 人教版物理八年級上冊
- 學(xué)校結(jié)核病篩查對早期發(fā)現(xiàn)結(jié)核病的作用
- 《商業(yè)插畫創(chuàng)意與表現(xiàn)》課件-【2】商業(yè)插畫的發(fā)展歷程
- 《國際市場營銷》課件-第7章 國際市場價(jià)格策略
- 瑜伽館改造粉刷施工合同
- 內(nèi)部培訓(xùn)計(jì)劃和實(shí)施情況統(tǒng)計(jì)表
- 銀行行業(yè)互聯(lián)網(wǎng)金融創(chuàng)新方案
- 企業(yè)中層管理人員培訓(xùn)方案
- 農(nóng)業(yè)防治病蟲害的方法有哪些
- 三農(nóng)養(yǎng)殖業(yè)技術(shù)手冊
- 《浙江省建設(shè)工程專業(yè)工程師和高級工程師職務(wù)任職資格評價(jià)條件》
- JT∕T 795-2023 事故汽車修復(fù)技術(shù)規(guī)范
- 預(yù)防接種門診驗(yàn)收表4-副本
- 2024年交管12123學(xué)法減分考試題庫及完整答案(典優(yōu))
- 數(shù)智時代的AI人才糧倉模型解讀白皮書(2024版)
- (2024年)高中化學(xué)校本課程教材《綠色化學(xué)》
- 中醫(yī)-血家藥方四物湯
- 2024年北師大版八年級下冊數(shù)學(xué)第二章綜合檢測試卷及答案
- 2024年電廠講解直流系統(tǒng)PPT通用課件
- 企業(yè)國防動員教育培訓(xùn)方案
- 必修一第三單元 單元挑戰(zhàn) 探究密碼安全問題課件
評論
0/150
提交評論