




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘——中國檢驗檢疫科學(xué)研究院-楊美紅數(shù)據(jù)處理技術(shù)的演進(jìn)什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的流程數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘的功能技術(shù)的演進(jìn)傳統(tǒng)數(shù)據(jù)分析(在20世紀(jì)70年代后)數(shù)據(jù)倉庫(20世紀(jì)90年代)-數(shù)據(jù)挖掘(與數(shù)據(jù)倉庫緊密相連)-智能分析系統(tǒng)(BI)--包含數(shù)據(jù)挖掘-大數(shù)據(jù)分析(BI升級版)什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD),是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。1.技術(shù)上的定義及含義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。2.商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘常用技術(shù)與算法1、人工神經(jīng)網(wǎng)絡(luò)
2、決策樹
3、遺傳算法
4、近鄰算法
5、規(guī)則推導(dǎo)6、算法:分類、回歸、分割、關(guān)聯(lián)、順序分析數(shù)據(jù)挖掘的常用方法利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。②回歸分析?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。
④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。⑤特征。特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識別、評價和預(yù)警等方面。⑦Web頁挖掘。數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。
1、自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。
2、關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
3、聚鹿類數(shù)據(jù)必庫中剝的記寄錄可辣被化既分為私一系薦列有浴意義列的子速集,抱即聚花類。目聚類愉增強(qiáng)通了人光們對候客觀拜現(xiàn)實最的認(rèn)妨識,壩是概俘念描灣述和拘偏差顫分析況的先決細(xì)條件。聚店類技況術(shù)主里要包剩括傳附統(tǒng)的盡模式濃識別勇方法互和數(shù)亡學(xué)分錘類學(xué)擺。80年代惱初,Mc范ha價ls裳ki提出糟了概疏念聚雷類技變術(shù)牞舟其要悟點是穿,在依劃分說對象幟時不貫僅考屬慮對痛象之燭間的懲距離璃,還敗要求獅劃分德出的姐類具赴有某林種內(nèi)偽涵描固述,寒從而字避免節(jié)了傳共統(tǒng)技男術(shù)的梨某些天片面仇性。4、概威念描前述概念稿描述投就是哥對某追類對槳象的轎內(nèi)涵艙進(jìn)行粉描述驕,并橫概括骨這類秤對象須的有若關(guān)特淘征。歪概念職描述口分為些特征康性描脅述和巷區(qū)別溪性描站述,畏前者鳳描述廳某類錫對象肥的共筆同特浩征,控后者箱描述豎不同藝類對再象之集間的百區(qū)別厭。生息成一悶個類央的特像征性泳描述炮只涉監(jiān)及該暴類對陰象中非所有斷對象發(fā)的共省性。暑生成旁區(qū)別洋性描貿(mào)述的拔方法撕很多區(qū),如決策輝樹方賠法、遺傳蛙算法等。5、偏籮差檢茂測數(shù)據(jù)茶庫中抖的數(shù)青據(jù)常黑有一沸些異甘常記俗錄,迷從數(shù)央據(jù)庫紅中檢刻測這楊些偏箏差很豬有意倆義。鄰偏差呼包括橋很多免潛在臺的知肺識,絨如分驢類中暢的反游常實睬例、折不滿慌足規(guī)拆則的駕特例登、觀醉測結(jié)卻果與襖模型栗預(yù)測廊值的漁偏差脈、量榨值隨當(dāng)時間士的變削化等蓋。偏寶差檢建測的感基本遼方法鴨是,特尋找霸觀測午結(jié)果械與參螞照值坊之間隊有意騰義的縫差別踩。數(shù)據(jù)萬挖掘棍的流擠程(1優(yōu)).確定碼業(yè)務(wù)射對象(2憶).數(shù)據(jù)茄準(zhǔn)備1)、數(shù)鞏據(jù)的潛選擇2)、數(shù)晨據(jù)的悄預(yù)處謀理3)、數(shù)膏據(jù)的根轉(zhuǎn)換(3帽).數(shù)據(jù)何挖掘(4曬).結(jié)果頭分析(5際).知識撇的同鐵化數(shù)據(jù)獸挖掘瘋需要訊的人且員數(shù)據(jù)羞挖掘抽過程匪的分泡步實啟現(xiàn),不同傘的步崇會需森要是莊有不撒同專降長的幅人員,他們恥大體轟可以勢分為襖三類.業(yè)務(wù)狐分析筑人員:要求坡精通未業(yè)務(wù),能夠托解釋貓業(yè)務(wù)關(guān)對象,并根膽據(jù)各姿業(yè)務(wù)補(bǔ)對象阻確定錢出用眨于數(shù)輝據(jù)定蒸義和替挖掘墓算法悶的業(yè)勸務(wù)需服求.數(shù)據(jù)袋分析茅人員:精通陶數(shù)據(jù)趴分析晝技術(shù),并對連統(tǒng)計省學(xué)有慈較熟搭練的賭掌握,有能榨力把居業(yè)務(wù)港需求續(xù)轉(zhuǎn)化營為數(shù)期據(jù)挖如掘的泄各步濁操作,并為間每步免操作圖選擇起合適逐的技蹄術(shù).數(shù)據(jù)還管理慨人員:精通仇數(shù)據(jù)繼管理妙技術(shù),并從燙數(shù)據(jù)興庫或數(shù)據(jù)嘉倉庫中收擔(dān)集數(shù)番據(jù).數(shù)據(jù)奪挖掘船過程斜工作磚量分篩配在數(shù)宣據(jù)挖睛掘中犬被研淹究的飄業(yè)務(wù)靠對象孕是整布個過驕程的煩基礎(chǔ),它驅(qū)罰動了糕整個膊數(shù)據(jù)級挖掘推過程,也是宵檢驗李最后怒結(jié)果雷和指巾引分我析人崗員完駝成數(shù)恒據(jù)挖譽(yù)掘的郊依據(jù)那和顧配問.各步限驟是書按一陰定順練序完你成的,當(dāng)然翠整個就過程椒中還幸會存讓在步驗驟間遇的反障饋.數(shù)據(jù)著挖掘箭的過示程并繞不是篩自動進(jìn)的,絕大短多數(shù)倡的工繩作需單要人酬工完宅成.整個誼過程笛中工問作量60做%的時獄間用惑在數(shù)飾據(jù)準(zhǔn)厲備上,這說坑明了違數(shù)據(jù)左挖掘紡對數(shù)薪據(jù)的亡嚴(yán)格禿要求,而后私挖掘遼工作徐僅占籍總工楚作量喊的10解%.數(shù)據(jù)倍挖掘典與傳死統(tǒng)分晝析方展法的些區(qū)別數(shù)據(jù)滅挖掘嫌與傳毀統(tǒng)的數(shù)據(jù)必分析(如查系詢、洲報表辮、聯(lián)農(nóng)機(jī)應(yīng)吐用分霉析)的本費質(zhì)區(qū)炎別是冶數(shù)據(jù)仗挖掘陡是在籌沒有嗓明確鍵假設(shè)睜的前吉提下夾去挖斑掘信租息、敏發(fā)現(xiàn)壞知識.數(shù)據(jù)捧挖掘倍所得肺到的悶信息剛應(yīng)具笑有先張未知,有效礙和可往實用許三個列特征.先前添未知跑的信皆息是寄指該叫信息桿是預(yù)騙先未南曾預(yù)帝料到尺的,既數(shù)換據(jù)挖灑掘是巴要發(fā)越現(xiàn)那閉些不雷能靠妨直覺發(fā)發(fā)現(xiàn)啟的信稻息或汪知識,甚至架是違蝕背直嘩覺的無信息訪或知四識,挖掘物出的丙信息藏越是樸出乎輛意料,就可銅能越喪有價犬值.在商牛業(yè)應(yīng)正用中膚最典陡型的泰例子找就是嘆一家警連鎖鮮店通側(cè)過數(shù)誕據(jù)挖觸掘發(fā)奴現(xiàn)了潛小孩你尿布刪和啤喘酒之踢間有行著驚車人的反聯(lián)系.分析貿(mào)數(shù)據(jù)絲式的準(zhǔn)牧備與存規(guī)劃1、明期確分夕析數(shù)窯據(jù)的鄭目的2、合揮理安事排時膽間3、重營收集壁也要尾重分武析4、收顫集數(shù)仇據(jù)太餅多,掠導(dǎo)致鞠無法初整理四及分驕析時壓適度普簡化郵信息5、分跌析數(shù)遷據(jù)的邪目的歲明確循,用視數(shù)據(jù)眠來支疏撐目請的6、表胃格美棋觀簡夜練,畢一般左采用ex瓣ce昆l圖表大數(shù)甚據(jù)與艦工作礎(chǔ)相關(guān)“大洪數(shù)據(jù)霧”多熱個定滅義,斃百度祖知道雖,互罷聯(lián)網(wǎng)摟周刊桑,研患究機(jī)沫構(gòu)Ga虛rt沫ne堵r均發(fā)潛布了王各自傅定義頌。個爆人更姻傾向蒸于互編聯(lián)網(wǎng)康周刊嚴(yán)定義煮:大注數(shù)據(jù)早讓我比們以添一種灑前所產(chǎn)未有算的方課式,俱通過全對海陵量數(shù)捏據(jù)進(jìn)石行分卵析,巨獲得皂有巨澆大價被值的該產(chǎn)品瘡和服陰務(wù),準(zhǔn)或深董刻的首洞見月,最并終形示成變海革之緣瑞力。大數(shù)材據(jù)更曬多的封是一躍種思據(jù)維,給關(guān)聯(lián)椒性思?xì)W維,謀代替冊以往昆追求聲的因負(fù)果式賄思考劑。研究私數(shù)據(jù)您的目良的從最樂開始津的“蔑情報溫”到腦現(xiàn)在貢的“弦大數(shù)腿據(jù)”在信專息越舌來越唇多,隙
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營養(yǎng)師職業(yè)技能提升的路徑試題及答案
- 2025年商業(yè)地產(chǎn)市場現(xiàn)狀分析試題及答案
- 2024營養(yǎng)師考試重要試題及答案
- 2025年房地產(chǎn)經(jīng)紀(jì)行業(yè)新動向試題及答案
- 營養(yǎng)師資格證歷年試題及答案
- 營養(yǎng)師考試技巧與試題及答案
- 人際溝通技巧在房地產(chǎn)中的應(yīng)用試題及答案
- 2024年營養(yǎng)師資格考生須知試題及答案
- 提升競爭力的2025年房地產(chǎn)經(jīng)紀(jì)試題及答案
- 成功營養(yǎng)師的復(fù)習(xí)指南試題及答案
- 基于核心素養(yǎng)的高中數(shù)學(xué)“教、學(xué)、評”一致性研究
- GB/T 44768-2024配電網(wǎng)線損理論計算導(dǎo)則
- 體育運動中的交流與合作 課件 2024-2025學(xué)年人教版(2024)初中體育與健康七年級全一冊
- 小學(xué)科學(xué)湘科版六年級下冊全冊同步練習(xí)含答案
- 大班科學(xué)《燈的故事》PPT優(yōu)質(zhì)課件
- 反激式開關(guān)電源電子數(shù)據(jù)表格(自帶公式)
- (完整word版)蘇教版初一下冊英語單詞
- 床旁血液濾過
- “挑戰(zhàn)杯”優(yōu)秀組織獎申報匯報材料
- 越南礦產(chǎn)資源分布
- 冉紹爾——湯森效應(yīng)的觀察及研究
評論
0/150
提交評論