![數(shù)據(jù)挖掘入門教程是什么_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/9fcf0309-0ed4-40a3-8735-1525e0b15a6e/9fcf0309-0ed4-40a3-8735-1525e0b15a6e1.gif)
![數(shù)據(jù)挖掘入門教程是什么_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/9fcf0309-0ed4-40a3-8735-1525e0b15a6e/9fcf0309-0ed4-40a3-8735-1525e0b15a6e2.gif)
![數(shù)據(jù)挖掘入門教程是什么_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/9fcf0309-0ed4-40a3-8735-1525e0b15a6e/9fcf0309-0ed4-40a3-8735-1525e0b15a6e3.gif)
![數(shù)據(jù)挖掘入門教程是什么_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/9fcf0309-0ed4-40a3-8735-1525e0b15a6e/9fcf0309-0ed4-40a3-8735-1525e0b15a6e4.gif)
![數(shù)據(jù)挖掘入門教程是什么_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/9fcf0309-0ed4-40a3-8735-1525e0b15a6e/9fcf0309-0ed4-40a3-8735-1525e0b15a6e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘入門教程是什么近幾年,大數(shù)據(jù)被炒得火熱,一大批“不明覺厲”的朋友蜂擁而至,希望能 進入這個行業(yè)大撈一把, 但眾多撞破頭也沒擠進去。 根本原因就是根本沒有理解 什么是數(shù)據(jù)挖掘, 理解數(shù)據(jù)挖掘的相關(guān)概念, 所以, 今天小編就為大家講幾點數(shù) 據(jù)挖掘的入門必知的概念。1、 DataMining 和統(tǒng)計分析有什么不同?硬要去區(qū)分 DataMining 和 Statistics 的差異其實是沒有太大意義的。 一般 將之定義為 DataMining 技術(shù)的 CART 、 CHAID 或模糊計算等等理論方法,也 都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生, 換另一個角度看, DataMining 有相 當大
2、的比重是由高等統(tǒng)計學中的多變量分析所支撐。 但是為什么 DataMining 的 出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言, DataMining 有下列幾項特性:處理大量實際數(shù)據(jù)更強勢, 且無須太專業(yè)的統(tǒng)計背景去使用 DataMining 的 工具;數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件, DataMining 的工具更符合企業(yè)需求;純就理論的基礎點來看, DataMining 和統(tǒng)計分析有應用上的差別,畢竟 DataMining 目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學家檢測用的。 2、 OLAP 能不能代替 DataMining ?所謂 OLA
3、P (OnlineAnalyticalProcess 意指由數(shù)據(jù)庫所連結(jié)出來的在線 分析處理程序。有些人會說:我已經(jīng)有 OLAP 的工具了,所以我不需要 DataMining 。 事實上兩者間是截然不同的,主要差異在于 DataMining 用在 產(chǎn)生假設, OLAP 則用于查證假設。簡單來說, OLAP 是由使用者所主導,使用 者先有一些假設,然后利用 OLAP 來查證假設是否成立;而 DataMining 則是 用來幫助使用者產(chǎn)生假設。所以在使用 OLAP 或其它 Query 的工具時,使用者 是自己在做探索(Exploration ,但 DataMining 是用工具在幫助做探索。 舉個
4、例子來看, 一市場分析師在為超市規(guī)劃貨品架柜擺設時, 可能會先假設 嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用 OLAP 的工具去 驗證此假設是否為真,又成立的證據(jù)有多明顯;但 DataMining 則不然,執(zhí)行 DataMining 的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設或期待可能的結(jié)果, 透過 Mining 技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則, 于是我們可能得到例如尿布 和啤酒常被同時購買的意料外之發(fā)現(xiàn), 這是 OLAP 所做不到的。 DataMining常能挖掘出超越歸納范圍的關(guān)系,但 OLAP 僅能利用人工查詢及可視化的報表來 確認某些關(guān)系,是以 DataMining 此種
5、自動找出甚至不會被懷疑過的數(shù)據(jù)模型 與關(guān)系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制, OLAP 可以和 DataMining 互補,但這項特性是 DataMining 無法被 OLAP 取代的。 3、完整的 DataMining 包含哪些步驟?以下提供一個 DataMining 的進行步驟以為參考:理解業(yè)務與理解數(shù)據(jù);獲取相關(guān)技術(shù)與知識;整合與查詢數(shù)據(jù);去除錯誤或不一致及不完整的數(shù)據(jù);由數(shù)據(jù)選取樣本先行試驗;建立數(shù)據(jù)模型實際 DataMining 的分析工作;測試與檢驗;找出假設并提出解釋;持續(xù)應用于企業(yè)流程中。由上述步驟可看出, DataMining 牽涉了大量的準備工作與規(guī)劃過程
6、, 事實 上許多專家皆認為整套 DataMining 的進行有 80%的時間精力是花費在數(shù)據(jù)前 置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知 DataMining 只是信息挖掘過程中的一個步驟而已, 在進行此步驟前還有許多的 工作要先完成。 4、 DataMining 包含哪些主要功能?DataMining 實際應用功能可分為三大類六分項來說明:Classification 和 Clustering 屬于分類區(qū)隔類; Regression 和 Time-series 屬于推算預測類; Association 和 Sequence 則屬于序列規(guī)則類。Classificatio
7、n 是根據(jù)一些變量的數(shù)值做計算, 再依照結(jié)果作分類。 (計算的 結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為“可能會響應” 或是 “可能不會響應” 兩類 。 Classification 常被用來處理如前所述之郵寄對象 篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已經(jīng)分類好的數(shù)據(jù)來研究它們的特征, 然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預測。 這些我們用來尋找特 征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù), 或是將一個完整數(shù)據(jù)庫做部 份取樣, 再經(jīng)由實際的運作來測試; 譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取 樣來建立一個 ClassificationModel ,再利用這個 Mo
8、del 來對數(shù)據(jù)庫的其它數(shù) 據(jù)或是新的數(shù)據(jù)作分類預測。Clustering 用在將數(shù)據(jù)分群, 其目的在于將群間的差異找出來, 同時也將群 內(nèi)成員的相似性找出來。 Clustering 與 Classification 不同的是,在分析前并不 知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。 Regression 是使用一系列的現(xiàn)有數(shù)值來預測一個連續(xù)數(shù)值的可能值。若將 范圍擴大亦可利用 LogisticRegression 來預測類別變量,特別在廣泛運用現(xiàn)代 分析技術(shù)如類神經(jīng)網(wǎng)絡或決策樹理論等分析工具, 推估預測的模式已不在止于傳 統(tǒng)線性的局限,在預測的功能上大大增
9、加了選擇工具的彈性與應用范圍的廣度。Time-SeriesForecasting 與 Regression 功能類似, 只是它是用現(xiàn)有的數(shù)值 來預測未來的數(shù)值。兩者最大差異在于 Time-Series 所分析的數(shù)值都與時間有 關(guān)。 Time-SeriesForecasting 的工具可以處理有關(guān)時間的一些特性,譬如時間 的周期性、 階層性、 季節(jié)性以及其它的一些特別因素 (如過去與未來的關(guān)連性 。Association 是要找出在某一事件或是數(shù)據(jù)中會同時出現(xiàn)的東西。 舉例而言, 如果 A 是某一事件的一種選擇,則 B 也出現(xiàn)在該事件中的機率有多少。 (例如:如果顧客買了火腿和柳橙汁,那么這個顧
10、客同時也會買牛奶的機率是 85%。 SequenceDiscovery 與 Association 關(guān)系很密切,所不同的是 Sequence Discovery 中事件的相關(guān)是以時間因素來作區(qū)隔 (例如:如果 A股票在某一天上千鋒 大數(shù)據(jù) 視頻教程 漲 12%, 而且當天股市加權(quán)指數(shù)下降, 則 B 股票在兩天之內(nèi)上漲的機率是 68%) 5、Data Warehousing 和 Data Mining 的關(guān)系為何? 若將 Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining 就是深 入礦坑采礦的工作。畢竟 Data Mining 不是一種無中生有的魔術(shù),也不是點石 成金
11、的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待 Data Mining 能挖掘出 什么有意義的信息的。 要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技 的進步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單 地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實 就是一個經(jīng)過處理整合, 且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng) (Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息 技術(shù)的角度來看,數(shù)據(jù)倉庫的目標是在組織中,在正確的時間,將正確的數(shù)據(jù)交 給正確的人。 許多人對于 Data Warehousing 和 Data Mining 時常混淆, 不知如何分辨。 其實,數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個新主題,利用計算機系統(tǒng)幫助我們操作、計 算和思考,讓作業(yè)方式改變,決策方式也跟著改變。 數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫 中整合 做真實的自己-用良心做教育 千鋒 大數(shù)據(jù) 視頻教程 而來的數(shù)據(jù), 特別是指事務處理系統(tǒng) OLTP (On-Line Transactional Processing) 所得來的數(shù)據(jù)。 將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)昂哭中,而公司的決策者則利用 這些數(shù)據(jù)作決策;但是,這個轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 有關(guān)抵押借款合同范文
- oem委托加工合同協(xié)議常用范本年
- 變電站安裝工程承包合同模板
- 2024年高考英語 (全國甲卷)真題詳細解讀及評析
- 個人商品購銷合同
- 2025年外研版九年級歷史下冊月考試卷含答案
- 貨物運輸合同、法規(guī)與保險
- 2025年外研版九年級歷史下冊階段測試試卷
- 造紙機購買合同
- 民政局離婚的協(xié)議書范本
- 開工第一課安全培訓內(nèi)容
- 湖北省石首楚源“源網(wǎng)荷儲”一體化項目可研報告
- 經(jīng)顱磁刺激增強定神狀態(tài)的研究
- 2024年國新國際投資有限公司招聘筆試參考題庫含答案解析
- 食堂餐廳服務方案投標方案(技術(shù)標)
- Creo-7.0基礎教程-配套課件
- 六年級人教版上冊數(shù)學計算題練習題(及答案)100解析
- 超聲科質(zhì)量控制制度及超聲科圖像質(zhì)量評價細則
- 初中物理滬粵版八年級下冊《第六章 力和機械》章節(jié)練習(含答案)
- 金礦管理制度
- 橋梁樁基礎施工概述及施工控制要點
評論
0/150
提交評論