《數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)和Weka》_第1頁
《數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)和Weka》_第2頁
《數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)和Weka》_第3頁
《數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)和Weka》_第4頁
《數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)和Weka》_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)及Java實現(xiàn)n原書 英文版Data MiningPractical Machine Learning Tools and Techniques with Java Implementations,新西蘭 Ian H. Witten、Eibe Frank著nWeka An open source framework for text analysis implemented in Java that is being developed at the University of Waikato in New Zealand. http:/www.cs.waikato.a

2、c.nz/ml/weka/ http:/ 概念:KDD、ML、OLAP與DMnKDD(Knowledge Discovery in Database)是一種知識發(fā)現(xiàn)的一連串過程。nML(Machine Learning)KD,不限于Database的數(shù)據(jù)過程:挖掘數(shù)據(jù)模式表示驗證預(yù)測nOLAP(Online Analytical Process)是數(shù)據(jù)庫在線分析過程。n數(shù)據(jù)挖掘(data Mining)只是KDD/ML的一個重要組成部分。nDM用在產(chǎn)生假設(shè) ,而OLAP則用于查證假設(shè)概念:DM與DBnData Preparation要占Data mining過程70工作量nData base

3、Data mining會說話的數(shù)據(jù)庫概念:Data Miningn概念:數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程Key Characteristics of Data Mining: Large amount of data Discovering previously unknown, hidden information Extracting valuable information Making important business decision using the informationnDM/ML的一些要點 The data is stored e

4、lectronically and the search is automated by computer; About solving problems by analyzing data already present in databases; Defined as the process of discovering patterns in data; This book is aboutTechniques for finding and describing structural patterns in data. structural patterns表示法:表、樹、規(guī)則概念:M

5、achine LearningnTo learn: to get knowledge of study, experience, or being taught; to become aware by information or from observation; to commit to memory; to be informed of, ascertain(確定); to receive instructionnShortcomings when it comes to talking about computes Its virtually impossible to test if

6、 learning as bean achieved or not. This ties learning to performance rather than knowledge簡單例子:天氣問題*n天氣數(shù)據(jù):weather.nominal.arffn運行Weka,載入數(shù)據(jù),選擇算法id3n預(yù)測(決策樹) outlook = rainy | windy = TRUE: no | windy = FALSE: yesn測試方法:采用10 Cross-validation的n測試結(jié)果:Confusion Matrix(P.138)和準(zhǔn)確率 a b no Ordinal:距離無法度量,如hot m

7、ild cool Interval:距離可度量,如整數(shù) Ratio:如58.1%輸入:Preparing the input*nGathering the data together The data must be assembled, integrated, and cleaned up(Data Warehousing) Selecting the right type and level of aggregation is usually critical for successn屬性類型: ARFF文件格式(備注:weather.nominal.arff) 支持兩種基本類型:nomi

8、nal and numeric,盡可能用前者 n屬性值 Missing value:去掉該樣本、替代、(用?來表示字段值) Inaccurate value:一粒老鼠屎需要領(lǐng)域知識!nGetting to know your data! 數(shù)據(jù)清理一個耗時、費力,卻很重要的過程, Garbage in, garbage out!輸出:Knowledge representationnDecision tablesnDecision treesnClassification rules If a and b then xnAssociation rules:多個結(jié)果 If then outlook

9、=sunny and humidity=highnRules with exceptions (P.66) If then exceptelse exceptnTrees for numeric predictionnInstance-based representationnClusters算法:The basic methodsnSimplicity-first:simple ideas often work very well Very simple classification rules perform well on most commonly used datasets (Hol

10、te 1993)nInferring rudimentary rules (算法:1R、1-Rule)nStatistical modeling(算法:Nave Bayes) 使用所有屬性,假設(shè)屬性無關(guān)、且同等重要nDivide and conquer: Constructing decision trees 循環(huán)選擇一個屬性來分割樣本 (算法:ID3、C4.5)nCovering algorithms:Constructing rules(算法:Prism) Take each class in turn and seek a way of covering all instances in

11、 it, at the same time excluding instances not in the class. Covering approach導(dǎo)出一個規(guī)則集而不是決策樹算法:The basic methodsnMining association rules:參數(shù):coverage(support),accuracy(confidence)nLinear models(參考cpu.arff例子) 主要用于值預(yù)估和分類(Linear regression)nInstance-based learning 算法:Nearest-neighbor, K-Nearest-neighbor評

12、估可信度*n三個數(shù)據(jù)集: Training data:用于導(dǎo)出模型,越大則模型越好 Validation data:用于優(yōu)化模型參數(shù) Test data:用于計算最終模型的錯誤率,越大越準(zhǔn)確n原則:測試數(shù)據(jù)無論如何也不能用于模型的訓(xùn)練n問題:如果樣本很少,如何劃分?n方法: N-fold Cross-validation,(n=3,10) Leave-one-out Cross-validation Bootstrap (e=0.632): best for very small datasetsnCounting the cost: Lift charts (Respondents /Sam

13、ple Size) 、ROC curves (P.141)nThe MDL principle (Minimum Description Length) Occams Razor:Other things being equal, simple theories are preferable to complex ones. 愛因斯坦:Everything should be made as simple as possible, but no simpler.實現(xiàn):Real machine learning schemes (略)n參考閱讀: Ch6.1 Decision tree Ch6.

14、2 Classification rules Ch6.3 Extending linear classification: Support vector machines Ch6.4 Instance-based learning Ch6.5 Numeric prediction Ch6.6 Clustering改進(jìn):Engineering the input and outputn數(shù)據(jù)工程 Attribute selection Discretizing(離散化) numeric attributes Automatic data cleaningnCombining multiple mo

15、dels Bagging Boosting Stacking Error-correcting output codes未來:Looking forwardn大數(shù)據(jù)集n可視化:輸入、輸出nIncorporating domain knowledge Metadata often involves relations among attributesn文本挖掘n挖掘Web回顧:目錄nDM綜合的技術(shù)領(lǐng)域nDM的功能分類nDM的具體應(yīng)用nDM的步驟nDM的理論技術(shù)和算法nDM的常用分析工具回顧:DM綜合的技術(shù)領(lǐng)域Database systems, Data Warehouses, OLAP Mach

16、ine learningStatistical and data analysis methodsVisualizationMathematical programmingHigh performance computing回顧:DM的功能分類n分類方法一分類(classification)估計(estimation)預(yù)測(prediction)關(guān)聯(lián)分組(affinity grouping)聚類(clustering)n分類方法二ClassificationRegressionTime-Series Forecasting ClusteringAssociationSequence Disco

17、very回顧:DM的具體應(yīng)用n市場-購物藍(lán)分析n客戶關(guān)系管理n尋找潛在客戶n提高客戶終生價值n保持客戶忠誠度n行銷活動規(guī)劃n預(yù)測金融市場方向 保險欺詐偵察 客戶信用風(fēng)險評級 電話盜打 NBA球員強(qiáng)弱分析 信用卡可能呆帳預(yù)警 星際星體分類回顧:DM的步驟*n一種步驟劃分方式 理解資料與進(jìn)行的工作 獲取相關(guān)知識與技術(shù)(Acquisition) 整合與查核資料(Integration and checking) 去除錯誤、不一致的資料(Data cleaning) 模式與假設(shè)的演化(Model and hypothesis development) 實際數(shù)據(jù)挖掘工作 測試與核查所分析的資料(Test

18、ing and verification) 解釋與運用(Interpretation and use)n另一種步驟劃分方式(見本頁的備注?。﹏不管那種方式,前期數(shù)據(jù)處理占很大比率回顧:DM的理論技術(shù)和算法n統(tǒng)計分析方法(Statistical Methods)n決策樹(Decision Tree)n人工神經(jīng)網(wǎng)絡(luò)(Neural Network)n規(guī)則歸納法(Rules Induction)n遺傳算法(Genetic algorithms)n常用的分析DM工具回顧:DM的常用分析工具nCase-based Reasoning nData Visualization nFuzzy Query and

19、 Analysis nKnowledge Discovery nNeural Networks 典型案例:英國Safewayn公司簡介 英國Safeway的年銷售量超過一百億美金,員工接近七萬名,是英國第三大的連鎖超級市場,提供的服務(wù)種類則達(dá)三十四種。 n問題 在英國市場運用傳統(tǒng)的技術(shù),如更低的價位、更多的店面、以及更多種類的產(chǎn)品,競爭已經(jīng)越來越困難了 n問題確認(rèn): 必須以客戶客戶為導(dǎo)向,而非以產(chǎn)品與店家為導(dǎo)向。 必須了解六百萬客戶所做的每一筆交易,以及這些交易彼此之間的關(guān)連性。 英國Safeway想要知道哪些種類的客戶買了哪些種類的產(chǎn)品以及購買的頻率,以建立個人導(dǎo)向的市場 典型案例:英國Safewayn數(shù)據(jù)來源 公司開始發(fā)信用卡給客戶,客戶用這種信用卡結(jié)帳可以享受各種優(yōu)惠,這種信用卡就成為該公司在500家店面搜集六百萬客戶資料的網(wǎng) n使用工具: 使用IBM Intelligent Miner 從數(shù)據(jù)庫中取得商業(yè)知識 。 根據(jù)客戶的相關(guān)資料,將客戶分為150類。然后再用Association的技術(shù)來比較這些資料集合 ,然后將列出產(chǎn)品吸引力的清單 。 典型案例:英國Safew

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論