




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
R語(yǔ)言在數(shù)據(jù)挖掘中的運(yùn)用進(jìn)行數(shù)據(jù)挖掘之前數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放一個(gè)一致的數(shù)據(jù)存儲(chǔ)的過(guò)程數(shù)據(jù)集成包括數(shù)據(jù)集成和模式集成。例如:在一個(gè)企業(yè)的兩個(gè)數(shù)據(jù)源中我們分別以cust-id和customer-no來(lái)標(biāo)識(shí)用戶,數(shù)據(jù)集成時(shí),把標(biāo)識(shí)相同的客戶和在一起A.cust-id==B.customer-no用戶標(biāo)識(shí)的定義不同A表:ID=”23442”B表:ID=”SH23442”String(A.cust-id)==String(B.customer-no).Substr(2,length-2)進(jìn)行數(shù)據(jù)挖掘之前-數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理原因:①現(xiàn)實(shí)世界的數(shù)據(jù)是“雜亂的”。②數(shù)據(jù)挖掘需要高質(zhì)量的數(shù)據(jù)。如何對(duì)數(shù)據(jù)進(jìn)行預(yù)處理◆數(shù)據(jù)清理◆數(shù)據(jù)轉(zhuǎn)換◆數(shù)據(jù)的規(guī)約數(shù)據(jù)清理格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除處理缺失數(shù)據(jù)處理重復(fù)數(shù)據(jù)處理噪聲數(shù)據(jù)處理異常數(shù)據(jù)目標(biāo):提高數(shù)據(jù)質(zhì)量的四個(gè)環(huán)節(jié)數(shù)據(jù)轉(zhuǎn)換分類:常規(guī)數(shù)據(jù)轉(zhuǎn)換通常通過(guò)線性或非線性的數(shù)學(xué)變換方法等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。非常規(guī)數(shù)據(jù)的數(shù)據(jù)變換根據(jù)數(shù)據(jù)的特性會(huì)有較多的形式各異的轉(zhuǎn)換方式。數(shù)據(jù)轉(zhuǎn)換常見(jiàn)轉(zhuǎn)換方法:為了減少數(shù)據(jù)復(fù)雜度,用高層概念替換底層概念。專注于數(shù)據(jù)規(guī)范化,是數(shù)據(jù)按比例縮放,落入特定區(qū)域。做屬性構(gòu)選,通過(guò)一個(gè)或多個(gè)屬性的變換計(jì)算構(gòu)造出新的屬性。數(shù)據(jù)轉(zhuǎn)換⑴標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化所謂標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化是將各個(gè)記錄值減去記錄值的平均值在除以記錄值的標(biāo)準(zhǔn)差X’=(Xij-Xia)/SinXia為平均值,表達(dá)式為Xia=1/n∑Xijj=1n設(shè)Sij是標(biāo)準(zhǔn)差有:Si=√1/n∑(Xij-Xia)j=1數(shù)據(jù)轉(zhuǎn)換(2)極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化變換是將各個(gè)記錄值減去記錄值的平均值,在除以記錄值的極差。X’ij=(Xij-Xia))/(max(Xij)-min(Xij))(3)極差正規(guī)化
X’ij=(Xij-min(Xij))/(max(Xij)-min(Xij))將各個(gè)記錄值減去記錄值的極小值,在除以記錄值的極差。數(shù)據(jù)轉(zhuǎn)換最小—最大規(guī)范化處理將所有數(shù)據(jù)轉(zhuǎn)化到我們新設(shè)定的最小和最大值的區(qū)間內(nèi)。數(shù)據(jù)的規(guī)約更少的數(shù)據(jù),提高挖掘效果更高的數(shù)據(jù)挖掘處理精度簡(jiǎn)單的數(shù)據(jù)挖掘處理結(jié)果更少的數(shù)據(jù)特征刪除列刪除行減少列中的值效果:由于數(shù)據(jù)規(guī)約對(duì)原始數(shù)據(jù)通常都是有損的,盡量不使用規(guī)約?;静僮鳎篟語(yǔ)言簡(jiǎn)介R語(yǔ)言基本語(yǔ)法結(jié)構(gòu)標(biāo)準(zhǔn)的和基于各種設(shè)備的輸入/輸出面向?qū)ο缶幊谭绞胶蛿?shù)學(xué)編程方式分布式計(jì)算結(jié)構(gòu)引用程序包數(shù)學(xué)和統(tǒng)計(jì)學(xué)各種函數(shù)包括:基本數(shù)學(xué)函數(shù),模擬和隨數(shù)產(chǎn)生函數(shù)基本統(tǒng)計(jì)函數(shù)和概率分布函數(shù)機(jī)器語(yǔ)言學(xué)習(xí)功能信號(hào)處理功能統(tǒng)計(jì)學(xué)建模和測(cè)試功能靜態(tài)和動(dòng)態(tài)的圖形展示R語(yǔ)言簡(jiǎn)介R語(yǔ)言在數(shù)據(jù)挖掘中的優(yōu)勢(shì):最廉價(jià)(免費(fèi))最全面的算法最完美多樣的數(shù)據(jù)展示最狂熱的愛(ài)好者社區(qū)R語(yǔ)言的整個(gè)語(yǔ)法結(jié)構(gòu)完全來(lái)自S語(yǔ)言,突出兩個(gè)特點(diǎn)是:函數(shù)或編程和向量化計(jì)算。背景特點(diǎn)簡(jiǎn)介R語(yǔ)言常用的包CORElearn包:程序包集合了多種分類算法和回歸模型例如:樸素貝葉斯,隨機(jī)森林,決策樹(shù),回歸分析等。E1071包:綜合了眾多數(shù)數(shù)據(jù)挖掘的包,其中被使用較多的SUM()函數(shù)實(shí)現(xiàn)支持向量化。Rpart包:提供有效處理稀疏二元數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),而且提供函數(shù)用Apriori算法和Edat算法來(lái)挖掘頻繁項(xiàng)集最大頻繁項(xiàng)集,閉頻繁項(xiàng)集合和關(guān)聯(lián)規(guī)則。Randomforest包:實(shí)現(xiàn)隨機(jī)森林算法。ROCR包:是專門(mén)用于做模型評(píng)估的,可以方便的繪出ROC圖。MATLAB(MATtrixLABoratary)矩陣實(shí)驗(yàn)室功能:①M(fèi)ATLAB將數(shù)值分析,矩陣計(jì)算,科學(xué)數(shù)據(jù)可視化以及非線性動(dòng)態(tài)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一個(gè)易于使用的視窗環(huán)境中。②可以輕易地描繪二維和三維圖形。特點(diǎn):高效的數(shù)學(xué)表達(dá)式表現(xiàn)方式,數(shù)值計(jì)算及符號(hào)計(jì)算功能。語(yǔ)言:MATLAB語(yǔ)言是簡(jiǎn)化版的類C++語(yǔ)言。其他商用數(shù)據(jù)挖掘工具SPSSModeler
支持整個(gè)數(shù)據(jù)挖掘流程,包括從數(shù)據(jù)獲取,轉(zhuǎn)化,建模,評(píng)估到最終部署的全部過(guò)程。SASEnterMiner
可利用具有圖形化的模塊將數(shù)據(jù)挖掘單元組成處理流程圖并依此來(lái)組織數(shù)據(jù)挖掘的過(guò)程。IntellgentMinerforData
它是用來(lái)數(shù)據(jù)挖掘包含在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫(kù)或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。開(kāi)源數(shù)據(jù)挖掘工具WekaWeka(WaikatoEnvironmentforknowledgeAnalysis)——全名:懷卡托智能分析環(huán)境Weka是用Java語(yǔ)言開(kāi)發(fā)和開(kāi)源的數(shù)據(jù)挖掘軟件。Weka可以使用的數(shù)據(jù)挖掘算法:分類算法,聚類算法和并聯(lián)算法。Weka在R語(yǔ)言中時(shí),使用RWeka程序包調(diào)用Weka中所有算法。開(kāi)源數(shù)據(jù)挖掘工具Weka-四個(gè)組成部分Explorer,在該環(huán)境中,我們可以實(shí)現(xiàn)各種數(shù)據(jù)挖掘算法,并提供可視法結(jié)果。Experimenter:用來(lái)做算法實(shí)驗(yàn)的環(huán)境,在該環(huán)境中,用戶可以創(chuàng)建比較,修改和分析算法。KnowledgeFlow:在“知識(shí)流”的環(huán)境中,用戶可以把不同組件按照一定順序連接起來(lái),組成知識(shí)流用以處理和分析數(shù)據(jù)。SmpleCLI:簡(jiǎn)單的命令行界面。一、SPSS軟件簡(jiǎn)介軟件簡(jiǎn)介SPSS是StatisticalProgramforSocialSciences的簡(jiǎn)稱,即社會(huì)科學(xué)統(tǒng)計(jì)程序,由美國(guó)SPSS公司1970年代推出,迄今已有近30年的歷史。是國(guó)際著名三大社會(huì)科學(xué)統(tǒng)計(jì)軟件包之一(SAS、SPSS、Statis)。SPSS原是為大型計(jì)算機(jī)開(kāi)發(fā)的,其版本為SPSSx,80年代初,微機(jī)開(kāi)始普及以后,它率先推出了微機(jī)版本(版本為SPSS/PC+x.x),占領(lǐng)了微機(jī)市場(chǎng),大大地?cái)U(kuò)大了自己的用戶量,我們現(xiàn)在使用的是SPSSforWindows12.0版。軟件簡(jiǎn)介與以往的SPSSforDOS版本相比,SPSSforWindows顯得更加直觀易用。首先,它采用現(xiàn)今廣為流行的電子表格形式作數(shù)據(jù)管理器,使用戶變量命名、定義數(shù)據(jù)格式、數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度高效節(jié)能車(chē)間租賃經(jīng)營(yíng)協(xié)議
- 二零二五年度旅游企業(yè)會(huì)計(jì)核算與財(cái)務(wù)管理合同
- 2025年度桶裝水市場(chǎng)拓展與區(qū)域代理招募合同
- 二零二五年度員工股權(quán)激勵(lì)與股權(quán)激勵(lì)解約協(xié)議
- 二零二五年度幼兒園租賃合同及幼兒教育設(shè)施租賃及服務(wù)保障
- 2025年度河道清理與環(huán)境衛(wèi)生維護(hù)合同
- 二零二五年商業(yè)地產(chǎn)全額購(gòu)買(mǎi)合同
- 2025年群眾文化服務(wù)合作協(xié)議書(shū)
- 2025年度智慧家庭項(xiàng)目合同
- 船舶引航安全與風(fēng)險(xiǎn)管理策略
- PIVAS靜配中心清潔消毒規(guī)范
- 現(xiàn)場(chǎng)問(wèn)題整改清單匯總
- 第三章交強(qiáng)險(xiǎn)課件
- 項(xiàng)目后評(píng)價(jià)表格(全過(guò)程咨詢)
- 公務(wù)員面試真題之材料題有解析有材料
- 2023江蘇連云港市灌云縣水務(wù)集團(tuán)有限公司招聘17人筆試備考題庫(kù)及答案解析
- 矛盾論實(shí)踐論導(dǎo)讀
- 危重癥護(hù)理小組成員及職責(zé)
- 幕墻工程及幕墻工程用材料進(jìn)場(chǎng)復(fù)檢或見(jiàn)證檢測(cè)項(xiàng)目及相關(guān)標(biāo)準(zhǔn)一覽表
- 潔凈裝修24-01-防靜電PVC卷材施工技術(shù)
- 2019年10月自學(xué)考試00040法學(xué)概論試題及答案
評(píng)論
0/150
提交評(píng)論