數(shù)據(jù)挖掘-r語(yǔ)言應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘-r語(yǔ)言應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘-r語(yǔ)言應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘-r語(yǔ)言應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘-r語(yǔ)言應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

R語(yǔ)言應(yīng)用梁妙玲2014年1月15日目錄應(yīng)用領(lǐng)域介紹優(yōu)勢(shì)和劣勢(shì)如何應(yīng)用R語(yǔ)言簡(jiǎn)介介紹圖形R是一門用于統(tǒng)計(jì)計(jì)算和作圖的語(yǔ)言,它不單是一門語(yǔ)言,更是一個(gè)數(shù)據(jù)計(jì)算與分析的環(huán)境。統(tǒng)計(jì)計(jì)算領(lǐng)域有三大工具:SAS、SPSS、S,R正是受S語(yǔ)言和Scheme語(yǔ)言影響發(fā)展而來(lái)。最主要的特點(diǎn):免費(fèi)、開源、各種各樣的模塊十分齊全,在R的綜合檔案網(wǎng)絡(luò)CRAN中,提供了大量的第三方功能包,其內(nèi)容涵蓋了從統(tǒng)計(jì)計(jì)算到機(jī)器學(xué)習(xí),從金融分析到生物信息,從社會(huì)網(wǎng)絡(luò)分析到自然語(yǔ)言處理,從各種數(shù)據(jù)庫(kù)各種語(yǔ)言接口到高性能計(jì)算模型。名稱優(yōu)點(diǎn)缺點(diǎn)是否開源典型用戶R代碼庫(kù)支持,可視化深入的學(xué)習(xí)曲線是金融,統(tǒng)計(jì)Matlab優(yōu)秀的矩陣計(jì)算,可視化費(fèi)用貴,不完全支持統(tǒng)計(jì)否工程SciPyPython不成熟是工程Excel容易,可視化操作大數(shù)據(jù)集否商業(yè)SAS大數(shù)據(jù)集貴,過(guò)時(shí)的編程語(yǔ)言否商業(yè),政府Stata簡(jiǎn)單的統(tǒng)計(jì)分析否科學(xué)SPSS和Stata很像,但是更加貴,而且差表上可以看出主要是兩大陣營(yíng):更加面向編程的解決方案,R,matlab和python;面向分析的解決方案,Excel,SAS,Stata和SPSS。python“不成熟”:matplotlib,numpy和scipy都是獨(dú)立的代碼包,它們往往不在一起。matlab語(yǔ)言是很弱的語(yǔ)言matlab是最好的開發(fā)新的數(shù)學(xué)算法的工具,在機(jī)器學(xué)習(xí)方面非常流行。SPSS和Stata是一個(gè)類型的SPSS和Stata主要適合科學(xué)計(jì)算SAS主要是一些比較早的從事數(shù)據(jù)相關(guān)工作的群體使用R的內(nèi)存限制可以通過(guò)mysql來(lái)處理,或者運(yùn)用機(jī)器集群來(lái)運(yùn)算處理SAS在處理圖形方面的能力有限R具有很強(qiáng)的可視化能力Excel擁有龐大的用戶群數(shù)據(jù)分析包的比較:R,Matlab,SciPy,Excel,SAS,SPSS,Stata如何導(dǎo)入數(shù)據(jù)如何找到合適的函數(shù)R有上千個(gè)PACKAGE,數(shù)函數(shù)

以LASSO為例獲取R的幫助什么是LASSO?1.LASSO是最小二乘法的一種推廣2.LASSO是一種具有穩(wěn)健性的方法

對(duì)各種干擾因素的抵抗能力,也叫魯棒性3.LASSO可以做變量選擇如何找到合適的函數(shù)

如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)程序包菜單從本地zip安裝程序包;

加載程序包R資源1.R主頁(yè):2.RGraphGallery:3.R的接口函數(shù)庫(kù):4.Emacs+ESS:5.GOOGLEVISUALIZATIONAPI:

online/6.GooglereaderR資源-RGraphGalleryR資源-R接口函數(shù)

1.R+Googletrend2.R+MATLAB3.R+NYTimeR資源-EMACS+ESSR資源-googlevisualizationapi其他RandHadoop

大數(shù)據(jù)資訊R語(yǔ)言為Hadoop集群數(shù)據(jù)統(tǒng)計(jì)分析帶來(lái)革命性變化

()

R+Hadoop=DataAnalyticsHeavenusing

()

UsingRevolutionRenterprisewithapacheHadoopfor'BigAnalytics'

()

UsingRWithHadoop

()

RandStreamingfromHadoopinPractice

()貝葉斯貝葉斯推理開飛高能化學(xué)計(jì)量學(xué)和計(jì)算物理臨床試驗(yàn)設(shè)計(jì),監(jiān)測(cè)和分析聚類的聚類分析和有限混合模型微分方程微分方程分布概率分布計(jì)量經(jīng)濟(jì)學(xué)計(jì)量經(jīng)濟(jì)學(xué)計(jì)算生態(tài)和環(huán)境數(shù)據(jù)的分析實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)數(shù)據(jù)(DOE)及分析金融實(shí)證金融遺傳學(xué)統(tǒng)計(jì)遺傳學(xué)圖形圖形顯示和動(dòng)態(tài)圖形與圖形設(shè)備和可視化高性能和并行計(jì)算與R機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)醫(yī)學(xué)圖像分析元數(shù)據(jù)分析多因素多元統(tǒng)計(jì)自然語(yǔ)言處理數(shù)值計(jì)算辦公統(tǒng)計(jì)與調(diào)查方法優(yōu)化優(yōu)化和數(shù)學(xué)規(guī)劃藥代動(dòng)力學(xué)數(shù)據(jù)的藥代動(dòng)力學(xué)分析系統(tǒng)發(fā)育系統(tǒng)發(fā)育,尤其是比較方法心理測(cè)試心理模型與方法重復(fù)性研究強(qiáng)大的穩(wěn)健統(tǒng)計(jì)方法統(tǒng)計(jì)社會(huì)科學(xué)空間數(shù)據(jù)的空間分析時(shí)空處理和分析時(shí)空數(shù)據(jù)生存生存分析時(shí)間序列時(shí)間序列分析Web技術(shù)和服務(wù)GR圖形模型R中應(yīng)用領(lǐng)域京東案例R語(yǔ)言還應(yīng)用在?集群數(shù)據(jù)的調(diào)度清洗?建模過(guò)程中的數(shù)據(jù)預(yù)處理?統(tǒng)計(jì)分析和建模?數(shù)據(jù)可視化?算法的原型實(shí)現(xiàn)京東案例一般工作流程1.通過(guò)Hive集群獲取目標(biāo)數(shù)據(jù)2.在R環(huán)境下進(jìn)行數(shù)據(jù)預(yù)處理3.R環(huán)境下分析建模(FeatrueSelection,Benchmark)4.評(píng)估(離線評(píng)估和分流量測(cè)試)5.線上集成(R,HiveQL,Java,C++,Python...)京東案例數(shù)據(jù)的流動(dòng)

京東案例涉及數(shù)據(jù)挖掘技術(shù)和相關(guān)的R包?數(shù)據(jù)傳遞及服務(wù)(RHive、RServe、rJava、RJDBC)?清洗及預(yù)處理(sqldf、stringr、XML)?抽樣、預(yù)測(cè)、分類、關(guān)聯(lián)規(guī)則、特征選擇、稀疏矩陣運(yùn)算、矩陣分解、社交網(wǎng)絡(luò)、分詞等?高性能計(jì)算(rhdfs、rmr2、Rcpp)?其他京東案例挖掘模型服務(wù)對(duì)象?在線廣告優(yōu)化?在線商品推薦?搜索詞優(yōu)化?郵件營(yíng)銷?移動(dòng)客戶端?活動(dòng)及促銷推送?開放平臺(tái)的PoP商戶項(xiàng)目中的應(yīng)用參考資料

(應(yīng)用介紹)(中文社區(qū))(中文社區(qū))

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論