數(shù)據(jù)挖掘-r語言應用_第1頁
數(shù)據(jù)挖掘-r語言應用_第2頁
數(shù)據(jù)挖掘-r語言應用_第3頁
數(shù)據(jù)挖掘-r語言應用_第4頁
數(shù)據(jù)挖掘-r語言應用_第5頁
免費預覽已結(jié)束,剩余29頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

R語言應用梁妙玲2014年1月15日目錄應用領(lǐng)域介紹優(yōu)勢和劣勢如何應用R語言簡介介紹圖形R是一門用于統(tǒng)計計算和作圖的語言,它不單是一門語言,更是一個數(shù)據(jù)計算與分析的環(huán)境。統(tǒng)計計算領(lǐng)域有三大工具:SAS、SPSS、S,R正是受S語言和Scheme語言影響發(fā)展而來。最主要的特點:免費、開源、各種各樣的模塊十分齊全,在R的綜合檔案網(wǎng)絡CRAN中,提供了大量的第三方功能包,其內(nèi)容涵蓋了從統(tǒng)計計算到機器學習,從金融分析到生物信息,從社會網(wǎng)絡分析到自然語言處理,從各種數(shù)據(jù)庫各種語言接口到高性能計算模型。名稱優(yōu)點缺點是否開源典型用戶R代碼庫支持,可視化深入的學習曲線是金融,統(tǒng)計Matlab優(yōu)秀的矩陣計算,可視化費用貴,不完全支持統(tǒng)計否工程SciPyPython不成熟是工程Excel容易,可視化操作大數(shù)據(jù)集否商業(yè)SAS大數(shù)據(jù)集貴,過時的編程語言否商業(yè),政府Stata簡單的統(tǒng)計分析否科學SPSS和Stata很像,但是更加貴,而且差表上可以看出主要是兩大陣營:更加面向編程的解決方案,R,matlab和python;面向分析的解決方案,Excel,SAS,Stata和SPSS。python“不成熟”:matplotlib,numpy和scipy都是獨立的代碼包,它們往往不在一起。matlab語言是很弱的語言matlab是最好的開發(fā)新的數(shù)學算法的工具,在機器學習方面非常流行。SPSS和Stata是一個類型的SPSS和Stata主要適合科學計算SAS主要是一些比較早的從事數(shù)據(jù)相關(guān)工作的群體使用R的內(nèi)存限制可以通過mysql來處理,或者運用機器集群來運算處理SAS在處理圖形方面的能力有限R具有很強的可視化能力Excel擁有龐大的用戶群數(shù)據(jù)分析包的比較:R,Matlab,SciPy,Excel,SAS,SPSS,Stata如何導入數(shù)據(jù)如何找到合適的函數(shù)R有上千個PACKAGE,數(shù)函數(shù)

以LASSO為例獲取R的幫助什么是LASSO?1.LASSO是最小二乘法的一種推廣2.LASSO是一種具有穩(wěn)健性的方法

對各種干擾因素的抵抗能力,也叫魯棒性3.LASSO可以做變量選擇如何找到合適的函數(shù)

如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)如何找到合適的函數(shù)程序包菜單從本地zip安裝程序包;

加載程序包R資源1.R主頁:2.RGraphGallery:3.R的接口函數(shù)庫:4.Emacs+ESS:5.GOOGLEVISUALIZATIONAPI:

online/6.GooglereaderR資源-RGraphGalleryR資源-R接口函數(shù)

1.R+Googletrend2.R+MATLAB3.R+NYTimeR資源-EMACS+ESSR資源-googlevisualizationapi其他RandHadoop

大數(shù)據(jù)資訊R語言為Hadoop集群數(shù)據(jù)統(tǒng)計分析帶來革命性變化

()

R+Hadoop=DataAnalyticsHeavenusing

()

UsingRevolutionRenterprisewithapacheHadoopfor'BigAnalytics'

()

UsingRWithHadoop

()

RandStreamingfromHadoopinPractice

()貝葉斯貝葉斯推理開飛高能化學計量學和計算物理臨床試驗設(shè)計,監(jiān)測和分析聚類的聚類分析和有限混合模型微分方程微分方程分布概率分布計量經(jīng)濟學計量經(jīng)濟學計算生態(tài)和環(huán)境數(shù)據(jù)的分析實驗設(shè)計實驗數(shù)據(jù)(DOE)及分析金融實證金融遺傳學統(tǒng)計遺傳學圖形圖形顯示和動態(tài)圖形與圖形設(shè)備和可視化高性能和并行計算與R機器學習和統(tǒng)計學習醫(yī)學圖像分析元數(shù)據(jù)分析多因素多元統(tǒng)計自然語言處理數(shù)值計算辦公統(tǒng)計與調(diào)查方法優(yōu)化優(yōu)化和數(shù)學規(guī)劃藥代動力學數(shù)據(jù)的藥代動力學分析系統(tǒng)發(fā)育系統(tǒng)發(fā)育,尤其是比較方法心理測試心理模型與方法重復性研究強大的穩(wěn)健統(tǒng)計方法統(tǒng)計社會科學空間數(shù)據(jù)的空間分析時空處理和分析時空數(shù)據(jù)生存生存分析時間序列時間序列分析Web技術(shù)和服務GR圖形模型R中應用領(lǐng)域京東案例R語言還應用在?集群數(shù)據(jù)的調(diào)度清洗?建模過程中的數(shù)據(jù)預處理?統(tǒng)計分析和建模?數(shù)據(jù)可視化?算法的原型實現(xiàn)京東案例一般工作流程1.通過Hive集群獲取目標數(shù)據(jù)2.在R環(huán)境下進行數(shù)據(jù)預處理3.R環(huán)境下分析建模(FeatrueSelection,Benchmark)4.評估(離線評估和分流量測試)5.線上集成(R,HiveQL,Java,C++,Python...)京東案例數(shù)據(jù)的流動

京東案例涉及數(shù)據(jù)挖掘技術(shù)和相關(guān)的R包?數(shù)據(jù)傳遞及服務(RHive、RServe、rJava、RJDBC)?清洗及預處理(sqldf、stringr、XML)?抽樣、預測、分類、關(guān)聯(lián)規(guī)則、特征選擇、稀疏矩陣運算、矩陣分解、社交網(wǎng)絡、分詞等?高性能計算(rhdfs、rmr2、Rcpp)?其他京東案例挖掘模型服務對象?在線廣告優(yōu)化?在線商品推薦?搜索詞優(yōu)化?郵件營銷?移動客戶端?活動及促銷推送?開放平臺的PoP商戶項目中的應用參考資料

(應用介紹)(中文社區(qū))(中文社區(qū))

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論