




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、R語(yǔ)言在做為數(shù)據(jù)分析工具的優(yōu)點(diǎn)數(shù)據(jù)分析微信公眾號(hào) datadw分享優(yōu)質(zhì)學(xué)習(xí)資源,推薦關(guān)注。我從事數(shù)據(jù)分析工作已經(jīng)有十年之久。最初是出于工作需要,我的經(jīng)理給我一堆數(shù)據(jù),我需要處理這些數(shù)據(jù)。當(dāng)時(shí)我一直使用的工具是 Excel,因?yàn)檫@是我熟練掌握的一款工具。三年前,我開(kāi)始接觸到 R,一開(kāi)始因?yàn)楣δ芴喽鴪?jiān)決抵制使用。后來(lái)我開(kāi)始琢磨如何使用?,F(xiàn)在我基本不怎么使用 Excel 了。這只是我個(gè)人的觀點(diǎn),但是如果你要分析數(shù)據(jù),R 更勝任這項(xiàng)任務(wù)。下面來(lái)說(shuō)說(shuō)為什么 R 更適合數(shù)據(jù)分析。這兩款工具的使用方法截然不同。使用 Excel 時(shí),可以通過(guò)鼠標(biāo)點(diǎn)擊完成大部分工作,你可以訪問(wèn)界面內(nèi)不同位置的各種工具。因此
2、Excel 非常便于使用(熟能生巧),但是用 Excel 處理數(shù)據(jù)非常費(fèi)時(shí),而且如果接手一個(gè)新項(xiàng)目,你必須單調(diào)地重復(fù)這些流程。使用 R 時(shí),則通過(guò)代碼完成所有操作。你把數(shù)據(jù)載入內(nèi)存,然后運(yùn)行腳本來(lái)研究并處理數(shù)據(jù)。這個(gè)工具可能不夠人性化,但是有以下幾點(diǎn)好處。我認(rèn)為,從概念上來(lái)說(shuō),R 更便于使用。如果你在處理多列數(shù)據(jù),雖然你只是在處理單個(gè)任務(wù),但是卻會(huì)看到所有的數(shù)據(jù)。而使用 R 時(shí),數(shù)據(jù)都在內(nèi)存中,只有調(diào)出數(shù)據(jù)才能看到。如果你在轉(zhuǎn)換或計(jì)算,你會(huì)處理相關(guān)列或行的子集,其他所有數(shù)據(jù)都在后臺(tái)。我覺(jué)得這樣更便于關(guān)注手頭的任務(wù)。完成任務(wù)后,可將其保存在某個(gè)數(shù)據(jù)幀中,其中只包含所需的列或行數(shù)據(jù)。你建立了正確的
3、數(shù)據(jù)集,可解決當(dāng)前的問(wèn)題。這樣做看似無(wú)關(guān)緊要,但實(shí)際上大受裨益。借助 R,就可以對(duì)其他數(shù)據(jù)集輕松重復(fù)相同的操作。因?yàn)樗袛?shù)據(jù)都是通過(guò)代碼進(jìn)行處理和研究,因此對(duì)新的數(shù)據(jù)集執(zhí)行相同的操作也就輕而易舉了。使用 Excel 時(shí),大多數(shù)操作都是通過(guò)鼠標(biāo)點(diǎn)擊實(shí)現(xiàn),雖然用戶(hù)體驗(yàn)不錯(cuò),但對(duì)新的數(shù)據(jù)重復(fù)操作卻非常費(fèi)時(shí)而枯燥。而 R 只需載入新的數(shù)據(jù)集,然后再次運(yùn)行腳本即可。實(shí)際上,用代碼操作也便于診斷并共享你的分析結(jié)果。使用 Excel 時(shí),大多數(shù)的分析結(jié)果都基于內(nèi)存(數(shù)據(jù)透視表在這里,公式編輯器在另一個(gè)表格上等)。而在 R 中,通過(guò)代碼執(zhí)行所有操作,一目了然。如果你在修正一個(gè)錯(cuò)誤,你很清楚在哪里操作,而如果你
4、需要共享分析結(jié)果,只需復(fù)制粘貼代碼即可。在線查找?guī)椭鷷r(shí),你能準(zhǔn)確說(shuō)明所用數(shù)據(jù),并提出具體的問(wèn)題。事實(shí)上,大多數(shù)時(shí)候,你在線提問(wèn)時(shí),人們都是直接貼出準(zhǔn)確的代碼,來(lái)解決你的問(wèn)題。R 中的項(xiàng)目組織更簡(jiǎn)單。在 Excel 中,我要準(zhǔn)備一系列表格,可能還要準(zhǔn)備多個(gè)工作簿,然后適當(dāng)命名,而且各文件名不得重復(fù)。我的項(xiàng)目備注分別保存在各個(gè)文件中。我的 R 項(xiàng)目組織單獨(dú)設(shè)有一個(gè)文件夾,我處理過(guò)的所有內(nèi)容都放在其中。清理數(shù)據(jù)、探索性圖表及模型。這樣便于我理解和查找,也為與我一起工作的其他人提供方便。當(dāng)然,Excel 也能做到井井有條。我覺(jué)得 R 的簡(jiǎn)潔性更便于使用。上述幾點(diǎn)只能說(shuō)是錦上添花,而并不是必不可少。在沒(méi)
5、有這些功能之前,我也用了好幾年 Excel,你應(yīng)該也一樣。現(xiàn)在,我想講講 R 和 Excel 真正的區(qū)別。我想說(shuō)的是,除了以上那些花哨的小優(yōu)勢(shì)之外,R 更適合用于數(shù)據(jù)分析。原因如下。你可以把任何數(shù)據(jù)載入 R。數(shù)據(jù)的保存位置或保存形式并不重要。你可以載入 CSV 文件,也可以讀取 JSON,或者執(zhí)行 SQL 查詢(xún),抑或提取網(wǎng)站。你甚至還可以在 R 中通過(guò) Hadoop 處理大數(shù)據(jù)。R 是一個(gè)完整的工具集,使用的是數(shù)據(jù)包。在分析數(shù)據(jù)時(shí),R 比 Excel 更實(shí)用。你可使用 R 執(zhí)行數(shù)據(jù)管理、分類(lèi)和回歸,也可以處理圖片,并執(zhí)行其他所有操作。如果機(jī)器學(xué)習(xí)是你的專(zhuān)業(yè),那能想到的任何算法都是小菜一碟。目前
6、,R 可用的數(shù)據(jù)包逾 5,000 個(gè),因此無(wú)論你要處理什么類(lèi)型的數(shù)據(jù),R 都能應(yīng)付自如。R 的數(shù)據(jù)可視化效果非常卓越。說(shuō)句實(shí)話,Excel 的圖表非常出色,簡(jiǎn)單易懂。但 R 的效果更好。我覺(jué)得這是 R 最實(shí)用的功能之一。借助 ggplot2,你可以快速創(chuàng)建所需的各種圖表,并根據(jù)圖表形狀自行調(diào)整。在你熟悉了如何用 ggplot2 創(chuàng)建一個(gè)圖表后,任何其他圖表都不在話下。ggplot2 還能制作更多類(lèi)型的圖表。你能用 Excel 創(chuàng)建散點(diǎn)圖矩陣嗎?用 R 就能輕松創(chuàng)建這種矩陣,CDF plot 也是如此。Excel 棋差一招。Git 版本控制。我一向習(xí)慣保存多個(gè)版本的分析結(jié)果。Git 是至今為止我找到的最好用的工具。我使用 RStudio 作為編輯器,其支持項(xiàng)目。創(chuàng)建一個(gè)項(xiàng)目倉(cāng)庫(kù),然后你就能跟蹤數(shù)據(jù)研究的不同版本。你可以創(chuàng)建不同版本的 Excel 文件,但是這些保存的二進(jìn)制文件無(wú)法顯示相互之間的更改部分。而 R 非常簡(jiǎn)單。我已經(jīng)說(shuō)了很多理由。總之,Excel 是一款不錯(cuò)的數(shù)據(jù)分析工具。我相信它能不負(fù)眾望完成所有任務(wù)。但是,如果你只有這一款工具
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 符號(hào)敘事原理深度解析:認(rèn)知、邏輯與語(yǔ)用維度的探討
- 城南殮殯管理暫行辦法
- 電動(dòng)機(jī)單機(jī)試運(yùn)行流程與實(shí)施策略研究
- 村級(jí)農(nóng)民夜校管理辦法
- 110kV變電站升級(jí)改造與啟動(dòng)方案研究
- 古代漢語(yǔ)教學(xué)中的語(yǔ)言轉(zhuǎn)化能力培養(yǎng)策略研究
- 鏡子:揭示被忽視的世界歷史
- 大軸徑磁流體密封技術(shù)的發(fā)展與進(jìn)展
- 《完整的PMC部作業(yè)流程體系》
- 工貿(mào)企業(yè)安全教育培訓(xùn)
- 30萬(wàn)噸年合成氨、52萬(wàn)噸年尿素工程可行性研究報(bào)告
- 2020年12月9日湖北武漢黃陂區(qū)社區(qū)干事招聘筆試試題
- 解熱鎮(zhèn)痛抗炎藥非甾體抗炎藥專(zhuān)家講座
- DB44-T 2410-2023紅樹(shù)林生態(tài)修復(fù)工程評(píng)價(jià)技術(shù)規(guī)程
- YY/T 1830-2022電動(dòng)氣壓止血儀
- 臨床、口腔醫(yī)師申報(bào)衛(wèi)生高級(jí)職稱(chēng)工作量登記表
- GB/T 10045-2018非合金鋼及細(xì)晶粒鋼藥芯焊絲
- GB 7099-2015食品安全國(guó)家標(biāo)準(zhǔn)糕點(diǎn)、面包
- 2023年納雍縣財(cái)政局系統(tǒng)事業(yè)單位招聘筆試題庫(kù)及答案解析
- 2023年廣東省普通高中學(xué)業(yè)水平考試及參考答案
- 建筑工程模板施工工藝技術(shù)要點(diǎn)講義豐富課件
評(píng)論
0/150
提交評(píng)論