版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)分析與R語言賈俊平2024/3/91.1數(shù)據(jù)分析概述1.2數(shù)據(jù)及其來源1.3R語言的初步使用
數(shù)據(jù)分析與R語言學(xué)習(xí)目標(biāo)理解變量和數(shù)據(jù)的概念,掌握數(shù)據(jù)分類了解數(shù)據(jù)來源和概率抽樣方法掌握R語言的初步使用方法思政目標(biāo)數(shù)據(jù)分析是一門應(yīng)用性學(xué)科。思政建設(shè)應(yīng)強(qiáng)調(diào)數(shù)據(jù)分析方法在反映我國社會主義建設(shè)成就中的作用結(jié)合實(shí)際問題學(xué)習(xí)數(shù)據(jù)分析中的基本概念。結(jié)合數(shù)據(jù)來源和渠道,學(xué)習(xí)獲取數(shù)據(jù)過程中可能存在的虛假行為,強(qiáng)調(diào)數(shù)據(jù)來源渠道的正當(dāng)性以避免虛假數(shù)據(jù)避免收集危害社會安全的非正當(dāng)來源數(shù)據(jù)學(xué)習(xí)目標(biāo)和思政目標(biāo)學(xué)習(xí)目標(biāo)和思政目標(biāo)
1.1
數(shù)據(jù)分析概述數(shù)據(jù)分析(dataanalysis)是運(yùn)用統(tǒng)計(jì)方法對收集來的數(shù)據(jù)進(jìn)行分析,從中提取有用信息并得出結(jié)論的過程數(shù)據(jù)分析的目的是把隱藏在數(shù)據(jù)中的信息有效地提煉出來,從而找出所研究對象的內(nèi)在規(guī)律和特征在實(shí)際應(yīng)用中,數(shù)據(jù)分析可幫助人們做出判斷和決策,以便采取適當(dāng)行動數(shù)據(jù)分析方法——什么是數(shù)據(jù)分析從分析目的看
可以將數(shù)據(jù)分析分為描述性分析(descriptiveanalysis)、探索性分析(exploratoryanalysis)和驗(yàn)證性分析(confirmatoryanalysis)三大類描述性分析和是對數(shù)據(jù)進(jìn)行初步的整理、展視和概括性度量,以找出數(shù)據(jù)的基本特征;探索性分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,為形成某種理論或假設(shè)而對數(shù)據(jù)進(jìn)行的分析;驗(yàn)證性分析則側(cè)重于對已有理論或假設(shè)的證實(shí)或證偽數(shù)據(jù)分析方法——數(shù)據(jù)分析的分類
1.1
數(shù)據(jù)分析概述從所使用的統(tǒng)計(jì)分析方法看可大致可分為描述統(tǒng)計(jì)(descriptivestatistics)和推斷統(tǒng)計(jì)(inferentialstatistics)兩大類描述統(tǒng)計(jì)主要是利用圖表形式對數(shù)據(jù)進(jìn)行匯總和展示,計(jì)算一些簡單的統(tǒng)計(jì)量(諸如比例、比率、平均數(shù)、標(biāo)準(zhǔn)差等)進(jìn)行分析推斷統(tǒng)計(jì)主要是根據(jù)樣本信息來推斷總體的特征,內(nèi)容包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)等。參數(shù)估計(jì)是利用樣本信息推斷所關(guān)心的總體特征,假設(shè)檢驗(yàn)則是利用樣本信息判斷對總體的某個(gè)假設(shè)是否成立數(shù)據(jù)分析方法從分析目的看描述性分析探索性分析驗(yàn)證性分析從統(tǒng)計(jì)方法看描述統(tǒng)計(jì)推斷統(tǒng)計(jì)數(shù)據(jù)分析方法——數(shù)據(jù)分析的分類
1.1
數(shù)據(jù)分析概述商業(yè)軟件——不推薦使用
商業(yè)類軟件種類繁多,較有代表性的軟件有SAS、SPSS、Minitab、Stata等。多數(shù)人較熟悉的Excel雖然不是統(tǒng)計(jì)軟件,但提供了一些常用的統(tǒng)計(jì)函數(shù)以及數(shù)據(jù)分析工具這類軟件雖有不同的側(cè)重點(diǎn),但功能大同小異,基本上能滿足大多數(shù)人做數(shù)據(jù)分析的需要。商業(yè)類軟件使用相對簡單,容易上手主要問題是價(jià)格不菲,多數(shù)人難以接近,此外,更新速度慢,難以提供最新方法的解決方案數(shù)據(jù)分析工具——軟件分類——商業(yè)軟件和非商業(yè)軟件
1.1
數(shù)據(jù)分析概述非商業(yè)軟件——推薦使用
非商業(yè)類軟件則不存在價(jià)格問題。目前較為流行的軟件有R語言和Python語言,二者都是免費(fèi)的開源平臺R語言的一種優(yōu)秀的統(tǒng)計(jì)軟件,它是一種統(tǒng)計(jì)計(jì)算語言。R語言不僅支持各個(gè)主要計(jì)算機(jī)系統(tǒng),還有諸多優(yōu)點(diǎn),比如,更新速度快,可以包含最新方法的解決方案;提供豐富的數(shù)據(jù)分析和可視化技術(shù),功能十分強(qiáng)大。此外,R軟件中的包(package)和函數(shù)均由統(tǒng)計(jì)專家編寫,函數(shù)中參數(shù)的設(shè)置也更符合統(tǒng)計(jì)和數(shù)據(jù)分析人員的思維方式和邏輯,并有強(qiáng)大的幫助功能和多種范例,初學(xué)者也很容易上手Python則是一種面向?qū)ο蟮慕忉屝透呒壘幊陶Z言,并擁有豐富而強(qiáng)大的開源第三方庫,也具有強(qiáng)大的數(shù)據(jù)分析可視化功能。Python于R的側(cè)重點(diǎn)略有不同,R的主要功能是數(shù)據(jù)分析和可視化,且功能強(qiáng)大,多數(shù)分析都可以由R提供的函數(shù)實(shí)現(xiàn),不需要太多的編程,代碼簡單,容易上手。Python的側(cè)重點(diǎn)則是編程,具有很好的普適性,但數(shù)據(jù)分析并不是其側(cè)重點(diǎn),雖然從理論上說都可以實(shí)現(xiàn),但往往需要編寫很長的代碼,幫助功能也不夠強(qiáng)大,這對數(shù)據(jù)分析的初學(xué)者來說可能顯得麻煩,但仍然不失為一種有效的數(shù)據(jù)分析工具數(shù)據(jù)分析工具——軟件分類——商業(yè)軟件和非商業(yè)軟件
1.1
數(shù)據(jù)分析概述數(shù)據(jù)(data)數(shù)據(jù)是個(gè)廣義的概念,任何可觀測并有記錄的信息都可以稱為數(shù)據(jù),它不僅僅包括數(shù)字,也包括文本、圖像等。比如,一篇文章也可以看作數(shù)據(jù),一幅照片也可以視為數(shù)據(jù),等等本書使用的數(shù)據(jù)概念則是狹義的,僅僅是指統(tǒng)計(jì)變量的觀測結(jié)果。因此,要理解數(shù)據(jù)的概念,需要先清楚變量的概念變量的觀測結(jié)果數(shù)據(jù)和變量變量(variable)觀察某家電商的銷售額的銷售額,這個(gè)月和上個(gè)月不同;觀察股票市場上漲股票的家數(shù),今天與昨天數(shù)量不一樣;觀察一個(gè)班學(xué)生的生活費(fèi)支出,一個(gè)人和另一個(gè)人不一樣;投擲一枚骰子觀察其出現(xiàn)的點(diǎn)數(shù),這次投擲的結(jié)果和下一次也不一樣“企業(yè)銷售額”、“上漲股票的家數(shù)”、“生活費(fèi)支出”、“投擲一枚骰子出現(xiàn)的點(diǎn)數(shù)”等就是變量
1.2
數(shù)據(jù)及其來源數(shù)據(jù)是變量的觀測結(jié)果,因此,數(shù)據(jù)的分類與變量的分類是相同的本書混合使用變量和數(shù)據(jù)這兩個(gè)概念在講述分析方法時(shí)多使用變量的概念,在例題分析中多使用數(shù)據(jù)的概念了解變量或數(shù)據(jù)的分類十分必要,因?yàn)椴煌淖兞炕驍?shù)據(jù)適用的分析方法是不同的變量分類類別變量(定性)無序類別變量(名義值)有序類別變量(順序值)布爾變量(二值)數(shù)值變量(定量)離散變量(離散值)連續(xù)變量(連續(xù)值)時(shí)間變量(定性或定量)定性:離散值定量:連續(xù)值數(shù)據(jù)(變量)的分類
1.2
數(shù)據(jù)及其來源間接來源和直接來源間接來源——二手?jǐn)?shù)據(jù)直接來源——抽取樣本總體(population):包含所研究的全部個(gè)體(或數(shù)據(jù))的集合樣本(sample):從總體中抽取的一部分元素的集合樣本量(samplesize):構(gòu)成樣本的元素的數(shù)目概率抽樣方法根據(jù)已知的概率抽取樣本元素,也稱隨機(jī)抽樣簡單隨機(jī)抽樣從總體N個(gè)單位(元素)中隨機(jī)地抽取n個(gè)單位作為樣本,使得總體中每一個(gè)元素都有相同的機(jī)會(概率)被抽中抽取元素的具體方法有放回抽樣和無放回抽樣分層抽樣將總體單位按某種特征或規(guī)則劃分為不同層,再從不同的層中隨機(jī)地抽取樣本系統(tǒng)抽樣將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個(gè)單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本元素整群抽樣將總體中若干個(gè)單位合并為組(群),抽樣時(shí)直接抽取群,再對中選群中的所有單位全部實(shí)施調(diào)查
1.2
數(shù)據(jù)及其來源
R的下載與安裝
1.3
R語言的初步使用
Rstudio的下載與安裝Rstudio軟件下載與安裝在安裝完R后,可以進(jìn)入RStudio的官方網(wǎng)/products/rstudio/download/,點(diǎn)擊Free下的Download,根據(jù)自己的計(jì)算機(jī)系統(tǒng)選擇適合的版本用戶可以根據(jù)自己的平臺選擇相應(yīng)的版本下載并安裝
1.3
R語言的初步使用對象賦值與運(yùn)行在提示符“>”后寫命令R軟件的所有分析和繪圖均由R命令實(shí)現(xiàn)。使用者需要在提示符“>”后輸入命令代碼,每次可以輸入一條命令,也可以連續(xù)輸入多條命令,命令之間用分號“;”隔開。命令輸入完成后,按“Enter”鍵,R軟件就會運(yùn)行該命令并輸出相應(yīng)的結(jié)果。比如,在提示符“>”后輸入2+3,按“Enter”鍵后顯示結(jié)果為5。如果要輸入的數(shù)據(jù)較多,超過一行,可以在適當(dāng)?shù)牡胤桨础癊nter”鍵,在下一行繼續(xù)輸入,R軟件會在斷行的地方用“+”表示連接
1.3
R語言的初步使用R對象(object)R對象可以是一個(gè)數(shù)據(jù)集、模型、圖形等任何東西是使用者所賦予的名稱R語言的標(biāo)準(zhǔn)賦值符號是“<-”,也允許使用“=”進(jìn)行賦值使用者可以給對象賦一個(gè)值、一個(gè)向量、一個(gè)矩陣或一個(gè)數(shù)據(jù)框等編寫代碼腳本使用腳本文件編寫代碼在R控制臺中單擊“文件”
新建程序腳本命令,會彈出R編輯器,在其中編寫代碼即可編寫完成后,選中輸入的代碼,并單擊鼠標(biāo)右鍵,選擇“運(yùn)行當(dāng)前行或所選代碼”,即可在R中運(yùn)行該代碼并得到相應(yīng)結(jié)果
1.3
R語言的初步使用查看幫助文件查看幫助文件R軟件的所有計(jì)算和繪圖均可由R函數(shù)完成,這些函數(shù)通常來自不同的R包,每個(gè)R包和函數(shù)都有相應(yīng)的幫助說明使用中遇到疑問時(shí),可以隨時(shí)查看幫助文件。比如,要想了解sum函數(shù)和stats包的功能及使用方法,可使用help(函數(shù)名)或“?函數(shù)名”查詢直接輸入函數(shù)名,可以看到該函數(shù)的源代碼
1.3
R語言的初步使用查看幫助文件查看幫助文件R軟件的所有計(jì)算和繪圖均可由R函數(shù)完成,這些函數(shù)通常來自不同的R包,每個(gè)R包和函數(shù)都有相應(yīng)的幫助說明使用中遇到疑問時(shí),可以隨時(shí)查看幫助文件。比如,要想了解sum函數(shù)和stats包的功能及使用方法,可使用help(函數(shù)名)或“?函數(shù)名”查詢直接輸入函數(shù)名,可以看到該函數(shù)的源代碼
1.3
R語言的初步使用包的安裝與加載R軟件中的包(package)指包含數(shù)據(jù)集、R函數(shù)等信息的集合。一個(gè)R包中可能包含多個(gè)函數(shù),能做多種分析和繪圖,對于同一問題的分析或繪圖,也可以使用不同包中的函數(shù)來實(shí)現(xiàn),用戶可以根據(jù)個(gè)人需要和偏好選擇所用的包在最初安裝R軟件時(shí),自帶了一系列默認(rèn)包,如base,datasets,utils,grDevices,graphics,stats,methods等,它們提供了種類繁多的默認(rèn)函數(shù)和數(shù)據(jù)集,分析時(shí)可直接使用這些包中的函數(shù)而不必加載這些包。其他包則需要事先安裝并加載后才能使用使用library()或.packages(all.available=TRUE)函數(shù),可以顯示R軟件中已經(jīng)安裝了哪些包,并列出這些包的名稱。在使用R軟件時(shí),可根據(jù)需要隨時(shí)在線安裝所需的包。對于放置在CRAN平臺上的包,輸入install.packages("包名稱")命令,選擇相應(yīng)的鏡像站點(diǎn)即可自動完成包的下載和安裝完成安裝后,要使用該包時(shí),需要使用library函數(shù)或require函數(shù)將其加載到R界面中
1.3
R語言的初步使用數(shù)據(jù)讀取和保存讀取外部數(shù)據(jù)R軟件可以讀取不同形式的外部數(shù)據(jù),這里主要介紹如何讀取csv格式的數(shù)據(jù)。本書使用的數(shù)據(jù)形式均為csv格式,其他很多類型的數(shù)據(jù)也可以轉(zhuǎn)換為csv格式,比如,Excel數(shù)據(jù)、SPSS數(shù)據(jù)等,均可以轉(zhuǎn)換成csv格式使用read.csv函數(shù)可以將csv格式數(shù)據(jù)讀入到R界面中。函數(shù)默認(rèn)參數(shù)header=FALSE,即讀取的csv數(shù)據(jù)中包含標(biāo)題(即變量名)。如果數(shù)據(jù)中沒有標(biāo)題,設(shè)置參數(shù)header=FALSE即可
1.3
R語言的初步使用保存數(shù)據(jù)保存成csv格式,則數(shù)據(jù)文件的后綴必須是csv,可以使用write.csv函數(shù)要將數(shù)據(jù)保存成R格式,則數(shù)據(jù)文件的后綴必須是RData描述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)養(yǎng)生館醫(yī)師聘用協(xié)議
- 美容院儀器管理規(guī)范
- 加油站停車場租用合同
- 藝術(shù)品交易中介費(fèi)
- 旅游業(yè)超齡導(dǎo)游服務(wù)承諾書
- 石油項(xiàng)目部勘探員聘用協(xié)議
- 山西省電力設(shè)施建設(shè)合同模板
- 住宅裝修翻新裝飾改造協(xié)議
- 跨境電商平臺投標(biāo)技巧
- 2022年大學(xué)海洋工程專業(yè)大學(xué)物理下冊期中考試試卷A卷-附解析
- 無線電基礎(chǔ)知識課件
- 翼腭窩解剖醫(yī)療培訓(xùn)課件
- 我不生氣了-完整版課件
- 區(qū)域經(jīng)濟(jì)發(fā)展戰(zhàn)略課件
- 思想道德與法治教案第三章:繼承優(yōu)良傳統(tǒng)弘揚(yáng)中國精神
- 中國高考評價(jià)體系說明
- 2022屆高考語文專題復(fù)習(xí) 專題04 文言文閱讀(原卷版+解析版)
- 2022病媒生物防制知識PPT(蚊、蠅、蟑螂、鼠的危害及防治學(xué)習(xí)培訓(xùn)課件)
- DB32T 3957-2020 化工企業(yè)安全生產(chǎn)信息化管理平臺數(shù)據(jù)規(guī)范
- 《靈敏素質(zhì)練習(xí)》教案
- 中國文化英語教程Unit-3
評論
0/150
提交評論