版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)新聞與信息可視化數(shù)據(jù)分析之基礎(chǔ)統(tǒng)計第五章目錄CONTENT01.
新聞中的數(shù)據(jù)應(yīng)用與統(tǒng)計邏輯02.數(shù)據(jù)分析軟件的種類與設(shè)置03.單變量描述04.多變量分析新聞中的數(shù)據(jù)應(yīng)用與統(tǒng)計邏輯1.1新聞報道為何需要數(shù)據(jù)分析1.2數(shù)據(jù)分析的基本邏輯:統(tǒng)計推論與假設(shè)檢驗1.3數(shù)據(jù)分析的注意事項第一節(jié)當今新聞傳播的學生與從業(yè)者都亟需掌握一定的數(shù)據(jù)分析知識。只有通過系統(tǒng)而科學的數(shù)據(jù)分析,我們才能夠從海量數(shù)據(jù)中發(fā)掘獨特的意義與全新的敘事角度,揭示數(shù)據(jù)中隱含的社會現(xiàn)實,最終形成兼具數(shù)據(jù)邏輯與新聞價值的報道。
1.1新聞報道為何需要數(shù)據(jù)分析數(shù)據(jù)反映了網(wǎng)絡(luò)社會中普遍的聯(lián)系狀態(tài),通過分析數(shù)據(jù)記者得以理解更復雜的因果機制。數(shù)據(jù)可以幫助新聞記者用全新的視角或手法來闡述的復雜問題或經(jīng)典議題。尤其當報道中涉及的議題含有對普通讀者來說較為抽象的概念時,數(shù)據(jù)可視化呈現(xiàn)可使讀者理解起來更加輕松。數(shù)據(jù)新聞不止于解釋,更可為讀者提供具有現(xiàn)實意義的幫助和指導。
1.2數(shù)據(jù)分析的基本邏輯:統(tǒng)計推論與假設(shè)檢驗統(tǒng)計學的一個重要目標,就是通過研究一個相對較小體量的“局部數(shù)據(jù)”(即樣本),來了解總體的情況。這時候,我們需要統(tǒng)計推論(statistical
inference)幫助我們通過有限的樣本信息,來判斷樣本中觀察到的模式在總體中依然成立的可能性。
我們可以通過平均數(shù)這個基本的統(tǒng)計模型來理解統(tǒng)計推論的邏輯。中心極限定律是一個經(jīng)典的統(tǒng)計學理論,其指出任何從任一分布總體中隨機抽取出n個樣本,當抽取的樣本數(shù)量n足夠多時,樣本的平均數(shù)分布將趨近正態(tài)分布。
圖
正態(tài)分布的曲線
1.2數(shù)據(jù)分析的基本邏輯:統(tǒng)計推論與假設(shè)檢驗推論所得的范圍稱為置信區(qū)間(confidenceinterval),將95%或99%這個百分比稱為置信水平(levelofconfidence)。置信區(qū)間為我們推測真實統(tǒng)計值可能出現(xiàn)的范圍。
在量化社會科學研究中,研究者通經(jīng)?!凹僭O(shè)驗證”方法進行推論。當研究者獲得樣本后,會對其數(shù)據(jù)進行分析,得到一些解釋數(shù)據(jù)關(guān)系的統(tǒng)計值。我們當然想知道在樣本中觀察到的關(guān)系在真實總體中是否成立。這就涉及到假設(shè)驗證的方法。
在推論統(tǒng)計中,我們可以通過比較P值與顯著性水平α,來對統(tǒng)計顯著性進行判斷。1.2數(shù)據(jù)分析的基本邏輯:統(tǒng)計推論與假設(shè)檢驗關(guān)于p值1.
P值反映了一種統(tǒng)計分析的顯著性程度。P值間接指向零假設(shè)成立的概率。2.
P值越小,我們就越有把握拒絕零假設(shè),接受研究假設(shè)。較小的P值,意味著更高的統(tǒng)計顯著性。3.
P值需要與事先設(shè)定的α比對。當P<α的時候,意味著具有“統(tǒng)計上顯著性”的結(jié)果。4.
P值所比照的α值并不是客觀標準,而是社會研究者在長期實踐中約定俗成的一些標準。
5.
以P值為核心的假設(shè)驗證體系存在局限和問題
追問樣本來源明確分析層級數(shù)據(jù)分析的分組與合并(辛普森悖論)排除干擾變量避免太過復雜的模型1.3
數(shù)據(jù)分析的注意事項數(shù)據(jù)分析軟件的種類與設(shè)置2.1主要數(shù)據(jù)分析軟件2.2R語言的安裝與基本設(shè)置2.3安裝R語言功能包第二節(jié)在社會科學領(lǐng)域,最為常見的專業(yè)數(shù)據(jù)分析軟件有SPSS、STATA、SAS、R語言和Python等等
。近年來,R語言和Python語言為代表的編程語言漸漸成為主流的分析工具。以下是二者的特色對比。2.1主要數(shù)據(jù)分析軟件面對多元技術(shù)空間與復雜的數(shù)據(jù)形態(tài),研究者很難依靠某一種工具或一套固定的技術(shù)方法來應(yīng)對所有的數(shù)據(jù)分析工作。很多時候我們需要協(xié)同使用多種工具來完成一個任務(wù)。在長期的實踐中,我們需要發(fā)展出一個具有個人特色的工具箱以及一整套工作流程去應(yīng)對復雜的數(shù)據(jù)分析任務(wù)。
R語言Python語言運行速度較慢較快語法規(guī)則較為簡潔但一致性低簡潔、可讀性與一致性高數(shù)據(jù)抓取能力較差較強社會統(tǒng)計更強較弱機器學習各有所長各有所長可視化能力更強較強應(yīng)用行業(yè)學術(shù)研究、金融互聯(lián)網(wǎng)研發(fā)、商業(yè)部門主流包/庫dplyr/ggplot2/data.tableNumpy/Pandas/Matplotlib/Scikit-learn安裝好R和RStudio首先選擇一個連接速度良好的CRAN鏡像設(shè)置一個工作目錄
2.2
R語言的安裝與基本設(shè)置R語言為開源程序,可在官方站免費下載。CRAN(TheComprehensiveRArchiveNetwork)網(wǎng)站為各種R相關(guān)資源的官方網(wǎng)站,用戶可以在上面找到相關(guān)的下載資源和教程。R語言界面比較簡單,可以考慮使用IDE。RStudio是一款廣受好評的R語言開發(fā)環(huán)境。
圖
Rstudio的用戶界面使用R語言進行數(shù)據(jù)分析時,我們會用到很多功能包(Packages)。在R語言中,絕大多數(shù)的分析和功能實現(xiàn)需要通過函數(shù)來實現(xiàn)。R的功能包就是一系列特定函數(shù)的集合。換言之,R功能包就是一些實現(xiàn)相關(guān)功能的工具箱。
安裝ggplot2包
install.packages("ggplot2")啟動ggplot2包
library(ggplot2)呼出ggplot2包的介紹
help(ggplot2)呼出geom_bar這個函數(shù)的使用說明
help(geom_bar)2.3
安裝R語言功能包
每次啟動RStudio的時候會自動加載,如base,datasets,graphics,stats包。
在R用戶中非常受歡迎,例如優(yōu)秀的作圖功能包ggplot2,高效的數(shù)據(jù)處理包dplyr,綜合統(tǒng)計應(yīng)用包Hmsic,文本分析工具tm等等。
單變量描述3.1數(shù)據(jù)描述的基本知識3.2數(shù)據(jù)描述的軟件操作3.3通過圖形描述數(shù)據(jù)第三節(jié)頻數(shù)與百分比集中趨勢:平均數(shù)、中位數(shù)、眾數(shù)平均數(shù)計算離散趨勢:方差與標準差3.1數(shù)據(jù)描述的基本知識圖
正偏分布(上圖)與負偏分布(下圖)Excel操作篩選排序利用函數(shù)計算:頻數(shù)與百分比/集中趨勢/離散趨勢數(shù)據(jù)透視表R語言操作載入數(shù)據(jù):read.csv()檢視數(shù)據(jù)篩選數(shù)據(jù):subset()排序:order()3.2數(shù)據(jù)描述的軟件操作
R語言操作統(tǒng)計頻數(shù)與百分比:table(),prop.table()平均數(shù):mean()中位數(shù):median()標準差:sd()分組數(shù)據(jù)統(tǒng)計函數(shù):aggregate()3.2數(shù)據(jù)描述的軟件操作
表R語言中常用的操作符號(operators)ggplot2操作基本語法:ggplot(data=,aes(x=,y=))+geom_xxx()柱狀圖/條形圖:
geom_bar()直方圖:geom_histogram()箱線圖:geom_boxplot()3.3通過圖形描述數(shù)據(jù)圖
樣本來源(城市/農(nóng)村)與擁有小汽車情況的堆積柱狀圖(比例)圖
基于樣本來源和性別進行分面的身高直方圖圖
區(qū)分男女性別的身高分布直方圖圖
箱線圖中線條所代表的統(tǒng)計值多變量分析4.1交叉分析與卡方檢驗4.2均值比較:t檢驗與方差分析4.3相關(guān)分析4.4回歸分析第四節(jié)交叉分析可用于分析兩個類別型變量之間的關(guān)系。在數(shù)據(jù)分析時,我們經(jīng)常需要處理類別變量。類別型變量只描述對象的類型分別,類和類之間并不存在算數(shù)關(guān)系,所以計算類別變量的平均數(shù)或方差是沒有意義的。因而,分析兩個類別變量仍然要著眼其頻數(shù)。具體而言,我們需要將變量中的類別組合成不同條件,在統(tǒng)計落入各種條件的個案頻數(shù),以此來觀察兩個變量之間的關(guān)系??ǚ接嬎愎剑簞?chuàng)建交叉表格:table()函數(shù)計算卡方值:chisq.test()函數(shù)4.1交叉分析與卡方檢驗
表不同艙位乘客的幸存情況(括號中為理論值)當分析一個類別變量與一個數(shù)值型變量之間的關(guān)系時,則需要使用均值比較的策略。t檢驗只適用于含有兩個類別的分類變量(如性別或城市/農(nóng)村戶籍人口)的均值比較,而方差分析適用于含有兩個或以上類別的分類變量的均值比較。R語言操作
T檢驗:t.test()
方差分析:anova()4.2均值比較:t檢驗與方差分析
圖比較男女年收入平均數(shù)的t檢驗結(jié)果圖方差分析結(jié)果相關(guān)分析(correlation)用以計算兩個數(shù)值型變量關(guān)聯(lián)強度的統(tǒng)計方法。兩個數(shù)值型變量都可以在區(qū)間內(nèi)連續(xù)波動,因而我們可以計算出一個統(tǒng)計值來衡量兩個變量協(xié)同變化的程度。這里我們介紹一種最常用的相關(guān)分析方法皮爾遜相關(guān)系數(shù)(Pearson’scorrelationcoefficients)。R語言函數(shù):cor.test()4.3相關(guān)分析表皮爾遜相關(guān)系數(shù)表明的相關(guān)性強度回歸是分析若干自變量如何“影響”另一個因變量的統(tǒng)計方法?;貧w分析還能夠明確自變量對因變量的解釋力以及自變量間相對影響力的大小。包含很多種類型。這里介紹其最常見的形式:多元線性回歸模型(multiplelinearregressionmodel)。首先,介紹回歸的最簡單形式——簡單線性回歸(simplelinearregression)。簡單線性回歸旨在用一個數(shù)值型自變量去預測另一個數(shù)值型因變量。將一個變量定為自變量(X),將另一變量定為因變量(Y),自變量X對因變量Y產(chǎn)生影響。回歸分析預測因變量yY的公式如下:最小二乘法(ordinaryleastsquares)是一種常用的回歸估計方法,可以找到所產(chǎn)生殘差平方和(sumofsquaredresiduals)最小的一條直線作為回歸線,并計算出其具體的系數(shù)。R語言函數(shù):lm()4.4
回歸分析
回歸分析結(jié)果返回很多信息:殘差的分布(residuals)回歸系數(shù)(regression
coeffients)回歸系數(shù)對應(yīng)的標準誤差、t檢驗和P值模型擬合指標(MultipleR-squared/AdjustedR-squared)模型顯著性指標(F-statistic)4.4
回歸分析
圖用身高預測體重的簡單線性回歸結(jié)果多元線性回歸用若干自變量預測一個因變量。這些自變量既可以是數(shù)值型變量,也可以是分類變量。
我們將自變量計作x1,x2,x3,…,xn,將因變量計作y,則因變量與自變量滿足如下線性關(guān)系:解析多元回歸根據(jù)回歸分析估計的參數(shù),寫出回歸方程解讀回歸系數(shù)區(qū)分回歸系數(shù)與標準化回歸系數(shù)解讀回歸中的虛擬變量的系數(shù)解讀回歸分析的模型擬合程度指標4.4回歸分析
圖身高、出生年份與體重的三維散點圖回歸分析的注意事項對多元線性回歸要求因變量為數(shù)值型變量,自變量要存在充分的變化量。要警惕數(shù)據(jù)中的離群值,它
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多元文化節(jié)慶行業(yè)市場需求變化帶來新的商業(yè)機遇分析報告
- 2024年湖北省中考物理試卷二套合卷附答案
- 2024屆河北省高三第五次聯(lián)考語文試卷(解析版)
- 司鉆(鉆井)理論考試題庫及答案
- 小學學生紅領(lǐng)巾獎?wù)略u選方案及細則
- 社區(qū)跳蚤市場活動方案
- 2023-2024學年湖北省武漢市新洲區(qū)高二下學期6月期末物理試題(解析版)
- 四川省攀枝花市(2024年-2025年小學四年級語文)部編版綜合練習(上學期)試卷及答案
- 四川省德陽市(2024年-2025年小學四年級語文)統(tǒng)編版期末考試((上下)學期)試卷及答案
- 2024年江蘇省鹽城市鹽都區(qū)毓龍路實驗學校六年級數(shù)學第一學期期末檢測模擬試題含解析
- 精神分裂癥診療
- 術(shù)前禁食禁飲指南專家講座
- 小兒骶管阻滯
- 授三皈五戒儀規(guī)
- 醫(yī)療質(zhì)量管理辦法及核心制度考試試題
- 壓瘡試題答案
- 指紋密碼鎖使用說明書
- GB/T 36876-2018中小學校普通教室照明設(shè)計安裝衛(wèi)生要求
- GB/T 28827.2-2012信息技術(shù)服務(wù)運行維護第2部分:交付規(guī)范
- “兩山”轉(zhuǎn)化中心(“兩山銀行”)建設(shè)工作方案
- 公文格式(全區(qū))課件
評論
0/150
提交評論