2022年薩爾金德_《愛上統(tǒng)計學》讀書筆記_第1頁
2022年薩爾金德_《愛上統(tǒng)計學》讀書筆記_第2頁
2022年薩爾金德_《愛上統(tǒng)計學》讀書筆記_第3頁
2022年薩爾金德_《愛上統(tǒng)計學》讀書筆記_第4頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、愛上統(tǒng)計學讀書筆記尼爾· j.薩爾金德的愛上統(tǒng)計學這本書主要介紹了基礎(chǔ)統(tǒng)計學的范疇, 包括整理和分析數(shù)據(jù)的基本思路和最常用的技術(shù);本書分為五個部分: 第一部分簡潔介紹了什么是統(tǒng)計學、 描述統(tǒng)計和推論統(tǒng)計;其次部分“描述統(tǒng)計”的主要內(nèi)容是如何在整理數(shù)據(jù)之后,對結(jié)果進行描述和懂得; 第三部分開頭介紹如何依據(jù)假設(shè)檢驗和概率論的應用(正態(tài)曲線) 來檢驗有關(guān)變量間關(guān)系的特定問題; 第四部分“顯著性差異使用推論統(tǒng)計” 是這本書的核心和重點, 主要內(nèi)容是懂得和應用特定的統(tǒng)計類型來回答特定類型的爭論問題, 爭論了幾種最常用的統(tǒng)計檢驗; 第五部分旨在幫忙讀者連續(xù)學習, 介紹了全世界最好的 10 個統(tǒng)計

2、信息網(wǎng)址和一些收集數(shù)據(jù)的原就;一統(tǒng)計學是什么(或不是什么)就一般意義而言, 統(tǒng)計學是描述一系列可用于描述、 整理和說明資料或數(shù)據(jù)的統(tǒng)計工具和技術(shù); 通過整理收集到的數(shù)據(jù), 做出特定的推斷, 將那些數(shù)據(jù)的特點應用到新的情境;所謂的描述統(tǒng)計, 常用于整理、 描述所收集數(shù)據(jù)的特點, 常見的描述統(tǒng)計值有眾數(shù)、均值等; 而推論統(tǒng)計通常是數(shù)據(jù)收集和匯總后的下一步,即利用較小群體(樣本)的數(shù)據(jù)來推論可能的較大群體的特點;這兩者可以一起發(fā)揮作用,但 是詳細何時使用何種統(tǒng)計取決于爭論者需要解決的問題,本書的其次部分和第四部分就分別介紹了這兩者;二描述統(tǒng)計在這一部分的前三章,作者主要爭論了兩種類型的描述統(tǒng)計集中趨

3、勢(供應一組數(shù)據(jù)的正確值)和變異性量數(shù)(測量數(shù)據(jù)之間彼此差異或不同的程度),接著介紹如何使用圖形直觀展現(xiàn)出不同的數(shù)據(jù)分布中兩類測量結(jié)果的差異程度;在第 5 章,作者開頭使用相關(guān)系數(shù)來爭論兩個連續(xù)性變量之間的關(guān)系,反映兩者共同變化的程度; 書中以冰淇淋和犯罪為例, 說明白一個簡潔的原就, 相關(guān)表示兩個或更多變量之間存在關(guān)聯(lián): 相關(guān)并不是因果關(guān)系; 盡管冰淇淋消費水平和犯罪率一起增長 (或下降) ,但并不意味著冰淇淋消費的增加會導致犯罪率的增長,這兩者只是同時發(fā)生而建立起了關(guān)聯(lián)的假象;在第 6 章,重點爭論了兩個測量工具信度和效度, 信度就是一個測試或者你使用的其他任何測量工具對事物的測量可以保持

4、一樣性, 測量誤差越小就越可信; 效度就是表示工具能夠測量想測內(nèi)容的程度, 有效的測試是測量到了理應測量的內(nèi)容; 測試可能是可信卻無效的,但有效的測試卻不行能沒有信度,對其進行重復操作的結(jié)果必定一樣; 三假設(shè)和正態(tài)曲線第 7 章介紹了假設(shè)檢驗的重要性和性質(zhì), 一個好的假設(shè)將問題陳述或爭論問題轉(zhuǎn)換為更適合于檢驗的形式; 假設(shè)的主要類型有: 零假設(shè)和爭論假設(shè); 零假設(shè)宣稱兩個或多個事物之間是等同的或沒有關(guān)系的, 假如兩個群體之間存在任何差異,必需假定這些差異是出于偶然; 爭論假設(shè)是變量之間有關(guān)系的明確陳述, 是不等價的陳述,包括有方向爭論(“多于”或“少于”)假設(shè)和無方向(“不同于”)爭論假設(shè);作

5、者強調(diào),零假設(shè)總是對應總體的,因此不能直接進行檢驗, 只能被間接檢驗,所以在爭論報告中很少看到零假設(shè)而總是看到爭論假設(shè)陳述;第 8 章爭論了正態(tài)曲線說明概率的全部重要方面,以及作為概率基礎(chǔ)的基本原就;我們在處理大樣本數(shù)據(jù)集(超過30 個數(shù)據(jù)),并且重復的從總體中抽出樣本時,曲線的數(shù)值就接近正態(tài)曲線的外形; 正態(tài)曲線是具備三個特點的數(shù)據(jù)分布的形象表示,表示均值、中位數(shù)和眾數(shù)相等的數(shù)值分布,沒有偏度,只有一個 處于中間的很好的波峰; 并且以均值為中心完全對稱; 正態(tài)曲線的雙尾是漸進的,越來越接近橫軸, 但是永久不會相交; 另外,假如數(shù)值是正態(tài)分布的, 幾乎 100% 的數(shù)值處于均值的 -3 到 3

6、 個標準差范疇內(nèi), 也可以說肯定百分比的數(shù)值或落在 x 軸的不同數(shù)據(jù)點之間;這章作者仍介紹了標準值 z 值,以標準差為單位進行了標準化, 是原始數(shù)據(jù)與數(shù)據(jù)分布均值的差除以標準差所得到的結(jié)果,是指偏離均值的標準差的個數(shù); 均值以上的原始數(shù)值對應的 z 值是正數(shù), 反之是負數(shù); 在前面正態(tài)曲線下數(shù)據(jù)值的分布一圖(圖 8.4)中,可得知, 84%的數(shù)值落在值為 +1 的 z 值之下, 另外 16% 就是在其上;作者仍在附錄 b 的 b1 表中列出了不同 z 值對應的曲線之下的全部面積數(shù)值;查閱該表可以發(fā)覺, z值的臨界點 1.65 包含了曲線掩蓋面積的45%, 假如與曲線另一側(cè)掩蓋面積的 50%相加

7、, 就得到全部面積的 95%,也就是在 x 軸的這一點上留下了 5%(圖 9.2),任何表示 z 值 1.65 或在此之上的數(shù)值就在很 小的區(qū)域內(nèi),此時可以肯定一個結(jié)果的顯現(xiàn)不是由于隨機因素而是與某種關(guān)系或者某種處理方式有關(guān);四顯著性差異使用推論統(tǒng)計第 9 章介紹了顯著性的概念和重要性, 指出了第一類錯誤和其次類錯誤, 介紹了如何挑選用于檢驗的方法和一般步驟 (第 10 章到第 16 章都提及這些步驟) ;顯著性的含義是指兩個群體的態(tài)度之間的任何差異是由于系統(tǒng)性因素而不是偶 然性因素的影響;顯著水平是不能100%確信試驗中觀看到的結(jié)果是由于處理因素或需要檢驗的因素引起的所要承擔的風險, 是指零

8、假設(shè)為真的情形下拒絕零假設(shè)所要承擔的風險水平; 顯著性并不能證明任何事情是真, 而只能拒絕兩者之間沒有關(guān)系;假如在群體之間沒有差異的情形下拒絕了零假設(shè),就犯了一個錯誤, 犯此類錯誤你可能承擔的風險(或者說顯著水平)就是第一類錯誤;書中沒有明確界定 p 值的定義, 只以類似“ p<.05”的形式顯現(xiàn)過; p 值是用來判定假設(shè)檢驗結(jié)果的一個參數(shù), 當原假設(shè)為真時所得到的樣本觀看結(jié)果顯現(xiàn)的概率,假如 p 值越小,說明原假設(shè)情形發(fā)生的概率就越小,結(jié)果越顯著;p值介于 0-1 之間,零假設(shè)認為兩組樣原來自同一個總體,兩組數(shù)據(jù)沒有差異;統(tǒng)計顯著性通常以 p<.05 表示,意味著拒絕真實的零假設(shè)

9、的概念小于.05,即只有 5%的可能性是零假設(shè)為真, 而你拒絕了零假設(shè), 并在群體之間實際上根本沒有差異的情形下得出群體之間有差異的結(jié)論;當p 值在.05 以上,就沒有充分證據(jù)來拒絕零假設(shè),兩組間的差異沒有統(tǒng)計學意義;當你無意中接受了虛假的零假設(shè)就產(chǎn)生了其次類錯誤,即兩個總體之間存在著真實的差異, 但你錯誤地得出差異不存在的結(jié)論; 這種錯誤對樣本中個體的數(shù)量特殊敏銳, 當個體數(shù)量增加時, 樣本的特點就越是與總體的特點匹配, 犯錯的可能性就越低;作者在第九章建立了各種工具的簡易流程圖(圖9.1),以供我們在不同時候選用不同的檢驗方法; 同時,仍介紹了任何零假設(shè)進行統(tǒng)計檢驗時需要采納的一般步驟,包

10、括:1. 零假設(shè)的陳述,兩個群體的均值之間沒有差異;確定爭論假設(shè)是雙側(cè)的無方向假設(shè)(只表示存在差異,沒有特定的方向)仍是單側(cè)的有方向的假設(shè);2. 設(shè)置零假設(shè)的風險水平(顯著水平),設(shè)置你可能犯錯的特定風險水平,一般設(shè)置 .01 或.05,這完全由爭論者打算;3. 挑選恰當?shù)臋z驗統(tǒng)計量;每一個零假設(shè)相伴著特定的檢驗統(tǒng)計量;依據(jù)流程圖(圖 9.1),可以得知:當檢驗兩個相互獨立的群體在一個 (或多個) 變量的平均值上是否有差異, 爭論中每一個參加者只接受一次測試,挑選獨立均值的 t 檢驗;當對相同的群體在兩種不同的條件下進行相同的爭論, 每一個參加者接受不止一次的測試, 包含不同數(shù)據(jù)組均值的比較,

11、就使用非獨立均值的 t 檢驗;當需要檢驗兩個以上的群體在一個因素或一個維度上的均值差異, 挑選使用方差分析, 方差分析的檢驗統(tǒng)計量是 f統(tǒng)計量; 當分析不同群體在一個以上因素或者獨立變量上的差異,要使用析因方差分析;當我們要檢驗的是變量之間的關(guān)系而不是群體之間的差異時, 所要應用的合適的檢驗統(tǒng)計是相關(guān)系數(shù)的t 檢驗;當檢驗兩個以上變量之間的關(guān)系時,挑選回來分析; 當數(shù)據(jù)不符合正態(tài)分布假定或數(shù)據(jù)規(guī)模太小,最常用的非參數(shù)檢驗之一是卡方檢驗, 即確定在頻數(shù)分布中觀看到的結(jié)果是否就是你隨機預期的結(jié)果;4. 運算檢驗統(tǒng)計量;檢驗統(tǒng)計量(也叫實際值)是特定的統(tǒng)計檢驗的結(jié)果,即代入觀看值進行運算;5. 使用特定統(tǒng)計量的統(tǒng)計臨界值表確定拒絕零假設(shè)需要的值; 每一個檢驗統(tǒng)計量都有相應的臨界值, 第一要依據(jù)選定的不同檢驗統(tǒng)計量確定自由度, 自由度近似于樣本規(guī)模; 再依據(jù)自由度、 情愿承擔的風險水平 (爭論者在第 2 步打算的顯著水平)以及單(雙)側(cè)檢驗,在附錄 b 的臨界值表中查找對應的臨界值;6. 比較實際值和臨界值; 這是關(guān)鍵的一步, 比較通過檢驗統(tǒng)計量獲得的值 ( 運算所得的值)與你預期的隨機的情形下對應的值(臨界值)7. 假如實際值大于臨界值,不能接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論