下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、環(huán)境科學領(lǐng)域?qū)W術(shù)論文中常用數(shù)理統(tǒng)計方法的正確使用問題張利田,卜慶杰,楊桂華,劉秀蘭環(huán)境科學學報編輯部,北京100085在環(huán)境科學研究中,經(jīng)常會涉及到對隨機變量大小、離散及分布特征描述以及對2個或多個隨 機變量之間關(guān)系比較的問題。而對隨機變量及隨機變量之間的關(guān)系進行定量描述的數(shù)學工具就是數(shù) 理統(tǒng)計。由于能否正確使用各種數(shù)理統(tǒng)計方法關(guān)系到能否得出客觀和可信的結(jié)論,所以,來稿中使 用的數(shù)理統(tǒng)計方法是否正確是學術(shù)期刊編輯們極為重視的問題。針對近年來環(huán)境科學學報作者 稿件中常見的數(shù)理統(tǒng)計方法方面的錯誤,我們對環(huán)境科學領(lǐng)域?qū)W術(shù)論文中常用數(shù)理統(tǒng)計方法(主要 是相關(guān)分析和回歸分析)的正確使用問題進行了初步分析
2、,希望能對環(huán)境科學學報的作者們有 所幫助。1統(tǒng)計軟件的選擇在進行統(tǒng)計分析時,盡管作者可以自行編寫計算程序,但在統(tǒng)計軟件很普及的今天,這樣做是 毫無必要的。因此,出于對工作效率以及對算法的可靠性、通用性和可比性的考慮,多數(shù)科技期刊 要求作者采用專門的數(shù)理統(tǒng)計軟件進行統(tǒng)計分析。我們在處理稿件時經(jīng)常發(fā)現(xiàn)的問題是,作者未使 用專門的數(shù)理統(tǒng)計軟件,而采用Excel這樣的電子表格軟件進行統(tǒng)計分析。由于電子表格軟件提供 的統(tǒng)計分析功能十分有限,很難滿足實際需要,除非比較簡單的分析,我們不主張作者采用這樣的 軟件。目前,國際上已開發(fā)出的專門用于統(tǒng)計分析的商業(yè)軟件很多,比較著名有SPSS(Statistical
3、 Package for Social Sciences) SAS(Statistical Analysis System)、 BMDP 和 STATISTICA 等。 其中,SPSS是專門為社會科學領(lǐng)域的研究者設(shè)計的(但是,此軟件在自然科學領(lǐng)域也得到廣泛應(yīng) 用);BMDP是專門為生物學和醫(yī)學領(lǐng)域研究者編制的統(tǒng)計軟件。目前,國際學術(shù)界有一條不成文的 約定:凡是用SPSS和SAS軟件進行統(tǒng)計分析所獲得的結(jié)果,在國際學術(shù)交流中不必說明具體算法。 由此可見,SPSS和SAS軟件已被各領(lǐng)域研究者普遍認可。我們建議環(huán)境科學學報的作者們在 進行統(tǒng)計分析時盡量使用這2個專門的統(tǒng)計軟件。目前,有關(guān)這2個軟件的
4、使用教程在書店中可很 容易地買到。2均值的計算在處理實驗數(shù)據(jù)或采樣數(shù)據(jù)時,經(jīng)常會遇到對相同采樣或相同實驗條件下同一隨機變量的多個 不同取值進行統(tǒng)計處理的問題。此時,多數(shù)作者會不假思索地直接給出算術(shù)平均值和標準差。顯然, 這種做法是不嚴謹?shù)?。在?shù)理統(tǒng)計學中,作為描述隨機變量總體大小特征的統(tǒng)計量有算術(shù)平均值、 幾何平均值和中位數(shù)等。何時用算術(shù)平均值?何時用幾何平均值?以及何時用中位數(shù)?這不能由研 究者根據(jù)主觀意愿隨意確定,而要根據(jù)隨機變量的分布特征確定。反映隨機變量總體大小特征的統(tǒng) 計量是數(shù)學期望,而在隨機變量的分布服從正態(tài)分布時,其數(shù)學期望就是其算術(shù)平均值。此時,可 用算術(shù)平均值描述隨機變量的大
5、小特征。如果所研究的隨機變量不服從正態(tài)分布,則算術(shù)平均值不 能準確反映該變量的大小特征。在這種情況下,可通過假設(shè)檢驗來判斷隨機變量是否服從對數(shù)正態(tài) 分布。如果服從對數(shù)正態(tài)分布,則幾何平均值就是數(shù)學期望的值。此時,就可以計算變量的幾何平 均值。如果隨機變量既不服從正態(tài)分布也不服從對數(shù)正態(tài)分布,則按現(xiàn)有的數(shù)理統(tǒng)計學知識,尚無 合適的統(tǒng)計量描述該變量的大小特征。退而求其次,此時可用中位數(shù)來描述變量的大小特征。3相關(guān)分析中相關(guān)系數(shù)的選擇在相關(guān)分析中,作者們常犯的錯誤是簡單地計算Pearson積矩相關(guān)系數(shù),而且既不給出正態(tài)分 布檢驗結(jié)果,也往往不明確指出所計算的相關(guān)系數(shù)就是Pearson積矩相關(guān)系數(shù)。常
6、用的相關(guān)系數(shù) 除有Pearson積矩相關(guān)系數(shù)外,還有Spearman秩相關(guān)系數(shù)和Kendall秩相關(guān)系數(shù)等。其中,Pearson 積矩相關(guān)系數(shù)可用于描述2個隨機變量的線性相關(guān)程度(相應(yīng)的相關(guān)分析方法稱為“參數(shù)相關(guān)分 析”,該方法的檢驗功效高,檢驗結(jié)果明確);Spearman或Kendall秩相關(guān)系數(shù)用來判斷兩個隨機 變量在二維和多維空間中是否具有某種共變趨勢,而不考慮其變化的幅度(相應(yīng)的相關(guān)分析稱為“非 參數(shù)相關(guān)分析”,該方法的檢驗功效較參數(shù)方法稍差,檢驗結(jié)果也不如參數(shù)方法明確)。各種成熟 的統(tǒng)計軟件如SPSS、SAS等均提供了這些相關(guān)系數(shù)的計算模塊。在相關(guān)分析中,計算各種相關(guān)系數(shù) 是有前提的
7、。對于二元相關(guān)分析,如果2個隨機變量服二元正態(tài)分布,或2個隨機變量經(jīng)數(shù)據(jù)變換 后服從二元正態(tài)分布,則可以用Pearson積矩相關(guān)系數(shù)描述這2個隨機變量間的相關(guān)關(guān)系(此時 描述的是線性相關(guān)關(guān)系),而不宜選用功效較低的Spearman或Kendall秩相關(guān)系數(shù)。如果樣本數(shù)據(jù) 或其變換值不服從正態(tài)分布,則計算Pearson積矩相關(guān)系數(shù)就毫無意義。退而求其次,此時只能 計算Spearman或Kendall秩相關(guān)系數(shù)(盡管這樣會導致檢驗功效的降低)。因此,環(huán)境科學學報 編輯部要求作者在報告相關(guān)分析結(jié)果時,還應(yīng)提供正態(tài)分布檢驗結(jié)果,以證明計算所選擇的相關(guān)系 數(shù)是妥當?shù)?。需要指出的是,由于Spearman或
8、Kendall秩相關(guān)系數(shù)是基于順序變量(秩)設(shè)計的 相關(guān)系數(shù),因此,如果所采集的數(shù)據(jù)不是確定的數(shù)值而僅僅是秩,則使用Spearman或Kendall秩 相關(guān)系數(shù)進行非參數(shù)相關(guān)分析就成為唯一的選擇。4相關(guān)分析與回歸分析的區(qū)別相關(guān)分析和回歸分析是極為常用的2種數(shù)理統(tǒng)計方法,在環(huán)境科學及其它科學研究領(lǐng)域有著廣 泛的用途。然而,由于這2種數(shù)理統(tǒng)計方法在計算方面存在很多相似之處,且在一些數(shù)理統(tǒng)計教科 書中沒有系統(tǒng)闡明這2種數(shù)理統(tǒng)計方法的內(nèi)在差別,從而使一些研究者不能嚴格區(qū)分相關(guān)分析與回 歸分析。最常見的錯誤是,用回歸分析的結(jié)果解釋相關(guān)性問題。例如,作者將“回歸直線(曲線) 圖”稱為“相關(guān)性圖”或“相關(guān)關(guān)
9、系圖”;將回歸直線的R2(擬合度,或稱“可決系數(shù)”)錯誤地稱 為“相關(guān)系數(shù)”或“相關(guān)系數(shù)的平方”;根據(jù)回歸分析的結(jié)果宣稱2個變量之間存在正的或負的相 關(guān)關(guān)系。這些情況在環(huán)境科學學報的來稿中極為普遍。相關(guān)分析與回歸分析均為研究2個或多個變量間關(guān)聯(lián)性的方法,但2種數(shù)理統(tǒng)計方法存在本質(zhì) 的差別,即它們用于不同的研究目的。相關(guān)分析的目的在于檢驗兩個隨機變量的共變趨勢(即共同 變化的程度),回歸分析的目的則在于試圖用自變量來預測因變量的值。在相關(guān)分析中,兩個變量 必須同時都是隨機變量,如果其中的一個變量不是隨機變量,就不能進行相關(guān)分析。這是相關(guān)分析 方法本身所決定的。對于回歸分析,其中的因變量肯定為隨機
10、變量(這是回歸分析方法本身所決定 的),而自變量則可以是普通變量(有確定的取值)也可以是隨機變量。如果自變量是普通變量, 采用的回歸方法就是最為常用的“最小二乘法”,即模型I回歸分析;如果自變量是隨機變量,所 采用的回歸方法與計算者的目的有關(guān)-在以預測為目的的情況下,仍采用“最小二乘法”,在以估 值為目的的情況下須使用相對嚴謹?shù)摹爸鬏S法”、“約化主軸法”或“Bartlett法”,即模型II回歸 分析。顯然,對于回歸分析,如果是模型I回歸分析,就根本不可能回答變量的“相關(guān)性”問題, 因為普通變量與隨機變量之間不存在“相關(guān)性”這一概念(問題在于,大多數(shù)的回歸分析都是模型 I回歸分析!)。此時,即使
11、作者想描述2個變量間的“共變趨勢”而改用相關(guān)分析,也會因相關(guān)分 析的前提不存在而使分析結(jié)果毫無意義。如果是模型II回歸分析,鑒于兩個隨機變量客觀上存在“相 關(guān)性”問題,只是由于回歸分析方法本身不能提供針對自變量和因變量之間相關(guān)關(guān)系的準確的檢驗 手段,因此,若以預測為目的,最好不提“相關(guān)性”問題;若以探索兩者的“共變趨勢”為目的, 應(yīng)該改用相關(guān)分析。需要特別指出的是,回歸分析中的R2在數(shù)學上恰好是Pearson積矩相關(guān)系數(shù)r的平方。因此, 這極易使作者們錯誤地理解R2的含義,認為R2就是“相關(guān)系數(shù)”或“相關(guān)系數(shù)的平方”。問題在 于,對于自變量是普通變量(即其取值具有確定性)、因變量為隨機變量的模
12、型I回歸分析,2個 變量之間的“相關(guān)性”概念根本不存在,又何談“相關(guān)系數(shù)”呢?(說明:二元回歸可決系數(shù)符號 用小寫r2)5顯著性水平相關(guān)分析及正態(tài)分布檢驗等均為基于假設(shè)檢驗的統(tǒng)計分析方法。而顯著性水平的確定是假設(shè)檢 驗中至關(guān)重要的問題。顯著性水平反映了拒絕某一原假設(shè)時所犯錯誤的可能性。通常,拒絕客觀上 正確的原假設(shè)的幾率用a值表示,該值被稱為假設(shè)檢驗的顯著性水平 (Significant level)。a 值一般在進行假設(shè)檢驗前由研究者根據(jù)需要確定,常用的取值是0.05或0.01。對于前者,相當于 在原假設(shè)事實上正確的情況下,研究者接受這一假設(shè)的可能性為95%;對于后者,則研究者接受事 實上正
13、確的原假設(shè)的可能性為99%。顯然,降低a值可以減少拒絕原假設(shè)的可能性。因此,在報 告統(tǒng)計分析結(jié)果時,必須給出a值。在進行統(tǒng)計分析時,各種統(tǒng)計軟件通常在給出檢驗統(tǒng)計量的 同時,也給出該檢驗統(tǒng)計量取值的相伴概率(即某特定取值及更極端可能值出現(xiàn)的準確概率,用p 表示)。p值是否小于事先確定的a值,是接受或拒絕原假設(shè)的依據(jù)。如果p值小于事先已確定的 a值,就意味著原假設(shè)成立的可能性很小,因而可以拒絕原假設(shè)。相反,如果p值大于事先已確 定的a值,就意味著原假設(shè)成立的可能性較大,因而不能拒絕原假設(shè)。在計算機軟件尚不普及的 情況下,計算檢驗統(tǒng)計量并與特定顯著性水平的臨界值比較是簡潔的方法,在計算機軟件普及的
14、今 天,建議直接使用p值,并在結(jié)果中給出p,以表達精確錯誤率。以二元相關(guān)分析為例,相關(guān)分析中的原假設(shè)是“相關(guān)系數(shù)為零”(即2個隨機變量間不存在顯 著的相關(guān)關(guān)系)。如果計算出的檢驗統(tǒng)計量的相伴概率(p值)低于事先給定a值(如0.05),就 可以認為“相關(guān)系數(shù)為零”的可能性很低,2個隨機變量之間存在明顯的相關(guān)關(guān)系。與相關(guān)關(guān)系 不同,在正態(tài)分布檢驗時,原假設(shè)是“樣本數(shù)據(jù)來自服從正態(tài)分布的總體”。此時,如果計算出的 檢驗統(tǒng)計量的相伴概率(p值)低于事先給定a值(如0.05),則表明數(shù)據(jù)不服從正態(tài)分布。在本刊來稿中,作者在描述相關(guān)分析結(jié)果時常有的失誤是僅給出相關(guān)系數(shù)的值,而不給出顯著 性水平。這就無法判
15、斷2個隨機變量間的相關(guān)性是否顯著。此外,作者在論文中常常用“顯著相關(guān)” 和“極顯著相關(guān)”來描述相關(guān)分析結(jié)果,即認為p值小于0.05就是顯著相關(guān)關(guān)系(或顯著相關(guān)), 小于0.01就是極顯著相關(guān)關(guān)系(或極顯著相關(guān))。顯然,這也是不規(guī)范的。在假設(shè)檢驗中,只有“顯 著”和“不顯著”,沒有“極顯著”這樣的提法。只要計算出的檢驗統(tǒng)計量的相伴概率(p值)低 于事先確定的a值,就可以認為檢驗結(jié)果“顯著”(相關(guān)分析的原假設(shè)是“相關(guān)系數(shù)為零”,故此 處的“顯著”實際意味著“相關(guān)系數(shù)不為零”,或說“2個隨機變量間有顯著的相關(guān)關(guān)系”);同樣, 只要計算出的檢驗統(tǒng)計量的相伴概率(p值)高于事先確定的a值,就可以認為檢驗
16、結(jié)果“不顯 著”。因此,不能認為p值小于0.05就是“顯著相關(guān)”,p值小于0.01就是“極顯著相關(guān)”。換言 之,在進行相關(guān)分析時,不能同時使用0.05和0.01這2個顯著性水平來決定是否拒絕原假設(shè),只 能使用其中的1個。規(guī)范的做法是指出在什么a值(0.01或0.05)下是否顯著相關(guān)并在括號中給 出p值。需要指出的是,有少數(shù)作者在報告二元相關(guān)分析結(jié)果時,針對p值大于0.05的情形宣稱 “2個隨機變量有相關(guān)性但不顯著”。這種說法是自相矛盾的?!坝邢嚓P(guān)性”就意味著“檢驗結(jié)果顯 著”,“檢驗結(jié)果不顯著”就意味著“不存在相關(guān)性”。在二元相關(guān)分析中,如果事先確定的a值 為0.05,則只要p值大于0.05,
17、 2個隨機變量之間就不存在相關(guān)關(guān)系。反之,如果2個隨機變量 間存在相關(guān)關(guān)系,則p值應(yīng)小于0.05。6推薦參考書為了能夠準確、系統(tǒng)地了解常用的數(shù)理統(tǒng)計學概念和方法,適當閱讀一些參考書是十分必要的。 目前,這方面的出版物很多,作者們可很方便地從書店購得。此處我們推薦作者們閱讀以下書籍:1)應(yīng)用數(shù)理統(tǒng)計方法。該書由北京大學環(huán)境學院陶澍教授編著、中國環(huán)境科學出版社1994 年出版。該書以環(huán)境科學及相鄰學科的研究人員為主要對象,以方法應(yīng)用為主軸,具有很好的可讀 性。2)統(tǒng)計學方法與數(shù)據(jù)分析引論(上、下)。該書由科學出版社2003年出版,原著者為美國 學者R.L.奧特和M.朗格內(nèi)克,中譯者為張忠占、王建穩(wěn)、王強和楊中華。本書同樣注重實例分析, 可作為文科各專業(yè)本科生的統(tǒng)計學引論教程,以及理工科各專業(yè)學生應(yīng)用統(tǒng)計學課程的教材或教學 參考書,也可作為無任何統(tǒng)計學基礎(chǔ)的一線科研人員閱讀的統(tǒng)計學入門書籍。3)SPSS統(tǒng)計分析方法及應(yīng)用。該書由北京市高等教育精品教材立項項目資助、中國人民大 學統(tǒng)計學院薛薇教授編著、電子工業(yè)出版社2004年出版。這是一本介紹著名統(tǒng)計軟件SPSS的教程。4)SPSS實用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 版回遷房購房合同
- 灰砂磚代理購銷協(xié)議
- 別墅品質(zhì)專業(yè)保證
- 瓷磚質(zhì)量保證書承諾
- 房屋租賃合同補充協(xié)議糾紛處理
- 借款保證書的書寫
- 工作失責反省書模板
- 經(jīng)濟印刷服務(wù)合同
- 電信服務(wù)合同仲裁程序說明
- 藝人簽約經(jīng)紀人合約
- 吉林省吉林市2023-2024學年高三上學期第二次模擬考試 生物 二模
- 線上房博會方案
- 2023年CNC程序工程師年度總結(jié)及下一年計劃
- 成長的足跡展現(xiàn)獨特的魅力小學四年級主題班會
- 隧道工程監(jiān)控量測
- 2024人教版初中英語單詞詞匯表默寫背誦(中考復習必背)
- 第12課 明朝的興亡
- 國開《Windows網(wǎng)絡(luò)操作系統(tǒng)管理》形考任務(wù)6-配置Web服務(wù)實訓
- 第六章危險化學品的包裝、儲存和運輸安全
- 落地式鋼管腳手架驗收記錄表
- 外研社英語教材(一年級起點版)六年級上冊知識點總結(jié)
評論
0/150
提交評論