一篇文章帶你正確認(rèn)識總體和樣本_第1頁
一篇文章帶你正確認(rèn)識總體和樣本_第2頁
一篇文章帶你正確認(rèn)識總體和樣本_第3頁
一篇文章帶你正確認(rèn)識總體和樣本_第4頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一篇文章帶你正確認(rèn)識總體和樣本在常規(guī)數(shù)據(jù)分析中,我們關(guān)注的是總體,而不是個體。比如某學(xué)校的教學(xué)改革之后,需要關(guān)注該校全體學(xué)生的成績是否有顯著提升;再如某種藥物上市之后,需要關(guān)注服用該藥的所有患者是否有顯著好轉(zhuǎn);新設(shè)備上線之后,生產(chǎn)出的所有產(chǎn)品的質(zhì)量是否有顯著提升,等等。在上述例子中,所有學(xué)生的成績,所有患者的療效,所有產(chǎn)品的質(zhì)量,都構(gòu)成了一個總體。為何在數(shù)據(jù)分析中只關(guān)注總體?在實際應(yīng)用中,待研究的總體有著怎樣的特征,比如均值,方差,甚至分布形態(tài),往往都是未知的,那我們該如何認(rèn)識總體呢?總體和樣本又有著怎樣的關(guān)系呢?本文將試圖解答這些問題。我們把研究對象的全體稱之為總體,組成總體的每一個研究對象稱為個體,比如一個學(xué)校的全體學(xué)生可視為一個總體,每一個學(xué)生可視為總體中的一個個體。在具體的一次研究中,我們通常關(guān)心的并不是研究對象的所有性質(zhì)或者特征,而是某個特征或者某幾個特征,也常稱之為指標(biāo),比如在具體的一次教學(xué)研究中,我們只關(guān)注學(xué)生的成績(并不會關(guān)注學(xué)生的身高、體重、品德等其他特征),成績就是一個指標(biāo)。因受隨機(jī)因素的影響(比如考試時的狀態(tài),平時對知識的掌握程度等等),每位學(xué)生的成績往往是不同的,是隨機(jī)變化的,因此一個學(xué)校的全體學(xué)生的成績,實際上是一個隨機(jī)變量;同理,每位肥胖患者服用同一種減肥藥之后,下降的體重也不是一個固定值(因為每位肥胖患者的自身條件總是存在差異的),有的患者下降多一些,有的患者下降少一些,下降的體重也是一個隨機(jī)變量;同一條生產(chǎn)線生產(chǎn)出的產(chǎn)品,其質(zhì)量或者重量等特征也不是恒定不變的,因受外界隨機(jī)因素(比如溫度的變化、源材料來源的變化、人為操作的不一致等)的影響,產(chǎn)品的各類指標(biāo)也都是隨機(jī)變量。在統(tǒng)計領(lǐng)域中,總體往往指的就是隨機(jī)變量的所有取值,一個學(xué)校的所有學(xué)生的成績構(gòu)成一個總體,所有肥胖患者的下降體重構(gòu)成一個總體等等。所以,總體也可以表述為:表征全體研究對象的某一個特征的隨機(jī)變量。隨機(jī)變量中的任意一個取值即為個體。因此,指標(biāo)、隨機(jī)變量、總體,它們的本質(zhì)含義是一致的,只不過是三種不同的表述。綜上所述,總體和個體有兩層含義:一層是研究對象的全體稱為總體,全體中的每一個研究對象稱為個體;另一層是總體即表征全體研究對象的某一個特征的隨機(jī)變量,隨機(jī)變量中的任意一個取值即為個體。大家閱讀資料時可以根據(jù)上下文來判斷總體和個體具體為哪一層含義。總體可分為有限和無限總體,有限總體即包含有限個研究對象,相應(yīng)地,隨機(jī)變量的取值的數(shù)量也是有限的,比如研究對象為某城市的所有企業(yè),即為有限總體;無限總體中的研究對象是無限多個,或者無法全部獲得,比如一條生產(chǎn)線生產(chǎn)的所有產(chǎn)品,理論上是無限多的,只要生產(chǎn)線正常運(yùn)作,就可以源源不斷地生產(chǎn)出產(chǎn)品;再如全世界的人口,雖然總數(shù)是有限的,但是不可能獲得每個人的某項特征值,比如身高、年齡、體重等等。任何總體有兩個重要的特性:同質(zhì)和變異。同質(zhì):對于總體中所有研究對象的某項特征(指標(biāo))來說,其影響因素是眾多的,比如上文提到的學(xué)生成績,受到考試時的狀態(tài)、平時學(xué)習(xí)習(xí)慣和方法、考題難易程度、教學(xué)方法等因素的影響。如果影響被研究指標(biāo)的主要的、已知的、可控制的因素達(dá)到相同或基本相同,就可以認(rèn)為總體中的全體研究對象是同質(zhì)的。比如一個學(xué)校的全體學(xué)生都就讀于同一學(xué)校,接受同樣的教學(xué)方法,年齡相仿,成長階段和心理特征基本接近,考題難易程度相近,也就是說該學(xué)校的全體學(xué)生是同質(zhì)的。再比如如果研究兒童的生長發(fā)育,同性別、同年齡、同地區(qū)、同民族、健康的兒童即為同質(zhì)的兒童,可以視為一個總體。我們所研究的總體,其中的每個研究對象之間是同質(zhì)的,也就是每個研究對象自身條件或者所處的外部環(huán)境盡可能對被研究特征(指標(biāo))所產(chǎn)生的影響是相同或者相近的。如果不同質(zhì),那么這樣的總體研究就沒有意義。變異:上面提到,影響總體中的研究對象的某項特征的因素是眾多的,除了已知的、可控制的之外,還有許多未知的、不可控制的因素,比如同一所學(xué)校的每位學(xué)生,考試時的心理狀態(tài)有沉著有焦慮、平時的學(xué)習(xí)習(xí)慣和方法有好有壞,這些影響成績的因素不可能完全相同,總是有差異,而且這些影響因素是不可控的,因人而異,此外,還有其他的未知的影響成績的因素。除了影響因素的不同,影響機(jī)制還及其復(fù)雜且不可知,因此影響因素最終產(chǎn)生的作用是隨機(jī)的,不可預(yù)測的,這樣每個研究對象的特征值一定存在差異,是隨機(jī)變化的,同一學(xué)校的學(xué)生的成績有高有底;同質(zhì)的兒童的身高有高有矮,體重有胖有瘦;用相同的降壓藥治療病情、年齡相同的原發(fā)性高血壓病人,其血壓值降低的有多有少。這就是個體變異,是普遍存在的,是絕對的。變異代表世界的不確定性??傮w的同質(zhì)特性本質(zhì)上是人為地最大程度保證影響每個研究對象的特征的因素是相同的。但是人們只能保證一些已知的,可控的因素是相同的,不可能保證所有的影響因素都是相同的,因為其中的部分影響因素是未知的,不可控的。所以說同質(zhì)是相對的,變異是絕對的??傮w是同質(zhì)和變異的統(tǒng)一體。上面提到,總體實際上也是一個隨機(jī)變量,這就體現(xiàn)出了總體中個體的變異性。個體變異雖然代表著不確定性,但是如果綜合考察總體中的所有個體變異,它們往往具有一定的規(guī)律性。這是確定與不確定的統(tǒng)一。比如下圖顯示某機(jī)構(gòu)男性成員體重分布圖,在橫軸上將體重劃分為7個區(qū)間,每個藍(lán)色柱子中央標(biāo)示出體重落入該區(qū)間內(nèi)的男性成員人數(shù)占總?cè)藬?shù)的比例,很明顯,每位成員的體重雖然存在變異,但是他們的體重分布卻呈現(xiàn)出一定的規(guī)律性,體重適中的成員占據(jù)多數(shù),而過瘦過胖的成員占據(jù)少數(shù),這就是個體存在變異,但總體內(nèi)所有個體的變異卻呈一定的規(guī)律性,如果男性成員人數(shù)足夠多,他們體重逐漸趨于正態(tài)分布,具有固定的均值和方差等特征。因此我們雖然無法把握個體的變異,但是卻可以把握總體,因為總體相對是確定的。我們數(shù)據(jù)分析的一個任務(wù)就是在同質(zhì)的基礎(chǔ)上,對個體變異進(jìn)行分析研究,揭示由變異所掩蓋的同質(zhì)事物內(nèi)在的本質(zhì)和規(guī)律。所以數(shù)據(jù)分析也是人們盡其所能對抗不確定性的一種方式。個體變異的存在,代表著不確定性,因此無法只通過個體來做出一般性的因果結(jié)論,比如教學(xué)改革之后,一位學(xué)生的成績提高了,并不能因此得出教學(xué)改革效果顯著的結(jié)論。再比如用兩種方法治療病情相似的患者,結(jié)果一例治愈,一例死亡,由于個體變異的存在,無法簡單地確定一種方法有效,一種方法無效。所以數(shù)據(jù)分析只關(guān)注總體,因為總體具有確定的特征和規(guī)律,如果全校所有學(xué)生的平均成績(也即總體的均值)顯著提高了,那么我們就有理由推斷教學(xué)改革效果是明顯的。在實際應(yīng)用中,我們該如何確定一個總體呢,一是要滿足同質(zhì)性,即影響被研究對象特征的已知的、可控的因素盡量相同或者相近;二是根據(jù)實際的研究目的而定,比如研究對象為某地區(qū)所有的企業(yè),與研究對象為某地區(qū)所有的民營企業(yè),其各自的總體自然是不同的。下面我們再學(xué)習(xí)統(tǒng)計領(lǐng)域中另一個重要的概念----樣本。樣本也有兩層含義:一是來自于總體的部分研究對象,二是部分研究對象的特征值。抽取的研究對象的個數(shù)稱為樣本容量,常記為n。隨機(jī)抽取的樣本對總體的代表性比較好,隨機(jī)意味著抽到每個研究對象的機(jī)會是均等的。抽樣的目的是通過樣本信息來推斷總體特征,也就是認(rèn)識總體,實際上就是通過認(rèn)識樣本來達(dá)到認(rèn)識總體的目的??傮w和樣本,如果分別作為研究對象,它們各自也有自己的特征。參數(shù):是對總體的特征的數(shù)值描述。參數(shù)是固定的常數(shù),通常是未知的。統(tǒng)計量:是對樣本的特征的數(shù)值描述。樣本統(tǒng)計量是一個隨機(jī)變量。如果研究對象是人,那么人的特征有姓名,體重,身高,籍貫等。對于一組數(shù)據(jù)(總體或者樣本)來說,同樣也有眾多的特征,從宏觀來劃分,大致有總量、集中、分布、離散等特征。參數(shù)與統(tǒng)計量,實際上就是對總體或者樣本經(jīng)過某種運(yùn)算而得到的值,這樣的值可以揭示總體或者樣本某方面的特征。比如分別對樣本執(zhí)行求平均值、求中位數(shù)、求眾數(shù)的運(yùn)算,即可得到反應(yīng)樣本集中程度的平均數(shù)、中位數(shù)、眾數(shù)等特征指標(biāo);最常見的反應(yīng)離散特征的就是方差、標(biāo)準(zhǔn)差等指標(biāo),求方差、求標(biāo)準(zhǔn)差實際上也就是對總體或者樣本執(zhí)行的某種運(yùn)算。反應(yīng)分布特征的主要有峰度和偏度兩個指標(biāo)。參數(shù)通常用希臘字母表示,比如π代表比率,μ代表均值,σ代表標(biāo)準(zhǔn)差,ρ代表總體的相關(guān)系數(shù);統(tǒng)計量通常用英文字母表示,比如p代表比率,x代表均值,S代表標(biāo)準(zhǔn)差,r代表樣本的相關(guān)系數(shù)。很明顯,參數(shù)與統(tǒng)計量是兩個同等意義的概念,都是用于反應(yīng)一組數(shù)據(jù)的特征,只是一個用于總體,一個用于樣本。在實際應(yīng)用中,往往無法得到總體中的所有數(shù)據(jù),所以總體的參數(shù)是未知的,但無論總體是有限的,還是無限的,其包含的全體研究對象是確定的,因此總體的參數(shù)是一個固定的常數(shù)。由于每次從總體中隨機(jī)抽取的樣本的數(shù)目是有限的、已知的,因此樣本的統(tǒng)計量自然也是已知的。但是樣本統(tǒng)計量卻不是恒定不變的,是一個隨機(jī)變量,因為每一次隨機(jī)抽取的樣本,其中包含的研究對象往往是不同的,例如假設(shè)總體中有9個數(shù)據(jù):1,2,3,…,9,從中隨機(jī)抽取3個樣本數(shù)據(jù),第一次可能抽取到1,5,9,第二次可能抽取到3,4,7,第三次可能抽取到2,5,6等等。三次抽取的樣本的平均數(shù)分別是:5,4.67,4.33,所以平均數(shù)這個樣本統(tǒng)計量就是在總體參數(shù)(總體平均數(shù)為4.5)附近波動的隨機(jī)變量,可以作為總體參數(shù)的估計值。有的樣本統(tǒng)計量可以作為總體參數(shù)的估計值,比如樣本的均值可以用于估計總體的均值,樣本的方差可以用于估計總體的方差。樣本統(tǒng)計量除了可以估計總體參數(shù),還有一個極其重要的作用,那就是用于推斷總體(在這里樣本統(tǒng)計量的含義其實得到了進(jìn)一步擴(kuò)展,樣本統(tǒng)計量不僅僅可以描述樣本特征,同時也可以用于總體的推斷)。在不同的應(yīng)用場景下,基于特定的推斷目的(比如推斷總體的均值,或者推斷總體的方差,或者推斷總體的分布形態(tài),等等),統(tǒng)計學(xué)家已經(jīng)為我們提供了特定的樣本統(tǒng)計量計算方式(也就是對樣本進(jìn)行特定運(yùn)算的公式),以及該樣本統(tǒng)計量所服從的分布形態(tài)(比如正態(tài)分布、t分布、卡方分布、F分布等等),這樣一來,該樣本統(tǒng)計量實際上就是一個已知的新總體(上面我們提到樣本統(tǒng)計量是一個隨機(jī)變量,自然也是一個總體,不同于樣本所來自的那個總體)。根據(jù)這個已知的新總體,我們可以對樣本所來自的總體做出一些相關(guān)的未知信息的推斷,比如均值,方差,分布形態(tài)等等。下圖是通過樣本推斷總體的基本過程(關(guān)于詳細(xì)的推斷原理和過程,可參見文章《假設(shè)檢驗在數(shù)據(jù)分析中的應(yīng)用》)。樣樣本樣本特征統(tǒng)計量(已知)總體同質(zhì)變異總體特征參數(shù)(未知)隨機(jī)抽樣方法選擇統(tǒng)計推斷/估計下面我們舉一個實際例子。假設(shè)欲比較2021年甲乙兩地12歲正常男童的平均身高。方法如下:從兩地(兩個總體)中各抽取一個樣本(不妨各隨機(jī)抽取10名男童),分別算得平均身高(樣本統(tǒng)計量),然后通過合適的數(shù)據(jù)分析方法來推斷甲乙兩地12歲正常男童平均身高(這里的平均身高是總體的均值,屬于總體的參數(shù))是否有差異,也就是揭示不同總體的異質(zhì)性,本質(zhì)上就是揭示在兩個總體中,各自影響男童身高的因素對男童身高所產(chǎn)生的影響是否有顯著的不同。下面我們介紹一下總體取值的類型,因為不同的取值類型,可能需要選用不同的數(shù)據(jù)分析方法。總體是隨機(jī)變量,隨機(jī)變量根據(jù)取值的不同可分為如下幾類:隨機(jī)變量隨機(jī)變量計量變量連續(xù)型變量離散型變量分類變量無序分類變量有序分類變量計量變量:隨機(jī)變量的取值為數(shù)值型數(shù)據(jù),具有度量衡單位,也稱定量變量,或者數(shù)值變量,該類型的隨機(jī)變量實際反應(yīng)的是研究對象的可度量的特征,也就是可定量的特征。計量變量又可分為連續(xù)型和離散型,連續(xù)型即為在任何一個數(shù)值區(qū)間內(nèi),取值都是無限的,比如理論上人的身高和體重的取值可以是連續(xù)的,只要測量儀可以精確到小數(shù)點(diǎn)無限位數(shù)。不連續(xù)的隨機(jī)變量即為離散型,比如有的隨機(jī)變量只能取整數(shù),假如每隔一分鐘統(tǒng)計一次某公交車站臺上的等車人數(shù),那么等車人數(shù)就是一個隨機(jī)變量,而且只能取正整數(shù);有的隨機(jī)變量只能取有限的、固定的、可列舉的數(shù)值,比如箱子中有多種顏色的小球,其中只有三個紅色小球,如果每次隨機(jī)抽取三個小球(放回抽樣),那么抽中紅色小球的個數(shù)只能是:0,1,2,3。分類變量:該類型的隨機(jī)變量實際反應(yīng)的是研究對象的可定性的特征,無法使用數(shù)值來描述,只能使用文字或者符號來描述。分類變量又可分為無序分類變量和有序分類變量,無序分類變量的取值相互獨(dú)立,沒有任何等級關(guān)系,比如血型可以取值:O型,A型,B型,AB型;實驗結(jié)果可以是有效和無效;成績可以是及格和不及格;檢測結(jié)果可以是陽性和陰性等等。相反,有序分類變量的取值具有等級關(guān)系,也就是在嚴(yán)重程度或者有效程度或者其他方面表現(xiàn)出一種遞進(jìn)關(guān)系,比如問題的嚴(yán)重程度可以是:致命、非常嚴(yán)重、嚴(yán)重、一般、提示;藥物的療效可以是:痊愈、顯效、有效、無效。對于計量變量,在數(shù)據(jù)分析中,我們常常關(guān)注它們的均值,方差特征;而對于分類變量,我們常常關(guān)注每個類別的總數(shù)目,或者占據(jù)總體的比例等等。有些數(shù)據(jù)分析方法適用于計量變量,比如兩樣本均值比較的t檢驗,多樣本均值比較的方差分析等等;有些數(shù)據(jù)分析方法適用于分類變量,比如列聯(lián)表分析方法。大家在選用數(shù)據(jù)分析方法時,要注意鑒別。下表為某醫(yī)院住院患者信息表,大家可以判斷一下每列數(shù)據(jù)屬于哪種變量類型。序號年齡性別身高(m)血型心電圖尿紅蛋白職業(yè)血RBC135

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論