一篇文章帶你正確認(rèn)識總體和樣本

上傳人：陳*** IP屬地：廣東上傳時間：2022-12-16 格式：DOCX 頁數(shù)：7 大?。?05.60KB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一篇文章帶你正確認(rèn)識總體和樣本在常規(guī)數(shù)據(jù)分析中，我們關(guān)注的是總體，而不是個體。比如某學(xué)校的教學(xué)改革之后，需要關(guān)注該校全體學(xué)生的成績是否有顯著提升；再如某種藥物上市之后，需要關(guān)注服用該藥的所有患者是否有顯著好轉(zhuǎn)；新設(shè)備上線之后，生產(chǎn)出的所有產(chǎn)品的質(zhì)量是否有顯著提升，等等。在上述例子中，所有學(xué)生的成績，所有患者的療效，所有產(chǎn)品的質(zhì)量，都構(gòu)成了一個總體。為何在數(shù)據(jù)分析中只關(guān)注總體？在實際應(yīng)用中，待研究的總體有著怎樣的特征，比如均值，方差，甚至分布形態(tài)，往往都是未知的，那我們該如何認(rèn)識總體呢？總體和樣本又有著怎樣的關(guān)系呢？本文將試圖解答這些問題。我們把研究對象的全體稱之為總體，組成總體的每一個研究對象稱為個體，比如一個學(xué)校的全體學(xué)生可視為一個總體，每一個學(xué)生可視為總體中的一個個體。在具體的一次研究中，我們通常關(guān)心的并不是研究對象的所有性質(zhì)或者特征，而是某個特征或者某幾個特征，也常稱之為指標(biāo)，比如在具體的一次教學(xué)研究中，我們只關(guān)注學(xué)生的成績（并不會關(guān)注學(xué)生的身高、體重、品德等其他特征），成績就是一個指標(biāo)。因受隨機(jī)因素的影響（比如考試時的狀態(tài)，平時對知識的掌握程度等等），每位學(xué)生的成績往往是不同的，是隨機(jī)變化的，因此一個學(xué)校的全體學(xué)生的成績，實際上是一個隨機(jī)變量；同理，每位肥胖患者服用同一種減肥藥之后，下降的體重也不是一個固定值（因為每位肥胖患者的自身條件總是存在差異的），有的患者下降多一些，有的患者下降少一些，下降的體重也是一個隨機(jī)變量；同一條生產(chǎn)線生產(chǎn)出的產(chǎn)品，其質(zhì)量或者重量等特征也不是恒定不變的，因受外界隨機(jī)因素（比如溫度的變化、源材料來源的變化、人為操作的不一致等）的影響，產(chǎn)品的各類指標(biāo)也都是隨機(jī)變量。在統(tǒng)計領(lǐng)域中，總體往往指的就是隨機(jī)變量的所有取值，一個學(xué)校的所有學(xué)生的成績構(gòu)成一個總體，所有肥胖患者的下降體重構(gòu)成一個總體等等。所以，總體也可以表述為：表征全體研究對象的某一個特征的隨機(jī)變量。隨機(jī)變量中的任意一個取值即為個體。因此，指標(biāo)、隨機(jī)變量、總體，它們的本質(zhì)含義是一致的，只不過是三種不同的表述。綜上所述，總體和個體有兩層含義：一層是研究對象的全體稱為總體，全體中的每一個研究對象稱為個體；另一層是總體即表征全體研究對象的某一個特征的隨機(jī)變量，隨機(jī)變量中的任意一個取值即為個體。大家閱讀資料時可以根據(jù)上下文來判斷總體和個體具體為哪一層含義。總體可分為有限和無限總體，有限總體即包含有限個研究對象，相應(yīng)地，隨機(jī)變量的取值的數(shù)量也是有限的，比如研究對象為某城市的所有企業(yè)，即為有限總體；無限總體中的研究對象是無限多個，或者無法全部獲得，比如一條生產(chǎn)線生產(chǎn)的所有產(chǎn)品，理論上是無限多的，只要生產(chǎn)線正常運(yùn)作，就可以源源不斷地生產(chǎn)出產(chǎn)品；再如全世界的人口，雖然總數(shù)是有限的，但是不可能獲得每個人的某項特征值，比如身高、年齡、體重等等。任何總體有兩個重要的特性：同質(zhì)和變異。同質(zhì)：對于總體中所有研究對象的某項特征（指標(biāo)）來說，其影響因素是眾多的，比如上文提到的學(xué)生成績，受到考試時的狀態(tài)、平時學(xué)習(xí)習(xí)慣和方法、考題難易程度、教學(xué)方法等因素的影響。如果影響被研究指標(biāo)的主要的、已知的、可控制的因素達(dá)到相同或基本相同，就可以認(rèn)為總體中的全體研究對象是同質(zhì)的。比如一個學(xué)校的全體學(xué)生都就讀于同一學(xué)校，接受同樣的教學(xué)方法，年齡相仿，成長階段和心理特征基本接近，考題難易程度相近，也就是說該學(xué)校的全體學(xué)生是同質(zhì)的。再比如如果研究兒童的生長發(fā)育，同性別、同年齡、同地區(qū)、同民族、健康的兒童即為同質(zhì)的兒童，可以視為一個總體。我們所研究的總體，其中的每個研究對象之間是同質(zhì)的，也就是每個研究對象自身條件或者所處的外部環(huán)境盡可能對被研究特征（指標(biāo)）所產(chǎn)生的影響是相同或者相近的。如果不同質(zhì)，那么這樣的總體研究就沒有意義。變異：上面提到，影響總體中的研究對象的某項特征的因素是眾多的，除了已知的、可控制的之外，還有許多未知的、不可控制的因素，比如同一所學(xué)校的每位學(xué)生，考試時的心理狀態(tài)有沉著有焦慮、平時的學(xué)習(xí)習(xí)慣和方法有好有壞，這些影響成績的因素不可能完全相同，總是有差異，而且這些影響因素是不可控的，因人而異，此外，還有其他的未知的影響成績的因素。除了影響因素的不同，影響機(jī)制還及其復(fù)雜且不可知，因此影響因素最終產(chǎn)生的作用是隨機(jī)的，不可預(yù)測的，這樣每個研究對象的特征值一定存在差異，是隨機(jī)變化的，同一學(xué)校的學(xué)生的成績有高有底；同質(zhì)的兒童的身高有高有矮，體重有胖有瘦；用相同的降壓藥治療病情、年齡相同的原發(fā)性高血壓病人，其血壓值降低的有多有少。這就是個體變異，是普遍存在的，是絕對的。變異代表世界的不確定性?？傮w的同質(zhì)特性本質(zhì)上是人為地最大程度保證影響每個研究對象的特征的因素是相同的。但是人們只能保證一些已知的，可控的因素是相同的，不可能保證所有的影響因素都是相同的，因為其中的部分影響因素是未知的，不可控的。所以說同質(zhì)是相對的，變異是絕對的?？傮w是同質(zhì)和變異的統(tǒng)一體。上面提到，總體實際上也是一個隨機(jī)變量，這就體現(xiàn)出了總體中個體的變異性。個體變異雖然代表著不確定性，但是如果綜合考察總體中的所有個體變異，它們往往具有一定的規(guī)律性。這是確定與不確定的統(tǒng)一。比如下圖顯示某機(jī)構(gòu)男性成員體重分布圖，在橫軸上將體重劃分為7個區(qū)間，每個藍(lán)色柱子中央標(biāo)示出體重落入該區(qū)間內(nèi)的男性成員人數(shù)占總?cè)藬?shù)的比例，很明顯，每位成員的體重雖然存在變異，但是他們的體重分布卻呈現(xiàn)出一定的規(guī)律性，體重適中的成員占據(jù)多數(shù)，而過瘦過胖的成員占據(jù)少數(shù)，這就是個體存在變異，但總體內(nèi)所有個體的變異卻呈一定的規(guī)律性，如果男性成員人數(shù)足夠多，他們體重逐漸趨于正態(tài)分布，具有固定的均值和方差等特征。因此我們雖然無法把握個體的變異，但是卻可以把握總體，因為總體相對是確定的。我們數(shù)據(jù)分析的一個任務(wù)就是在同質(zhì)的基礎(chǔ)上，對個體變異進(jìn)行分析研究，揭示由變異所掩蓋的同質(zhì)事物內(nèi)在的本質(zhì)和規(guī)律。所以數(shù)據(jù)分析也是人們盡其所能對抗不確定性的一種方式。個體變異的存在，代表著不確定性，因此無法只通過個體來做出一般性的因果結(jié)論，比如教學(xué)改革之后，一位學(xué)生的成績提高了，并不能因此得出教學(xué)改革效果顯著的結(jié)論。再比如用兩種方法治療病情相似的患者，結(jié)果一例治愈，一例死亡，由于個體變異的存在，無法簡單地確定一種方法有效，一種方法無效。所以數(shù)據(jù)分析只關(guān)注總體，因為總體具有確定的特征和規(guī)律，如果全校所有學(xué)生的平均成績（也即總體的均值）顯著提高了，那么我們就有理由推斷教學(xué)改革效果是明顯的。在實際應(yīng)用中，我們該如何確定一個總體呢，一是要滿足同質(zhì)性，即影響被研究對象特征的已知的、可控的因素盡量相同或者相近；二是根據(jù)實際的研究目的而定，比如研究對象為某地區(qū)所有的企業(yè)，與研究對象為某地區(qū)所有的民營企業(yè)，其各自的總體自然是不同的。下面我們再學(xué)習(xí)統(tǒng)計領(lǐng)域中另一個重要的概念----樣本。樣本也有兩層含義：一是來自于總體的部分研究對象，二是部分研究對象的特征值。抽取的研究對象的個數(shù)稱為樣本容量，常記為n。隨機(jī)抽取的樣本對總體的代表性比較好，隨機(jī)意味著抽到每個研究對象的機(jī)會是均等的。抽樣的目的是通過樣本信息來推斷總體特征，也就是認(rèn)識總體，實際上就是通過認(rèn)識樣本來達(dá)到認(rèn)識總體的目的?？傮w和樣本，如果分別作為研究對象，它們各自也有自己的特征。參數(shù)：是對總體的特征的數(shù)值描述。參數(shù)是固定的常數(shù)，通常是未知的。統(tǒng)計量：是對樣本的特征的數(shù)值描述。樣本統(tǒng)計量是一個隨機(jī)變量。如果研究對象是人，那么人的特征有姓名，體重，身高，籍貫等。對于一組數(shù)據(jù)（總體或者樣本）來說，同樣也有眾多的特征，從宏觀來劃分，大致有總量、集中、分布、離散等特征。參數(shù)與統(tǒng)計量，實際上就是對總體或者樣本經(jīng)過某種運(yùn)算而得到的值，這樣的值可以揭示總體或者樣本某方面的特征。比如分別對樣本執(zhí)行求平均值、求中位數(shù)、求眾數(shù)的運(yùn)算，即可得到反應(yīng)樣本集中程度的平均數(shù)、中位數(shù)、眾數(shù)等特征指標(biāo)；最常見的反應(yīng)離散特征的就是方差、標(biāo)準(zhǔn)差等指標(biāo)，求方差、求標(biāo)準(zhǔn)差實際上也就是對總體或者樣本執(zhí)行的某種運(yùn)算。反應(yīng)分布特征的主要有峰度和偏度兩個指標(biāo)。參數(shù)通常用希臘字母表示，比如π代表比率，μ代表均值，σ代表標(biāo)準(zhǔn)差，ρ代表總體的相關(guān)系數(shù)；統(tǒng)計量通常用英文字母表示，比如p代表比率，x代表均值，S代表標(biāo)準(zhǔn)差，r代表樣本的相關(guān)系數(shù)。很明顯，參數(shù)與統(tǒng)計量是兩個同等意義的概念，都是用于反應(yīng)一組數(shù)據(jù)的特征，只是一個用于總體，一個用于樣本。在實際應(yīng)用中，往往無法得到總體中的所有數(shù)據(jù)，所以總體的參數(shù)是未知的，但無論總體是有限的，還是無限的，其包含的全體研究對象是確定的，因此總體的參數(shù)是一個固定的常數(shù)。由于每次從總體中隨機(jī)抽取的樣本的數(shù)目是有限的、已知的，因此樣本的統(tǒng)計量自然也是已知的。但是樣本統(tǒng)計量卻不是恒定不變的，是一個隨機(jī)變量，因為每一次隨機(jī)抽取的樣本，其中包含的研究對象往往是不同的，例如假設(shè)總體中有9個數(shù)據(jù)：1，2，3，…，9，從中隨機(jī)抽取3個樣本數(shù)據(jù)，第一次可能抽取到1，5，9，第二次可能抽取到3，4，7，第三次可能抽取到2，5，6等等。三次抽取的樣本的平均數(shù)分別是：5，4.67，4.33，所以平均數(shù)這個樣本統(tǒng)計量就是在總體參數(shù)（總體平均數(shù)為4.5）附近波動的隨機(jī)變量，可以作為總體參數(shù)的估計值。有的樣本統(tǒng)計量可以作為總體參數(shù)的估計值，比如樣本的均值可以用于估計總體的均值，樣本的方差可以用于估計總體的方差。樣本統(tǒng)計量除了可以估計總體參數(shù)，還有一個極其重要的作用，那就是用于推斷總體（在這里樣本統(tǒng)計量的含義其實得到了進(jìn)一步擴(kuò)展，樣本統(tǒng)計量不僅僅可以描述樣本特征，同時也可以用于總體的推斷）。在不同的應(yīng)用場景下，基于特定的推斷目的（比如推斷總體的均值，或者推斷總體的方差，或者推斷總體的分布形態(tài)，等等），統(tǒng)計學(xué)家已經(jīng)為我們提供了特定的樣本統(tǒng)計量計算方式（也就是對樣本進(jìn)行特定運(yùn)算的公式），以及該樣本統(tǒng)計量所服從的分布形態(tài)（比如正態(tài)分布、t分布、卡方分布、F分布等等），這樣一來，該樣本統(tǒng)計量實際上就是一個已知的新總體（上面我們提到樣本統(tǒng)計量是一個隨機(jī)變量，自然也是一個總體，不同于樣本所來自的那個總體）。根據(jù)這個已知的新總體，我們可以對樣本所來自的總體做出一些相關(guān)的未知信息的推斷，比如均值，方差，分布形態(tài)等等。下圖是通過樣本推斷總體的基本過程（關(guān)于詳細(xì)的推斷原理和過程，可參見文章《假設(shè)檢驗在數(shù)據(jù)分析中的應(yīng)用》）。樣樣本樣本特征統(tǒng)計量（已知）總體同質(zhì)變異總體特征參數(shù)（未知）隨機(jī)抽樣方法選擇統(tǒng)計推斷/估計下面我們舉一個實際例子。假設(shè)欲比較2021年甲乙兩地12歲正常男童的平均身高。方法如下：從兩地（兩個總體）中各抽取一個樣本（不妨各隨機(jī)抽取10名男童），分別算得平均身高（樣本統(tǒng)計量），然后通過合適的數(shù)據(jù)分析方法來推斷甲乙兩地12歲正常男童平均身高（這里的平均身高是總體的均值，屬于總體的參數(shù)）是否有差異，也就是揭示不同總體的異質(zhì)性，本質(zhì)上就是揭示在兩個總體中，各自影響男童身高的因素對男童身高所產(chǎn)生的影響是否有顯著的不同。下面我們介紹一下總體取值的類型，因為不同的取值類型，可能需要選用不同的數(shù)據(jù)分析方法。總體是隨機(jī)變量，隨機(jī)變量根據(jù)取值的不同可分為如下幾類：隨機(jī)變量隨機(jī)變量計量變量連續(xù)型變量離散型變量分類變量無序分類變量有序分類變量計量變量：隨機(jī)變量的取值為數(shù)值型數(shù)據(jù)，具有度量衡單位，也稱定量變量，或者數(shù)值變量，該類型的隨機(jī)變量實際反應(yīng)的是研究對象的可度量的特征，也就是可定量的特征。計量變量又可分為連續(xù)型和離散型，連續(xù)型即為在任何一個數(shù)值區(qū)間內(nèi)，取值都是無限的，比如理論上人的身高和體重的取值可以是連續(xù)的，只要測量儀可以精確到小數(shù)點(diǎn)無限位數(shù)。不連續(xù)的隨機(jī)變量即為離散型，比如有的隨機(jī)變量只能取整數(shù)，假如每隔一分鐘統(tǒng)計一次某公交車站臺上的等車人數(shù)，那么等車人數(shù)就是一個隨機(jī)變量，而且只能取正整數(shù)；有的隨機(jī)變量只能取有限的、固定的、可列舉的數(shù)值，比如箱子中有多種顏色的小球，其中只有三個紅色小球，如果每次隨機(jī)抽取三個小球（放回抽樣），那么抽中紅色小球的個數(shù)只能是：0，1，2，3。分類變量：該類型的隨機(jī)變量實際反應(yīng)的是研究對象的可定性的特征，無法使用數(shù)值來描述，只能使用文字或者符號來描述。分類變量又可分為無序分類變量和有序分類變量，無序分類變量的取值相互獨(dú)立，沒有任何等級關(guān)系，比如血型可以取值：O型，A型，B型，AB型；實驗結(jié)果可以是有效和無效；成績可以是及格和不及格；檢測結(jié)果可以是陽性和陰性等等。相反，有序分類變量的取值具有等級關(guān)系，也就是在嚴(yán)重程度或者有效程度或者其他方面表現(xiàn)出一種遞進(jìn)關(guān)系，比如問題的嚴(yán)重程度可以是：致命、非常嚴(yán)重、嚴(yán)重、一般、提示；藥物的療效可以是：痊愈、顯效、有效、無效。對于計量變量，在數(shù)據(jù)分析中，我們常常關(guān)注它們的均值，方差特征；而對于分類變量，我們常常關(guān)注每個類別的總數(shù)目，或者占據(jù)總體的比例等等。有些數(shù)據(jù)分析方法適用于計量變量，比如兩樣本均值比較的t檢驗，多樣本均值比較的方差分析等等；有些數(shù)據(jù)分析方法適用于分類變量，比如列聯(lián)表分析方法。大家在選用數(shù)據(jù)分析方法時，要注意鑒別。下表為某醫(yī)院住院患者信息表，大家可以判斷一下每列數(shù)據(jù)屬于哪種變量類型。序號年齡性別身高（m）血型心電圖尿紅蛋白職業(yè)血RBC135

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一篇文章帶你正確認(rèn)識總體和樣本

文檔簡介

溫馨提示

最新文檔

評論

一篇文章帶你正確認(rèn)識總體和樣本

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔