統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記

上傳人：f*** IP屬地：天津上傳時間：2023-05-08 格式：DOCX 頁數(shù)：39 大小：185.13KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩34頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章導(dǎo)論一、統(tǒng)計(jì)及其應(yīng)用領(lǐng)域統(tǒng)計(jì)學(xué)（statistics）：是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。數(shù)據(jù)分析所用的方法可分為描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法分：描述統(tǒng)計(jì)（descriptivestatistics）研究的是數(shù)據(jù)收集、處理、分析、匯總、圖表描述、概括與分析等統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)（inferentialstatistics）研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)方法。按統(tǒng)計(jì)方法研究與應(yīng)用分：理論統(tǒng)計(jì)學(xué)、應(yīng)用統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)的主要特點(diǎn)：數(shù)量性、社會性、總體性。統(tǒng)計(jì)的應(yīng)用領(lǐng)域：1、企業(yè)發(fā)展戰(zhàn)略2、產(chǎn)品質(zhì)量管理3、市場研究4、財(cái)務(wù)分析5、經(jīng)濟(jì)預(yù)測6、人力資源管理二、統(tǒng)計(jì)數(shù)據(jù)的類型按計(jì)量層次分類：分類數(shù)據(jù)（categoricaldata）是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。順序數(shù)據(jù)（rankdata）是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。數(shù)值型數(shù)據(jù)（metricdata）是按數(shù)字尺度測量的觀察值，其結(jié)果表現(xiàn)為具體的數(shù)值。定性數(shù)據(jù)（qualitativedata）即品質(zhì)數(shù)據(jù)，分類數(shù)據(jù)和順序數(shù)據(jù)。定量數(shù)據(jù)（quantitativedata）即數(shù)量數(shù)據(jù)，數(shù)值型數(shù)據(jù)。按收集方法分類：觀測數(shù)據(jù)（observationaldata）是通過調(diào)查（調(diào)查數(shù)據(jù)）或觀測而收集到的數(shù)據(jù)?！旧鐣F(xiàn)象】實(shí)驗(yàn)數(shù)據(jù)（experimentaldata）是在實(shí)驗(yàn)中控制實(shí)驗(yàn)對象而收集到的數(shù)據(jù)?！咀匀滑F(xiàn)象】按時間狀況分類：截面數(shù)據(jù)（cross-sectionaldata）是在相同或近似相同的時間點(diǎn)上收集的數(shù)據(jù)，這類數(shù)據(jù)通常是在不同的空間上獲得的，用于描述現(xiàn)象在某一時刻的變化情況。時間序列數(shù)據(jù)（timeseriesdata）是在不同時間收集到的數(shù)據(jù)，這類數(shù)據(jù)是按時間順序收集到的，用于描述現(xiàn)象隨時間變化的情況。三、統(tǒng)計(jì)中的幾個基本概念總體（population）：包含所研究的全部個體（數(shù)據(jù)）的集合?？傮w通常由所研究的一些個體組成，組成總體的每個元素稱為個體。根據(jù)總體包含的單位數(shù)目是否可數(shù)分：有限總體：總體的范圍能夠確定，而且元素的數(shù)目是有限可數(shù)的。（抽取一個單位后，總體元素就會減少一個，前一次抽樣會影響第二次抽樣的結(jié)果。）無限總體：總體所包括的元素是無限的、不可數(shù)的。（每次抽取一個單位，并不影響下一次的抽樣結(jié)果。）【抽樣中每次抽取是否獨(dú)立。】樣本（sample）：從總體中抽取一部分元素的集合。樣本量（samplesize）：構(gòu)成樣本元素的數(shù)目。抽樣的目的是根據(jù)樣本提供的信息推斷總體的特征，根據(jù)樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù)。參數(shù)（parameter）：用來描述總體特征的概括性數(shù)字度量，是研究者想要了解的總體的某種特征值。（總體平均數(shù)μ、總體標(biāo)準(zhǔn)差σ、總體比例π等。）統(tǒng)計(jì)量（statistic）：用來描述樣本特征的概括性數(shù)字度量，是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一個量，是樣本的函數(shù)。（樣本平均數(shù)x-bar、樣本標(biāo)準(zhǔn)差s、樣本比例p等。）變量（variable）：說明現(xiàn)象某種特征的概念，其特點(diǎn)是從一次觀察到下一次觀察結(jié)果會呈現(xiàn)出差別或變化。（變量的具體取值稱為變量值。）1、分類變量（categoricalvariable）是說明事物類別的一個名稱，其取值是分類數(shù)據(jù)。2、順序變量（rankvariable）是說明事物有序類別的一個名稱，其取值是順序數(shù)據(jù)。3、數(shù)值型變量（metricvariable）是說明事物數(shù)字特征的一個名稱，其取值是數(shù)值型數(shù)據(jù)。數(shù)值型變量根據(jù)其取值不同分：離散型變量（discretevariable）是只能取可數(shù)值的變量，只能取有限個值，且取值都以整位數(shù)斷開，可以一一列舉。連續(xù)型變量（continuousvariable）是可以在一個或多個區(qū)間中取任何值的變量，其取值是連續(xù)不斷的，不能一一列舉。其他分類：隨機(jī)變量和非隨機(jī)變量、經(jīng)驗(yàn)變量（empiricalvariable）、理論變量（theoreticalvariable）。第二章數(shù)據(jù)的收集一、數(shù)據(jù)的來源數(shù)據(jù)的間接來源，即二手資料，搜集方便、數(shù)據(jù)采集快、采集成本低，但局限性很大，針對性不夠。對二手資料評估需考慮：資料是誰搜集的？為什么目的而搜集？數(shù)據(jù)是怎樣搜集的？什么時候搜集的？數(shù)據(jù)的直接來源。二、調(diào)查數(shù)據(jù)什么是好的樣本？一是針對研究問題而言的，二是具有最好的性能價格比，即針對調(diào)查費(fèi)用與估計(jì)精度的關(guān)系而言的。使用抽樣采集數(shù)據(jù)的具體方式：概率抽樣和非概率抽樣概率抽樣（probabilitysampling）：也稱隨機(jī)抽樣，是指遵循隨機(jī)原則進(jìn)行的抽樣，總體中每個單位都有一定的機(jī)會被選入樣本。隨機(jī)原則：在抽取樣本時排除主觀上有意識的抽取調(diào)查單位，是每一個單位都有一定的機(jī)會被抽中。特點(diǎn)：1、抽樣時是按一定的概率以隨機(jī)原則抽取樣本。2、每個單位被抽中的概率是已知的，或是可以計(jì)算出來的。3、當(dāng)用樣本對總體目標(biāo)量進(jìn)行估計(jì)時，要考慮到每個樣本單位被抽中的概率。概率抽樣方式：1、簡單隨機(jī)抽樣（simplerandomsampling）就是從包括總體N個單位的抽樣框（samplingframe）中隨機(jī)地、一個個的抽取n個單位作為樣本，每個單位的入樣概率上相等的。特點(diǎn)：簡單、直觀、計(jì)量方便。局限性：a、要求將包含所有總體單位的名單作為抽樣框，當(dāng)N很大時，構(gòu)造這樣的抽樣框并不容易。b、抽出的單位很分散，給實(shí)施調(diào)查增加了困難。c、沒有利用其它輔助信息以提高估計(jì)的效率。2、分層抽樣（stratifiedsampling）是將抽樣單位按某種特征或某種規(guī)則劃分為不同的層，然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本。優(yōu)點(diǎn)：a、保證了樣本中包含有各種特征的抽樣單位，樣本結(jié)構(gòu)與總體結(jié)構(gòu)比較相近，有效地提高估計(jì)的精度。b、在一定條件下為組織實(shí)施調(diào)查提供了方便。c、既可以對總體參數(shù)進(jìn)行估計(jì)，也可以對各層的目標(biāo)量進(jìn)行估計(jì)。3、整群抽樣（clustersampling）即將總體中若干個單位合并為組，這樣的組稱為群，抽樣時直接抽取群，然后對中選群中的所有單位全部實(shí)施調(diào)查。特點(diǎn)：a、簡化了編制抽樣框的工作量。b、調(diào)查地點(diǎn)相對集中，節(jié)省調(diào)查費(fèi)用，方便調(diào)查實(shí)施。弱點(diǎn)：估計(jì)的精度較差，要得到與簡單隨機(jī)抽樣相同的精度，需要增加基本調(diào)查單位。4、系統(tǒng)抽樣（systematicsampling）將總體中的所有單位（抽樣單位）按一定順序排列，在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個單位作為初始單位，然后按事先規(guī)定好的規(guī)則確定其他樣本單位。優(yōu)點(diǎn)：操作簡單，若有輔助信息，對總體內(nèi)的單位進(jìn)行有組織的排列，可以有效地提高估計(jì)的精度。缺點(diǎn)：對估計(jì)量方差的估計(jì)比較困難。5、多階段抽樣（multi-stagesampling）首先抽取群，然后再進(jìn)一步抽樣，從選中的群中抽取若干個單位進(jìn)行調(diào)查，即二階段抽樣，群是初級抽樣單位，第二階段抽取的是最終抽樣單位。優(yōu)點(diǎn)：a、保證樣本相對集中，節(jié)約調(diào)查費(fèi)用。b、不需要包含所有底階段抽樣單位的抽樣框。c、由于實(shí)行了再抽樣，使調(diào)查單位在更廣的范圍內(nèi)展開。非概率抽樣（non-probabilitysampling）：是相對于概率抽樣而言的，指抽取樣本時不是依據(jù)隨機(jī)原則，二是根據(jù)研究目的對數(shù)據(jù)的要求，采用某種方式從總體中抽取部分單位對其實(shí)施調(diào)查。非概率抽樣的類型：1、方便抽樣調(diào)查過程中由調(diào)查員依據(jù)方便原則，自行確定入抽樣本的單位。最大特點(diǎn)是容易實(shí)施，調(diào)查成本低；弱點(diǎn)是樣本單位的確定帶有隨意性。2、判斷抽樣研究人員根據(jù)經(jīng)驗(yàn)、判斷和對研究對象的了解，有目的地選擇一些單位作為樣本，實(shí)施時根據(jù)不同的目的有重點(diǎn)抽樣、典型抽樣、代表抽樣等方式。優(yōu)點(diǎn)是成本較低，容易操作；弱點(diǎn)是主觀性強(qiáng)，樣本選擇的好壞取決于調(diào)研者的判斷、經(jīng)驗(yàn)、專業(yè)程度和創(chuàng)造性，且調(diào)查結(jié)果不能用于對總體有關(guān)參數(shù)進(jìn)行估計(jì)。3、自愿抽樣被調(diào)查者自愿參加，成為樣本中的一份子，向調(diào)查人員提供有關(guān)信息，可反映某類人群的一般看法。4、滾雪球抽樣往往用于對稀少群體的調(diào)查，適合對特定群體進(jìn)行研究的資料搜集。優(yōu)點(diǎn)是容易找到那些屬于特定群體的被調(diào)查者，調(diào)查的成本也比較低。5、配額抽樣首先將總體中的所有單位按一定的標(biāo)志（變量）分為若干類，然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。可以按單一變量控制，也可以按交叉變量控制（保證樣本的分布更為均勻）。搜集數(shù)據(jù)的基本方法：1、自填式弱點(diǎn)是問卷的回收率比較低，不適合結(jié)構(gòu)復(fù)雜的問卷。2、面訪式弱點(diǎn)是調(diào)查的成本較高，在對調(diào)查過程的質(zhì)量控制方面有一定難度。3、電話式特點(diǎn)是速度快，能夠在很短的時間內(nèi)完成調(diào)查。4、觀察式數(shù)據(jù)搜集方法的選擇：1、抽樣框中的有關(guān)信息。2、目標(biāo)總體的特征。3、調(diào)查問題的內(nèi)容。4、有形輔助物的使用。5、實(shí)施調(diào)查的資源。6、管理與控制。7、質(zhì)量要求。三、實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)組（experimentgroup）：指隨機(jī)抽選的實(shí)驗(yàn)對象的子集，每個單位接受某種特別的處理。對照組（controlgroup）：每個單位不接收實(shí)驗(yàn)組成員所接受的某種特別的處理?！倦p盲法】對照組和實(shí)驗(yàn)組是匹配的。實(shí)驗(yàn)中的若干問題：1、人的意愿。2、心理問題。3、道德問題。實(shí)驗(yàn)中的統(tǒng)計(jì)作用：1、確定實(shí)驗(yàn)所需要的單位的個數(shù)，以保證實(shí)驗(yàn)可以達(dá)到統(tǒng)計(jì)顯著的結(jié)果。2、將統(tǒng)計(jì)思想融入實(shí)驗(yàn)設(shè)計(jì)，使實(shí)驗(yàn)設(shè)計(jì)符合統(tǒng)計(jì)分析的標(biāo)準(zhǔn)。3、提供盡可能有效的同時研究幾個變量影響的方法。什么是好的實(shí)驗(yàn)？一方面是內(nèi)部的有效性，即實(shí)驗(yàn)測量的準(zhǔn)確性；另一方面是外部的有效性，外部的有效性決定是否可以將實(shí)驗(yàn)中發(fā)現(xiàn)的因果關(guān)系進(jìn)行推廣，即能否將結(jié)果推廣到實(shí)驗(yàn)環(huán)境以外的情況。實(shí)驗(yàn)數(shù)據(jù)可以作為研究者判斷假設(shè)的依據(jù)。四、數(shù)據(jù)的誤差數(shù)據(jù)的誤差：指通過調(diào)查搜集到的數(shù)據(jù)與研究對象真實(shí)結(jié)果之間的差異。抽樣誤差（samplingerror）：由抽樣的隨機(jī)性引起的樣本與總體真值之間的誤差。抽樣誤差描述的是所有樣本可能的結(jié)果與總體真值之間的平均差異。影響抽樣誤差大小的因素：1、樣本量的大小。樣本量越大，抽樣誤差越小；樣本量大到等于總體單位時，抽樣調(diào)查變?yōu)槠詹?，抽樣誤差為零。2、總體的變異性?？傮w的變異性越大，即各單位之間的差異越大，抽樣誤差也就越大，因?yàn)榭赡艹榈教貏e大或特別小的樣本單位，從而使樣本結(jié)果偏大或偏??；反之總體的變異性越小，各單位之間越相似，抽樣誤差也就越小；如果所有的單位完全一樣，調(diào)查一個就可以精確無誤的推斷總體，抽樣誤差就不存在。非抽樣誤差（non-samplingerror）：相對于抽樣誤差而言，是除抽樣誤差之外的，由于其他原因引起的樣本觀察結(jié)果與總體真值之間的差異。非抽樣誤差的類型：1、抽樣框誤差2、回答誤差（a、理解誤差b、記憶誤差c、有意識誤差）3、無回答誤差4、調(diào)查員誤差5、測量誤差誤差的控制：抽樣誤差是由抽樣的隨機(jī)性帶來的，只要采用概率抽樣，抽樣誤差就不可避免，但抽樣誤差是可以計(jì)算的。樣本量和抽樣誤差的關(guān)系：一旦誤差確定下來，就可以采用相應(yīng)的措施進(jìn)行控制，進(jìn)行控制的一個主要方法是改變樣本量，要求的抽樣誤差越小，所需要的樣本量就越大。第三章數(shù)據(jù)的圖表展示一、數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理：在對數(shù)據(jù)分類或分組之前所做的必要處理，內(nèi)容包括數(shù)據(jù)的審核、篩選、排序等。A、數(shù)據(jù)審核：檢查數(shù)據(jù)中是否有錯誤。對于通過調(diào)查取得的原始數(shù)，主要從完整性和準(zhǔn)確性兩個方面去審核。完整性審核：主要是檢查應(yīng)調(diào)查的單位或個體是否有遺漏，所有的調(diào)查項(xiàng)目是否填寫齊全等。準(zhǔn)確性審核：主要是檢查數(shù)據(jù)是否有錯誤，是否存在異常值等。對于二手?jǐn)?shù)據(jù)，應(yīng)著重審核數(shù)據(jù)的適用性和時效性。B、數(shù)據(jù)篩選（datafilter）：根據(jù)需要找出符合特定條件的某類數(shù)據(jù)。C、數(shù)據(jù)排序：按一定順序?qū)?shù)據(jù)排列，以便研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢，找到解決問題的線索。排序還有助于對數(shù)據(jù)檢查糾錯，以及為重新歸類或分組提供方便。分類數(shù)據(jù)——字母型數(shù)據(jù)[升序、降序]漢字型數(shù)據(jù)[按漢字首位拼音字母排列、按姓氏筆畫排序]（交替運(yùn)用不同方式排序，在漢字型數(shù)據(jù)的檢查糾錯過程中十分有用。）數(shù)值型數(shù)據(jù)[遞增、遞減]順序統(tǒng)計(jì)量（orderstatistics）：排序后的數(shù)據(jù)。D、數(shù)據(jù)透視表（pivottable）二、品質(zhì)數(shù)據(jù)的整理與展示A、分類數(shù)據(jù)的整理與圖示頻數(shù)（frequency）：落在某一特定類別或組中的數(shù)據(jù)個數(shù)。頻數(shù)分布（frequencydistribution）：把各類別及落在其中的相應(yīng)頻數(shù)全部列出，并用表格的形式表現(xiàn)出來。列聯(lián)表（contingencytable）：由兩個或兩個以上的變量交叉分類的頻數(shù)分布表。交叉表（crosstable）：二維的列聯(lián)表（兩個變量交叉分類）。對于定型數(shù)據(jù)除了用頻數(shù)分布表進(jìn)行描述外，還可用比例、百分比、比率等統(tǒng)計(jì)計(jì)量來描述。比例（proportion）：也稱構(gòu)成比，它是一個樣本或總體中各個部分的數(shù)據(jù)與全部數(shù)據(jù)之比，通常用于反應(yīng)樣本或總體的構(gòu)成或結(jié)構(gòu)。百分比（percentage）：將比例乘以100得到的數(shù)值，用%表示。比率（ratio）：樣本或總體中不同類別數(shù)據(jù)之間的比值，由于比率不是部分與整體之間的對比關(guān)系，因此比值可能大于1。分類數(shù)據(jù)的圖示——條形圖（barchart）：用寬度相同的條形的高度或長短來表示數(shù)據(jù)多少的圖形，縱置時稱也為柱形圖（columnchart），此外，又分為簡單條形圖、復(fù)式條形圖等。帕累托圖（paretochart）：按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖，左側(cè)縱軸給出計(jì)數(shù)值（count），即頻數(shù)，右側(cè)的縱軸給出累積百分比（cumulativepercent）。餅圖（piechart）：用圓形及園內(nèi)扇形的角度來表示數(shù)值大小的圖形，它主要用于表示一個樣本或總體中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例，對于研究結(jié)構(gòu)性問題十分有用。環(huán)形圖（doughnutchart）：把餅圖疊在一起，挖取中間部分即可。B、順序數(shù)據(jù)的整理與圖示累積頻數(shù)（cumulativefrequencies）：將各有序類別或組的頻數(shù)逐級累加起來得到的頻數(shù)。累積方法—向上累積：從類別順序的開始一方向類別順序的最后一方累加頻數(shù)；數(shù)值型分組數(shù)據(jù)則是從變量值小的一方向變量值大的一方累加頻數(shù)。向下累積：從類別順序最后的一方向類別順序開始的一方累加頻數(shù)；數(shù)值型分組數(shù)據(jù)則是從變量值大的一方向變量值小的一方累加頻數(shù)。累積頻率或累積百分比（cumulativepercentages）：將各有序類別或組的百分比逐級累加起來，也有向上累積和向下累積兩種方法。累積頻數(shù)分布或頻率圖。三、數(shù)值型數(shù)據(jù)的整理與展示A、數(shù)據(jù)分組數(shù)據(jù)分組：根據(jù)統(tǒng)計(jì)研究的需要，將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別。分組數(shù)據(jù)（groupeddata）：根據(jù)統(tǒng)計(jì)研究的需要，將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)分成不同的組別，分組后的數(shù)據(jù)。數(shù)據(jù)分組的方法—1）按照一個標(biāo)志進(jìn)行的分組是簡單分組，按照多個標(biāo)志進(jìn)行的分組是復(fù)合分組。2）單變量值分組：把每一個變量值作為一組；適用于變量值較少的離散型變量。3）組距分組：將全部變量值一次劃分為若干區(qū)間，將一個區(qū)間的變量值作為一組；適用于變量值較多或連續(xù)型變量。在組距（classwidth）分組中，一個組的最小值稱為下限（lowerlimit），最大值稱為上限（upperlimit），并遵循不重不漏的原則；組距相等稱為等距分組，組距不等稱為不等距分組。組中值（classmidpoint）：每一組中下限值與上限值中間的值，即組中值=（下限值+上限值）÷2，反映各組數(shù)據(jù)的一般水平。（必要假定條件：各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布。）B、數(shù)值型數(shù)據(jù)的圖示a、分組數(shù)據(jù)：直方圖顯示分組數(shù)據(jù)頻數(shù)分布特征的圖形有直方圖、折線圖和曲線圖等。直方圖（histogram）：用矩形的寬度和高度（即面積）來表示頻數(shù)分布的。b、未分組數(shù)據(jù)：莖葉圖和箱線圖莖葉圖（stem-and-leafdisplay）：反應(yīng)原始數(shù)據(jù)分布的圖形，首先把一個數(shù)字分成兩部分，通常是以該組數(shù)據(jù)的高位數(shù)值作為樹莖，而且葉上只保留該數(shù)值的最后一個數(shù)字。通過莖葉圖，可以看出數(shù)據(jù)分布的形狀及數(shù)據(jù)的離散狀況，比如，分布是否對稱，數(shù)據(jù)是否集中，是否有離群點(diǎn)等。箱線圖（boxplot）：由一組數(shù)據(jù)的最大值（maximum）、最小值（minimum）、中位數(shù)（median）、兩個四分位數(shù)（quartiles）這五個特征值繪制而成，它主要用于反映原始數(shù)據(jù)分布的特征，還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法：先找出一組數(shù)據(jù)的最大值、最小值、中位數(shù)、兩個四分位數(shù)；然后連接兩個四分位數(shù)畫出箱子；再將最大值和最小值與箱子相連接，中位數(shù)在箱子中間。箱線圖的分布類型有：對稱分布、左偏分布、右偏分布、U形分布。c、時間序列數(shù)據(jù)：線圖時間序列數(shù)據(jù)：在不同時間上獲得的數(shù)值型數(shù)據(jù)。線圖（lineplot）：主要用于反映現(xiàn)象隨時間變化的特征。d、多變量數(shù)據(jù)的圖示散點(diǎn)圖（scatterdiagram）：用二維坐標(biāo)展示兩個變量之間關(guān)系的一種圖形，由坐標(biāo)及其散點(diǎn)形成的二維數(shù)據(jù)圖。氣泡圖（bubblechart）：用于展示三個變量之間的關(guān)系，將一個變量放在橫軸，另一個變量放在縱軸，第三個變量用氣泡大小來表示。雷達(dá)圖（radarchart）：顯示多個變量的常用圖示方法，也稱為蜘蛛圖（spiderchart），在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用。雷達(dá)圖的具體做法：先畫一個圓，然后將圓P等分，得到P個點(diǎn)，另這P個點(diǎn)分別對應(yīng)P個變量，再將這P個點(diǎn)與圓心連線，得到P個輻射狀的半徑，這P個半徑分別作為P個變量的坐標(biāo)軸，每個變量值的大小由半徑上的點(diǎn)到圓心的距離表示，再將同一樣本的值在P個坐標(biāo)上的點(diǎn)連線。四、合理使用圖表A、鑒別圖形優(yōu)劣的準(zhǔn)則圖優(yōu)性（graphicalexcellency）一張好的圖形應(yīng)具有以下基本特征：1、顯示數(shù)據(jù)；2、讓讀者把注意力集中在圖形的內(nèi)容上，而不是制作圖形的程序上；3、避免歪曲；4、強(qiáng)調(diào)數(shù)據(jù)之間的比較；5、服務(wù)于一個明確的目的；6、有對圖形的統(tǒng)計(jì)描述和文字說明。鑒別圖形優(yōu)劣的準(zhǔn)則：1、一張好圖應(yīng)當(dāng)精心設(shè)計(jì)，有助于洞察問題的實(shí)質(zhì)；2、一張好圖應(yīng)當(dāng)使復(fù)雜的觀點(diǎn)得到簡明、確切、高效的闡述；3、一張好圖應(yīng)當(dāng)能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息；4、一張好圖應(yīng)當(dāng)是多維的；5、一張好圖應(yīng)當(dāng)表述數(shù)據(jù)的真實(shí)情況。B、統(tǒng)計(jì)表的設(shè)計(jì)統(tǒng)計(jì)表一般有四個主要部分組成，即表頭（包括表號、總標(biāo)題和表中數(shù)據(jù)的單位等）、行標(biāo)題、列標(biāo)題和數(shù)據(jù)資料，此外，必要時可以在統(tǒng)計(jì)報(bào)表的下方加上表外附加（包括數(shù)據(jù)來源、變量的注釋和必要的說明等）。注：標(biāo)題內(nèi)容應(yīng)滿足3W要求，即時間（when）、地點(diǎn)（where）以及何種數(shù)據(jù)（what）。第四章數(shù)據(jù)的概括性度量一、集中趨勢的度量集中趨勢（centraltendency）：指一組數(shù)據(jù)向某一中心值靠攏的程度，它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。A、分類數(shù)據(jù)：眾數(shù)眾數(shù)（mode）：一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值，用M0眾數(shù)是一個位置代表值，它不受數(shù)據(jù)中極端值的影響，是具有明顯集中趨勢點(diǎn)的數(shù)值，是一組數(shù)據(jù)分布的最高峰點(diǎn)所對應(yīng)的數(shù)值；眾數(shù)可能不存在，也可能有兩個（雙眾數(shù)）或多個眾數(shù)。B、順序數(shù)據(jù)：中位數(shù)和分位數(shù)中位數(shù)（median）：一組數(shù)據(jù)排序后處于中間位置上的變量值，用Me表示；主要用于測度順序數(shù)據(jù)的集中趨勢，也適用于數(shù)值型數(shù)據(jù)，但不適用于分類數(shù)據(jù)；它是一個位置代表值，不受數(shù)據(jù)中極端值的影響中位數(shù)位置的確定公式：中位數(shù)位置=（n+1）/2，n為數(shù)據(jù)個數(shù)。中位數(shù)為：M四分位數(shù)（quartile）：也稱四分位點(diǎn)，是一組數(shù)據(jù)排序后處于25%和75%位置上的值。設(shè)下四分位數(shù)為QL，上四分位數(shù)為QU，1、一種較為準(zhǔn)確的算法是按下列公式確定位置：Q2、以中位數(shù)為中心，從兩端再計(jì)算出中位數(shù)，確定位置的公式為：Q位置3、Excel給出的四分位數(shù)位置的確定方法為：Q類似還有十分位數(shù)（decile）和百分位數(shù)（percentile）等。C、數(shù)值型數(shù)據(jù)：平均數(shù)均值（mean）：也稱為平均數(shù)，是一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)得到的結(jié)果，是集中趨勢的最主要測度值，主要適用于數(shù)值型數(shù)據(jù)，不適用于分類數(shù)據(jù)和順序數(shù)據(jù)；反映事物必然性的數(shù)量特征。簡單平均數(shù)（samplemean）：根據(jù)未經(jīng)分組數(shù)據(jù)計(jì)算的平均數(shù)，即x=加權(quán)平均數(shù)（weightedmean）：根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù)，即x=幾何平均數(shù)（geometricmean）：n個變量值乘積的n次方根，用G表示，即G=D、眾數(shù)、中位數(shù)和平均數(shù)之間的關(guān)系如果數(shù)據(jù)的分布是對稱的，眾數(shù)=中位數(shù)=平均數(shù)；如果數(shù)據(jù)是左偏分布，說明數(shù)據(jù)存在極小值，必然拉動平均值向極小值一方靠，平均值<中位數(shù)<眾數(shù)；如果數(shù)據(jù)是右偏分布，說明數(shù)據(jù)存在極大值，必然拉動平均值向極大值一方靠，眾數(shù)<中位數(shù)<平均值。E、眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)與應(yīng)用場合眾數(shù)是一組數(shù)據(jù)分布的峰值，不受極端值的影響。其缺點(diǎn)是具有不唯一性，一組數(shù)據(jù)可能有一個眾數(shù)，也可能有兩個或多個眾數(shù)，也可能沒有眾數(shù)。眾數(shù)只有在數(shù)據(jù)較多的時才有意義，當(dāng)數(shù)據(jù)量較少時，不宜使用眾數(shù)。眾數(shù)主要適合作為分類數(shù)據(jù)的集中趨勢測度值。中位數(shù)是一組數(shù)據(jù)中間位置上的代表值，不受數(shù)據(jù)極端值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時，使用中位數(shù)也許是一個好的選擇。中位數(shù)主要適合作為順序數(shù)據(jù)的集中趨勢測度值。平均數(shù)是針對數(shù)值型數(shù)據(jù)計(jì)算的，而且利用了全部數(shù)據(jù)信息，它是實(shí)際應(yīng)用中最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)是對稱分布或接近對稱分布時，3個代表值相等或接近相等，這時則應(yīng)選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值影響，對于偏態(tài)分布的數(shù)據(jù)，平均數(shù)的代表性較差。因此，當(dāng)數(shù)據(jù)為偏態(tài)分布，特別是偏斜程度較大時，可以考慮選擇中位數(shù)或眾數(shù)。二、離散程度的度量離散程度：反映的是各變量值遠(yuǎn)離其中心值的程度。A、分類數(shù)據(jù)：異眾比率異眾比率（variationratio）：指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例，用Vr表示，即Vr異眾比率越大，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大，眾數(shù)的代表性越差；異眾比率越小，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小，眾數(shù)的代表性越好。B、順序數(shù)據(jù)：四分位差四分位差（quartiledeviation）：也稱為內(nèi)距或四分間距（inter-quartilerange），是上四分位數(shù)與下四分位數(shù)之差，用Qd表示，即Q四分位差反映了中間50%數(shù)據(jù)的離散程度，其數(shù)據(jù)越小，說明中間的數(shù)據(jù)越集中；其數(shù)據(jù)越大，說明中間的數(shù)據(jù)越分散；四分位差不受極值影響。C、數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差（反映數(shù)據(jù)離散程度的絕對值）極差（range）：也稱全距，一組數(shù)據(jù)的最大值與最小值之差，用R表示，即R=max(xi)平均差（meandeviation）：也稱平均絕對離差（meanabsolutedeviation），是各變量值與其平均數(shù)離差絕對值的平均數(shù)，用Md表示，即根據(jù)未分組數(shù)據(jù)計(jì)算—Md=平均差以平均數(shù)為中心，反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度，能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散狀況；平均差越大，說明數(shù)據(jù)的離散程度越大；反之，則說明數(shù)據(jù)的離散程度越小。方差（variance）：各變量值與其平均數(shù)離差平方的平均數(shù)，即未分組數(shù)據(jù)—s2=i=1標(biāo)準(zhǔn)差（standarddeviation）：方差的平方根，未分組數(shù)據(jù)—s=i=1n（樣本方差是用樣本數(shù)據(jù)個數(shù)減1后除離差平方和。自由度（degreeoffreedom）：樣本數(shù)據(jù)個數(shù)減1即n-1?！鞠鄬ξ恢玫亩攘俊浚簶?biāo)準(zhǔn)分?jǐn)?shù)（standardscore）：變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值，也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù)，即zi標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0，標(biāo)準(zhǔn)差為1的特性。經(jīng)驗(yàn)法則—當(dāng)一組數(shù)據(jù)對稱分布時，經(jīng)驗(yàn)法則表明：1、約有68%的數(shù)據(jù)在平均數(shù)±1個標(biāo)準(zhǔn)差的范圍之內(nèi)；2、約有95%的數(shù)據(jù)在平均數(shù)±2個標(biāo)準(zhǔn)差的范圍之內(nèi)；3、約有99%的數(shù)據(jù)在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之內(nèi)。離群點(diǎn)（outlier）：在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之外的數(shù)據(jù)。切比雪夫不等式（Chebyshev’sinequality）：對任何分布形狀的數(shù)據(jù)都適用，它提供的是“下界”，也就是“所占比例至少是多少”。對于任意分布形狀的數(shù)據(jù)，根據(jù)切比雪夫不等式，至少有(1-1/k2)的數(shù)據(jù)落在±1、至少有75%的數(shù)據(jù)在平均數(shù)±2個標(biāo)準(zhǔn)差的范圍之內(nèi)；2、至少有89%的數(shù)據(jù)在平均數(shù)±3個標(biāo)準(zhǔn)差的范圍之內(nèi)；3、至少有94%的數(shù)據(jù)在平均數(shù)±4個標(biāo)準(zhǔn)差的范圍之內(nèi)。D、相對離散程度：離散系數(shù)離散系數(shù)（coefficientofvariation）：也稱為變異系數(shù)，是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比，即vs離散系數(shù)越大，說明數(shù)據(jù)的離散程度也大；離散系數(shù)越小，說明數(shù)據(jù)的離散程度也小。三、偏態(tài)與峰度的測量A、偏態(tài)及其測量偏態(tài)（skewness）：對數(shù)據(jù)分布對稱性的測度，測度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)（coefficientofskewness），記作SK。1、未分組的原始數(shù)據(jù)：SK2、分組數(shù)據(jù)：SK=如果一組數(shù)據(jù)的分布是對稱的，則偏態(tài)系數(shù)等于0；如果偏態(tài)系數(shù)明顯不等于0，表明分布是非對稱的。若偏態(tài)系數(shù)大于1或小于-1，稱為高度偏態(tài)分布；若偏態(tài)系數(shù)在0.5~1或-1~-0.5之間，稱為中等偏態(tài)分布；偏態(tài)系數(shù)越接近0，偏斜程度就越低。分布對稱時，SK=0；當(dāng)SK為正值時，表示正離差值較大，可判斷為正偏或右偏；當(dāng)SK為負(fù)值時，表示負(fù)離差值較大，可判斷為負(fù)偏或左偏；SK的數(shù)值越大，表示偏斜的程度越大。B、峰態(tài)及其測量峰態(tài)（kurtosis）：對數(shù)據(jù)分布平峰或尖峰程度的測度，測度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)（coefficientofkurtosis），記作K。1、未分組數(shù)據(jù)：K2、分組數(shù)據(jù)：K=如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布，則峰態(tài)系數(shù)等于0；如果峰態(tài)系數(shù)明顯不等于0，表明分布比正態(tài)分布更平或更尖，通常稱為平峰分布或尖峰分布。由于正態(tài)分布的峰態(tài)系數(shù)為0，當(dāng)K>0時為尖峰分布，數(shù)據(jù)的分布更集中；當(dāng)K<0時為扁平分布，數(shù)據(jù)的分布越分散。第五章概率與概率分布一、隨機(jī)事件及其概率試驗(yàn)：在同一組條件下，對某物或現(xiàn)象所進(jìn)行的觀察或?qū)嶒?yàn)。事件：觀察或試驗(yàn)的結(jié)果。隨機(jī)事件（randomevent）：也叫偶然事件，簡稱“事件”，記作A、B、C等。必然事件（certainevent）：Ω不可能事件（impossibleevent）：Φ基本事件（elementaryevent）：又叫簡單事件，即一個不能分解成兩個或更多個事件的事件。在一次試驗(yàn)中，只能觀察到一個且僅有一個簡單事件。樣本空間：又叫基本空間，一個試驗(yàn)中所有的簡單事件的全體，記為Ω。事件A的概率（probability）：描述的是事件A在試驗(yàn)中出現(xiàn)的可能性大小的一種度量，可能性數(shù)值記為P(A)。A、概率的古典定義：1、結(jié)果有限，即基本空間中只含有限個元素；2、各個結(jié)果出現(xiàn)的可能性被認(rèn)為是相同的。具有這種特點(diǎn)的隨機(jī)試驗(yàn)稱為古典概型或等可能概型。計(jì)算古典概型概率的方法稱為概率的古典定義或古典概率。P局限性：隨機(jī)試驗(yàn)只有有限個可能結(jié)果的范圍，B、概率的統(tǒng)計(jì)定義：在相同條件下隨機(jī)試驗(yàn)n次，某事件A出現(xiàn)m次（m≤n），則比值m/n稱為事件A發(fā)生的頻率。隨n的增大，該頻率圍繞某一常數(shù)P上下波動，且波動的幅度逐漸減小，趨于穩(wěn)定，這個頻率的穩(wěn)定值即為該事件的概率，記為P(A)=m/n=p。C、概率的主觀定義:主觀概率：對一些無法重復(fù)的試驗(yàn)，只能根據(jù)以往的經(jīng)驗(yàn)，人為確定這個事件的概率；定義是，一個決策者根據(jù)本人掌握的信息對某事件發(fā)生可能性的判斷。二、概率的性質(zhì)與運(yùn)算法則A、概率的基本性質(zhì)（概率的公理化定義）1、對任一隨機(jī)事件A，有0≤P(A)≤12、必然事件的概率為1，而不可能事件的概率為0，即P(Ω)＝1，P(Φ)＝03、若A與B互斥，則P(A∪B)=P(A)+P(B)由此可推廣到多個兩兩互斥的隨機(jī)事件，即PB、概率的加法法則1、兩個互斥事件之和的概率，等于兩個事件概率之和；設(shè)A和B為兩個互斥事件，則P(A∪B)=P(A)+P(B)。A∪A`=Ω，則A與A`互斥，P(Ω)=1，所以P(A∪A`)=P(Ω)=1，即P(A)+P(A`)=1，從而P(A`)＝1－P(A)或P(A)＝1－P(A`)。2、對于任意兩個隨機(jī)事件，它們和的概率為兩個事件分別的概率之和減去兩事件相交的概率，即P(A∪B)=P(A)＋P(B)－P(A∩B)。C、條件概率與獨(dú)立事件1.條件概率（conditionalprobability）：當(dāng)某一事件B已經(jīng)發(fā)生時，求事件A發(fā)生的概率，稱這種概率為事件B發(fā)生條件下事件A發(fā)生的條件概率，記為P(A|B)，一般來說，P(A|B)≠P(A)。2、乘法公式P(A|B)=3、獨(dú)立性（independence）：一般認(rèn)為，兩個事件中不論哪一個事件發(fā)生與否并不影響另一事件發(fā)生的概率，則稱這兩個事件相互獨(dú)立。相依事件：一個事件發(fā)生與否會影響另一個事件的發(fā)生。當(dāng)兩個事件相互獨(dú)立時【P(A|B)=P(A)，P(B|A)=P(B)】?P(AB)＝P(A)P(B)P互斥事件一定是相互依賴（不獨(dú)立）的，但相互依賴的事件不一定是互斥的；不互斥事件可能是獨(dú)立的，也可能是不獨(dú)立的，然而獨(dú)立事件不可能是互斥的。D、全概率公式及貝葉斯公式1、全概率公式：P(B)2、貝葉斯公式（逆概率公式）：P(貝葉斯公式是在觀察到事件B已發(fā)生的條件下，尋找導(dǎo)致A發(fā)生的每個原因Ai的概率；P(Ai)稱為原因Ai的驗(yàn)前概率（priorprobability）或先驗(yàn)概率；P(B|Ai)一般來自樣本所提供的信息；P(Ai|B)稱為原因Ai的后驗(yàn)概率（posteriorprobability）。三、離散型隨機(jī)變量及其分布概率函數(shù)（probabilityfunction）：在同一組條件下，如果每次試驗(yàn)可能出現(xiàn)這樣或那樣的結(jié)果，并且把所有的結(jié)果都能列舉出來，即把X的所有可能值x1,x2,…,xn都列舉出來，而X的x1,x2,…xn可能值，具有確定概率P(x1),P(x2),…P(xn)，其中P(xi)=P(X=xi)，稱為概率函數(shù)，則X稱為P(X)的隨機(jī)變量，P(X)稱為隨機(jī)變量X的概率函數(shù)。兩種類型的隨機(jī)變量：1、離散型（discrete）隨機(jī)變量：隨機(jī)變量X的所有取值都可以逐個列舉出來。2、連續(xù)型（continuous）隨機(jī)變量：隨機(jī)變量X的所有取值無法逐個列舉出來，而是取數(shù)軸上某一區(qū)間內(nèi)的任一點(diǎn)。A、離散型隨機(jī)變量的概率分布（probabilitydistribution）P(1、0—1分布：離散型隨機(jī)變量X只可能取0和1兩個值，概率分布為?P(X=1)=p，P(X=0)=1-p=q或P2、均勻分布（rectangulardistribution）i=1nB、離散型隨機(jī)變量的期望值和方差1、期望值（expectedvalue）：在離散型隨機(jī)變量X的一切可能值的完備組中，可能值xi與其對應(yīng)概率pi的乘積之和，EX2、方差與標(biāo)準(zhǔn)差方差：每一個隨機(jī)變量取值與期望值的離差平方之期望值，反映隨機(jī)變量取值的離散程度，σ2若X的取值比較集中，則方差較?。蝗鬤的取值比較分散，則方差較大。如果方差為0，則意味著隨機(jī)變量取值集中在期望值E(X)，即隨機(jī)變量以概率1取值E(X)。標(biāo)準(zhǔn)差：隨機(jī)變量方差的平方根，σ=3、離散系數(shù)?V=C、二項(xiàng)分布和泊松分布1、二項(xiàng)分布（binomialdistribution）：包含n個相同的試驗(yàn)；每次試驗(yàn)只有兩次可能的結(jié)果；出現(xiàn)“成功”的概率p和“失敗”的概率q對每一次試驗(yàn)是相同的，且p+q=1；試驗(yàn)是相互獨(dú)立的；試驗(yàn)結(jié)果對應(yīng)于一個離散型隨機(jī)變量；符合上述特征的n次重復(fù)獨(dú)立試驗(yàn)為n重貝努里試驗(yàn)，簡稱貝努里試驗(yàn)（Bernoullitrials）或貝努里概型。Px=0n二項(xiàng)分布的期望值和方差分別為：E(X)=np，D(X)=npq。當(dāng)n=1時，二項(xiàng)分布化為P超幾何分布：設(shè)有N件產(chǎn)品，其中有M件次品，現(xiàn)從中任取n件（n≤N），則在這n件中所含的次品件數(shù)X是一個隨機(jī)變量，PX=m2、泊松分布（Poissondistribution）：用來描述在一定時間范圍內(nèi)或指在指定的面積或體積之內(nèi)某一件事出現(xiàn)的次數(shù)的分布，PX泊松分布的期望值和方差分別為：E(X)=λ，D(X)=λ。在n重貝努里試驗(yàn)中，當(dāng)成功的概率很小（即p→0），試驗(yàn)次數(shù)很大時，二項(xiàng)分布可能近似等于泊松分布，即Cn四、連續(xù)型隨機(jī)變量的概率分布A、概率密度與分布函數(shù)概率密度函數(shù)（probabilitydensityfunction）：滿足f(x)≥0，且-∞+∞P(X=x)再連續(xù)分布的條件下為零。分布函數(shù)：FP期望值與方差：EX=B、正態(tài)分布（normaldistribution）【對稱鐘形曲線】1、概率密度：f(x)=1σ2πe-1）f(x)≥0，即整個概率密度曲線都在x軸的上方。2）曲線f(x)相對于x=μ對稱，并在x=μ處達(dá)到最大值，f(μ)=13）曲線的陡緩程度由σ決定，σ越大，曲線越平緩；σ越小，曲線越陡峭。4）當(dāng)x趨于無窮時，曲線以x軸為其漸近線。2、標(biāo)準(zhǔn)正態(tài)分布（standardnormaldistribution）【μ=0，σ=1】1）概率密度：φ(x)=2）分布函數(shù)：Φ將一般正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布：設(shè)X~N(μ,σ2)，則Z=X-μσ3、正態(tài)分布表4、正態(tài)分布在質(zhì)量管理中的應(yīng)用1）3σ原則下，質(zhì)量標(biāo)準(zhǔn)的合格率為99.73%，即P2）6σ的質(zhì)量水準(zhǔn)意味著產(chǎn)品合格率達(dá)到99.9999998%，即任何流程在實(shí)際運(yùn)行中都會產(chǎn)生偏離目標(biāo)值或者期望值的情況，這種偏移稱為漂移。5、二項(xiàng)分布的正態(tài)近似第六章統(tǒng)計(jì)量及其抽樣分布一、統(tǒng)計(jì)量統(tǒng)計(jì)量：T(x1,x2,…xn)，又稱樣本統(tǒng)計(jì)量。次序統(tǒng)計(jì)：由小到大排序x1,x2,…xn，x1和xn分別為最小和最大次序統(tǒng)計(jì)量。Rn=Xn-X1樣本極差，反映樣本觀測值的離散程度。充分統(tǒng)計(jì)量：統(tǒng)計(jì)量加工過程中一點(diǎn)信息都不損失的統(tǒng)計(jì)量。【常用統(tǒng)計(jì)量】：樣本均值、樣本方差、樣本變異系數(shù)、樣本k階矩、樣本k階中心矩、樣本偏度、樣本峰度。二、關(guān)于分布的幾個概念抽樣分布（samplingdistribution）：在總體分布X的分布類型已知時，若對任意自然數(shù)n，都能導(dǎo)出統(tǒng)計(jì)量T=T(x1,x2,…xn)的分布的數(shù)學(xué)表達(dá)式，則稱為精確的抽樣分布。漸進(jìn)分布：統(tǒng)計(jì)量T(x1,x2,…xn)的極限分布。隨機(jī)模擬獲得的近似分布三、由正態(tài)分布導(dǎo)出的幾個重要分布A、卡方分布（χ2B、t分布C、F分布四、樣本均值的分布與中心極限定理A、總體分布為正態(tài)分布X~N(μ,σ2)時，X的抽樣分布仍為正態(tài)分布，X的數(shù)學(xué)期望為μ、方差為σX的期望值與總體均值相同，而方差縮小為總體方差的1/n，說明當(dāng)用樣本均值去估計(jì)總體均值時，平均來說沒有偏差（無偏性），當(dāng)n越來越大時，χ的散布程度越來越小，即用X估計(jì)μ越來越準(zhǔn)確。設(shè)總體均值為μ、方差為σ2EDXB、中心極限定理（centrallimittheorem）：設(shè)從均值為μ、方差為σ2（有限）的任意一個總體中抽取樣本量為n的樣本，當(dāng)充分大時，樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布（n≥五、樣本比例的抽樣分布樣本大小為n的樣本中具有某一特征的個體數(shù)為X，樣本比例p=Xn（來估計(jì)總體比例π）。p服從均值為π、方差為π(1-π)設(shè)EX六、兩個樣本平均值之差的分布E七、關(guān)于樣本方差的分布1、樣本方差的分布n-1S2σ2、兩個樣本方差比的分布設(shè)X1,X2,…,Xn1是來自正態(tài)總體N(μ1,σ12)的一個樣本，Y1,Y2,…,Yn2是來自正態(tài)總體N(μ2,σ22)的一個樣本，且Xi與Yi相互獨(dú)立，則Sx2第七章參數(shù)估計(jì)一、參數(shù)估計(jì)的基本原理參數(shù)估計(jì)（parameterestimation）：用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)。估計(jì)量（estimator）：用于估計(jì)總體參數(shù)的隨機(jī)變量，參數(shù)用θ表示，估計(jì)量θ用表示。估計(jì)值（estimatedvalue）：估計(jì)參數(shù)時計(jì)算出來的統(tǒng)計(jì)量的具體值。

點(diǎn)估計(jì)（pointestimate）：用樣本的估計(jì)量的某個取值直接作為總體參數(shù)的估計(jì)值。

雖然在重復(fù)抽樣條件下，點(diǎn)估計(jì)的均值可望等于總體真值，但由于樣本是隨機(jī)的，抽出一個具體的樣本得到的估計(jì)值很可能不同于總體真值；一個點(diǎn)估計(jì)量的可靠性是由它的抽樣標(biāo)準(zhǔn)誤差來衡量的，這表明一個具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性的度量。區(qū)間估計(jì)（intervalestimate）：在點(diǎn)估計(jì)的基礎(chǔ)上，給出總體參數(shù)估計(jì)的一個區(qū)間范圍，該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到。

根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個概率度量。置信區(qū)間（confidenceinterval）：由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間，其中區(qū)間的最小值為置信下限，最大值為置信上限。置信水平（confidencelevel）：將構(gòu)造置信區(qū)間的步驟重復(fù)很多次，置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例，也稱置信度或置信系數(shù)（confidencecoefficient），表示為1-α（α是事先確定的一個概率值，也稱風(fēng)險值，是總體參數(shù)未在區(qū)間內(nèi)的概率）。

【常用的置信水平值有99%,95%,90%，相應(yīng)的α為0.01，0.05，0.10】

樣本量給定時，置信區(qū)間的寬度隨著置信系數(shù)的增大而增大，區(qū)間比較寬時，才會使這一區(qū)間有更大的可能性包含參數(shù)的真值；當(dāng)置信水平固定時，置信區(qū)間的寬度隨樣本量的增大而減小，即較大樣本所提供的有關(guān)總體的信息比較小的樣本多。A、評價估計(jì)量的標(biāo)準(zhǔn)

無偏性(unbiasedness)：估計(jì)量θ抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)θ，即Eθ=θ，則稱θ為θ的無偏估計(jì)量。

有效性(efficiency)：指對同一總體參數(shù)的兩個無偏估計(jì)量，有更小標(biāo)準(zhǔn)差的估計(jì)量更有效，即在無偏估計(jì)的條件下，估計(jì)量的方差越小，估計(jì)越有效。

一致性(consistency)：隨著樣本量的增大，估計(jì)量的值越來越接近被估計(jì)的總體參數(shù)，即一個大樣本的給出的估計(jì)量要比一個小樣本給出的估計(jì)量更接近總體參數(shù)。

二、一個總體參數(shù)的區(qū)間估計(jì)

A、總體均值的區(qū)間估計(jì)

1、正態(tài)總體、方差已知，或非正態(tài)總體、大樣本總體均值的抽樣分布為正態(tài)分布，數(shù)學(xué)期望為總體均值μ，方差為σ2樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布，即z=總體均值μ在1-α置信水平下的置信區(qū)間為：x±zα/2σn或x總體均值的置信區(qū)間由兩部分組成：點(diǎn)估計(jì)值和描述估計(jì)精度的±值（±值即估計(jì)誤差）。

2、正態(tài)總體、方差未知、小樣本樣本均值標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為n-1的t分布，即z=總體均值μ在1-α置信水平下的置信區(qū)間為：x±tα/2B、總體比例的區(qū)間估計(jì)

樣本比例p的數(shù)學(xué)期望為Ep=π，方差為樣本比例標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布，即z=總體比例π在1-α置信水平下的置信區(qū)間為：p±C、總體方差的區(qū)間估計(jì)

總體方差σ2在1-α置信水平下的置信區(qū)間為：(n-1)三、兩個總體參數(shù)的區(qū)間估計(jì)

A、兩個總體均值之差的區(qū)間估計(jì)

1、獨(dú)立樣本

1）大樣本的估計(jì)獨(dú)立樣本（independentsample）：如果兩個樣本是從兩個總體中獨(dú)立抽取的，即一個樣本中的元素與另一個樣本中的元素相互獨(dú)立，稱為獨(dú)立樣本。兩個總體均值之差(x1-x2標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布，即z=在1-α置信水平下的置信區(qū)間為：x或(x1-x2)±zα/2s12n1+s22（2）兩個總體方差未知但相等，即σ1總體方差的合并估計(jì)量sp2：兩個樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為(n1+n2兩個總體均值之差在1-α置信水平下的置信區(qū)間為：(x1-x2)±t兩個樣本均值之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從自由度為v的t分布。v=兩個總體均值之差在1-α置信水平下的置信區(qū)間為：(x2、匹配樣本匹配樣本（matchedsample）：即一個樣本中的數(shù)據(jù)與另一個樣本中的數(shù)據(jù)相對應(yīng)。兩個總體各觀察值的配對差服從正態(tài)分布。

1）大樣本兩個總體均值之差在1-α置信水平下的置信區(qū)間為：d±zα/2σdn。

2）小樣本

注：d—兩個匹配樣本對應(yīng)數(shù)據(jù)的差值；d—各差值的均值；σdB、兩個總體比例之差的區(qū)間估計(jì)兩個樣本比例之差標(biāo)準(zhǔn)化后的隨機(jī)變量服從標(biāo)準(zhǔn)正態(tài)分布，即Z=(兩個總體比例之差在1-α置信水平下的置信區(qū)間為：(pC、兩個總體方差比的區(qū)間估計(jì)

兩個總體方差比在1-α置信水平下的置信區(qū)間為：s1四、樣本量的確定

1、估計(jì)總體均值時樣本量的確定

所希望達(dá)到的估計(jì)誤差：E=z確定樣本量：n=(樣本量與置信水平成正比；與總體方差成正比；與估計(jì)誤差的平方成反比；與可靠性系數(shù)成正比。

樣本量的圓整法則：當(dāng)計(jì)算出的樣本量不是整數(shù)時，將小數(shù)點(diǎn)后面的數(shù)值一律進(jìn)位成整數(shù)，如24.68取25，24.32也取25等等。

2、估計(jì)總體比例時樣本量的確定（確定樣本容量）所希望達(dá)到的估計(jì)誤差：E=z確定樣本量：n=(第八章假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷由參數(shù)估計(jì)（parameterestimation）和假設(shè)檢驗(yàn)（hypothesistesting）兩部分組成，它們都是利用樣本對總體進(jìn)行某種推斷，然而推斷的角度不同。參數(shù)估計(jì)討論的是用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的方法，總體參數(shù)μ在估計(jì)前是未知的。在假設(shè)檢驗(yàn)中，則先對μ的值提出一個假設(shè)，然后利用樣本信息去檢驗(yàn)這個假設(shè)是否成立。一、假設(shè)檢驗(yàn)的基本問題A、假設(shè)問題的提出

假設(shè)（hypothesis）：對總體參數(shù)的的數(shù)值所作的一種陳述，總體參數(shù)包括總體均值、比例、方差等（分析之前必需陳述）。

假設(shè)檢驗(yàn)（hypothesistesting）：事先對總體參數(shù)或分布形式作出某種假設(shè)，然后利用樣本信息來判斷原假設(shè)是否成立；分為參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)。

B、假設(shè)的表達(dá)式統(tǒng)計(jì)的語言是用一個等式或不等式表示問題的原假設(shè)。原假設(shè)（nullhypothesis）：待檢驗(yàn)的假設(shè)，又稱“0假設(shè)”，用H0表示（研究者想收集證據(jù)予以反對的假設(shè)）。

μ是我們要檢驗(yàn)的參數(shù)，μ0表示感興趣的數(shù)值，原假設(shè)的一般表達(dá)式為：H0:μ=μ0或H0:μ-μ0=0一般表達(dá)式為：H1原假設(shè)與備擇假設(shè)互斥，肯定原假設(shè)，意味著放棄備擇假設(shè)；否定原假設(shè)，意味著接受備擇假設(shè)。

C、假設(shè)檢驗(yàn)中的兩類錯誤

1、第一類錯誤α錯誤（棄真錯誤）：原假設(shè)為真時拒絕原假設(shè)。

第一類錯誤的概率為α；原假設(shè)為真時接受原假設(shè)，概率為1-α。

2、第二類錯誤β錯誤（取偽錯誤）：原假設(shè)為假時接受原假設(shè)。

第二類錯誤的概率為β；原假設(shè)為假時拒絕原假設(shè)，概率為1-β。

D、假設(shè)檢驗(yàn)的流程

在參數(shù)的假設(shè)檢驗(yàn)中，如同在參數(shù)估計(jì)中一樣，要借助樣本統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)推斷，這個統(tǒng)計(jì)量稱為檢驗(yàn)統(tǒng)計(jì)量。小概率原理是指發(fā)生概率很小的隨機(jī)事件在一次試驗(yàn)中是幾乎不可能發(fā)生的。

1、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

總體σ已知，且樣本量大，采用z統(tǒng)計(jì)量：z=若|z|<|zα/2|，不拒絕H0；若E、利用P值進(jìn)行決策

P值（P-value）：當(dāng)原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的頻率。1、P值的大小取決于三個因素：1）樣本數(shù)據(jù)與原假設(shè)之間的差異。2）樣本量。3）被假設(shè)參數(shù)的總體分布。

2、雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn)1）雙側(cè)檢驗(yàn)：原假設(shè)的命題為μ=兩個拒絕域，兩個臨界值，每個拒絕域的面積為α/2。μ>2）左單側(cè)檢驗(yàn)：下限檢驗(yàn)所考察的數(shù)值越大越好3）右單側(cè)檢驗(yàn)：上限檢驗(yàn)所考察的數(shù)值越小越好二、一個總體參數(shù)的檢驗(yàn)

A、檢驗(yàn)統(tǒng)計(jì)量的確定z統(tǒng)計(jì)量和t統(tǒng)計(jì)量常用于均值和比例的檢驗(yàn)；χ21、樣本量大z統(tǒng)計(jì)量：z2、樣本量小1）總體標(biāo)準(zhǔn)差σ已知：z統(tǒng)計(jì)量2）總體標(biāo)準(zhǔn)差σ未知：t統(tǒng)計(jì)量：t=B、總體均值的檢驗(yàn)1、樣本量大顯著性水平（significantlevel）：當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險，即犯棄真錯誤的概率，α=0.05或α=0.01，表明當(dāng)做出接受原假設(shè)的決定時，其正確的概率為95%或99%。a、已知均值的檢驗(yàn)（P值的計(jì)算與應(yīng)用）：第1步：進(jìn)入Excel表格界面，選擇【插入】下拉菜單；第2步：選擇【函數(shù)】點(diǎn)擊；第3步：在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”，在函數(shù)名的菜單下選擇字符“NORMSDIST”，然后確定；第4步：將Z的絕對值錄入，得到的函數(shù)值，若P值遠(yuǎn)遠(yuǎn)小于α，故拒絕H0。

2a、σ已知：z統(tǒng)計(jì)量

b、σ未知：t統(tǒng)計(jì)量?未知小樣本均值的檢驗(yàn)（P值的計(jì)算與應(yīng)用）：第1步：進(jìn)入Excel表格界面，選擇【插入】下拉菜單；第2步：選擇【函數(shù)】；第3步：在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”，然后，在函數(shù)名的菜單中選擇字符“TDIST”，確定；第4步：在彈出的X欄中，錄入計(jì)算出的t值，在自由度(Deg-freedom)欄中，錄入自由度值，在Tails欄中錄入2，表明是雙側(cè)檢驗(yàn)，如果是單測檢驗(yàn)則在該欄內(nèi)錄入1；得出P值的結(jié)果。C、總體比例的檢驗(yàn)

z統(tǒng)計(jì)量、大樣本量：zD、總體方差的檢驗(yàn)由于s2=(xi-x)2n-1，故若進(jìn)行雙側(cè)檢驗(yàn)，拒絕域分布在χ2統(tǒng)計(jì)量分布曲線的兩邊；若是單側(cè)檢驗(yàn)，拒絕域分布在χ2統(tǒng)計(jì)量分布曲線的一邊。

A、檢驗(yàn)統(tǒng)計(jì)量的確定1、均值之差的檢驗(yàn)a、σ2b、σ22、比例之差的檢驗(yàn)：z統(tǒng)計(jì)量

3、方差比的檢驗(yàn)：F統(tǒng)計(jì)量B、兩個總體均值之差的檢驗(yàn)1、σ1標(biāo)準(zhǔn)差為σx1-x2=σ12n1+a、σ1標(biāo)準(zhǔn)差為σx1-x2=sb、σ1標(biāo)準(zhǔn)差為σx1-x23、兩個總體均值之差的檢驗(yàn)—用Excel進(jìn)行檢驗(yàn)：第1步：選擇【工具】下拉菜單；第2步：選擇【數(shù)據(jù)分析】選項(xiàng)；第3步：在分析工具中選擇【t檢驗(yàn)，雙樣本異方差假設(shè)】；第4步：當(dāng)出現(xiàn)對話框時：在【變量1的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域A1:A15；在【變量2的區(qū)域】方框內(nèi)輸入數(shù)據(jù)區(qū)域B1:B20；在【假設(shè)平均差】的方框內(nèi)輸入0；在【α(A)】框內(nèi)輸入0.05；在【輸出選項(xiàng)】中選擇輸出區(qū)域；選擇【確定】。C、兩個總體比例之差的檢驗(yàn)1、檢驗(yàn)總體比例相等的假設(shè)該假設(shè)表達(dá)式為：H0:π最佳的方差是：p(1-p)，p是將兩個兩個樣本合并后得到的比例估計(jì)量，即p=x1+x2n1+大樣本條件下，z統(tǒng)計(jì)量：z=2、檢驗(yàn)兩個總體比例之差不為零的假設(shè)，即π兩個樣本比例之差p1-p2，近似服從以π1-πD、兩個總體方差的檢驗(yàn)如果s12/s22接近于1，說明兩個總體方差σ1在原假設(shè)σ12=σ22下，檢驗(yàn)統(tǒng)計(jì)量F為：在單側(cè)檢驗(yàn)中，一般把較大的s2放在分子s12的位置，此時F>1，拒絕域在F分布的右側(cè)，原假設(shè)和備擇假設(shè)分別為：H在雙側(cè)檢驗(yàn)中，拒絕域在F分布的兩側(cè)，兩個臨界點(diǎn)的位置分別為：Fα/2(n1E、檢驗(yàn)中的匹配樣本四、檢驗(yàn)問題的進(jìn)一步說明A、關(guān)于檢驗(yàn)結(jié)果的解釋如果出現(xiàn)拒絕H0的結(jié)果，可以說“結(jié)論H1為真出錯的概率不超過α”；如果接受H0的結(jié)果解釋為“沒有發(fā)現(xiàn)充足的證據(jù)反對H0”，或更嚴(yán)格地解釋為“在顯著性水平B、單側(cè)檢驗(yàn)中假設(shè)的建立a、左側(cè)檢驗(yàn)，即H0:μ≥μ0b、右側(cè)檢驗(yàn)，即H0:μ≤μ0（H0:μ≥第九章分類數(shù)據(jù)分析

一、分類數(shù)據(jù)與χ2A、分類數(shù)據(jù)

分類數(shù)據(jù)的結(jié)果是頻數(shù)，χ2檢驗(yàn)是對分類數(shù)據(jù)的頻數(shù)進(jìn)行分析的統(tǒng)計(jì)B、χ2χ2若用fo表示觀察值頻數(shù)（observedfrequency），用fe表示期望值頻數(shù)（expectedfrequency），則χ2統(tǒng)計(jì)量1、χ2統(tǒng)計(jì)量1）χ22）χ23）χ2兩者越接近，即fo-fe的絕對值越小，計(jì)算出的χ2χ2檢驗(yàn)正是通過對χ2的計(jì)算結(jié)果與自由度越小，分布就越向左邊傾斜，隨著自由度的增加，χ2分布的偏斜程度趨于緩解，逐漸顯露出對稱性，隨著自由度的繼續(xù)增大，χ二、擬合優(yōu)度檢驗(yàn)

擬合優(yōu)度檢驗(yàn)（goodnessoffittest）：是用χ2統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)的重要內(nèi)容之一。它是依據(jù)總體分布的狀況，計(jì)算出分類變量中各類別的期望頻數(shù)，與分布的觀察頻數(shù)進(jìn)行對比，判斷期望a、用Excel計(jì)算P值：第1步：將觀察值輸入一列，將期望值輸入一列；第2步：選擇【輸入】下拉菜單；第3步：選擇【函數(shù)】選項(xiàng)；第4步：在函數(shù)分類中點(diǎn)擊“統(tǒng)計(jì)”，然后，在函數(shù)名稱中選“CHITEST”，確定；第5步：在對話框【Actual-range】中輸入觀察數(shù)據(jù)；在對話框【Expected-range】中輸入期望數(shù)據(jù)。若p<α，拒絕原假設(shè)。三、列聯(lián)分析：獨(dú)立性檢驗(yàn)A、列聯(lián)表（contingencytable）：由兩個以上的變量進(jìn)行交叉分類的頻數(shù)分布表。B、獨(dú)立性檢驗(yàn)：分析列聯(lián)表中行變量和列變量是否相互獨(dú)立。

計(jì)算任何一個單元中頻數(shù)的期望值：fe采用自由度=(行數(shù)-1)(列數(shù)-1)=(R-1)(C-1)四、列聯(lián)表中的相關(guān)測量列聯(lián)表中的變量通常是類別變量。品質(zhì)相關(guān)：對品質(zhì)數(shù)據(jù)（分類和順序數(shù)據(jù)）之間相關(guān)程度的測度。品質(zhì)相關(guān)系數(shù)：A、φ相關(guān)系數(shù)（φcorrelationcoefficient）：（2×2列聯(lián)表）φ=χB、列聯(lián)相關(guān)系數(shù)（coefficientofcontingency）：（大于2×2列聯(lián)表）又稱列聯(lián)系數(shù)，簡稱c系數(shù)，c=χ當(dāng)列聯(lián)表中的兩個變量相互獨(dú)立時，系數(shù)c=0；c系數(shù)的特點(diǎn)是，其可能最大值依賴于列聯(lián)表的行數(shù)和列數(shù)，且隨著R和C增大而增大。C、V相關(guān)系數(shù)（Vcorrelationcoefficient）：V=χ2n×當(dāng)兩個變量相互獨(dú)立時，V=0；當(dāng)兩個變量完全相關(guān)時，V=1；如果列聯(lián)表中有一維為2，即min[(R-D、數(shù)值分析在對不同列聯(lián)表變量之間的相關(guān)程度進(jìn)行比較時，不同列聯(lián)表中的行與行、列與列的個數(shù)要相同，并且采用同一種系數(shù)。五、列聯(lián)分析中應(yīng)注意的問題A、條件百分表的方向（按自變量的方向計(jì)算）B、χ21、關(guān)于小單元的頻數(shù)準(zhǔn)則：1）如果只有兩個單元，每個單元的期望頻數(shù)必須是5或5以上。2）若有兩個以上的單元，如果20%的單元期望頻數(shù)fe小于5，則不能應(yīng)用χ第十章方差分析一、方差分析引論1、方差分析及其有關(guān)術(shù)語方差分析（analysisofvariance，ANOVA）：通過對數(shù)據(jù)誤差來源的分析檢驗(yàn)各總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。

因素（factor）：即因子，所要檢驗(yàn)的對象。水平（treatment）：又稱處理，即因素的不同表現(xiàn)。觀測值：每個因子水平下得到的樣本數(shù)據(jù)。單因素方差分析：只有一個因素的方差分析，涉及分類型自變量和數(shù)值型自變量兩個變量。雙因素方差分析：涉及兩個分類的自變量2、方差分析的基本思想和原理1）圖形描述2）誤差分解組內(nèi)誤差：由于抽樣的隨機(jī)性所造成的隨機(jī)誤差，即來自水平內(nèi)部的數(shù)據(jù)誤差，反映一個樣本內(nèi)部數(shù)據(jù)的離散程度，只含有隨機(jī)誤差。

組間誤差：來自不同水平之間的數(shù)據(jù)誤差，是隨機(jī)誤差和系統(tǒng)誤差的總和，反映不同樣本之間數(shù)據(jù)的離散程度。隨機(jī)誤差：因素的同一水平（總體）下，樣本各觀察值之間的差異，由樣本本身形成的。

系統(tǒng)誤差：因素的不同水平（不同總體)之間觀察值的差異，由于行業(yè)本身的系統(tǒng)性因素所造成的。方差分析中，數(shù)據(jù)的誤差用平方和（sumofsquares）表示的。總平方和（sumofsquaresfortotal，SST）：反應(yīng)全部數(shù)據(jù)誤差大小的平方和，反應(yīng)全部觀測值的離散狀況。

組內(nèi)平方和（sumofsquaresforfactorA，SSE）：反應(yīng)組內(nèi)誤差大小的平方和，也稱誤差平方和或殘差平方和，反映每個樣本內(nèi)各觀測值的離散狀況。

組間平方和（sumofsquaresforerror，SSA）：反應(yīng)組間誤差大小的平方和，也稱因素平方和，反映樣本均值之間的差異。3）誤差分析

均方（MS）：即方差，組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值。

若原假設(shè)成立，組間誤差中只包含隨機(jī)誤差，組間均方與組內(nèi)均方的數(shù)值就應(yīng)該很接近，它們的比值就會接近1；若原假設(shè)不成立，組間誤差中即包含隨機(jī)誤差，又包含系統(tǒng)誤差，組間均方會大于組內(nèi)均方，它們之間的比值就會大于1。

當(dāng)這個比值大到某種程度時，就可以說不同水平之間存在著顯著差異，即自變量對因變量有影響。

判斷行業(yè)對投訴次數(shù)是否有顯著影響，也就是檢驗(yàn)被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差，說明不同行業(yè)對投訴次數(shù)有顯著影響。

3、方差分析中的基本假定

1）每個總體都應(yīng)服從正態(tài)分布。

對于因素的每一個水平，其觀察值是來自服從正態(tài)分布總體的簡單隨機(jī)樣本。

2）各個總體的方差必須相同

各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的。

3）觀察值是獨(dú)立的

比如，每個行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨(dú)立。

在上述假定條件下，判斷行業(yè)對投訴次數(shù)是否有顯著影響，實(shí)際上也就是檢驗(yàn)具有同方差的4個正態(tài)總體的均值是否相等。如果4個總體的均值相等，可以期望4個樣本的均值也會很接近，4個樣本的均值越接近，推斷4個總體均值相等的證據(jù)也就越充分，樣本均值越不同，推斷總體均值不同的證據(jù)就越充分。

如果原假設(shè)成立，即H0:μ1=μ2=μ3=μ4（4個行業(yè)被投訴次數(shù)的均值都相等），則意味著每個樣本都來自均值為μ、方差為σ2的同一正態(tài)總體。來自正態(tài)總體的一個簡單隨機(jī)樣本的樣本均值x服從均值為μ、方差為σ2/n的正態(tài)分布。

若備擇假設(shè)成立，即H1:μ1、μ2、μ3H1:μ二、單因素方差分析

單因素方差分析（one-wayanalysisofvariance）：當(dāng)方差分析中只涉及一個分類型自變量，研究的是一個分類型自變量對一個數(shù)值型因變量的影響。

A、分析步驟：

1、提出假設(shè)

H0H1:μ如果拒絕原假設(shè)H0，則意味著自變量對因變量有顯著影響；如果不拒絕原假設(shè)H0，則沒有證據(jù)表明自變量對因變量有顯著影響，不能認(rèn)為自變量與因變量之間有顯著關(guān)系。

2、構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

（1）計(jì)算各樣本的均值：假定從第i個總體中抽取一個容量為ni的簡單隨機(jī)樣本，第i個總體的樣本均值為該樣本的全部觀測值總和除以觀測值的個數(shù)，xi=j=1nix全部觀測值的總和除以觀測值的總個數(shù)，x=i=1kj=1nixijn=全部觀測值xij與總平均值x的誤差平方和，SST=b、計(jì)算組間平方和：

各組平均值xi與總平均值x的誤差平方和，SSA=i=1kni(xi-x)2。

c、計(jì)算組內(nèi)平方和：

i=1kj=1ni(xij-x)SSA是對隨機(jī)誤差和系統(tǒng)誤差大小的度量，它反映了自變量對因變量的影響，也稱為自變量效應(yīng)或因子效應(yīng)；SSE對隨機(jī)誤差大小的度量，它反映了除自變量對因變量的影響之外，其他因素對因變量的總影響，也稱為殘差變量，它所引起的誤差也稱為殘差效應(yīng)；SST是對全部數(shù)據(jù)總誤差程度的度量，它反映自變量和殘差變量的共同影響，等于自變量效應(yīng)+殘差效應(yīng)。

（4）計(jì)算統(tǒng)計(jì)量各誤差平方和的大小與觀測值的多少有關(guān)，為消除觀測值多少對誤差平方和大小的影響，需要將其平均，也就是用各平方和除以它們所對應(yīng)的自由度，這就是均方（meansquare），也稱為方差。

a、三個平方和對應(yīng)的自由度分別是：

SST的自由度為n-1，其中n為全部觀察值的個數(shù)；

SSA的自由度為k-1，其中k為因素水平（總體）的個數(shù)；

SSE的自由度為n-k。b、通常只計(jì)算SSA的均方和SSE的均方：

組間方差：SSA的均方，記為MSA，計(jì)算公式為MSA=SSAk-1。

組內(nèi)方差將MSA和MSE進(jìn)行對比，即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F。

當(dāng)H0為真時，二者的比值服從分子自由度為k-1、分母自由度為n-k的F分布，即F=MSAMSE~F(k-1,n-k)若果原假設(shè)H0判斷因素水平是否對觀測值有顯著影響，實(shí)際上也就是比較組間方差與組內(nèi)方差之間差異的大小。

將統(tǒng)計(jì)量的值F與給定的顯著性水平α的臨界值Fα進(jìn)行比較，從而作出對原假設(shè)H0根據(jù)給定的顯著性水平α，在F分布表中查找與第一自由度df1＝k-1、第二自由度若F>Fα，則拒絕原假設(shè)H0，表明均值之間的差異是顯著的，所檢驗(yàn)的因素對觀測若F<Fα，則不拒絕原假設(shè)H0，沒有證據(jù)表明均值之間的差異是顯著的，不能認(rèn)為所檢驗(yàn)的因素對觀測值有顯著影響。

4、5、用Excel進(jìn)行方差分析第1步：選擇【工具】下拉菜單，并選擇【數(shù)據(jù)分析】選項(xiàng)；第2步：在分析工具中選擇【單因素方差分析】，然后選擇【確定】；第3步：當(dāng)對話框出現(xiàn)時：

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域；

在【α】方框內(nèi)鍵入0.05（可根據(jù)需要確定）；

在【輸出選項(xiàng)】中選擇輸出區(qū)域；第4步：單擊【確定】。B、關(guān)系強(qiáng)度的測量只要組間平方和SSA不等于0，就表明兩個變量之間有關(guān)系（只是是否顯著的問題）；當(dāng)組間平方和比組內(nèi)平方和SSE大，而且大到一定程度時，就意味著兩個變量之間的關(guān)系顯著，大得越多，表明它們之間的關(guān)系就越強(qiáng)；反之，就意味著兩個變量之間的關(guān)系不顯著，小得越多，表明它們之間的關(guān)系就越弱。

變量間關(guān)系的強(qiáng)度用自變量平方和SSA占總平方和SST的比例大小來反映，即R2=SSASST，其平方根R就可以用來測量兩個變量之間的關(guān)系強(qiáng)度。

C、方差分析中的多重比較

多重比較方法（multiplecomparisonprocedures）：通過對總體均值之間的配對比較來進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異。

最小顯著差異方法（leastsignificantdifference，LSD）：對檢驗(yàn)兩個總體均值是否相等的t檢驗(yàn)方法的總體方差估計(jì)加以修正（用MSE來代替）而得到的。

多重比較的步驟：

1、提出假設(shè)：H0:μi=μj，H1:μi≠μj；

2、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:xi-xj；

3、計(jì)算LSD=tα/2MSE(1ni+1nj)；

4、根據(jù)顯著水平α決策：若|xi-xj|>LSD，拒絕H0；若|xi-xj|<LSD，不拒絕1、數(shù)據(jù)結(jié)構(gòu)

2、分析步驟

1）提出假設(shè)

對行因素提出的假設(shè)為：

HH1對列因素提出的假設(shè)為：

H0H12）構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量

a、總平方和：SST==i=1kj=1r(xSSR=i=1kj=1r(xid、第三項(xiàng)是除行因素和列因素之外的剩余因素所產(chǎn)生的誤差項(xiàng)平方和，即隨機(jī)誤差項(xiàng)平方和：SSE=i=1kj=1r(xij-xi·-x·j+x)2

e、SST=SSR+SSC+SSE

f、三個平方和的自由度分別是：

總平方和SST的自由度為kr-1；

行因素平方和SSR的自由度為k-1；

列因素平方和SSC的自由度為r-1；

誤差項(xiàng)平方和SSE的自由度為隨機(jī)誤差項(xiàng)的均方，記為MSE，計(jì)算公式為MSE=SSE(k-1)(r-1)。

h、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F

檢驗(yàn)行因素的統(tǒng)計(jì)量：FR=MSRMSE~F(k-1,(k-1)(r-1))。

檢驗(yàn)列因素的統(tǒng)計(jì)量：FC=MSCMSE~F(r-1,(k-1)(r-1))。

3）統(tǒng)計(jì)決策

將Fα3、關(guān)系強(qiáng)度的測量行平方和SSR度量了自變量對因變量的影響效應(yīng)，列平方和SSC度量了自變量對因變量的影響效應(yīng)，這兩個平方和加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng)，聯(lián)合效應(yīng)與總平方和的比值定義為R2=聯(lián)合效應(yīng)總效應(yīng)=SSR+SSC1、設(shè)：xijl為對應(yīng)于行因素的第i個水平和列因素的第j個水平的第l行的觀測值；

xi·為行因素的第i個水平的樣本均值；

xij為列因素的第j個水平的樣本均值；

x·j對應(yīng)于行因素的第i個水平和列因素的第j個水平組合的樣本均值；

x為全部n個觀察值的總均值。

總平方和：SST=i=1kj=1rl=1m(xijl-x)2

行變量平方和：第2步：在分析工具中選擇【方差分析：可重復(fù)雙因素分析】，然后選擇【確定】；第3步：當(dāng)對話框出現(xiàn)時：

在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)區(qū)域A1:C11；

在【α】方框內(nèi)鍵入0.05（可根據(jù)需要確定）；

在【每一樣本的行數(shù)】方框內(nèi)鍵入重復(fù)試驗(yàn)次數(shù)5；

在【輸出區(qū)域】中選擇輸出區(qū)域（這里選新工作表組）；

選擇【確定】。第十一章一元線性回歸

一、變量間關(guān)系的度量

A、變量間的關(guān)系

設(shè)有兩個變量x和y，變量y隨變量x一起變化，并完全依賴于x，當(dāng)變量x取某個數(shù)時，y依確定的關(guān)系取相應(yīng)的值，則稱y是x的函數(shù)，記為y=f(x)，其中x稱為自變量，y稱為因變量。

函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系。相關(guān)關(guān)系（correlation）：變量之間存在的不確定的數(shù)量關(guān)系。

B、相關(guān)關(guān)系的描述與測度

相關(guān)分析就是對兩個變量之間線性關(guān)系的描述與度量，要解決的問題包括：

a、變量之間是否存在關(guān)系？b、如果存在關(guān)系，它們之間是什么樣的關(guān)系？c、變量之間的關(guān)系強(qiáng)度如何？d、樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系？

為解決這些問題，在進(jìn)行相關(guān)分析時，對總體有以下兩個主要假定：a、兩個變量之間是線性關(guān)系。b、兩個變量都是隨機(jī)變量。

1、散點(diǎn)圖（scatterdiagram）：由坐標(biāo)集散點(diǎn)形成的二維數(shù)據(jù)圖。散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法，從中可以大體看出變量之間的關(guān)系形態(tài)及關(guān)系強(qiáng)度。線性相關(guān)：變量之間的關(guān)系近似接近于一條直線。完全相關(guān)：一個變量的取值完全依賴于另一個變量，各觀測點(diǎn)落在另一條直線上。正相關(guān)：兩個變量的變動方向相同，一個變量的數(shù)值增加（減少），另一個變量的數(shù)值也隨之增加（減少）。負(fù)相關(guān)：兩個變量的變動方向相反，一個變量的數(shù)值增加（減少），另一個變量的數(shù)值隨之減少（增加）。a、正線性相關(guān)b、負(fù)線性相關(guān)c、完全正線性相關(guān)d、完全負(fù)線性相關(guān)e、非線性相關(guān)：變量之間的關(guān)系近似接近于一條曲線，又稱曲線相關(guān)。f、不相關(guān)：兩個觀測點(diǎn)很分散，無任何規(guī)律。2、相關(guān)系數(shù)（correlationcoefficient）：根據(jù)樣本數(shù)據(jù)計(jì)算的度量變量之間線性關(guān)系強(qiáng)度的一個統(tǒng)計(jì)量。簡單相關(guān)系數(shù)：對兩個變量之間線性相關(guān)強(qiáng)度的度量。

總體相關(guān)系數(shù)：相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的，記為ρ。

樣本相關(guān)系數(shù)：根據(jù)樣本數(shù)據(jù)計(jì)算的，又稱為線性相關(guān)系數(shù)（linearcorrelationcoefficient）或Pearson相關(guān)系數(shù)（Pearson’scorrelationcoefficient），簡稱為相關(guān)系數(shù)，記為r，r=nxy-xynx2-(x)2·ny2-(y)2。

1）相關(guān)系數(shù)的性質(zhì)

性質(zhì)1：r的取值范圍是[-1,1]。|r|=1，為完全相關(guān)；r=1，為完全正線性相關(guān)；性質(zhì)2：r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等，即rxy性質(zhì)3：r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān)，即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度，并不改變r的數(shù)值大小。

性質(zhì)4：r僅僅是x與y之間線性關(guān)系的一個度量，它不能用于描述非線性關(guān)系。這意味著，r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系，并不說明變量之間沒有任何關(guān)系，它們之間可能存在非線性相關(guān)關(guān)系（變量之間的非線性相關(guān)程度較大時，可能會導(dǎo)致r=0）。性質(zhì)5：r雖然是兩個變量之間線性關(guān)系的一個度量，卻不一定意味著x與y一定有因果關(guān)系。

2）相關(guān)系數(shù)的經(jīng)驗(yàn)解釋：|r|≥0.8時，可視為兩個變量之間高度相關(guān)；0.5≤|r|<0.8時，可視為中度相關(guān)；0.3≤|r|<0.5時，視為低度相關(guān)；|r|<0.3時，說明兩個變量之間的相關(guān)程度極弱，可視為不相關(guān)。注：上述解釋必須建立在對相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上。

C、相關(guān)系數(shù)的顯著性檢驗(yàn)1、r的抽樣分布當(dāng)ρ為較大的正值時，r呈現(xiàn)左偏分布；當(dāng)ρ為較大負(fù)值時，r呈現(xiàn)右偏分部；只有當(dāng)ρ接近于0，而樣本量n很大時，r是接近正態(tài)分布的隨機(jī)變量。2、r的顯著性檢驗(yàn)采用R.A.Fisher提出的t檢驗(yàn)，既可用于小樣本，也可用于大樣本。

檢驗(yàn)的步驟為：

1）提出假設(shè)：H0:ρ=0；H1:ρ≠0

2）計(jì)算檢驗(yàn)的統(tǒng)計(jì)量：t=rn-21-rtα2(n-2)的臨界值；若|t|>二、一元線性回歸A、回歸分析（Regression）主要解決的問題：1）從一組樣本數(shù)據(jù)出發(fā)，確定變量之間的數(shù)學(xué)關(guān)系式。2）對這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)，并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著，哪些是不顯著的。3）利用所求的關(guān)系式，根據(jù)一個或幾個變量的取值來預(yù)測或估計(jì)另一個特定變量的取值，并給出這種預(yù)測或估計(jì)的可靠程度。B、一元線性回歸模型因變量（dependentvariable）：被預(yù)測或被解釋的變量，用y表示。自變量（independentvariable）：用來預(yù)測或用來解釋因變量的一個或多個變量，用x表示。一元回歸：當(dāng)回歸中只涉及一個自變量的回歸；若因變量y與自變量x之間為線性關(guān)系時稱為一元線性回歸。

1、回歸模型（regressionmodel）：描述因變量y如何依賴于自變量x和誤差項(xiàng)ε的方程；一元線性回歸模型可表示為y=β0+β1x+ε。

在一元

人人文庫> 全部分類> 教育資料 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計(jì)學(xué)-學(xué)習(xí)筆記

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔