




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第1章 統(tǒng)計(jì)和統(tǒng)計(jì)數(shù)據(jù)1統(tǒng)計(jì)學(xué)的定義:是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué) 描述統(tǒng)計(jì)與推斷統(tǒng)計(jì)的含義、內(nèi)容、目的。描述統(tǒng)計(jì): 是研究數(shù)據(jù)收集,處理和描述的統(tǒng)計(jì)學(xué)方法.其內(nèi)容包括如何取得研究所需要的數(shù)據(jù),如何用圖表形式對數(shù)據(jù)進(jìn)行處理和展示,如何通過對數(shù)據(jù)的綜合,概括與分析,得出所關(guān)心的數(shù)據(jù)特征.推斷統(tǒng)計(jì): 是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)學(xué)方法,內(nèi)容包括兩大類:參數(shù)估計(jì): 是利用樣本信息推斷所關(guān)心的總體特征.假設(shè)體驗(yàn):是利用樣本信息判斷對總體的某個(gè)假設(shè)是否成立.2、變量與數(shù)據(jù):不同數(shù)據(jù)類型的含義,會判斷已有數(shù)據(jù)的類型. 變量:它們的特點(diǎn)是從一次觀察到下一次觀察會出現(xiàn)不同
2、結(jié)果.Ex: 企業(yè)銷售額, 上漲股票的家數(shù), 生活費(fèi)支出,投擲一枚骰子觀察其出現(xiàn)的點(diǎn)數(shù)數(shù)據(jù): 把觀察到的結(jié)果記錄下來.總體: 包含所研究的全部個(gè)體(數(shù)據(jù))的集合樣本: 從總體中抽取的一部分元素的集合樣本量: 構(gòu)成樣本的元素的數(shù)目定量變量或數(shù)值變量: 定量變量的觀察結(jié)果稱為定量數(shù)據(jù)或數(shù)值型數(shù)據(jù).可以用阿拉伯?dāng)?shù)據(jù)來記錄其觀察結(jié)果 .如“企業(yè)銷售額”、“上漲股票的家數(shù)”、“生活費(fèi)支出”、“投擲一枚骰子出現(xiàn)的點(diǎn)數(shù)” 定性變量: 分類變量和順序變量統(tǒng)稱為定性變量分類變量: 表現(xiàn)為不同的類別.如“性別”、“企業(yè)所屬的行業(yè)”、“學(xué)生所在的學(xué)院” 等. 分類變量的觀察結(jié)果就是分類數(shù)據(jù) 順序變量或有序分類變量:
3、 具有一定順序的類別變量. 如考試成績按等級,一個(gè)人對事物的態(tài)度.順序變量的觀察結(jié)果就是順序數(shù)據(jù)或有序分類數(shù)據(jù)離散型變量: 只能取有限個(gè)值得隨機(jī)變量連續(xù)型變量: 可以取一個(gè)或多個(gè)區(qū)間中任何值得隨機(jī)變量3、獲得數(shù)據(jù)的概率抽樣方法有哪些?根據(jù)一個(gè)已知的概率來抽取樣本單位,也稱隨機(jī)抽樣-簡單隨機(jī)抽樣: 從總體N個(gè)單位(元素)中隨機(jī)地抽取n個(gè)單位作為樣本,使得總體中每一個(gè)元素都有相同的機(jī)會(概率)被抽中. 抽取元素的具體方法有重復(fù)抽樣是抽取一個(gè)個(gè)體記錄下數(shù)據(jù)后,再把這個(gè)個(gè)體放回到原來的總體中參加下一次抽選。不重復(fù)抽樣抽中的個(gè)體不再放回,再從所剩下的個(gè)體中抽取第二個(gè)元素,直到抽取n 個(gè)個(gè)為止。- 分層抽
4、樣或分類抽樣:它是在抽樣之前先將總體的元素劃分為若干層(類),然后從各個(gè)層中抽取一定數(shù)量的元素組成一個(gè)樣本。-系統(tǒng)抽樣或等距抽樣:它是想將總體個(gè)元素按某個(gè)順序排列,并按某種規(guī)則確定一個(gè)隨機(jī)起點(diǎn),然后,每隔一定的間隔抽取一個(gè)元素,直至抽取n 個(gè)元素組成一個(gè)樣本。-整群抽樣:是先將總體劃分成若干群,然后以群作為抽樣單元從中抽取部分群組成一個(gè)樣本,再對抽中的每個(gè)群中包含的所有元素進(jìn)行觀察。第二章. 用圖表展示數(shù)據(jù)頻數(shù): 落在各類別中的數(shù)據(jù)個(gè)數(shù)比例: 某一類別數(shù)據(jù)個(gè)數(shù)占全部數(shù)據(jù)個(gè)數(shù)的比值百分比: 將對比的基數(shù)作為100而計(jì)算的比值比率: 不同類別數(shù)值個(gè)數(shù)的比值頻數(shù)分布表: 頻數(shù)分布表中落在某一特定類別
5、數(shù)據(jù).頻數(shù)分布包含了很多有用的信息,通過它可以觀察不同類型數(shù)據(jù)的分布狀況.什么是條形圖: 是用寬度相同的條形來表示數(shù)據(jù)多少的圖形用于觀察不同類別數(shù)據(jù)的多少或分布狀況.帕累托圖: 是按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖餅圖: 是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形,它主要用于表示一個(gè)樣本(或總體)中各組成部分道德數(shù)據(jù)占全部數(shù)據(jù)的比例,對于研究結(jié)構(gòu)性問題十分有用.環(huán)形圖: 只能顯示一個(gè)樣本各部分所占的比例數(shù)據(jù)分組: 是根據(jù)統(tǒng)計(jì)研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同的組別.1. 下限(lower limit) :一個(gè)組的最小值2. 上限(upper limit) :一個(gè)組的最大值
6、3. 組距(class width) :上限與下限之差4. 組中值(class midpoint) :下限與上限之間的中點(diǎn)值組中值=下限值+上限值/2直方圖與條形圖的區(qū)別。1. 條形圖中的每一矩形表示一個(gè)類別,其寬度沒有意義,而直方圖的寬度則表示各組的組距2. 由于分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列,而條形圖則是分開排列3. 條形圖主要用于展示定性數(shù)據(jù),而直方圖則主要用于展示定量數(shù)據(jù)莖葉圖: 是反映原始數(shù)據(jù)分布的圖形.它由莖和葉兩部分構(gòu)成,其圖形是由數(shù)據(jù)組成的.通過莖葉圖,可以看出數(shù)據(jù)的分布形狀及數(shù)據(jù)的離散狀況,比如:分布是否對稱,數(shù)據(jù)是否集中,是否有離群點(diǎn).等等箱線圖:是由一組
7、數(shù)據(jù)的最大值,最小值,中位數(shù),兩個(gè)四分位數(shù).這五個(gè)特征值繪制而成的,它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較.雷達(dá)圖: 是顯示多個(gè)變量的常用圖示方法. 1. 從一個(gè)點(diǎn)出發(fā),用每一條射線代表一個(gè)變量,多個(gè)變量的數(shù)據(jù)點(diǎn)連接成線,即圍成一個(gè)區(qū)域,多個(gè)樣本圍成多個(gè)區(qū)域,就是雷達(dá)圖2. 可用于研究多個(gè)樣本在多個(gè)變量上的相似程度3. 當(dāng)多個(gè)變量的取值相差較大或量綱不同時(shí),可進(jìn)行變換處理后再做圖。第三章. 用統(tǒng)計(jì)量描述數(shù)據(jù)1、水平的度量描述數(shù)據(jù)水平的統(tǒng)計(jì)兩主要有: 平均數(shù),中位數(shù),分位數(shù)以及眾數(shù)等.平均數(shù)。平均數(shù)的計(jì)算: 1. 也稱為均值,常用的統(tǒng)計(jì)量之一2. 消除了觀測值的隨機(jī)波
8、動(dòng)3. 易受極端值的影響4. 根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為m;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x中位數(shù): 是一組數(shù)據(jù)排序后處于中間位置上數(shù)值,用Me 表示. 四分位數(shù): 也稱四分位點(diǎn),它是一組數(shù)據(jù)排序后處于25%和75%位置上的值眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系* 2、差異的度量極差:1. 一組數(shù)據(jù)的最大值與最小值之差2. 離散程度的最簡單測度值3. 易受極端值影響4. 未考慮數(shù)據(jù)的分布5. 計(jì)算公式為:R = max(xi) - min(xi)四分位差1. 也稱為內(nèi)距或四分間距2. 上四分位數(shù)與下四分位數(shù)之差:Qd = QU QL3. 反映了中間50%數(shù)據(jù)的離散程度4. 不受極端值
9、的影響5. 用于衡量中位數(shù)的代表性樣本方差和標(biāo)準(zhǔn)差(會計(jì)算)1. 數(shù)據(jù)離散程度的最常用測度值2. 反映各變量值與均值的平均差異3. 根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差(標(biāo)準(zhǔn)差),記為s2(s);根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)4. 樣本方差假設(shè)是一個(gè)樣本,則樣本方差的計(jì)算公式為:其中是樣本均值。例如,一樣本取值為3,4,4,5,4,則樣本均值=, 樣本方差 =。樣本方差是常用的統(tǒng)計(jì)量之一,是描述一組數(shù)據(jù)變異程度或分散程度大小的指標(biāo)。樣本標(biāo)準(zhǔn)差S稱為樣本標(biāo)準(zhǔn)差。如在上例中,S=0.7071。稱(S/ X) ×100%為樣本變異系數(shù)。由于S與X都是從同一
10、個(gè)樣本資料中求得,兩者的單位相同,故變異系數(shù)為一純數(shù)。當(dāng)兩種樣本資料所用的單位不同時(shí),只要計(jì)算出變異系數(shù),就可以比較它們的變異程度。標(biāo)準(zhǔn)分?jǐn)?shù): 可以計(jì)算一組數(shù)據(jù)中每個(gè)數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù),以測度每個(gè)數(shù)值在該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有離群點(diǎn)離散系數(shù)(變異系數(shù))是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)據(jù)之比,它消除了數(shù)據(jù)絕對值大小和計(jì)量單位對標(biāo)準(zhǔn)差大小的影響.分布形狀的度量偏態(tài):是指數(shù)據(jù)分布的不對稱性。 側(cè)度數(shù)據(jù)分布不對稱性的統(tǒng)計(jì)量稱為(偏態(tài)系數(shù))峰態(tài):是指數(shù)據(jù)分布峰值的高低。測度峰態(tài)的統(tǒng)計(jì)量是(峰態(tài)系數(shù)) 弄清偏態(tài)系數(shù)的取值含義,會判斷左偏、右偏和對稱情形*弄清峰態(tài)系數(shù)的取值含義,會
11、判斷尖峰、扁平和正常情形* 第四章. 概率分布概率:概率是對事件發(fā)生的可能性大小的度量隨機(jī)變量:是用數(shù)值來描述特定試驗(yàn)一切可能出現(xiàn)的結(jié)果,它的取值事先不能確定,具有隨機(jī)性連續(xù)性隨機(jī)變量:只能取一個(gè)或多個(gè)區(qū)間中任何值得隨機(jī)變量離散型隨機(jī)變量:只能取有限個(gè)值得隨機(jī)變量隨機(jī)變量的概括性度量:期望值和方差的計(jì)算:描述隨機(jī)變量集中程度的統(tǒng)計(jì)量稱為(期望值)離散型概率分布:是用表格的形式表現(xiàn)出來,就是離散型隨機(jī)變量的概率分布二項(xiàng)分布: 二項(xiàng)分布是建立在伯努利試驗(yàn)基礎(chǔ)上的。N重伯努利1. 貝努里試驗(yàn)滿足下列條件n 一次試驗(yàn)只有兩個(gè)可能結(jié)果,即“成功”和“失敗” l “成功”是指我們感興趣的某種特征n 一次試
12、驗(yàn)“成功”的概率為p ,失敗的概率為q =1- p,且概率p對每次試驗(yàn)都是相同的 n 試驗(yàn)是相互獨(dú)立的,并可以重復(fù)進(jìn)行n次 n 在n次試驗(yàn)中,“成功”的次數(shù)對應(yīng)一個(gè)離散型隨機(jī)變量X 泊松分布:1. 1837年法國數(shù)學(xué)家泊松(D.Poisson,17811840)首次提出 2. 用于描述在一指定時(shí)間范圍內(nèi)或在一定的長度、面積、體積之內(nèi)每一事件出現(xiàn)次數(shù)的分布3. 泊松分布的例子n 一定時(shí)間段內(nèi),某航空公司接到的訂票電話數(shù) n 一定時(shí)間內(nèi),到車站等候公共汽車的人數(shù) n 一定路段內(nèi),路面出現(xiàn)大損壞的次數(shù) n 一定時(shí)間段內(nèi),放射性物質(zhì)放射的粒子數(shù) n 一匹布上發(fā)現(xiàn)的疵點(diǎn)個(gè)數(shù) n 一定頁數(shù)的書刊上出現(xiàn)的錯(cuò)
13、別字個(gè)數(shù) 超幾何分布的應(yīng)用背景1. 采用不重復(fù)抽樣,各次試驗(yàn)并不獨(dú)立,成功的概率也互不相等2. 總體元素的數(shù)目N很小,或樣本容量n相對于N來說較大時(shí),樣本中“成功”的次數(shù)則服從超幾何概率分布3. 概率分布函數(shù)為連續(xù)型概率分布:正態(tài)分布: 1. 由C.F.高斯(Carl Friedrich Gauss,17771855)作為描述誤差相對頻數(shù)分布的模型而提出2. 描述連續(xù)型隨機(jī)變量的最重要的分布3. 許多現(xiàn)象都可以由正態(tài)分布來描述 4. 可用于近似離散型隨機(jī)變量的分布n 例如: 二項(xiàng)分布5. 經(jīng)典統(tǒng)計(jì)推斷的基礎(chǔ)標(biāo)準(zhǔn)正態(tài)分布1. 隨機(jī)變量具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布 2. 任何一個(gè)一般的正態(tài)分
14、布,可通過下面的線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布3. 標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)4. 標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)數(shù)據(jù)的正態(tài)性評估:Q-Q圖和P-P圖的應(yīng)用1. 對數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖n 若數(shù)據(jù)近似服從正態(tài)分布,則圖形的形狀與上面給出的正態(tài)曲線應(yīng)該相似3. 繪制正態(tài)概率圖。有時(shí)也稱為分位數(shù)分位數(shù)圖或稱Q-Q圖或稱為P-P圖n 用于考察觀測數(shù)據(jù)是否符合某一理論分布,如正態(tài)分布、指數(shù)分布、t分布等等n P-P圖是根據(jù)觀測數(shù)據(jù)的累積概率與理論分布(如正態(tài)分布)的累積概率的符合程度繪制的n Q-Q圖則是根據(jù)觀測值的實(shí)際分位數(shù)與理論分布(如正態(tài)分布)的分位數(shù)繪制的 4. 使用非參數(shù)檢驗(yàn)中的Kolmogo
15、rov-Smirnov檢驗(yàn)(K-S檢驗(yàn)) 由正態(tài)分布導(dǎo)出的幾個(gè)重要分布:c2分布、t分布、F分布的特點(diǎn)c2分布: 1. 由阿貝(Abbe) 于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson) 分別于1875年和1900年推導(dǎo)出來2. 設(shè) ,則3. 令 ,則 y 服從自由度為1的c2分布,即4. 對于n個(gè)正態(tài)隨機(jī)變量y1 ,y2 ,yn,則隨機(jī)變量 5. 稱為具有n個(gè)自由度的c2分布,記為性質(zhì)和特點(diǎn)1. 分布的變量值始終為正 2. 分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱 3. 期望為:E(
16、c2)=n,方差為:D(c2)=2n(n為自由度) 4. 可加性:若U和V為兩個(gè)獨(dú)立的c2分布隨機(jī)變量,Uc2(n1),Vc2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的c2分布 t分布: 1. 提出者是William Gosset,也被稱為學(xué)生分布(students t) 2. t 分布是類似正態(tài)分布的一種對稱分布,通常要比正態(tài)分布平坦和分散。一個(gè)特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布 F分布: 1. 為紀(jì)念統(tǒng)計(jì)學(xué)家費(fèi)希爾(R.A.Fisher) 以其姓氏的第一個(gè)字母來命名則2. 設(shè)若U為服從自由度為n1的c2分布,即Uc2(n1),V為服從自
17、由度為n2的c2分布,即Vc2(n2),且U和V相互獨(dú)立,則 稱F為服從自由度n1和n2的F分布,記為統(tǒng)計(jì)量:n 用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù)n 一個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量:樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等兩個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量: (x1-x2)、(p1-p2)、(s1/s2)n 樣本統(tǒng)計(jì)量通常用小寫英文字母來表示 參數(shù):n 描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值n 一個(gè)總體的參數(shù):總體均值(m)、標(biāo)準(zhǔn)差(s)、總體比例(p);兩個(gè)總體參數(shù):(m1 -m2)、(p1-p2)、(s1/s2)n 總
18、體參數(shù)通常用希臘字母表示 抽樣分布的概念:1. 樣本統(tǒng)計(jì)量的概率分布,是一種理論分布n 在重復(fù)選取容量為n的樣本時(shí),由該統(tǒng)計(jì)量的所有可能取值形成的相對頻數(shù)分布 2. 隨機(jī)變量是 樣本統(tǒng)計(jì)量 n 樣本均值, 樣本比例,樣本方差等3. 結(jié)果來自容量相同的所有可能樣本4. 提供了樣本統(tǒng)計(jì)量長遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù) 樣本均值的抽樣分布: 1. 在重復(fù)選取容量為n的樣本時(shí),由樣本均值的所有可能取值形成的相對頻數(shù)分布2. 一種理論概率分布3. 推斷總體均值m的理論基礎(chǔ)中心極限定理: 從均值為m,方差為s 2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均
19、值的抽樣分布近似服從均值為、方差為2/n的正態(tài)分布其他統(tǒng)計(jì)量的分布:1. 總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比n 不同性別的人與全部人數(shù)之比n 合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比 2. 總體比例可表示為3. 樣本比例可表示為 樣本比例的分布1. 在重復(fù)選取容量為n的樣本時(shí),由樣本比例的所有可能取值形成的相對頻數(shù)分布2. 一種理論概率分布3. 當(dāng)樣本容量很大時(shí),樣本比例的抽樣分布可用正態(tài)分布近似,即 樣本方差的分布1. 在重復(fù)選取容量為n的樣本時(shí),由樣本方差的所有可能取值形成的相對頻數(shù)分布2. 對于來自正態(tài)總體的簡單隨機(jī)樣本,則比值的抽樣分布服從自由度為 (n -1) 的c
20、2分布統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差1. 樣本統(tǒng)計(jì)量的抽樣分布的標(biāo)準(zhǔn)差,稱為統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤,也稱為標(biāo)準(zhǔn)誤差2. 衡量統(tǒng)計(jì)量的離散程度,測度了用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)的精確程度3. 樣本均值和樣本比例的標(biāo)準(zhǔn)誤差分別第五章參數(shù)估計(jì)1、參數(shù)估計(jì)的基本原理參數(shù)估計(jì):就是用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)估計(jì)量:用于估計(jì)總體參數(shù)的統(tǒng)計(jì)量的名稱n 如樣本均值,樣本比例,樣本方差等n 例如: 樣本均值就是總體均值m 的一個(gè)估計(jì)量估計(jì)值:估計(jì)參數(shù)時(shí)計(jì)算出來的統(tǒng)計(jì)量的具體值n 如果樣本均值 x =80,則80就是q 的估計(jì)值點(diǎn)估計(jì)1. 用樣本的估計(jì)量的某個(gè)取值直接作為總體參數(shù)的估計(jì)值§ 例如:用樣本均值直接作為總體均值的
21、估計(jì);用兩個(gè)樣本均值之差直接作為總體均值之差的估計(jì)2. 無法給出估計(jì)值接近總體參數(shù)程度的信息n 由于樣本是隨機(jī)的,抽出一個(gè)具體的樣本得到的估計(jì)值很可能不同于總體真值n 一個(gè)點(diǎn)估計(jì)量的可靠性是由它的抽樣標(biāo)準(zhǔn)誤差來衡量的,這表明一個(gè)具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性的度量 區(qū)間估計(jì):1. 在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)估計(jì)區(qū)間,該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到2. 根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個(gè)概率度量n 比如,某班級平均分?jǐn)?shù)在7585之間,置信水平是95% 置信度:一般地,如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值得次數(shù)所占的
22、比例稱為, 也稱為置信度或置信系數(shù)置信水平:1. 將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例,也稱置信度 2. 表示為 (1 - a) % n a 為是總體參數(shù)未在區(qū)間內(nèi)的比例 3. 常用的置信水平值有 99%, 95%, 90%n 相應(yīng)的 a 為0.01,0.05,0.10置信區(qū)間1. 由樣本估計(jì)量構(gòu)造出的總體參數(shù)在一定置信水平下的估計(jì)區(qū)間2. 統(tǒng)計(jì)學(xué)家在某種程度上確信這個(gè)區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間3. 如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,5%的區(qū)間不包含總體參數(shù)的真值,那么,用該方法構(gòu)造的區(qū)間稱為置信水平為95
23、%的置信區(qū)間。同樣,其他置信水平的區(qū)間也可以用類似的方式進(jìn)行表述4. 總體參數(shù)的真值是固定的,而用樣本構(gòu)造的區(qū)間則是不固定的,因此置信區(qū)間是一個(gè)隨機(jī)區(qū)間,它會因樣本的不同而變化,而且不是所有的區(qū)間都包含總體參數(shù)5. 實(shí)際估計(jì)時(shí)往往只抽取一個(gè)樣本,此時(shí)所構(gòu)造的是與該樣本相聯(lián)系的一定置信水平(比如95%)下的置信區(qū)間。我們只能希望這個(gè)區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個(gè),但它也可能是少數(shù)幾個(gè)不包含參數(shù)真值的區(qū)間中的一個(gè)6. 當(dāng)抽取了一個(gè)具體的樣本,用該樣本所構(gòu)造的區(qū)間是一個(gè)特定的常數(shù)區(qū)間,我們無法知道這個(gè)樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值,因?yàn)樗赡苁前傮w均值的區(qū)間中的一個(gè),也可能是未
24、包含總體均值的那一個(gè)7. 一個(gè)特定的區(qū)間總是“包含”或“絕對不包含”參數(shù)的真值,不存在“以多大的概率包含總體參數(shù)”的問題8. 置信水平只是告訴我們在多次估計(jì)得到的區(qū)間中大概有多少個(gè)區(qū)間包含了參數(shù)的真值,而不是針對所抽取的這個(gè)樣本所構(gòu)建的區(qū)間而言的 2、一個(gè)總體參數(shù)的區(qū)間估計(jì)1個(gè)總體均值區(qū)間估計(jì)的計(jì)算(兩種情形)A大樣本的估計(jì)1. 定條件n 總體服從正態(tài)分布,且方差(s) 已知n 如果不是正態(tài)分布,可由正態(tài)分布來近似 (n ³ 30)2.用正態(tài)分布統(tǒng)計(jì)量 z 3.總體均值 m 在1-a 置信水平下的置信區(qū)間為B小樣本的估計(jì) 1假定條件n 總體服從正態(tài)分布,但方差(s) 未知n 小樣本
25、(n < 30)2. 使用 t 分布統(tǒng)計(jì)量 3. 總體均值 m 在1-a置信水平下的置信區(qū)間為評價(jià)估計(jì)量好壞的標(biāo)準(zhǔn): 對于同一個(gè)未知參數(shù),不同的方法得到的估計(jì)量可能不同,于是提出問題:1. 應(yīng)該選用哪一種估計(jì)量?2. 用什么標(biāo)準(zhǔn)來評價(jià)一個(gè)估計(jì)量的好壞? 第六章假設(shè)檢驗(yàn)1、假設(shè)檢驗(yàn)的基本原理原假設(shè):1. 又稱“0假設(shè)”,研究者想收集證據(jù)予以反對的假設(shè),用H0表示 2. 所表達(dá)的含義總是指參數(shù)沒有變化或變量之間沒有關(guān)系 3. 最初被假設(shè)是成立的,之后根據(jù)樣本數(shù)據(jù)確定是否有足夠的證據(jù)拒絕它 4. 總是有符號 =, £ 或 ³ n H0 : m = 某一數(shù)值n H0 : m
26、³ 某一數(shù)值n H0 : m £某一數(shù)值 l 例如, H0 : m = 10cm備擇假設(shè):1. 也稱“研究假設(shè)”,研究者想收集證據(jù)予以支持的假設(shè),用H1或Ha表示 2. 所表達(dá)的含義是總體參數(shù)發(fā)生了變化或變量之間有某種關(guān)系3. 備擇假設(shè)通常用于表達(dá)研究者自己傾向于支持的看法,然后就是想辦法收集證據(jù)拒絕原假設(shè),以支持備擇假設(shè) 4. 總是有符號 ¹, < 或 > n H1 :m ¹某一數(shù)值 n H1 :m >某一數(shù)值n H1 :m <某一數(shù)值單側(cè)檢驗(yàn)和雙側(cè)檢驗(yàn):1. 備擇假設(shè)沒有特定的方向性,并含有符號“¹”的假設(shè)檢驗(yàn),稱為
27、雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailed test) 2. 備擇假設(shè)具有特定的方向性,并含有符號“>”或“<”的假設(shè)檢驗(yàn),稱為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailed test)n 備擇假設(shè)的方向?yàn)椤?lt;”,稱為左側(cè)檢驗(yàn) n 備擇假設(shè)的方向?yàn)椤?gt;”,稱為右側(cè)檢驗(yàn) 兩類錯(cuò)誤與顯著性水平1. 研究者總是希望能做出正確的決策,但由于決策是建立在樣本信息的基礎(chǔ)之上,而樣本又是隨機(jī)的,因而就有可能犯錯(cuò)誤2. 原假設(shè)和備擇假設(shè)不能同時(shí)成立,決策的結(jié)果要么拒絕H0,要么不拒絕H0。決策時(shí)總是希望當(dāng)原假設(shè)正確時(shí)沒有拒絕它,當(dāng)原假設(shè)不正確時(shí)拒絕它,但實(shí)際上很難保證不犯錯(cuò)誤 3. 第類錯(cuò)誤(
28、a錯(cuò)誤)n 原假設(shè)為正確時(shí)拒絕原假設(shè)n 第類錯(cuò)誤的概率記為a,被稱為顯著性水平2.第類錯(cuò)誤(b錯(cuò)誤)n 原假設(shè)為錯(cuò)誤時(shí)未拒絕原假設(shè)第類錯(cuò)誤的概率記為b (Beta)利用統(tǒng)計(jì)量進(jìn)行檢驗(yàn)時(shí)的決策準(zhǔn)則1. 根據(jù)樣本觀測結(jié)果計(jì)算出對原假設(shè)和備擇假設(shè)做出決策某個(gè)樣本統(tǒng)計(jì)量2. 對樣本估計(jì)量的標(biāo)準(zhǔn)化結(jié)果n 原假設(shè)H0為真n 點(diǎn)估計(jì)量的抽樣分布 3. 標(biāo)準(zhǔn)化的檢驗(yàn)統(tǒng)計(jì)量統(tǒng)計(jì)量決策規(guī)則1. 給定顯著性水平a,查表得出相應(yīng)的臨界值za或za/2,ta或ta/2 2. 將檢驗(yàn)統(tǒng)計(jì)量的值與a 水平的臨界值進(jìn)行比較 3. 作出決策n 雙側(cè)檢驗(yàn):I統(tǒng)計(jì)量I > 臨界值,拒絕H0 n 左側(cè)檢驗(yàn):統(tǒng)計(jì)量 < -
29、臨界值,拒絕H0 n 右側(cè)檢驗(yàn):統(tǒng)計(jì)量 > 臨界值,拒絕H0利用P值進(jìn)行決策的準(zhǔn)則1. 如果原假設(shè)為真,所得到的樣本結(jié)果會像實(shí)際觀測結(jié)果那么極端或更極端的概率 P值告訴我們:如果原假設(shè)是正確的話,我們得到得到目前這個(gè)樣本數(shù)據(jù)的可能性有多大,如果這個(gè)可能性很小,就應(yīng)該拒絕原假設(shè) 2. 被稱為觀察到的(或?qū)崪y的)顯著性水平3. 決策規(guī)則:若p值<a, 拒絕 H0 2、一個(gè)總體參數(shù)的假設(shè)檢驗(yàn)一個(gè)總體均值雙側(cè)檢驗(yàn)的計(jì)算(兩種情形)1. 總體方差_ 已知或未知.在_已知的條件下,由抽樣分布理論可知,樣本統(tǒng)計(jì)量服從 z 分布;而在_ 未知的條件下,樣本統(tǒng)計(jì)服從 t 分布。故當(dāng)_已知時(shí),可以使用
30、z體驗(yàn);當(dāng)_ 未知時(shí),可以使用 t 體驗(yàn)。2 n(n1,n2) 較大或n較小。 當(dāng)樣本量 n1,n2 都較大時(shí),如果總體方差 _ 和_位置,可以用樣本方差_, _替代,這時(shí),楊本統(tǒng)計(jì)量近似服從z分布,采用z作為體驗(yàn)統(tǒng)計(jì)量也是可行的,但是當(dāng)n 或n1,n2部大時(shí),如果_,_未知,就應(yīng)該采用t作為統(tǒng)計(jì)量。 第八章一元線性回歸1、變量間的關(guān)系相關(guān)關(guān)系的含義,與函數(shù)關(guān)系的區(qū)別函數(shù)關(guān)系1. 是一一對應(yīng)的確定關(guān)系2. 設(shè)有兩個(gè)變量 x 和 y ,變量 y 隨變量 x 一起變化,并完全依賴于 x ,當(dāng)變量 x 取某個(gè)數(shù)值時(shí), y 依確定的關(guān)系取相應(yīng)的值,則稱 y 是 x 的函數(shù),記為 y = f (x),其
31、中 x 稱為自變量,y 稱為因變量3. 各觀測點(diǎn)落在一條線上 相關(guān)系數(shù)1. 一個(gè)變量的取值不能由另一個(gè)變量唯一確定 2. 當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值對應(yīng)著一個(gè)分布 3. 各觀測點(diǎn)分布在直線周圍 相關(guān)關(guān)系的分類相關(guān)關(guān)系的描述及測度1. 度量變量之間線性關(guān)系強(qiáng)度的一個(gè)統(tǒng)計(jì)量n 若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為r n 若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù),記為 rl 也稱為Pearson相關(guān)系數(shù) (Pearsons correlation coefficient)2. 樣本相關(guān)系數(shù)的計(jì)算公式 散點(diǎn)圖:散點(diǎn)圖可以判斷兩個(gè)變量之間有無相關(guān)關(guān)系
32、,并對關(guān)系形態(tài)作出大致描述,但要準(zhǔn)確度量變量間的關(guān)系強(qiáng)度,則需要計(jì)算相關(guān)關(guān)系。簡單相關(guān)系數(shù)的取值特點(diǎn)及相關(guān)含義: 簡單相關(guān)系數(shù)又稱皮爾遜相關(guān)系數(shù)或“皮爾遜積矩相關(guān)系數(shù)”, 它一般用字母r 表示。它是用來度量定量變量間的線性相關(guān)關(guān)系。 計(jì)算公式為:2、一元線性回歸因變量: 被預(yù)測或被解釋的變量,用 y表示自變量:用來預(yù)測因變量的一個(gè)或多個(gè)變量, 用x表示回歸模型各個(gè)部分的解釋參數(shù):因變量y 的取值是不同的,y 取值的這種波動(dòng)稱為(變差)。參數(shù)最小二乘估計(jì)的基本思想*1. 德國科學(xué)家Karl Gauss(17771855)提出用最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù) 2. 使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來求得 和 的方法。即3. 用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小 ( 和 的計(jì)算公式)根據(jù)最小二乘法,可得求解 和 的公式如下 判定系數(shù)的含義及計(jì)算公式的解釋:1. 回歸平方和占總誤差平方和的比例2. 反映回歸直線的擬合程度3. 取值范圍在 0 , 1 之間4. R2 ®1,說明回歸方程擬合的越好;R2®0,說明回歸方程擬合的越差5. 決定系數(shù)平方根等于相關(guān)系數(shù) 第十章時(shí)間序列預(yù)測1、時(shí)間序列組成要素時(shí)間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 18282.1-2025醫(yī)療保健產(chǎn)品滅菌化學(xué)指示物第1部分:通則
- 商品采購合同協(xié)議書范本
- 19《剃頭大師》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年語文三年級下冊統(tǒng)編版
- 4 繁星 教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語文四年級上冊
- 銷售行業(yè)勞動(dòng)合同范本
- 度消防設(shè)備保養(yǎng)合同書
- 小企業(yè)勞動(dòng)合同經(jīng)典合同示例
- 獨(dú)家經(jīng)銷合同正式簽署
- 度商業(yè)銀行外匯融資合同(模板五)
- 壓漿合同范本
- 2025年茂名市高三年級第一次綜合測試(一模)物理試卷(含答案)
- 2025年重癥醫(yī)學(xué)科(ICU)護(hù)理工作計(jì)劃
- 四川省名校2025屆高三第二次模擬考試英語試卷含解析
- 2024各科普通高中課程標(biāo)準(zhǔn)
- 《垂體瘤規(guī)范化診治》課件
- 早產(chǎn)臨床防治指南(2024版)解讀
- 艾草種植基地合同(2篇)
- GB/T 30661.10-2024輪椅車座椅第10部分:體位支撐裝置的阻燃性要求和試驗(yàn)方法
- 《電子商務(wù)法律法規(guī)》電子商務(wù)專業(yè)全套教學(xué)課件
- 空調(diào)制冷管道施工協(xié)議
- 《產(chǎn)后出血預(yù)防與處理指南(2023)》解讀課件
評論
0/150
提交評論