版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)采集遇到異常值?eq\o\ac(○,1)統(tǒng)計上與均值差異在3倍標準差范圍之外的值稱為異常值(離群點).eq\o\ac(○,2)一般用標準分數(shù)來判斷一組數(shù)據(jù)是否是離群數(shù)據(jù)。其公式為z。eq\o\ac(○,3)例如:若z=-1.5,就知道該數(shù)值低于平均數(shù)1.5倍標準差,該點不是離群點。eq\o\ac(○,3)根據(jù)切比雪夫不等式,至少有1-1/k^2個數(shù)據(jù)落在+-k個標準差范圍內(nèi)。eq\o\ac(○,4)對異常值要仔細鑒別,處理方法有:eq\o\ac(○,1)如果異常值屬于記錄時的錯誤,在分析之前就應(yīng)予以糾正或舍棄。eq\o\ac(○,2)如果異常值是一個正確的值,應(yīng)予以保留。根據(jù)經(jīng)驗法則,若一組數(shù)據(jù)對稱分布,一般有99%的數(shù)據(jù)落在+-3個標準差范圍內(nèi)。95%的數(shù)據(jù)落在+-2個標準差范圍內(nèi)。68%的數(shù)據(jù)+-1個標準差范圍內(nèi)。抽樣誤差?eq\o\ac(○,1)抽樣誤差是由抽樣的隨機性而引起的樣本結(jié)果與總體真值之間的誤差。在概率抽樣中,我們依據(jù)隨機原則抽取樣本,抽取的樣本可能不同。根據(jù)不同的樣本,可以得到不同的觀測結(jié)果。eq\o\ac(○,2)抽樣誤差并不是針對某個具體樣本檢測結(jié)果與真實結(jié)果的差異而言,所以抽樣誤差是樣本可能的結(jié)果與總體真值的平均差異。eq\o\ac(○,3)抽樣誤差與多方面的因素有關(guān),樣本量越大,抽樣誤差就越小。抽樣誤差還與總體的變異有關(guān)。eq\o\ac(○,4)抽樣平均誤差的公式為。eq\o\ac(○,5)抽樣誤差又分為組內(nèi)誤差和組間誤差。組內(nèi)誤差即為來自水平內(nèi)部的數(shù)據(jù)誤差,組間誤差為不同水平之間的數(shù)據(jù)誤差。組內(nèi)誤差只含隨機誤差,組間誤差是隨機誤差和系統(tǒng)誤差的總和。請舉例說明統(tǒng)計學(xué)上所計算的抽樣誤差與我們平常說想象的抽樣誤差有什么不同?抽樣誤差是由于樣本隨機性引起的樣本結(jié)果與總體真值之間的誤差。我們平時想像的抽樣誤差可能是針對某個具體的樣本的檢測結(jié)果與總體真實結(jié)果的差異而言的。然后統(tǒng)計學(xué)上的抽樣誤差描述的是所有樣本可能的結(jié)果與總體真值之間的平均性差異。例如:95%的樣本結(jié)果與真值之間的差異上下不超過2%的范圍。按照平常的理解,真值并不知道則無法得出這樣的結(jié)論。而在統(tǒng)計學(xué)上,我們發(fā)現(xiàn)對不同樣本進行檢測時其分布是有規(guī)律的,于是可以通過樣本的信息計算出這個誤差。例如:如果真實值為10%,則樣本結(jié)果95%會落在8%-12%內(nèi)。那么以10%為中心,結(jié)果在2%的范圍內(nèi)波動,這是統(tǒng)計學(xué)上的抽樣誤差。簡述影響抽樣誤差大小的因素。抽樣誤差:指由于抽樣的隨機性引起的樣本結(jié)果與總體真值之間的誤差。影響抽樣誤差的大小如下:①抽樣單位的數(shù)目。在其他條件不變的情況下,抽樣單位的數(shù)目越多,抽樣誤差越?。怀闃訂挝粩?shù)目越少,抽樣誤差越大。這是因為隨著樣本數(shù)目的增多,樣本結(jié)構(gòu)越接近總體。抽樣調(diào)查也就越接近全面調(diào)查。當樣本擴大到總體時,則為全面調(diào)查,也就不存在抽樣誤差了②總體被研究標志的變異程度。在其他條件不變的情況下,總體標志的變異程度越小,抽樣誤差越小??傮w標志的變異程度越大,抽樣誤差越大。抽樣誤差和總體標志的變異程度成正比變化。這是因為總體的變異程度小,表示吝惜體各單位標志值之間的差異小。則樣本指標與總體指標之間的差異也可能?。蝗绻傮w各單位標志值相等,則標志變動度為零,樣本指標等于總體指標,此時不存在抽樣誤差。③抽樣方法的選擇。重復(fù)抽樣和不重復(fù)抽樣的抽樣誤差的大小不同。采用不重復(fù)抽樣比采用重復(fù)抽樣的抽樣誤差小。④抽樣組織方式不同。采用不同的組織方式,會有不同的抽樣誤差,這是因為不同的抽樣組織所抽中的樣本,對于總體的代表性也不同。通常,我們不常利用不同的抽樣誤差,做出判斷各種抽樣組織方式的比較標準。離散系數(shù)?eq\o\ac(○,1)方差和標準差是反映數(shù)據(jù)離散程度的絕對值,其數(shù)值大小一方面受平均數(shù)大小的影響,變量值絕對水平高的,離散程度的測度自然也就大;另一方面,他們與原變量值的計量單位相同,所用不同計量單位計量的變量值,其離散程度的測度值也就不同。對于平均水平不同和計量單位不同的不同組別的變量值,是不能用標準差直接比較其離散程度的eq\o\ac(○,2)離散系數(shù),又稱變異系數(shù),是一組數(shù)據(jù)標準差與其平均數(shù)的比值eq\o\ac(○,3)消除了變量值水平高低和計量單位不同對離散程度測量的影響eq\o\ac(○,4)離散系數(shù)越大,說明數(shù)據(jù)的離散程度越大。eq\o\ac(○,5)舉例:男生平均身高175cm,標準差10cm;女生平均身高165cm,標準差3cm。由于男生女生身高的平均數(shù)不同,無法直接比較其標準差,所以可以采用離散系數(shù),消除了平均數(shù)不同的影響,反映其數(shù)據(jù)離散程度大小。通過計算,男生身高離散系數(shù)為0.057,女生身高離散系數(shù)為0.018,男生生身高離散系數(shù)高于女生,所以男生身高離散程度較大。統(tǒng)計上的大樣本和小樣本?eq\o\ac(○,1)統(tǒng)計上的大樣本和小樣本并不是以樣本量大小來區(qū)分的。eq\o\ac(○,2)在樣本量固定的條件下進行的統(tǒng)計推斷、問題分析,不管樣本量有多大,都稱為小樣本問題。而樣本量n趨近無窮的樣本條件下進行的統(tǒng)計推斷、問題分析則稱為大樣本問題。eq\o\ac(○,3)一般而言統(tǒng)計學(xué)中n>30,即為大樣本,n<30,為小樣本,這只是一種經(jīng)驗說法。eq\o\ac(○,4)樣本量不同,統(tǒng)計計算方法也不同。假設(shè)檢驗,區(qū)間估計的值也會不同。eq\o\ac(○,5)一般來說,大樣本情況下,根據(jù)中心極限定理,可以認為樣本統(tǒng)計量的分布服從或接近于正態(tài)分布,可以利用正態(tài)分布的性質(zhì)去推斷全及總體的參數(shù)。小樣本情況下,樣本統(tǒng)計量的分布常常與正態(tài)分布有所不同.必須利用其他分布的特征推斷總體的參數(shù)。何為置信區(qū)間?eq\o\ac(○,1)區(qū)間估計是在點估計的基礎(chǔ)上,給出總體參數(shù)的一個區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計量加減估計誤差得到的。在區(qū)間估計中,由樣本統(tǒng)計量構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間,其中區(qū)間的最小值稱為置信下限,最大值稱為置信上限。eq\o\ac(○,2)由于統(tǒng)計學(xué)家在某個程度上確信這個區(qū)間包含真正的總體參數(shù),所以給它取名置信區(qū)間.eq\o\ac(○,3)一般而言,如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的的次數(shù)所占的比例稱為置信水平,也稱置信度或置信系數(shù)。eq\o\ac(○,4)當樣本給定時,置信區(qū)間的寬度隨著置信系數(shù)的增大而增大。當區(qū)間比較寬時,才會使這一區(qū)間以更大的可能包含參數(shù)的真值。當置信水平固定時,置信區(qū)間的寬度隨著樣本量的增大而減小。eq\o\ac(○,5)如果用某種方法構(gòu)造的區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,那么該方法構(gòu)造的區(qū)間稱為置信水平為95%的置信區(qū)間。eq\o\ac(○,6)總體參數(shù)的真值是固定的、未知的,而樣本構(gòu)造的區(qū)間則是不固定的。置信區(qū)間是一個隨機區(qū)間,它會因樣本的不同而不同,而不是所有的區(qū)間都包含總體參數(shù)的真值。eq\o\ac(○,7)在實際問題中,進行估計時往往只抽取一個樣本,此時所構(gòu)造的是與該樣本相聯(lián)系的一定置信水平下的置信區(qū)間,而不再是隨機區(qū)間,所以無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值。eq\o\ac(○,8)一個特定的區(qū)間”總是包含”或“絕對不包含“參數(shù)的真值,不存在”以多大的概率包含參數(shù)“的問題。一個完整的調(diào)查方案應(yīng)該具備哪些要素?調(diào)查目的和任務(wù).統(tǒng)計調(diào)查總是為一定的研究任務(wù)服務(wù)的,制定調(diào)查方案的首要問題是明確調(diào)查的目的和任務(wù)。二、調(diào)查對象和調(diào)查單位。確定調(diào)查對象和調(diào)查單位,是為了回答向誰調(diào)查、由誰來具體地提供統(tǒng)計資料的問題。三、調(diào)查項目,設(shè)計調(diào)查表式。調(diào)查項目就是調(diào)查中所要登記的調(diào)查單位的特征,這些特征統(tǒng)計上又稱標志。確定調(diào)查項目所要解決的問題是:向調(diào)查單位調(diào)查什么。將反映調(diào)查單位特征的調(diào)查項目,按一定的順序排列在一定的表格上,就構(gòu)成了調(diào)查表。四、調(diào)查的時間、空間和方法。調(diào)查時間包括三個方面的含義:首先是指調(diào)查資料所屬的時間,如果所調(diào)查的是時期現(xiàn)象,就要明確規(guī)定反映的調(diào)查對象從何年何月何日起到何年何月何日止的資料;如果所要調(diào)查的是時點現(xiàn)象,就要明確規(guī)定統(tǒng)一的標準時點。其次是指調(diào)查工作進行的時間,即指對調(diào)查單位的標志進行登記的時間。最后是指調(diào)查期限,即整個調(diào)查工作的時限,包括搜集資料及報送資料的整個工作所需要的時間。調(diào)查空間是指確定調(diào)查單位在什么地方接受調(diào)查。調(diào)查方法,包括調(diào)查的組織形式和搜集資料的具體方法。五、制訂調(diào)查工作的組織實施計劃。為了保證整個統(tǒng)計調(diào)查工作順利進行,在調(diào)查方案中還應(yīng)該有一個周密考慮的組織實施計劃。其主要內(nèi)容應(yīng)包括:調(diào)查工作的領(lǐng)導(dǎo)機構(gòu)和辦事機構(gòu);調(diào)查人員的組織;調(diào)查資料報送辦法;調(diào)查前的準備工作,包括宣傳教育、干部培訓(xùn)、調(diào)查文件的準備、調(diào)查經(jīng)費的預(yù)算和開支辦法、調(diào)查方案的傳達布置、試點及其他工作等。一份好的調(diào)查問卷可以有效的減少調(diào)查誤差。問卷中題目的類型、提問的方式、使用的詞匯、問題的組合都可能引起非抽樣誤差。同度量因素的主要作用?eq\o\ac(○,1)同度量因素也成“同度量系數(shù)”或“指數(shù)權(quán)數(shù)”,是指使若干由于度量單位不同不能直接相加的指標,過渡到可以加總和比較而使用的媒介因素。在編制總指數(shù)時,把不能直接相加的要素過渡到能夠相加的總體的媒介因素。同度量因素在計算總指數(shù)的過程中對各指數(shù)因素起著權(quán)衡輕重的作用,所以也叫權(quán)數(shù)。eq\o\ac(○,2)同度量因素的作用主要有:同度量作用(媒介作用)和權(quán)數(shù)作用。eq\o\ac(○,3)不同商品的銷售量和價格不能直接加總,他們都是不同度量的因素,然而每種商品銷售額可以加總,因為它是同一度量的。eq\o\ac(○,4)同度量因素可分為不變同度量因素和可變同度量因素。不變同度量因素,是指在一個指數(shù)數(shù)列中各個指數(shù)的同度量因素是固定不變的??勺兺攘恳蛩兀侵冈谝粋€指數(shù)數(shù)列中各個指數(shù)的同度量因素隨著指數(shù)基期的改變而改變。在統(tǒng)計工作中,采用不變同度量因素還是可變同度量因素,對于質(zhì)量指標指數(shù)和數(shù)量指標指數(shù)是不同的。質(zhì)量指標指數(shù)用報告期的數(shù)量指標做同度量因素,所以在一個質(zhì)量指標指數(shù)的數(shù)列中,它的同度量因素一定是可變同度量因素;而計算數(shù)量指標指數(shù)的數(shù)列中,定基指數(shù)的同度量因素是不變同度量因素,環(huán)比指數(shù)的同度量因素則是可變同度量因素。eq\o\ac(○,5)例如:單位產(chǎn)品價格×產(chǎn)品產(chǎn)量=產(chǎn)品產(chǎn)值p×q=pq單位產(chǎn)品成本×產(chǎn)品產(chǎn)量=總成本z×q=zq在以上方程式的右邊,是經(jīng)過同度量因素的作用,而可以相加或合并的總體。抽樣調(diào)查注意的問題?eq\o\ac(○,1)抽樣調(diào)查是一種非全面調(diào)查,它是從全部調(diào)查研究對象中,抽選一部分單位進行調(diào)查,并據(jù)以對全部調(diào)查研究對象作出估計和推斷的一種調(diào)查方法。顯然,抽樣調(diào)查雖然是非全面調(diào)查,但它的目的卻在于取得反映總體情況的信息資料,因而,也可起到全面調(diào)查的作用。根據(jù)抽選樣本的方法,抽樣調(diào)查可以分為概率抽樣和非概率抽樣兩類。概率抽樣是按照概率論和數(shù)理統(tǒng)計的原理從調(diào)查研究的總體中,根據(jù)隨機原則來抽選樣本,并從數(shù)量上對總體的某些特征作出估計推斷,對推斷出可能出現(xiàn)的誤差可以從概率意義上加以控制。習(xí)慣上將概率抽樣稱為抽樣調(diào)查。eq\o\ac(○,2)抽樣調(diào)查的步驟主要有;(1)界定總體(2)制定抽樣框(3)實施抽樣調(diào)查并推測總體(4)分割總體(5)決定樣本規(guī)模(6)決定抽樣方式(7)確定調(diào)查的信度和效度.eq\o\ac(○,3)抽樣調(diào)查根據(jù)隨機原則抽取樣本,可以根據(jù)調(diào)查結(jié)果對總體的有關(guān)參數(shù)進行估計,計算估計誤差,得到總體的置信區(qū)間,在進行抽樣時,對估計的精度提出要求,計算為滿足特定精度要求所需的樣本量,所以,調(diào)查的目的在于掌握研究對象總體的數(shù)量特征,得到總體參數(shù)的置信區(qū)間,就應(yīng)當使用抽樣調(diào)查。eq\o\ac(○,4)抽樣調(diào)查技術(shù)含量高,無論是抽取樣本還是對調(diào)查數(shù)據(jù)進行分析,都要求有較高的統(tǒng)計學(xué)知識,調(diào)查成本也較高。eq\o\ac(○,5)抽樣誤差是由抽樣的隨機性引起的樣本結(jié)果與總體真值之間的誤差。在抽樣調(diào)查中,抽樣誤差是不可避免的。抽樣誤差是可以計算的。對抽樣誤差進行控制得一個方法就是改變樣本量,要求抽樣誤差越小,樣本量越大。抽樣調(diào)查需要注意哪些問題?1)調(diào)查樣本是按隨機的原則抽取的,在總體中每一個單位被抽取的機會是均等的,因此,能夠保證被抽中的單位在總體中的均勻分布,不致出現(xiàn)傾向性誤差,代表性強。(2)是以抽取的全部樣本單位作為一個“代表團”,用整個“代表團”來代表總體。而不是用隨意挑選的個別單位代表總體。(3)所抽選的調(diào)查樣本數(shù)量,是根據(jù)調(diào)查誤差的要求,經(jīng)過科學(xué)的計算確定的,在調(diào)查樣本的數(shù)量上有可靠的保證。(4)抽樣調(diào)查的誤差,是在調(diào)查前就可以根據(jù)調(diào)查樣本數(shù)量和總體中各單位之間的差異程度進行計算,并控制在允許范圍以內(nèi),調(diào)查結(jié)果的準確程度較高。方差分析主要解決什么問題:使用方差分析的必要性:隨著個體顯著性檢驗的次數(shù)增加,如比較多個總體的均值是否相等,若是用一般的檢驗方法,則需做多個均值的兩兩比較,作多次檢驗會使犯第Ⅰ類錯誤的概率增加,置信水平降低,而且兩兩比較非常繁瑣。而方差分析則是同時考慮所有樣本,因此排除了錯誤累計的概率,從而避免拒絕一個真實的原假設(shè)。方差分析的種類:單因素方差分析,雙因素方差分析(包括無交互作用和有交互作用的反差分析)。方差分析的原理:判斷均值是否有差異需要借助于方差,也就是對數(shù)據(jù)誤差來源的分析。反映全部數(shù)據(jù)誤差大小的平方和稱為總平方和,記為SST,反映全部觀測值得離散情況;來自水平內(nèi)部的數(shù)據(jù)誤差成為組內(nèi)誤差,記為SSE,反映了一個樣本內(nèi)部數(shù)據(jù)的離散程度,只含有隨機誤差;來自不同水平之間的誤差成為組間誤差,是隨機誤差和系統(tǒng)誤差的總和記為SSA。SST=SSA+SSE。方差分析的基本假定:(1)每個總體都服從正態(tài)分布。(2)每個總體的方差必須相同。(3)觀測值是獨立的。方差分析的基本步驟:(1)提出假設(shè)(2)構(gòu)造檢驗統(tǒng)計量(3)求出SST,SSE,SSA(4)F=MSA/MSE~F(n-1,n-k),計算統(tǒng)計量。6,得出結(jié)論:如果原假設(shè)H0:μ1=μ2=…=μi=…μk成立,則表明沒有系統(tǒng)誤差,組間方差MSA和組內(nèi)方差MSE的比值差異就不會太大,如果組件方差顯著大于組內(nèi)方差,說明個水平之間的差異不僅僅隨機誤差,還有系統(tǒng)誤差。將統(tǒng)計量的值F與給定的顯著性水平α的臨界值比較,若F>Fα,則拒絕原假設(shè),表明μi之間有顯著差異,若F<Fα,則不拒絕原假設(shè),沒有證據(jù)表明μi之間有顯著差異。方差分析主要解決什么問題?提高檢驗效率。例如,4個總體均值分別。。。,如果用一般假設(shè)檢驗只能兩兩檢驗,共需進行六次,方差檢驗則是比較多個總體均值是否相等,提高了檢驗效率。減小飯第一類錯誤的概率。多次檢驗會使犯第一類錯誤的概率增加。例如,如果犯第一類錯誤的概率是0.05,連續(xù)六次檢驗犯第一類錯誤的概率為0.265,置信水平也會相應(yīng)降低。方差分析是檢驗多個總體均值是否相等的統(tǒng)計方法,本質(zhì)上是研究分類型自變量對數(shù)值型因變量的影響。方差分析將所有的樣本信息整合在一起增加了分析的可靠性。闡述并舉例說明標志變異度的應(yīng)用背景:(闡述并適當舉例說明標志變異度與平均指標的關(guān)系)標志變動度是反映總體各單位標志值之間差異程度大小的綜合指標。說明的是變量的離中趨勢。它的作用是衡量平均指標的代表性大小,同時,探討總體內(nèi)部的變動規(guī)律,衡量總體的均衡性和穩(wěn)定性。測量標志變異的主要指標有極差、平均差、方差、標準差和標志變動系數(shù)等。 方差和標準差是反映數(shù)據(jù)分散程度的絕對值,但一方面其數(shù)值大小會受到原變量本身水平高低的影響,變量值絕對水平高的其離散程度的測度值更大。另一方面,它們與原變量值的計量單位相同,采用不同計量單位計量的變量值其離散程度的測度值也不同。因此,對于平均水平不同或計量單位不同的不同組別的變量值,是不能用標準差直接比較離散程度的。為消除變量值水平的高低和計量單位不同對離散程度測度值的影響,我們可以采用標志變動度來比較離散程度。例如:選手A氣手槍平均環(huán)數(shù)為9.69,標準差為0.36,選手B的平均環(huán)數(shù)為10.14,標準差為0.55。因為變量值水平有差異,故通過標志變動度來衡量。x/s,分別為0.037,0.054。故選手A成績的離散程度更小,發(fā)揮更為穩(wěn)定。假設(shè)檢驗的應(yīng)用背景:假設(shè)檢驗是抽樣推斷中的一項重要內(nèi)容。它是根據(jù)原資料作出一個總體指標是否等于某一個數(shù)值,某一隨機變量是否服從某種概率分布的假設(shè),然后利用樣本資料采用一定的統(tǒng)計方法計算出有關(guān)檢驗的統(tǒng)計量,依據(jù)一定的概率原則,以較小的風(fēng)險來判斷估計數(shù)值與總體數(shù)值(或者估計分布與實際分布)是否存在顯著差異,是否應(yīng)當接受原假設(shè)選擇的一種檢驗方法。用樣本指標估計總體指標,其結(jié)論有的完全可靠,有的只有不同程度的可靠性,需要進一步加以檢驗和證實。通過檢驗,對樣本指標與假設(shè)的總體指標之間是否存在差別作出判斷,是否接受原假設(shè)。這里必須明確,進行檢驗的目的不是懷疑樣本指標本身是否計算正確,而是為了分析樣本指標和總體指標之間是否存在顯著差異。從這個意義上,假設(shè)檢驗又稱為顯著性檢驗。基本步驟:1、提出檢驗假設(shè)又稱無效假設(shè),符號是H0;備擇假設(shè)的符號是H1。H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1:樣本與總體或樣本與樣本間存在本質(zhì)差異;預(yù)先設(shè)定的檢驗水準為0.05;當檢驗假設(shè)為真,但被錯誤地拒絕的概率,記作α,通常取α=0.05或α=0.01。2、選定統(tǒng)計方法,由樣本觀察值按相應(yīng)的公式計算出統(tǒng)計量的大小,如X2值、t值等。根據(jù)資料的類型和特點,可分別選用Z檢驗,T檢驗,和卡方檢驗等。3、根據(jù)統(tǒng)計量的大小及其分布確定檢驗假設(shè)成立的可能性P的大小并判斷結(jié)果。若P>α,結(jié)論為按α所取水準不顯著,不拒絕H0,即認為差別很可能是由于抽樣誤差造成的,在統(tǒng)計上不成立;如果P≤α,結(jié)論為按所取α水準顯著,拒絕H0,接受H1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統(tǒng)計上成立。P值的大小一般可通過查閱相應(yīng)的界值表得到。請舉例說明假設(shè)檢驗的應(yīng)用背景假設(shè)檢驗是由樣本去推斷總體的一種統(tǒng)計推斷方法。先對μ的值提出一個假設(shè),然后利用樣本信息去檢驗這個假設(shè)是否成立。例如:已知某元件的標準質(zhì)量為500g,為了驗證某工廠的原件是否符合標準,隨機抽取100個樣本,測得平均質(zhì)量為510g,要判斷該廠的元件是否符合標準。這個問題的關(guān)鍵在于我們是否能用抽樣的隨機性來解釋10克的差異,于是我們采取假設(shè)檢驗的方法。假設(shè)該廠的元件符合標準,標準質(zhì)量為μ,樣本的平均值為μ0,則μ=μ0,利用樣本信息檢驗上述假設(shè)是否成立。(首先,提出原假設(shè)和備擇假設(shè)(H0=。。。),計算檢驗統(tǒng)計量(。。)確定顯著性水平為5%,就可以根據(jù)抽樣分布原理求出否定原假設(shè)和接受原假設(shè)的臨界值,確定了拒絕域。如果原假設(shè)成立,則說明95%的樣本均值應(yīng)當落入置信度為95%的置信區(qū)間,根據(jù)小概率原理可做出是否拒絕原假設(shè)的判斷。)編制時間序列應(yīng)該注意哪些問題:編制時間序列的目的就是要通過對序列中的各個指標值進行分析,來研究社會經(jīng)濟的發(fā)展變化及規(guī)律,保證時間新序列上各個不同時間上的統(tǒng)計指標的可比性,是編制時間序列的基本原則,可比性體現(xiàn)在以下幾個方面:(一)時間序列中各指標所屬時間長短應(yīng)前后一致。(二)所反映現(xiàn)象的總體范圍應(yīng)該一致。(三)指標的經(jīng)濟內(nèi)容應(yīng)該統(tǒng)一(四)計算方法應(yīng)該統(tǒng)一(五)計算價格和計量單位要一致。應(yīng)用回歸方程進行預(yù)測和分析應(yīng)注意哪些問題:1.根據(jù)預(yù)測目標,確定自變量和因變量明確預(yù)測的具體目標,也就確定了因變量。2.建立回歸預(yù)測模型依據(jù)自變量和因變量的歷史統(tǒng)計資料進行計算,在此基礎(chǔ)上建立回歸分析方程,即回歸分析預(yù)測模型。3.進行相關(guān)分析回歸分析是對具有因果關(guān)系的影響因素(自變量)和預(yù)測對象(因變量)所進行的數(shù)理統(tǒng)計分析處理。只有當變量與因變量確實存在某種關(guān)系時,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預(yù)測對象是否有關(guān),相關(guān)程度如何,以及判斷這種相關(guān)程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來判斷自變量和因變量的相關(guān)的程度。4.檢驗回歸預(yù)測模型,計算預(yù)測誤差回歸預(yù)測模型是否可用于實際預(yù)測,取決于對回歸預(yù)測模型的檢驗和對預(yù)測誤差的計算?;貧w方程只有通過各種檢驗,且預(yù)測誤差較小,才能將回歸方程作為預(yù)測模型進行預(yù)測。5.計算并確定預(yù)測值利用回歸預(yù)測模型計算預(yù)測值,并對預(yù)測值進行綜合分析,確定最后的預(yù)測值應(yīng)用回歸預(yù)測法時應(yīng)首先確定變量之間是否存在相關(guān)關(guān)系。如果變量之間不存在相關(guān)關(guān)系,對這些變量應(yīng)用回歸預(yù)測法就會得出錯誤的結(jié)果。正確應(yīng)用回歸分析預(yù)測時應(yīng)注意:①用定性分析判斷現(xiàn)象之間的依存關(guān)系;②避免回歸預(yù)測的任意外推;③應(yīng)用合適的數(shù)據(jù)資料,不要用樣本數(shù)據(jù)之外的x值去預(yù)測相應(yīng)的Y值。因為在回歸分析中,總是假定因變量y與自變量x之間的關(guān)系用線性模型表達式正確的,但實際應(yīng)用中,他們的關(guān)系可能是曲線,用越接近均值x的點預(yù)測得到的估計值會越理想。平均涵義在回歸分析中的作用:1,回歸分析用來考察變量之間的數(shù)量關(guān)系,并通過一定的數(shù)學(xué)表達式將這種關(guān)系描述出來,進而確定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響程度。主要解決以下問題:從一組樣本數(shù)據(jù)出發(fā),確定變量間的數(shù)學(xué)關(guān)系式。對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的。利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來估計或預(yù)測兩一個特定變臉的取值,并給出這種估計或預(yù)測的可靠程度。最小二乘法是通過使因變量的觀測值與估計值之間的離差平方和達到最小來擬合舉距離各觀測點最近的一條直線,估計參數(shù)的方法。畫出最小二乘法示圖。P279,如何判斷殘差平方和最小,SSE=求偏導(dǎo),列出式子。用最小二乘方法估計出來的直線y=即是描述一個或幾個自變量變動時,因變量平均變動的情況,E(y)=擬合優(yōu)度的衡量:y與其均值的差異包括由回歸模型解釋的部分和不可解釋的部分,SST=是被解釋變量y相對于樣本均值的總的變化,回歸平方和是y中關(guān)于樣本均值的總體變化中由回歸解釋的部分。舉例說明小概率事件原理和反證法:假設(shè)檢驗就是事先對總體參數(shù)提出假設(shè),然后取樣進行實驗,再將實驗所提供的信息按照一定的方法計算并與一定的臨界值進行比較,最后推斷接受或者拒絕原假設(shè)的方法。小概率事件和反證法是假設(shè)檢驗的核心思想。小概率事件,是指發(fā)生概率很小的隨機事件在一次實驗中是幾乎不可能發(fā)生的。根據(jù)這一原理,可以作出是否接受原假設(shè)的決定。例如,有一個廠商聲稱其產(chǎn)品的合格品率很高,可以達到99%,那么從一批產(chǎn)品(如100件)中隨機抽取1件,這一件恰好是次品的概率就非常小,只有1%。如果廠商的宣稱是真的,隨機抽取1件是次品的情況就幾乎是不可能發(fā)生的,但如果這種情況確實發(fā)生了,我們就有理由懷疑原來的假設(shè),即產(chǎn)品中只有1%次品的假設(shè)是否成立,這時就可以推翻原來的假設(shè),可以作出廠商的宣稱是假的這樣一個推斷,我們進行推斷的依據(jù)就是小概率原理。當然,推斷也可能會犯錯誤,即這100件產(chǎn)品中確實只有1件是次品,而恰好在一次抽取中被抽到了。所以這個例子中犯這種錯誤的概率是1%,也就是說我們在冒1%的風(fēng)險作出廠商宣稱是假的這樣一個推斷。由此也可以看出,這里的1%正是前面所說的顯著性水平。反證法就是先提出假設(shè),進而按照適當?shù)慕y(tǒng)計方法確定假設(shè)成立的可能性,如果可能性小就拒絕假設(shè)。兩者結(jié)合就形成了假設(shè)檢驗的基本思想,即抽取樣本資料進行檢驗統(tǒng)計量的計算,然后按照接受假設(shè)是否會出現(xiàn)小概率事件來決定是否接受原假設(shè)。舉例說明假設(shè)檢驗中的小概率事件原理和反證法。(武大版p259)反證法思想。先假定”H0為真”,如果檢驗中出現(xiàn)了不合理的現(xiàn)象則表明有理由認為H0是錯的,應(yīng)拒絕H0接受H1。如果沒有出現(xiàn)小概率事件,則有理由接受H0是正確的。(2)小概率原理是指發(fā)生概率很小的隨機事件在一次實驗中是幾乎不可能發(fā)生的。假設(shè)檢驗中根據(jù)這一原理可以作出是否拒絕原假設(shè)的判斷。例如:已知某元件的標準質(zhì)量為500g,為了驗證某工廠的原件是否符合標準,隨機抽取100個樣本,測得平均質(zhì)量為510g,要判斷該廠的元件是否符合標準。首先,提出原假設(shè)和備擇假設(shè)(H0=。。。),計算檢驗統(tǒng)計量(。。)確定顯著性水平為5%,就可以根據(jù)抽樣分布原理求出否定原假設(shè)和接受原假設(shè)的臨界值,確定了拒絕域。如果原假設(shè)成立,則說明95%的樣本均值應(yīng)當落入置信度為95%的置信區(qū)間,所以在一次實驗中統(tǒng)計量落入拒絕域的概率是很小的,如果這個情況出現(xiàn),我們便有理由認為我們的假設(shè)是錯誤的,進而選擇接受備擇假設(shè)。分析相關(guān)分析與回歸分析之間的關(guān)系。相關(guān)分析就是對兩個變量之間的線性關(guān)系的描述與度量,它要解決的問題包括:變量之間是否存在關(guān)系如果存在關(guān)系,他們之間是什么關(guān)系變量之間的關(guān)系強度如何樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系相關(guān)分析的目的在于變量之間的關(guān)系強度,它所使用的測度工具就是相關(guān)系數(shù)。而回歸分析側(cè)重于考察變量之間的數(shù)量關(guān)系,并通過一定的數(shù)學(xué)表達式將這種關(guān)系描述出來,進而確定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響。具體來說,回歸分析主要解決以下幾方面的問題:從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。對這些關(guān)系式的可信度進行各種統(tǒng)計檢驗,并從影響某種特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來估計或預(yù)測另一個特定變量的取值,并給出這種估計或預(yù)測的可靠程度。相關(guān)分析與回歸分析既有聯(lián)系又有區(qū)別。首先兩者都是研究非確定性變量間的統(tǒng)計依賴關(guān)系,并能度量線性依賴程度的大小。其次兩者又有明顯的區(qū)別:相關(guān)分析不必確定自變量和因變量,只是從數(shù)據(jù)上測度變量間的相關(guān)程度。相關(guān)分析不能指出變量間相互關(guān)系的具體形式。(3)相關(guān)分析的變量一般都是隨機變量,而回歸分析中解釋變量往往被假設(shè)為非隨機變量。什么是回歸方程與回歸系數(shù)的顯著性檢驗?他們之間有什么區(qū)別與聯(lián)系?;貧w方程的顯著性檢驗包括回歸系數(shù)的顯著性檢驗,回歸系數(shù)顯著性檢驗是回歸方程顯著性檢驗的一部分。回歸方程的顯著性檢驗主要有兩方面的內(nèi)容:一是線性關(guān)系檢驗;二是回歸系數(shù)檢驗。其中線性關(guān)系檢驗是檢驗自變量x與因變量y之間的線性關(guān)系是否顯著?;貧w系數(shù)的顯著性檢驗是要檢驗每個自變量對因變量的影響是否顯著,需要對每個回歸系數(shù)分別進行單獨的t檢驗。如果某個自變量沒有通過檢驗,就意味著這個自變量對因變量的影響不顯著,也許就沒有必要將這個自變量放進回歸方程模型中了。此外,在多元線性回歸中,應(yīng)對回歸系數(shù)檢驗的個數(shù)進行限制,以避免犯過多的第Ⅰ類錯誤。季節(jié)指數(shù)計算中計算同月平均、總平均的統(tǒng)計學(xué)含義是什么?4,解釋拉式指數(shù)和帕式指數(shù)。P368~P3696,試述中心極限定理及其統(tǒng)計意義。中心極限定理:設(shè)從均值為μ、方差為δ^2,(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值X的抽樣分布近似服從均值為μ、方差為δ^2/n的正態(tài)分布。中心極限定理要求n必須充分大,一般統(tǒng)計學(xué)中的一種經(jīng)驗說法是n>=30為大樣本。在統(tǒng)計學(xué)中,由于正態(tài)分布有著十分重要的地位,因此常把證明其極限分布為正態(tài)分布的定理統(tǒng)稱為中心極限定理。6、某城市交通管理部門的一項調(diào)查表明,該城市中駕車上班的人數(shù)超過30%。但一家研究機構(gòu)則認為自駕車上班的人數(shù)比例達不到這一水平。為證明自己的這一看法,該研究機構(gòu)準備抽取一個簡單的隨機樣本進行檢驗。(1)請寫出檢驗的原假設(shè)和備擇假設(shè);(2)請對小樣本和大樣本檢驗進行說明;(3)對于一般檢驗來說,如果結(jié)果表明“統(tǒng)計上顯著”,是不是實際上也顯著?不一定。統(tǒng)計意義上的顯著性是指在不同總體之間的差異比較研究中,由于各個總體存在內(nèi)在的變異性,而只有在當兩個總體之間的差異超過單個總體內(nèi)部這類變異性時,它們間的差異才具有統(tǒng)計上的顯著性。(實際顯著性是指在不同總體之間的差異比較研究中,由于各個總體存在內(nèi)在的變異性,而只有在當兩個總體之間的差異絕對超過總體內(nèi)部這類變異性時,我們就稱它們間的差異具有實際意義上的顯著性。)而在總體顯著的情況下,實際上的顯著是指某個個體的情況,可能顯著可能不顯著。.建立一個指標體系是各種理論研究和實際工作常常遇到的事情,你對指標的遴選和各個指標權(quán)重的確定是怎樣認識的?為了使指標體系科學(xué)化、規(guī)范化,在選擇指標時,應(yīng)遵循以下原則:(1)系統(tǒng)性原則。各指標之問要有一定的邏輯關(guān)系,它們不但要從不同的側(cè)面反映出生態(tài)、經(jīng)濟、社會子系統(tǒng)的主要特征和狀態(tài),而且還要反映生態(tài)一經(jīng)濟一社會系統(tǒng)之間的內(nèi)在聯(lián)系。每一個子系統(tǒng)由一組指標構(gòu)成,各指標之間相互獨立,又彼此聯(lián)系,共同構(gòu)成一個有機統(tǒng)一體。指標體系的構(gòu)建具有層次性,自上而下,從宏觀到微觀層層深入,形成一個不可分割的評價體系。(2)典型性原則。務(wù)必確保評價指標具有一定的典型代表性,盡可能準確反映出特定區(qū)域——高西溝的環(huán)境、經(jīng)濟、社會變化的綜合特征,即使在減少指標數(shù)量的情況下,也要便于數(shù)據(jù)計算和提高結(jié)果的可靠性。另外,評價指標體系的設(shè)置、權(quán)重在各指標問的分配及評價標準的劃分都應(yīng)該與高西溝的自然和社會經(jīng)濟條件相適應(yīng)。(3)動態(tài)性原則。生態(tài)一經(jīng)濟一社會效益的互動發(fā)展需要通過一定時間尺度的指標才能反映出來。因此,指標的選擇要充分考慮到動態(tài)的變西北典型區(qū)生態(tài)脫貧途徑研究化特點,應(yīng)該收集若干年度的變化數(shù)值。(4)簡明科學(xué)性原則。各指標體系的設(shè)計及評價指標的選擇必須以科學(xué)性為原則,能客觀真實地反映高西溝環(huán)境、經(jīng)濟、社會發(fā)展的特點和狀況,能客觀全面反映出各指標之間的真實關(guān)系。各評價指標應(yīng)該具有典型代表性,不能過多過細,使指標過于繁瑣,相互重疊,指標又不能過少過簡,避免指標信息遺漏,出現(xiàn)錯誤、不真實現(xiàn)象,并且數(shù)據(jù)易獲且計算方法簡明易懂。(5)可比、可操作、可量化原則。指標選擇上,特別注意在總體范圍內(nèi)的一致性,指標體系的構(gòu)建是為區(qū)域政策制定和科學(xué)管理服務(wù)的,指標選取的計算量度和計算方法必須一致統(tǒng)一,各指標盡量簡單明了、微觀性強、便于收集,各指標應(yīng)該要具有很強的現(xiàn)實可操作性和可比性。而且,選擇指標時也要考慮能否進行定量處理,以便于進行數(shù)學(xué)計算和分析。(6)綜合性原則。生態(tài)一經(jīng)濟一社會的互動“雙贏”是生態(tài)經(jīng)濟建設(shè)的最終目標,也是綜合評價的重點。在相應(yīng)的評價層次上,全面考慮影響環(huán)境、經(jīng)濟、社會系統(tǒng)的諸多因素,并進行綜合分析和評價。各個指標權(quán)重的確立p408指數(shù)時對代表項目進行加權(quán)得到的結(jié)果,如何確定權(quán)數(shù)是在編制指數(shù)時必須面對的問題。確定權(quán)數(shù)的途徑大致有兩種:利用已有的信息構(gòu)造權(quán)數(shù)。例如,計算零售價格指數(shù),每個代表規(guī)格品的權(quán)數(shù)是用其代表那一類商品零售額在全部零售額中的比重做權(quán)數(shù),是否具有構(gòu)造權(quán)數(shù)的數(shù)據(jù),以及這些數(shù)據(jù)的質(zhì)量如何是關(guān)鍵問題。主觀權(quán)數(shù),常見于社會問題的編制,例如幸福感指數(shù),每個權(quán)重的多少有調(diào)查人員主觀確定,盡管可能經(jīng)過多次研討和廣泛征求意見,但是沒有公認的確定數(shù)據(jù)。對于第一種途徑,指數(shù)理論要回答選擇什么樣的指標數(shù)據(jù)做權(quán)數(shù),以及用什么時期的數(shù)據(jù)構(gòu)造權(quán)數(shù);對于后一種實際上是將指數(shù)方法擴展到多指標的綜合評價,從而形成一系列的綜合評價方法。什么是指數(shù)?指數(shù)是用于測定多個項目在不同場合下綜合變動的一種特殊相對數(shù),是分析社會經(jīng)濟現(xiàn)象數(shù)量變化的一種重要統(tǒng)計方法。反應(yīng)什么問題?指數(shù)的實質(zhì)是測定多項內(nèi)容,例如,零售價格指數(shù)反映的是零售市場幾百萬種商品價格變化的整體狀況。根據(jù)某些采樣股票、電子現(xiàn)貨或債券的價格所設(shè)計并計算出來的統(tǒng)計數(shù)據(jù),用來衡量股票市場、電子現(xiàn)貨或債券市場的價格波動情形。如何計算?可以分為簡單指數(shù)和加權(quán)指數(shù)。簡單指數(shù)吧各個項目的重要性視為相同。加權(quán)指數(shù)給各個項目依據(jù)重要程度賦予不同權(quán)數(shù),再計算。簡單指數(shù)的公式p409加權(quán)綜合指數(shù)的基本公式p412有什么用途?指數(shù)的作用:(1)反應(yīng)生活的各個方面,指導(dǎo)人們生活行為。如零售商品物價指數(shù)、生活費用價格指數(shù)等,同人們的生活休戚相關(guān)。影響人們的投資活動。如生產(chǎn)資料價格指數(shù)、股票價格指數(shù)等,反應(yīng)金融市場的波動,指導(dǎo)人們的投資行為,是社會經(jīng)濟的晴雨表。政策決策制定的依據(jù)。例如生產(chǎn)者物價指數(shù)是衡量工業(yè)企業(yè)產(chǎn)品出廠價格變動趨勢和變動程度的指數(shù),是反映某一時期生產(chǎn)領(lǐng)域價格變動情況的重要經(jīng)濟指標,也是制定有關(guān)經(jīng)濟政策和國民經(jīng)濟核算的重要依據(jù)。反映社會的綜合發(fā)展。運用指數(shù)可以測定不能直接相加和不能直接對比的社會經(jīng)濟現(xiàn)象的總動態(tài);可以分析社會經(jīng)濟現(xiàn)象總變動中各因素變動的影響程度。例如HDI可以反映社會綜合發(fā)展的程度。指數(shù)體系主要有以下三方面的作用:(1)指數(shù)體系是進行因素分析的根據(jù)。即利用指數(shù)體系可以分析復(fù)雜經(jīng)濟現(xiàn)象總變動中各因素變動影響方向和程度,從而找出現(xiàn)象變動的具體原因。(2)利用各指數(shù)之間的聯(lián)系進行指數(shù)間的相互推算。例如,我國商品銷售量總指數(shù)往往就是根據(jù)商品銷售額總指數(shù)和價格總指數(shù)進行推算的。即商品的銷售量指數(shù)一銷售額指數(shù)÷價格指數(shù)(3)用綜合指數(shù)法編制總指數(shù)時,指數(shù)體系也是確定同度量因素時期的根據(jù)之一。如果要編制“生活水平指數(shù)”,你該如何操作?1.建立綜合評價指標體系。多指標綜合評價的結(jié)果是否客觀和準確,首先依賴于各個評價指標的信息是否準確和全面;因此,選取什么指標以及選取多少指標來刻畫被評價事物,是多指標綜合評價首先要考慮的問題??紤]到影響并反映人們生活水平的不同方面,我們選取以下四個方面的15個指標進行綜合評定。(1)健康指數(shù):出生預(yù)期壽命、嬰兒死亡率、每萬人平均病床數(shù);
(2)教育指數(shù):成人文盲率、大專以上文化程度人口比例;
(3)生活水平指數(shù):農(nóng)村居民年人均純收入、人均GDP、城鄉(xiāng)居民年人均消費比、城鎮(zhèn)居民恩格爾系數(shù);
(4)社會環(huán)境指數(shù):城鎮(zhèn)登記失業(yè)率、第三產(chǎn)業(yè)增加值占GDP比例、人均道路面積、城鎮(zhèn)居民人均居住面積、省會城市空氣質(zhì)量達到并好于二級的天數(shù)(簡稱省會城市API)、人均環(huán)境污染治理投資額。2.評價指標的無量綱化處理由于綜合評價運用多個指標組成指標體系,這些指標的計量單位不同,因此需要對這些指標進行無量綱處理,使其具有可比性。(統(tǒng)計標準化處理p429)3.確定各項評價指標的權(quán)重在多指標綜合評價中,權(quán)數(shù)的確定直接影響著綜合評價的結(jié)果,權(quán)數(shù)數(shù)值的變動可能引起被評價對象優(yōu)劣順序的改變,科學(xué)地確定指標權(quán)數(shù)在多指標綜合評價中是舉足輕重的。在中國發(fā)展指數(shù)的權(quán)數(shù)結(jié)構(gòu)中,我們認為健康、教育、生活水平和社會環(huán)境四個單項指標,對總指數(shù)計算的重要性應(yīng)當是相等的;即上述四個單項指數(shù)在計算總指數(shù)時是等權(quán)的,以體現(xiàn)協(xié)調(diào)發(fā)展的觀念。計算綜合評價指數(shù)p422設(shè)計調(diào)查方案一般包括哪些要素?統(tǒng)計調(diào)查完整的方案具體包括:一、確定調(diào)查目的和任務(wù)統(tǒng)計調(diào)查總是為一定的研究任務(wù)服務(wù)的,制定調(diào)查方案的首要問題是明確調(diào)查的目的和任務(wù)。二、確定調(diào)查對象和調(diào)查單位確定調(diào)查對象和調(diào)查單位,是為了回答向誰調(diào)查、由誰來具體地提供統(tǒng)計資料的問題。三、確定調(diào)查項目,設(shè)計調(diào)查表式調(diào)查項目就是調(diào)查中所要登記的調(diào)查單位的特征,這些特征統(tǒng)計上又稱標志。確定調(diào)查項目所要解決的問題是:向調(diào)查單位調(diào)查什么。將反映調(diào)查單位特征的調(diào)查項目,按一定的順序排列在一定的表格上,就構(gòu)成了調(diào)查表。四、確定調(diào)查的時間、空間和方法調(diào)查時間包括三個方面的含義:首先是指調(diào)查資料所屬的時間,如果所調(diào)查的是時期現(xiàn)象,就要明確規(guī)定反映的調(diào)查對象從何年何月何日起到何年何月何日止的資料;如果所要調(diào)查的是時點現(xiàn)象,就要明確規(guī)定統(tǒng)一的標準時點。其次是指調(diào)查工作進行的時間,即指對調(diào)查單位的標志進行登記的時間。最后是指調(diào)查期限,即整個調(diào)查工作的時限,包括搜集資料及報送資料的整個工作所需要的時間。調(diào)查空間是指確定調(diào)查單位在什么地方接受調(diào)查。調(diào)查方法,包括調(diào)查的組織形式,搜集資料的具體方法,抽樣方法等。五、制訂調(diào)查工作的組織實施計劃為了保證整個統(tǒng)計調(diào)查工作順利進行,在調(diào)查方案中還應(yīng)該有一個周密考慮的組織實施計劃。其主要內(nèi)容應(yīng)包括:調(diào)查工作的領(lǐng)導(dǎo)機構(gòu)和辦事機構(gòu);調(diào)查人員的組織;調(diào)查資料報送辦法;調(diào)查前的準備工作,包括宣傳教育、干部培訓(xùn)、調(diào)查文件的準備、調(diào)查經(jīng)費的預(yù)算和開支辦法、調(diào)查方案的傳達布置、試點及其他工作等。六、調(diào)查資料整理和分析以及必要的附件。通常,附件的主要內(nèi)容是專項調(diào)查表或?qū)m椪{(diào)查問卷及必要的指標解釋等。理論應(yīng)用拓展分析題(“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。)統(tǒng)計學(xué)通過對樣本數(shù)據(jù)來反映客觀事物的數(shù)量關(guān)系和數(shù)量特征并進行預(yù)測。作為一門方法論學(xué)科,統(tǒng)計學(xué)的精確度問題十分重要。在統(tǒng)計過程中,統(tǒng)計數(shù)據(jù)的采集、運算和推斷對精確度的要求是非常高的。統(tǒng)計結(jié)果的精確度根據(jù)實際需求來確定。目前統(tǒng)計學(xué)的各種分析方法都是以樣本數(shù)據(jù)為基礎(chǔ)的,而想要提高這些統(tǒng)計量的精度,需要提高數(shù)據(jù)的質(zhì)量和擴大樣本大小。關(guān)于隨著計算機互聯(lián)網(wǎng)、搜索引擎、電子商務(wù)、多種傳感器和多媒體技術(shù)的發(fā)展和廣泛使用,各種形式的數(shù)據(jù)如江河流水般地涌來。當今數(shù)據(jù)的獲取和規(guī)模發(fā)生了根本的變化,統(tǒng)計學(xué)面臨著新的機遇和挑戰(zhàn)。大數(shù)據(jù)帶來的變革大數(shù)據(jù)給我們的時代帶來了變革。目前,人們習(xí)慣于根據(jù)“研究問題”來驅(qū)動“收集數(shù)據(jù)”。今后,大數(shù)據(jù)到處可得,人們將會用“數(shù)據(jù)”驅(qū)動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數(shù)據(jù)做決定。目前已經(jīng)有科學(xué)家開始使用軟件搜索和匯總已發(fā)表論文中的成果。若我們有了成千上萬本中文書和它們的阿拉伯語譯本,即使我們不懂阿拉伯語,我們也能采用匹配文本的方法將中文翻譯成阿拉伯語。谷歌機器翻譯團隊并不會說他們翻譯出的語言。大數(shù)據(jù)中包含有各種不同目的的數(shù)據(jù)集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫(yī)院病歷數(shù)據(jù)與信用卡消費數(shù)據(jù)結(jié)合,我們能發(fā)現(xiàn)食品與健康的相關(guān)關(guān)系,指導(dǎo)人們進行健康飲食。假若再加上手機和GPS等數(shù)據(jù),還能隨時對人們進行體檢,指導(dǎo)健身,減少猝死,幫助醫(yī)生診斷疾病等,應(yīng)用大數(shù)據(jù)可以設(shè)想的用途不計其數(shù)。數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。大數(shù)據(jù)的問題大數(shù)據(jù)是多源異質(zhì)的、覆蓋不同范圍的數(shù)據(jù)。為了融合各種數(shù)據(jù),需要對數(shù)據(jù)來源、數(shù)據(jù)的獲取方式和數(shù)據(jù)描述進行形式化,以支撐數(shù)據(jù)分析。大數(shù)據(jù)來自多種渠道,存在抽樣偏倚、隨機的和非隨機的誤差、無意的和有意的錯誤。數(shù)據(jù)收集的準則與數(shù)據(jù)分析和決策的準則不相符合,有些數(shù)據(jù)不是原始數(shù)據(jù),而是推斷的結(jié)果(如填補的缺失數(shù)據(jù)),數(shù)據(jù)的循環(huán)使用導(dǎo)致偏差和噪音被放大。數(shù)據(jù)量大不一定有用的信息多,大量的含偏差數(shù)據(jù)甚至?xí)茐男畔ⅰ?yīng)意識到分析大數(shù)據(jù)也許會得到虛假知識,而自己卻不知情。在大數(shù)據(jù)環(huán)境下,收集數(shù)據(jù)的人也許不清楚未來使用數(shù)據(jù)的人要做什么;使用數(shù)據(jù)建模的人也許不清楚數(shù)據(jù)是如何得到的;使用模型的人也許不知道模型是從什么數(shù)據(jù)得出來的。因此,難免人們會根據(jù)自己的意圖過分地解釋模型,超出了原始數(shù)據(jù)所包含的信息范圍。大數(shù)據(jù)難免存在不響應(yīng)和缺失數(shù)據(jù),有些數(shù)據(jù)是隨機缺失的、非隨機缺失的,因為敏感問題或隱私問題而缺失的。不同研究收集不同的、有重疊變量的數(shù)據(jù)集。另外,來自觀察的數(shù)據(jù)和來自試驗的數(shù)據(jù)具有不同的信息,不同信息導(dǎo)致不同的認知范圍。數(shù)據(jù)本身含有的信息是有邊界的,決定了數(shù)據(jù)分析解釋的范圍。大數(shù)據(jù)處理方法1、方法論上要有所突破。越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。大數(shù)據(jù)分析普遍存在的方法論有:(1)
可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
(2)數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學(xué)家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水墨魚課件教學(xué)課件
- DB12-T 236-2021 棉花簡化栽培技術(shù)規(guī)范
- 模板小學(xué)課件教學(xué)課件
- 影響學(xué)生學(xué)習(xí)興趣的因素有哪些
- 耐火材料 高溫耐壓強度試驗方法 編制說明
- 天桃教育集團九年級上學(xué)期語文期中考試試卷
- 梅里斯達斡爾族區(qū)八年級上學(xué)期語文期末教學(xué)質(zhì)量測查試卷
- 桂平市九年級上學(xué)期語文期中考試卷
- 八年級上學(xué)期語文11月期中考試試卷
- 風(fēng)電專業(yè)考試題庫帶答案
- 2023年國債資金管理辦法
- 傳染病首診醫(yī)生負責(zé)制度傳染病首診負責(zé)制
- 兒科住院超過30天持續(xù)改進PDCA案例
- 現(xiàn)澆鋼筋混凝土水池施工方法
- 胸腰椎壓縮骨折中醫(yī)治療難點及解決思路和措施
- 氣管切開術(shù)及環(huán)甲膜穿刺術(shù)演示文稿
- 中華詩詞學(xué)會會員登記表上網(wǎng)
- 煙葉分級知識考試題庫(含答案)
- 中建三局施工現(xiàn)場安全防護標準化圖冊
- 變應(yīng)性支氣管肺曲霉病ABPA中國專家共識
- 結(jié)節(jié)病課件完整版
評論
0/150
提交評論