




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
本課內(nèi)容包含統(tǒng)計回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應(yīng)分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析。。。。統(tǒng)計基本概念回顧隨機(jī)性和規(guī)律性現(xiàn)實中的隨機(jī)性和規(guī)律性從中學(xué)起,我們就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習(xí)慣良好的人活得長。因此,可以說,活得長短是有一定隨機(jī)性的(randomness)。這種隨機(jī)性可能和人的經(jīng)歷、基因、習(xí)慣等無數(shù)說不清的因素都有關(guān)系?,F(xiàn)實中的隨機(jī)性和規(guī)律性但是從總體來說,我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個平均年齡,也可能活不到這個年齡,這是隨機(jī)的。但是總體來說,平均年齡的穩(wěn)定性,卻說明了隨機(jī)之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。概率和機(jī)會你可能經(jīng)常聽到概率(probability)這個名詞。例如在天氣預(yù)報中會提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機(jī)會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個數(shù),說明某事件發(fā)生的機(jī)會有多大。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去,但又沒有完全肯定。實際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳,你得到6點的概率應(yīng)該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機(jī)會是可以知道的,但擲骰子的結(jié)果還只可能是六個數(shù)目之一。這個已知的規(guī)律就反映了規(guī)律性,而得到哪個結(jié)果則反映了隨機(jī)性。如果你擲1000次骰子,那么,大約有六分之一的可能會得到6;這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個體現(xiàn)。變量做任何事情都要有對象。比如一個班上注冊的學(xué)生有200人,這是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測今天這個班有多少人會來上課,那就沒準(zhǔn)了。這有隨機(jī)性。可能有請病假或事假的,也可能有逃課的。這樣,就要來上課的人數(shù)是個變量(variable)。另外對于某項政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過不是數(shù)量而已。變量當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量(quantitativevariable);因為是隨機(jī)的,也稱為隨機(jī)變量(randomvariable)。象性別,觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機(jī)變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當(dāng)變量用數(shù)量來描述時,才有可能建立數(shù)學(xué)模型,才可能使用計算機(jī)來分析。數(shù)據(jù)有了變量量的概念念,什么么是數(shù)據(jù)據(jù)呢?拿拿擲骰子子來說,,擲骰子子會得到到什么值值,是個個隨機(jī)變變量;而而每次取取得1至至6點中中任意點點數(shù)的概概率它在在理論上上都是六六分之一一(如果果骰子公公平)。。這依賴賴于在擲擲骰子背背后的理理論或假假定;而而在實際際擲骰子子過程中中,如果果擲100次,,會得到到100個由1至6點點組成的的數(shù)字串串;再擲擲100次,又又得到一一個數(shù)字字串,和和前一次次的結(jié)果果多半不不一樣。。這些試試驗結(jié)果果就是數(shù)數(shù)據(jù)。所所以說,數(shù)據(jù)是關(guān)關(guān)于變量量的觀測測值.通過數(shù)據(jù)據(jù)可以驗驗證有關(guān)關(guān)的理論論或假定定(比如每每一次得得到每個個點的概概率是不不是1/6等等等)。對對于顧客客是否喜喜歡某種種飲品的的調(diào)查也也類似,,但這里里不象擲擲骰子那那樣事先先可以大大致猜測測顧客喜喜歡與否否的概率率。在問問了1000人人之后,,可能有有364人說喜喜歡,而而480人說不不喜歡,,其余的的人可能能不回答答,或說說不知道道,或從從來沒有有喝過這這種飲料料。這些些數(shù)目就就是數(shù)據(jù)據(jù)。當(dāng)然然,它僅僅僅反映映了1000個個被問到到的人的的觀點;;但這對對于估計計整個消消費群體體的觀點點還是有有用的。。統(tǒng)計和計計算機(jī)現(xiàn)代生活活越來越越離不開開計算機(jī)機(jī)了。最最早使用用計算機(jī)機(jī)的統(tǒng)計計當(dāng)然更更離不開開計算機(jī)機(jī)了。事實上,,最初的計計算機(jī)僅僅是為為科學(xué)計計算而建建造的。。大型計計算機(jī)的的最早一一批用戶戶就包含含統(tǒng)計。。而現(xiàn)在在統(tǒng)計仍仍然是進(jìn)進(jìn)行數(shù)字字計算最最多的用用戶。計算機(jī)現(xiàn)現(xiàn)在早已已脫離了了僅有計計算功能能的單一一模式,,而成為為百姓生活活的一部部分。計算機(jī)的的使用,,也從過過去必須須學(xué)會計計算機(jī)語語言到只只需要““傻瓜式式”地點點擊鼠標(biāo)標(biāo)。結(jié)果果也從單單純的數(shù)數(shù)字輸出出到包括括漂亮的的表格和和圖形的的各種形形式。統(tǒng)計軟件件統(tǒng)計軟件件的發(fā)展展,也使使得統(tǒng)計計從統(tǒng)計計學(xué)家的的圈內(nèi)游游戲變成成了大眾眾的游戲戲。只要要你輸入入你的數(shù)數(shù)據(jù),點點幾下鼠鼠標(biāo),做做一些選選項,馬馬上就得得到令人人驚嘆的的漂亮結(jié)結(jié)果了。。你可能會會問,是是否傻瓜瓜式的統(tǒng)統(tǒng)計軟件件使用可可以代替替統(tǒng)計課課程了??當(dāng)然不是是。數(shù)據(jù)據(jù)的整理理和識別別,方法法的選用用,計算算機(jī)輸出出結(jié)果的的理解都都不象使使用傻瓜瓜相機(jī)那那樣簡單單可靠。。統(tǒng)計軟件件有些諸如如法律和和醫(yī)學(xué)方方面的軟軟件都有有不少警警告,不不時提醒醒你去咨咨詢專家家。但統(tǒng)計軟軟件則不不那么負(fù)負(fù)責(zé)。只只要數(shù)據(jù)據(jù)格式無無誤、方方法不矛矛盾而且且不用零零作為除除數(shù)就一一定給你你結(jié)果,,而且沒有任何何警告。另外,統(tǒng)統(tǒng)計軟件件輸出的結(jié)結(jié)果太多多;即使是是同樣的的方法,,不同軟軟件輸出出的內(nèi)容容還不一一樣;有有時同樣樣的內(nèi)容容名稱也也不一樣樣。這就就使得使使用者大大傷腦筋筋。即使使是統(tǒng)計計學(xué)家也也不一定定能解釋釋所有的的輸出。。因此,,就應(yīng)該該特別留留神,明明白自己己是在干干什么。。不要在在得到到一堆堆毫無無意義義的垃垃圾之之后還還沾沾沾自喜喜。統(tǒng)計軟軟件統(tǒng)計軟軟件的的種類類很多多。有有些功功能齊齊全,,有些些價格格便宜宜;有有些容容易操操作,,有些些需要要更多多的實實踐才才能掌掌握。。還有有些是是專門門的軟軟件,,只處處理某某一類類統(tǒng)計計問題題。面面對太太多的的選擇擇往往往給決決策帶帶來困困難。。這里里介紹紹最常常見的的幾種種。統(tǒng)計軟軟件SPSS::這是一一個很很受歡歡迎的的統(tǒng)計計軟件件;它它容易易操作作,輸輸出漂漂亮,,功能能齊全全,價價格合合理。。對于于非統(tǒng)統(tǒng)計工工作者者是很很好的的選擇擇。Excel:它嚴(yán)格格說來來并不不是統(tǒng)統(tǒng)計軟軟件,,但作作為數(shù)數(shù)據(jù)表表格軟軟件,,必然然有一一定統(tǒng)統(tǒng)計計計算功功能。。而且且凡是是有MicrosoftOffice的的計算算機(jī),,基本本上都都裝有有Excel。。但要要注意意,有有時在在裝Office時時沒有有裝數(shù)數(shù)據(jù)分分析的的功能能,那那就必必須裝裝了才才行。。當(dāng)然然,畫畫圖功功能是是都具具備的的。對對于簡簡單分分析,,Excel還還算方方便,,但隨隨著問問題的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函數(shù),,甚至至根本本沒有有相應(yīng)應(yīng)的方方法了了。多多數(shù)專專門一一些的的統(tǒng)計計推斷斷問題題還需需要其其他專專門的的統(tǒng)計計軟件件來處處理。。SAS:這是功功能非非常齊齊全的的軟件件;盡盡管價價格不不菲,,許多多公司司還是是因為為其功功能眾眾多和和某些些美國國政府府機(jī)構(gòu)構(gòu)認(rèn)可可而使使用。。盡管管現(xiàn)在在已經(jīng)經(jīng)盡量量“傻傻瓜化化”,,仍然然需要要一定定的訓(xùn)訓(xùn)練才才可以以進(jìn)入入。對對于基基本統(tǒng)統(tǒng)計課課程則則不那那么方方便。。統(tǒng)計軟軟件S-plus:這是是統(tǒng)計計學(xué)家家喜愛愛的軟軟件。。不僅僅由于于其功功能齊齊全,,而且且由于于其強強大的的編程程功能能,使使得研研究人人員可可以編編制自自己的的程序序來實實現(xiàn)自自己的的理論論和方方法。。它也也在進(jìn)進(jìn)行““傻瓜瓜化””以爭爭取顧顧客。。但仍仍然以以編程程方便便為顧顧客所所青睞睞。R軟件件:這是一一個免費的的,由志志愿者者管理理的軟軟件。。其編編程語語言與與S-plus所基基于的的S語語言一一樣,,很方方便。。還有有不斷斷加入入的各各個方方向統(tǒng)統(tǒng)計學(xué)學(xué)家編編寫的的統(tǒng)計計軟件件包。。同時時從網(wǎng)網(wǎng)上可可以不不斷更更新和和增加加有關(guān)關(guān)的軟軟件包包和程程序。。這是是發(fā)展最最快的軟件件,受受到世世界上上統(tǒng)計計師生生的歡歡迎。。是用戶戶量增增加最最快的的統(tǒng)計計軟件件。對于于一般般非統(tǒng)統(tǒng)計工工作者者來說說,主主要問問題是是它沒沒有““傻瓜瓜化””。統(tǒng)計軟軟件Minitab:這個軟軟件是是很方方便的的功能能強大大而又又齊全全的軟軟件,,也已已經(jīng)““傻瓜瓜化””,在在我國國用的的不如如SPSS與SAS那么么普遍遍。Statistica::也是功功能強強大而而齊全全的““傻瓜瓜化””的軟軟件,,在我我國用用的也也不如如SAS與與SPSS那么么普遍遍。Eviews::這是一一個主主要處處理回回歸和和時間間序列列的軟軟件。。GAUSS:這是一一個很很好用用的統(tǒng)統(tǒng)計軟軟件,,許多多搞經(jīng)經(jīng)濟(jì)的的喜歡歡它。。主要要也是是編程程功能能強大大。目目前在在我國國使用用的人人不多多。FORTRAN:這是應(yīng)應(yīng)用于于各個個領(lǐng)域域的歷歷史很很長的的非常常優(yōu)秀秀的編編程軟軟件,,功能能強大大,也也有一一定的的統(tǒng)計計軟件件包。。計算算速度度比這這里介介紹的的都快快得多多。但但需要要編程程和編編譯。。操作作不那那么容容易。。MATLAB::這也是是應(yīng)用用于各各個領(lǐng)領(lǐng)域的的以編編程為為主的的軟件件,在在工程程上應(yīng)應(yīng)用廣廣泛。。編程程類似似于S和R。但但是統(tǒng)統(tǒng)計方方法不不多。。統(tǒng)計軟件當(dāng)然,還有有其他的軟軟件,沒有有必要一一一羅列。其其實,聰明明的讀者只只要學(xué)會使使用一種““傻瓜式””軟件,使使用其他的的僅僅是舉舉一反三之之勞;最多多看看幫助助和說明即即可。如果果只有英文文幫助,那那還可以順順便提高你你的英文閱閱讀能力。。想想看舉出你所知知道的統(tǒng)計計應(yīng)用例子子。舉出日常生生活中隨機(jī)機(jī)性和規(guī)律律性的例子子。你使用過統(tǒng)統(tǒng)計軟件或或者利用過過其他軟件件中的統(tǒng)計計功能嗎??你有什么么經(jīng)驗和體體會?數(shù)據(jù)的收集集二手?jǐn)?shù)據(jù)每天翻開報報紙或打開開電視,就就可以看到到各種數(shù)據(jù)據(jù)。比如高高速公路通通車?yán)锍?、、物價指數(shù)數(shù)、股票行行情、外匯匯牌價、犯犯罪率、房房價、流行行病的有關(guān)關(guān)數(shù)據(jù)(確確診病例、、疑似病例例、死亡人人數(shù)和出院院人數(shù)等等等);當(dāng)然然還有國家家統(tǒng)計局定定期發(fā)布的的各種國家家經(jīng)濟(jì)數(shù)據(jù)據(jù)、海關(guān)發(fā)發(fā)布的進(jìn)出出口貿(mào)易數(shù)數(shù)據(jù)等等。。從中可以以選取對自自己有用的的信息。這些間接得得到的數(shù)據(jù)據(jù)都是二手?jǐn)?shù)據(jù)。第一手?jǐn)?shù)據(jù)據(jù)獲得第一手手?jǐn)?shù)據(jù)并不不象得到二二手?jǐn)?shù)據(jù)那那么輕松。。某些在華的的外資企業(yè)業(yè)每年至少少要花三四四千萬元來來收集和分分析數(shù)據(jù)。。他們調(diào)查其其產(chǎn)品目前前在市場中中的狀況和和地位并確確定其競爭爭對手的態(tài)態(tài)勢;他們調(diào)查不不同地區(qū),,不同階層層的民眾對對其產(chǎn)品的的認(rèn)知程度度和購買意意愿以改進(jìn)進(jìn)產(chǎn)品或推推出新品種種爭取新顧顧客;他們還收集集各地方的的經(jīng)濟(jì)交通通等信息以以決定如何何保住現(xiàn)有有市場和開開發(fā)新市場場。市場信信息數(shù)據(jù)對對企業(yè)是至至關(guān)重要的的。他們很舍得得在這方面面花錢。因因為這是企企業(yè)生存所所必需的,,絕不是可可有可無的的。觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的的數(shù)據(jù)是在在自然的未被被控制的條條件下觀測測到的,稱稱為觀測數(shù)數(shù)據(jù)(observationaldata)。而對于有些些問題,比如在不同同的醫(yī)療手手段下某疾疾病的治療療結(jié)果有什什么不同、、不同的肥肥料和土壤壤條件下某某農(nóng)作物的的產(chǎn)量有沒沒有區(qū)別、、用什么成成分可以提提高某物質(zhì)質(zhì)變成超導(dǎo)導(dǎo)體的溫度度等等。這種在人工工干預(yù)和操操作情況下下收集的數(shù)數(shù)據(jù)就稱為為試驗數(shù)據(jù)據(jù)(experimentaldata)。??傮w和樣本本要想了解北北京市民對對建設(shè)北京京交通設(shè)施施是以包括括軌道運輸輸在內(nèi)的公公共交通工工具為主還還是以小汽汽車為主的的觀點,需需要進(jìn)行調(diào)調(diào)查;調(diào)查對象是是所有北京市市民,調(diào)查目的是希望知道道市民中對對這個問題題的不同看看法各自占占有的比例。顯然,不可能去問問所有的北北京市民,,而只能夠夠問一部分分;并且根據(jù)據(jù)這一部分分的觀點來來理解整個個北京市民民的總體觀觀點。總體和樣本本這種情況下下,稱所有有(每個))北京市民民對這個問問題的觀點點為一個總體(population),,而調(diào)查時時問到的那那部分市民民的觀點為為該總體的一個樣本(sample)。。當(dāng)然,也有有可能調(diào)查查所有的人人(比如人人口普查)),那叫做做普查(census)。??傮w是包含含所有要研研究的個體體(element)的集合合。而樣本本是總體中中選中的一一部分。隨機(jī)樣本在抽取樣本本時,如果果總體中的的每一個體體都有同等等機(jī)會被選選到樣本中中,這種抽抽樣稱為簡簡單隨機(jī)抽樣(simplerandomsampling),,而這樣得到到的樣本則則稱為隨機(jī)樣本(randomsample)。隨機(jī)樣本就北京交通通問題的調(diào)調(diào)查為例,,在隨機(jī)抽抽樣的情況況下,如果果樣本量((samplesize,,也就是樣樣本中個體體的數(shù)目))在總體中中的比例為為1/5000,那么,無論論在東城區(qū)區(qū)或者在延延慶縣,無無論在白領(lǐng)領(lǐng)階層還是是藍(lán)領(lǐng)階層層被問到的的人的比例例都應(yīng)該大大體是1/5000。也就是說,,這種比例在在總體的任任何部分是是大體不變變的。方便樣本在實踐中,,得到隨機(jī)機(jī)樣本不容容易。很多多搞調(diào)查的的人就采取取簡單的辦法。還以北京的的交通問題題的調(diào)查為為例。假定定按照隨機(jī)機(jī)選出的電電話號碼進(jìn)進(jìn)行調(diào)查。。這樣肯定定節(jié)省時間間和資源,,但這樣得得到的就不不是一個隨隨機(jī)樣本了了。如果按照隨隨機(jī)選擇的的數(shù)字(無無論號碼本本上有沒有有)打電話話,那很多多電話是空空號或單位位電話;顯顯然這種樣樣本也不是是隨機(jī)樣本本,它稱為為方便樣本本(conveniencesample))。在調(diào)查中,,即使選擇擇對象的確確是隨機(jī)的的,最理想想的情況所所得到的樣樣本也只代代表那些愿愿意回答問問題人的觀觀點所組成成的總體;;沒有回答問問題的人的的觀點永遠(yuǎn)遠(yuǎn)不會被這這種調(diào)查的的樣本所代代表。方便樣本這種不回答答的問題是是抽樣調(diào)查查特有的問問題。在其他問題題中,也有有使用方便便樣本的情情況。比如如在肺癌研研究中,人人們往往看看到吸煙和和肺癌的關(guān)關(guān)系的數(shù)據(jù)據(jù);這些數(shù)數(shù)據(jù)并不是是整個人群群中采集的的隨機(jī)樣本本;它們可可能只是醫(yī)醫(yī)院中的病病人記錄中中得到的。。在雜志和報報紙上也有有問卷,但但得到的只只是擁有這這份報刊,,而且愿意意回答的人人的觀點。。誤差假定在某一一職業(yè)人群群中女性占占的比例為為60%。。如果在這這個人群中中抽取一些些隨機(jī)樣本本,這些隨隨機(jī)樣本中中女性的比比例并不一一定是剛好好60%,,可能稍微微多些或稍稍微少些。。這是很正正常的,因因為樣本的的特征不一一定和總體體完全一樣樣。這種差差異不是錯錯誤,而是是必然會出出現(xiàn)的抽樣誤差(samplingerror)。。剛才提到在在抽樣調(diào)查查中,一些些人因為種種種原因沒沒有對調(diào)查查作出反映映(或回答答),這種種誤差稱為為未響應(yīng)誤差差(nonresponseerror)。而另有一些些人因為各各種原因回回答時并沒沒有真實反反映他們的的觀點,這這稱為響應(yīng)誤差(responseerror)。。和抽樣誤差差不一樣,,未響應(yīng)誤誤差和響應(yīng)應(yīng)誤差都會會影響對真真實世界的的了解;應(yīng)應(yīng)該在設(shè)計計調(diào)查方案案時盡量避避免。抽樣調(diào)查的的一些常用用方法在抽樣調(diào)查查時,最理理想的樣本本是前面提提到的隨機(jī)機(jī)樣本。但是由于實踐起起來不方便便,在大規(guī)模模調(diào)查時一一般不用這這種全部隨隨機(jī)抽樣的的方式,而而只是在局局部采用隨隨機(jī)抽樣的的方法。下面介紹幾幾種抽樣方方法。這里里沒有深奧奧的理論;;讀者完全全可以根據(jù)據(jù)常識判斷斷在什么情情況下簡單單的隨機(jī)樣樣本不方便便以及下面面的每個方方法有什么么好處和缺缺陷。對于于它們具體體的設(shè)計、、實施與數(shù)數(shù)據(jù)分析,,有許多專專門的書籍籍,就不在在這里贅述述了。一些抽樣方方法1.分層抽樣(stratifiedsampling))。這是先先把要研究究的總體按按照某些性性質(zhì)分類((stratum)),再在各各類中分別別抽取樣本本。在每類類中調(diào)查的的人數(shù)通常常是按照這這該類人的的比例,但但出于各種種考慮,也也可能不按按照比例,,也可能需需要加權(quán)((加權(quán)就是是在求若干干項的和時時,對各項項乘以不同同的系數(shù),,這些系數(shù)數(shù)的和通常常為1)。。比如可以按按照教育程程度把要訪訪問的人群群分成幾類類;再在每每一類中調(diào)調(diào)查和該類類成比例數(shù)數(shù)目的人。。這樣就確保保了每一類類都有成比比例的代表表。一些抽樣方方法2.整群抽樣(clustersampling)。這是是先把總體體劃分成若若干群(cluster),,再(通常常是隨機(jī)地地)從這些些群中抽取取幾群;然然后再在這這些抽取的的群中對個個體進(jìn)行抽抽樣。比如,在某某縣進(jìn)行調(diào)調(diào)查,首先先在所有村村中選取若若干村子,,然后只對對這些村子子的人進(jìn)行行調(diào)查。顯然,如果果各村情況況差異不大大,這種抽抽樣還是方方便的。否否則就會增增大誤差了了。一些抽樣方方法3.多級抽樣(multistagesampling))。在群體體很大時,,往往在抽抽取若干群群之后,再再在其中抽抽取若干子子群,甚至至再在子群群中抽取子子群,等等等。最后只只對最后選選定的最下下面一級進(jìn)進(jìn)行調(diào)查。。比如在全國調(diào)調(diào)查時,先抽抽取省,再抽抽取市地,再再抽取縣區(qū),,再抽取鄉(xiāng)、、村直到戶。。在多級抽樣中中的每一級都都可能采取各各種抽樣方法法。因此,整整個抽樣計劃劃可能比較復(fù)復(fù)雜,也稱為為多級混和型型抽樣。一些抽樣方法法4.系統(tǒng)抽樣(systematicsampling))。這是先把把總體中的每每個單元編號號,然后隨機(jī)機(jī)選取其中之之一作為抽樣樣的開始點進(jìn)進(jìn)行抽樣。如如果編號是隨隨機(jī)選取的,,則這和簡單單隨機(jī)抽樣是是等價的。在在選取開始點點之后,通常常從開始點開開始按照編號號進(jìn)行所謂等等距抽樣;也也就是說,如如果開始點為為5號,“距距離”為10,則下面的的調(diào)查對象為為15號、25號等等。。抽樣方法的選選擇不能一概概而論實際上每個抽抽樣通常都可可能是各種抽抽樣方法的組組合。既要考考慮精確度,,還要根據(jù)客客觀情況考慮慮方便性、可可行性和經(jīng)濟(jì)濟(jì)性。不能一一概而論。計算機(jī)中常用用的數(shù)據(jù)形式式數(shù)據(jù)是由一些些變量和它們們的觀測值所所組成。下面面就是調(diào)查人人們對某個問問題觀點的一一個數(shù)據(jù)的方方陣形式。其其中有6個變變量:觀點((觀測值為支支持、反對和和不知道三種種)、教育程程度(有高中中低三種取值值,用H、M、L表示))、月收入((取值為實際際數(shù)字)、性性別(取值有有男女兩個,,用M和F表表示)以及地地區(qū)號(用數(shù)數(shù)字1,2,,3,4表示示)等。該表表一共有1364個觀測測值(問卷回回答)??梢砸钥闯鲞@些變變量有定性((屬性)變量量,也有定量量(數(shù)值)變變量。按照這這個數(shù)據(jù)的格格式,每一列列為一個變量量的不同觀測測值;而每一一行則稱為一一個觀測值,,它是個由數(shù)數(shù)量值和屬性性值組成的向向量,每一個個值相應(yīng)于一一個變量。思考1.
舉出出一些觀測數(shù)數(shù)據(jù)和試驗數(shù)數(shù)據(jù)的例子。。2.
舉出出簡單隨機(jī)樣樣本的例子。。3.
根據(jù)據(jù)你的經(jīng)驗,,舉出總體和和樣本的一些些具體例子。。4.
舉出出調(diào)查抽樣時時可能發(fā)生的的各種影響調(diào)調(diào)查結(jié)果的問問題,并且提提出你認(rèn)為可可以減少或避避免這些問題題的建議。5.
根據(jù)據(jù)你的直覺,,本章提到的的幾種抽樣方方法的優(yōu)缺點點是什么?原原因何在?6.
舉出出一些書報上上發(fā)表的數(shù)據(jù)據(jù)例子,并指指出那些是變變量,哪些是是觀測值。數(shù)據(jù)的描述如同給人畫像像一樣直方圖比如某個地區(qū)區(qū)(地區(qū)1))學(xué)校高三男男生的身高;;有163個個度量如何用用圖形來表示示這個數(shù)據(jù),,使人們能夠夠看出這個數(shù)數(shù)據(jù)的大體分分布或“形狀狀”呢?一個個辦法就是畫畫一個直方圖圖(histogram)。盒型圖比直方圖簡單單一些的是盒盒形圖(boxplot,又稱箱圖圖、箱線圖、、盒子圖)。。后面圖的左左邊一個是根根據(jù)地區(qū)1高高三男生的身身高數(shù)據(jù)所繪繪的盒形圖;;其右邊的圖圖代表另一個個地區(qū)(地區(qū)區(qū)2)的高三三學(xué)生的身高高莖葉圖地區(qū)1高三男男生身高數(shù)據(jù)據(jù)的莖葉圖HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)散點圖往往人們得到到的數(shù)據(jù)有兩兩個變量的,,比如美國男男士和女士初初婚年限的數(shù)數(shù)據(jù)。該數(shù)據(jù)據(jù)描述了自1900年到1998年男女第一次次結(jié)婚延續(xù)的的時間的中位位數(shù)。當(dāng)然,,不可能將所所有人的婚姻姻年限都給出出來。所以,,每年就取了了一個中間的的值(中位數(shù))作為代表。自自1900到1960年是每十年一一個值,以后后到1990是每五年取一一個數(shù),1995年以后是每年年一個數(shù)。這這里的一個變變量為記錄年年份,另一個個是結(jié)婚時間間長短。由于于分男士和女女士,因此有有兩二維數(shù)據(jù)據(jù)。這時可以以以一個變量量為橫坐標(biāo)((如年份),,另一個為縱縱坐標(biāo)(這里里是結(jié)婚年限限)來點圖。。這種圖稱為為散點圖(scatterplot)。還可以看看出在二十世世紀(jì)六十年代代婚姻年限降降低,而后來來又升高。而而男子的年限限平均比女性性長。這個圖圖是用SPSS畫的。定性變量的點點圖定性變量(或或?qū)傩宰兞浚?,分類變量))不能點出直直方圖、散點點圖或莖葉圖圖,但可以描描繪出它們各各類的比例。。下面用SPSS繪的圖表示了了說世界各種種主要語言的的人數(shù)的比例例餅圖條形圖匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)匯總統(tǒng)計量((位置)均值(mean)中位數(shù)(median)(第一,第三三)四分位數(shù)數(shù)(點)(firstquantile,thirdquantile)k-百分位數(shù)數(shù)(k-percentile)眾數(shù)(mode)匯總統(tǒng)計量((尺度)(scalestatistic)極差(range)四分位間距(四分位極差差)(interquantilerange)標(biāo)準(zhǔn)差(standarddeviation)方差(variance)兩個尺度不同同的數(shù)據(jù)的直直方圖,左邊邊的標(biāo)準(zhǔn)差大大約只有右邊邊的一半數(shù)據(jù)的標(biāo)準(zhǔn)得得分(standardscore)兩個水平類似似的班級(一一班和二班))上同一門課課,但是由于于兩個任課老老師的評分標(biāo)標(biāo)準(zhǔn)不同,使使得兩個班成成績的均值和和標(biāo)準(zhǔn)差都不不一樣(數(shù)據(jù)據(jù):grade.sav)。一班分分?jǐn)?shù)的均值和和標(biāo)準(zhǔn)差分別別為78.53和9.43,而二班班的均值和標(biāo)標(biāo)準(zhǔn)差分別為為70.19和7.00。那么得到到90分的一一班的張穎是是不是比得到到82分的二二班的劉疏成成績更好呢??怎么比較才才能合理呢??雖然這種均均值和標(biāo)準(zhǔn)差差不同的數(shù)據(jù)據(jù)不能夠直接接比較,但是是可以把它們們進(jìn)行標(biāo)準(zhǔn)化化,然后再比比較標(biāo)準(zhǔn)化后后的數(shù)據(jù)。一一個標(biāo)準(zhǔn)化的的方法是把原原始觀測值((亦稱得分,,score)和均值之之差除以標(biāo)準(zhǔn)準(zhǔn)差;得到的的度量稱為標(biāo)標(biāo)準(zhǔn)得分(standardscore)。。思考1.
根據(jù)據(jù)你的經(jīng)驗,,給出定性和和定量變量的的例子。2.
對于于問題1中你你的例子,試試圖畫出各種種描述性圖形形并計算匯總總統(tǒng)計量。3.
舉例例說明眾數(shù)、、中位數(shù)和均均值的優(yōu)缺點點。4.
舉例例說明尺度統(tǒng)統(tǒng)計量說明了了數(shù)據(jù)的什么么特性。5.
標(biāo)準(zhǔn)得得分實際上是是對原始數(shù)據(jù)據(jù)的一種標(biāo)準(zhǔn)準(zhǔn)化。試舉出出標(biāo)準(zhǔn)得分的的用處。統(tǒng)計推斷從數(shù)據(jù)得到對對現(xiàn)實世界的的結(jié)論的過程程估計總體它代表我我們所關(guān)心的的那部分現(xiàn)實實世界。而在在利用樣本中中的信息來對對總體進(jìn)行推推斷之前人們們一般對代表表總體的變量量假定了分布布族。比如假假定人們的身身高屬于正態(tài)態(tài)分布族;對對抽樣調(diào)查假假定了二項分分布族等等。。這些模型基基本上是根據(jù)據(jù)經(jīng)驗來假定定的,所以僅僅僅是對現(xiàn)實實世界的一個個近似。在假假定了總體分分布族之后,,進(jìn)一步對總總體的認(rèn)識就就是要在這個個分布族中選選擇一個適合合于我們問題題的分布;由由于分布族成成員是由參數(shù)數(shù)確定的,如如果參數(shù)能夠夠估計,對總總體的具體分分布就知道得得差不多了。。估計一種是是點估估計(pointestimation),,也就就是用用估計計量的的實現(xiàn)現(xiàn)值來來近似似相應(yīng)應(yīng)的總總體參參數(shù)。。另一種種是區(qū)區(qū)間估估計(intervalestimation);它它是包包括估估計量量在內(nèi)內(nèi)(有有時是是以估估計量量為中中心))的一一個區(qū)區(qū)間;;該區(qū)區(qū)間被被認(rèn)為為很可可能包包含總總體參參數(shù)。。點估計計給出出一個個數(shù)字字,用用起來來很方方便;;而區(qū)區(qū)間估估計給給出一一個區(qū)區(qū)間,,說起起來留留有余余地;;不象象點估估計那那么絕絕對。。無偏估估計(大樣樣本性性質(zhì))區(qū)間估估計的的置信信度(大樣樣本性性質(zhì))估計注意置置信區(qū)區(qū)間的的論述述是由由區(qū)間間和置置信度度兩部部分組組成。。有些些新聞聞媒體體報道道一些些調(diào)查查結(jié)果果只給給出百百分比比和誤誤差((即置置信區(qū)區(qū)間)),并并不說說明置置信度度,也也不給給出被被調(diào)查查的人人數(shù),,這是是不負(fù)負(fù)責(zé)的的表現(xiàn)現(xiàn)。因因為降降低置置信度度可以以使置置信區(qū)區(qū)間變變窄((顯得得“精精確””),,有誤誤導(dǎo)讀讀者之之嫌。。如果果給出出被調(diào)調(diào)查的的人數(shù)數(shù),則則內(nèi)行行可以以由推推算出出置信信度((由后后面給給出的的公式式),,反之之亦然然。一個描描述性性例子子一個有有10000個個人回回答的的調(diào)查查顯示示,同同意某某種觀觀點的的人的的比例例為70%(有有7000人同同意)),可可以算算出總總體中中同意意該觀觀點的的比例例的95%置信信區(qū)間間為((0.691,,0.709));另另一個個調(diào)查查聲稱稱有70%的比比例反反對該該種觀觀點,,還說說總體體中反反對該該觀點點的置置信區(qū)區(qū)間也也是((0.691,,0.709))。到到底相相信誰誰呢??實際際上,,第二二個調(diào)調(diào)查隱隱瞞了了置信信度((等價價于隱隱瞞了了樣本本量))。如如果第第二個個調(diào)查查僅僅僅調(diào)查查了50個個人,,有35個個人反反對該該觀點點。根根據(jù)后后面的的公式式可以以算出出,第第二個個調(diào)查查的置置信區(qū)區(qū)間的的置信信度僅僅有11%。假設(shè)檢檢驗在假設(shè)設(shè)檢驗驗中,,一般般要設(shè)設(shè)立一一個原原假設(shè)設(shè);而而設(shè)立立該假假設(shè)的的動機(jī)機(jī)主要要是企企圖利利用人人們掌掌握的的反映映現(xiàn)實實世界界的數(shù)數(shù)據(jù)來來找出出假設(shè)設(shè)和現(xiàn)現(xiàn)實的的矛盾盾,從從而否否定這這個假假設(shè)。。在多多數(shù)統(tǒng)統(tǒng)計教教科書書中((除了了理論論探討討之外外)的的假設(shè)設(shè)檢驗驗都是是以否否定原原假設(shè)設(shè)為目目標(biāo)。。如果否否定不不了,,那就就說明明證據(jù)據(jù)不足足,無無法否否定原原假設(shè)設(shè)。但但這不不能說說明原原假設(shè)設(shè)正確確。很很多教教科書書在這這個問問題上上不適適當(dāng)?shù)氐赜谩啊敖邮苁茉偌僭O(shè)””的說說法,,犯了了明顯顯的低低級邏邏輯錯錯誤。。假設(shè)檢檢驗的的過程程和邏邏輯首先要要提出出一個個原假假設(shè),,比如如某正正態(tài)總總體的的均值值等于于5((m=5))。這這種原原假設(shè)設(shè)也稱稱為零零假設(shè)設(shè)(nullhypothesis),,記為為H0。與此同同時必必須提提出對對立假假設(shè),,比如如總體體均值值大于于5((m>5))。對對立假假設(shè)又又稱為為備選選假設(shè)設(shè)或備備擇假假設(shè)((alternativehypothesis)記記為記記為H1或Ha。假設(shè)檢檢驗的的過程程和邏邏輯根據(jù)零零假設(shè)設(shè)(不是是備選選假設(shè)設(shè)!)),我我們可可以得得到該該檢驗驗統(tǒng)計計量的的分布布;然后再再看這這個統(tǒng)統(tǒng)計量量的數(shù)數(shù)據(jù)實實現(xiàn)值值(realization)屬屬不屬屬于小小概率率事件件。也也就是是說把把數(shù)據(jù)據(jù)代入入檢驗驗統(tǒng)計計量,,看其其值是是否落落入零零假設(shè)設(shè)下的的小概概率范范疇;;如果的的確是是小概概率事事件,,那么么我們們就有有可能能拒絕絕零假假設(shè),,否則則我們們說沒沒有足足夠證證據(jù)拒拒絕零零假設(shè)設(shè)。假設(shè)檢檢驗的的過程程和邏邏輯注意::零假設(shè)設(shè)和備備選假假設(shè)在在假設(shè)設(shè)檢驗驗中并并不對對稱。因檢檢驗統(tǒng)統(tǒng)計量量的分分布是是從零零假設(shè)設(shè)導(dǎo)出出的,,因此此,如如果發(fā)發(fā)生矛矛盾,,當(dāng)然然就對對零假假設(shè)不不利了了。不發(fā)生生矛盾盾也不不說明明備選選假設(shè)設(shè)有問問題((因為為和備備選假假設(shè)無無關(guān)))。假設(shè)檢檢驗的的過程程和邏邏輯檢驗統(tǒng)統(tǒng)計量量在零零假設(shè)設(shè)下等等于這這個樣樣本的的數(shù)據(jù)據(jù)實現(xiàn)現(xiàn)值或或更加加極端端值的的概率率稱為為p-值((p-value))。顯然得得到很很小p-值意意味著著小概概率事事件發(fā)發(fā)生了了。如如果小小概率率事件件發(fā)生生,是是相信信零假假設(shè),,還是是相信信數(shù)據(jù)據(jù)呢??當(dāng)然是是相信信數(shù)據(jù)據(jù)。于于是就就拒絕絕零假假設(shè)。。但小小概率率并不不能說說明不不會發(fā)發(fā)生,,僅僅僅發(fā)生生的概概率很很小罷罷了。。拒絕正正確零零假設(shè)設(shè)的錯錯誤常常被稱稱為第第一類類錯誤誤(typeIerror))。假設(shè)檢檢驗的的過程程和邏邏輯有第一一類錯錯誤,,就有有第二二類錯錯誤;;那是是備選選零假假設(shè)正正確時時反而而說零零假設(shè)設(shè)正確確的錯錯誤,,稱為為第二二類錯錯誤((typeIIerror))。零假設(shè)設(shè)和備備選假假設(shè)哪哪一個個正確確,這這是確確定性性的,,沒有有概率率可言言。而可能能犯錯錯誤的的是人人。涉涉及假假設(shè)檢檢驗的的犯錯錯誤的的概率率就是是犯第第一類類錯誤誤的概概率和和犯第第二類類錯誤誤的概概率。。負(fù)責(zé)的的態(tài)度度是無無論做做出什什么決決策,,都應(yīng)應(yīng)該給給出犯犯錯誤誤的概概率。。假設(shè)檢檢驗的的過程程和邏邏輯到底p-值是是多小小才能能夠拒拒絕零零假設(shè)設(shè)呢??也就就是說說,需需要有有什么么是小小概率率的標(biāo)標(biāo)準(zhǔn)。。這要要看具具體應(yīng)應(yīng)用的的需要要。但但在一一般的的統(tǒng)計計書和和軟件件中,,使用用最多多的標(biāo)標(biāo)準(zhǔn)是是在零零假設(shè)設(shè)下((或零零假設(shè)設(shè)正確確時))抽樣樣所得得的數(shù)數(shù)據(jù)拒拒絕零零假設(shè)設(shè)的概概率應(yīng)應(yīng)小于于0.05(也也可能能是0.01,,0.005,,0.001等等等))。這這種事事先規(guī)規(guī)定的的概率率稱為為顯著著性水水平(significancelevel),,用字字母a來表示示。當(dāng)當(dāng)p-值小于于或等等于a時,就就拒絕絕零假假設(shè)。。所以以,a是所允允許的的犯第第一類類錯誤誤概率率的最最大值值。當(dāng)當(dāng)p-值小于于或等等于a時,我我們說說這個個檢驗驗是顯顯著的的(significant)。。假設(shè)檢檢驗的的過程程和邏邏輯歸納起起來,,假設(shè)設(shè)檢驗驗的邏邏輯步
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)核心機(jī)密保護(hù)合同模板
- 市場營銷合作合同模板:品牌推廣專用
- 數(shù)據(jù)外包服務(wù)合同轉(zhuǎn)讓合同
- 標(biāo)準(zhǔn)勞動合同解除樣本
- 加盟連鎖店經(jīng)營合同樣本
- 合同約定催款函格式專業(yè)版
- 建筑物拆除的施工安全管理考核試卷
- 機(jī)床制造中的人力資源管理策略考核試卷
- 農(nóng)業(yè)科學(xué)中的農(nóng)村居民收入與消費考核試卷
- 安全網(wǎng)絡(luò)數(shù)據(jù)安全審計流程自動化考核試卷
- 2025年黑龍江民族職業(yè)學(xué)院單招職業(yè)技能測試題庫匯編
- 感恩父母課件:父母的愛如山如水
- 民法典題庫(附答案)
- 綏芬河市2025年上半年招考事業(yè)單位專業(yè)人員易考易錯模擬試題(共500題)試卷后附參考答案
- 小學(xué)數(shù)學(xué)新課程標(biāo)準(zhǔn)(教育部2024年制訂)
- 2025年華僑港澳臺學(xué)生聯(lián)招考試英語試卷試題(含答案詳解)
- 【語文大單元教學(xué)研究國內(nèi)外文獻(xiàn)綜述6400字】
- 05844 全國 江蘇 自考國際商務(wù)英語課后習(xí)題答案 詳解
- 重慶道路交通事故認(rèn)定書(簡易程序)樣本
- 2022年獸醫(yī)外科手術(shù)學(xué)作業(yè)題參考答案
- T∕CAMDI 009.1-2020 無菌醫(yī)療器械初包裝潔凈度 第1部分:微粒污染試驗方法 氣體吹脫法
聯(lián)系客服
本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。人人文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知人人文庫網(wǎng),我們立即給予刪除!
- 川公網(wǎng)安備: 51019002004831號 | 備案號:蜀ICP備2022000484號-2 | 經(jīng)營許可證: 川B2-20220663
-
Copyright ? 2020-2025 renrendoc.com 人人文庫版權(quán)所有 違法與不良信息舉報電話:400-852-1180
評論
0/150
提交評論