日化行業(yè)統(tǒng)計基礎知識_第1頁
日化行業(yè)統(tǒng)計基礎知識_第2頁
日化行業(yè)統(tǒng)計基礎知識_第3頁
日化行業(yè)統(tǒng)計基礎知識_第4頁
日化行業(yè)統(tǒng)計基礎知識_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本課內(nèi)容包含統(tǒng)計回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析。。。。統(tǒng)計基本概念回顧隨機性和規(guī)律性現(xiàn)實中的隨機性和規(guī)律性從中學起,我們就知道自然科學的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此,可以說,活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經(jīng)歷、基因、習慣等無數(shù)說不清的因素都有關(guān)系?,F(xiàn)實中的隨機性和規(guī)律性但是從總體來說,我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個平均年齡,也可能活不到這個年齡,這是隨機的。但是總體來說,平均年齡的穩(wěn)定性,卻說明了隨機之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。概率和機會你可能經(jīng)常聽到概率(probability)這個名詞。例如在天氣預報中會提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個數(shù),說明某事件發(fā)生的機會有多大。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去,但又沒有完全肯定。實際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳,你得到6點的概率應該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機會是可以知道的,但擲骰子的結(jié)果還只可能是六個數(shù)目之一。這個已知的規(guī)律就反映了規(guī)律性,而得到哪個結(jié)果則反映了隨機性。如果你擲1000次骰子,那么,大約有六分之一的可能會得到6;這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn)。變量做任何事情都要有對象。比如一個班上注冊的學生有200人,這是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測今天這個班有多少人會來上課,那就沒準了。這有隨機性??赡苡姓埐〖倩蚴录俚?,也可能有逃課的。這樣,就要來上課的人數(shù)是個變量(variable)。另外對于某項政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過不是數(shù)量而已。變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。象性別,觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當變量用數(shù)量來描述時,才有可能建立數(shù)學模型,才可能使用計算機來分析。數(shù)據(jù)有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來說,擲骰子會得到什么值,是個隨機變量;而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲骰子背后的理論或假定;而在實際擲骰子過程中,如果擲100次,會得到100個由1至6點組成的數(shù)字串;再擲100次,又得到一個數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗結(jié)果就是數(shù)據(jù)。所以說,數(shù)據(jù)是關(guān)于變量的觀測值.通過數(shù)據(jù)可以驗證有關(guān)的理論或假定(比如每一次得到每個點的概率是不是1/6等等)。對于顧客是否喜歡某種飲品的調(diào)查也類似,但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否的概率。在問了1000人之后,可能有364人說喜歡,而480人說不喜歡,其余的人可能不回答,或說不知道,或從來沒有喝過這種飲料。這些數(shù)目就是數(shù)據(jù)。當然,它僅僅反映了1000個被問到的人的觀點;但這對于估計整個消費群體的觀點還是有用的。統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了。最早使用計算機的統(tǒng)計當然更離不開計算機了。事實上,最初的計算機僅僅是為科學計算而建造的。大型計算機的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進行數(shù)字計算最多的用戶。計算機現(xiàn)在早已脫離了僅有計算功能的單一模式,而成為百姓生活的一部分。計算機的使用,也從過去必須學會計算機語言到只需要“傻瓜式”地點擊鼠標。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。統(tǒng)計軟件統(tǒng)計軟件的發(fā)展,也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了大眾的游戲。只要你輸入你的數(shù)據(jù),點幾下鼠標,做一些選項,馬上就得到令人驚嘆的漂亮結(jié)果了。你可能會問,是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了?當然不是。數(shù)據(jù)的整理和識別,方法的選用,計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠。統(tǒng)計軟件有些諸如法律和醫(yī)學方面的軟件都有不少警告,不時提醒你去咨詢專家。但統(tǒng)計軟件則不那么負責。只要數(shù)據(jù)格式無誤、方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果,而且沒有任何警告。另外,統(tǒng)計軟件輸出的結(jié)果太多;即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣;有時同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計學家也不一定能解釋所有的輸出。因此,就應該特別留神,明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些需要更多的實踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。對于非統(tǒng)計工作者是很好的選擇。Excel:它嚴格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒有相應的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。SAS:這是功能非常齊全的軟件;盡管價格不菲,許多公司還是因為其功能眾多和某些美國政府機構(gòu)認可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,仍然需要一定的訓練才可以進入。對于基本統(tǒng)計課程則不那么方便。統(tǒng)計軟件S-plus:這是統(tǒng)計學家喜愛的軟件。不僅由于其功能齊全,而且由于其強大的編程功能,使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。R軟件:這是一個免費的,由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣,很方便。還有不斷加入的各個方向統(tǒng)計學家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件,受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。對于一般非統(tǒng)計工作者來說,主要問題是它沒有“傻瓜化”。統(tǒng)計軟件Minitab:這個軟件是很方便的功能強大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國用的不如SPSS與SAS那么普遍。Statistica:也是功能強大而齊全的“傻瓜化”的軟件,在我國用的也不如SAS與SPSS那么普遍。Eviews:這是一個主要處理回歸和時間序列的軟件。GAUSS:這是一個很好用的統(tǒng)計軟件,許多搞經(jīng)濟的喜歡它。主要也是編程功能強大。目前在我國使用的人不多。FORTRAN:這是應用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件,功能強大,也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。MATLAB:這也是應用于各個領(lǐng)域的以編程為主的軟件,在工程上應用廣泛。編程類似于S和R。但是統(tǒng)計方法不多。統(tǒng)計軟件當然,還有其他的軟件,沒有必要一一羅列。其實,聰明的讀者只要學會使用一種“傻瓜式”軟件,使用其他的僅僅是舉一反三之勞;最多看看幫助和說明即可。如果只有英文幫助,那還可以順便提高你的英文閱讀能力。想想看舉出你所杜知道的統(tǒng)去計應用例刻子。舉出日雁常生活躺中隨機犧性和規(guī)項律性的底例子。你使用悔過統(tǒng)計推軟件或燈者利用莫過其他離軟件中錫的統(tǒng)計拌功能嗎訓?你有拐什么經(jīng)欲驗和體泰會?數(shù)據(jù)的收滴集二手數(shù)者據(jù)每天翻引開報紙調(diào)或打開精電視,嚼就可以嶄看到各兄種數(shù)據(jù)廉。比如憂高速公納路通車桃里程、山物價指私數(shù)、股被票行情肚、外匯膜牌價、給犯罪率卷、房價啟、流行隸病的有戰(zhàn)關(guān)數(shù)據(jù)輕(確診榜病例、扯疑似病緩例、死第亡人數(shù)酷和出院即人數(shù)等浪等);門當然還環(huán)有國家闖統(tǒng)計局慈定期發(fā)警布的各嗽種國家昌經(jīng)濟數(shù)辣據(jù)、海炮關(guān)發(fā)布掉的進出容口貿(mào)易命數(shù)據(jù)等修等。從瞎中可以嫌選取對宜自己有煌用的信枯息。這些間接稿得到的數(shù)臨據(jù)都是二手數(shù)農(nóng)據(jù)。第一手數(shù)輔據(jù)獲得第一摧手數(shù)據(jù)并礙不象得到梢二手數(shù)據(jù)棗那么輕松段。某些在尤華的外幣資企業(yè)訴每年至帆少要花洽三四千俱萬元來漂收集和仙分析數(shù)分據(jù)。他們調(diào)梯查其產(chǎn)錫品目前坦在市場潛中的狀譽況和地驕位并確除定其競玻爭對手螺的態(tài)勢灣;他們調(diào)查謊不同地區(qū)泡,不同階欄層的民眾草對其產(chǎn)品紅的認知程羊度和購買淘意愿以改貴進產(chǎn)品或圓推出新品納種爭取新紐奉顧客;他們還蜜收集各戀地方的睛經(jīng)濟交科通等信票息以決捏定如何秒保住現(xiàn)即有市場吼和開發(fā)步新市場勞。市場停信息數(shù)究據(jù)對企執(zhí)業(yè)是至蘭關(guān)重要張的。他們很哥舍得在王這方面叫花錢。自因為這縣是企業(yè)尼生存所焰必需的惠,絕不妄是可有般可無的錯。觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說躲的數(shù)據(jù)是有在自然的車未被控薪制的條龍件下觀醬測到的臉,稱為收觀測數(shù)仁據(jù)(o羅bse氏rva殺tio守nal篇da礦ta)都。而對于有年些問題,比如在垃不同的摘醫(yī)療手頸段下某勸疾病的筑治療結(jié)翅果有什戚么不同黑、不同乎的肥料綁和土壤扮條件下卵某農(nóng)作防物的產(chǎn)博量有沒伙有區(qū)別制、用什遞么成分伸可以提諸高某物換質(zhì)變成莖超導體學的溫度亞等等。這種在人行工干預和潔操作情況控下收集的妖數(shù)據(jù)就稱孫為試驗數(shù)蘿據(jù)(ex乞peri甲ment船ald密ata)扔??傮w和樣章本要想了邊解北京補市民對各建設北滿京交通菌設施是切以包括嶼軌道運導輸在內(nèi)百的公共餐交通工打具為主高還是以違小汽車券為主的失觀點,鞋需要進俘行調(diào)查吸;調(diào)查對象學是所有北京艷市民,調(diào)查目的是希望逃知道市憑民中對敞這個問死題的不悲同看法法各自占瞇有的比例。顯然,不可能去聞問所有的到北京市民理,而只能滔夠問一部超分;并且根懶據(jù)這一部仿分的觀點竟來理解整館個北京市田民的總體追觀點??傮w和樣座本這種情況運下,稱所坐有(每個尖)北京市瓦民對這個新問題的觀駐點為一個總體(pop商ulat孕ion)量,而調(diào)查則時問到的叛那部分市移民的觀點鄉(xiāng)豐為該總體的一個樣億本(sam蜓ple)慚。當然,嘗也有可采能調(diào)查畜所有的疤人(比世如人口語普查)閉,那叫海做普查(ce塔nsu集s)??傮w是包艷含所有要家研究的個饅體(el嘆emen賓t)的集脾合。而樣允本是總體挖中選中的津一部分。隨機樣本在抽取樣飄本時,如蟻果總體中交的每一個衰體都有同內(nèi)等機會被故選到樣本索中,這種宏抽樣稱為萬簡單隨機抽樣(si甘mpl春er罵and趨om喇sam囑pli世ng)蒸,而這樣得趴到的樣本標則稱為隨機樣本(ran忘dom斃samp季le)。隨機樣攤本就北京交爐通問題的貪調(diào)查為例厲,在隨機沾抽樣的情棕況下,如余果樣本量稈(sam但ple坦size歸,也就是譜樣本中個逝體的數(shù)目師)在總體耍中的比例志為1/5岡000,那么,妄無論在給東城區(qū)傲或者在寄延慶縣踏,無論濃在白領(lǐng)征階層還可是藍領(lǐng)猴階層被婚問到的愛人的比裳例都應河該大體披是1/計500點0。也就是說婦,這種比鵲例在總呈體的任丟何部分挖是大體渴不變的削。方便樣本在實踐中氧,得到隨兔機樣本不桑容易。很沒多搞調(diào)查聰?shù)娜司筒蓧m取簡單的辦法。還以北用京的交澤通問題鹽的調(diào)查究為例。夕假定按苦照隨機固選出的射電話號賠碼進行翠調(diào)查。凱這樣肯高定節(jié)省伏時間和按資源,污但這樣睜得到的射就不是滴一個隨撿機樣本晌了。如果按授照隨機遇選擇的那數(shù)字(蒸無論號經(jīng)碼本上獎有沒有附)打電洗話,那擺很多電翁話是空壤號或單混位電話積;顯然雪這種樣香本也不衛(wèi)是隨機魯樣本,軌它稱為邪方便樣嬸本(c少onv捷eni航enc乒es瘦amp句le)熔。在調(diào)查中漸,即使選求擇對象的豎確是隨機葵的,最理分想的情況歡所得到的曬樣本也只埋代表那些展愿意回答辣問題人的遼觀點所組裕成的總體六;沒有回答貍問題的人朱的觀點永醫(yī)遠不會被窯這種調(diào)查研的樣本所雙代表。方便樣呼本這種不回智答的問題甚是抽樣調(diào)成查特有的獅問題。在其他問削題中,也息有使用方墊便樣本的鑼情況。比沃如在肺癌犁研究中,役人們往往壓看到吸煙模和肺癌的勵關(guān)系的數(shù)把據(jù);這些哈數(shù)據(jù)并不況是整個人陜?nèi)褐胁杉⒌碾S機樣弓本;它們欲可能只是產(chǎn)醫(yī)院中的來病人記錄旁中得到的條。在雜志和翻報紙上也御有問卷,涼但得到的梁只是擁有耀這份報刊霜,而且愿仔意回答的蠶人的觀點件。誤差假定在某掃一職業(yè)人讓群中女性指占的比例快為60%北。如果在鉛這個人群崇中抽取一瞧些隨機樣病本,這些撓隨機樣本數(shù)中女性的村比例并不望一定是剛貸好60%報,可能稍脅微多些或涉稍微少些介。這是很冤正常的,狠因為樣本抖的特征不挑一定和總它體完全一厚樣。這種識差異不是蘿錯誤,而挺是必然會六出現(xiàn)的抽樣誤很差(sa互mpl泥ing齊er歌ror挑)。剛才提到描在抽樣調(diào)想查中,一袍些人因為懲種種原因軌沒有對調(diào)泊查作出反戴映(或回攜答),這風種誤差稱陳為未響應誤統(tǒng)差(non肅resp烘onse伍err慕or)。而另有渡一些人境因為各擔種原因尿回答時飽并沒有尼真實反樂映他們佳的觀點葉,這稱續(xù)為響應誤差(re童spo流nse吃er兔ror閉)。和抽樣王誤差不耍一樣,騾未響應粒誤差和顏響應誤你差都會致影響對綁真實世席界的了臉解;應牲該在設兄計調(diào)查容方案時年盡量避土免。抽樣調(diào)犁查的一鄭些常用鴨方法在抽樣調(diào)景查時,最我理想的樣妙本是前面旺提到的隨許機樣本。但是由于實組踐起來勇不方便,在大規(guī)碰模調(diào)查時昂一般不用決這種全部科隨機抽樣橡的方式,咬而只是在宗局部采用甜隨機抽樣宅的方法。下面介紹送幾種抽樣茂方法。這弄里沒有深膀奧的理論數(shù);讀者完揚全可以根藍據(jù)常識判殲斷在什么念情況下簡上單的隨機褲樣本不方咱便以及下按面的每個扣方法有什固么好處和斗缺陷。對萍于它們具夏體的設計炎、實施與蛾數(shù)據(jù)分析疼,有許多寸專門的書咽籍,就不怒在這里贅耀述了。一些抽樣愿方法1.分層抽蘇樣(str散atif間ied濫samp沖ling冰)。這是語先把要研捷究的總體鑼按照某些完性質(zhì)分類座(str贏atum怕),再在繭各類中分蒜別抽取樣肯本。在每烘類中調(diào)查英的人數(shù)通沫常是按照煮這該類人脂的比例,陸但出于各污種考慮,咬也可能不末按照比例污,也可能晚需要加權(quán)篇(加權(quán)就子是在求若服干項的和蚊時,對各津項乘以不杏同的系數(shù)殲,這些系廚數(shù)的和通君常為1)汪。比如可以運按照教育過程度把要促訪問的人慎群分成幾逼類;再在免每一類中償調(diào)查和該請類成比例帆數(shù)目的人霞。這樣就確紛保了每一津類都有成玻比例的代童表。一些抽抱樣方法2.整群抽尤樣(cl午ust匪er標sam窄pli廣ng)剝。這是申先把總患體劃分授成若干電群(c史lus積ter裂),再再(通常免是隨機可地)從濤這些群法中抽取叫幾群;冶然后再副在這些藥抽取的淡群中對墾個體進督行抽樣粒。比如,駐在某縣誕進行調(diào)新查,首茄先在所拖有村中辣選取若嘉干村子該,然后封只對這向些村子得的人進息行調(diào)查腳。顯然,如問果各村情妹況差異不刺大,這種構(gòu)抽樣還是鐵方便的。漆否則就會夫增大誤差售了。一些抽樣腔方法3.多級抽樣(mul遙tist摟age條samp尤ling袍)。在群爸體很大時秧,往往在偽抽取若干熟群之后,討再在其中昨抽取若干椅子群,甚熊至再在子株群中抽取鞏子群,等藍等。最后磁只對最后向選定的最天下面一級徹進行調(diào)查葬。比如在跑全國調(diào)跡查時,桑先抽取塘省,再斷抽取市朵地,再凡抽取縣閥區(qū),再炊抽取鄉(xiāng)雹、村直施到戶。在多級淡抽樣中市的每一但級都可貸能采取令各種抽艇樣方法凱。因此縮慧,整個搖抽樣計葉劃可能唇比較復撕雜,也芳稱為多蠻級混和制型抽樣編。一些抽蜘樣方法4.系統(tǒng)抽瘦樣(sy誰ste磁mat存ic饅sam棚pli帝ng)具。這是架先把總冷體中的促每個單蛙元編號舞,然后些隨機選彈取其中倡之一作劫為抽樣柳的開始姻點進行客抽樣。瞇如果編怒號是隨絹機選取分的,則拔這和簡滾單隨機犁抽樣是垂等價的柏。在選他取開始護點之后漲,通常宋從開始起點開始族按照編確號進行叢所謂等齡距抽樣臭;也就亭是說,窮如果開違始點為塑5號,斷“距離眉”為1胡0,則脊下面的鉛調(diào)查對接象為1鼠5號、凱25號番等等。抽樣方法旗的選擇不鴉能一概而前論實際上坡每個抽用樣通常厘都可能名是各種三抽樣方炸法的組扎合。既各要考慮沈精確度卵,還要金根據(jù)客差觀情況握考慮方澤便性、枝可行性惱和經(jīng)濟德性。不銳能一概透而論。計算機中欺常用的數(shù)長據(jù)形式數(shù)據(jù)是由各一些變量肢和它們的鴨觀測值所旺組成。下閘面就是調(diào)牽查人們對碧某個問題疊觀點的一鴉個數(shù)據(jù)的鼻方陣形式弊。其中有粥6個變量登:觀點(柔觀測值為俘支持、反癥對和不知酸道三種)具、教育程盜度(有高遠中低三種穿取值,用震H、M、亡L表示)叮、月收入始(取值為幟實際數(shù)字千)、性別究(取值有腎男女兩個盞,用M和預F表示)必以及地區(qū)鹿號(用數(shù)墳字1,2他,3,4枝表示)等柳。該表一囑共有13哨64個觀反測值(問姓卷回答)蠅。可以看搬出這些變教量有定性辱(屬性)堵變量,也做有定量(坐數(shù)值)變演量。按照記這個數(shù)據(jù)耀的格式,牌每一列為幣一個變量鉗的不同觀開測值;而賊每一行則略稱為一個香觀測值,值它是個由產(chǎn)數(shù)量值和偵屬性值組挽成的向量繭,每一個胞值相應于招一個變量跪。思考1.從舉出一些減觀測數(shù)據(jù)翁和試驗數(shù)體據(jù)的例子疏。2.診舉出簡單痰隨機樣本涉的例子。3.腔根據(jù)兩你的經(jīng)鄉(xiāng)豐驗,舉狀出總體蝴和樣本饑的一些啟具體例去子。4.沒舉出調(diào)查般抽樣時可埋能發(fā)生的揭各種影響受調(diào)查結(jié)果石的問題,所并且提出喪你認為可超以減少或摟避免這些煉問題的建僻議。5.僅根據(jù)你的哪直覺,本撓章提到的賞幾種抽樣霧方法的優(yōu)認缺點是什歪么?原因適何在?6.講舉出庸一些書頃報上發(fā)幣表的數(shù)著據(jù)例子曠,并指塵出那些厭是變量鏡,哪些急是觀測已值。數(shù)據(jù)的保描述如同給功人畫像劈燕一樣直方圖比如某個扁地區(qū)(地懇區(qū)1)學怕校高三男酷生的身高也;有16焦3個度量閱如何用圖坐形來表示亦這個數(shù)據(jù)朵,使人們啄能夠看出主這個數(shù)據(jù)矩的大體分定布或“形火狀”呢?琴一個辦法調(diào)就是畫一廟個直方圖脆(his廢togr時am)。盒型圖比直方圖軍簡單一些卷的是盒形良圖(bo班xplo臨t,又稱誕箱圖、箱孩線圖、盒壞子圖)。黃后面圖的爽左邊一個療是根據(jù)地杏區(qū)1高三罰男生的身桐高數(shù)據(jù)所紙繪的盒形應圖;其右毒邊的圖代巖表另一個宣地區(qū)(地平區(qū)2)的撕高三學生孫的身高莖葉圖地區(qū)1高襪三男生身若高數(shù)據(jù)的鍵莖葉圖HEIG嗓HTS塵tem-敗and-盾Leaf換Plo喝tFreq愉uenc益y箱Ste黃m&據(jù)Lea腳f9.0牧0暢1仆5.太0粉012騎233張4417.銳00只15得.棍556株666回677輸788奏999懶9920.倒00絨16婚.懇011糊122足222踩233版333山334賤4435.0泄0麻16.露55騙5556凈6666好6667攻7777緣瑞8888患8888移8889尿9999來925.0芳0坑17.忠00冠0000傍0011估1122潔2223涌3333頁34424.0飽0習17.弱55亦5666饒6777唐7777勁7777恥8888蜜9913.上00累18唯.遮011此111獻112喜233倉311.皆00烘18鼻.任556躬677頸888摘994.0你0資1艱9.諷2莖3332.0留0內(nèi)1膜9.驢5眾63.0患0E羽xtr軌eme說s滾(按>=1周98)Ste使mw椅idt闖h:本10克.00Eac紗hl龜eaf密:六1映ca治se(捉s)散點圖往往人伙們得到夢的數(shù)據(jù)莖有兩個耕變量的嬌,比如轉(zhuǎn)美國男存士和女搬士初婚再年限的員數(shù)據(jù)。征該數(shù)據(jù)遺描述了粱自190亞0年到1998年男女豎第一次飯結(jié)婚延繡續(xù)的時杠間的中今位數(shù)。美當然,決不可能薄將所有收人的婚弄姻年限弟都給出惰來。所趣以,每序年就取匹了一個怒中間的捏值(中位數(shù))作為代表掩。自1900到196習0年是每摘十年一逢個值,漆以后到199跟0是每五年鋤取一個數(shù)住,1995年以后是茅每年一個待數(shù)。這里急的一個變窩量為記錄羅年份,另克一個是結(jié)添婚時間長挖短。由于比分男士和播女士,因溝此有兩二搖維數(shù)據(jù)。啟這時可以竟以一個變贏量為橫坐熄標(如年枯份),另錦一個為縱困坐標(這電里是結(jié)婚零年限)來要點圖。這斷種圖稱為柏散點圖(scat賓ter馳plot)。還邊可以看斧出在二自十世紀支六十年屋代婚姻弦年限降膀低,而省后來又另升高。醒而男子放的年限渾平均比聚女性長曉。這個趕圖是用SPSS畫的。定性變量胸的點圖定性變量疼(或?qū)傩苑缸兞浚质孱愖兞浚┙也荒茳c出河直方圖、餅散點圖或底莖葉圖,蛋但可以描沒繪出它們奪各類的比脾例。下面剛用SPS義S繪的圖表英示了說世份界各種主它要語言的壺人數(shù)的比弦例餅圖條形圖匯總統(tǒng)困計量或概括統(tǒng)計快量(sum仿mary善sta控tist逆ic)匯總統(tǒng)計蛛量(位置充)均值(m磚ean)中位數(shù)廁(me菜dia見n)(第一勻,第三攏)四分攝位數(shù)(梢點)(firs連tqu奴anti毛le,惹thir漂dqu攪anti蝦le)k-百躬分位數(shù)芹(k-傅per擾cen劉til談e)眾數(shù)(憤mod能e)匯總統(tǒng)及計量(倆尺度)(sc硬ale泰st御ati豈sti遮c)極差(躍ran寫ge)四分位間煎距(四分炭位極差)(int頂erqu少anti京ler騾ange弓)標準差(sta搬ndar忌dde撲viat緒ion)方差(var粘ianc追e)兩個尺厲度不同資的數(shù)據(jù)渣的直方孤圖,左炭邊的標總準差大丹約只有懼右邊的掀一半數(shù)據(jù)的標茅準得分(sta灰ndar譜dsc慎ore)兩個水平壺類似的班隙級(一班覆和二班)況上同一門透課,但是叨由于兩個挑任課老師披的評分標讓準不同,賣使得兩個斥班成績的擺均值和標躁準差都不疫一樣(數(shù)假據(jù):gr醫(yī)ade.紋sav)燦。一班分酒數(shù)的均值養(yǎng)和標準差種分別為7顧8.53脾和9.4按3,而二票班的均值角和標準差濫分別為7談0.19哥和7.0凝0。那么稼得到90泄分的一班鏈的張穎是訊不是比得柔到82分塑的二班的斤劉疏成績禾更好呢?障怎么比較恭才能合理袋呢?雖然親這種均值陡和標準差良不同的數(shù)搬據(jù)不能夠蔽直接比較侵,但是可咱以把它們訊進行標準升化,然后蛋再比較標等準化后的針數(shù)據(jù)。一錦個標準化啞的方法是緊把原始觀簽測值(亦樣稱得分,嘗scor食e)和均總值之差除祝以標準差判;得到的習度量稱為奏標準得分急(sta列ndar胃dsc潛ore)艱。思考1.份根據(jù)闖你的經(jīng)挎驗,給寄出定性立和定量蚊變量的芬例子。2.僵對于問題嫌1中你的穴例子,試胃圖畫出各躲種描述性姨圖形并計劣算匯總統(tǒng)洗計量。3.住舉例說明血眾數(shù)、中佳位數(shù)和均險值的優(yōu)缺撒點。4.兔舉例說明熟尺度統(tǒng)計駐量說明了丘數(shù)據(jù)的什悲么特性。5.案標準得久分實際右上是對哨原始數(shù)板據(jù)的一虛種標準蒸化。試串舉出標籃準得分山的用處家。統(tǒng)計推斷從數(shù)據(jù)宵得到對徑現(xiàn)實世蘆界的結(jié)豆論的過盞程估計總體它惰代表我塊們所關(guān)寨心的那瞎部分現(xiàn)啞實世界途。而在堵利用樣進本中的戒信息來化對總體幫進行推纖斷之前喪人們一士般對代鬧表總體三的變量去假定了弱分布族屠。比如可假定人續(xù)們的身夾高屬于技正態(tài)分竭布族;葛對抽樣決調(diào)查假帝定了二兵項分布炒族等等貢。這些依模型基中本上是戚根據(jù)經(jīng)開驗來假犬定的,類所以僅枝僅是對斃現(xiàn)實世辛界的一眼個近似尖。在假閥定了總積體分布叔族之后年,進一鄰步對總杯體的認究識就是準要在這混個分布薄族中選程擇一個盞適合于淹我們問榴題的分息布;由粥于分布殿族成員兵是由參荒數(shù)確定曬的,如竹果參數(shù)睡能夠估敵計,對嬸總體的猜具體分勸布就知筋道得差周不多了勻。估計一種是點軟估計(p癥oint繼est慈imat肥ion)絹,也就是還用估計量啄的實現(xiàn)值掛來近似相隔應的總體廢參數(shù)。另一種披是區(qū)間棗估計(撓int銹erv稼al糠est尖ima低tio緣瑞n);拾它是包鵝括估計米量在內(nèi)賠(有時探是以估陰計量為沾中心)辰的一個幅區(qū)間;腔該區(qū)間保被認為疤很可能料包含總桶體參數(shù)之。點估計給郊出一個數(shù)灘字,用起修來很方便徒;而區(qū)間濁估計給出絞一個區(qū)間襖,說起來啊留有余地跟;不象點槳估計那么忙絕對。無偏估計景(大樣本扎性質(zhì))區(qū)間估防計的置怖信度(屋大樣本橋性質(zhì))估計注意置法信區(qū)間殘的論述叫是由區(qū)恩間和置吧信度兩崖部分組姥成。有泰些新聞楚媒體報巡壽道一些垃調(diào)查結(jié)倒果只給險出百分然比和誤假差(即弓置信區(qū)艱間),烘并不說翁明置信勵度,也腸不給出輝被調(diào)查哲的人數(shù)因,這是丙不負責泊的表現(xiàn)煤。因為滔降低置梳信度可頓以使置華信區(qū)間慌變窄(巨顯得“水精確”盾),有拐誤導讀汁者之嫌愁。如果儲給出被束調(diào)查的星人數(shù),驗則內(nèi)行虛可以由肆推算出拋置信度扔(由后鼓面給出肥的公式量),反金之亦然件。一個描盯述性例檢子一個有1鈔0000壯個人回答坡的調(diào)查顯吼示,同意然某種觀點恐的人的比叮例為70盤%(有7局000人盯同意),湖可以算出呀總體中同忍意該觀點播的比例的段95%置芒信區(qū)間為快(0.6科91,0中.709歡);另一霉個調(diào)查聲招稱有70敞%的比例末反對該種罷觀點,還杜說總體中選反對該觀草點的置信疾區(qū)間也是?。?.6項91,0藏.709張)。到底辨相信誰呢滴?實際上枯,第二個植調(diào)查隱瞞突了置信度丹(等價于課隱瞞了樣冶本量)。餅如果第二飽個調(diào)查僅銷僅調(diào)查了憐50個人瓦,有35罰個人反對消該觀點。漸根據(jù)后面籮的公式可次以算出,莫第二個調(diào)披查的置信弟區(qū)間的置宅信度僅有繳11%。假設檢拘驗在假設檢歇驗中,一舞般要設立渡一個原假溝設;而設通立該假設榜的動機主梁要是企圖剛利用人們舊掌握的反捕映現(xiàn)實世附界的數(shù)據(jù)這來找出假椒設和現(xiàn)實腥的矛盾,表從而否定笛這個假設干。在多數(shù)范統(tǒng)計教科泰書中(除進了理論探含討之外)萍的假設檢輛驗都是以鞏否定原假南設為目標郵。如果否定耗不了,那莊就說明證沉據(jù)不足,沖無法否定淘原假設。耗但這不能算說明原假遠設正確。紅很多教科擁書在這個萍問題上不玻適當?shù)赜梦帧敖邮茉櫟僭O”的歷說法,犯祥了明顯的巡壽低級邏輯恰錯誤。假設檢呢驗的過除程和邏經(jīng)輯首先要提稀出一個原殘假設,比岸如某正態(tài)橡總體的均充值等于5鳥(m=5)。指這種原假稠設也稱為龍零假設(辱null蘆hyp市othe庸sis)澤,記為H0。與此同炕時必須猛提出對鄭立假設釋,比如羞總體均戚值大于槍5(m>5)仿。對立侮假設又談稱為備鵲選假設蠻或備擇況假設(們alt圈ern妖ati晴ve傍hyp稻oth角esi條s)記虹為記為期H1或Ha。假設檢驗冠的過程和孝邏輯根據(jù)零假缸設(不是折備選假粱設?。┨?,我們皮可以得糕到該檢救驗統(tǒng)計全量的分紀布;然后再看拆這個統(tǒng)計那量的數(shù)據(jù)支實現(xiàn)值(宇real饑izat占ion)奴屬不屬于慣小概率事食件。也就因是說把數(shù)討據(jù)代入檢略驗統(tǒng)計量派,看其值帝是否落入亦零假設下牌的小概率弟范疇;如果的沖確是小贏概率事股件,那而么我們異就有可槐能拒絕縣零假設罵,否則幻玉我們說藏沒有足胸夠證據(jù)工拒絕零敘假設。假設檢醉驗的過幣程和邏勒輯注意:零假設計和備選泡假設在授假設檢尾驗中并廚不對稱。因檢謝驗統(tǒng)計梨量的分抹布是從帳零假設繳導出的苗,因此捆,如果幫發(fā)生矛辭盾,當仍然就對彈零假設遲不利了萬。不發(fā)生矛警盾也不說姿明備選假躍設有問題妄(因為和校備選假設具無關(guān))。假設檢驗堡的過程和或邏輯檢驗統(tǒng)蹈計量在電零假設擾下等于欲這個樣素本的數(shù)瓶據(jù)實現(xiàn)族值或更指加極端筑值的概煙率稱為p-值(p廚-val犬ue)。顯然得到睡很小p-值意味螞著小概率防事件發(fā)生烘了。如果決小概率事朽件發(fā)生,良是相信零米假設,還吸是相信數(shù)集據(jù)呢?當然是相候信數(shù)據(jù)。禾于是就拒館絕零假設織。但小概器率并不能錦說明不會宰發(fā)生,僅河僅發(fā)生的林概率很小棍罷了。拒絕正確記零假設的線錯誤常被控稱為第一放類錯誤(鬼type雅Ie秋rror筋)。假設檢驗咐的過程和蒸邏輯有第一闖類錯誤撈,就有妥第二類燥錯誤;個那是備臘選零假王設正確里時反而宇說零假自設正確酷的錯誤吳,稱為慚第二類老錯誤(域typ默eI脫Ie局rro革r)。零假設繪和備選溝假設哪掃一個正盒確,這相是確定災性的,栽沒有概括率可言極。而可能犯府錯誤的是烘人。涉及選假設檢驗扣的犯錯誤據(jù)的概率就罷是犯第一挽類錯誤的蹦概率和犯賠第二類錯清誤的概率刊。負責的態(tài)廉度是無論驕做出什么鴿決策,都怕應該給出支犯錯誤的戴概率。假設檢驗各的過程和毀邏輯到底p-值是噸多小才迅能夠拒蚊絕零假憶設呢?攪也就是陶說,需饒要有什仔么是小屬概率的責標準。團這要看往具體應充用的需膠要。但欲在一般害的統(tǒng)計甩書和軟栗件中,鄉(xiāng)豐使用最蓋多的標昏準是在梅零假設夠下(或汁零假設算正確時費)抽樣倒所得的單數(shù)據(jù)拒稀絕零假炕設的概跪率應小突于0.寬05(暑也可能英是0.爬01,劃0.0初05,泄0.0碑01等條等)。正這種事批先規(guī)定號的概率抄稱為顯盒著性水液平(s桶ign賀ifi適can懇ce長lev伯el)未,用字騙母a來表示善。當p-值小于叔或等于a時,就拒詢絕零假設緞。所以,a是所允許亭的犯第一完類錯誤概蜘率的最大望值。當p-值小于或針等于a時,我傅們說這載個檢驗底是顯著困的(s千ign劇ifi西can佩t)。假設檢勿驗的過屆程和邏剖輯歸納起來戚,假設檢供驗的邏輯廈步驟為:第一,伴寫出零并假設和慚備選假不設;第二,確趣定檢驗統(tǒng)會計量;第三,確免定顯著性營水平a;第四,乓根據(jù)數(shù)蘇據(jù)計算座檢驗統(tǒng)增計量的白實現(xiàn)值思;第五,榴根據(jù)這續(xù)個實現(xiàn)缸值計算p-值;第六,諸進行判鋒斷:如熄果p-值小于旗或等于疑a,就希拒絕零祥假設,酬這時犯掃錯誤的瀉概率最艙多為a北;如果p-值大于獅a,就栗不拒絕驕零假設難,因為熟證據(jù)不桐足。假設檢汗驗的過偽程和邏醒輯實際上變,計算亡機軟件菊僅僅給次出p-值,而無不給出a。這有很瞇多方便之水處。比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論