家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt

上傳人：千*** IP屬地：江蘇上傳時(shí)間：2020-03-07 格式：PPT 頁(yè)數(shù)：77 大?。?40.50KB 積分：15 舉報(bào) 版權(quán)申訴

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第2頁(yè)

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第3頁(yè)

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第4頁(yè)

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第5頁(yè)

已閱讀5頁(yè)，還剩72頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本課內(nèi)容包含統(tǒng)計(jì)回顧主成分分析和因子分析聚類(lèi)分析判別分析典型相關(guān)分析對(duì)應(yīng)分析列聯(lián)表Logistic回歸Poisson對(duì)數(shù)線性模型時(shí)間序列分析統(tǒng)計(jì)基本概念回顧隨機(jī)性和規(guī)律性現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性從中學(xué)起我們就知道自然科學(xué)的許多定律例如物理中的牛頓三定律物質(zhì)不滅定律以及化學(xué)中的各種定律等等但是在許多領(lǐng)域很難用如此確定的公式或論述來(lái)描述一些現(xiàn)象比如人的壽命是很難預(yù)先確定的一個(gè)吸煙喝酒不鍛煉而且一口長(zhǎng)葷的人可能比一個(gè)很少得病生活習(xí)慣良好的人活得長(zhǎng) 因此可以說(shuō) 活得長(zhǎng)短是有一定隨機(jī)性的 randomness 這種隨機(jī)性可能和人的經(jīng)歷基因習(xí)慣等無(wú)數(shù)說(shuō)不清的因素都有關(guān)系現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性但是從總體來(lái)說(shuō) 我國(guó)公民的平均年齡卻是非常穩(wěn)定的而且女性的平均年齡也穩(wěn)定地比男性高幾年這就是規(guī)律性一個(gè)人可能活過(guò)這個(gè)平均年齡也可能活不到這個(gè)年齡這是隨機(jī)的但是總體來(lái)說(shuō) 平均年齡的穩(wěn)定性卻說(shuō)明了隨機(jī)之中有規(guī)律性這種規(guī)律就是統(tǒng)計(jì)規(guī)律概率和機(jī)會(huì) 你可能經(jīng)常聽(tīng)到概率 probability 這個(gè)名詞例如在天氣預(yù)報(bào)中會(huì)提到降水概率大家都明白如果降水概率是百分之九十那就很可能下雨但如果是百分之十就不大可能下雨因此從某種意義說(shuō)來(lái) 概率描述了某件事情發(fā)生的機(jī)會(huì) 顯然這種概率不可能超過(guò)百分之百也不可能少于百分之零換言之概率是在0和1之間的一個(gè)數(shù) 說(shuō)明某事件發(fā)生的機(jī)會(huì)有多大有些概率是無(wú)法精確推斷的比如你對(duì)別人說(shuō)你下一個(gè)周末去公園的概率是百分之八十但你無(wú)法精確說(shuō)出為什么是百分之八十而不是百分之八十四或百分之七十八其實(shí)你想說(shuō)的是你很可能去但又沒(méi)有完全肯定實(shí)際上到了周末你或者去或者不去不可能有分身術(shù)把百分之八十的你放到公園而其余的放在別處有些概率是可以估計(jì)的比如擲骰子只要沒(méi)有人在骰子上做手腳你得到6點(diǎn)的概率應(yīng)該是六分之一得到其他點(diǎn)的概率也是一樣得到6的概率或者機(jī)會(huì)是可以知道的但擲骰子的結(jié)果還只可能是六個(gè)數(shù)目之一這個(gè)已知的規(guī)律就反映了規(guī)律性而得到哪個(gè)結(jié)果則反映了隨機(jī)性如果你擲1000次骰子那么大約有六分之一的可能會(huì)得到6 這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個(gè)體現(xiàn) 變量做任何事情都要有對(duì)象比如一個(gè)班上注冊(cè)的學(xué)生有200人這是一個(gè)固定的數(shù)目稱為常數(shù) constant 或者常量但是如果猜測(cè)今天這個(gè)班有多少人會(huì)來(lái)上課那就沒(méi)準(zhǔn)了這有隨機(jī)性可能有請(qǐng)病假或事假的也可能有逃課的這樣就要來(lái)上課的人數(shù)是個(gè)變量 variable 另外對(duì)于某項(xiàng)政策同意與否的回答也有同意不同意或者不知道三種可能值這也是變量只不過(guò)不是數(shù)量而已變量當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時(shí)該變量稱為定量變量或數(shù)量變量 quantitativevariable 因?yàn)槭请S機(jī)的也稱為隨機(jī)變量 randomvariable 象性別觀點(diǎn)之類(lèi)的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸?lèi)變量 qualitativevariable categoricalvariable 這些定性變量也可以由隨機(jī)變量來(lái)描述比如男性和女性的數(shù)目同意某政策人數(shù)的比例等等只有當(dāng)變量用數(shù)量來(lái)描述時(shí) 才有可能建立數(shù)學(xué)模型才可能使用計(jì)算機(jī)來(lái)分析數(shù)據(jù) 有了變量的概念什么是數(shù)據(jù)呢拿擲骰子來(lái)說(shuō) 擲骰子會(huì)得到什么值是個(gè)隨機(jī)變量而每次取得1至6點(diǎn)中任意點(diǎn)數(shù)的概率它在理論上都是六分之一如果骰子公平這依賴于在擲骰子背后的理論或假定而在實(shí)際擲骰子過(guò)程中如果擲100次會(huì)得到100個(gè)由1至6點(diǎn)組成的數(shù)字串再擲100次又得到一個(gè)數(shù)字串和前一次的結(jié)果多半不一樣這些試驗(yàn)結(jié)果就是數(shù)據(jù) 所以說(shuō) 數(shù)據(jù)是關(guān)于變量的觀測(cè)值通過(guò)數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定比如每一次得到每個(gè)點(diǎn)的概率是不是1 6等等對(duì)于顧客是否喜歡某種飲品的調(diào)查也類(lèi)似但這里不象擲骰子那樣事先可以大致猜測(cè)顧客喜歡與否的概率在問(wèn)了1000人之后可能有364人說(shuō)喜歡而480人說(shuō)不喜歡其余的人可能不回答或說(shuō)不知道或從來(lái)沒(méi)有喝過(guò)這種飲料這些數(shù)目就是數(shù)據(jù) 當(dāng)然它僅僅反映了1000個(gè)被問(wèn)到的人的觀點(diǎn) 但這對(duì)于估計(jì)整個(gè)消費(fèi)群體的觀點(diǎn)還是有用的統(tǒng)計(jì)和計(jì)算機(jī) 現(xiàn)代生活越來(lái)越離不開(kāi)計(jì)算機(jī)了最早使用計(jì)算機(jī)的統(tǒng)計(jì)當(dāng)然更離不開(kāi)計(jì)算機(jī)了事實(shí)上最初的計(jì)算機(jī)僅僅是為科學(xué)計(jì)算而建造的大型計(jì)算機(jī)的最早一批用戶就包含統(tǒng)計(jì) 而現(xiàn)在統(tǒng)計(jì)仍然是進(jìn)行數(shù)字計(jì)算最多的用戶計(jì)算機(jī)現(xiàn)在早已脫離了僅有計(jì)算功能的單一模式而成為百姓生活的一部分計(jì)算機(jī)的使用也從過(guò)去必須學(xué)會(huì)計(jì)算機(jī)語(yǔ)言到只需要傻瓜式地點(diǎn)擊鼠標(biāo) 結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件的發(fā)展也使得統(tǒng)計(jì)從統(tǒng)計(jì)學(xué)家的圈內(nèi)游戲變成了大眾的游戲只要你輸入你的數(shù)據(jù) 點(diǎn)幾下鼠標(biāo) 做一些選項(xiàng) 馬上就得到令人驚嘆的漂亮結(jié)果了你可能會(huì)問(wèn) 是否傻瓜式的統(tǒng)計(jì)軟件使用可以代替統(tǒng)計(jì)課程了當(dāng)然不是數(shù)據(jù)的整理和識(shí)別方法的選用計(jì)算機(jī)輸出結(jié)果的理解都不象使用傻瓜相機(jī)那樣簡(jiǎn)單可靠統(tǒng)計(jì)軟件有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告不時(shí)提醒你去咨詢專(zhuān)家但統(tǒng)計(jì)軟件則不那么負(fù)責(zé) 只要數(shù)據(jù)格式無(wú)誤方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果而且沒(méi)有任何警告另外統(tǒng)計(jì)軟件輸出的結(jié)果太多即使是同樣的方法不同軟件輸出的內(nèi)容還不一樣有時(shí)同樣的內(nèi)容名稱也不一樣這就使得使用者大傷腦筋即使是統(tǒng)計(jì)學(xué)家也不一定能解釋所有的輸出因此就應(yīng)該特別留神明白自己是在干什么不要在得到一堆毫無(wú)意義的垃圾之后還沾沾自喜統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件的種類(lèi)很多有些功能齊全有些價(jià)格便宜有些容易操作有些需要更多的實(shí)踐才能掌握還有些是專(zhuān)門(mén)的軟件只處理某一類(lèi)統(tǒng)計(jì)問(wèn)題面對(duì)太多的選擇往往給決策帶來(lái)困難這里介紹最常見(jiàn)的幾種統(tǒng)計(jì)軟件 SPSS 這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件它容易操作輸出漂亮功能齊全價(jià)格合理對(duì)于非統(tǒng)計(jì)工作者是很好的選擇 Excel 它嚴(yán)格說(shuō)來(lái)并不是統(tǒng)計(jì)軟件但作為數(shù)據(jù)表格軟件必然有一定統(tǒng)計(jì)計(jì)算功能而且凡是有MicrosoftOffice的計(jì)算機(jī) 基本上都裝有Excel 但要注意有時(shí)在裝Office時(shí)沒(méi)有裝數(shù)據(jù)分析的功能那就必須裝了才行當(dāng)然畫(huà)圖功能是都具備的對(duì)于簡(jiǎn)單分析 Excel還算方便但隨著問(wèn)題的深入 Excel就不那么傻瓜需要使用函數(shù) 甚至根本沒(méi)有相應(yīng)的方法了多數(shù)專(zhuān)門(mén)一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專(zhuān)門(mén)的統(tǒng)計(jì)軟件來(lái)處理 SAS 這是功能非常齊全的軟件盡管價(jià)格不菲許多公司還是因?yàn)槠涔δ鼙姸嗪湍承┟绹?guó)政府機(jī)構(gòu)認(rèn)可而使用盡管現(xiàn)在已經(jīng)盡量傻瓜化仍然需要一定的訓(xùn)練才可以進(jìn)入對(duì)于基本統(tǒng)計(jì)課程則不那么方便統(tǒng)計(jì)軟件 S plus 這是統(tǒng)計(jì)學(xué)家喜愛(ài)的軟件不僅由于其功能齊全而且由于其強(qiáng)大的編程功能使得研究人員可以編制自己的程序來(lái)實(shí)現(xiàn)自己的理論和方法它也在進(jìn)行傻瓜化以爭(zhēng)取顧客但仍然以編程方便為顧客所青睞 R軟件這是一個(gè)免費(fèi)的由志愿者管理的軟件其編程語(yǔ)言與S plus所基于的S語(yǔ)言一樣很方便還有不斷加入的各個(gè)方向統(tǒng)計(jì)學(xué)家編寫(xiě)的統(tǒng)計(jì)軟件包同時(shí)從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序這是發(fā)展最快的軟件受到世界上統(tǒng)計(jì)師生的歡迎是用戶量增加最快的統(tǒng)計(jì)軟件對(duì)于一般非統(tǒng)計(jì)工作者來(lái)說(shuō) 主要問(wèn)題是它沒(méi)有傻瓜化統(tǒng)計(jì)軟件 Minitab 這個(gè)軟件是很方便的功能強(qiáng)大而又齊全的軟件也已經(jīng) 傻瓜化在我國(guó)用的不如SPSS與SAS那么普遍 Statistica 也是功能強(qiáng)大而齊全的傻瓜化的軟件在我國(guó)用的也不如SAS與SPSS那么普遍 Eviews 這是一個(gè)主要處理回歸和時(shí)間序列的軟件 GAUSS 這是一個(gè)很好用的統(tǒng)計(jì)軟件許多搞經(jīng)濟(jì)的喜歡它主要也是編程功能強(qiáng)大目前在我國(guó)使用的人不多 FORTRAN 這是應(yīng)用于各個(gè)領(lǐng)域的歷史很長(zhǎng)的非常優(yōu)秀的編程軟件功能強(qiáng)大也有一定的統(tǒng)計(jì)軟件包計(jì)算速度比這里介紹的都快得多但需要編程和編譯操作不那么容易 MATLAB 這也是應(yīng)用于各個(gè)領(lǐng)域的以編程為主的軟件在工程上應(yīng)用廣泛編程類(lèi)似于S和R 但是統(tǒng)計(jì)方法不多統(tǒng)計(jì)軟件當(dāng)然還有其他的軟件沒(méi)有必要一一羅列其實(shí) 聰明的讀者只要學(xué)會(huì)使用一種傻瓜式軟件使用其他的僅僅是舉一反三之勞最多看看幫助和說(shuō)明即可如果只有英文幫助那還可以順便提高你的英文閱讀能力想想看舉出你所知道的統(tǒng)計(jì)應(yīng)用例子舉出日常生活中隨機(jī)性和規(guī)律性的例子你使用過(guò)統(tǒng)計(jì)軟件或者利用過(guò)其他軟件中的統(tǒng)計(jì)功能嗎你有什么經(jīng)驗(yàn)和體會(huì) 數(shù)據(jù)的收集二手?jǐn)?shù)據(jù) 每天翻開(kāi)報(bào)紙或打開(kāi)電視就可以看到各種數(shù)據(jù) 比如高速公路通車(chē)?yán)锍?物價(jià)指數(shù) 股票行情外匯牌價(jià) 犯罪率房?jī)r(jià) 流行病的有關(guān)數(shù)據(jù) 確診病例疑似病例死亡人數(shù)和出院人數(shù)等等當(dāng)然還有國(guó)家統(tǒng)計(jì)局定期發(fā)布的各種國(guó)家經(jīng)濟(jì)數(shù)據(jù) 海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等從中可以選取對(duì)自己有用的信息這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù) 第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松某些在華的外資企業(yè)每年至少要花三四千萬(wàn)元來(lái)收集和分析數(shù)據(jù) 他們調(diào)查其產(chǎn)品目前在市場(chǎng)中的狀況和地位并確定其競(jìng)爭(zhēng)對(duì)手的態(tài)勢(shì) 他們調(diào)查不同地區(qū) 不同階層的民眾對(duì)其產(chǎn)品的認(rèn)知程度和購(gòu)買(mǎi)意愿以改進(jìn)產(chǎn)品或推出新品種爭(zhēng)取新顧客他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場(chǎng)和開(kāi)發(fā)新市場(chǎng) 市場(chǎng)信息數(shù)據(jù)對(duì)企業(yè)是至關(guān)重要的他們很舍得在這方面花錢(qián) 因?yàn)檫@是企業(yè)生存所必需的絕不是可有可無(wú)的觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù) 上面所說(shuō)的數(shù)據(jù)是在自然的未被控制的條件下觀測(cè)到的稱為觀測(cè)數(shù)據(jù) observationaldata 而對(duì)于有些問(wèn)題比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒(méi)有區(qū)別用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù) experimentaldata 總體和樣本要想了解北京市民對(duì)建設(shè)北京交通設(shè)施是以包括軌道運(yùn)輸在內(nèi)的公共交通工具為主還是以小汽車(chē)為主的觀點(diǎn) 需要進(jìn)行調(diào)查調(diào)查對(duì)象是所有北京市民調(diào)查目的是希望知道市民中對(duì)這個(gè)問(wèn)題的不同看法各自占有的比例顯然不可能去問(wèn)所有的北京市民而只能夠問(wèn)一部分并且根據(jù)這一部分的觀點(diǎn)來(lái)理解整個(gè)北京市民的總體觀點(diǎn) 總體和樣本這種情況下稱所有每個(gè) 北京市民對(duì)這個(gè)問(wèn)題的觀點(diǎn)為一個(gè)總體 population 而調(diào)查時(shí)問(wèn)到的那部分市民的觀點(diǎn)為該總體的一個(gè)樣本 sample 當(dāng)然也有可能調(diào)查所有的人比如人口普查那叫做普查 census 總體是包含所有要研究的個(gè)體 element 的集合而樣本是總體中選中的一部分隨機(jī)樣本在抽取樣本時(shí) 如果總體中的每一個(gè)體都有同等機(jī)會(huì)被選到樣本中這種抽樣稱為簡(jiǎn)單隨機(jī)抽樣 simplerandomsampling 而這樣得到的樣本則稱為隨機(jī)樣本 randomsample 隨機(jī)樣本就北京交通問(wèn)題的調(diào)查為例在隨機(jī)抽樣的情況下如果樣本量 samplesize 也就是樣本中個(gè)體的數(shù)目在總體中的比例為1 5000 那么無(wú)論在東城區(qū)或者在延慶縣無(wú)論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問(wèn)到的人的比例都應(yīng)該大體是1 5000 也就是說(shuō) 這種比例在總體的任何部分是大體不變的方便樣本在實(shí)踐中得到隨機(jī)樣本不容易很多搞調(diào)查的人就采取簡(jiǎn)單的辦法還以北京的交通問(wèn)題的調(diào)查為例假定按照隨機(jī)選出的電話號(hào)碼進(jìn)行調(diào)查這樣肯定節(jié)省時(shí)間和資源但這樣得到的就不是一個(gè)隨機(jī)樣本了如果按照隨機(jī)選擇的數(shù)字無(wú)論號(hào)碼本上有沒(méi)有打電話那很多電話是空號(hào)或單位電話顯然這種樣本也不是隨機(jī)樣本它稱為方便樣本 conveniencesample 在調(diào)查中即使選擇對(duì)象的確是隨機(jī)的最理想的情況所得到的樣本也只代表那些愿意回答問(wèn)題人的觀點(diǎn)所組成的總體沒(méi)有回答問(wèn)題的人的觀點(diǎn)永遠(yuǎn)不會(huì)被這種調(diào)查的樣本所代表方便樣本這種不回答的問(wèn)題是抽樣調(diào)查特有的問(wèn)題在其他問(wèn)題中也有使用方便樣本的情況比如在肺癌研究中人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù) 這些數(shù)據(jù)并不是整個(gè)人群中采集的隨機(jī)樣本它們可能只是醫(yī)院中的病人記錄中得到的在雜志和報(bào)紙上也有問(wèn)卷但得到的只是擁有這份報(bào)刊而且愿意回答的人的觀點(diǎn) 誤差假定在某一職業(yè)人群中女性占的比例為60 如果在這個(gè)人群中抽取一些隨機(jī)樣本這些隨機(jī)樣本中女性的比例并不一定是剛好60 可能稍微多些或稍微少些這是很正常的因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣這種差異不是錯(cuò)誤而是必然會(huì)出現(xiàn)的抽樣誤差 samplingerror 剛才提到在抽樣調(diào)查中一些人因?yàn)榉N種原因沒(méi)有對(duì)調(diào)查作出反映或回答這種誤差稱為未響應(yīng)誤差 nonresponseerror 而另有一些人因?yàn)楦鞣N原因回答時(shí)并沒(méi)有真實(shí)反映他們的觀點(diǎn) 這稱為響應(yīng)誤差 responseerror 和抽樣誤差不一樣未響應(yīng)誤差和響應(yīng)誤差都會(huì)影響對(duì)真實(shí)世界的了解應(yīng)該在設(shè)計(jì)調(diào)查方案時(shí)盡量避免抽樣調(diào)查的一些常用方法在抽樣調(diào)查時(shí) 最理想的樣本是前面提到的隨機(jī)樣本但是由于實(shí)踐起來(lái)不方便在大規(guī)模調(diào)查時(shí)一般不用這種全部隨機(jī)抽樣的方式而只是在局部采用隨機(jī)抽樣的方法下面介紹幾種抽樣方法這里沒(méi)有深?yuàn)W的理論讀者完全可以根據(jù)常識(shí)判斷在什么情況下簡(jiǎn)單的隨機(jī)樣本不方便以及下面的每個(gè)方法有什么好處和缺陷對(duì)于它們具體的設(shè)計(jì) 實(shí)施與數(shù)據(jù)分析有許多專(zhuān)門(mén)的書(shū)籍就不在這里贅述了一些抽樣方法 1 分層抽樣 stratifiedsampling 這是先把要研究的總體按照某些性質(zhì)分類(lèi) stratum 再在各類(lèi)中分別抽取樣本在每類(lèi)中調(diào)查的人數(shù)通常是按照這該類(lèi)人的比例但出于各種考慮也可能不按照比例也可能需要加權(quán) 加權(quán)就是在求若干項(xiàng)的和時(shí) 對(duì)各項(xiàng)乘以不同的系數(shù) 這些系數(shù)的和通常為1 比如可以按照教育程度把要訪問(wèn)的人群分成幾類(lèi) 再在每一類(lèi)中調(diào)查和該類(lèi)成比例數(shù)目的人這樣就確保了每一類(lèi)都有成比例的代表一些抽樣方法 2 整群抽樣 clustersampling 這是先把總體劃分成若干群 cluster 再通常是隨機(jī)地從這些群中抽取幾群然后再在這些抽取的群中對(duì)個(gè)體進(jìn)行抽樣比如在某縣進(jìn)行調(diào)查首先在所有村中選取若干村子然后只對(duì)這些村子的人進(jìn)行調(diào)查顯然如果各村情況差異不大這種抽樣還是方便的否則就會(huì)增大誤差了一些抽樣方法 3 多級(jí)抽樣 multistagesampling 在群體很大時(shí) 往往在抽取若干群之后再在其中抽取若干子群甚至再在子群中抽取子群等等最后只對(duì)最后選定的最下面一級(jí)進(jìn)行調(diào)查比如在全國(guó)調(diào)查時(shí) 先抽取省再抽取市地再抽取縣區(qū) 再抽取鄉(xiāng) 村直到戶在多級(jí)抽樣中的每一級(jí)都可能采取各種抽樣方法因此整個(gè)抽樣計(jì)劃可能比較復(fù)雜也稱為多級(jí)混和型抽樣一些抽樣方法 4 系統(tǒng)抽樣 systematicsampling 這是先把總體中的每個(gè)單元編號(hào) 然后隨機(jī)選取其中之一作為抽樣的開(kāi)始點(diǎn)進(jìn)行抽樣如果編號(hào)是隨機(jī)選取的則這和簡(jiǎn)單隨機(jī)抽樣是等價(jià)的在選取開(kāi)始點(diǎn)之后通常從開(kāi)始點(diǎn)開(kāi)始按照編號(hào)進(jìn)行所謂等距抽樣也就是說(shuō) 如果開(kāi)始點(diǎn)為5號(hào) 距離為10 則下面的調(diào)查對(duì)象為15號(hào) 25號(hào)等等抽樣方法的選擇不能一概而論實(shí)際上每個(gè)抽樣通常都可能是各種抽樣方法的組合既要考慮精確度還要根據(jù)客觀情況考慮方便性可行性和經(jīng)濟(jì)性不能一概而論計(jì)算機(jī)中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測(cè)值所組成下面就是調(diào)查人們對(duì)某個(gè)問(wèn)題觀點(diǎn)的一個(gè)數(shù)據(jù)的方陣形式其中有6個(gè)變量觀點(diǎn) 觀測(cè)值為支持反對(duì)和不知道三種教育程度有高中低三種取值用H M L表示月收入取值為實(shí)際數(shù)字性別取值有男女兩個(gè) 用M和F表示以及地區(qū)號(hào) 用數(shù)字1 2 3 4表示等該表一共有1364個(gè)觀測(cè)值問(wèn)卷回答可以看出這些變量有定性屬性變量也有定量數(shù)值變量按照這個(gè)數(shù)據(jù)的格式每一列為一個(gè)變量的不同觀測(cè)值而每一行則稱為一個(gè)觀測(cè)值它是個(gè)由數(shù)量值和屬性值組成的向量每一個(gè)值相應(yīng)于一個(gè)變量思考 1 舉出一些觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子 2 舉出簡(jiǎn)單隨機(jī)樣本的例子 3 根據(jù)你的經(jīng)驗(yàn) 舉出總體和樣本的一些具體例子 4 舉出調(diào)查抽樣時(shí)可能發(fā)生的各種影響調(diào)查結(jié)果的問(wèn)題并且提出你認(rèn)為可以減少或避免這些問(wèn)題的建議 5 根據(jù)你的直覺(jué) 本章提到的幾種抽樣方法的優(yōu)缺點(diǎn)是什么原因何在 6 舉出一些書(shū)報(bào)上發(fā)表的數(shù)據(jù)例子并指出那些是變量哪些是觀測(cè)值數(shù)據(jù)的描述如同給人畫(huà)像一樣直方圖比如某個(gè)地區(qū) 地區(qū)1 學(xué)校高三男生的身高有163個(gè)度量如何用圖形來(lái)表示這個(gè)數(shù)據(jù) 使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或形狀呢一個(gè)辦法就是畫(huà)一個(gè)直方圖 histogram 盒型圖比直方圖簡(jiǎn)單一些的是盒形圖 boxplot 又稱箱圖箱線圖盒子圖后面圖的左邊一個(gè)是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖其右邊的圖代表另一個(gè)地區(qū) 地區(qū)2 的高三學(xué)生的身高莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖 HEIGHTStem and LeafPlotFrequencyStem Leaf9 0015 00122334417 0015 5566666777889999920 0016 0111222222333333344435 0016 5555566666666777778888888888899999925 0017 000000001111222223333334424 0017 55566667777777777788889913 0018 011111112233311 0018 556677888994 0019 23332 0019 563 00Extremes 198 Stemwidth 10 00Eachleaf 1case s 散點(diǎn)圖往往人們得到的數(shù)據(jù)有兩個(gè)變量的比如美國(guó)男士和女士初婚年限的數(shù)據(jù) 該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時(shí)間的中位數(shù) 當(dāng)然不可能將所有人的婚姻年限都給出來(lái) 所以每年就取了一個(gè)中間的值中位數(shù) 作為代表自1900到1960年是每十年一個(gè)值以后到1990是每五年取一個(gè)數(shù) 1995年以后是每年一個(gè)數(shù) 這里的一個(gè)變量為記錄年份另一個(gè)是結(jié)婚時(shí)間長(zhǎng)短由于分男士和女士因此有兩二維數(shù)據(jù) 這時(shí)可以以一個(gè)變量為橫坐標(biāo) 如年份另一個(gè)為縱坐標(biāo) 這里是結(jié)婚年限來(lái)點(diǎn)圖這種圖稱為散點(diǎn)圖 scatterplot 還可以看出在二十世紀(jì)六十年代婚姻年限降低而后來(lái)又升高而男子的年限平均比女性長(zhǎng) 這個(gè)圖是用SPSS畫(huà)的定性變量的點(diǎn)圖定性變量或?qū)傩宰兞?分類(lèi)變量不能點(diǎn)出直方圖散點(diǎn)圖或莖葉圖但可以描繪出它們各類(lèi)的比例下面用SPSS繪的圖表示了說(shuō)世界各種主要語(yǔ)言的人數(shù)的比例餅圖條形圖匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量 summarystatistic 匯總統(tǒng)計(jì)量位置均值 mean 中位數(shù) median 第一第三四分位數(shù) 點(diǎn) firstquantile thirdquantile k 百分位數(shù) k percentile 眾數(shù) mode 匯總統(tǒng)計(jì)量尺度 scalestatistic 極差 range 四分位間距四分位極差 interquantilerange 標(biāo)準(zhǔn)差 standarddeviation 方差 variance 兩個(gè)尺度不同的數(shù)據(jù)的直方圖左邊的標(biāo)準(zhǔn)差大約只有右邊的一半數(shù)據(jù)的標(biāo)準(zhǔn)得分 standardscore 兩個(gè)水平類(lèi)似的班級(jí) 一班和二班上同一門(mén)課但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同使得兩個(gè)班成績(jī)的均值和標(biāo)準(zhǔn)差都不一樣數(shù)據(jù) grade sav 一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為78 53和9 43 而二班的均值和標(biāo)準(zhǔn)差分別為70 19和7 00 那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績(jī)更好呢怎么比較才能合理呢雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較但是可以把它們進(jìn)行標(biāo)準(zhǔn)化然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù) 一個(gè)標(biāo)準(zhǔn)化的方法是把原始觀測(cè)值亦稱得分 score 和均值之差除以標(biāo)準(zhǔn)差得到的度量稱為標(biāo)準(zhǔn)得分 standardscore 思考 1 根據(jù)你的經(jīng)驗(yàn) 給出定性和定量變量的例子 2 對(duì)于問(wèn)題1中你的例子試圖畫(huà)出各種描述性圖形并計(jì)算匯總統(tǒng)計(jì)量 3 舉例說(shuō)明眾數(shù) 中位數(shù)和均值的優(yōu)缺點(diǎn) 4 舉例說(shuō)明尺度統(tǒng)計(jì)量說(shuō)明了數(shù)據(jù)的什么特性 5 標(biāo)準(zhǔn)得分實(shí)際上是對(duì)原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化試舉出標(biāo)準(zhǔn)得分的用處統(tǒng)計(jì)推斷從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過(guò)程估計(jì) 總體它代表我們所關(guān)心的那部分現(xiàn)實(shí)世界而在利用樣本中的信息來(lái)對(duì)總體進(jìn)行推斷之前人們一般對(duì)代表總體的變量假定了分布族比如假定人們的身高屬于正態(tài)分布族對(duì)抽樣調(diào)查假定了二項(xiàng)分布族等等這些模型基本上是根據(jù)經(jīng)驗(yàn)來(lái)假定的所以僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似在假定了總體分布族之后進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問(wèn)題的分布由于分布族成員是由參數(shù)確定的如果參數(shù)能夠估計(jì) 對(duì)總體的具體分布就知道得差不多了估計(jì) 一種是點(diǎn)估計(jì) pointestimation 也就是用估計(jì)量的實(shí)現(xiàn)值來(lái)近似相應(yīng)的總體參數(shù) 另一種是區(qū)間估計(jì) intervalestimation 它是包括估計(jì)量在內(nèi) 有時(shí)是以估計(jì)量為中心的一個(gè)區(qū)間該區(qū)間被認(rèn)為很可能包含總體參數(shù) 點(diǎn)估計(jì)給出一個(gè)數(shù)字用起來(lái)很方便而區(qū)間估計(jì)給出一個(gè)區(qū)間說(shuō)起來(lái)留有余地不象點(diǎn)估計(jì)那么絕對(duì) 無(wú)偏估計(jì) 大樣本性質(zhì) 區(qū)間估計(jì)的置信度大樣本性質(zhì) 估計(jì) 注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差即置信區(qū)間并不說(shuō)明置信度也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn) 因?yàn)榻档椭眯哦瓤梢允怪眯艆^(qū)間變窄顯得精確有誤導(dǎo)讀者之嫌如果給出被調(diào)查的人數(shù) 則內(nèi)行可以由推算出置信度由后面給出的公式反之亦然一個(gè)描述性例子一個(gè)有10000個(gè)人回答的調(diào)查顯示同意某種觀點(diǎn)的人的比例為70 有7000人同意可以算出總體中同意該觀點(diǎn)的比例的95 置信區(qū)間為 0 691 0 709 另一個(gè)調(diào)查聲稱有70 的比例反對(duì)該種觀點(diǎn) 還說(shuō)總體中反對(duì)該觀點(diǎn)的置信區(qū)間也是 0 691 0 709 到底相信誰(shuí)呢實(shí)際上第二個(gè)調(diào)查隱瞞了置信度等價(jià)于隱瞞了樣本量如果第二個(gè)調(diào)查僅僅調(diào)查了50個(gè)人有35個(gè)人反對(duì)該觀點(diǎn) 根據(jù)后面的公式可以算出第二個(gè)調(diào)查的置信區(qū)間的置信度僅有11 假設(shè)檢驗(yàn) 在假設(shè)檢驗(yàn)中一般要設(shè)立一個(gè)原假設(shè) 而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來(lái)找出假設(shè)和現(xiàn)實(shí)的矛盾從而否定這個(gè)假設(shè) 在多數(shù)統(tǒng)計(jì)教科書(shū)中除了理論探討之外的假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo) 如果否定不了那就說(shuō)明證據(jù)不足無(wú)法否定原假設(shè) 但這不能說(shuō)明原假設(shè)正確很多教科書(shū)在這個(gè)問(wèn)題上不適當(dāng)?shù)赜?接受原假設(shè) 的說(shuō)法犯了明顯的低級(jí)邏輯錯(cuò)誤假設(shè)檢驗(yàn)的過(guò)程和邏輯首先要提出一個(gè)原假設(shè) 比如某正態(tài)總體的均值等于5 m 5 這種原假設(shè)也稱為零假設(shè) nullhypothesis 記為H0 與此同時(shí)必須提出對(duì)立假設(shè) 比如總體均值大于5 m 5 對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè) alternativehypothesis 記為記為H1或Ha 假設(shè)檢驗(yàn)的過(guò)程和邏輯根據(jù)零假設(shè) 不是備選假設(shè) 我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值 realization 屬不屬于小概率事件也就是說(shuō)把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量看其值是否落入零假設(shè)下的小概率范疇如果的確是小概率事件那么我們就有可能拒絕零假設(shè) 否則我們說(shuō)沒(méi)有足夠證據(jù)拒絕零假設(shè) 假設(shè)檢驗(yàn)的過(guò)程和邏輯注意零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的因此如果發(fā)生矛盾當(dāng)然就對(duì)零假設(shè)不利了不發(fā)生矛盾也不說(shuō)明備選假設(shè)有問(wèn)題因?yàn)楹蛡溥x假設(shè)無(wú)關(guān) 假設(shè)檢驗(yàn)的過(guò)程和邏輯檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為p 值 p value 顯然得到很小p 值意味著小概率事件發(fā)生了如果小概率事件發(fā)生是相信零假設(shè) 還是相信數(shù)據(jù)呢當(dāng)然是相信數(shù)據(jù) 于是就拒絕零假設(shè) 但小概率并不能說(shuō)明不會(huì)發(fā)生僅僅發(fā)生的概率很小罷了拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類(lèi)錯(cuò)誤 typeIerror 假設(shè)檢驗(yàn)的過(guò)程和邏輯有第一類(lèi)錯(cuò)誤就有第二類(lèi)錯(cuò)誤那是備選零假設(shè)正確時(shí)反而說(shuō)零假設(shè)正確的錯(cuò)誤稱為第二類(lèi)錯(cuò)誤 typeIIerror 零假設(shè)和備選假設(shè)哪一個(gè)正確這是確定性的沒(méi)有概率可言而可能犯錯(cuò)誤的是人涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類(lèi)錯(cuò)誤的概率和犯第二類(lèi)錯(cuò)誤的概率負(fù)責(zé)的態(tài)度是無(wú)論做出什么決策都應(yīng)該給出犯錯(cuò)誤的概率假設(shè)檢驗(yàn)的過(guò)程和邏輯到底p 值是多小才能夠拒絕零假設(shè)呢也就是說(shuō) 需要有什么是小概率的標(biāo)準(zhǔn) 這要看具體應(yīng)用的需要但在一般的統(tǒng)計(jì)書(shū)和軟件中使用最多的標(biāo)準(zhǔn)是在零假設(shè)下或零假設(shè)正確時(shí) 抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0 05 也可能是0 01 0 005 0 001等等這種事先規(guī)定的概率稱為顯著性水平 significancelevel 用字母a來(lái)表示當(dāng)p 值小于或等于a時(shí) 就拒絕零假設(shè) 所以 a是所允許

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔