家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第1頁(yè)
家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第2頁(yè)
家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第3頁(yè)
家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第4頁(yè)
家具行業(yè)的相關(guān)統(tǒng)計(jì)知識(shí).ppt_第5頁(yè)
已閱讀5頁(yè),還剩72頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本課內(nèi)容包含 統(tǒng)計(jì)回顧主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對(duì)應(yīng)分析列聯(lián)表Logistic回歸Poisson對(duì)數(shù)線性模型時(shí)間序列分析 統(tǒng)計(jì)基本概念回顧 隨機(jī)性和規(guī)律性 現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 從中學(xué)起 我們就知道自然科學(xué)的許多定律 例如物理中的牛頓三定律 物質(zhì)不滅定律以及化學(xué)中的各種定律等等 但是在許多領(lǐng)域 很難用如此確定的公式或論述來(lái)描述一些現(xiàn)象 比如 人的壽命是很難預(yù)先確定的 一個(gè)吸煙 喝酒 不鍛煉 而且一口長(zhǎng)葷的人可能比一個(gè)很少得病 生活習(xí)慣良好的人活得長(zhǎng) 因此 可以說(shuō) 活得長(zhǎng)短是有一定隨機(jī)性的 randomness 這種隨機(jī)性可能和人的經(jīng)歷 基因 習(xí)慣等無(wú)數(shù)說(shuō)不清的因素都有關(guān)系 現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 但是從總體來(lái)說(shuō) 我國(guó)公民的平均年齡卻是非常穩(wěn)定的 而且女性的平均年齡也穩(wěn)定地比男性高幾年 這就是規(guī)律性 一個(gè)人可能活過(guò)這個(gè)平均年齡 也可能活不到這個(gè)年齡 這是隨機(jī)的 但是總體來(lái)說(shuō) 平均年齡的穩(wěn)定性 卻說(shuō)明了隨機(jī)之中有規(guī)律性 這種規(guī)律就是統(tǒng)計(jì)規(guī)律 概率和機(jī)會(huì) 你可能經(jīng)常聽(tīng)到概率 probability 這個(gè)名詞 例如在天氣預(yù)報(bào)中會(huì)提到降水概率 大家都明白 如果降水概率是百分之九十 那就很可能下雨 但如果是百分之十 就不大可能下雨 因此 從某種意義說(shuō)來(lái) 概率描述了某件事情發(fā)生的機(jī)會(huì) 顯然 這種概率不可能超過(guò)百分之百 也不可能少于百分之零 換言之 概率是在0和1之間的一個(gè)數(shù) 說(shuō)明某事件發(fā)生的機(jī)會(huì)有多大 有些概率是無(wú)法精確推斷的 比如你對(duì)別人說(shuō)你下一個(gè)周末去公園的概率是百分之八十 但你無(wú)法精確說(shuō)出為什么是百分之八十而不是百分之八十四或百分之七十八 其實(shí)你想說(shuō)的是你很可能去 但又沒(méi)有完全肯定 實(shí)際上 到了周末 你或者去 或者不去 不可能有分身術(shù)把百分之八十的你放到公園 而其余的放在別處 有些概率是可以估計(jì)的 比如擲骰子 只要沒(méi)有人在骰子上做手腳 你得到6點(diǎn)的概率應(yīng)該是六分之一 得到其他點(diǎn)的概率也是一樣 得到6的概率或者機(jī)會(huì)是可以知道的 但擲骰子的結(jié)果還只可能是六個(gè)數(shù)目之一 這個(gè)已知的規(guī)律就反映了規(guī)律性 而得到哪個(gè)結(jié)果則反映了隨機(jī)性 如果你擲1000次骰子 那么 大約有六分之一的可能會(huì)得到6 這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個(gè)體現(xiàn) 變量 做任何事情都要有對(duì)象 比如一個(gè)班上注冊(cè)的學(xué)生有200人 這是一個(gè)固定的數(shù)目 稱為常數(shù) constant 或者常量 但是 如果猜測(cè)今天這個(gè)班有多少人會(huì)來(lái)上課 那就沒(méi)準(zhǔn)了 這有隨機(jī)性 可能有請(qǐng)病假或事假的 也可能有逃課的 這樣 就要來(lái)上課的人數(shù)是個(gè)變量 variable 另外對(duì)于某項(xiàng)政策同意與否的回答 也有 同意 不同意 或者 不知道 三種可能值 這也是變量 只不過(guò)不是數(shù)量而已 變量 當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時(shí)該變量稱為定量變量或數(shù)量變量 quantitativevariable 因?yàn)槭请S機(jī)的 也稱為隨機(jī)變量 randomvariable 象性別 觀點(diǎn)之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞?qualitativevariable categoricalvariable 這些定性變量也可以由隨機(jī)變量來(lái)描述 比如男性和女性的數(shù)目 同意某政策人數(shù)的比例等等 只有當(dāng)變量用數(shù)量來(lái)描述時(shí) 才有可能建立數(shù)學(xué)模型 才可能使用計(jì)算機(jī)來(lái)分析 數(shù)據(jù) 有了變量的概念 什么是數(shù)據(jù)呢 拿擲骰子來(lái)說(shuō) 擲骰子會(huì)得到什么值 是個(gè)隨機(jī)變量 而每次取得1至6點(diǎn)中任意點(diǎn)數(shù)的概率它在理論上都是六分之一 如果骰子公平 這依賴于在擲骰子背后的理論或假定 而在實(shí)際擲骰子過(guò)程中 如果擲100次 會(huì)得到100個(gè)由1至6點(diǎn)組成的數(shù)字串 再擲100次 又得到一個(gè)數(shù)字串 和前一次的結(jié)果多半不一樣 這些試驗(yàn)結(jié)果就是數(shù)據(jù) 所以說(shuō) 數(shù)據(jù)是關(guān)于變量的觀測(cè)值 通過(guò)數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定 比如每一次得到每個(gè)點(diǎn)的概率是不是1 6等等 對(duì)于顧客是否喜歡某種飲品的調(diào)查也類似 但這里不象擲骰子那樣事先可以大致猜測(cè)顧客喜歡與否的概率 在問(wèn)了1000人之后 可能有364人說(shuō)喜歡 而480人說(shuō)不喜歡 其余的人可能不回答 或說(shuō)不知道 或從來(lái)沒(méi)有喝過(guò)這種飲料 這些數(shù)目就是數(shù)據(jù) 當(dāng)然 它僅僅反映了1000個(gè)被問(wèn)到的人的觀點(diǎn) 但這對(duì)于估計(jì)整個(gè)消費(fèi)群體的觀點(diǎn)還是有用的 統(tǒng)計(jì)和計(jì)算機(jī) 現(xiàn)代生活越來(lái)越離不開(kāi)計(jì)算機(jī)了 最早使用計(jì)算機(jī)的統(tǒng)計(jì)當(dāng)然更離不開(kāi)計(jì)算機(jī)了 事實(shí)上 最初的計(jì)算機(jī)僅僅是為科學(xué)計(jì)算而建造的 大型計(jì)算機(jī)的最早一批用戶就包含統(tǒng)計(jì) 而現(xiàn)在統(tǒng)計(jì)仍然是進(jìn)行數(shù)字計(jì)算最多的用戶 計(jì)算機(jī)現(xiàn)在早已脫離了僅有計(jì)算功能的單一模式 而成為百姓生活的一部分 計(jì)算機(jī)的使用 也從過(guò)去必須學(xué)會(huì)計(jì)算機(jī)語(yǔ)言到只需要 傻瓜式 地點(diǎn)擊鼠標(biāo) 結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式 統(tǒng)計(jì)軟件 統(tǒng)計(jì)軟件的發(fā)展 也使得統(tǒng)計(jì)從統(tǒng)計(jì)學(xué)家的圈內(nèi)游戲變成了大眾的游戲 只要你輸入你的數(shù)據(jù) 點(diǎn)幾下鼠標(biāo) 做一些選項(xiàng) 馬上就得到令人驚嘆的漂亮結(jié)果了 你可能會(huì)問(wèn) 是否傻瓜式的統(tǒng)計(jì)軟件使用可以代替統(tǒng)計(jì)課程了 當(dāng)然不是 數(shù)據(jù)的整理和識(shí)別 方法的選用 計(jì)算機(jī)輸出結(jié)果的理解都不象使用傻瓜相機(jī)那樣簡(jiǎn)單可靠 統(tǒng)計(jì)軟件 有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告 不時(shí)提醒你去咨詢專家 但統(tǒng)計(jì)軟件則不那么負(fù)責(zé) 只要數(shù)據(jù)格式無(wú)誤 方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果 而且沒(méi)有任何警告 另外 統(tǒng)計(jì)軟件輸出的結(jié)果太多 即使是同樣的方法 不同軟件輸出的內(nèi)容還不一樣 有時(shí)同樣的內(nèi)容名稱也不一樣 這就使得使用者大傷腦筋 即使是統(tǒng)計(jì)學(xué)家也不一定能解釋所有的輸出 因此 就應(yīng)該特別留神 明白自己是在干什么 不要在得到一堆毫無(wú)意義的垃圾之后還沾沾自喜 統(tǒng)計(jì)軟件 統(tǒng)計(jì)軟件的種類很多 有些功能齊全 有些價(jià)格便宜 有些容易操作 有些需要更多的實(shí)踐才能掌握 還有些是專門的軟件 只處理某一類統(tǒng)計(jì)問(wèn)題 面對(duì)太多的選擇往往給決策帶來(lái)困難 這里介紹最常見(jiàn)的幾種 統(tǒng)計(jì)軟件 SPSS 這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件 它容易操作 輸出漂亮 功能齊全 價(jià)格合理 對(duì)于非統(tǒng)計(jì)工作者是很好的選擇 Excel 它嚴(yán)格說(shuō)來(lái)并不是統(tǒng)計(jì)軟件 但作為數(shù)據(jù)表格軟件 必然有一定統(tǒng)計(jì)計(jì)算功能 而且凡是有MicrosoftOffice的計(jì)算機(jī) 基本上都裝有Excel 但要注意 有時(shí)在裝Office時(shí)沒(méi)有裝數(shù)據(jù)分析的功能 那就必須裝了才行 當(dāng)然 畫圖功能是都具備的 對(duì)于簡(jiǎn)單分析 Excel還算方便 但隨著問(wèn)題的深入 Excel就不那么 傻瓜 需要使用函數(shù) 甚至根本沒(méi)有相應(yīng)的方法了 多數(shù)專門一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專門的統(tǒng)計(jì)軟件來(lái)處理 SAS 這是功能非常齊全的軟件 盡管價(jià)格不菲 許多公司還是因?yàn)槠涔δ鼙姸嗪湍承┟绹?guó)政府機(jī)構(gòu)認(rèn)可而使用 盡管現(xiàn)在已經(jīng)盡量 傻瓜化 仍然需要一定的訓(xùn)練才可以進(jìn)入 對(duì)于基本統(tǒng)計(jì)課程則不那么方便 統(tǒng)計(jì)軟件 S plus 這是統(tǒng)計(jì)學(xué)家喜愛(ài)的軟件 不僅由于其功能齊全 而且由于其強(qiáng)大的編程功能 使得研究人員可以編制自己的程序來(lái)實(shí)現(xiàn)自己的理論和方法 它也在進(jìn)行 傻瓜化 以爭(zhēng)取顧客 但仍然以編程方便為顧客所青睞 R軟件 這是一個(gè)免費(fèi)的 由志愿者管理的軟件 其編程語(yǔ)言與S plus所基于的S語(yǔ)言一樣 很方便 還有不斷加入的各個(gè)方向統(tǒng)計(jì)學(xué)家編寫的統(tǒng)計(jì)軟件包 同時(shí)從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序 這是發(fā)展最快的軟件 受到世界上統(tǒng)計(jì)師生的歡迎 是用戶量增加最快的統(tǒng)計(jì)軟件 對(duì)于一般非統(tǒng)計(jì)工作者來(lái)說(shuō) 主要問(wèn)題是它沒(méi)有 傻瓜化 統(tǒng)計(jì)軟件 Minitab 這個(gè)軟件是很方便的功能強(qiáng)大而又齊全的軟件 也已經(jīng) 傻瓜化 在我國(guó)用的不如SPSS與SAS那么普遍 Statistica 也是功能強(qiáng)大而齊全的 傻瓜化 的軟件 在我國(guó)用的也不如SAS與SPSS那么普遍 Eviews 這是一個(gè)主要處理回歸和時(shí)間序列的軟件 GAUSS 這是一個(gè)很好用的統(tǒng)計(jì)軟件 許多搞經(jīng)濟(jì)的喜歡它 主要也是編程功能強(qiáng)大 目前在我國(guó)使用的人不多 FORTRAN 這是應(yīng)用于各個(gè)領(lǐng)域的歷史很長(zhǎng)的非常優(yōu)秀的編程軟件 功能強(qiáng)大 也有一定的統(tǒng)計(jì)軟件包 計(jì)算速度比這里介紹的都快得多 但需要編程和編譯 操作不那么容易 MATLAB 這也是應(yīng)用于各個(gè)領(lǐng)域的以編程為主的軟件 在工程上應(yīng)用廣泛 編程類似于S和R 但是統(tǒng)計(jì)方法不多 統(tǒng)計(jì)軟件 當(dāng)然 還有其他的軟件 沒(méi)有必要一一羅列 其實(shí) 聰明的讀者只要學(xué)會(huì)使用一種 傻瓜式 軟件 使用其他的僅僅是舉一反三之勞 最多看看幫助和說(shuō)明即可 如果只有英文幫助 那還可以順便提高你的英文閱讀能力 想想看 舉出你所知道的統(tǒng)計(jì)應(yīng)用例子 舉出日常生活中隨機(jī)性和規(guī)律性的例子 你使用過(guò)統(tǒng)計(jì)軟件或者利用過(guò)其他軟件中的統(tǒng)計(jì)功能嗎 你有什么經(jīng)驗(yàn)和體會(huì) 數(shù)據(jù)的收集 二手?jǐn)?shù)據(jù) 每天翻開(kāi)報(bào)紙或打開(kāi)電視 就可以看到各種數(shù)據(jù) 比如高速公路通車?yán)锍?物價(jià)指數(shù) 股票行情 外匯牌價(jià) 犯罪率 房?jī)r(jià) 流行病的有關(guān)數(shù)據(jù) 確診病例 疑似病例 死亡人數(shù)和出院人數(shù)等等 當(dāng)然還有國(guó)家統(tǒng)計(jì)局定期發(fā)布的各種國(guó)家經(jīng)濟(jì)數(shù)據(jù) 海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等 從中可以選取對(duì)自己有用的信息 這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù) 第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松 某些在華的外資企業(yè)每年至少要花三四千萬(wàn)元來(lái)收集和分析數(shù)據(jù) 他們調(diào)查其產(chǎn)品目前在市場(chǎng)中的狀況和地位并確定其競(jìng)爭(zhēng)對(duì)手的態(tài)勢(shì) 他們調(diào)查不同地區(qū) 不同階層的民眾對(duì)其產(chǎn)品的認(rèn)知程度和購(gòu)買意愿以改進(jìn)產(chǎn)品或推出新品種爭(zhēng)取新顧客 他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場(chǎng)和開(kāi)發(fā)新市場(chǎng) 市場(chǎng)信息數(shù)據(jù)對(duì)企業(yè)是至關(guān)重要的 他們很舍得在這方面花錢 因?yàn)檫@是企業(yè)生存所必需的 絕不是可有可無(wú)的 觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù) 上面所說(shuō)的數(shù)據(jù)是在自然的未被控制的條件下觀測(cè)到的 稱為觀測(cè)數(shù)據(jù) observationaldata 而對(duì)于有些問(wèn)題 比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同 不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒(méi)有區(qū)別 用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等 這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù) experimentaldata 總體和樣本 要想了解北京市民對(duì)建設(shè)北京交通設(shè)施是以包括軌道運(yùn)輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點(diǎn) 需要進(jìn)行調(diào)查 調(diào)查對(duì)象是所有北京市民 調(diào)查目的是希望知道市民中對(duì)這個(gè)問(wèn)題的不同看法各自占有的比例 顯然 不可能去問(wèn)所有的北京市民 而只能夠問(wèn)一部分 并且根據(jù)這一部分的觀點(diǎn)來(lái)理解整個(gè)北京市民的總體觀點(diǎn) 總體和樣本 這種情況下 稱所有 每個(gè) 北京市民對(duì)這個(gè)問(wèn)題的觀點(diǎn)為一個(gè)總體 population 而調(diào)查時(shí)問(wèn)到的那部分市民的觀點(diǎn)為該總體的一個(gè)樣本 sample 當(dāng)然 也有可能調(diào)查所有的人 比如人口普查 那叫做普查 census 總體是包含所有要研究的個(gè)體 element 的集合 而樣本是總體中選中的一部分 隨機(jī)樣本 在抽取樣本時(shí) 如果總體中的每一個(gè)體都有同等機(jī)會(huì)被選到樣本中 這種抽樣稱為簡(jiǎn)單隨機(jī)抽樣 simplerandomsampling 而這樣得到的樣本則稱為隨機(jī)樣本 randomsample 隨機(jī)樣本 就北京交通問(wèn)題的調(diào)查為例 在隨機(jī)抽樣的情況下 如果樣本量 samplesize 也就是樣本中個(gè)體的數(shù)目 在總體中的比例為1 5000 那么 無(wú)論在東城區(qū)或者在延慶縣 無(wú)論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問(wèn)到的人的比例都應(yīng)該大體是1 5000 也就是說(shuō) 這種比例在總體的任何部分是大體不變的 方便樣本 在實(shí)踐中 得到隨機(jī)樣本不容易 很多搞調(diào)查的人就采取簡(jiǎn)單的辦法 還以北京的交通問(wèn)題的調(diào)查為例 假定按照隨機(jī)選出的電話號(hào)碼進(jìn)行調(diào)查 這樣肯定節(jié)省時(shí)間和資源 但這樣得到的就不是一個(gè)隨機(jī)樣本了 如果按照隨機(jī)選擇的數(shù)字 無(wú)論號(hào)碼本上有沒(méi)有 打電話 那很多電話是空號(hào)或單位電話 顯然這種樣本也不是隨機(jī)樣本 它稱為方便樣本 conveniencesample 在調(diào)查中 即使選擇對(duì)象的確是隨機(jī)的 最理想的情況所得到的樣本也只代表那些愿意回答問(wèn)題人的觀點(diǎn)所組成的總體 沒(méi)有回答問(wèn)題的人的觀點(diǎn)永遠(yuǎn)不會(huì)被這種調(diào)查的樣本所代表 方便樣本 這種不回答的問(wèn)題是抽樣調(diào)查特有的問(wèn)題 在其他問(wèn)題中 也有使用方便樣本的情況 比如在肺癌研究中 人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù) 這些數(shù)據(jù)并不是整個(gè)人群中采集的隨機(jī)樣本 它們可能只是醫(yī)院中的病人記錄中得到的 在雜志和報(bào)紙上也有問(wèn)卷 但得到的只是擁有這份報(bào)刊 而且愿意回答的人的觀點(diǎn) 誤差 假定在某一職業(yè)人群中女性占的比例為60 如果在這個(gè)人群中抽取一些隨機(jī)樣本 這些隨機(jī)樣本中女性的比例并不一定是剛好60 可能稍微多些或稍微少些 這是很正常的 因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣 這種差異不是錯(cuò)誤 而是必然會(huì)出現(xiàn)的抽樣誤差 samplingerror 剛才提到在抽樣調(diào)查中 一些人因?yàn)榉N種原因沒(méi)有對(duì)調(diào)查作出反映 或回答 這種誤差稱為未響應(yīng)誤差 nonresponseerror 而另有一些人因?yàn)楦鞣N原因回答時(shí)并沒(méi)有真實(shí)反映他們的觀點(diǎn) 這稱為響應(yīng)誤差 responseerror 和抽樣誤差不一樣 未響應(yīng)誤差和響應(yīng)誤差都會(huì)影響對(duì)真實(shí)世界的了解 應(yīng)該在設(shè)計(jì)調(diào)查方案時(shí)盡量避免 抽樣調(diào)查的一些常用方法 在抽樣調(diào)查時(shí) 最理想的樣本是前面提到的隨機(jī)樣本 但是由于實(shí)踐起來(lái)不方便 在大規(guī)模調(diào)查時(shí)一般不用這種全部隨機(jī)抽樣的方式 而只是在局部采用隨機(jī)抽樣的方法 下面介紹幾種抽樣方法 這里沒(méi)有深?yuàn)W的理論 讀者完全可以根據(jù)常識(shí)判斷在什么情況下簡(jiǎn)單的隨機(jī)樣本不方便以及下面的每個(gè)方法有什么好處和缺陷 對(duì)于它們具體的設(shè)計(jì) 實(shí)施與數(shù)據(jù)分析 有許多專門的書籍 就不在這里贅述了 一些抽樣方法 1 分層抽樣 stratifiedsampling 這是先把要研究的總體按照某些性質(zhì)分類 stratum 再在各類中分別抽取樣本 在每類中調(diào)查的人數(shù)通常是按照這該類人的比例 但出于各種考慮 也可能不按照比例 也可能需要加權(quán) 加權(quán)就是在求若干項(xiàng)的和時(shí) 對(duì)各項(xiàng)乘以不同的系數(shù) 這些系數(shù)的和通常為1 比如可以按照教育程度把要訪問(wèn)的人群分成幾類 再在每一類中調(diào)查和該類成比例數(shù)目的人 這樣就確保了每一類都有成比例的代表 一些抽樣方法 2 整群抽樣 clustersampling 這是先把總體劃分成若干群 cluster 再 通常是隨機(jī)地 從這些群中抽取幾群 然后再在這些抽取的群中對(duì)個(gè)體進(jìn)行抽樣 比如 在某縣進(jìn)行調(diào)查 首先在所有村中選取若干村子 然后只對(duì)這些村子的人進(jìn)行調(diào)查 顯然 如果各村情況差異不大 這種抽樣還是方便的 否則就會(huì)增大誤差了 一些抽樣方法 3 多級(jí)抽樣 multistagesampling 在群體很大時(shí) 往往在抽取若干群之后 再在其中抽取若干子群 甚至再在子群中抽取子群 等等 最后只對(duì)最后選定的最下面一級(jí)進(jìn)行調(diào)查 比如在全國(guó)調(diào)查時(shí) 先抽取省 再抽取市地 再抽取縣區(qū) 再抽取鄉(xiāng) 村直到戶 在多級(jí)抽樣中的每一級(jí)都可能采取各種抽樣方法 因此 整個(gè)抽樣計(jì)劃可能比較復(fù)雜 也稱為多級(jí)混和型抽樣 一些抽樣方法 4 系統(tǒng)抽樣 systematicsampling 這是先把總體中的每個(gè)單元編號(hào) 然后隨機(jī)選取其中之一作為抽樣的開(kāi)始點(diǎn)進(jìn)行抽樣 如果編號(hào)是隨機(jī)選取的 則這和簡(jiǎn)單隨機(jī)抽樣是等價(jià)的 在選取開(kāi)始點(diǎn)之后 通常從開(kāi)始點(diǎn)開(kāi)始按照編號(hào)進(jìn)行所謂等距抽樣 也就是說(shuō) 如果開(kāi)始點(diǎn)為5號(hào) 距離 為10 則下面的調(diào)查對(duì)象為15號(hào) 25號(hào)等等 抽樣方法的選擇不能一概而論 實(shí)際上每個(gè)抽樣通常都可能是各種抽樣方法的組合 既要考慮精確度 還要根據(jù)客觀情況考慮方便性 可行性和經(jīng)濟(jì)性 不能一概而論 計(jì)算機(jī)中常用的數(shù)據(jù)形式 數(shù)據(jù)是由一些變量和它們的觀測(cè)值所組成 下面就是調(diào)查人們對(duì)某個(gè)問(wèn)題觀點(diǎn)的一個(gè)數(shù)據(jù)的方陣形式 其中有6個(gè)變量 觀點(diǎn) 觀測(cè)值為支持 反對(duì)和不知道三種 教育程度 有高中低三種取值 用H M L表示 月收入 取值為實(shí)際數(shù)字 性別 取值有男女兩個(gè) 用M和F表示 以及地區(qū)號(hào) 用數(shù)字1 2 3 4表示 等 該表一共有1364個(gè)觀測(cè)值 問(wèn)卷回答 可以看出這些變量有定性 屬性 變量 也有定量 數(shù)值 變量 按照這個(gè)數(shù)據(jù)的格式 每一列為一個(gè)變量的不同觀測(cè)值 而每一行則稱為一個(gè)觀測(cè)值 它是個(gè)由數(shù)量值和屬性值組成的向量 每一個(gè)值相應(yīng)于一個(gè)變量 思考 1 舉出一些觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子 2 舉出簡(jiǎn)單隨機(jī)樣本的例子 3 根據(jù)你的經(jīng)驗(yàn) 舉出總體和樣本的一些具體例子 4 舉出調(diào)查抽樣時(shí)可能發(fā)生的各種影響調(diào)查結(jié)果的問(wèn)題 并且提出你認(rèn)為可以減少或避免這些問(wèn)題的建議 5 根據(jù)你的直覺(jué) 本章提到的幾種抽樣方法的優(yōu)缺點(diǎn)是什么 原因何在 6 舉出一些書報(bào)上發(fā)表的數(shù)據(jù)例子 并指出那些是變量 哪些是觀測(cè)值 數(shù)據(jù)的描述 如同給人畫像一樣 直方圖 比如某個(gè)地區(qū) 地區(qū)1 學(xué)校高三男生的身高 有163個(gè)度量如何用圖形來(lái)表示這個(gè)數(shù)據(jù) 使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或 形狀 呢 一個(gè)辦法就是畫一個(gè)直方圖 histogram 盒型圖 比直方圖簡(jiǎn)單一些的是盒形圖 boxplot 又稱箱圖 箱線圖 盒子圖 后面圖的左邊一個(gè)是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖 其右邊的圖代表另一個(gè)地區(qū) 地區(qū)2 的高三學(xué)生的身高 莖葉圖 地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖 HEIGHTStem and LeafPlotFrequencyStem Leaf9 0015 00122334417 0015 5566666777889999920 0016 0111222222333333344435 0016 5555566666666777778888888888899999925 0017 000000001111222223333334424 0017 55566667777777777788889913 0018 011111112233311 0018 556677888994 0019 23332 0019 563 00Extremes 198 Stemwidth 10 00Eachleaf 1case s 散點(diǎn)圖 往往人們得到的數(shù)據(jù)有兩個(gè)變量的 比如美國(guó)男士和女士初婚年限的數(shù)據(jù) 該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時(shí)間的中位數(shù) 當(dāng)然 不可能將所有人的婚姻年限都給出來(lái) 所以 每年就取了一個(gè)中間的值 中位數(shù) 作為代表 自1900到1960年是每十年一個(gè)值 以后到1990是每五年取一個(gè)數(shù) 1995年以后是每年一個(gè)數(shù) 這里的一個(gè)變量為記錄年份 另一個(gè)是結(jié)婚時(shí)間長(zhǎng)短 由于分男士和女士 因此有兩二維數(shù)據(jù) 這時(shí)可以以一個(gè)變量為橫坐標(biāo) 如年份 另一個(gè)為縱坐標(biāo) 這里是結(jié)婚年限 來(lái)點(diǎn)圖 這種圖稱為散點(diǎn)圖 scatterplot 還可以看出在二十世紀(jì)六十年代婚姻年限降低 而后來(lái)又升高 而男子的年限平均比女性長(zhǎng) 這個(gè)圖是用SPSS畫的 定性變量的點(diǎn)圖 定性變量 或?qū)傩宰兞?分類變量 不能點(diǎn)出直方圖 散點(diǎn)圖或莖葉圖 但可以描繪出它們各類的比例 下面用SPSS繪的圖表示了說(shuō)世界各種主要語(yǔ)言的人數(shù)的比例 餅圖 條形圖 匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量 summarystatistic 匯總統(tǒng)計(jì)量 位置 均值 mean 中位數(shù) median 第一 第三 四分位數(shù) 點(diǎn) firstquantile thirdquantile k 百分位數(shù) k percentile 眾數(shù) mode 匯總統(tǒng)計(jì)量 尺度 scalestatistic 極差 range 四分位間距 四分位極差 interquantilerange 標(biāo)準(zhǔn)差 standarddeviation 方差 variance 兩個(gè)尺度不同的數(shù)據(jù)的直方圖 左邊的標(biāo)準(zhǔn)差大約只有右邊的一半 數(shù)據(jù)的標(biāo)準(zhǔn)得分 standardscore 兩個(gè)水平類似的班級(jí) 一班和二班 上同一門課 但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同 使得兩個(gè)班成績(jī)的均值和標(biāo)準(zhǔn)差都不一樣 數(shù)據(jù) grade sav 一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為78 53和9 43 而二班的均值和標(biāo)準(zhǔn)差分別為70 19和7 00 那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績(jī)更好呢 怎么比較才能合理呢 雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較 但是可以把它們進(jìn)行標(biāo)準(zhǔn)化 然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù) 一個(gè)標(biāo)準(zhǔn)化的方法是把原始觀測(cè)值 亦稱得分 score 和均值之差除以標(biāo)準(zhǔn)差 得到的度量稱為標(biāo)準(zhǔn)得分 standardscore 思考 1 根據(jù)你的經(jīng)驗(yàn) 給出定性和定量變量的例子 2 對(duì)于問(wèn)題1中你的例子 試圖畫出各種描述性圖形并計(jì)算匯總統(tǒng)計(jì)量 3 舉例說(shuō)明眾數(shù) 中位數(shù)和均值的優(yōu)缺點(diǎn) 4 舉例說(shuō)明尺度統(tǒng)計(jì)量說(shuō)明了數(shù)據(jù)的什么特性 5 標(biāo)準(zhǔn)得分實(shí)際上是對(duì)原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化 試舉出標(biāo)準(zhǔn)得分的用處 統(tǒng)計(jì)推斷 從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過(guò)程 估計(jì) 總體它代表我們所關(guān)心的那部分現(xiàn)實(shí)世界 而在利用樣本中的信息來(lái)對(duì)總體進(jìn)行推斷之前人們一般對(duì)代表總體的變量假定了分布族 比如假定人們的身高屬于正態(tài)分布族 對(duì)抽樣調(diào)查假定了二項(xiàng)分布族等等 這些模型基本上是根據(jù)經(jīng)驗(yàn)來(lái)假定的 所以僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似 在假定了總體分布族之后 進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問(wèn)題的分布 由于分布族成員是由參數(shù)確定的 如果參數(shù)能夠估計(jì) 對(duì)總體的具體分布就知道得差不多了 估計(jì) 一種是點(diǎn)估計(jì) pointestimation 也就是用估計(jì)量的實(shí)現(xiàn)值來(lái)近似相應(yīng)的總體參數(shù) 另一種是區(qū)間估計(jì) intervalestimation 它是包括估計(jì)量在內(nèi) 有時(shí)是以估計(jì)量為中心 的一個(gè)區(qū)間 該區(qū)間被認(rèn)為很可能包含總體參數(shù) 點(diǎn)估計(jì)給出一個(gè)數(shù)字 用起來(lái)很方便 而區(qū)間估計(jì)給出一個(gè)區(qū)間 說(shuō)起來(lái)留有余地 不象點(diǎn)估計(jì)那么絕對(duì) 無(wú)偏估計(jì) 大樣本性質(zhì) 區(qū)間估計(jì)的置信度 大樣本性質(zhì) 估計(jì) 注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成 有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差 即置信區(qū)間 并不說(shuō)明置信度 也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn) 因?yàn)榻档椭眯哦瓤梢允怪眯艆^(qū)間變窄 顯得 精確 有誤導(dǎo)讀者之嫌 如果給出被調(diào)查的人數(shù) 則內(nèi)行可以由推算出置信度 由后面給出的公式 反之亦然 一個(gè)描述性例子 一個(gè)有10000個(gè)人回答的調(diào)查顯示 同意某種觀點(diǎn)的人的比例為70 有7000人同意 可以算出總體中同意該觀點(diǎn)的比例的95 置信區(qū)間為 0 691 0 709 另一個(gè)調(diào)查聲稱有70 的比例反對(duì)該種觀點(diǎn) 還說(shuō)總體中反對(duì)該觀點(diǎn)的置信區(qū)間也是 0 691 0 709 到底相信誰(shuí)呢 實(shí)際上 第二個(gè)調(diào)查隱瞞了置信度 等價(jià)于隱瞞了樣本量 如果第二個(gè)調(diào)查僅僅調(diào)查了50個(gè)人 有35個(gè)人反對(duì)該觀點(diǎn) 根據(jù)后面的公式可以算出 第二個(gè)調(diào)查的置信區(qū)間的置信度僅有11 假設(shè)檢驗(yàn) 在假設(shè)檢驗(yàn)中 一般要設(shè)立一個(gè)原假設(shè) 而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來(lái)找出假設(shè)和現(xiàn)實(shí)的矛盾 從而否定這個(gè)假設(shè) 在多數(shù)統(tǒng)計(jì)教科書中 除了理論探討之外 的假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo) 如果否定不了 那就說(shuō)明證據(jù)不足 無(wú)法否定原假設(shè) 但這不能說(shuō)明原假設(shè)正確 很多教科書在這個(gè)問(wèn)題上不適當(dāng)?shù)赜?接受原假設(shè) 的說(shuō)法 犯了明顯的低級(jí)邏輯錯(cuò)誤 假設(shè)檢驗(yàn)的過(guò)程和邏輯 首先要提出一個(gè)原假設(shè) 比如某正態(tài)總體的均值等于5 m 5 這種原假設(shè)也稱為零假設(shè) nullhypothesis 記為H0 與此同時(shí)必須提出對(duì)立假設(shè) 比如總體均值大于5 m 5 對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè) alternativehypothesis 記為記為H1或Ha 假設(shè)檢驗(yàn)的過(guò)程和邏輯 根據(jù)零假設(shè) 不是備選假設(shè) 我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布 然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值 realization 屬不屬于小概率事件 也就是說(shuō)把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量 看其值是否落入零假設(shè)下的小概率范疇 如果的確是小概率事件 那么我們就有可能拒絕零假設(shè) 否則我們說(shuō)沒(méi)有足夠證據(jù)拒絕零假設(shè) 假設(shè)檢驗(yàn)的過(guò)程和邏輯 注意 零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱 因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的 因此 如果發(fā)生矛盾 當(dāng)然就對(duì)零假設(shè)不利了 不發(fā)生矛盾也不說(shuō)明備選假設(shè)有問(wèn)題 因?yàn)楹蛡溥x假設(shè)無(wú)關(guān) 假設(shè)檢驗(yàn)的過(guò)程和邏輯 檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為p 值 p value 顯然得到很小p 值意味著小概率事件發(fā)生了 如果小概率事件發(fā)生 是相信零假設(shè) 還是相信數(shù)據(jù)呢 當(dāng)然是相信數(shù)據(jù) 于是就拒絕零假設(shè) 但小概率并不能說(shuō)明不會(huì)發(fā)生 僅僅發(fā)生的概率很小罷了 拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤 typeIerror 假設(shè)檢驗(yàn)的過(guò)程和邏輯 有第一類錯(cuò)誤 就有第二類錯(cuò)誤 那是備選零假設(shè)正確時(shí)反而說(shuō)零假設(shè)正確的錯(cuò)誤 稱為第二類錯(cuò)誤 typeIIerror 零假設(shè)和備選假設(shè)哪一個(gè)正確 這是確定性的 沒(méi)有概率可言 而可能犯錯(cuò)誤的是人 涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率 負(fù)責(zé)的態(tài)度是無(wú)論做出什么決策 都應(yīng)該給出犯錯(cuò)誤的概率 假設(shè)檢驗(yàn)的過(guò)程和邏輯 到底p 值是多小才能夠拒絕零假設(shè)呢 也就是說(shuō) 需要有什么是小概率的標(biāo)準(zhǔn) 這要看具體應(yīng)用的需要 但在一般的統(tǒng)計(jì)書和軟件中 使用最多的標(biāo)準(zhǔn)是在零假設(shè)下 或零假設(shè)正確時(shí) 抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0 05 也可能是0 01 0 005 0 001等等 這種事先規(guī)定的概率稱為顯著性水平 significancelevel 用字母a來(lái)表示 當(dāng)p 值小于或等于a時(shí) 就拒絕零假設(shè) 所以 a是所允許

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論