珠寶行業(yè)統(tǒng)計研究報告課件

上傳人：s*** IP屬地：貴州上傳時間：2022-12-18 格式：PPTX 頁數(shù)：154 大?。?27.82KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩149頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

本課內(nèi)容包含統(tǒng)計回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析。。。。本課內(nèi)容包含統(tǒng)計回顧1統(tǒng)計基本概念回顧統(tǒng)計基本概念回顧2隨機性和規(guī)律性隨機性和3現(xiàn)實中的隨機性和規(guī)律性從中學起，我們就知道自然科學的許多定律，例如物理中的牛頓三定律，物質(zhì)不滅定律以及化學中的各種定律等等。但是在許多領(lǐng)域，很難用如此確定的公式或論述來描述一些現(xiàn)象。比如，人的壽命是很難預先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此，可以說，活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經(jīng)歷、基因、習慣等無數(shù)說不清的因素都有關(guān)系。現(xiàn)實中的隨機性和規(guī)律性從中學起，我們就知道自然科學的許多定律4現(xiàn)實中的隨機性和規(guī)律性但是從總體來說，我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個平均年齡，也可能活不到這個年齡，這是隨機的。但是總體來說，平均年齡的穩(wěn)定性，卻說明了隨機之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。現(xiàn)實中的隨機性和規(guī)律性但是從總體來說，我國公民的平均年齡卻是5概率和機會你可能經(jīng)常聽到概率（probability）這個名詞。例如在天氣預報中會提到降水概率。大家都明白，如果降水概率是百分之九十，那就很可能下雨；但如果是百分之十，就不大可能下雨。因此，從某種意義說來，概率描述了某件事情發(fā)生的機會。顯然，這種概率不可能超過百分之百，也不可能少于百分之零。換言之，概率是在0和1之間的一個數(shù)，說明某事件發(fā)生的機會有多大。概率和機會你可能經(jīng)常聽到概率（probability）這個名6有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去，但又沒有完全肯定。實際上，到了周末，你或者去，或者不去；不可能有分身術(shù)把百分之八十的你放到公園，而其余的放在別處。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概7有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳，你得到6點的概率應該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機會是可以知道的，但擲骰子的結(jié)果還只可能是六個數(shù)目之一。這個已知的規(guī)律就反映了規(guī)律性，而得到哪個結(jié)果則反映了隨機性。如果你擲1000次骰子，那么，大約有六分之一的可能會得到6；這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn)。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳，你8變量做任何事情都要有對象。比如一個班上注冊的學生有200人，這是一個固定的數(shù)目，稱為常數(shù)（constant）或者常量。但是，如果猜測今天這個班有多少人會來上課，那就沒準了。這有隨機性。可能有請病假或事假的，也可能有逃課的。這樣，就要來上課的人數(shù)是個變量(variable)。另外對于某項政策同意與否的回答，也有“同意”、“不同意”或者“不知道”三種可能值；這也是變量，只不過不是數(shù)量而已。變量做任何事情都要有對象。比如一個班上注冊的學生有200人，9變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量（quantitativevariable）；因為是隨機的，也稱為隨機變量（randomvariable）。象性別，觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable，categoricalvariable）。這些定性變量也可以由隨機變量來描述，比如男性和女性的數(shù)目，同意某政策人數(shù)的比例等等。只有當變量用數(shù)量來描述時，才有可能建立數(shù)學模型，才可能使用計算機來分析。變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)10數(shù)據(jù)有了變量的概念，什么是數(shù)據(jù)呢？拿擲骰子來說，擲骰子會得到什么值，是個隨機變量；而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一（如果骰子公平）。這依賴于在擲骰子背后的理論或假定；而在實際擲骰子過程中，如果擲100次，會得到100個由1至6點組成的數(shù)字串；再擲100次，又得到一個數(shù)字串，和前一次的結(jié)果多半不一樣。這些試驗結(jié)果就是數(shù)據(jù)。所以說,數(shù)據(jù)是關(guān)于變量的觀測值.通過數(shù)據(jù)可以驗證有關(guān)的理論或假定（比如每一次得到每個點的概率是不是1/6等等）。對于顧客是否喜歡某種飲品的調(diào)查也類似，但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否的概率。在問了1000人之后，可能有364人說喜歡，而480人說不喜歡，其余的人可能不回答，或說不知道，或從來沒有喝過這種飲料。這些數(shù)目就是數(shù)據(jù)。當然，它僅僅反映了1000個被問到的人的觀點；但這對于估計整個消費群體的觀點還是有用的。數(shù)據(jù)有了變量的概念，什么是數(shù)據(jù)呢？拿擲骰子來說，擲骰子會得到11統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了。最早使用計算機的統(tǒng)計當然更離不開計算機了。事實上，最初的計算機僅僅是為科學計算而建造的。大型計算機的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進行數(shù)字計算最多的用戶。計算機現(xiàn)在早已脫離了僅有計算功能的單一模式，而成為百姓生活的一部分。計算機的使用，也從過去必須學會計算機語言到只需要“傻瓜式”地點擊鼠標。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了。最早使用計算機的12統(tǒng)計軟件統(tǒng)計軟件的發(fā)展，也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了大眾的游戲。只要你輸入你的數(shù)據(jù)，點幾下鼠標，做一些選項，馬上就得到令人驚嘆的漂亮結(jié)果了。你可能會問，是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了？當然不是。數(shù)據(jù)的整理和識別，方法的選用，計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠。統(tǒng)計軟件統(tǒng)計軟件的發(fā)展，也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了13統(tǒng)計軟件有些諸如法律和醫(yī)學方面的軟件都有不少警告，不時提醒你去咨詢專家。但統(tǒng)計軟件則不那么負責。只要數(shù)據(jù)格式無誤、方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果，而且沒有任何警告。另外，統(tǒng)計軟件輸出的結(jié)果太多；即使是同樣的方法，不同軟件輸出的內(nèi)容還不一樣；有時同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計學家也不一定能解釋所有的輸出。因此，就應該特別留神，明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。統(tǒng)計軟件有些諸如法律和醫(yī)學方面的軟件都有不少警告，不時提醒你14統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全，有些價格便宜；有些容易操作，有些需要更多的實踐才能掌握。還有些是專門的軟件，只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全，有些價格便宜；有些15統(tǒng)計軟件SPSS：這是一個很受歡迎的統(tǒng)計軟件；它容易操作，輸出漂亮，功能齊全，價格合理。對于非統(tǒng)計工作者是很好的選擇。Excel：它嚴格說來并不是統(tǒng)計軟件，但作為數(shù)據(jù)表格軟件，必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機，基本上都裝有Excel。但要注意，有時在裝Office時沒有裝數(shù)據(jù)分析的功能，那就必須裝了才行。當然，畫圖功能是都具備的。對于簡單分析，Excel還算方便，但隨著問題的深入，Excel就不那么“傻瓜”，需要使用函數(shù)，甚至根本沒有相應的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。SAS：這是功能非常齊全的軟件；盡管價格不菲，許多公司還是因為其功能眾多和某些美國政府機構(gòu)認可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”，仍然需要一定的訓練才可以進入。對于基本統(tǒng)計課程則不那么方便。統(tǒng)計軟件SPSS：這是一個很受歡迎的統(tǒng)計軟件；它容易操作，輸16統(tǒng)計軟件S-plus：這是統(tǒng)計學家喜愛的軟件。不僅由于其功能齊全，而且由于其強大的編程功能，使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。R軟件：這是一個免費的，由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣，很方便。還有不斷加入的各個方向統(tǒng)計學家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件，受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。對于一般非統(tǒng)計工作者來說，主要問題是它沒有“傻瓜化”。統(tǒng)計軟件S-plus：這是統(tǒng)計學家喜愛的軟件。不僅由于其功能17統(tǒng)計軟件Minitab：這個軟件是很方便的功能強大而又齊全的軟件，也已經(jīng)“傻瓜化”，在我國用的不如SPSS與SAS那么普遍。Statistica：也是功能強大而齊全的“傻瓜化”的軟件，在我國用的也不如SAS與SPSS那么普遍。Eviews：這是一個主要處理回歸和時間序列的軟件。GAUSS：這是一個很好用的統(tǒng)計軟件，許多搞經(jīng)濟的喜歡它。主要也是編程功能強大。目前在我國使用的人不多。FORTRAN：這是應用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件，功能強大，也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。MATLAB：這也是應用于各個領(lǐng)域的以編程為主的軟件，在工程上應用廣泛。編程類似于S和R。但是統(tǒng)計方法不多。統(tǒng)計軟件Minitab：這個軟件是很方便的功能強大而又齊全的18統(tǒng)計軟件當然，還有其他的軟件，沒有必要一一羅列。其實，聰明的讀者只要學會使用一種“傻瓜式”軟件，使用其他的僅僅是舉一反三之勞；最多看看幫助和說明即可。如果只有英文幫助，那還可以順便提高你的英文閱讀能力。統(tǒng)計軟件當然，還有其他的軟件，沒有必要一一羅列。其實，聰明的19想想看舉出你所知道的統(tǒng)計應用例子。舉出日常生活中隨機性和規(guī)律性的例子。你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎？你有什么經(jīng)驗和體會？想想看舉出你所知道的統(tǒng)計應用例子。20數(shù)據(jù)的收集數(shù)據(jù)的收集21二手數(shù)據(jù)每天翻開報紙或打開電視，就可以看到各種數(shù)據(jù)。比如高速公路通車里程、物價指數(shù)、股票行情、外匯牌價、犯罪率、房價、流行病的有關(guān)數(shù)據(jù)（確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等）；當然還有國家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟數(shù)據(jù)、海關(guān)發(fā)布的進出口貿(mào)易數(shù)據(jù)等等。從中可以選取對自己有用的信息。這些間接得到的數(shù)據(jù)都是二手數(shù)據(jù)。二手數(shù)據(jù)每天翻開報紙或打開電視，就可以看到各種數(shù)據(jù)。比如高速22第一手數(shù)據(jù)獲得第一手數(shù)據(jù)并不象得到二手數(shù)據(jù)那么輕松。某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù)。他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢；他們調(diào)查不同地區(qū)，不同階層的民眾對其產(chǎn)品的認知程度和購買意愿以改進產(chǎn)品或推出新品種爭取新顧客；他們還收集各地方的經(jīng)濟交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場。市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的。他們很舍得在這方面花錢。因為這是企業(yè)生存所必需的，絕不是可有可無的。第一手數(shù)據(jù)獲得第一手數(shù)據(jù)并不象得到二手數(shù)據(jù)那么輕松。23觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的，稱為觀測數(shù)據(jù)(observationaldata)。而對于有些問題，比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、用什么成分可以提高某物質(zhì)變成超導體的溫度等等。這種在人工干預和操作情況下收集的數(shù)據(jù)就稱為試驗數(shù)據(jù)(experimentaldata)。

觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀24總體和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點，需要進行調(diào)查；調(diào)查對象是所有北京市民，調(diào)查目的是希望知道市民中對這個問題的不同看法各自占有的比例。顯然，不可能去問所有的北京市民，而只能夠問一部分；并且根據(jù)這一部分的觀點來理解整個北京市民的總體觀點。總體和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運25總體和樣本這種情況下，稱所有（每個）北京市民對這個問題的觀點為一個總體(population)，而調(diào)查時問到的那部分市民的觀點為該總體的一個樣本(sample)。當然，也有可能調(diào)查所有的人（比如人口普查），那叫做普查(census)。總體是包含所有要研究的個體(element)的集合。而樣本是總體中選中的一部分。

總體和樣本這種情況下，稱所有（每個）北京市民對這個問題的觀26隨機樣本在抽取樣本時，如果總體中的每一個體都有同等機會被選到樣本中，這種抽樣稱為簡單隨機抽樣（simplerandomsampling），而這樣得到的樣本則稱為隨機樣本（randomsample）。隨機樣本在抽取樣本時，如果總體中的每一個體都有同等機會被選到27隨機樣本就北京交通問題的調(diào)查為例，在隨機抽樣的情況下，如果樣本量（samplesize，也就是樣本中個體的數(shù)目）在總體中的比例為1/5000，那么，無論在東城區(qū)或者在延慶縣，無論在白領(lǐng)階層還是藍領(lǐng)階層被問到的人的比例都應該大體是1/5000。也就是說，這種比例在總體的任何部分是大體不變的。隨機樣本就北京交通問題的調(diào)查為例，在隨機抽樣的情況下，如果樣28方便樣本在實踐中，得到隨機樣本不容易。很多搞調(diào)查的人就采取簡單的辦法。還以北京的交通問題的調(diào)查為例。假定按照隨機選出的電話號碼進行調(diào)查。這樣肯定節(jié)省時間和資源，但這樣得到的就不是一個隨機樣本了。如果按照隨機選擇的數(shù)字（無論號碼本上有沒有）打電話，那很多電話是空號或單位電話；顯然這種樣本也不是隨機樣本，它稱為方便樣本（conveniencesample）。在調(diào)查中，即使選擇對象的確是隨機的，最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點所組成的總體；沒有回答問題的人的觀點永遠不會被這種調(diào)查的樣本所代表。方便樣本在實踐中，得到隨機樣本不容易。很多搞調(diào)查的人就采取簡29方便樣本這種不回答的問題是抽樣調(diào)查特有的問題。在其他問題中，也有使用方便樣本的情況。比如在肺癌研究中，人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù)；這些數(shù)據(jù)并不是整個人群中采集的隨機樣本；它們可能只是醫(yī)院中的病人記錄中得到的。在雜志和報紙上也有問卷，但得到的只是擁有這份報刊，而且愿意回答的人的觀點。方便樣本這種不回答的問題是抽樣調(diào)查特有的問題。30誤差

假定在某一職業(yè)人群中女性占的比例為60%。如果在這個人群中抽取一些隨機樣本，這些隨機樣本中女性的比例并不一定是剛好60％，可能稍微多些或稍微少些。這是很正常的，因為樣本的特征不一定和總體完全一樣。這種差異不是錯誤，而是必然會出現(xiàn)的抽樣誤差（samplingerror）。剛才提到在抽樣調(diào)查中，一些人因為種種原因沒有對調(diào)查作出反映（或回答），這種誤差稱為未響應誤差（nonresponseerror）。而另有一些人因為各種原因回答時并沒有真實反映他們的觀點，這稱為響應誤差（responseerror）。和抽樣誤差不一樣，未響應誤差和響應誤差都會影響對真實世界的了解；應該在設(shè)計調(diào)查方案時盡量避免。誤差假定在某一職業(yè)人群中女性占的比例為60%。如果在這個人31抽樣調(diào)查的一些常用方法在抽樣調(diào)查時，最理想的樣本是前面提到的隨機樣本。但是由于實踐起來不方便，在大規(guī)模調(diào)查時一般不用這種全部隨機抽樣的方式，而只是在局部采用隨機抽樣的方法。下面介紹幾種抽樣方法。這里沒有深奧的理論；讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機樣本不方便以及下面的每個方法有什么好處和缺陷。對于它們具體的設(shè)計、實施與數(shù)據(jù)分析，有許多專門的書籍，就不在這里贅述了。抽樣調(diào)查的一些常用方法在抽樣調(diào)查時，最理想的樣本是前面提到32一些抽樣方法1．分層抽樣（stratifiedsampling）。這是先把要研究的總體按照某些性質(zhì)分類（stratum），再在各類中分別抽取樣本。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例，但出于各種考慮，也可能不按照比例，也可能需要加權(quán)（加權(quán)就是在求若干項的和時，對各項乘以不同的系數(shù)，這些系數(shù)的和通常為1）。比如可以按照教育程度把要訪問的人群分成幾類；再在每一類中調(diào)查和該類成比例數(shù)目的人。這樣就確保了每一類都有成比例的代表。一些抽樣方法1．分層抽樣（stratifiedsamp33一些抽樣方法2.整群抽樣（clustersampling）。這是先把總體劃分成若干群（cluster），再（通常是隨機地）從這些群中抽取幾群；然后再在這些抽取的群中對個體進行抽樣。比如，在某縣進行調(diào)查，首先在所有村中選取若干村子，然后只對這些村子的人進行調(diào)查。顯然，如果各村情況差異不大，這種抽樣還是方便的。否則就會增大誤差了。一些抽樣方法2.整群抽樣（clustersampling34一些抽樣方法3.多級抽樣（multistagesampling）。在群體很大時，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽取子群，等等。最后只對最后選定的最下面一級進行調(diào)查。比如在全國調(diào)查時，先抽取省，再抽取市地，再抽取縣區(qū)，再抽取鄉(xiāng)、村直到戶。在多級抽樣中的每一級都可能采取各種抽樣方法。因此，整個抽樣計劃可能比較復雜，也稱為多級混和型抽樣。一些抽樣方法3.多級抽樣（multistagesampl35一些抽樣方法4.系統(tǒng)抽樣（systematicsampling）。這是先把總體中的每個單元編號，然后隨機選取其中之一作為抽樣的開始點進行抽樣。如果編號是隨機選取的，則這和簡單隨機抽樣是等價的。在選取開始點之后，通常從開始點開始按照編號進行所謂等距抽樣；也就是說，如果開始點為5號，“距離”為10，則下面的調(diào)查對象為15號、25號等等。一些抽樣方法4.系統(tǒng)抽樣（systematicsampl36抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣方法的組合。既要考慮精確度，還要根據(jù)客觀情況考慮方便性、可行性和經(jīng)濟性。不能一概而論。抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣37計算機中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測值所組成。下面就是調(diào)查人們對某個問題觀點的一個數(shù)據(jù)的方陣形式。其中有6個變量：觀點（觀測值為支持、反對和不知道三種）、教育程度（有高中低三種取值，用H、M、L表示）、月收入（取值為實際數(shù)字）、性別（取值有男女兩個，用M和F表示）以及地區(qū)號（用數(shù)字1，2，3，4表示）等。該表一共有1364個觀測值（問卷回答）?？梢钥闯鲞@些變量有定性（屬性）變量，也有定量（數(shù)值）變量。按照這個數(shù)據(jù)的格式，每一列為一個變量的不同觀測值；而每一行則稱為一個觀測值，它是個由數(shù)量值和屬性值組成的向量，每一個值相應于一個變量。計算機中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測值所組成38思考1．

舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子。2．

舉出簡單隨機樣本的例子。3．

根據(jù)你的經(jīng)驗，舉出總體和樣本的一些具體例子。4．

舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題，并且提出你認為可以減少或避免這些問題的建議。5．

根據(jù)你的直覺，本章提到的幾種抽樣方法的優(yōu)缺點是什么？原因何在？6．

舉出一些書報上發(fā)表的數(shù)據(jù)例子，并指出那些是變量，哪些是觀測值。思考1．

舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子。39數(shù)據(jù)的描述如同給人畫像一樣數(shù)據(jù)的描述如同給人畫像一樣40直方圖比如某個地區(qū)（地區(qū)1）學校高三男生的身高；有163個度量如何用圖形來表示這個數(shù)據(jù)，使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”呢？一個辦法就是畫一個直方圖(histogram)。直方圖比如某個地區(qū)（地區(qū)1）學校高三男生的身高；有163個41珠寶行業(yè)統(tǒng)計研究報告42盒型圖比直方圖簡單一些的是盒形圖(boxplot，又稱箱圖、箱線圖、盒子圖)。后面圖的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖；其右邊的圖代表另一個地區(qū)（地區(qū)2）的高三學生的身高盒型圖比直方圖簡單一些的是盒形圖(boxplot，又稱箱圖、43珠寶行業(yè)統(tǒng)計研究報告44莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖

莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖45HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)HEIGHTStem-and-LeafPlot46散點圖往往人們得到的數(shù)據(jù)有兩個變量的，比如美國男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時間的中位數(shù)。當然，不可能將所有人的婚姻年限都給出來。所以，每年就取了一個中間的值(中位數(shù))作為代表。自1900到1960年是每十年一個值，以后到1990是每五年取一個數(shù)，1995年以后是每年一個數(shù)。這里的一個變量為記錄年份，另一個是結(jié)婚時間長短。由于分男士和女士，因此有兩二維數(shù)據(jù)。這時可以以一個變量為橫坐標（如年份），另一個為縱坐標（這里是結(jié)婚年限）來點圖。這種圖稱為散點圖（scatterplot）。還可以看出在二十世紀六十年代婚姻年限降低，而后來又升高。而男子的年限平均比女性長。這個圖是用SPSS畫的。

散點圖往往人們得到的數(shù)據(jù)有兩個變量的，比如美國男士和女士初婚47珠寶行業(yè)統(tǒng)計研究報告48定性變量的點圖定性變量（或?qū)傩宰兞?，分類變量）不能點出直方圖、散點圖或莖葉圖，但可以描繪出它們各類的比例。下面用SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例

定性變量的點圖定性變量（或?qū)傩宰兞?，分類變量）不能點出直方圖49餅圖餅圖50條形圖條形圖51匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)52匯總統(tǒng)計量（位置）均值(mean)中位數(shù)(median)(第一，第三)四分位數(shù)(點)(firstquantile,thirdquantile)k－百分位數(shù)(k-percentile)眾數(shù)(mode)匯總統(tǒng)計量（位置）均值(mean)53匯總統(tǒng)計量（尺度）

(scalestatistic)極差（range)四分位間距(四分位極差)(interquantilerange)

標準差(standarddeviation)

方差(variance)

匯總統(tǒng)計量（尺度）

(scalestatistic)極差（54兩個尺度不同的數(shù)據(jù)的直方圖，左邊的標準差大約只有右邊的一半

兩個尺度不同的數(shù)據(jù)的直方圖，左邊的標準差大約只有右邊的一半55數(shù)據(jù)的標準得分

(standardscore)

兩個水平類似的班級（一班和二班）上同一門課，但是由于兩個任課老師的評分標準不同，使得兩個班成績的均值和標準差都不一樣(數(shù)據(jù)：grade.sav)。一班分數(shù)的均值和標準差分別為78.53和9.43，而二班的均值和標準差分別為70.19和7.00。那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢？怎么比較才能合理呢？雖然這種均值和標準差不同的數(shù)據(jù)不能夠直接比較，但是可以把它們進行標準化，然后再比較標準化后的數(shù)據(jù)。一個標準化的方法是把原始觀測值（亦稱得分，score）和均值之差除以標準差；得到的度量稱為標準得分(standardscore)。數(shù)據(jù)的標準得分

(standardscore)兩個水平56珠寶行業(yè)統(tǒng)計研究報告57思考1．

根據(jù)你的經(jīng)驗，給出定性和定量變量的例子。2．

對于問題1中你的例子，試圖畫出各種描述性圖形并計算匯總統(tǒng)計量。3．

舉例說明眾數(shù)、中位數(shù)和均值的優(yōu)缺點。4．

舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性。5．

標準得分實際上是對原始數(shù)據(jù)的一種標準化。試舉出標準得分的用處。思考1．

根據(jù)你的經(jīng)驗，給出定性和定量變量的例子。58統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程59估計總體它代表我們所關(guān)心的那部分現(xiàn)實世界。而在利用樣本中的信息來對總體進行推斷之前人們一般對代表總體的變量假定了分布族。比如假定人們的身高屬于正態(tài)分布族；對抽樣調(diào)查假定了二項分布族等等。這些模型基本上是根據(jù)經(jīng)驗來假定的，所以僅僅是對現(xiàn)實世界的一個近似。在假定了總體分布族之后，進一步對總體的認識就是要在這個分布族中選擇一個適合于我們問題的分布；由于分布族成員是由參數(shù)確定的，如果參數(shù)能夠估計，對總體的具體分布就知道得差不多了。估計總體它代表我們所關(guān)心的那部分現(xiàn)實世界。而在利用樣本中的60估計一種是點估計(pointestimation)，也就是用估計量的實現(xiàn)值來近似相應的總體參數(shù)。另一種是區(qū)間估計(intervalestimation)；它是包括估計量在內(nèi)（有時是以估計量為中心）的一個區(qū)間；該區(qū)間被認為很可能包含總體參數(shù)。點估計給出一個數(shù)字，用起來很方便；而區(qū)間估計給出一個區(qū)間，說起來留有余地；不象點估計那么絕對。無偏估計(大樣本性質(zhì))區(qū)間估計的置信度(大樣本性質(zhì))估計一種是點估計(pointestimation)，也就61估計

注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成。有些新聞媒體報道一些調(diào)查結(jié)果只給出百分比和誤差（即置信區(qū)間），并不說明置信度，也不給出被調(diào)查的人數(shù)，這是不負責的表現(xiàn)。因為降低置信度可以使置信區(qū)間變窄（顯得“精確”），有誤導讀者之嫌。如果給出被調(diào)查的人數(shù)，則內(nèi)行可以由推算出置信度（由后面給出的公式），反之亦然。估計注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成。有些新聞62一個描述性例子

一個有10000個人回答的調(diào)查顯示，同意某種觀點的人的比例為70%（有7000人同意），可以算出總體中同意該觀點的比例的95%置信區(qū)間為（0.691，0.709）；另一個調(diào)查聲稱有70%的比例反對該種觀點，還說總體中反對該觀點的置信區(qū)間也是（0.691，0.709）。到底相信誰呢？實際上，第二個調(diào)查隱瞞了置信度（等價于隱瞞了樣本量）。如果第二個調(diào)查僅僅調(diào)查了50個人，有35個人反對該觀點。根據(jù)后面的公式可以算出，第二個調(diào)查的置信區(qū)間的置信度僅有11%。一個描述性例子一個有10000個人回答的調(diào)查顯示，同意某63假設(shè)檢驗在假設(shè)檢驗中，一般要設(shè)立一個原假設(shè)；而設(shè)立該假設(shè)的動機主要是企圖利用人們掌握的反映現(xiàn)實世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實的矛盾，從而否定這個假設(shè)。在多數(shù)統(tǒng)計教科書中（除了理論探討之外）的假設(shè)檢驗都是以否定原假設(shè)為目標。如果否定不了，那就說明證據(jù)不足，無法否定原假設(shè)。但這不能說明原假設(shè)正確。很多教科書在這個問題上不適當?shù)赜谩敖邮茉僭O(shè)”的說法，犯了明顯的低級邏輯錯誤。假設(shè)檢驗在假設(shè)檢驗中，一般要設(shè)立一個原假設(shè)；而設(shè)立該假設(shè)的64假設(shè)檢驗的過程和邏輯首先要提出一個原假設(shè)，比如某正態(tài)總體的均值等于5（m=5）。這種原假設(shè)也稱為零假設(shè)（nullhypothesis），記為H0。與此同時必須提出對立假設(shè)，比如總體均值大于5（m>5）。對立假設(shè)又稱為備選假設(shè)或備擇假設(shè)（alternativehypothesis）記為記為H1或Ha。假設(shè)檢驗的過程和邏輯首先要提出一個原假設(shè)，比如某正態(tài)總體的65假設(shè)檢驗的過程和邏輯根據(jù)零假設(shè)（不是備選假設(shè)！），我們可以得到該檢驗統(tǒng)計量的分布；然后再看這個統(tǒng)計量的數(shù)據(jù)實現(xiàn)值（realization）屬不屬于小概率事件。也就是說把數(shù)據(jù)代入檢驗統(tǒng)計量，看其值是否落入零假設(shè)下的小概率范疇；如果的確是小概率事件，那么我們就有可能拒絕零假設(shè)，否則我們說沒有足夠證據(jù)拒絕零假設(shè)。假設(shè)檢驗的過程和邏輯根據(jù)零假設(shè)（不是備選假設(shè)?。?，我們可以66假設(shè)檢驗的過程和邏輯注意：零假設(shè)和備選假設(shè)在假設(shè)檢驗中并不對稱。因檢驗統(tǒng)計量的分布是從零假設(shè)導出的，因此，如果發(fā)生矛盾，當然就對零假設(shè)不利了。不發(fā)生矛盾也不說明備選假設(shè)有問題（因為和備選假設(shè)無關(guān)）。假設(shè)檢驗的過程和邏輯注意：零假設(shè)和備選假設(shè)在假設(shè)檢驗中并不67假設(shè)檢驗的過程和邏輯檢驗統(tǒng)計量在零假設(shè)下等于這個樣本的數(shù)據(jù)實現(xiàn)值或更加極端值的概率稱為p-值（p-value）。顯然得到很小p-值意味著小概率事件發(fā)生了。如果小概率事件發(fā)生，是相信零假設(shè)，還是相信數(shù)據(jù)呢？當然是相信數(shù)據(jù)。于是就拒絕零假設(shè)。但小概率并不能說明不會發(fā)生，僅僅發(fā)生的概率很小罷了。拒絕正確零假設(shè)的錯誤常被稱為第一類錯誤（typeIerror）。假設(shè)檢驗的過程和邏輯檢驗統(tǒng)計量在零假設(shè)下等于這個樣本的數(shù)據(jù)68假設(shè)檢驗的過程和邏輯有第一類錯誤，就有第二類錯誤；那是備選零假設(shè)正確時反而說零假設(shè)正確的錯誤，稱為第二類錯誤（typeIIerror）。零假設(shè)和備選假設(shè)哪一個正確，這是確定性的，沒有概率可言。而可能犯錯誤的是人。涉及假設(shè)檢驗的犯錯誤的概率就是犯第一類錯誤的概率和犯第二類錯誤的概率。負責的態(tài)度是無論做出什么決策，都應該給出犯錯誤的概率。假設(shè)檢驗的過程和邏輯有第一類錯誤，就有第二類錯誤；那是備選69假設(shè)檢驗的過程和邏輯到底p-值是多小才能夠拒絕零假設(shè)呢？也就是說，需要有什么是小概率的標準。這要看具體應用的需要。但在一般的統(tǒng)計書和軟件中，使用最多的標準是在零假設(shè)下（或零假設(shè)正確時）抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應小于0.05（也可能是0.01，0.005，0.001等等）。這種事先規(guī)定的概率稱為顯著性水平(significancelevel)，用字母a來表示。當p-值小于或等于a時，就拒絕零假設(shè)。所以，a是所允許的犯第一類錯誤概率的最大值。當p-值小于或等于a時，我們說這個檢驗是顯著的(significant)。假設(shè)檢驗的過程和邏輯到底p-值是多小才能夠拒絕零假設(shè)呢？也70假設(shè)檢驗的過程和邏輯歸納起來，假設(shè)檢驗的邏輯步驟為：第一，寫出零假設(shè)和備選假設(shè)；第二，確定檢驗統(tǒng)計量；第三，確定顯著性水平a；第四，根據(jù)數(shù)據(jù)計算檢驗統(tǒng)計量的實現(xiàn)值；第五，根據(jù)這個實現(xiàn)值計算p-值；第六，進行判斷：如果p-值小于或等于a，就拒絕零假設(shè)，這時犯錯誤的概率最多為a；如果p-值大于a，就不拒絕零假設(shè)，因為證據(jù)不足。假設(shè)檢驗的過程和邏輯歸納起來，假設(shè)檢驗的邏輯步驟為：71假設(shè)檢驗的過程和邏輯實際上，計算機軟件僅僅給出p-值，而不給出a。這有很多方便之處。比如a=0.05，而假定我們得到的p-值等于0.001。這時我們?nèi)绻绻捎胮-值作為新的顯著性水平，即a=0.001，于是可以說，我們拒絕零假設(shè)，顯著性水平為0.001。拒絕零假設(shè)時犯錯誤的概率實際只是千分之一而不是百分之五。在這個意義上，p-值又稱為觀測的顯著性水平（observedsignificantlevel）。在統(tǒng)計軟件輸出p-值的位置，有的用“p-value”，有的用significant的縮寫“Sig”就是這個道理。假設(shè)檢驗的過程和邏輯實際上，計算機軟件僅僅給出p-值，而不72假設(shè)檢驗的過程和邏輯展示結(jié)果的精確性（根據(jù)數(shù)據(jù)減少a的值）總是沒有害處的。這好比一個身高180厘米的男生，可能愿意被認為高于或等于180厘米，而不愿意說他高于或等于155厘米，雖然這第二種說法數(shù)學上沒有絲毫錯誤。假設(shè)檢驗的過程和邏輯展示結(jié)果的精確性（根據(jù)數(shù)據(jù)減少a的值）73假設(shè)檢驗的過程和邏輯關(guān)于“臨界值”的注：作為概率的顯著性水平a實際上相應于一個檢驗統(tǒng)計量取值范圍的一個臨界值（criticalvalue），它定義為，統(tǒng)計量取該值或更極端的值的概率等于a。也就是說，“統(tǒng)計量的實現(xiàn)值比臨界值更極端”等價于“p-值小于a”。使用臨界值的概念進行的檢驗不計算p-值。只比較統(tǒng)計量的取值和臨界值的大小。使用臨界值而不是p-值來判斷拒絕與否是前計算機時代的產(chǎn)物。當時計算p-值不易，只有采用臨界值的概念。但從給定的a求臨界值同樣也不容易，好在習慣上僅僅在教科書中列出相應于特定分布的幾個有限的a臨界值（比如a=0.05，a=0.025，a=0.01，a=0.005，a=0.001等等），或者根據(jù)分布表反過來查臨界值（很不方便也很粗糙）?，F(xiàn)在計算機軟件都不給出a和臨界值，但都給出p-值和統(tǒng)計量實現(xiàn)值，讓用戶自己決定顯著性水平是多少。

假設(shè)檢驗的過程和邏輯關(guān)于“臨界值”的注：作為概率的顯著性水74假設(shè)檢驗的例子汽車廠商聲稱其發(fā)動機排放標準的一個指標平均低于20個單位。在抽查了10臺發(fā)動機之后，得到下面的排放數(shù)據(jù)：17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認為該指標均值超過20？這次我們的假設(shè)檢驗問題就是假設(shè)檢驗的例子汽車廠商聲稱其發(fā)動機排放標準的一個指標平均低75假設(shè)檢驗的例子檢驗統(tǒng)計量為我們可以發(fā)現(xiàn)p-值為0.1243，因此，我們沒有證據(jù)否定零假設(shè)。假設(shè)檢驗的例子檢驗統(tǒng)計量為76珠寶行業(yè)統(tǒng)計研究報告77本課內(nèi)容包含統(tǒng)計回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析。。。。本課內(nèi)容包含統(tǒng)計回顧78統(tǒng)計基本概念回顧統(tǒng)計基本概念回顧79隨機性和規(guī)律性隨機性和80現(xiàn)實中的隨機性和規(guī)律性從中學起，我們就知道自然科學的許多定律，例如物理中的牛頓三定律，物質(zhì)不滅定律以及化學中的各種定律等等。但是在許多領(lǐng)域，很難用如此確定的公式或論述來描述一些現(xiàn)象。比如，人的壽命是很難預先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此，可以說，活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經(jīng)歷、基因、習慣等無數(shù)說不清的因素都有關(guān)系?，F(xiàn)實中的隨機性和規(guī)律性從中學起，我們就知道自然科學的許多定律81現(xiàn)實中的隨機性和規(guī)律性但是從總體來說，我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個平均年齡，也可能活不到這個年齡，這是隨機的。但是總體來說，平均年齡的穩(wěn)定性，卻說明了隨機之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。現(xiàn)實中的隨機性和規(guī)律性但是從總體來說，我國公民的平均年齡卻是82概率和機會你可能經(jīng)常聽到概率（probability）這個名詞。例如在天氣預報中會提到降水概率。大家都明白，如果降水概率是百分之九十，那就很可能下雨；但如果是百分之十，就不大可能下雨。因此，從某種意義說來，概率描述了某件事情發(fā)生的機會。顯然，這種概率不可能超過百分之百，也不可能少于百分之零。換言之，概率是在0和1之間的一個數(shù)，說明某事件發(fā)生的機會有多大。概率和機會你可能經(jīng)常聽到概率（probability）這個名83有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去，但又沒有完全肯定。實際上，到了周末，你或者去，或者不去；不可能有分身術(shù)把百分之八十的你放到公園，而其余的放在別處。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概84有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳，你得到6點的概率應該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機會是可以知道的，但擲骰子的結(jié)果還只可能是六個數(shù)目之一。這個已知的規(guī)律就反映了規(guī)律性，而得到哪個結(jié)果則反映了隨機性。如果你擲1000次骰子，那么，大約有六分之一的可能會得到6；這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn)。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳，你85變量做任何事情都要有對象。比如一個班上注冊的學生有200人，這是一個固定的數(shù)目，稱為常數(shù)（constant）或者常量。但是，如果猜測今天這個班有多少人會來上課，那就沒準了。這有隨機性?？赡苡姓埐〖倩蚴录俚?，也可能有逃課的。這樣，就要來上課的人數(shù)是個變量(variable)。另外對于某項政策同意與否的回答，也有“同意”、“不同意”或者“不知道”三種可能值；這也是變量，只不過不是數(shù)量而已。變量做任何事情都要有對象。比如一個班上注冊的學生有200人，86變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量（quantitativevariable）；因為是隨機的，也稱為隨機變量（randomvariable）。象性別，觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable，categoricalvariable）。這些定性變量也可以由隨機變量來描述，比如男性和女性的數(shù)目，同意某政策人數(shù)的比例等等。只有當變量用數(shù)量來描述時，才有可能建立數(shù)學模型，才可能使用計算機來分析。變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)87數(shù)據(jù)有了變量的概念，什么是數(shù)據(jù)呢？拿擲骰子來說，擲骰子會得到什么值，是個隨機變量；而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一（如果骰子公平）。這依賴于在擲骰子背后的理論或假定；而在實際擲骰子過程中，如果擲100次，會得到100個由1至6點組成的數(shù)字串；再擲100次，又得到一個數(shù)字串，和前一次的結(jié)果多半不一樣。這些試驗結(jié)果就是數(shù)據(jù)。所以說,數(shù)據(jù)是關(guān)于變量的觀測值.通過數(shù)據(jù)可以驗證有關(guān)的理論或假定（比如每一次得到每個點的概率是不是1/6等等）。對于顧客是否喜歡某種飲品的調(diào)查也類似，但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否的概率。在問了1000人之后，可能有364人說喜歡，而480人說不喜歡，其余的人可能不回答，或說不知道，或從來沒有喝過這種飲料。這些數(shù)目就是數(shù)據(jù)。當然，它僅僅反映了1000個被問到的人的觀點；但這對于估計整個消費群體的觀點還是有用的。數(shù)據(jù)有了變量的概念，什么是數(shù)據(jù)呢？拿擲骰子來說，擲骰子會得到88統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了。最早使用計算機的統(tǒng)計當然更離不開計算機了。事實上，最初的計算機僅僅是為科學計算而建造的。大型計算機的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進行數(shù)字計算最多的用戶。計算機現(xiàn)在早已脫離了僅有計算功能的單一模式，而成為百姓生活的一部分。計算機的使用，也從過去必須學會計算機語言到只需要“傻瓜式”地點擊鼠標。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。統(tǒng)計和計算機現(xiàn)代生活越來越離不開計算機了。最早使用計算機的89統(tǒng)計軟件統(tǒng)計軟件的發(fā)展，也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了大眾的游戲。只要你輸入你的數(shù)據(jù)，點幾下鼠標，做一些選項，馬上就得到令人驚嘆的漂亮結(jié)果了。你可能會問，是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了？當然不是。數(shù)據(jù)的整理和識別，方法的選用，計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠。統(tǒng)計軟件統(tǒng)計軟件的發(fā)展，也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了90統(tǒng)計軟件有些諸如法律和醫(yī)學方面的軟件都有不少警告，不時提醒你去咨詢專家。但統(tǒng)計軟件則不那么負責。只要數(shù)據(jù)格式無誤、方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果，而且沒有任何警告。另外，統(tǒng)計軟件輸出的結(jié)果太多；即使是同樣的方法，不同軟件輸出的內(nèi)容還不一樣；有時同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計學家也不一定能解釋所有的輸出。因此，就應該特別留神，明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。統(tǒng)計軟件有些諸如法律和醫(yī)學方面的軟件都有不少警告，不時提醒你91統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全，有些價格便宜；有些容易操作，有些需要更多的實踐才能掌握。還有些是專門的軟件，只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全，有些價格便宜；有些92統(tǒng)計軟件SPSS：這是一個很受歡迎的統(tǒng)計軟件；它容易操作，輸出漂亮，功能齊全，價格合理。對于非統(tǒng)計工作者是很好的選擇。Excel：它嚴格說來并不是統(tǒng)計軟件，但作為數(shù)據(jù)表格軟件，必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機，基本上都裝有Excel。但要注意，有時在裝Office時沒有裝數(shù)據(jù)分析的功能，那就必須裝了才行。當然，畫圖功能是都具備的。對于簡單分析，Excel還算方便，但隨著問題的深入，Excel就不那么“傻瓜”，需要使用函數(shù)，甚至根本沒有相應的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。SAS：這是功能非常齊全的軟件；盡管價格不菲，許多公司還是因為其功能眾多和某些美國政府機構(gòu)認可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”，仍然需要一定的訓練才可以進入。對于基本統(tǒng)計課程則不那么方便。統(tǒng)計軟件SPSS：這是一個很受歡迎的統(tǒng)計軟件；它容易操作，輸93統(tǒng)計軟件S-plus：這是統(tǒng)計學家喜愛的軟件。不僅由于其功能齊全，而且由于其強大的編程功能，使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。R軟件：這是一個免費的，由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣，很方便。還有不斷加入的各個方向統(tǒng)計學家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件，受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。對于一般非統(tǒng)計工作者來說，主要問題是它沒有“傻瓜化”。統(tǒng)計軟件S-plus：這是統(tǒng)計學家喜愛的軟件。不僅由于其功能94統(tǒng)計軟件Minitab：這個軟件是很方便的功能強大而又齊全的軟件，也已經(jīng)“傻瓜化”，在我國用的不如SPSS與SAS那么普遍。Statistica：也是功能強大而齊全的“傻瓜化”的軟件，在我國用的也不如SAS與SPSS那么普遍。Eviews：這是一個主要處理回歸和時間序列的軟件。GAUSS：這是一個很好用的統(tǒng)計軟件，許多搞經(jīng)濟的喜歡它。主要也是編程功能強大。目前在我國使用的人不多。FORTRAN：這是應用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件，功能強大，也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。MATLAB：這也是應用于各個領(lǐng)域的以編程為主的軟件，在工程上應用廣泛。編程類似于S和R。但是統(tǒng)計方法不多。統(tǒng)計軟件Minitab：這個軟件是很方便的功能強大而又齊全的95統(tǒng)計軟件當然，還有其他的軟件，沒有必要一一羅列。其實，聰明的讀者只要學會使用一種“傻瓜式”軟件，使用其他的僅僅是舉一反三之勞；最多看看幫助和說明即可。如果只有英文幫助，那還可以順便提高你的英文閱讀能力。統(tǒng)計軟件當然，還有其他的軟件，沒有必要一一羅列。其實，聰明的96想想看舉出你所知道的統(tǒng)計應用例子。舉出日常生活中隨機性和規(guī)律性的例子。你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎？你有什么經(jīng)驗和體會？想想看舉出你所知道的統(tǒng)計應用例子。97數(shù)據(jù)的收集數(shù)據(jù)的收集98二手數(shù)據(jù)每天翻開報紙或打開電視，就可以看到各種數(shù)據(jù)。比如高速公路通車里程、物價指數(shù)、股票行情、外匯牌價、犯罪率、房價、流行病的有關(guān)數(shù)據(jù)（確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等）；當然還有國家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟數(shù)據(jù)、海關(guān)發(fā)布的進出口貿(mào)易數(shù)據(jù)等等。從中可以選取對自己有用的信息。這些間接得到的數(shù)據(jù)都是二手數(shù)據(jù)。二手數(shù)據(jù)每天翻開報紙或打開電視，就可以看到各種數(shù)據(jù)。比如高速99第一手數(shù)據(jù)獲得第一手數(shù)據(jù)并不象得到二手數(shù)據(jù)那么輕松。某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù)。他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢；他們調(diào)查不同地區(qū)，不同階層的民眾對其產(chǎn)品的認知程度和購買意愿以改進產(chǎn)品或推出新品種爭取新顧客；他們還收集各地方的經(jīng)濟交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場。市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的。他們很舍得在這方面花錢。因為這是企業(yè)生存所必需的，絕不是可有可無的。第一手數(shù)據(jù)獲得第一手數(shù)據(jù)并不象得到二手數(shù)據(jù)那么輕松。100觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的，稱為觀測數(shù)據(jù)(observationaldata)。而對于有些問題，比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、用什么成分可以提高某物質(zhì)變成超導體的溫度等等。這種在人工干預和操作情況下收集的數(shù)據(jù)就稱為試驗數(shù)據(jù)(experimentaldata)。

觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀101總體和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點，需要進行調(diào)查；調(diào)查對象是所有北京市民，調(diào)查目的是希望知道市民中對這個問題的不同看法各自占有的比例。顯然，不可能去問所有的北京市民，而只能夠問一部分；并且根據(jù)這一部分的觀點來理解整個北京市民的總體觀點?？傮w和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運102總體和樣本這種情況下，稱所有（每個）北京市民對這個問題的觀點為一個總體(population)，而調(diào)查時問到的那部分市民的觀點為該總體的一個樣本(sample)。當然，也有可能調(diào)查所有的人（比如人口普查），那叫做普查(census)?？傮w是包含所有要研究的個體(element)的集合。而樣本是總體中選中的一部分。

總體和樣本這種情況下，稱所有（每個）北京市民對這個問題的觀103隨機樣本在抽取樣本時，如果總體中的每一個體都有同等機會被選到樣本中，這種抽樣稱為簡單隨機抽樣（simplerandomsampling），而這樣得到的樣本則稱為隨機樣本（randomsample）。隨機樣本在抽取樣本時，如果總體中的每一個體都有同等機會被選到104隨機樣本就北京交通問題的調(diào)查為例，在隨機抽樣的情況下，如果樣本量（samplesize，也就是樣本中個體的數(shù)目）在總體中的比例為1/5000，那么，無論在東城區(qū)或者在延慶縣，無論在白領(lǐng)階層還是藍領(lǐng)階層被問到的人的比例都應該大體是1/5000。也就是說，這種比例在總體的任何部分是大體不變的。隨機樣本就北京交通問題的調(diào)查為例，在隨機抽樣的情況下，如果樣105方便樣本在實踐中，得到隨機樣本不容易。很多搞調(diào)查的人就采取簡單的辦法。還以北京的交通問題的調(diào)查為例。假定按照隨機選出的電話號碼進行調(diào)查。這樣肯定節(jié)省時間和資源，但這樣得到的就不是一個隨機樣本了。如果按照隨機選擇的數(shù)字（無論號碼本上有沒有）打電話，那很多電話是空號或單位電話；顯然這種樣本也不是隨機樣本，它稱為方便樣本（conveniencesample）。在調(diào)查中，即使選擇對象的確是隨機的，最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點所組成的總體；沒有回答問題的人的觀點永遠不會被這種調(diào)查的樣本所代表。方便樣本在實踐中，得到隨機樣本不容易。很多搞調(diào)查的人就采取簡106方便樣本這種不回答的問題是抽樣調(diào)查特有的問題。在其他問題中，也有使用方便樣本的情況。比如在肺癌研究中，人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù)；這些數(shù)據(jù)并不是整個人群中采集的隨機樣本；它們可能只是醫(yī)院中的病人記錄中得到的。在雜志和報紙上也有問卷，但得到的只是擁有這份報刊，而且愿意回答的人的觀點。方便樣本這種不回答的問題是抽樣調(diào)查特有的問題。107誤差

假定在某一職業(yè)人群中女性占的比例為60%。如果在這個人群中抽取一些隨機樣本，這些隨機樣本中女性的比例并不一定是剛好60％，可能稍微多些或稍微少些。這是很正常的，因為樣本的特征不一定和總體完全一樣。這種差異不是錯誤，而是必然會出現(xiàn)的抽樣誤差（samplingerror）。剛才提到在抽樣調(diào)查中，一些人因為種種原因沒有對調(diào)查作出反映（或回答），這種誤差稱為未響應誤差（nonresponseerror）。而另有一些人因為各種原因回答時并沒有真實反映他們的觀點，這稱為響應誤差（responseerror）。和抽樣誤差不一樣，未響應誤差和響應誤差都會影響對真實世界的了解；應該在設(shè)計調(diào)查方案時盡量避免。誤差假定在某一職業(yè)人群中女性占的比例為60%。如果在這個人108抽樣調(diào)查的一些常用方法在抽樣調(diào)查時，最理想的樣本是前面提到的隨機樣本。但是由于實踐起來不方便，在大規(guī)模調(diào)查時一般不用這種全部隨機抽樣的方式，而只是在局部采用隨機抽樣的方法。下面介紹幾種抽樣方法。這里沒有深奧的理論；讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機樣本不方便以及下面的每個方法有什么好處和缺陷。對于它們具體的設(shè)計、實施與數(shù)據(jù)分析，有許多專門的書籍，就不在這里贅述了。抽樣調(diào)查的一些常用方法在抽樣調(diào)查時，最理想的樣本是前面提到109一些抽樣方法1．分層抽樣（stratifiedsampling）。這是先把要研究的總體按照某些性質(zhì)分類（stratum），再在各類中分別抽取樣本。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例，但出于各種考慮，也可能不按照比例，也可能需要加權(quán)（加權(quán)就是在求若干項的和時，對各項乘以不同的系數(shù)，這些系數(shù)的和通常為1）。比如可以按照教育程度把要訪問的人群分成幾類；再在每一類中調(diào)查和該類成比例數(shù)目的人。這樣就確保了每一類都有成比例的代表。一些抽樣方法1．分層抽樣（stratifiedsamp110一些抽樣方法2.整群抽樣（clustersampling）。這是先把總體劃分成若干群（cluster），再（通常是隨機地）從這些群中抽取幾群；然后再在這些抽取的群中對個體進行抽樣。比如，在某縣進行調(diào)查，首先在所有村中選取若干村子，然后只對這些村子的人進行調(diào)查。顯然，如果各村情況差異不大，這種抽樣還是方便的。否則就會增大誤差了。一些抽樣方法2.整群抽樣（clustersampling111一些抽樣方法3.多級抽樣（multistagesampling）。在群體很大時，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽取子群，等等。最后只對最后選定的最下面一級進行調(diào)查。比如在全國調(diào)查時，先抽取省，再抽取市地，再抽取縣區(qū)，再抽取鄉(xiāng)、村直到戶。在多級抽樣中的每一級都可能采取各種抽樣方法。因此，整個抽樣計劃可能比較復雜，也稱為多級混和型抽樣。一些抽樣方法3.多級抽樣（multistagesampl112一些抽樣方法4.系統(tǒng)抽樣（systematicsampling）。這是先把總體中的每個單元編號，然后隨機選取其中之一作為抽樣的開始點進行抽樣。如果編號是隨機選取的，則這和簡單隨機抽樣是等價的。在選取開始點之后，通常從開始點開始按照編號進行所謂等距抽樣；也就是說，如果開始點為5號，“距離”為10，則下面的調(diào)查對象為15號、25號等等。一些抽樣方法4.系統(tǒng)抽樣（systematicsampl113抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣方法的組合。既要考慮精確度，還要根據(jù)客觀情況考慮方便性、可行性和經(jīng)濟性。不能一概而論。抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣114計算機中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測值所組成。下面就是調(diào)查人們對某個問題觀點的一個數(shù)據(jù)的方陣形式。其中有6個變量：觀點（觀測值為支持、反對和不知道三種）、教育程度（有高中低三種取值，用H、M、L表示）、月收入（取值為實際數(shù)字）、性別（取值有男女兩個，用M和F表示）以及地區(qū)號（用數(shù)字1，2，3，4表示）等。該表一共有1364個觀測值（問卷回答）?？梢钥闯鲞@些變量有定性（屬性）變量，也有定量（數(shù)值）變量。按照這個數(shù)據(jù)的格式，每一列為一個變量的不同觀測值；而每一行則稱為一個觀測值，它是個由數(shù)量值和屬性值組成的向量，每一個值相應于一個變量。計算機中常用的數(shù)據(jù)形式數(shù)據(jù)是由一些變量和它們的觀測值所組成115思考1．

舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子。2．

舉出簡單隨機樣本的例子。3．

根據(jù)你的經(jīng)驗，舉出總體和樣本的一些具體例子。4．

舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題，并且提出你認為可以減少或避免這些問題的建議。5．

根據(jù)你的直覺，本章提到的幾種抽樣方法的優(yōu)缺點是什么？原因何在？6．

舉出一些書報上發(fā)表的數(shù)據(jù)例子，并指出那些是變量，哪些是觀測值。思考1．

舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子。116數(shù)據(jù)的描述如同給人畫像一樣數(shù)據(jù)的描述如同給人畫像一樣117直方圖比如某個地區(qū)（地區(qū)1）學校高三男生的身高；有163個度量如何用圖形來表示這個數(shù)據(jù)，使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”呢？一個辦法就是畫一個直方圖(histogram)。直方圖比如某個地區(qū)（地區(qū)1）學校高三男生的身高；有163個118珠寶行業(yè)統(tǒng)計研究報告119盒型圖比直方圖簡單一些的是盒形圖(boxplot，又稱箱圖、箱線圖、盒子圖)。后面圖的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖；其右邊的圖代表另一個地區(qū)（地區(qū)2）的高三學生的身高盒型圖比直方圖簡單一些的是盒形圖(boxplot，又稱箱圖、120珠寶行業(yè)統(tǒng)計研究報告121莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖

莖葉圖地區(qū)1高三男生身高數(shù)據(jù)的莖葉圖122HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)HEIGHTStem-and-LeafPlot123散點圖往往人們得到的數(shù)據(jù)有兩個變量的，比如美國男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時間的中位數(shù)。當然，不可能將所有人的婚姻年限都給出來。所以，每年就取了一個中間的值(中位數(shù))作為代表。自1900到1960年是每十年一個值，以后到1990是每五年取一個數(shù)，1995年以后是每年一個數(shù)。這里的一個變量為記錄年份，另一個是結(jié)婚時間長短。由于分男士和女士，因此有兩二維數(shù)據(jù)。這時可以以一個變量為橫坐標（如年份），另一個為縱坐標（這里是結(jié)婚年限）來點圖。這種圖稱為散點圖（scatterplot）。還可以看出在二十世紀六十年代婚姻年限降低，而后來又升高。而男子的年限平均比女性長。這個圖是用SPSS畫的。

散點圖往往人們得到的數(shù)據(jù)有兩個變量的，比如美國男士和女士初婚124珠寶行業(yè)統(tǒng)計研究報告125定性變量的點圖定性變量（或?qū)傩宰兞?，分類變量）不能點出直方圖、散點圖或莖葉圖，但可以描繪出它們各類的比例。下面用SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例

定性變量的點圖定性變量（或?qū)傩宰兞?，分類變量）不能點出直方圖126餅圖餅圖127條形圖條形圖128匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)129匯總統(tǒng)計量（位置）均值(mean)中位數(shù)(median)(第一，第三)四分位數(shù)(點)(firstquantile,thirdquantile)k－百分位數(shù)(k-percentile)眾數(shù)(mode)匯總統(tǒng)計量（位置）均值(mean)130匯總統(tǒng)計量（尺度）

(scalestatistic)極差（range)四分位間距(四分位極差)(interquantilerange)

標準差(standarddeviation)

方差(variance)

匯總統(tǒng)計量（尺度）

(scalestatistic)極差（131兩個尺度不同的數(shù)據(jù)的直方圖，左邊的標準差大約只有右邊的一半

兩個尺度不同的數(shù)據(jù)的直方圖，左邊的標準差大約只有右邊的一半132數(shù)據(jù)的標準得分

(standardscore)

(standardscore)兩個水平133珠寶行業(yè)統(tǒng)計研究報告134思考1．

根據(jù)你的經(jīng)驗，給出定性和定量變量的例子。2．

對于問題1中你的例子，試圖畫出各種描述性圖形并計算匯總統(tǒng)計量。3．

舉例說明眾數(shù)、中位數(shù)和均值的優(yōu)缺點。4．

舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性。5．

標準得分實際上是對原始數(shù)據(jù)的一種標準化。試舉出標準得分的用處。思考1．

根據(jù)你的經(jīng)驗，給出定性和定量變量的例子。135統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實世界的結(jié)論的過程136估計總體它代表我們所關(guān)心的那部分現(xiàn)實世界。而在利用樣本中的信息來對總體進行推斷之前人們一般對代表總體的變量假定了分布族。比如假定人們的身高屬于正態(tài)分布族；對抽樣調(diào)查假定了二項分布族等等。這些模型基本上是根據(jù)經(jīng)驗來假定的，所以僅僅是對現(xiàn)實世界的一個近似。在假定了總體分布族之后，進一步對總體的認識就是要在這個分布族中選擇一個適合于我們問題的分布；由于分布族成員是由參數(shù)確定的，如果參數(shù)能夠估計，對總體的具體分布就知道得差不多了。估計總體它代表我們所關(guān)心的那部分現(xiàn)實世界。而在利用樣本中的137估計一種是點估計(pointestimation)，也就是用估計量的實現(xiàn)值來近似相應的總體參數(shù)。另一種是區(qū)間估計(intervalestimation)；它是包括估計量在內(nèi)（有時是以估計量為中心）的一個區(qū)間；該區(qū)間被認為很可能包含總體參數(shù)。點估計給出一個數(shù)字，用起來很方便；而區(qū)間估計給出一個區(qū)間，說起來留有余地；不象點估計那么絕對。無偏估計(大樣本性質(zhì))區(qū)間估計的置信度(大樣本性質(zhì))估計一種是點估計(pointestimation)，也就138估計

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

珠寶行業(yè)統(tǒng)計研究報告課件

文檔簡介

溫馨提示

最新文檔

評論

珠寶行業(yè)統(tǒng)計研究報告課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔