統(tǒng)計基本概念回顧_第1頁
統(tǒng)計基本概念回顧_第2頁
統(tǒng)計基本概念回顧_第3頁
統(tǒng)計基本概念回顧_第4頁
統(tǒng)計基本概念回顧_第5頁
已閱讀5頁,還剩103頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計基本概念回顧第一頁,共一百零八頁,2022年,8月28日隨機性和規(guī)律性第二頁,共一百零八頁,2022年,8月28日現(xiàn)實中的隨機性和規(guī)律性中學(xué)時,就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此,可以說,活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經(jīng)歷、基因、習慣等無數(shù)說不清的因素都有關(guān)系。第三頁,共一百零八頁,2022年,8月28日現(xiàn)實中的隨機性和規(guī)律性從總體來說,我國公民的預(yù)期壽命卻是非常穩(wěn)定的。而且女性的預(yù)期壽命也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個壽命,也可能活不到這個年齡,這是隨機的。但是總體來說,預(yù)期壽命的穩(wěn)定性,卻說明了隨機之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。第四頁,共一百零八頁,2022年,8月28日概率和機會你可能經(jīng)常聽到概率(probability)這個名詞。最常見的是在天氣預(yù)報中提到的降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個數(shù),說明某事件發(fā)生的機會有多大。第五頁,共一百零八頁,2022年,8月28日有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去,但又沒有完全肯定。實際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。第六頁,共一百零八頁,2022年,8月28日有些概率是可以估計的如擲骰子。只要沒有人在骰子上做手腳,你得到任何點的概率都應(yīng)該是六分之一。這反映了擲骰子的規(guī)律性。但擲出骰子之后所得到的結(jié)果還只可能是六個數(shù)目之一。這體現(xiàn)了隨機性。如果你擲1000次骰子,那么,大約有六分之一的可能會得到6;這也說明隨機結(jié)果也具有規(guī)律;而且有可能通過試驗等方法來推測其規(guī)律。第七頁,共一百零八頁,2022年,8月28日變量做任何事情都有對象。比如一個班上注冊的學(xué)生有200人,這是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測今天這個班有多少人會來上課,那就沒準了。這有隨機性。可能有請病假或事假的,也可能有逃課的。這樣,將要來上課的人數(shù)是個變量(variable)。另外對某項政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過不是數(shù)量而已。第八頁,共一百零八頁,2022年,8月28日變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。象性別,觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當變量用數(shù)量來描述時,才有可能建立數(shù)學(xué)模型,才可能使用計算機來分析。第九頁,共一百零八頁,2022年,8月28日數(shù)據(jù)有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來說,擲骰子會得到什么值,是個隨機變量;而每次取得1至6點中任意點數(shù)的概率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲骰子背后的理論或假定;而在實際擲骰子過程中,如果擲100次,會得到100個由1至6點組成的數(shù)字串;再擲100次,又得到一個數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗結(jié)果就是數(shù)據(jù)。所以說,數(shù)據(jù)是關(guān)于變量的觀測值.第十頁,共一百零八頁,2022年,8月28日數(shù)據(jù)通過數(shù)據(jù)可以驗證有關(guān)的理論或假定,比如通過多次擲骰子驗證得到每個點的概率是不是1/6。顧客是否喜歡某種飲品?事先不易猜測顧客喜歡與否的概率。在問了1000人之后,可能有364人說喜歡,而480人說不喜歡,其余的人可能不回答,或說不知道,或從來沒有喝過這種飲料。當然,它僅僅反映了1000個被問到的人的觀點;但這對于估計整個消費群體的觀點還是有用的。從該數(shù)據(jù)可以估計喜歡該飲料的人占大約0.364左右。第十一頁,共一百零八頁,2022年,8月28日統(tǒng)計和計算機人們越來越依賴計算機了。最早使用計算機的統(tǒng)計當然更離不開計算機了。事實上,最初的計算機僅僅是為科學(xué)計算而建造的。大型計算機的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進行數(shù)字計算最多的用戶。計算機現(xiàn)在早已脫離了僅有計算功能的單一模式,而成為百姓生活的一部分。計算機的使用,也從過去必須學(xué)會計算機語言到只需要“傻瓜式”地點擊鼠標。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。第十二頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件統(tǒng)計軟件的發(fā)展,也使得統(tǒng)計從統(tǒng)計學(xué)家的工具變成了大眾的游戲。只要你輸入數(shù)據(jù),點幾下鼠標,做些選項,馬上得到漂亮結(jié)果。是否傻瓜式的統(tǒng)計軟件的使用可以代替統(tǒng)計課程了?數(shù)據(jù)的整理和識別,方法的選用,計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠。第十三頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件國外法律或醫(yī)學(xué)方面的軟件都有不少警告,不時提醒你去咨詢律師或醫(yī)生。但統(tǒng)計軟件則不那么負責。只要數(shù)據(jù)格式無誤、方法不矛盾(比如不用零作為除數(shù))就一定給你結(jié)果,而且一般沒有任何警告。另外,統(tǒng)計軟件輸出的結(jié)果太多;即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣;有時同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。沒有統(tǒng)計學(xué)家能解釋軟件的所有的輸出。因此,就應(yīng)該特別留神,明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。第十四頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件統(tǒng)計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些需要更多的實踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。第十五頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件SPSS:很受歡迎;容易操作,輸出漂亮,功能齊全,價格合理。它也有自己的程序語言,但基本上已經(jīng)“傻瓜化”。它對于非專業(yè)統(tǒng)計工作者是很好的選擇。Excel:嚴格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。第十六頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件SAS:這是功能非常齊全(不如R齊全)的軟件;盡管價格相當不菲,許多公司,特別是美國制藥公司,還是因為其功能眾多和某些美國政府機構(gòu)認可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”(遠不如SPSS“傻”),但仍然需要一定的訓(xùn)練才可以進入。也可以對它編程;但對于基本統(tǒng)計課程則不那么方便。第十七頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件S-plus:這是R出現(xiàn)之前統(tǒng)計學(xué)家最喜愛的軟件。不僅由于其功能齊全,而且由于其強大的編程功能,使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。R軟件:這是一個免費的,由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣,很方便。還有不斷加入的各個方向統(tǒng)計學(xué)家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件,受到世界上統(tǒng)計師生的歡迎。包括網(wǎng)上程序資源是方法最齊全的軟件。是用戶量增加最快的統(tǒng)計軟件。由于易學(xué),它沒有“傻瓜化”。第十八頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件Minitab:這個軟件是很方便的功能強大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國用的不如SPSS與SAS那么普遍。Statistica:也是功能強大而齊全的“傻瓜化”的軟件,在我國用的也不如SAS與SPSS那么普遍。Eviews:一個主要處理回歸和時間序列的軟件。FORTRAN:這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的數(shù)學(xué)編程軟件,功能強大,也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。MATLAB:這也是應(yīng)用于各個領(lǐng)域的以編程為主的軟件,在工程上應(yīng)用廣泛。編程類似于S和R。但是統(tǒng)計方法不多。第十九頁,共一百零八頁,2022年,8月28日統(tǒng)計軟件當然,還有其他的軟件,沒有必要一一羅列。其實,聰明的讀者只要學(xué)會使用一種“傻瓜式”軟件,使用其他的僅僅是舉一反三之勞;最多看看幫助和說明即可。第二十頁,共一百零八頁,2022年,8月28日想想看舉出你所知道的統(tǒng)計應(yīng)用例子。舉出日常生活中隨機性和規(guī)律性的例子。你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎?你有什么經(jīng)驗和體會?第二十一頁,共一百零八頁,2022年,8月28日數(shù)據(jù)的收集第二十二頁,共一百零八頁,2022年,8月28日二手數(shù)據(jù)報紙、電視和雜志提供各種數(shù)據(jù)。比如高速公路通車里程、物價指數(shù)、股票行情、外匯牌價、犯罪率、房價、流行病的有關(guān)數(shù)據(jù)(確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等);當然還有國家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟數(shù)據(jù)、海關(guān)發(fā)布的進出口貿(mào)易數(shù)據(jù)等等。從中可以選取對自己有用的信息。這些間接得到的數(shù)據(jù)都是二手數(shù)據(jù)。第二十三頁,共一百零八頁,2022年,8月28日第一手數(shù)據(jù)獲得第一手數(shù)據(jù)并不象得到二手數(shù)據(jù)那么輕松。某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù)。他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢;調(diào)查不同地區(qū),不同階層的民眾對其產(chǎn)品的認知程度和購買意愿以改進產(chǎn)品和服務(wù)來爭取顧客收集各地方的經(jīng)濟交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場。市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的。他們很舍得在這方面花錢。因為這是企業(yè)生存所必需的,絕不是可有可無的。第二十四頁,共一百零八頁,2022年,8月28日觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的,稱為觀測數(shù)據(jù)(observationaldata)。而對于有些問題,比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等。這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗數(shù)據(jù)(experimentaldata)。

第二十五頁,共一百零八頁,2022年,8月28日試驗數(shù)據(jù)有助于找出必要的因果關(guān)系第二十六頁,共一百零八頁,2022年,8月28日總體和樣本第二十七頁,共一百零八頁,2022年,8月28日總體和樣本要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點,需要調(diào)查;調(diào)查對象是所有北京市民,調(diào)查目的是希望知道市民中對這個問題的不同看法各自占有的比例。顯然,不可能去問所有的北京市民,而只能夠問一部分;并根據(jù)這部分觀點來理解整個北京市民的總體觀點。第二十八頁,共一百零八頁,2022年,8月28日總體和樣本在這個例子中,單個北京市民的觀點稱為個體(element,unit或individual),而稱所有北京市民對這個問題的觀點為一個總體(population),總體是包含所有要研究的個體的集合。而調(diào)查時問到的那部分市民的觀點(也就是部分個體)稱為該總體的一個樣本(sample),是總體中選出的一部分。當然,也有可能試圖調(diào)查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽樣準嗎?第二十九頁,共一百零八頁,2022年,8月28日隨機樣本在從有限總體抽取樣本時,如果總體中的每一個體都有同等機會被選到樣本中,這種抽樣稱為簡單隨機抽樣(simplerandomsampling),而這樣得到的樣本則稱為隨機樣本(randomsample)。第三十頁,共一百零八頁,2022年,8月28日隨機樣本就北京交通問題的調(diào)查為例,在隨機抽樣的情況下,如果樣本量(samplesize,也就是樣本中個體的數(shù)目)在總體中的比例為1/5000,那么,無論在東城區(qū)或者在延慶縣,無論在白領(lǐng)階層還是藍領(lǐng)階層被問到的人的比例都應(yīng)該大體是1/5000。也就是說,這種比例在總體的任何部分是大體不變的。第三十一頁,共一百零八頁,2022年,8月28日隨機樣本抽樣就像從一鍋八寶粥中舀出一勺如果粥和勻了,那么一勺中的各種成分比例應(yīng)該和鍋中的比例類似。就如一個抽樣調(diào)查隨機樣本所包含的各種人群比例應(yīng)該和總體類似。一個非隨機的抽樣就像從沒有和勻的八寶粥中舀出的一勺一樣。第三十二頁,共一百零八頁,2022年,8月28日方便樣本實踐中,得到隨機樣本不容易。很多搞調(diào)查的人就采取簡單的辦法。假定按照隨機選出的電話號碼進行調(diào)查,肯定節(jié)省時間和資源,但就不是一個隨機樣本了。如果按照隨機選擇的數(shù)字(無論號碼本上有沒有)打電話,那很多電話是空號或單位電話;顯然這種樣本也不是隨機樣本,這些稱為方便樣本(conveniencesample)。在調(diào)查中,即使選擇對象的確是隨機的,最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點所組成的總體;沒有回答問題的人的觀點永遠不會被這種調(diào)查的樣本所代表。第三十三頁,共一百零八頁,2022年,8月28日這種不回答的問題是抽樣調(diào)查特有的問題在其他問題中,也有使用方便樣本的情況。比如在肺癌研究中,人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù);這些數(shù)據(jù)并不是整個人群中采集的隨機樣本;它們可能只是醫(yī)院中的病人記錄中得到的。在雜志和報紙上也有問卷,但得到的只是擁有這份報刊,而且愿意回答的人的觀點。第三十四頁,共一百零八頁,2022年,8月28日誤差

假定在某一職業(yè)人群中女性占的比例為60%。如果在這個人群中抽取一些隨機樣本,這些隨機樣本中女性的比例并不一定是剛好60%,可能稍微多些或稍微少些。這是很正常的,因為樣本的特征不一定和總體完全一樣。這種差異不是錯誤,而是必然會出現(xiàn)的抽樣誤差(samplingerror)。剛才提到在抽樣調(diào)查中,一些人因為種種原因沒有對調(diào)查作出反映(或回答),這種誤差稱為未響應(yīng)誤差(nonresponseerror)。而另有一些人因為各種原因回答時并沒有真實反映他們的觀點,這稱為響應(yīng)誤差(responseerror)。和抽樣誤差不一樣,未響應(yīng)誤差和響應(yīng)誤差都會影響對真實世界的了解;應(yīng)該在設(shè)計調(diào)查方案時盡量避免。第三十五頁,共一百零八頁,2022年,8月28日抽樣調(diào)查的一些常用方法在抽樣調(diào)查時,最理想的樣本是前面提到的隨機樣本。但是由于實踐起來不方便,在大規(guī)模調(diào)查時一般不用這種全部隨機抽樣的方式,而只是在局部采用隨機抽樣的方法。下面介紹幾種抽樣方法。這里沒有深奧的理論;讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機樣本不方便以及下面的每個方法有什么好處和缺陷。對于它們具體的設(shè)計、實施與數(shù)據(jù)分析,有許多專門的書籍,就不在這里贅述了。第三十六頁,共一百零八頁,2022年,8月28日一些抽樣方法1.分層抽樣(stratifiedsampling)。這是先把要研究的總體按照某些性質(zhì)分類(stratum),再在各類中分別抽取樣本。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例,但出于各種考慮,也可能不按照比例,也可能需要加權(quán)(加權(quán)就是在求若干項的和時,對各項乘以不同的系數(shù),這些系數(shù)的和通常為1)。比如按照教育程度把要訪問的人群分成幾類;再在每一類中調(diào)查和該類成比例數(shù)目的人。以確保每一類都有按比例的代表。第三十七頁,共一百零八頁,2022年,8月28日一些抽樣方法2.整群抽樣(clustersampling)。這是先把總體劃分成若干群(cluster),再(通常是隨機地)從這些群中抽取幾群;然后再在這些抽取的群中對個體進行抽樣。比如,在某縣進行調(diào)查,首先在所有村中選取若干村子,然后只對這些村子的人進行調(diào)查。顯然,如果各村情況差異不大,這種抽樣還是方便的。否則就會增大誤差了。第三十八頁,共一百零八頁,2022年,8月28日一些抽樣方法3.多級抽樣(multistagesampling)。在群體很大時,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只對最后選定的最下面一級進行調(diào)查。比如在全國調(diào)查時,先抽取省,再抽取市地,再抽取縣區(qū),再抽取鄉(xiāng)、村直到戶。在多級抽樣中的每一級都可能采取各種抽樣方法。因此,整個抽樣計劃可能比較復(fù)雜,也稱為多級混和型抽樣。第三十九頁,共一百零八頁,2022年,8月28日一些抽樣方法4.系統(tǒng)抽樣(systematicsampling)。這是先把總體中的每個單元編號,然后隨機選取其中之一作為抽樣的開始點進行抽樣。如果編號是隨機選取的,則這和簡單隨機抽樣是等價的。在選取開始點之后,通常從開始點開始按照編號進行所謂等距抽樣;也就是說,如果開始點為5號,“距離”為10,則下面的調(diào)查對象為15號、25號等等。(美國越戰(zhàn)時征兵)

第四十頁,共一百零八頁,2022年,8月28日抽樣方法的選擇不能一概而論實際上每個抽樣通常都可能是各種抽樣方法的組合。既要考慮精確度,還要根據(jù)客觀情況考慮方便性、可行性和經(jīng)濟性。不能一概而論。這些抽樣方法的選擇多半是種藝術(shù),而不是科學(xué)。第四十一頁,共一百零八頁,2022年,8月28日不僅抽樣方法,而且問卷設(shè)計、調(diào)查過程等,均可能是致命的提問題的方式(和目的有關(guān))問卷中問題的次序問題的語言提問的人作假第四十二頁,共一百零八頁,2022年,8月28日計算機中常用的數(shù)據(jù)形式通常是方陣(SAS,SPSS等)每一列代表一個變量每一行代表一個觀測值(有和變量相同數(shù)目的數(shù)字)也可能有其他形式,但方陣是最通常的形式第四十三頁,共一百零八頁,2022年,8月28日第四十四頁,共一百零八頁,2022年,8月28日思考1.

舉出一些觀測數(shù)據(jù)和試驗數(shù)據(jù)的例子。2.

舉出簡單隨機樣本的例子。3.

根據(jù)你的經(jīng)驗,舉出總體和樣本的一些具體例子。4.

舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題,并且提出你認為可以減少或避免這些問題的建議。5.

根據(jù)你的直覺,本章提到的幾種抽樣方法的優(yōu)缺點是什么?原因何在?6.

舉出一些書報上發(fā)表的數(shù)據(jù)例子,并指出那些是變量,哪些是觀測值。第四十五頁,共一百零八頁,2022年,8月28日數(shù)據(jù)的描述如同給人畫像一樣第四十六頁,共一百零八頁,2022年,8月28日直方圖(數(shù)據(jù)rich.txt,Rich.sav,rich.sas7bdat,Rich.xls)該數(shù)據(jù)摘自福布斯是世界富豪排行榜,展示了世界最富有的一些人的名次(Rank,為正整數(shù),越小越富),所屬區(qū)域(Region,1至5分別代表北美、歐洲、亞洲和太平洋、南美、非洲),年齡(Age)和凈財富(NetWorth,單位10億美圓)。其中除了區(qū)域之外,均為定量變量。我們關(guān)心財富和年齡這兩個變量。如何用圖形來表示這兩個個變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”呢?一個辦法就是畫直方圖(histogram)。

第四十七頁,共一百零八頁,2022年,8月28日rich=read.table("D:/booktj1/data/rich.txt",header=T)rich[1,]

RankRegionAgeNetWorth1115050dim(rich)[1]7434第四十八頁,共一百零八頁,2022年,8月28日attach(rich);par(mfrow=c(1,2));hist(Age);hist(NetWorth)第四十九頁,共一百零八頁,2022年,8月28日盒型圖比直方圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。后面圖的用Rich.txt數(shù)據(jù)所繪的富人在不同區(qū)域的年齡的盒形圖.第五十頁,共一百零八頁,2022年,8月28日par(mfrow=c(1,1));boxplot(Age~Region)第五十一頁,共一百零八頁,2022年,8月28日第三四分位點中位數(shù)第一四分位點地區(qū)1高三男生身高數(shù)據(jù)的盒形圖h=read.table("D:/booktj1/data/height2.txt",header=T);boxplot(h)第五十二頁,共一百零八頁,2022年,8月28日莖葉圖以例3.1的歐洲區(qū)域富人的年齡為例,下頁的莖葉圖既展示了年齡的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。

stem(rich[rich[,2]==2,3])第五十三頁,共一百零八頁,2022年,8月28日Thedecimalpointis1digit(s)totherightofthe|2|22|3|443|7899999994|555556777899995|55556666667778888899996|555555666788888888999997|00000001111233337|5556666778889999998|0002222333448|55668999|229|5第五十四頁,共一百零八頁,2022年,8月28日散點圖人們得到的數(shù)據(jù)也可能有兩個變量,比如例3.1中的年齡和財富,我們可以以年齡為橫坐標,而財富為縱坐標在二維空間畫出所謂散點圖(scatterplot)。plot(NetWorth~Age)

第五十五頁,共一百零八頁,2022年,8月28日第五十六頁,共一百零八頁,2022年,8月28日散點圖往往人們得到的數(shù)據(jù)有兩對連續(xù)變量,比如美國男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時間的中位數(shù)。當然,不可能將所有人的婚姻年限都給出來。所以,每年就取了一個中間的值(中位數(shù))作為代表。自1900到1960年是每十年一個值,以后到1990是每五年取一個數(shù),1995年以后是每年一個數(shù)。這里的一個變量為記錄年份,另一個是結(jié)婚時間長短。由于分男士和女士,因此有兩二維數(shù)據(jù)。這時可以以一個變量為橫坐標(如年份),另一個為縱坐標(這里是結(jié)婚年限)來點圖。這種圖稱為散點圖(scatterplot)。還可以看出在二十世紀六十年代婚姻年限降低,而后來又升高。而男子的年限平均比女性長。這個圖是用SPSS畫的。

第五十七頁,共一百零八頁,2022年,8月28日第五十八頁,共一百零八頁,2022年,8月28日定性變量的點圖定性變量(或?qū)傩宰兞?,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例。下面用SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例

第五十九頁,共一百零八頁,2022年,8月28日餅圖第六十頁,共一百零八頁,2022年,8月28日條形圖第六十一頁,共一百零八頁,2022年,8月28日為了綜合,下面看一個城市地稅例子。例3.4(數(shù)據(jù)TaxF.txt)這是某地區(qū)某月的稅收抽樣數(shù)據(jù),有三個變量:總收入(單位:元),總納稅額(單位:元)及注冊類型代碼。圖3.8(a)顯示了總收入的直方圖,顯然,絕大部分的總收入都很小,以至于不用納稅。圖3.8(b)為總收入和納稅額的散點圖,看來收入越多,納稅越多。圖3.8(c)為餅圖,描述屬于不同注冊類型代碼的比例。而圖3.8(d)為衡量貧富差距的Lorenz曲線,Lorenz曲線越接近對角線,則收入差距越小。反之,當曲線下凸得越厲害,收入差距越大?;嵯禂?shù)(GiniIndex)就是由Lornez曲線和對角線中間的面積占這三角形面積的比定義的。這四個圖是由下面的(包括讀取數(shù)據(jù))R代碼(而圖(d)的繪制使用了自編的同時可以計算基尼系數(shù)的函數(shù)gini())完成的:

第六十二頁,共一百零八頁,2022年,8月28日第六十三頁,共一百零八頁,2022年,8月28日匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)第六十四頁,共一百零八頁,2022年,8月28日匯總統(tǒng)計量(位置)均值(mean):樣本值的算術(shù)平均值中位數(shù)(median):中間大小的數(shù)(一半樣本點小于中位數(shù))(第一或第三)(下、上)四分位數(shù)(點)(firstquantile,thirdquantile)(分別有1/4或3/4的數(shù)目小于它們)k-百分位數(shù)(k-percentile)a分位數(shù)(acentile):k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)第六十五頁,共一百零八頁,2022年,8月28日匯總統(tǒng)計量(尺度)(scalestatistic)極差(range):極端值之差四分位間距(四分位極差)(interquantilerange)四分位數(shù)之差標準差(standarddeviation)

方差平方根方差(variance)各點到均值距離平方的平均第六十六頁,共一百零八頁,2022年,8月28日兩個尺度不同的數(shù)據(jù)的直方圖,左邊的標準差大約只有右邊的一半

第六十七頁,共一百零八頁,2022年,8月28日數(shù)據(jù)的標準得分(standardscore)兩個類似的班級(一班和二班)上同一門課,但是由于兩個任課老師的評分標準不同,使得兩個班成績的均值和標準差都不一樣(數(shù)據(jù):grade.sav)。一班分數(shù)的均值和標準差分別為78.53和9.43,而二班的均值和標準差分別為70.19和7.00。那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢?第六十八頁,共一百零八頁,2022年,8月28日數(shù)據(jù)的標準得分(standardscore)怎么比較才能合理呢?雖然這種均值和標準差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進行標準化,然后再比較標準化后的數(shù)據(jù)。一個標準化的方法是把原始觀測值(亦稱得分,score)和均值之差除以標準差;得到的度量稱為標準得分(standardscore):(x-m)/s

(這里m和s為均值和標準差)第六十九頁,共一百零八頁,2022年,8月28日第七十頁,共一百零八頁,2022年,8月28日思考1.

根據(jù)你的經(jīng)驗,給出定性和定量變量的例子。2.

對于問題1中你的例子,試圖畫出各種描述性圖形并計算匯總統(tǒng)計量。3.

舉例說明眾數(shù)、中位數(shù)和均值的優(yōu)缺點。4.

舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性。5.

標準得分實際上是對原始數(shù)據(jù)的一種標準化。試舉出標準得分的用處。第七十一頁,共一百零八頁,2022年,8月28日復(fù)習:概率分布第七十二頁,共一百零八頁,2022年,8月28日離散分布第七十三頁,共一百零八頁,2022年,8月28日隨機回答選答題可能得到的分數(shù)例:純粹隨機回答三個單選題(每個5種選擇)可能答對0、1、2、3題的概率為第七十四頁,共一百零八頁,2022年,8月28日可用表或公式描述分布(想想為什么)第七十五頁,共一百零八頁,2022年,8月28日這是合法的概率分布嗎?是否Sp(x)=1,

是否p(x)都不小于0?XP(x)-20.1-10.200.310.220.130.1第七十六頁,共一百零八頁,2022年,8月28日能否猜出來?P(x>1)=?P(x>1)=p(2)+p(3)=0.2P(|x|=2)=?P(|x|=2)=p(-2)+p(2)=0.2XP(x)-20.1-10.200.310.220.130.1第七十七頁,共一百零八頁,2022年,8月28日二項分布隨機變量Binomialrandomvariable第七十八頁,共一百零八頁,2022年,8月28日一個裝有1個紅色球和3個藍色球的罐子,每次隨機取出一個,觀察其顏色;再放回;再接著取下一個(放回抽樣)。一次抽取得到紅色的概率為p=1/4,而得到藍色的概率為q=1-p=3/4.第七十九頁,共一百零八頁,2022年,8月28日二次抽取,均觀測不到紅球的概率為p(0)=P(BB)=P(B)P(B)=(3/4)(3/4)=(3/4)2=q2二次抽取,觀測到剛好一次紅球的概率為p(1)=P(RB)+P(BR)=(1/4)(3/4)+(3/4)(1/4)=2(3/4)(1/4)=2pq.二次抽取,均觀測到紅球的概率為p(2)=P(RR)=(1/4)(1/4)=(1/4)2=p2第八十頁,共一百零八頁,2022年,8月28日三次抽取,均觀測不到紅球的概率為p(0)=P(BBB)=P(B)P(B)P(B)=(3/4)(3/4)(3/4)=(3/4)3=

q3三次抽取,只觀測到1次紅球的概率為p(1)=P(RBB)+P(BRB)+P(BBR)=(1/4)(3/4)(3/4)+

(3/4)(1/4)(3/4)+(3/4)(3/4)(1/4)=3(1/4)(3/4)2=3pq2.三次抽取,只觀測到2次紅球的概率為p(2)=P(RRB)+P(RBR)+P(BRR)=(1/4)(1/4)(3/4)+

(1/4)(3/4)(1/4)+(3/4)(1/4)(1/4)=3(1/4)2(3/4)=3p2q.三次抽取,均為紅球的概率為p(3)=P(RRR)=(1/4)(1/4)(1/4)=(1/4)3=p3.第八十一頁,共一百零八頁,2022年,8月28日注意二項式展開的系數(shù)第八十二頁,共一百零八頁,2022年,8月28日n

次同等條件的獨立試驗每次試驗僅有兩種結(jié)果,通常記為S(成功)和

F(失敗).成功(S)的概率在每次試驗保持不變,用p表示,失敗

(F)概率則為

q=1-p.n

次試驗中成功的數(shù)目x,

則為二項隨機變量.二項隨機變量第八十三頁,共一百零八頁,2022年,8月28日參數(shù)為n和

p的二項分布,總體均值m,方差

s2

和標準差

s

為:第八十四頁,共一百零八頁,2022年,8月28日連續(xù)分布情況第八十五頁,共一百零八頁,2022年,8月28日連續(xù)分布的密度函數(shù):Probabilitydistributions(alsocalledprobabilitydensityfunctionfrequencyfunction)forcontinuousrandomvariables(Thefollowingisanormaldistribution)TheprobabilityofP(-.5<x<1),say,isthearea

underthecurveontheintervalof(-.5,1).第八十六頁,共一百零八頁,2022年,8月28日均值m=0,標準差

s=1的正態(tài)分布稱為標準正態(tài)分布.通常用z表示標準正態(tài)隨機變量.

如果x為有均值和

m標準差

s的正態(tài)變量,那么

z=(x-m)/s,即x的標準得分

z-score為標準正態(tài)分布.比如,x為均值

m=2標準差s=0.5的正態(tài)變量,則

z=(x-m)/s=(x-2)/.5為標準正態(tài)分布.第八十七頁,共一百零八頁,2022年,8月28日Thecurveisstandardnormaldensity,m=0,s=1.F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96)=1-0.02499790P(Z>1.96)=1-F(1.96)=1-0.9750021=0.02499790第八十八頁,共一百零八頁,2022年,8月28日DensitycurvesofN(0,1)andN(-2,0.5)Distributionswithdifferentmandshavedifferentshapes第八十九頁,共一百零八頁,2022年,8月28日P(-1.3<Z<2)=F(2)-F(-1.3)=0.8804494P(0.5<Z<1.7)=F(1.7)-F(0.5)=0.2639721第九十頁,共一百零八頁,2022年,8月28日ProbabilityP(0.51<z<1.57)=0.24682.

第九十一頁,共一百零八頁,2022年,8月2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論