SSS統計基礎教程_第1頁
SSS統計基礎教程_第2頁
SSS統計基礎教程_第3頁
SSS統計基礎教程_第4頁
SSS統計基礎教程_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SPSS統計分析基礎教程主講人:彭超課程目的應用統計學理解統計數據分析主要方法的基本理論掌握基本統計方法在實踐中的應用能熟練運用SPSS軟件實現數據分析建立起獨立運用統計方法解決實際問題的基礎能力參考書目:1、《統計學:從數據到結論》(第2版)吳喜之著,中國統計出版社,2006。2、《統計分析與SPSS的應用》,薛薇編著,中國人民大學出版社,2001。3、《SPSS統計分析教程》,李志輝等主編,電子工業(yè)出版社,2003。4、《社會統計方法——SPSS軟件應用》,郭志剛主編,中國人民大學出版社,1999。第一章一些基本概念什么是統計呢?報表?數字?你覺得你們需要統計嗎?為什么?§1.1統計是什么?統計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統計思維過程§1.1統計是什么?一般來說,統計先從現實世界收集數據(信息),如經濟增長然后,根據數據作出判斷,稱為模型模型是從數據產生的模型也需要根據新的信息來改進不存在完美的模型模型的最終結局都是被更能夠說明現實世界的新模型所取代§1.1統計是什么?比如說,經濟生產的模型統計學可以應用于幾乎所有的領域:精算,農業(yè),動物學,人類學,考古學,審計學,晶體學,人口統計學,牙醫(yī)學,生態(tài)學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業(yè)研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業(yè),法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫(yī)學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等。§1.1統計是什么?一句話,統計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。以歸納為主要要思維方式的的統計不是以演繹為主的的數學統計可應用于于各個不同學學科,在有些些學科已經有有其特有的方方法和特點;;如生物統計(biostatistics)、經濟計量學(econometrics)以及目前很熱熱門的生物信息(bioinformation)和數據挖掘(DataMining)的方法主體都都是統計。你想過下面的的問題嗎?當你買了一臺臺電視時,被被告知三年內內可以免費保保修。你想過過廠家憑什么么這樣說嗎??說多了,廠廠家會損失;;說少了,會會失去競爭,,也是損失。。到底這個保保修期是怎樣樣決定的呢??大學排名是一一個非常敏感感的問題。不不同的機構得得出不同的結結果;各自都都說自己是客客觀、公正和和有道理的。。到底如何理理解這些不同同的結果呢??你想過下面的的問題嗎?任何公司都有有一個信用問問題。當然,,在這些公司司試圖得到貸貸款時并沒有有不還貸的不不良記錄。如如何根據它們們的財務和商商業(yè)資料來判判斷一個公司司的信用等級級呢?我國東部和西西部的概念是是一個比較籠籠統的概念。。如何能夠根根據需要,選選擇一些指標標來把各省,,或各市縣甚甚至村進行分分類呢?疾病傳播時,,如何能夠通通過感染者入入院前后的各各種因素得到到一個疾病傳傳染方式的模模型呢?你想過下面的的問題嗎?如何通過大眾眾調查來得到到性別、年齡齡、職業(yè)、收收入等各種因因素與公眾對對某項事物((比如商品或或政策)的態(tài)態(tài)度的關系呢呢?一個從來沒有有研究過紅樓樓夢的統計學學家如何根據據比較寫作習習慣得出紅樓樓夢從哪一段段開始就不是是曹雪芹的手手筆了呢?如何才能夠客客觀地得到某某個電視節(jié)目目的收視率,,以確定廣告告的價格是否否合理呢?你如何理解下下面說法?“明天降水概概率為40%%”“我冬天去新新加坡度假的的概率為10%”“該節(jié)目收視視率是30%”“調查結果表表明20%的的觀眾喜歡某某節(jié)目”“抽樣調查結結果的誤差為為±3%”“支持率的95%置信區(qū)區(qū)間為(25%,30%)”“某學校排名名第一”“某縣是貧困困縣”你如何理解下下面說法?“某國的綜合合競爭力排名名第43位””“該國家屬于于發(fā)展中國家家”“該藥品療效效99%”“該國貧富差差距大”“這個縣收入入比那個縣高高”“該結果統計計顯著”“消費價格指指數為120%”“他的血壓已已經正常了””可以想象出的的統計應用例例子如何確定觀眾眾/聽眾是否否忠實于某節(jié)節(jié)目(專欄)如何對電視節(jié)節(jié)目排名次什么因素影響響一個節(jié)目的的收視率如何按照各種種不同環(huán)境估估計某商店的的顧客人數如何按照各種種指標評價雇雇員如何把地區(qū)(市縣鎮(zhèn)等)按照各種指指標分類如何確定紅樓樓夢第幾回不不是曹雪芹所所寫如何確定一個個產品的可靠靠性如何進行偏差差較少的民意意調查如何根據一些些財務數據發(fā)發(fā)現漏稅的嫌嫌疑單位?你相信統計結結果嗎?數據可以有誤誤或作假統計方法(有有意或無意))使用不當可可以誤導。有有低級誤導和和高級誤導。。常識判斷和直直覺是重要的的關于美國選舉舉的兩個例子子(1)誰會在1936選舉舉中獲勝?AlfLondon還還是F.D.R.(羅斯福)?LiteraryDigest(文摘)送出一千萬份份問卷(返回回二百四十萬萬份)后,預預測London會贏.而Gallop(蓋洛普)只問了5000人說Roosevelt(羅斯福)會會贏.最后羅斯福和和蓋洛普都贏贏了.文摘倒閉了.誰會在1948選舉舉中獲勝?ThomasDewey還是HarryTruman(杜魯門)?Crossley,Gallop(蓋洛普),Roper所所有都預測Dewey會贏(每個機機構用了5000個問卷卷).最后(包括蓋蓋洛普)他們們都輸了,而而杜魯門贏贏了.關于美國選舉舉的兩個例子子(2)統計的一些做做法統計可以指導導我們收集數數據.當擁有來自一一些變量(指指標)的數據據或記錄,但但缺乏模型來來描述這些變變量之間關系系的情況下,可用統計方方法建立模型型.在有了一定的的模型時,統統計可以確定定手中數據是是否令人信服服地支持某種種論點.模型型也用來對未未來進行預測測.統計直觀的圖圖表展示,可可以使各個領領域的專家容容易理解中國統計的獨獨特歷史環(huán)境境中國統計過去去分為“統計計學”(文科科的列寧主義義統計)和““數理統計””(數學類的的國際意義上上的統計)國內一些學者者把統計稱為為是經濟學科科的一部分,,則是中國特特有的與前蘇蘇聯關聯的國國情所造成;;讀者可以從從《蘇聯大百百科全書》的的統計學條款款得到答案。。但前蘇聯的經經濟學中的統統計學概念是是其意識形態(tài)態(tài)和計劃經濟濟體系的產物物,其模型多多屬于小學數數學水平,很很難稱為數學學模型。這與現代經濟濟學所需要的的大量的統計計和數學形成成鮮明對照.前蘇聯式的““統計學”不不是目前國際際流行意義上上的統計學或或統計學的分分支。統計的內容和和需要的知識識數學的幾乎所所有內容(不一定事先先知道需要什什么)用計算機做統統計計算其他(對象)領域的知識識統計和數學的的區(qū)別數學思維是以以演繹為主統計思維是以以歸納為主,兼有演繹統計各領域利利用幾乎所有有存在的數學學內容.但統計本身身的數學是是為具體目目標服務的的,自己一一般不形成成數學體系系計算機的重重要性由于統計和和數據打交交道,沒有有計算機的的發(fā)展統計計就沒有前前途.計算機和統統計的發(fā)展展相輔相成成§1.2現實中的隨隨機性和規(guī)規(guī)律性從中學起,,我們就知知道自然科科學的許多多定律,例例如物理中中的牛頓三三定律,物物質不滅定定律以及化化學中的各各種定律等等等。但是在許多多領域,很難用如此此確定的公公式或論述述來描述一一些現象。。比如,人的的壽命是很很難預先確確定的。一一個吸煙、、喝酒、不不鍛煉、而而且一口長長葷的人可可能比一個個很少得病病、生活習習慣良好的的人活得長長。因此,可以以說,活得得長短是有有一定隨機機性的(randomness)。這這種隨機性性可能和人人的經歷、、基因、習習慣等無數說不清清的因素都有關系?!,F實中的隨隨機性和規(guī)規(guī)律性但是從總體體來說,我我國公民的的平均年齡齡卻是非常常穩(wěn)定的。。而且女性性的平均年年齡也穩(wěn)定定地比男性性高幾年。。這就是規(guī)律性。一個人可能能活過這個個平均年齡齡,也可能能活不到這這個年齡,,這是隨機的。但是總體來來說,平均均年齡的穩(wěn)穩(wěn)定性,卻卻說明了隨機之中有有規(guī)律性。這種規(guī)律律就是統計計規(guī)律。概率和機會會你可能經常常聽到概率率(probability)這個名名詞。例如如在天氣預預報中會提提到降水概概率。大家家都明白,,如果降水水概率是百百分之九十十,那就很很可能下雨雨;但如果果是百分之之十,就不不大可能下下雨。因此,從某某種意義說說來,概率描述了了某件事情情發(fā)生的機機會。顯然,這種種概率不可可能超過百百分之百,,也不可能能少于百分分之零。換換言之,概率是在0和1之間間的一個數數,說明某事事件發(fā)生的的機會有多多大。有些概率是是無法精確確推斷的比如你對別別人說你下下一個周末末去公園的的概率是百百分之八十十。但你無無法精確說說出為什么么是百分之之八十而不不是百分之之八十四或或百分之七七十八。其實你想說說的是你很很可能去,,但又沒有有完全肯定定。實際上,到到了周末,,你或者去去,或者不不去;不可可能有分身身術把百分分之八十的的你放到公公園,而其其余的放在在別處。有些概率是是可以估計計的比如擲骰子子。只要沒沒有人在骰骰子上做手手腳,你得得到6點的的概率應該該是六分之之一。得到到其他點的的概率也是是一樣。得到6的概概率或者機機會是可以以知道的,,但擲骰子子的結果還還只可能是六六個數目之之一。這個已知的的規(guī)律就反反映了規(guī)律律性,而得得到哪個結結果則反映映了隨機性性。如果你擲1000次次骰子,那那么,大約約有六分之之一的可能能會得到6;這也是隨機機性呈現有有規(guī)律的一一個體現。?!?.3變變量和數數據一節(jié)火車車車廂有多少少坐位是一一個固定的的數目,稱稱為常數(constant)或者常常量。但是,開車車后,坐在在這節(jié)車廂廂的旅客有有多少就沒沒準了。這這有隨機性性。該車廂廂的乘客數數為變量(variable)?!?.3變變量和數數據一個學校的的注冊在校校男女生比比例是固定定的,為常常量但是,該校校任意一群群學生的男男女生比例例就不一定定和全校的的比例一樣樣了,它為為變量(variable)?!?.3變變量和數數據當變量按照照隨機規(guī)律律所取的值值是數量時時該變量稱稱為定量變變量或數量量變量(quantitativevariable);因為是隨機機的,也稱稱為隨機變變量(randomvariable)。如身高體重重,購買某某商品的人人數等等SPSS主主要為Numeric§1.3變變量和數數據象性別,觀觀點之類的的取非數量量值的變量量就稱為定定性變量或或屬性變量量或分類變變量(qualitativevariable,或categoricalvariable)。這些定性變變量也可以以由定量變變量來描述述,如男女女生的數目目,持有某某觀點的人人數比例等等等?!?.3變變量和數數據定性變量只只有用數量量來描述時時,才有可可能建立數數學模型,,并使用計計算機來分分析。數據中它們們通常用啞啞元(dummyvariable)代表,,比如性別別用0、1代表,三三種收入用用0、1、、2代表(或用字母母代表)SPSS中中沒有特別別的變量,,往往用數數值表示§1.3變變量和數數據有了變量,,何謂數據據?不同機構調調查所得到到的北京收收入萬元以以上市民的的比例都不不一樣,這這是變量而這些調查查產生一些些數目,這這些數目就就是數據(data)數據是關于于變量的觀觀測值?!?.3變變量和數數據通過數據可可驗證有關關的理論或或假定。比如通過抽抽樣調查驗驗證美國選選民對共和和黨候選人人的支持率率是否超過過50%通過抽樣,,可以檢驗驗某批產品品是否合格格等等§1.4變變量之間間的關系現實世界緊緊密聯系的的人們想知道道投資方式式和經濟效效益之間的的關系、旅旅客人數和和經濟發(fā)展展之間的關關系等等不討論變量量之間的關關系,就無無從談起任任何有深度度的應用,,統計的基基本概念就就僅僅是擺擺設而已。。§1.4.1定量量變量間的的關系例1.1..廣告投入入和銷售之之間的關系系。下表((數據ads.sav)顯示示了某企業(yè)業(yè)的廣告投投入和銷售售額之間的的關系(萬萬元)。橫坐標代表表廣告投入入,而縱坐坐標代表銷銷售收入。??吹贸鲇泻魏畏N關系嗎嗎?§1.4.1定量量變量間的的關系能否從該數數據回答下下面問題::這兩個變量量是否有關關系?如果有,它它們的關系系是否顯著著?這些關系是是什么關系系,能否用用數學模型型來描述??這個關系是是否帶有普普遍性?這個關系是是不是因果果關系?§1.4.1定量量變量間的的關系關于因果關關系在可控制的的試驗中,,較容易找找到因果關關系;比如如治療方式式和療效的的關系等但是,一般般來說,變變量之間有有關系這個個事實并不不意味著一一定存在明明確的因果果關系。§1.4.1定量量變量間的的關系比如,北京京GDP在在一年中是是快速增長長的,而一一個剛出生生的巴拿馬馬嬰兒在這這一年中的的體重也是是快速增長長的如果畫出圖圖來,它們們有類似線線性的關系系但它們顯然然沒有因果果關系§1.4.1定量量變量間的的關系只要有關系系,即使不不是因果關關系也不妨妨礙人們利利用這種關關系來進行行推斷。比如利用公公雞打鳴來來預報太陽陽升起;雖雖然公雞打打鳴絕對不不是日出的的原因(雖雖然打鳴發(fā)發(fā)生在先))§1.4.1定量量變量間的的關系簡單的辦法法(諸如畫畫圖)可以以得到一些些信息,但但不一定能能夠給出滿滿意的答案案需要更多的的工具和手手段來進行行數值分析析得到更加加嚴格和精精確的解答答因此,需要要繼續(xù)我們們的課程§1.4.2定性性變量間的的關系例1.2..下面是對對123人人進行關于于某項政策策調查所得得結果的一一個簡單的的三維表,,它顯示了了人們的收收入和性別別對該項政政策的觀點點。(table7.sav)。計算機軟件件所應用的的數據形式式§1.4.2定性性變量間的的關系從這個數據據,希望可可以看出收收入、性別別對觀點是是否有影響響及如何影影響如果果要要得得到到更更加加精精確確的的結結論論,,就就要要進進行行進進一一步步的的分分析析和和計計算算這是是后后面面列列聯聯表表分分析析或或多多項項分分布布對對數數線線性性模模型型的的內內容容§1.4.3定定性性和和定定量量變變量量間間的的混混和和關關系系有些些數數據據不不是是僅僅有有定定性性變變量量或或僅僅有有定定量量變變量量需要要知知道道包包括括定定性性和和定定量量兩兩種種變變量量的的一一些些變變量量之之間間的的關關系系下面面數數據據就就包包含含兩兩種種變變量量Asthma.sav數數據據§1.4.3定定性性和和定定量量變變量量間間的的混混和和關關系系該數數據據有有2個個定定性性變變量量((性性別別,,污污染染程程度度))、、一一個個定定量量變變量量((年年齡齡))以以及及發(fā)發(fā)生生哮哮喘喘的的人人數數我們們希希望望知知道道哮哮喘喘和和這這三三個個變變量量之之間間的的關關系系這將將在在Poisson對對數數線線性性模模型型中中討討論論§1.5統統計計、、計計算算機機與與統統計計軟軟件件現代代生生活活越越來來越越離離不不開開計計算算機機了了最初初的的計計算算機機僅僅僅僅是是為為科科學學計計算算而而設設計計和和建建造造的的。。統計計是是大大型型計計算算機機的的最最早早用用戶戶,,現現在在仍仍然然是是數數值值計計算算的的主主要要用用戶戶§1.5統統計計、、計計算算機機與與統統計計軟軟件件計算算機機的的使使用用,,從從計計算算機機語語言言到到““傻傻瓜瓜式式””地地點點擊擊鼠鼠標標輸出出結結果果也也從從數數字字輸輸出出到到各各種種可可以以想想象象得得到到的的形形式式。。輸入入數數據據,,點點鼠鼠標標做做一一些些選選項項,,就就可可得得到到漂漂亮亮結結果果但其其中中充充滿滿了了危危險險的的陷陷阱阱§1.5統統計計、、計計算算機機與與統統計計軟軟件件計算算機機無無法法識識別別你你的的統統計計方方面面的的錯錯誤誤錯誤誤的的方方法法、、錯錯誤誤的的數數據據形形式式都都必必然然輸輸出出錯錯誤誤的的結結果果((雖雖然然看看上上去去可可能能很很漂漂亮亮)),,得得到到大大量量垃垃圾圾另外,,統計計軟件件輸出出的結結果太太多、、很難難都理理解§1.5統統計計、計計算機機與統統計軟軟件統計軟軟件的的種類類很多多。書書中僅僅介紹紹最常常見的的幾種種。只要學學會使使用一一種““傻瓜瓜式””軟件件或編編程軟軟件,,使用用其他他類似似的軟軟件也也不會會困難難;最最多看看看幫幫助和和說明明即可可。學習軟軟件的的最好好方式式是需需要時時在使使用中中學。。統計軟軟件SPSS::這是一一個很很受歡歡迎的的統計計軟件件;它它容易易操作作,輸輸出漂漂亮,,功能能齊全全,價價格合合理。。對于于非統統計工工作者者是很很好的的選擇擇。SAS:這是功功能非非常齊齊全的的軟件件;盡盡管價價格不不菲,,許多多公司司還是是因為為其功功能眾眾多和和某些些美國國政府府機構構認可可而使使用。。盡管管現在在已經經盡量量“傻傻瓜化化”,,仍然然需要要一定定的訓訓練才才可以以進入入。對對于基基本統統計課課程則則不那那么方方便。。STATA:這是眾眾多統統計軟軟件的的后起起之秀秀;它它操作作靈活活、簡簡單、、易學學易用用,同同時具具有數數據管管理軟軟件、、統計計分析析軟件件、繪繪圖軟軟件、、矩陣陣計算算軟件件和程程序語語言的的特點點。占占用計計算機機系統統資源源少,,繪圖圖漂亮亮,對對有簡簡單編編程基基礎者者來講講十分分容易易上手手,有有專門門出版版的專專業(yè)刊刊物。。以上三三種軟軟件并并稱為為新的的國際際三大大權威威統計計軟件件統計軟軟件Excel:它嚴格格說來來并不不是統統計軟軟件,,但作作為數數據表表格軟軟件,,必然然有一一定統統計計計算功功能。。而且且凡是是有MicrosoftOffice的的計算算機,,基本本上都都裝有有Excel。。但要要注意意,有有時在在裝Office時時沒有有裝數數據分分析的的功能能,那那就必必須裝裝了才才行。。當然然,畫畫圖功功能是是都具具備的的。對對于簡簡單分分析,,Excel還還算方方便,,但隨隨著問問題的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函數,,甚至至根本本沒有有相應應的方方法了了。多多數專專門一一些的的統計計推斷斷問題題還需需要其其他專專門的的統計計軟件件來處處理。。統計軟軟件S-plus:這是是統計計學家家喜愛愛的軟軟件。。不僅僅由于于其功功能齊齊全,,而且且由于于其強強大的的編程程功能能,使使得研研究人人員可可以編編制自自己的的程序序來實實現自自己的的理論論和方方法。。它也也在進進行““傻瓜瓜化””以爭爭取顧顧客。。但仍仍然以以編程程方便便為顧顧客所所青睞睞。R軟件件:這是一一個免費的的,由志志愿者者管理理的軟軟件。。其編編程語語言與與S-plus所基基于的的S語語言一一樣,,很方方便。。還有有不斷斷加入入的各各個方方向統統計學學家編編寫的的統計計軟件件包。。同時時從網網上可可以不不斷更更新和和增加加有關關的軟軟件包包和程程序。。這是是發(fā)展最最快的軟件件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論