SSS統計的基礎概念_第1頁
SSS統計的基礎概念_第2頁
SSS統計的基礎概念_第3頁
SSS統計的基礎概念_第4頁
SSS統計的基礎概念_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SPSS統計分析基礎教程主講人:彭超課程目的應用統計學理解統計數據分析主要方法的基本理論掌握基本統計方法在實踐中的應用能熟練運用SPSS軟件實現數據分析建立起獨立運用統計方法解決實際問題的基礎能力參考書目:1、《統計學:從數據到結論》(第2版)吳喜之著,中國統計出版社,2006。2、《統計分析與SPSS的應用》,薛薇編著,中國人民大學出版社,2001。3、《SPSS統計分析教程》,李志輝等主編,電子工業(yè)出版社,2003。4、《社會統計方法——SPSS軟件應用》,郭志剛主編,中國人民大學出版社,1999。第一章一些基本概念什么是統計呢?報表?數字?你覺得你們需要統計嗎?為什么?§1.1統計是什么?統計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統計思維過程§1.1統計是什么?一般來說,統計先從現實世界收集數據(信息),如經濟增長然后,根據數據作出判斷,稱為模型模型是從數據產生的模型也需要根據新的信息來改進不存在完美的模型模型的最終結局都是被更能夠說明現實世界的新模型所取代§1.1統計是什么?比如說,經濟生產的模型統計學可以應用于幾乎所有的領域:精算,農業(yè),動物學,人類學,考古學,審計學,晶體學,人口統計學,牙醫(yī)學,生態(tài)學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業(yè)研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業(yè),法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫(yī)學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等。§1.1統計是什么?一句話,統計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。以歸納為主主要思維方方式的統計不是以演繹為主主的數學統計可應用用于各個不不同學科,,在有些學學科已經有有其特有的的方法和特特點;如生物統計(biostatistics)、經濟計量學學(econometrics)以及目前很很熱門的生物信息(bioinformation)和數據挖掘(DataMining)的方法主體體都是統計計。你想過下面面的問題嗎嗎?當你買了一一臺電視時時,被告知知三年內可可以免費保保修。你想想過廠家憑憑什么這樣樣說嗎?說說多了,廠廠家會損失失;說少了了,會失去去競爭,也也是損失。。到底這個個保修期是是怎樣決定定的呢?大學排名是是一個非常常敏感的問問題。不同同的機構得得出不同的的結果;各各自都說自自己是客觀觀、公正和和有道理的的。到底如如何理解這這些不同的的結果呢??你想過下面面的問題嗎嗎?任何公司都都有一個信信用問題。。當然,在在這些公司司試圖得到到貸款時并并沒有不還還貸的不良良記錄。如如何根據它它們的財務務和商業(yè)資資料來判斷斷一個公司司的信用等等級呢?我國東部和和西部的概概念是一個個比較籠統統的概念。。如何能夠夠根據需要要,選擇一一些指標來來把各省,,或各市縣縣甚至村進進行分類呢呢?疾病傳播時時,如何能能夠通過感感染者入院院前后的各各種因素得得到一個疾疾病傳染方方式的模型型呢?你想過下面面的問題嗎嗎?如何通過大大眾調查來來得到性別別、年齡、、職業(yè)、收收入等各種種因素與公公眾對某項項事物(比比如商品或或政策)的的態(tài)度的關關系呢?一個從來沒沒有研究過過紅樓夢的的統計學家家如何根據據比較寫作作習慣得出出紅樓夢從從哪一段開開始就不是是曹雪芹的的手筆了呢呢?如何才能夠夠客觀地得得到某個電電視節(jié)目的的收視率,,以確定廣廣告的價格格是否合理理呢?你如何理解解下面說法法?“明天降水概概率為40%”“我冬天去新新加坡度假假的概率為為10%”“該節(jié)目收視視率是30%”“調查結果表表明20%的觀眾喜歡歡某節(jié)目”“抽樣調查結結果的誤差差為±3%”“支持率的95%置信區(qū)間間為(25%,30%)”“某學校排名名第一”“某縣是貧困困縣”你如何理解解下面說法法?“某國的綜合合競爭力排排名第43位”“該國家屬于于發(fā)展中國國家”“該藥品療效效99%”“該國貧富差差距大”“這個縣收入入比那個縣縣高”“該結果統計計顯著”“消費價格指指數為120%””“他的血壓已已經正常了了”可以想象出出的統計應應用例子如何確定觀觀眾/聽眾是否忠忠實于某節(jié)節(jié)目(專欄)如何對電視視節(jié)目排名名次什么因素影影響一個節(jié)節(jié)目的收視視率如何按照各各種不同環(huán)環(huán)境估計某某商店的顧顧客人數如何按照各各種指標評評價雇員如何把地區(qū)區(qū)(市縣鎮(zhèn)等)按照各種指指標分類如何確定紅紅樓夢第幾幾回不是曹曹雪芹所寫寫如何確定一一個產品的的可靠性如何進行偏偏差較少的的民意調查查如何根據一一些財務數數據發(fā)現漏漏稅的嫌疑疑單位?你相信統計計結果嗎??數據可以有有誤或作假假統計方法((有意或無無意)使用用不當可以以誤導。有有低級誤導導和高級誤誤導。常識判斷和和直覺是重重要的關于美國選選舉的兩個個例子(1)誰會在1936選選舉中獲勝勝?AlfLondon還是F.D.R.(羅斯斯福)?LiteraryDigest(文摘)送出一千萬萬份問卷(返回二百四四十萬份)后,預測London會贏贏.而Gallop(蓋洛洛普)只問了5000人說Roosevelt(羅斯斯福)會贏贏.最后羅斯福福和蓋洛普普都贏了.文摘倒閉了.誰會在1948選選舉中獲勝勝?ThomasDewey還還是HarryTruman(杜魯魯門)?Crossley,Gallop(蓋洛普),Roper所有都預測Dewey會贏(每個個機構用了了5000個問卷).最后(包括括蓋洛普)他們都輸輸了,而而杜魯門贏贏了.關于美國選選舉的兩個個例子(2)統計的一些些做法統計可以指指導我們收收集數據.當擁有來自自一些變量量(指標)的數據或記記錄,但缺乏模型型來描述這這些變量之之間關系的的情況下,可用統計方方法建立模模型.在有了一定定的模型時時,統計可以確確定手中數數據是否令令人信服地地支持某種種論點.模型也用來來對未來進進行預測.統計直觀的的圖表展示示,可以使各個個領域的專專家容易理理解中國統計的的獨特歷史史環(huán)境中國統計過過去分為“統計學”(文科的列寧寧主義統計計)和“數理統計”(數學類的國國際意義上上的統計)國內一些學學者把統計計稱為是經經濟學科的的一部分,,則是中國國特有的與與前蘇聯關關聯的國情情所造成;;讀者可以以從《蘇聯大百科科全書》的統計學條條款得到答答案。但前蘇聯的的經濟學中中的統計學學概念是其其意識形態(tài)態(tài)和計劃經經濟體系的的產物,其其模型多屬屬于小學數數學水平,,很難稱為為數學模型型。這與現代經濟濟學所需要的的大量的統計計和數學形成成鮮明對照.前蘇聯式的“統計學”不是目前國際際流行意義上上的統計學或或統計學的分分支。統計的內容和和需要的知識識數學的幾乎所所有內容(不一定事先知知道需要什么么)用計算機做統統計計算其他(對象)領域的知識統計和數學的的區(qū)別數學思維是以以演繹為主統計思維是以以歸納為主,兼有演繹統計各領域利利用幾乎所有有存在的數學學內容.但統計本身的的數學是為具具體目標服務務的,自己一般不形形成數學體系系計算機的重要要性由于統計和數數據打交道,沒有計算機的的發(fā)展統計就就沒有前途.計算機和統計計的發(fā)展相輔輔相成§1.2現實中的隨機機性和規(guī)律性性從中學起,我我們就知道自自然科學的許許多定律,例例如物理中的的牛頓三定律律,物質不滅滅定律以及化化學中的各種種定律等等。。但是在許多領領域,很難用如此確確定的公式或或論述來描述述一些現象。。比如,人的壽壽命是很難預預先確定的。。一個吸煙、、喝酒、不鍛鍛煉、而且一一口長葷的人人可能比一個個很少得病、、生活習慣良良好的人活得得長。因此,可以說說,活得長短短是有一定隨隨機性的(randomness)。這種隨機性性可能和人的的經歷、基因因、習慣等無數說不清的的因素都有關系?,F實中的隨機機性和規(guī)律性性但是從總體來來說,我國公公民的平均年年齡卻是非常常穩(wěn)定的。而而且女性的平平均年齡也穩(wěn)穩(wěn)定地比男性性高幾年。這這就是規(guī)律性。一個人可能活活過這個平均均年齡,也可可能活不到這這個年齡,這這是隨機的。但是總體來說說,平均年齡齡的穩(wěn)定性,,卻說明了隨機之中有規(guī)規(guī)律性。這種規(guī)律就就是統計規(guī)律律。概率和機會你可能經常聽聽到概率(probability)這個名詞。。例如在天氣氣預報中會提提到降水概率率。大家都明明白,如果降降水概率是百百分之九十,,那就很可能能下雨;但如如果是百分之之十,就不大大可能下雨。。因此,從某種種意義說來,,概率描述了某某件事情發(fā)生生的機會。顯然,這種概概率不可能超超過百分之百百,也不可能能少于百分之之零。換言之之,概率是在0和1之間的一個數數,說明某事件件發(fā)生的機會會有多大。有些概率是無無法精確推斷斷的比如你對別人人說你下一個個周末去公園園的概率是百百分之八十。。但你無法精精確說出為什什么是百分之之八十而不是是百分之八十十四或百分之之七十八。其實你想說的的是你很可能能去,但又沒沒有完全肯定定。實際上,到了了周末,你或或者去,或者者不去;不可可能有分身術術把百分之八八十的你放到到公園,而其其余的放在別別處。有些概率是可可以估計的比如擲骰子。。只要沒有人人在骰子上做做手腳,你得得到6點的概率應該該是六分之一一。得到其他他點的概率也也是一樣。得到6的概率或者機機會是可以知知道的,但擲擲骰子的結果果還只可能是六個個數目之一。。這個已知的規(guī)規(guī)律就反映了了規(guī)律性,而而得到哪個結結果則反映了了隨機性。如果你擲1000次骰子,那么么,大約有六六分之一的可可能會得到6;這也是隨機性性呈現有規(guī)律律的一個體現現?!?.3變量和數據一節(jié)火車車廂廂有多少坐位位是一個固定定的數目,稱稱為常數(constant)或者常量。但是,開車后后,坐在這節(jié)節(jié)車廂的旅客客有多少就沒沒準了。這有有隨機性。該該車廂的乘客客數為變量(variable)?!?.3變量和數據一個學校的注注冊在校男女女生比例是固固定的,為常常量但是,該校任任意一群學生生的男女生比比例就不一定定和全校的比比例一樣了,,它為變量(variable)?!?.3變量和數據當變量按照隨隨機規(guī)律所取取的值是數量量時該變量稱稱為定量變量量或數量變量量(quantitativevariable);因為是隨機的的,也稱為隨隨機變量(randomvariable)。如身高體重,,購買某商品品的人數等等等SPSS主要為Numeric§1.3變量和數據象性別,觀點點之類的取非非數量值的變變量就稱為定定性變量或屬屬性變量或分分類變量(qualitativevariable,或categoricalvariable)。這些定性變量量也可以由定定量變量來描描述,如男女女生的數目,,持有某觀點點的人數比例例等等?!?.3變量和數據定性變量只有有用數量來描描述時,才有有可能建立數數學模型,并并使用計算機機來分析。數據中它們通通常用啞元((dummyvariable)代表,比如性性別用0、1代表,三種收收入用0、1、2代表(或用字母代表表)SPSS中沒有特別的的變量,往往往用數值表示示§1.3變量和數據有了變量,何何謂數據?不同機構調查查所得到的北北京收入萬元元以上市民的的比例都不一一樣,這是變變量而這些調查產產生一些數目目,這些數目目就是數據(data)數據是關于變變量的觀測值值?!?.3變量和數據通過數據可驗驗證有關的理理論或假定。。比如通過抽樣樣調查驗證美美國選民對共共和黨候選人人的支持率是是否超過50%通過抽樣,可可以檢驗某批批產品是否合合格等等§1.4變量之間的關關系現實世界緊密密聯系的人們想知道投投資方式和經經濟效益之間間的關系、旅旅客人數和經經濟發(fā)展之間間的關系等等等不討論變量之之間的關系,,就無從談起起任何有深度度的應用,統統計的基本概概念就僅僅是是擺設而已。。§1.4.1定量變量間的的關系例1.1.廣告投入和和銷售之間的的關系。下表表(數據ads.sav)顯示了某企企業(yè)的廣告投投入和銷售額額之間的關系系(萬元)。。橫坐標代表廣廣告投入,而而縱坐標代表表銷售收入。??吹贸鲇泻畏N種關系嗎?§1.4.1定量變量間的的關系能否從該數據據回答下面問問題:這兩個變量是是否有關系??如果有,它們們的關系是否否顯著?這些關系是什什么關系,能能否用數學模模型來描述??這個關系是否否帶有普遍性性?這個關系是不不是因果關系系?§1.4.1定量變量間的的關系關于因果關系系在可控制的試試驗中,較容容易找到因果果關系;比如如治療方式和和療效的關系系等但是,一般來來說,變量之之間有關系這這個事實并不不意味著一定定存在明確的的因果關系。?!?.4.1定量變量間的的關系比如,北京GDP在一年中是快快速增長的,,而一個剛出出生的巴拿馬馬嬰兒在這一一年中的體重重也是快速增增長的如果畫出圖來來,它們有類類似線性的關關系但它們顯然沒沒有因果關系系§1.4.1定量變量間的的關系只要有關系,,即使不是因因果關系也不不妨礙人們利利用這種關系系來進行推斷斷。比如利用公雞雞打鳴來預報報太陽升起;;雖然公雞打打鳴絕對不是是日出的原因因(雖然打鳴發(fā)生生在先)§1.4.1定量變量間的的關系簡單的辦法((諸如畫圖))可以得到一一些信息,但但不一定能夠夠給出滿意的的答案需要更多的工工具和手段來來進行數值分分析得到更加加嚴格和精確確的解答因此,需要繼繼續(xù)我們的課課程§1.4.2定性變量間的的關系例1.2.下面是對123人進行關于某某項政策調查查所得結果的的一個簡單的的三維表,它它顯示了人們們的收入和性性別對該項政政策的觀點。。(table7.sav)。計算機軟件所所應用的數據據形式§1.4.2定性變量間的的關系從這個數據,,希望可以看看出收入、性性別對觀點是是否有影響及及如何影響如果要得到更更加精確的結結論,就要進進行進一步的的分析和計算算這是后面列聯聯表分析或多多項分布對數數線性模型的的內容§1.4.3定性和定量變變量間的混和和關系有些數據不是是僅有定性變變量或僅有定定量變量需要知道包括括定性和定量量兩種變量的的一些變量之之間的關系下面數據就包包含兩種變量量Asthma.sav數據§1.4.3定性和定量變變量間的混和和關系該數據有2個定性變量((性別,污染染程度)、一一個定量變量量(年齡)以以及發(fā)生哮喘喘的人數我們希望知道道哮喘和這三三個變量之間間的關系這將在Poisson對數線性模型型中討論§1.5統計、計算機機與統計軟件件現代生活越來來越離不開計計算機了最初的計算機機僅僅是為科科學計算而設設計和建造的的。統計是大型計計算機的最早早用戶,現在在仍然是數值值計算的主要要用戶§1.5統計、計算機機與統計軟件件計算機的使用用,從計算機機語言到““傻瓜式”地地點擊鼠標輸出結果也從從數字輸出到到各種可以想想象得到的形形式。輸入數據,點點鼠標做一些些選項,就可可得到漂亮結結果但其中充滿了了危險的陷阱阱§1.5統計、計算機機與統計軟件件計算機無法識識別你的統計計方面的錯誤誤錯誤的方法、、錯誤的數據據形式都必然然輸出錯誤的的結果(雖然然看上去可能能很漂亮),,得到大量垃垃圾另外,統計軟軟件輸出的結結果太多、很很難都理解§1.5統計、計算機機與統計軟件件統計軟件的種種類很多。書書中僅介紹最最常見的幾種種。只要學會使用用一種“傻瓜瓜式”軟件或或編程軟件,,使用其他類類似的軟件也也不會困難;;最多看看幫幫助和說明即即可。學習軟件的最最好方式是需需要時在使用用中學。統計軟件SPSS:這是一一個很很受歡歡迎的的統計計軟件件;它它容易易操作作,輸輸出漂漂亮,,功能能齊全全,價價格合合理。。對于于非統統計工工作者者是很很好的的選擇擇。SAS:這是功功能非非常齊齊全的的軟件件;盡盡管價價格不不菲,,許多多公司司還是是因為為其功功能眾眾多和和某些些美國國政府府機構構認可可而使使用。。盡管管現在在已經經盡量量“傻傻瓜化化”,,仍然然需要要一定定的訓訓練才才可以以進入入。對對于基基本統統計課課程則則不那那么方方便。。STATA:這是眾眾多統統計軟軟件的的后起起之秀秀;它它操作作靈活活、簡簡單、、易學學易用用,同同時具具有數數據管管理軟軟件、、統計計分析析軟件件、繪繪圖軟軟件、、矩陣陣計算算軟件件和程程序語語言的的特點點。占占用計計算機機系統統資源源少,,繪圖圖漂亮亮,對對有簡簡單編編程基基礎者者來講講十分分容易易上手手,有有專門門出版版的專專業(yè)刊刊物。。以上三三種軟軟件并并稱為為新的的國際際三大大權威威統計計軟件件統計軟軟件Excel:它嚴格格說來來并不不是統統計軟軟件,,但作作為數數據表表格軟軟件,,必然然有一一定統統計計計算功功能。。而且且凡是是有MicrosoftOffice的計算算機,,基本本上都都裝有有Excel。但要要注意意,有有時在在裝Office時沒有有裝數數據分分析的的功能能,那那就必必須裝裝了才才行。。當然然,畫畫圖功功能是是都具具備的的。對對于簡簡單分分析,,Excel還算方方便,,但隨隨著問問題的的深入入,Excel就不那那么““傻瓜瓜”,,需要要使用用函數數,甚甚至根根本沒沒有相相應的的方法法了。。多數數專門門一些些的統統計推推斷問問題還還需要要其他他專門門的統統計軟軟件來來處理理。統計軟軟件S-plus:這是是統計計學家家喜愛愛的軟軟件。。不僅僅由于于其功功能齊齊全,,而且且由于于其強強大的的編程程功能能,使使得研研究人人員可可以編編制自自己的的程序序來實實現自自己的的理論論和方方法。。它也也在進進行““傻瓜瓜化””以爭爭取顧顧客。。但仍仍然以以編程程方便便為顧顧客所所青睞睞。R軟件::這是一一個免費的的,由志志愿者者管理理的軟軟件。。其編編程語語言與與S-plus所基于于的S語言一一樣,,很方方便。。還有有不斷斷加入入的各各個方方向統統計學學家編編寫的的統計計軟件件包。。同時時從網網上可可以不不斷更更新和和增加加有關關的軟軟件包包和程程序。。這是是發(fā)展最最快的軟件件,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論