第1講 Stata的學習背景與學習意義_第1頁
第1講 Stata的學習背景與學習意義_第2頁
第1講 Stata的學習背景與學習意義_第3頁
第1講 Stata的學習背景與學習意義_第4頁
第1講 Stata的學習背景與學習意義_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計分析方法與Stata應用(2015年春季學期)第一講 Stata的學習背景與學習意義一、Stata是什么?“Stata”并非數個單詞的縮寫(因此其正確拼寫為Stata而非STATA),而是由“statistics”和“data”合成的一個新詞,Stata公司的員工都將其讀做“Stay-ta”。從這個小小的趣聞中,可以看出Stata在問世之初(1985年)的主要功能在于統(tǒng)計分析和數據處理。經歷了三十余年的發(fā)展,Stata已經升級到第13.1版(表1),在不斷強化上述功能的同時,Stata在矩陣運算、繪圖、編程等方面的功能也在不斷加強。表1 Stata發(fā)展歷程版本發(fā)布日期版本發(fā)布日期13.1O

2、ct-137Dec-0013Jun-136Jan-9912.1Jan-125Sep-9612Jul-114Jan-9511.2Mar-113.1Aug-9311.1Jun-103Mar-9211Jul-092.1Aug-9010.1Aug-082.05Apr-8910Jun-072Jun-889.2Apr-061.5Feb-879.1Sep-051.4May-869Apr-051.3Aug-858.2Oct-031.2May-858.1Jul-031.1Feb-858Jan-031Jan-85資料來源:http:/www.SStata擅長數據處理、面板數據分析、時間序列分析、生存分析,以及調查

3、數據分析,但其它方面的功能也并不遜色(表2)。 表2 Stata的功能一覽數據處理和繪圖   Data managementGraphics  統(tǒng)計分析和檢驗   Basic statisticsNonparametric methodsExact statistics ANOVA/MANOVA其它檢驗方法和函數  回歸分析   Linear modelsGLMMLEGMMMultilevel mixed modelsPanel dat

4、aProbit/Logit/CountTime series多變量模型(多元統(tǒng)計) 抽樣和模擬分析 Multivariate methodsCluster analysisResampling and simulation 調查分析和生存分析   Survey methodsSurvival analysisEpidemiologists 編程   Programming languageMataUser-written commands  二、為什么要學習Stata1.時代

5、發(fā)展的需要:大數據時代的興起(1)什么是大數據?傳統(tǒng)的統(tǒng)計分析常常希望數據多多益善。也就是說,數據越多,分析越深入,所得的結論就越全面。從字面含義上理解似乎指的是數量龐大信息量巨大的數據。大數據常常被描述成已經大到無法用傳統(tǒng)的數據處理工具進行管理和分析的極大的數據集。超大的數據量只是大數據概念的一個部分。大數據涉及結構化數據、非結構化數據和半結構化數據這三類數據。結構化數據通常指的是傳統(tǒng)數據庫中的數據,利用結構化查詢語言(Structured Query Language,簡稱SQL) 來存取數據以及查詢、更新和管理數據庫系統(tǒng)。非結構化數據一般無法直接進行商業(yè)智能分析,這是由于非結構化數據無法

6、直接存儲到數據庫表中,也無法被程序直接使用。二進制圖片文件就是非結構化數據的一個典型例子。半結構化數據介于結構化數據和非結構化數據之間。半結構化數據不具有嚴格的結構因而不同于結構化數據。半結構化數據也不同于非結構化數據,它使用標簽和各種標識區(qū)分不同的元素,并利用層級結構來定義數據。(2)理解大數據的概念需要把握4個維度,統(tǒng)稱為4V特征。海量性(Volume)。大數據都是數量巨大的數據。很多企業(yè)都擁有海量數據,數據量很容易就積累到TB(1012字節(jié))級,甚至躍升至PB(1015字節(jié))級。多樣性(Variety)。大數據沖破結構化數據的局限,不僅包括結構化數據,還覆蓋了如文本、音頻、視頻、點擊流、

7、日志文件等各種類型的非結構化數據。精確性(Veracity)。數據量多不見得都是好事,龐雜的數據可能會導致對收集到的信息的誤讀或統(tǒng)計誤差,因此信息的純度對價值發(fā)掘至關重要。時效性(Velocity)。大數據對時效性要求很高,企業(yè)必須能夠在短時間內高速、流暢地處理源源不斷產生或流入企業(yè)的海量實時數據,方能最大化地顯現出大數據的商業(yè)價值。與此同時,大數據還應被歸檔存儲,以備不時之需。(3)在大數據的范疇下,包含如下方面。傳統(tǒng)商業(yè)智能(Traditional Business Intelligence, BI)。傳統(tǒng)的商業(yè)智能對來自數據庫、應用程序和其他可訪問數據源提供的詳細商業(yè)數據進行深度分析,通

8、過運用基于事實的決策支持系統(tǒng),給用戶提供可操作性的建議,輔助企業(yè)用戶做出更好的商業(yè)決策。數據挖掘 (Data Mining, DM)。數據挖掘是人們對數據進行多角度的分析并從中提煉有價值的信息的過程。數據挖掘的對象通常是靜態(tài)數據和歸檔數據。統(tǒng)計應用 (Statistical Application)。統(tǒng)計應用通常是基于統(tǒng)計學原理利用算法來處理數據,一般用于民意調查、人口普查以及其他統(tǒng)計數據集。為了更好地估計、測試或預測分析,可以使用統(tǒng)計軟件分析收集到的樣本觀測值來推斷總體特征。調查問卷和實驗報告這類經驗數據都是用于數據分析的主要數據來源。預測分析 (Predictive Analysis)。預

9、測分析是統(tǒng)計應用的一個分支,人們基于從各個數據庫得到的發(fā)展趨勢及其他相關信息,分析數據集進行預測。預測分析在金融和科學領域顯得尤為重要,因為加入對外部影響因素的分析,更容易形成高質量的預測結論。預測分析的一個主要目標是為業(yè)務流程、市場銷售和生產制造等規(guī)避風險并尋求機遇。(4)大數據的商業(yè)價值正在得到越來越多的實現和證明。對大數據商業(yè)價值的渴求,促使組織機構利用企業(yè)內部和外部數據“倉庫”中的數據來揭示發(fā)展規(guī)律、進行數據統(tǒng)計、獲取競爭情報,協助他們部署下一步戰(zhàn)略。據IBM公司稱,全球每天產生2.5億億(2.5×1018)字節(jié)的數據,當今世界90%的數據都是近兩年產生的。這些數據來源廣泛,

10、有的來自收集氣候信息的傳感器,有的來自社交媒體網站,還有的是網絡上傳的數字照片和視頻、電子商務交易記錄,甚至是手機GPS信號等。大數據的價值及其重要性已經在一些領域得到了證明。美國國家海洋和大氣管理局(NOAA)、美國國家航空航天局(NASA)、部分制藥公司和許多能源公司正在把大數據技術運用于日常工作并從海量的數據中提取價值。美國國家海洋和大氣管理局運用大數據的方法助力氣候、生態(tài)系統(tǒng)、天氣和商業(yè)研究,美國國家航空航天局則使用大數據從事航空航天等研究。在大數據的幫助下,制藥公司和能源公司已經在藥物測試和地理分析方面得到了實際的效益。紐約時報利用大數據工具進行文本分析和Web挖掘;迪士尼公司則分析

11、了旗下所有店鋪、主題公園和網站的數據,試圖發(fā)現數據間的關聯性,進而理解用戶行為。2.自身進步的需要兩個政策背景:一個是國家要加大職業(yè)技術教育,另一個是取消文理分科。一個教育背景:人大、北大等名校都開設Stata課。結論:文科生要加強技術方法的學習。3.為什么選擇Stata 由圖可知,SAS比Stata使用更廣泛。好了,下面是一張預測圖 三、如何學習Stata?1. 三門基礎課微積分、線性代數、概率論與數理統(tǒng)計,缺一不可?;A有多重要?有一句廣告詞:It's only about Fundamentals.你只需做好基本功?;A打好了,學

12、習統(tǒng)計、計量,真的勢如破竹;如果基礎不行,想要有多難,就有多難。1.1 微積分。推薦教材:同濟六版高等數學,國內相關的參考資料非常豐富,內容詳略基本得當,也比較流行。想比較有深度的,可以看史濟懷、常庚哲的數學分析(高等教育出版社,2012)。1.2 線性代數。1.3 概率論與數理統(tǒng)計。1.4基礎課程的系列教材,如果能找到視頻,就更好了。比如吉林大學陳殿友的線性代數、高等數學,麻省理工的Gilbert Strang的線性代數,中科大的繆柏其概率論與數理統(tǒng)計,中科大史濟懷或復旦陳紀修的數學分析,都是極好的。不過要真看完你就研究生畢業(yè)了(如果你是兩年制的研究生)。另外,我覺得有些考研的數學視頻也是不

13、錯。個人覺得Strang的線代超贊,但適合先經歷一次國內教材和教授方式的“洗腦”,你就覺得老外講得真心好!沒有比較的話,你會發(fā)現線代永遠是那么的抽象。2 Stata圖書1.應用STATA做統(tǒng)計分析 (更新至STATA10.0版)(勞倫斯·漢密爾頓著,郭志剛等譯,重慶大學出版社,2011)。2.社會統(tǒng)計分析與數據處理技術:STATA軟件的應用(楊菊華,中國人民大學出版社,2008)我個人覺得是最適合入門的教材。3. 數據管理與模型分析:STATA軟件應用(楊菊華,中國人民大學出版社,2012)。4. 陳強-高級計量經濟學及Stata應用 第二版5. 人大陳傳波stata十八講6. 現代

14、醫(yī)學統(tǒng)計方法與Stata應用_第二版(陳峰)(1)網絡資源值得一提的有如下幾個: Stata官方網站。Stata公司提供的Web resources,涵蓋了大量相關網絡資源;其FAQ則提供了各種常見問題的解答;Statalist則是一個類似于人大經濟論壇的免費的討論區(qū)。加入Statalist的方法很簡單,你只需要發(fā)送郵件至,郵件內容無需任何稱謂,只需寫上“subscribe Statalist”的字樣即可。接到確認信息后,你便成為一名Statalist的成員了。當然,即使不加入,你仍然可以瀏覽,但不能提問。Stata webs

15、ite: http:/www.S                                          導航圖Sata resources: http:/ww

16、w.SStata journal: http:/www.SStata library: /stat/Stata/library/Statalist archive: /cgi-bin/lwgate/STATALIST/archives/Stata FAQs: http:/www.SStata statistics FAQs: http:/www.SStata listserver: http:/www.SStata discussion l

17、ist: S Stata bookstore: http:/www.SStata Manual: http:/www.Stata-  UCLA(加州大學洛杉磯分校)提供的網絡教程。該網站提供的Data Management、Graphics、Regression、Logistic Regression、Multilevel Modeling、Survey Data Analysis等模塊都非常出色;其Web Books 、Textbook Examples模塊則非常細致地呈現了幾

18、十本非常流行的統(tǒng)計和計量教材的Stata實例;對于LaTeX感興趣的朋友,則可以通過Stata Tools for LaTeX模塊獲得諸多有用的信息;在Graph examples模塊中,則列舉了四十余種圖形的繪制方法;最后,在Classes and Seminars模塊中,你可以在線觀看數十個Stata教學視頻。Data ManagementGraphicsANOVARegressionLogistic (and Categorical) RegressionCount ModelsMultilevel ModelingSurvival AnalysisSurvey Data Analysi

19、sFrequently Asked Questions (FAQ)   Statistical AnalysisData Analysis Examples (絕佳的數據處理專題)Annotated Output (詳細解讀Stata輸出結果)Textbook Examples (包含十余本教科書的Stata實例)Web Books (兩本Stata網絡教程)What statistical analysis should I use? (常用統(tǒng)計分析的Stata實例) Stata Portal 

20、;(a comprehensive links) 人大經濟論壇。若從人數上來講,人大經濟論壇或許是全球最大的經濟類論壇了。目前,其計量經濟學板塊又細分出多個計量軟件專題討論區(qū)。在Stata專版已發(fā)布了4000余個討論主題(18000余條回復),而Stata上傳下載區(qū)則匯集了大量學習資料。在統(tǒng)計軟件培訓班VIP答疑區(qū)中,Stata培訓班的學員所提出的問題,可以在24小時內得到詳盡的回復。人大經濟論壇Stata專版:/bbs/forum-67-1.html人大經濟論壇Stata上傳下載區(qū):/bbs/forum

21、-121-1.html人大經濟論壇統(tǒng)計軟件培訓班VIP答疑區(qū)(針對Stata視頻教程學員):/bbs/forum-114-1.html (所有Stata問題24小時內回復)3.5 一些常用的網站:3.5.2 人大經濟論壇:/3.5.3 新浪愛問: 3.5.4 統(tǒng)計之都: /3.5.5 UCLA stata: /stat/stata/3.5.7 coursera:/4 一些適用于社會科學類的

22、實證教材4.1 社會學教材教參方法系列(全5本):謝宇:社會學方法與定量研究(社會科學文獻出版社,2012),回歸分析(社會科學文獻出版社,2012);4.2 萬卷方法叢書4.3 格致方法定量研究系列:如高級回歸分析(格致出版社,2011),數據分析方法五種,線性回歸分析基礎,等等。4.4 計量經濟學系列: 杰弗里·M·伍德里奇,計量經濟學導論,中國人民大學出版社,2010第4版。 威廉·H·格林,計量經濟分析,中國人民大學出版社,第6版。3 所有這些書籍,配套的stata數據、程序與答案都不難找到。如果你能找到英文版,看英文的也很好(如果你有能力?。?。

23、真的,學完這些書,基本上在社會學的研究生畢業(yè)之前,不太需要別的什么方法書了。你所需要的,只是如何將這些應用于社會學研究的實踐而已。面板數據計量經濟分析_4ed(Baltagi)5.統(tǒng)計學圖書:現代外國優(yōu)秀統(tǒng)計學著作譯叢全套15本中英對照:01外國統(tǒng)計學優(yōu)秀著作譯叢 統(tǒng)計學統(tǒng)計與真理統(tǒng)計學的世界(第五版)愛上統(tǒng)計學(第2版)馴服偶然.(加)伊恩哈金女士品茶四、如何學好Stata?(1) 好腦瓜不如爛筆頭。這是一個適用于學習任何新知識的“秘訣”,對于功能強大,以敲命令為基礎的Stata軟件而言尤其如此。因此,你要時刻記錄新學到的命令、方法和技巧,并定期整理。若能將這些手記與其他Stata用戶分享,你會有更多的收獲。(2) 學以致用。在了解了Stata的基本功能和架構后,想要進一步提升自己的最佳途徑就是動手寫一篇實證分析的論文,并自始至終用Stata解決所有問題。這項工作的起點是一份以txt或Excel格式存儲的原始數據文件,中間過程完整地記錄于一個do-files文檔中,最終的分析結果要自動輸出到Word, Excel或LaTeX文檔中。(3) 不恥下問。這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論