多元分析概述_第1頁
多元分析概述_第2頁
多元分析概述_第3頁
多元分析概述_第4頁
多元分析概述_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1頁,共27頁,2023年,2月20日,星期四第一節(jié)引言多元統(tǒng)計分析是運用數理統(tǒng)計方法來研究解決多指標問題的理論和方法。近30年來,隨著計算機應用技術的發(fā)展和科研生產的迫切需要,多元統(tǒng)計分析技術被廣泛地應用于地質、氣象、水文、醫(yī)學、工業(yè)、農業(yè)和經濟等許多領域,已經成為解決實際問題的有效方法。然而,隨著Internet的日益普及,各行各業(yè)都開始采用計算機及相應的信息技術進行管理和決策,這使得各企事業(yè)單位生成、收集、存儲和處理數據的能力大大提高,數據量與日俱增,大量復雜信息層出不窮。在信息爆炸的今天,人們已經意識到數據最值錢的時代已經到來。顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。第2頁,共27頁,2023年,2月20日,星期四比如:信息量過大,超過了人們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應用帶來困難;信息組織形式的不一致性導致難以對信息進行有效統(tǒng)一處理等等,這種變化使傳統(tǒng)的數據庫技術和數據處理手段已經不能滿足要求.Internet的迅猛發(fā)展也使得網絡上的各種資源信息異常豐富,在其中進行信息的查找真如大海撈針。這樣又給多元統(tǒng)計分析理論的發(fā)展和方法的應用提出了新的挑戰(zhàn)。第3頁,共27頁,2023年,2月20日,星期四多元統(tǒng)計分析起源于上世紀初,1928年Wishart發(fā)表論文《多元正態(tài)總體樣本協(xié)差陣的精確分布》,可以說是多元分析的開端。20世紀30年代R.A.Fisher、H.Hotelling、S.N.Roy、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速得發(fā)展。20世紀40年代在心理、教育、生物等方面有不少得應用,但由于計算量大,使其發(fā)展受到影響,甚至停滯了相當長得時間。20世紀50年代中期,隨著電子計算機得出現和發(fā)展,使多元分析方法在地質、氣象、醫(yī)學、社會學等方面得到廣泛得應用。20世紀60年代通過應用和實踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現又促使它的應用范圍更加擴大。20世紀70年代初期在我國才受到各個領域的極大關注,并在多元統(tǒng)計分析的理論研究和應用上也取得了很多顯著成績,有些研究工作已達到國際水平,并已形成一支科技隊伍,活躍在各條戰(zhàn)線上。第4頁,共27頁,2023年,2月20日,星期四在20世紀末與本世紀初,人們獲得的數據正以前所未有的速度急劇增加,產生了很多超大型數據庫,遍及超級市場銷售、銀行存款、天文學、粒子物理、化學、醫(yī)學以及政府統(tǒng)計等領域,多元統(tǒng)計與人工智能和數據庫技術相結合,已在經濟、商業(yè)、金融、天文等行業(yè)得到了成功的應用。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計分析的理論與方法,本書重點介紹多元正態(tài)總體的參數估計和假設檢驗以及常用的統(tǒng)計方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對應分析、典型相關分析、多維標度法以及多變量的可視化分析等。與此同時,我們將利用在我國廣泛流行的SPSS統(tǒng)計軟件來實現實證分析,做到在理論的學習中體會應用,在應用的分析中加深理論。第5頁,共27頁,2023年,2月20日,星期四第一節(jié)應用背景一

統(tǒng)計學的生命力在于應用二

多元統(tǒng)計分析方法的應用第6頁,共27頁,2023年,2月20日,星期四統(tǒng)計方法是科學研究的一種重要工具,其應用頗為廣泛。特別地,多元統(tǒng)計分析方法常常被應用于自然科學、社會科學等領域的問題中。為了進一步體現多元統(tǒng)計分析方法的應用,我們首先從宏觀的角度認識統(tǒng)計學應用的背景,然后從微觀的角度顯示多元統(tǒng)計分析應用的廣泛性。第7頁,共27頁,2023年,2月20日,星期四一、統(tǒng)計學的生命力在于應用(一)統(tǒng)計學產生于應用統(tǒng)計學的發(fā)展過程中可以看出統(tǒng)計學產生于應用,在應用過程中發(fā)展,它的生命力在于應用。300年前,威廉·配第(1623-1687)寫的《政治算術》,從其研究方法看,被認為是一本統(tǒng)計學著作。政治算術學派的統(tǒng)計學家將統(tǒng)計方法應用于各自熟悉和感興趣的研究領域,都還是把其應用對象當作肯定性事物之間的聯(lián)系來進行研究的。他們確信,事物現象存在著簡單明了的數量關系,需要用定性與定量的方法將這種關系(規(guī)律)揭示或描述。使人們能夠更具體、真切地認識世界。第8頁,共27頁,2023年,2月20日,星期四數理統(tǒng)計學派的奠基人凱特勒在統(tǒng)計學中引入了概率論,把它應用與自然界和社會的許多方面,從而為人們認識和說明不確定現象及其相互之間的聯(lián)系開辟出了一條道路。在自然科學和社會科學的許多領域,都留下凱特勒應用統(tǒng)計學研究的烙印。自從凱特勒把概率論引入了應用中的統(tǒng)計學,人們對客觀世界的認識及描述更全面、更接近于實際了。他在廣泛應用拉普拉斯等人概率論中的正態(tài)曲線、誤差法則、大數法則等成果的過程中,為統(tǒng)計學增添了數理統(tǒng)計方法,進而又擴展了統(tǒng)計學的應用范圍。第9頁,共27頁,2023年,2月20日,星期四在應用中對發(fā)展統(tǒng)計方法貢獻顯著的當推生物統(tǒng)計學派的戈爾登(1822-1921)、皮爾遜(1857-1936)和農業(yè)實驗學派的孟德爾(1822--1884)、戈塞特(1876-1937)等。戈爾登六年中測量了近萬人的“身高、體重、闊度、呼吸力、拉力和壓力、手擊的速率、聽力、視力、色覺及個人的其他資料”。在探究這些數據內在聯(lián)系的過程中提出了今天在自然科學和社會科學領域中廣泛應用的“相關”思想。將大量數據加以綜合描述和比較,從而能使他的遺傳理論建立在比較精確的基礎上,為統(tǒng)計學引入了中位數、四分位數、分布、回歸等極為重要的概念和方法。皮爾遜在檢驗他老師戈爾登的“祖先遺傳法則”和自然選擇中“淘汰”對器官的相關及變異的影響中,導入了復相關的概念和方法。在討論生物退化、反祖、遺傳、隨機交配等問題中,展開了回歸與相關的研究,并提出以檢驗作為曲線配合適合度的一種量度的思想。第10頁,共27頁,2023年,2月20日,星期四農業(yè)實驗學派的孟德爾和戈塞特同樣是在實驗回答各自應用領域中出現的新要求、新課題,發(fā)展了統(tǒng)計思想和統(tǒng)計分析方法。孟德爾及其后繼者貝特森等人創(chuàng)建的遺傳試驗手段,比通過記錄生命外部聯(lián)系曲折反映事物內在本質的描述統(tǒng)計更加深刻。他們運用推斷的理論與實驗的方法,通常只用小樣本來處理。戈塞特的T分布與小樣本思想更是在由于“有些實驗不能多次地進行”,從而“必須根據極少數的事例(小樣本)來判斷實驗結果的正確性”的情況下產生的。今天,這些統(tǒng)計思想和分析推斷方法已經成為了科學家們不可缺少的基本研究工具了。第11頁,共27頁,2023年,2月20日,星期四近現代,統(tǒng)計學已經空前廣泛應用于最高級的運動形式——社會。其結果便是出現了一系列與其應用對象指導理論和其它相關學科交織在一起的邊緣學科。如在社會經濟方面的投入產出經濟學、經濟計量學、統(tǒng)計預測學、統(tǒng)計決策學等等。在這些邊緣學科中,統(tǒng)計學與其應用對象結合更緊密、更自然。這些學科的專家學者至少在兩個或兩個以上的專業(yè)領域里有比較深厚的學術造詣。統(tǒng)計學的應用幫助他們在各自的應用領域中取得輝煌的成就??梢姡y(tǒng)計學的發(fā)展一刻也離不開應用。它在應用中誕生,在應用中成熟、獨立,在應用中擴充自身的方法內容,同時擴展了應用領域,又在應用中與其他學科緊密結合形成新的邊緣學科。一部統(tǒng)計理論發(fā)展史同時又是一部應用統(tǒng)計發(fā)展史,正因如此,統(tǒng)計學的生命力在于應用。第12頁,共27頁,2023年,2月20日,星期四(二)理論研究為統(tǒng)計學的應用奠定了基礎統(tǒng)計理論問題的研究和應用研究從總體上說應該屬于“源”和“流”的關系。如果理論不成熟,方法不完善,統(tǒng)計應用研究也很難達到較高的水平。因此,充分發(fā)揮統(tǒng)計學的生命力,必須建立在統(tǒng)計理論研究的基礎之上。從國際上看,近十幾年來,統(tǒng)計分析技術的研究有了新的發(fā)展。這些研究的總體特征是,廣泛吸收和融合相關學科的新理論,不斷開發(fā)應用新技術和新方法,深化和豐富了統(tǒng)計學傳統(tǒng)領域的理論與方法研究,并拓展了統(tǒng)計研究的新領域。這一些都充分地體現了統(tǒng)計學強有利的生命力,其具體表現在:第13頁,共27頁,2023年,2月20日,星期四第一,統(tǒng)計學為計算機科學的發(fā)展發(fā)揮作用。在計算機協(xié)助的電子通訊、網絡創(chuàng)新、資源及信息統(tǒng)計中的統(tǒng)計軟件等方面,對統(tǒng)計信息搜集、存貯和傳遞中利用計算機提高工作效能,建立統(tǒng)計信息時空結構有了新的發(fā)展。在網絡推斷、統(tǒng)計軟件包、統(tǒng)計建模中的計算機診斷方面,提出了統(tǒng)計思想直接轉化為計算機軟件,通過軟件對統(tǒng)計過程實行控制的作用,以及利用計算機程序識別模型、改善估計量性質的新方法。這些研究成果使人們興奮地看到計算機技術正在促使統(tǒng)計科研工作發(fā)生革命性變化。在軟件的質量評估上及統(tǒng)計程序和方法在軟件可靠性檢驗等方面也有了新的發(fā)展。第14頁,共27頁,2023年,2月20日,星期四第二,統(tǒng)計理論與分析方法的新發(fā)展。近年來,統(tǒng)計方法成果豐碩,反映了統(tǒng)計理論與分析方法在不斷的發(fā)展中趨于成熟和完善。在貝葉斯方法、非線性時間序列、多元分析、統(tǒng)計計算、線性模型、穩(wěn)健估計、極值統(tǒng)計、混沌理論及統(tǒng)計檢驗等方面,內容廣泛而翔實,可以歸納為三個方面: (1)理論上有新的開拓。如應用混沌理論提出混沌動態(tài)系統(tǒng)、混沌似然分析;引入數學中象分析、譜分析的方法,探討象分析中同步模型化的方法,建立經驗譜類函數的假設檢驗方法等; (2)不同的分析方法相互滲透、交叉結合運用,衍生新的分析方法。如馬爾可夫鏈,蒙特卡羅方法在葉貝斯似然計算中的應用,參數估計方法的非參數校正,狀態(tài)空間模型與月份時間序列的結合運用; (3)借助現代計算機技術活躍新的研究領域。在計算機技術迅速發(fā)展的帶動下,模擬計算理論和方法有了長足的發(fā)展,這給非線性模型等因計算繁煩而沉悶多時的研究領域住入了新的活力,提出了非線性結構方程模型的特征向量估計方法,非線性回歸中的截面有效性逼近,帶噪聲的非線性時間序列的識別等富有見地的新思路。Logistic模型、向量時間序列模型的研究也因計算技術的解決而不乏新成果。第15頁,共27頁,2023年,2月20日,星期四第三,統(tǒng)計調查方法與記述的創(chuàng)新。調查方法是統(tǒng)計方法論的重要組成部分,近年來,在抽樣理論與方法、抽樣調查、實驗設計方面十分關心如何改進調查技術、減少抽樣誤差等問題。調查過程的綜合管理、不等概率抽樣設計、分層總體的樣本分配、抽樣比例的回歸分析和實驗設計正交數組的構造方法等方面有了新見解。再抽樣及隨機加權方法、隨機模型及連續(xù)調查報告的趨勢計量、輔助信息和抽樣方法,則涉及多種統(tǒng)計分析和計算方法的應用,在轉換樣本調查設計等方面也取得一定成果。計算機輔助調查有了新的發(fā)展。眾所周知,理論來源于實踐,反過來又服務于實踐。統(tǒng)計理論的研究和分析技術的發(fā)展,無疑對統(tǒng)計的實踐起到了一定的指導作用。從另一角度也顯示出了,統(tǒng)計理論和分析技術的不斷完善,為統(tǒng)計學的應用奠定了基礎,確保了統(tǒng)計學強大的生命力。第16頁,共27頁,2023年,2月20日,星期四二、多元統(tǒng)計分析方法的應用這里我們要通過一些實際的問題,解釋選擇統(tǒng)計方法和研究目的之間的關系,這些問題以及本書中的大量案例能夠使得讀者對多元統(tǒng)計分析方法在各個領域中的廣泛應用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應有具體解決問題的方法,參看表1.1。多元統(tǒng)計分析方法在經濟管理、農業(yè)、醫(yī)學、教育學、體育科學、生態(tài)學、地質學、社會學、考古學、環(huán)境保護、軍事科學、文學等方面都有廣泛的應用,這里我們例舉一些實際問題,進一步了解多元統(tǒng)計分析的應用領域,讓讀者從感性上加深對多元統(tǒng)計分析的認識。第17頁,共27頁,2023年,2月20日,星期四表1.1統(tǒng)計方法和研究目的之間的關系問題內容方法數據或結構性化簡盡可能簡單地表示所研究的現象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。多元回歸分析、聚類分析、主成分分析、因子分析、相應分析、多維標度法、可視化分析分類和組合基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。判別分析、聚類分析、主成分分析、可視化分析變量之間的相關關系變量之間是否存在相關關系,相關關系又是怎樣體現。多元回歸、典型相關、主成分分析、因子分析、相應分析、多維標度法、可視化分析預測與決策通過統(tǒng)計模型或最優(yōu)準則,對未來進行預見或判斷。多元回歸、判別分析、聚類分析、可視化分析假設的提出及檢驗檢驗由多元總體參數表示的某種統(tǒng)計假設,能夠證實某種假設條件的合理性。多元總體參數估計、假設檢驗第18頁,共27頁,2023年,2月20日,星期四1、城鎮(zhèn)居民消費水平通常用八項指標來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標存在一定的線性關系。為了研究城鎮(zhèn)居民的消費結構,需要將相關強的指標歸并到一起,這實際就是對指標進行聚類分析。2、在企業(yè)經濟效益的評價中,涉及到的指標往往很多,如百元固定資產原值實現產值、百元固定資產原值實現利稅、百元資金實現利稅、百元工業(yè)總產值實現利稅、百元銷售收入實現利稅、每噸標準煤實現工業(yè)產值、每千瓦時電力實現工業(yè)產值、全員勞動生產率、百元流動資金實現產值。如何將這些具有錯綜復雜關系的指標綜合成幾個較少的因子,既有利于對問題進行分析和解釋,又能便于抓住主要矛盾做出科學的評價。可用主成分分析和因子分析法。第19頁,共27頁,2023年,2月20日,星期四3、某一產品是用兩種不同原料生產的,試問此兩種原料生產的產品壽命有無顯著差異?又比如,若考察某商業(yè)行業(yè)今年和去年的經營狀況,這時需要看這兩年經營指標的平均水平是否有顯著差異以及經營指標之間的波動是否有顯著差異。可用多元正態(tài)總體均值向量和協(xié)差陣的假設檢驗。4、按現行統(tǒng)計報表制度,農村家庭純收入是指農村常住居民家庭總收入中扣除從事生產和非生產經營用支出、稅款和上交承包集體任務金額以后剩余的、可直接用于進行生產的、非生產性建設投資、生產性消費的那一部分收入。如果我們收集某年各個省、自治區(qū)、直轄市農民家庭人均純收入的數據,可以用相應分析,揭示全國農民人均純收入的特征以及各省、自治區(qū)、直轄市與各收入指標的關系。第20頁,共27頁,2023年,2月20日,星期四5、某醫(yī)院已有100個分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個人若干項癥狀指標數據。如果對于一個新的病人,當也測得這若干項癥狀指標時,可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對每兩種酒進行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠得分越低),希望用這些得分數據來了解這100種酒之間的結構關系。這樣的問題就可以用多維標度法來解決。7、在地質學中,常常要研究礦石中所含化學成分之間的關系。設在某礦體中采集了60個標本,對每個標本測得20個化學成分的含量。我們希望通過對這20個化學成分的分析,了解礦體的性質和礦體形成的主要原因。第21頁,共27頁,2023年,2月20日,星期四8、研究中國七星瓢蟲在黃海、渤海的群聚與近期氣象條件的關系。對1000個類似的魚類樣本,如何根據測量的特征如體重、身長、鰭數、鰭長、頭寬等,我們可以利用聚類分析方法將這類魚分成幾個不同品種。9、考古學家對挖掘出來的人頭蓋骨的高、寬等特征來判斷是男或女,根據挖掘出的動物牙齒的有關測試指標,判別它是屬于哪一類動物牙齒、是哪一個時代的。10、在高考招生工作中,我們知道每個考生的基本情況,通過分析我們不僅可以了解到學生喜歡學習的科目,還可以進一步從考生每門課程的成績,分析出學生的邏輯思維能力、形象思維能力和記憶力等等對學習成績的影響。第22頁,共27頁,2023年,2月20日,星期四第三節(jié)計算機在統(tǒng)計分析中的 應用一

加強計算機統(tǒng)計應用教學二

計算機統(tǒng)計分析的基本步驟第23頁,共27頁,2023年,2月20日,星期四一、加強計算機統(tǒng)計應用教學從統(tǒng)計學產生和發(fā)展的歷史我們可以看到,統(tǒng)計數據的收集、整理、加工、分析的過程中,對統(tǒng)計學的昌盛發(fā)展起決定性作用的工具就是高速的計算工具——計算機。同樣,它對統(tǒng)計教學也是相當重要的。首先,應在統(tǒng)計教學中大力加強通用統(tǒng)計應用軟件的教學。在國外比較流行的統(tǒng)計應用軟件如SAS、SPSS、S-PLUS、MINITAB、EXCEL等,都不僅僅是一個統(tǒng)計分析軟件,它們都可用于統(tǒng)計工作的全過程,如統(tǒng)計調查方案設計、統(tǒng)計整理、數據庫的建立與管理等等。因此,加強通用統(tǒng)計應用軟件的教學十分重要。第24頁,共27頁,2023年,2月20日,星期四其次,應把掌握一種算法語言和一定的數據庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論