信息分析 課件 第3-5章 信息分析方法、信息分析工具、信息分析成果評價_第1頁
信息分析 課件 第3-5章 信息分析方法、信息分析工具、信息分析成果評價_第2頁
信息分析 課件 第3-5章 信息分析方法、信息分析工具、信息分析成果評價_第3頁
信息分析 課件 第3-5章 信息分析方法、信息分析工具、信息分析成果評價_第4頁
信息分析 課件 第3-5章 信息分析方法、信息分析工具、信息分析成果評價_第5頁
已閱讀5頁,還剩179頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

信息分析概論

(第二版)第3章信息分析方法信息分析概論(第二版)第3章信息分析方法信息分析的基本方法3.1回歸分析3.2聚類分析3.3時間序列分析3.4主成分分析3.5決策樹3.6方法是信息分析的核心。信息分析方法一般可分為定性方法、定量方法和半定量方法三大類。定性方法定性方法是信息分析的基本方法。它以認識論及思維科學領域的有關理論為基礎,根據(jù)有關課題的原生信息及其各種相關關系,對研究對象進行比較、評價、判斷、推理、分析、綜合,從而揭示出研究對象本身所固有的、本質(zhì)的規(guī)律。定性方法主要用于這樣幾種場合:為定量分析做準備;對定量分析的結(jié)果進行驗證或評價;在缺乏定量分析條件或不需進行定量分析的情況下獨立使用。信息分析概論(第二版)信息分析方法定量方法定量方法以基礎數(shù)學、數(shù)理統(tǒng)計、應用數(shù)學以及其他數(shù)學處理手段為基礎,通過分析研究揭示出研究對象本身所固有的、內(nèi)在的數(shù)量規(guī)律性。定量方法具有定量分析、結(jié)論具體、高度抽象等特點,在信息分析中有十分廣泛的應用。這種方法的缺點在于其不能完全替代人腦進行創(chuàng)造性思維。此外,定量方法所構造的曲線、模型或公式僅僅是客觀事物抽象化和理想化的結(jié)果,與復雜的、多參量的、動態(tài)變化的客觀事物本身相比,僅僅是一種近似的、簡單的、靜態(tài)的描述,因此,其結(jié)論在許多情況下僅具有參照意義。在具體實踐中,人們往往根據(jù)課題的條件和要求交叉使用定性方法和定量方法,以達到相互補充、相互完善的效果。信息分析概論(第二版)信息分析方法半定量方法半定量方法是一種定性和定量相結(jié)合的方法。其主要做法是在定性方法中引入數(shù)學手段,將定性問題(如專家評估意見和分析結(jié)論)按人為標準打分并做出定量化處理,具有數(shù)理統(tǒng)計的特征。在信息分析中經(jīng)常采用的半定量方法主要有德爾菲法、層次分析法、交叉影響分析法等。半定量方法的缺陷在于:它不像定性分析那樣推論嚴密,也不像定量分析那樣可以利用數(shù)學曲線、模型或公式精確求解。特別是專家選擇、調(diào)查表設計和數(shù)據(jù)處理的技巧性以及專家的評估意見和打分標準的主觀性都很強,有時甚至缺乏科學的依據(jù)。因而半定量方法目前主要用于原始數(shù)據(jù)不足或不易獲取、課題所涉及的相關因素過多等不易或不宜采用定量方法的場合。信息分析概論(第二版)信息分析方法信息分析概論(第二版)信息分析方法隨著信息技術的發(fā)展,信息分析方法正在從:傳統(tǒng)的以定性方法為主轉(zhuǎn)向以定量方法為主;同時又在更高程度上出現(xiàn)了由定量方法向定性方法回歸的趨勢;定性方法作為信息分析的基本方法,始終保持著旺盛的生命力。本章重點探討信息分析的基本方法以及回歸分析、聚類分析、時間序列分析、主成分分析和決策樹等方法。信息分析的基本方法第一部分信息分析概論(第二版)比較就是對照各個事物,以確定其間差異點和共同點的邏輯方法。事物間的差異性和同一性是進行比較的客觀基礎。完全相同或完全不同的事物均無法進行比較。比較通常有時間上的比較和空間上的比較兩種類型:時間上的比較是一種縱向比較空間上的比較是一種橫向比較在實際工作中,時間上和空間上的比較往往是彼此結(jié)合的信息分析概論(第二版)比較在比較時,應注意:要注意可比性,包括時間上的可比性、空間上的可比性和內(nèi)容上的可比性。要確立一個比較的標準。要注意比較方式的選擇。要注意比較內(nèi)容的深度。比較在信息分析中的作用:揭示事物的水平和差距。認識事物發(fā)展的過程和規(guī)律。判定事物優(yōu)劣、真?zhèn)?。信息分析概論(第二版)比較分析就是把客觀事物整體按照研究目的的需要分解為各個要素及其關系,并根據(jù)事物之間或事物內(nèi)部各要素之間的特定關系,通過由此及彼、由表及里的研究,達到認識事物的一種邏輯方法。分析的基本步驟:明確分析的目的。將事物整體分解為若干個相對獨立的要素。分別考察和研究各個事物以及構成事物整體的各個要素的特點。探明各個事物以及構成事物整體的各個要素之間的相互關系,并進而研究這些關系的性質(zhì)、表現(xiàn)形式、在事物發(fā)展變化中的地位和作用等。常用的分析方法主要有因果分析、表象和本質(zhì)分析、相關分析和典型分析。信息分析概論(第二版)分析與綜合因果分析因果分析就是從客觀事物的因果關系出發(fā),由原因推導出結(jié)果,或者由結(jié)果探究出原因的分析方法。因果分析的四種形式:求同法。如果在不同的場合觀察到相同的現(xiàn)象,這些不同的場合各有若干原因,但其中只有一個原因相同,則可初步確定這個共同的原因就是產(chǎn)生該現(xiàn)象的原因。求異法。如果所觀察的現(xiàn)象在第一種場合出現(xiàn),在第二種場合不出現(xiàn),而這兩種場合只有一個原因不同,則可初步確定這個不同的原因就是引發(fā)該現(xiàn)象的原因。共變法。如果在所觀察的現(xiàn)象發(fā)生變化的各種場合里,其他原因都沒有變化,只有一個原因發(fā)生了變化,則可初步確定該發(fā)生變化了的原因是使所觀察的現(xiàn)象發(fā)生變化的原因。剩余法。如果已知某一現(xiàn)象是所觀察的現(xiàn)象的原因,并且又知先行現(xiàn)象的某一部分是后續(xù)現(xiàn)象某一部分的原因,則可初步確定先行現(xiàn)象中的其余部分是后續(xù)現(xiàn)象中的其余部分的原因。信息分析概論(第二版)分析與綜合表象和本質(zhì)分析表象和本質(zhì)是揭示客觀事物的外部表現(xiàn)和內(nèi)部聯(lián)系相互關系的一對范疇。表象是事物的表面特征以及這些特征之間的外部聯(lián)系;本質(zhì)是事物的根本性質(zhì),是構成事物的各種必不可少的要素的內(nèi)在聯(lián)系。由于本質(zhì)是通過表象以某種方式表現(xiàn)出來的,因此,兩者之間存在著一定的關系。利用事物的表象和本質(zhì)之間的這種關系進行分析的方法,就是表象和本質(zhì)分析。利用表象和本質(zhì)分析,可達到由表及里、透過事物表象把握其本質(zhì)的目的。信息分析概論(第二版)分析與綜合相關分析在信息分析中,我們把利用事物的這些相關關系進行由此及彼、由表及里的分析方法統(tǒng)稱為相關分析。典型分析是對一個或幾個具有代表性的典型事例,就其核心問題進行深入分析和研究的方法。信息分析概論(第二版)分析與綜合綜合是同分析相對立的一種方法。它是指人們在思維過程中將與研究對象有關的片面、分散、眾多的各個要素(情況、數(shù)據(jù)、素材等)聯(lián)結(jié)起來考慮,以從錯綜復雜的現(xiàn)象中,探索它們之間的相互關系,達到從整體的角度把握事物的本質(zhì)和規(guī)律,通觀事物發(fā)展的全貌和全過程,獲得新的知識、新的結(jié)論的一種邏輯方法。綜合的基本步驟是:明確綜合的目的。把握被分析出來的研究對象的各個要素。確定各個要素的有機聯(lián)系形式。從事物整體的角度把握事物的本質(zhì)和規(guī)律,從而獲得新的知識和結(jié)論。在信息分析中,常用的綜合方法主要有簡單綜合、系統(tǒng)綜合和分析綜合。信息分析概論(第二版)分析與綜合簡單綜合簡單綜合是對與研究課題有關的信息(情況、數(shù)據(jù)、素材等)進行匯集、歸納和整理。系統(tǒng)綜合系統(tǒng)綜合是從系統(tǒng)論的觀點出發(fā),對與研究課題有關的大量信息進行時間與空間、縱向與橫向等方面的綜合研究。分析綜合分析綜合是對所搜集到的與研究課題有關的原生信息,在進行對比、分析和推理的基礎上進行綜合,以認識課題的本質(zhì)、全貌和動向,獲得新的知識和結(jié)論。信息分析概論(第二版)分析與綜合分析與綜合的關系:分析與綜合是辯證統(tǒng)一的關系。兩者既相互矛盾又相互聯(lián)系。兩者在一定的條件下可以相互轉(zhuǎn)化。在信息分析中,分析與綜合總是結(jié)合在一起使用的。沒有分析的綜合,或者沒有綜合的分析,都很難保證信息分析產(chǎn)品的質(zhì)量。信息分析概論(第二版)分析與綜合推理是由一個或幾個已知的判斷推出一個新判斷的思維形式。具體來說,就是在掌握一定的已知事實、數(shù)據(jù)或因素相關性的基礎上,通過因果關系或其他相關關系順次、逐步地推論,最終得出新結(jié)論的一種邏輯方法。任何推理都包含三個要素:前提,即推理所依據(jù)的那一個或幾個判斷。結(jié)論,即由已知判斷推出的那個新判斷。推理過程,即由前提到結(jié)論的邏輯關系形式。推理類型的劃分角度:根據(jù)前提的數(shù)量,推理分為直接推理和間接推理。根據(jù)組成推理的判斷的類別,推理分為直言推理、假言推理、選言推理、聯(lián)言推理、關系判斷推理和模態(tài)判斷推理。根據(jù)推理的思維方向,推理分為演繹推理、歸納推理和類比推理。信息分析概論(第二版)推理常規(guī)推理常規(guī)推理是借助于一個共同的概念把兩個直言判斷聯(lián)系起來,從而推出一個新結(jié)論的演繹推理。兩者既相互矛盾又相互聯(lián)系。常規(guī)推理由大前提(一般原理或原則)、小前提(個別對象)和結(jié)論組成,其基本的推理程式為:

大前提:M→P

小前提:S→M

結(jié)論:S→P例如:信息分析概論(第二版)推理大前提:控制人口增長、保持“適度”人口有利于實現(xiàn)社會可持續(xù)發(fā)展。小前提:實行計劃生育和優(yōu)生優(yōu)育政策有利于控制人口增長、保持“適度”人口規(guī)模。結(jié)論:

實行計劃生育和優(yōu)生優(yōu)育政策有利于實現(xiàn)社會可持續(xù)發(fā)展。歸納推理歸納推理是由個別到一般的推理,即由關于特殊對象的知識得出一般性的知識。簡單枚舉推理是最常見的一種推理形式。它是通過簡單枚舉某類事物的部分對象的某種情況,在枚舉中又沒有遇到與此相矛盾的情況,從而得出這類事物的所有對象都具有此種情況的歸納推理。其基本的推理程式為:簡單枚舉歸納推理是一種或然性推理,推理形式的正確性并不一定能保證由真的前提得出真的結(jié)論。它只能肯定由真的前提得出的結(jié)論有一定程度的可靠性。

信息分析概論(第二版)推理假言推理假言推理是從一個假言判斷的結(jié)論出發(fā),順次推出其后件或逆向推出其前件,進而通過肯定它的后件或前件,來論證、檢驗原先假言判斷結(jié)論的正確性的一種推理方法。例如:假言判斷:某競爭對手正在推行專利競爭戰(zhàn)略。大前提:推行專利競爭戰(zhàn)略與加強研究與開發(fā)、專利申請活動有關。小前提:大量調(diào)查發(fā)現(xiàn)上述事實確鑿??隙ㄔ燃傺耘袛啵核?,該競爭對手正在推行專利競爭戰(zhàn)略是確鑿的。信息分析概論(第二版)推理回歸分析第二部分信息分析概論(第二版)回歸分析是處理兩個或兩個以上變量之間依賴關系的一種數(shù)學方法。它不僅提供了建立變量之間依賴關系的數(shù)學表達式(通常稱為經(jīng)驗公式)的一般途徑,而且通過計算對所建立的經(jīng)驗公式的有效性進行分析,使之能有效地用于預測和控制。信息分析的對象及其影響因素通常牽涉到許多變量,這些變量之間常常存在各種各樣的相關關系,如價格與需求、收入與支出、投資與收益等。一元線性回歸分析法主要用于研究兩個變量之間的線性相關關系。信息分析概論(第二版)一元線性回歸分析

信息分析概論(第二版)一元線性回歸分析圖3.1一元線性回歸示意

信息分析概論(第二版)一元線性回歸分析

信息分析概論(第二版)一元線性回歸分析

回歸方程效果的檢驗(1)平方和分解公式通過以上分析,式3-5可表示為:其具體含義為,y1,y2,…,yn的分散程度(lyy)可以分解為兩部分,一部分是(來源x1,x2,…,xn的分散性)通過x對y的線性相關關系而引起的分散性(U),另一部分是剩余部分引起的y的分散性(Q)。

信息分析概論(第二版)一元線性回歸分析回歸方程效果的檢驗(2)F檢驗在一般分析中,通常選用量F進行回歸方程效果的檢驗。F為F體現(xiàn)了x與y的線性相關關系的相對大小:如果F值相當大,則表明x對y的線性影響較大,就可以認為x與y有線性相關關系;反之,若F的值較小,則沒有理由認為x與y間有線性相關關系。F值究竟多大,才認為x與y間具有線性相關關系呢?

信息分析概論(第二版)一元線性回歸分析回歸方程效果的檢驗(2)F檢驗數(shù)學上可證明,在假設H0:b=0的前提下,F(xiàn)服從自由度為1,n-2的F分布。這樣,我們就可以得到關于F檢驗的一般程序:計算U,Q,從而得F值。對于給定的檢驗標準α,查自由度為1,n-2的F分布臨界值表1,得臨界值λ:P(F>λ)=α。比較F值與λ值的大小。如F>λ,則否定假設H0,可認為x,y間具有線性相關關系;否則,沒有理由認為x,y間存在線性相關關系。信息分析概論(第二版)一元線性回歸分析回歸方程效果的檢驗(3)t檢驗t服從自由度為n-2的t分布。t檢驗的一般程序如下:計算t值。對于給定的檢驗標準α,查自由度為n-2的t分布臨界值表,得臨界值λ:P(t>λ)=α。比較t值與λ值的大小。如果t>λ,則認為x,y間存在線性相關關系;否則,沒有理由認為x,y間存在線性相關關系。信息分析概論(第二版)一元線性回歸分析回歸方程效果的檢驗(4)R2

檢驗令則R即為相關系數(shù)。信息分析概論(第二版)一元線性回歸分析回歸方程效果的檢驗(4)R2

檢驗事實上,R2檢驗與t檢驗、F檢驗間具有一定的聯(lián)系。由上式可求出又

所以,用t檢驗、F檢驗與R2檢驗實質(zhì)上是一回事。由R分布臨界值表可直接查出在給定的檢驗標準α下的臨界值λ。若R>λ,則認為在給定的檢驗標準α下回歸方程效果顯著。信息分析概論(第二版)一元線性回歸分析可線性化的非線性回歸對于回歸方程的模式是線性的情況,可直接根據(jù)式3-3和式3-4求得a、b。然而,大量的實際情況并不總是屬于線性的模式,怎么辦呢?一個常用而簡便的方法是盡可能地將它們變?yōu)榫€性的模式?,F(xiàn)將可線性化的幾類非線性回歸問題分述如下:(1)指數(shù)函數(shù)模式線性化的線性化的方法是對式3-7兩邊取對數(shù),并令則式3-7可化為

信息分析概論(第二版)一元線性回歸分析(2)冪函數(shù)模式將式3-8兩邊取對數(shù),并令則式3-8可化為(3)雙曲線模式令則式3-9可化為(4)對數(shù)函數(shù)模式

令則式3-10可化為

信息分析概論(第二版)一元線性回歸分析多元線性回歸方程參數(shù)的求解設y與x1,x2,…,xk有線性關系,通過觀測或?qū)嶒灥玫絥組數(shù)據(jù):則它們之間的線性關系可表示成:對于某些非線性的關系,可通過適當?shù)淖儞Q化為形式上的線性模式。例如,對于一元多項式回歸問題:,可通過變換化為多元線性回歸問題(令x1=x,x2=x2,…,xk=xk):

信息分析概論(第二版)多元線性回歸分析(x11,x21,…,xk1,y1)(x12,x22,…,xk2,y2)…………(x1n,x2n,

…,xkn,yn)多元線性回歸方程參數(shù)的求解設Q(b0,b1,…,bk)=∑[yt-(b0+b1x1t+…+bkxkt)]2

為了使Q達到最小值,應滿足:由式3-12可進一步推得:數(shù)學上可證明,由式3-13確定的b0,b1,

…,bk確實使Q達到最小。信息分析概論(第二版)多元線性回歸分析回歸方程效果的檢驗(1)平方和分解公式跟一元的情形類似,我們有平方和分解公式:其中:信息分析概論(第二版)多元線性回歸分析回歸方程效果的檢驗(2)F檢驗在多元回歸中其中:F服從自由度為k,n-k-1的F分布。F檢驗的一般程序如下:計算F值。對于給定的檢驗標準α,查自由度為k,n-k-1的F分布臨界值表,得臨界值λ:P(F>λ)=α。比較F值與λ值的大小。如果F>λ,則認為線性回歸方程效果是顯著的;反之,則認為是不顯著的。信息分析概論(第二版)多元線性回歸分析回歸方程效果的檢驗(3)各自變量影響程度大小的判別在多元回歸需要對回歸方程的每個自變量都進行顯著性檢驗。其所選用的統(tǒng)計量為:服從自由度為n-k-1的t分布。這里,cii為矩陣

的逆矩陣L-1

的對角線上的第i個元素。信息分析概論(第二版)多元線性回歸分析回歸方程效果的檢驗(3)各自變量影響程度大小的判別于是我們得到關于xi變量顯著性檢驗的一般程序:計算ti值。對于給定的檢驗標準α,查自由度為n-k-1的t分布臨界值表,得臨界值λ:P(t>λ)=α。比較ti值與λ值的大小。如果ti>λ,則說明xi對y的影響顯著,必須保留xi在回歸方程中;否則,應去掉xi重新建立回歸方程。信息分析概論(第二版)多元線性回歸分析下面,我們以某年中國各地區(qū)城鎮(zhèn)居民平均每人全年可支配收入和消費性支出(如表3.1所示)兩個變量為例,說明回歸分析的實際應用。右表為城鎮(zhèn)居民平均每人全年可支配收入和消費性支出。利用社會科學統(tǒng)計分析軟件SPSS對上表中的數(shù)據(jù)進行回歸分析信息分析概論(第二版)回歸分析的實際應用地

區(qū)可支配收入xi消費性支出yi北京9182.767498.48天津7649.835851.53河北5365.034026.30山西4342.613492.98內(nèi)蒙古4770.533468.99遼寧4898.613989.93吉林4480.013661.68黑龍江4595.143481.74上海10931.648247.69江蘇6538.205010.91浙江8427.956521.54安徽5064.603901.81福建6859.815266.69江西4720.583482.33山東5808.964515.05河南4532.363497.53湖北5212.824340.55湖南5815.374799.51廣東9125.927517.81廣西5619.544587.22海南5338.314017.75重慶5895.975444.23四川5477.894499.19貴州4934.023964.35云南6178.684941.26西藏6908.675309.12陜西4654.063953.25甘肅4475.233681.50青海4703.443903.76寧夏4472.913547.99新疆5319.764163.98表3.1城鎮(zhèn)居民平均每人全年可支配收入和消費性支出作散點圖先通過散點圖(如圖3.2所示)對變量進行觀察,從圖中易知,可支配收入與消費性支出間應該存在線性關系。方差分析查自由度為1,29的F分布臨界值表得λ=7.60(α=0.01)F=862.501>7.60,所以可支配收入與消費性支出之間具有強線性相關關系?;貧w方程為消費性支出=0.772×可支配收入+126.005信息分析概論(第二版)回歸分析的實際應用圖3.2散點圖表3.2方差分析SPSS輸出結(jié)果預測值與殘差通過SPSS,可以按要求輸出消費性支出的預測值、殘差和標準化殘差,如表3.3所示。其中,標準化殘差=殘差/

信息分析概論(第二版)回歸分析的實際應用表3.3消費性支出的預測值及殘差編號地區(qū)消費性支出預測值殘差標準化殘差1北京7498.487212.2730286.20701.2152天津5851.536029.3223-177.7923-0.7553河北4026.304266.1589-239.8589-1.0184山西3492.983477.165015.81500.0675內(nèi)蒙古3468.993807.3877-338.3977-1.4366遼寧3989.933906.226183.70390.3557吉林3661.683583.195578.48450.3338黑龍江3481.743672.0405-190.3005-0.8089上海8247.698561.8708-314.1808-1.33310江蘇5010.915171.4856-160.5756-0.68111浙江6521.546629.7917-108.2517-0.45912安徽3901.814034.3193-132.5093-0.56213福建5266.695419.6696-152.9796-0.64914江西3482.333768.8416-286.5116-1.21615山東4515.054608.7365-93.6865-0.39816河南3497.533623.5937-126.0637-0.53517湖北4340.554148.6996191.85040.81418湖南4799.514613.6830185.82700.78919廣東7517.817168.4100349.40001.48320廣西4587.224462.5624124.65760.52921海南4017.754245.5393-227.7893-0.96722重慶5444.234675.8814768.34863.26123四川4499.194353.2522145.93780.61924貴州3964.353933.551730.79830.13125云南4941.264894.046647.21340.20026西藏5309.125457.3745-148.2545-0.62927陜西3953.253717.5086235.74141.00028甘肅3681.503579.5069101.99310.43329青海3903.763755.6148148.14520.62930寧夏3547.993577.7165-29.7265-0.12631新疆4163.984231.2244-67.2444-0.285多元線性回歸下面以某校高中三年級女學生肺活量和身高、體重的三個變量為例(如表3.X),說明多元線性回歸分析的應用。信息分析概論(第二版)回歸分析的實際應用表3.X

某校15名高中三年級女學生身高、體重和肺活量序號1161422.5521685833162422.24170583.55165462.756165522.857162462.48168523.469166462.810166503.111167502.8112165503.4113150361.7514155452.7515158432.25

聚類分析第三部分信息分析概論(第二版)聚類是把一組個體按照相似性歸成若干個類別,即物以類聚。其目的是使得屬于同一類別的個體之間的距離盡可能地小,而不同類別上的個體間的距離盡可能地大。表3.4是多元數(shù)據(jù)形成的數(shù)據(jù)矩陣。在表中,共有n個樣品x1,x2,…,xn,p個指標(變量),聚類分析有兩種類型:按樣品聚類或按變量聚類。聚類分析的基本思想是在樣品之間定義距離,在變量之間定義相似系數(shù)。距離或相似系數(shù)代表樣品或變量之間的相似程度。信息分析概論(第二版)聚類分析概述表3.4數(shù)據(jù)矩陣相似性程度是聚類所依據(jù)的標準,樣品間的相似性通常用距離進行度量,而變量間的相似性通常用相似系數(shù)進行度量。距離信息分析概論(第二版)相似性度量相似系數(shù)當對p個指標變量進行聚類時,用相似系數(shù)來衡量變量之間的相似性程度。一般情況下,若cjk表示變量xj,xk之間的相似系數(shù),應滿足下列條件:|cjk|≤1且cjj=1。當且僅當xj=bxk(b≠0)時,cjk=±1。cjk=ckj。cjk的絕對值越接近于1,說明變量xj,xk的關聯(lián)性越大。相似系數(shù)中最常用的是相關系數(shù)和夾角余弦。信息分析概論(第二版)相似性度量相似系數(shù)(1)相關系數(shù)基于樣品x1,x2,…,xn,計算p個指標變量的協(xié)方差矩陣S和相關矩陣R。設S=(sjk)p×p,R=(rjk)p×p則變量xj,xk的相關系數(shù)為信息分析概論(第二版)相似性度量相似系數(shù)(2)夾角余弦設變量xj,xk的觀測值各為(x1j,x2j,...,xnj)與(x1k,x2k,...,xnk),其夾角余弦為cjk越大,表明變量xj,xk的夾角越小,則關聯(lián)性越強。

信息分析概論(第二版)相似性度量分層聚類一開始將每個樣品看成是一類或一簇(cluster),然后從低到高構建一個聚類的層次。其中,最低層次的簇合并在一起創(chuàng)建下一個較高層次的簇;這一層次的簇再合并在一起,進一步創(chuàng)建更高層次的簇。分層聚類適合樣品或變量較少的環(huán)境,其優(yōu)勢在于它們允許最終用戶從許多簇或某些簇中做出選擇,形成對分析問題有益的模式。下面我們重點討論樣品的聚類,即Q型聚類。Q型聚類,是按照類間距離從小到大進行聚類Q型聚類的關鍵是要定義類與類之間的距離。信息分析概論(第二版)分層聚類類間距離為簡單起見,以i,j分別表示樣品xi,xj,以dij代表距離d(xi,xj)。Gp,Gq分別表示兩個類,設它們分別含有np,nq個樣品。若類Gp中有樣品,則其均值為:稱為類Gp的重心類的形式與形狀多種多樣,因而類與類間的距離比樣品間的距離復雜。下面分別介紹幾種類間距離的定義與計算方法。類Gp與Gq之間的距離記為Dpq信息分析概論(第二版)分層聚類(1)最短距離即用兩類中樣品之間的距離最短者作為兩類距離。(2)最長距離即用兩類中樣品之間的距離最短者作為兩類距離。(3)類平均距離

或兩種定義方式:即用兩類中所有兩兩樣品之間的距離平均作為兩類之間的距離,或兩類中所有兩兩樣品之間的平方距離的平均作為兩類之間的平方距離。信息分析概論(第二版)分層聚類(4)重心距離其中

分別是Gp,Gq的重心,這是用兩類的重心之間的距離作為兩類距離。(5)離差平方和距離離差平方和距離是由Ward提出的,其思想來源于方差分析。信息分析概論(第二版)分層聚類分層聚類法的步驟各樣品單獨自成一類,則n個樣品開始時作為n個類,計算兩兩之間的距離,構成一個對稱距離矩陣

此時,

選擇D(0)中的非對角線上的最小元素,設這個最小元素是Dpq

。此時,Gp={xp},Gq={xq}。將Gp,Gq

合并成一個新類Gr={Gp,Gq}。在D(0)中消去Gp,Gq

所對應的行與列,并加入由新類Gr與剩下的其他未聚合的類間的距離所組成的一行和一列,得到一個新的距離矩陣D(1),這是一個n-1階方陣。

信息分析概論(第二版)分層聚類分層聚類法的步驟從D(1)出發(fā)重復步驟(2)得D(2)。此時,可能存在兩種情況:或者是第三個樣品加入到已有兩個樣品的類中,或者是另兩個樣品合并成一個新類。再由D(2)出發(fā)重復上述步驟。在這期間的每個步驟中,或者是一個樣品加入到已存在的類中,或者是兩個樣品合并成一個新類,或者是兩個已存在的類合并成一個新類。一旦一個類形成,不能再劃分而只能與其他類合并,直到n個樣品聚為1個大類為止。在合并過程中要記下合并樣品的編號及兩類合并時的水平(即距離)并繪制分層聚類圖。信息分析概論(第二版)分層聚類分層聚類法應用分析用分層聚類法聚類時,聚多少類為合適是一個很實際的問題。一個較好的聚類應該在類內(nèi)各樣品盡可能相似的前提下,使得類的個數(shù)盡可能少。

表3.5是某年20個代表性地區(qū)農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出情況。信息分析概論(第二版)分層聚類

指標地區(qū)食品衣著居住家庭設備及服務醫(yī)療保健交通和通訊文教娛樂用品及服務其他商品及服務北京1048.05228.33425.74249.35228.91215.58467.8973.21天津653.76167.35228.45101.13118.6980.12203.8080.86河北325.34105.44261.7061.1768.7272.37136.1027.43內(nèi)蒙古320.29108.10161.8364.5495.1968.03170.3523.60遼寧450.50144.87168.7971.7681.1281.23172.6537.71上海1294.85202.44674.21388.64160.00196.98474.4694.47江蘇601.40119.43425.99153.07107.78130.34252.6951.21浙江928.75151.98436.35166.98160.84198.34288.4997.87安徽350.1069.15143.7964.7251.6538.10146.3330.12福建726.40111.76267.49102.7161.30128.29217.5163.21山東439.23111.92242.90106.7189.6490.33182.0924.06湖北338.8472.83149.8174.7655.3869.10212.8824.71湖南532.1778.75247.4476.2661.9057.87204.6636.37廣東860.4298.70389.89153.1098.68147.58317.2973.65重慶282.8362.61134.4261.5447.8237.16111.0515.37貴州211.0648.5595.3744.9723.6224.6983.8115.31西藏311.7699.2726.4752.5417.0210.247.7811.70陜西278.9677.84151.8558.8164.9336.18171.0424.93甘肅150.5345.8282.9839.8541.2225.6997.8317.27青海214.8697.6381.9346.0156.9435.3850.1723.50表3.5農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出分層聚類法應用分析利用SPSS的聚類分析對各地區(qū)進行分類。在層次聚類的參數(shù)選擇中,選擇按樣品聚類;聚類指標為食品、衣著、居住、家庭設備及服務、醫(yī)療保健、交通和通訊、文教娛樂用品及服務、其他商品及服務;樣品間的距離采用歐式距離;類間距離分別采用最短距離、最長距離和重心距離,不同的類間距離算法適合不同的聚類形狀,在不了解聚類形狀之前,可嘗試多種類間距離算法并對不同的分類效果進行比較分析。信息分析概論(第二版)分層聚類分層聚類法應用分析(1)最短距離法信息分析概論(第二版)分層聚類譜系圖是一個形象地表達聚類過程的可視化層次圖。從圖中,能夠很容易地觀察出不同樣品間的聚類,例如樣品上海與前面19個樣品聚成的簇在最后一步形成最高層次的簇。圖中的豎線表示聚類時的距離,最上面顯示比例調(diào)整后距離的大小。相鄰兩次聚類距離的差值越大,則說明前一次聚類后沒有必要再進行后一次聚類,這是根據(jù)譜系圖進行主觀分類的依據(jù)。圖中左邊顯示了樣品的標簽和編號。分層聚類法應用分析(1)最短距離法信息分析概論(第二版)分層聚類在圖3.4中,“Stage”代表聚類的步驟,20個樣品聚類共用了19步?!癈lusterCombined”代表每一個聚類步驟中合并的兩類,如第一步代表編號16(貴州)和19(甘肅)進行聚類,聚類后的類用編號16表示?!癈oefficients”代表最短距離算法下類間的歐式距離,如貴州和甘肅的歐式距離為66.047。圖中右邊幾列的信息代表相應類第一次出現(xiàn)和下一次出現(xiàn)的步驟。從第18次聚類到第19次聚類,“Coefficients”具有最大的跨越,這對應著圖3.3中樣品上海與前面19個樣品聚成的簇最后形成最高層次的簇。因為距離相差最大,可先從這里開始將原樣品分成兩類:上海為一類,其余所有的樣品為一類。是否還要繼續(xù)分類依賴于實際的應用環(huán)境,最終形成的分類是一個主觀分析的結(jié)果。另外,在不了解聚類形狀的情況下,這樣的分類是否反映了樣品分類的客觀本質(zhì),還應對其他類間距離算法下的分類結(jié)果進行分析和比較,才能最后做出決定。分層聚類法應用分析(2)最長距離法信息分析概論(第二版)分層聚類通過同樣的分析,可首先將原樣品分成兩類:一類是農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較高的地區(qū),它們是浙江、廣東、北京、上海;另一類是農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較低的地區(qū),它們是除以上四個地區(qū)以外的所有地區(qū)。分層聚類法應用分析(3)重心距離法信息分析概論(第二版)分層聚類同樣,可先將原樣品分成兩類:一類是農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較高的地區(qū),它們是北京、上海;另一類是農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較低的地區(qū),它們是除以上兩個地區(qū)以外的所有地區(qū)。在分層聚類中,樣品一旦被歸到某個類后就不變了,這要求分類方法比較準確,而這在不清楚各個類的形狀之前是比較難以做到的。另外,樣品容量較大時,分層聚類法的計算量過大,一般情況下,分層聚類要求樣品數(shù)量不超過200。為了彌補分層聚類的不足,產(chǎn)生了快速聚類法??焖倬垲惙ㄒ殉蔀樯梢唤M聚類的最常用方法之一快速聚類法的主要特征是可以根據(jù)需要預先確定k個聚類。根據(jù)選定的k值,聚類可以產(chǎn)生兩個完全極端的結(jié)果。如果設k等于1,就可能會得到一個沒有意義的結(jié)果,因為所有的數(shù)據(jù)會歸類到一個節(jié)點中。另一個極端是設k等于樣品數(shù),同樣也會得到一個毫無意義的結(jié)果。任何其他的聚類個數(shù)取決于k值,對于k值的選取沒有一個固定的規(guī)則,常常需要對各種取值進行反復試驗。信息分析概論(第二版)快速聚類快速聚類法的具體步驟選擇聚點聚點(種子)是一批有代表性的樣品,它的選擇決定了初始分類,對最終分類也有較大影響。當數(shù)據(jù)對象確定后,算法首先確定可能存在的聚點。選擇聚點有多種方法。憑經(jīng)驗進行選擇。隨機法。最小最大原則。信息分析概論(第二版)快速聚類快速聚類法的具體步驟選擇聚點最小最大原則。設要將n個樣品分成k類,先選擇所有樣品中相距最遠的兩個樣品作為前兩個聚點,即選擇,使信息分析概論(第二版)快速聚類快速聚類法的具體步驟初始分類信息分析概論(第二版)快速聚類快速聚類法的具體步驟從G(0)出發(fā),計算新的聚點集合L(1)。信息分析概論(第二版)快速聚類快速聚類法的具體步驟設在第m步得到分類信息分析概論(第二版)快速聚類快速聚類法應用分析表3.5是某年20個代表性地區(qū)農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出情況,下面利用SPSS的快速聚類法對這些地區(qū)進行分類。在參數(shù)選擇中,k選為2。信息分析概論(第二版)快速聚類圖3.10是初始聚點,對照表3.5,可以看出,第一個聚點是上海,第二個聚點是甘肅。這兩個聚點是所有樣品中距離最遠的兩點。圖3.11顯示了迭代過程,一共進行了2次迭代。兩類的第一次聚點變化分別為369.780和271.320;兩類的第二次聚點變化分別為0,聚類即告結(jié)束??焖倬垲惙☉梅治霰?.5是某年20個代表性地區(qū)農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出情況,下面利用SPSS的快速聚類法對這些地區(qū)進行分類。在參數(shù)選擇中,k選為2。信息分析概論(第二版)快速聚類圖3.12顯示了各類的成員,第一類包括北京、上海、浙江和廣東,屬農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較高的地區(qū);第二類包括剩余的地區(qū),屬農(nóng)村居民家庭平均每人生活消費現(xiàn)金支出較低的地區(qū)??梢?,用快速聚類法將樣品分成兩類的分類結(jié)果與采用最長距離算法的層次聚類的分類結(jié)果相同。圖3.13是快速聚類最后的聚點,圖3.12最右邊一列顯示的是各樣品與最后聚點之間的歐式距離。時間序列分析第四部分信息分析概論(第二版)時間序列是指具有均勻時間間隔的各種社會、自然現(xiàn)象的數(shù)量指標依時間次序排列起來的統(tǒng)計數(shù)據(jù)。時間序列分析是通過對歷史數(shù)據(jù)變化的分析,來評價事物的現(xiàn)狀和估計事物的未來變化。根據(jù)對歷史數(shù)據(jù)處理方法的不同,時間序列分析法可分為如下幾種類型:信息分析概論(第二版)時間序列分析信息分析概論(第二版)時間序列分析移動平均法的處理對象是一組無規(guī)則波動的數(shù)據(jù),其基本方法是每次在時間序列上移動一步求平均值(去掉一個頭部的數(shù)據(jù),加入一個新的數(shù)據(jù))。這樣的處理可對原始的無規(guī)則數(shù)據(jù)進行“修勻”,消除掉樣本序列中的隨機干擾成分,突出序列本身的固有規(guī)律,從而為進一步的建模和參數(shù)估計打下基礎。信息分析概論(第二版)移動平均法一次移動平均(1)基本公式(2)遞推公式信息分析概論(第二版)移動平均法二次移動平均(1)基本公式和遞推公式(2)計算實例根據(jù)表3.7中所列的一組時間序列數(shù)據(jù)yt,取移平跨度n=5,計算一次、二次移動平均值。信息分析概論(第二版)移動平均法周期數(shù)T原始數(shù)據(jù)yt(n=5)(n=5)周期數(shù)t原始數(shù)據(jù)yt(n=5)(n=5)161

97468.865.52260

107771.267.24364

11767369.08463

12807570.9256562.6

138678.673.3266763.8

149081.875.9277065.8

159284.878.6486866.6

表3.7原始數(shù)據(jù)及一次、二次移動平均值計算結(jié)果解:先從第5周期開始,由式3-15計算出第5周期的一次移動平均值,然后由式3-16往下繼續(xù)求出各周期的一次移動平均值,填入表中相應的位置。具體計算過程如下:信息分析概論(第二版)移動平均法模型建立與預測移動平均并不適用于有線性趨勢的時間序列數(shù)據(jù)的預測。和只能用于簡易預測。為了改善預測效果,我們可以利用、求出平滑系數(shù),建立線性移動平均模型再進行預測。具體如下:信息分析概論(第二版)移動平均法模型建立與預測將at和bt代入式3-19,求得預測方程為:信息分析概論(第二版)移動平均法指數(shù)平滑法是對移動平均法的改進。如果認為參加計算的每一數(shù)據(jù)對預測結(jié)果的影響程度不同,就應該對這些數(shù)據(jù)分別給予不同的權值。權值的選擇取決于信息分析人員的預測經(jīng)驗。由于近期數(shù)據(jù)的影響較大,通??少x予較大權值。一次指數(shù)平滑(1)基本公式若以α代表權數(shù),則原始時間序列數(shù)據(jù)的加權移動平均值可表示為:其中,α1>α2…>αn且信息分析概論(第二版)指數(shù)平滑法一次指數(shù)平滑(1)基本公式信息分析概論(第二版)指數(shù)平滑法一次指數(shù)平滑(2)平滑常數(shù)α的含義及取值預測結(jié)果對α的依賴性α的取值反映了新舊數(shù)據(jù)所占的分配比例,對預測結(jié)果直接產(chǎn)生影響。因此,預測的結(jié)果依賴于α的選擇。α的取值有兩種極端情況:當α=0時,,即平滑值維持不變;當α=1時,,即平滑值等于最新的觀察值。一般的,α選得小一些,預測值趨向就較平穩(wěn),“修勻”效果越顯著;α選得大一些,近期數(shù)據(jù)所占的比重越大,對變化的反映越靈敏,但“修勻”的效果越不明顯。信息分析概論(第二版)指數(shù)平滑法一次指數(shù)平滑(2)平滑常數(shù)α的含義及取值α值與n值的關系在對波動曲線的“修勻”作用上,α值與n值的取值方向正好相反。即在移動平均法中,n值越大,“修勻”效果越顯著;而在指數(shù)平滑法中,α值越小,“修勻”效果越顯著,即。在實際應用中,一般取α取值的經(jīng)驗選擇如果我們希望選取的α值使預測誤差的方差盡可能小的話,那么α值的選擇就應以殘差平方和最小為標準,即α值應使:這里Q是α的函數(shù),一般可采用0.618法求出使Q達到最小值的α值。根據(jù)一般的經(jīng)驗,α的取值范圍通常是0.01≤α<0.3。信息分析概論(第二版)指數(shù)平滑法一次指數(shù)平滑(3)計算實例根據(jù)表3.8中所列的一組時間序列數(shù)據(jù)yt,分別取加權系數(shù)α=0.3和α=0.1,計算其一次指數(shù)平滑值。信息分析概論(第二版)指數(shù)平滑法周期數(shù)T原始數(shù)據(jù)ytSt[1]α=0.3St[2]α=0.3St[3]α=0.3St[1]α=0.1St[2]α=0.1St[3]α=0.10

61616161616116161616161616126060.760.961.060.961.061.036461.761.161.061.261.061.046362.161.461.161.461.061.056563.061.961.361.861.161.066764.262.661.762.361.261.077065.963.662.363.161.461.086866.564.563.063.661.661.197468.865.863.864.661.961.2107771.367.564.965.862.361.3117672.769.166.266.862.861.5128074.970.867.668.163.361.7138678.273.069.269.964.061.9149081.775.671.171.964.862.2159284.878.473.373.965.762.6表3.8原始數(shù)據(jù)及一~三次指數(shù)平滑值計算結(jié)果二次指數(shù)平滑(1)基本公式二次指數(shù)平滑是對一次指數(shù)平滑值再進行一次平滑,計算公式如下:(2)計算實例信息分析概論(第二版)指數(shù)平滑法模型與計算為了改善預測效果,我們可以利用、求出平滑系數(shù),建立線性指數(shù)平滑模型再進行預測。設已觀察到時間t以前的序列值yt,現(xiàn)要預測未來時刻t+T的序列值。由于序列具有線性趨勢,因此可假定線性指數(shù)平滑模型的一般形式為:這里,為第t+T周期的預測值;T為由目前周期t到需要預測的周期之間的周期個數(shù);at與bt為平滑系數(shù)(at為截距,bt為斜率),依賴于t以前的yt觀察值。at、bt的計算公式為:信息分析概論(第二版)指數(shù)平滑法模型與計算下面給出一個計算實例。根據(jù)表3.8中的計算數(shù)據(jù),建立線性指數(shù)平滑模型并計算未來2期的預測值。解:取α=0.3,由表3.8查得信息分析概論(第二版)指數(shù)平滑法三次指數(shù)平滑非線性指數(shù)平滑模型一般采用三次指數(shù)平滑法,它幾乎適用于所有的應用問題(1)基本公式(2)非線性指數(shù)平滑模型的建立非線性指數(shù)平滑模型的一般形式為:這三個平滑系數(shù)的計算公式如下:信息分析概論(第二版)指數(shù)平滑法三次指數(shù)平滑(3)計算實例根據(jù)表3.8中的計算數(shù)據(jù),建立非線性指數(shù)平滑模型,并計算未來2期的預測值。解:首先計算三次指數(shù)平滑值。其計算方法與一、二次指數(shù)平滑值的計算方法相似,分別取α=0.3,α=0.1,按式3-30計算得結(jié)果,并填于表3.8中。其次計算平滑系數(shù)并求出平滑模型。取α=0.3,由表3.8查得,=84.8,=78.4,=73.3信息分析概論(第二版)指數(shù)平滑法生長曲線是增長曲線的一大類,是描繪各種社會、自然現(xiàn)象的數(shù)量指標依時間變化而呈現(xiàn)某種規(guī)律性的曲線。由于生長曲線形狀大致呈“S”型,故又稱“S”曲線。在信息分析中,利用生長曲線模型來描述事物發(fā)生、發(fā)展和成熟的全過程的方法就是生長曲線法。生長曲線有兩種,一種是對稱型的生長曲線(圖3.15(a)),又稱邏輯(Logistic)曲線或珀爾(Pearl)曲線;另一種是不對稱型的生長曲線(圖3.15(b)),又稱龔珀茲(Gompertz)曲線信息分析概論(第二版)生長曲線法邏輯曲線(1)數(shù)學模型邏輯曲線具有以下數(shù)學特征:信息分析概論(第二版)生長曲線法邏輯曲線(1)數(shù)學模型信息分析概論(第二版)生長曲線法邏輯曲線(2)模型系數(shù)的確定確定系數(shù)k,a,b的方法有多種,具有代表性的有:線性回歸法:通過定性分析的方法,根據(jù)事物發(fā)展規(guī)律確定上限k值。對曲線進行線性化變換,然后用最小二乘求出系數(shù)三段和值法:對式3-34兩邊取倒數(shù),并令則可通過三段和值來求系數(shù)信息分析概論(第二版)生長曲線法三段和值法三段和值法解決問題的基本出發(fā)點是將整個序列分為三個相等的時間周期。假定有3n組數(shù)據(jù)(t0,Y0),(t1,Y1),…,(tn-1,Yn-1);(tn,Yn

),(tn+1,Yn+1),…,(t2n-1,Y2n-1);(t2n,Y2n),(t2n+1,Y2n+1),…,(t3n-1,Y3n-1),n為任意整數(shù)。一般來說,n值越大,估計的精度就越高。上述3n組數(shù)據(jù)應分別滿足式3-35。若以i代ti

(i=0,1,…,(3n-1)),則可得下述三組方程組:將上述方程組左右兩邊分別相加,由式3-36、式3-37和式3-38求出B,A,K后,即可得邏輯曲線模型的系數(shù)k,a,b。信息分析概論(第二版)生長曲線法邏輯曲線(3)計算實例信息分析概論(第二版)生長曲線法時間t原始數(shù)據(jù)ytyt的倒數(shù)Yt019.60.051121.50.047224.00.042326.80.037430.20.033533.40.030635.70.028737.80.027840.10.025942.20.0241044.00.0231145.50.0221246.90.0211348.30.0211448.90.021表3.9原始時間序列數(shù)據(jù)及其倒數(shù)

龔珀茲曲線(1)數(shù)學模型龔珀茲曲線具有以下數(shù)學特征:信息分析概論(第二版)生長曲線法龔珀茲曲線(1)數(shù)學模型信息分析概論(第二版)生長曲線法龔珀茲曲線(2)模型系數(shù)的確定線性回歸法將式3-39變形后兩邊取自然對數(shù),并令,則用最小二乘法求系數(shù)三段和值法對具體計算與邏輯曲線模型系數(shù)的三段和值求法完全相同

信息分析概論(第二版)生長曲線法龔珀茲曲線(3)應用實例信息分析概論(第二版)生長曲線法年份20140258504.41220151328004.51620162444804.64820173560004.74820184649604.81320195720804.85820206802804.90520217858404.93420228899004.954表3.X某品牌電動剃須刀在M市2014至2022年的銷售額時間序列分解法的基本思想是將時間序列上構成波動的不同因素分離開來,對各因素分別進行分析。時間序列結(jié)構形式趨勢(T)因素:當時間序列值依時間變化時,表現(xiàn)出某種傾向(如線性、指數(shù)曲線或S型曲線趨勢)。它是影響時間序列值的主導因素。

循環(huán)(C)因素;它是周期不固定的波動變化(如經(jīng)濟危機)產(chǎn)生的原因季節(jié)變動(S)因素:它是周期相對固定(如一年四季)的波動變化產(chǎn)生的原因。不規(guī)則變動(I)因素:它是指許多外生的不易控制的因素。這些因素的出現(xiàn)帶有很大的隨機性。一般假定E(I)=0,D(I)=σ2。

信息分析概論(第二版)時間序列分解法時間序列結(jié)構形式若以Yt表示時間序列值,Tt、Ct、St、It分別表示趨勢、周期、季節(jié)變動和不規(guī)則變動,則時間序列值可分解為以下3種模式:信息分析概論(第二版)時間序列分解法時間序列的傳統(tǒng)分解實際常用的是乘法模式。在該模式中,各變量的單位是:Tt與Yt有相同的單位,其他因素的變化均是比例值。分解出Tt與Ct。假定季節(jié)長度為4(即一年分為4季)。由假定E(I)=0可知,只要將序列Yt作移平跨度為4的移動平均,就可消除季節(jié)變動和不規(guī)則變動的影響。記移動平均值為M,則分解出St與It。將式3-42兩邊除以Mt,得為了消除不規(guī)則變動因素而保留季節(jié)變動因素,我們采用按季節(jié)平均的方法。例如,將式3-44所得的序列StIt逐年逐季排列起來,然后將各年的相同季節(jié)的StIt相加進行平均從TtCt序列中分解出Ct。由曲線方程估算出Tt,以Tt除Mt,得信息分析概論(第二版)時間序列分解法常用時間序列分解預測法利用時間序列分解法進行預測的常用方法主要有同季(月)平均法、季節(jié)系數(shù)法等。同季平均法是分析具有季節(jié)變化的時間序列并在此基礎上進行預測的最簡單的方法:將歷年同季數(shù)據(jù)的平均值與各季總平均值相比,求得季節(jié)系數(shù)以最近一年的各季平均值分別乘以各季節(jié)系數(shù),即得來年各季的預測值季節(jié)系數(shù)法是分析具有趨勢變化和季節(jié)變化的時間序列并在此基礎上進行預測的一種方法。該方法通過分析數(shù)據(jù)的趨勢變化和季節(jié)波動規(guī)律,建立趨勢變動模型,求出季節(jié)系數(shù),然后再用季節(jié)系數(shù)去修正反映趨勢變化的模型信息分析概論(第二版)時間序列分解法常用時間序列分解預測法例:試根據(jù)表3.10中歷年數(shù)據(jù)預測某商場某電器產(chǎn)品的銷售量。信息分析概論(第二版)時間序列分解法

一季度二季度三季度四季度合計各季平均第一年4123365435424060153793845第二年4314391037504292162664067第三年4506414540434513172074302第四年4724436442644747180994525合計1766716073155991761266951

同季平均4417401839004403

各季總平均4184季節(jié)系數(shù)fi1.0560.9600.9321.052

表3.10某電器銷售量(臺)和季節(jié)系數(shù)表主成分分析第五部分信息分析概論(第二版)主成分分析是在降維的思想指導下產(chǎn)生的一種有效的處理高維數(shù)據(jù)的方法。以二元變量X=(X1,X2)為例,,對此二維變量進行了n次觀測,得數(shù)據(jù)xi=(xi1,xi2)(i=1,2,…,n),假設它們在二維平面X1OX2上的分布如圖3.16所示。

信息分析概論(第二版)主成分分析法思想圖3.16主成分分析示意圖一般情況下,將OX1軸沿逆時針方向旋轉(zhuǎn)一個角度θ到OZ1軸,使得原觀測數(shù)據(jù)(xi1,xi2)經(jīng)過線性組合后所得的新變量Z1具有最大的分散性,即該方向所含的數(shù)據(jù)間差異的信息最多。相應地,OX2轉(zhuǎn)至OZ2方向。設轉(zhuǎn)過角度為θ,則觀測點(xi1,xi2)在新坐標系下的坐標為:這時,(zi1,zi2)(i=1,2,…,n)均是相應的原數(shù)據(jù)的線性變換,且線性變換系數(shù)滿足條件:。(zi1,zi2)完全反映了原始數(shù)據(jù)的分布情況,并且各自反映的是彼此不相關的兩個方向上的分散性。相應的變量:分別稱為X1和X2的第一主成分和第二主成分。如果數(shù)據(jù)在OZ2方向上的分散性很小,那么可用一元數(shù)據(jù)zi1,i=1,2,…,n反映原二元數(shù)據(jù)的絕大部分信息,即可近似地用Z1的分布信息代替原二維變量(X1,X2)的分布信息。信息分析概論(第二版)主成分分析法思想信息分析概論(第二版)主成分分析法機理設X1,X2,…,Xp為某實際問題所涉及的p個隨機變量,記X=(X1,X2,…,Xp)T,其協(xié)方差矩陣為這是一個p階矩陣,設li=(li1,li2,…,lip)T(i=1,2,…,p)為p個常數(shù)向量,考慮如下線性變換:設Var(Zi)為Zi的方差,Cov(Zi,Zj)為Zi和Zj的協(xié)方差,根據(jù)方差和協(xié)方差的性質(zhì)可知:信息分析概論(第二版)主成分分析法機理如果希望用Z1代替原來p個變量X1,X2,…,Xp,這就要求Z1盡可能地反映原p個變量的信息,這里“信息”用Z1的方差來度量,即要求Var(Z1)達到最大。但是,變量方差的大小受其平均值大小的影響,對任意常數(shù)k,若取

,則

這表明若不對l1加以限制,Var(Z1)將無界;并且,這樣的變換所得的新變量值無法反映原始數(shù)據(jù)的分布狀況。在前面二元變量坐標軸旋轉(zhuǎn)的例子中,變換系數(shù)滿足條件:

同樣,為了保證變換后的新變量值能夠反映原始數(shù)據(jù)的分布狀況,這里須提出約束條件:。在此條件下,求l1,使Var(Z1)達到最大,此時l1所確定的隨機變量Z1稱為X1,X2,…,Xp的第一主成分。

信息分析概論(第二版)主成分分析法機理如果第一主成分Z1還不足以完全反映原變量的信息,進一步求Z2。為了使Z1和Z2反映原變量的信息不相重疊,要求Z1與Z2不相關,即于是,在約束條件和之下,求l2,使Var(Z2)在Var(Z1)之外達到最大,此時l2所確定的隨機變量Z2稱為X1,X2,…,Xp的第二主成分。一般,若已求出k個主成分,在約束條件和之下,求li,使Var(Zi)在前面的k個主成分之外達到最大,此時li所確定的Zi稱為X1,X2,…,Xp的第i個主成分。

信息分析概論(第二版)主成分的計算方法∑是X=(X1,X2,…,Xp)T的協(xié)方差矩陣,是一個實對稱矩陣。設∑的特征值及相應的正交單位化特征向量分別為λ1≥λ2≥…≥λp≥0及e1,e2,…,ep。設λi,λj是實對稱矩陣的兩個特征值,ei,ej是對應的特征向量??梢宰C明,若λi≠λj,則ei,ej正交。令ei=(ei1,ei2,…,eip)T,P=(e1,e2,…,ep),則P為一正交矩陣,滿足PTP=E(即P-1=PT),則PT∑P=Diag(λ1,λ2,…,λp)=Λ,其中Diag(λ1,λ2,…,λp)表示對角矩陣。設為X的第一主成分,其中,令則信息分析概論(第二版)主成分的計算方法

并且當z1=(1,0,…,0)T時,等號成立,這時l1=Pz1=e1

信息分析概論(第二版)主成分的計算方法信息分析概論(第二版)主成分的計算方法因此,求X的各主成分,等價于求它的協(xié)方差矩陣的各特征值及相應的正交單位化特征向量。按照特征值由大到小所對應的正交單位化特征向量為組合系數(shù)的X1,X2,…,Xp的線性組合分別為X的第一、第二、…第p個主成分,且各主成分的方差等于相應的特征值。信息分析概論(第二版)主成分的貢獻率和累計貢獻率記Z=(Z1,Z2,…,Zp)T為主成分向量,則Z=PTX,且 Cov(Z)=Cov(PTX)=PT∑P=Λ=Diag(λ1,λ2,…,λp)因為相似矩陣主對角線上元素之和相等,所以即:主成分分析是把p個原始變量X1,X2,…,Xp重新進行改造,得到p個不相關變量Z1,Z2,…,Zp,并保證原始變量的總方差

與改造后變量的總方差相等

描述了第k個主成分提取的信息占總信息的份額,被稱為第k個主成分Zk的貢獻率。第一主成分的貢獻率最大,表明綜合原始變量X1,X2,…,Xp所含信息的能力最強,并且Z1,Z2,…,Zp的綜合能力依次減弱。

前m個主成分的貢獻率之和

稱為Z1,Z2,…,Zm的累計貢獻率,它表明前m個主成分Z1,Z2,…,Zm綜合提供X1,X2,…,Xp中信息的能力

信息分析概論(第二版)標準化變量的主成分

信息分析概論(第二版)標準化變量的主成分下面利用X的相關矩陣ρ作主成分分析。信息分析概論(第二版)主成分分析法的實際應用在實際問題中,一般∑和ρ是未知的,需要通過樣本來進行估計,即用S來估計∑,用R來估計ρ。表3.11顯示了某年省會城市和計劃單列市的主要經(jīng)濟指標,下面通過社會科學統(tǒng)計分析軟件SAS作主成分分析,試圖得出各城市的綜合經(jīng)濟得分并排列名次。

指標城市年底總?cè)丝冢ㄈf人)非農(nóng)業(yè)人口(萬人)農(nóng)業(yè)總產(chǎn)值(萬元)工業(yè)總產(chǎn)值(萬元)客運總量(萬人)貨運總量(萬噸)地方財政預算內(nèi)收入(萬元)城鄉(xiāng)居民年底儲蓄余額(萬元)在崗職工人數(shù)(萬人)在崗職工工資總額(萬元)北京1249.90747.201843427199997062032345562279086326806646410.805773301天津910.17528.68150113622645502325926317112807311301931202.682254343石家莊875.40204.152918680688576829291911352348709587595.60758877太原299.92196.842360382737750193711895203277394310088.65654023呼和浩特207.7891.6736534381645223512623105783139658842.11309337沈陽677.08426.52129541858267337782154125679199016998135.451152811大連545.31269.70187973984263851078019187709227755679694.15965922長春691.23281.2018532105966343481095323570964803744102.63884447哈爾濱927.09428.9826638554186123672075204814436450020172.791309151上海1313.12969.63206901954529098640644485431850025971200336.84

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論