信息分析方法_第1頁
信息分析方法_第2頁
信息分析方法_第3頁
信息分析方法_第4頁
信息分析方法_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息分析方法趙俊杰Telmail:junjie@徐峰Telmail:xufeng@中國科學(xué)技術(shù)信息研究所2023/2/11主要內(nèi)容定量分析方法

簡單線性分析方法——回歸分析法多元統(tǒng)計分析方法——因子分析法聚類分析法定量與定性相結(jié)合的方法

層次分析法及應(yīng)用系統(tǒng)動力學(xué)分析方法2023/2/12--回歸分析方法2023/2/13編號R&D經(jīng)費投入(億元)SCI論文數(shù)(篇)19911150.8663019922209.8622419933256.2961719944309.81041119955349.11313419966404.81445919977481.91688319988551.11983819999678.924476200010895.7304992001111042.5356852002121287.6407582003131539.649788200414184357377中國1991-2004年R&D投入及SCI論文數(shù)案例2023/2/14案例2023/2/15回歸分析方法回歸分析方法是對變量之間統(tǒng)計關(guān)系進行分析的一種數(shù)理統(tǒng)計方法。

作用:便于觀察變量間的關(guān)系,了解變量所反映的一些實際問題。用于簡單的預(yù)測,可以利用回歸分析建立進行預(yù)測的回歸模型:但要注意在統(tǒng)計檢驗的基礎(chǔ)上保證預(yù)測的可靠性方法:對數(shù)據(jù)進行數(shù)學(xué)表達-回歸方程確定各參數(shù)統(tǒng)計檢驗2023/2/16線性回歸:一元線性回歸:

Y=a+bX多元線性回歸:Y'=c0+c1X1+c2X2+...+cmXm非線性回歸多項式:Y=b0+b1X+b2X2+...+bkXk冪函數(shù):Y=aXb指數(shù)函數(shù):Y=abx

主要的回歸方程類型2023/2/17最常用的回歸方程建立方法

——最小二乘法:思路設(shè)擬合函數(shù)為

Y'=f(X1,X2,...,Xm),Xi(i=1,2,...,m,指自變量)對于各觀測點k=1,2,...,n,有估計值:Y'k=f(Xik)觀測值:Yk(k=1,2,...,n)各觀測值與實際函數(shù)值之間存在誤差(Y‘k-Yk),使觀測值與估計值之差的平方和——目標函數(shù)為極小

min∑(Y'k-Yk)2由此可計算出中各參數(shù)。2023/2/18對一元線性回歸函數(shù),有:

2023/2/19回歸檢驗可能存在的問題:數(shù)據(jù)量太小,擬合度、相關(guān)系數(shù)很高,但不具備統(tǒng)計上的顯著相關(guān)性。原始數(shù)據(jù)的點過分集中在一個小區(qū)域,可能建立起不同形式的回歸方程來對應(yīng)同一組數(shù)據(jù),它們與原始數(shù)據(jù)的擬合程度都比較接近,從而產(chǎn)生了不確定的情況。所以,僅根據(jù)相關(guān)分析中的擬合程度或簡單相關(guān)系數(shù)的絕對值大小來判斷是不充分的??赡苓€需要對回歸方程進行更嚴格的統(tǒng)計檢驗。對于線性回歸,可以根據(jù)相關(guān)分析來判斷因變量與各自變量間成直線關(guān)系的密切程度,因而也是判斷曲線擬合優(yōu)劣度的一個標準。2023/2/110小結(jié)回歸分析方法是分析變量間線性關(guān)系的一種方法在做回歸分析時,應(yīng)先將數(shù)據(jù)做成便于觀察的圖(如散點圖),然后根據(jù)對數(shù)據(jù)圖表的觀察選擇適當(dāng)?shù)幕貧w模型做分析對回歸模型做相應(yīng)的檢驗,可以根據(jù)檢驗來判斷所先模型的適當(dāng)與否

2023/2/111Excel軟件的數(shù)據(jù)分析功能2023/2/112——因子分析法2023/2/1132003中國競爭情報應(yīng)用戰(zhàn)略高級培訓(xùn)研討會昆明林登(Linden)對奧林匹克十項全能比賽得分作的因子分析。十項全能項目為:100米跑(x1)、跳遠(x2)、鉛球(x3)、跳高(x4)、400米跑(x5)、110米跨欄(x6)、鐵餅(x7)、撐桿跳高(x8)、標槍(x9)、1500米跑(x10)。四個因子:短跑速度、爆發(fā)性臂力、爆發(fā)性腿力

和耐力。案例2023/2/114因子分析簡介因子:用較少的綜合指標分析存在于各變量中的各類信息,而各綜合指標之間是不相關(guān)的,代表各類信息的綜合指標稱為因子。因子分析:用少數(shù)幾個公共因子來描述許多指標或因素之間的聯(lián)系,以較少的幾個因子反映原始資料的大部分信息的統(tǒng)計學(xué)方法。特點:因子變量的數(shù)量遠少于原始指標變量的數(shù)量,方便分析研究;因子變量不是對原有變量的取舍,而是根據(jù)原始變量的信息進行重新組構(gòu),它能夠反映原有變量大部分的信息;因子變量之間不存在相關(guān)關(guān)系,對變量的分析比較方便;因子變量具有命名解釋性,即該變量是對某些原始變量信息的綜合反映。2023/2/115數(shù)學(xué)模型2023/2/116幾個概念因子載荷aij:因子之間完全不相關(guān)時,為第i個原有變量和第j個因子變量的相關(guān)系數(shù),即xi在第j個公共因子變量上的相對重要性。aij絕對值越大,則公共因子Fj和原始變量xi關(guān)系越強。變量共同度(公因子方差、公共方差):反映全部公共因子變量對原有變量xi的總方差解釋說明比例。公共因子Fj的方差貢獻:反映了該因子對所有原始變量總方差的解釋能力,其值越高,說明因子重要程度越高。2023/2/117因子分析的計算方法因子分析通常根據(jù)樣本變量的相關(guān)矩陣或協(xié)方差矩陣來計算根據(jù)相關(guān)矩陣或協(xié)方差矩陣,計算其特征值,根據(jù)特征值的大?。ɑ蛘摚﹣磉x取因子基本原因,矩陣計算出來的不同的特征值對應(yīng)的特征向量是不相關(guān)的,也就是說,計算出來的各因子之間是不相關(guān)的。2023/2/118因子分析的基本步驟確定待分析的原有若干變量是否適合于因子分析:相關(guān)分析,計算變量間的相關(guān)系數(shù)矩陣;構(gòu)造因子變量:主成分分析法、主軸因子法、極大似然法、最小二乘法等;利用旋轉(zhuǎn)使得因子變量更具有可解釋性;計算因子變量的得分:每一樣本數(shù)據(jù)在不同因子上的具體數(shù)值。2023/2/119因子個數(shù)的確定特征值準則:取特征值大于等于1的主成分作為初始因子。根據(jù)因子的累計方差貢獻率來確定。2023/2/120因子分析的檢驗SPSS中提供了兩種重要的檢驗KMO樣本精度檢驗,用于判斷變量間的相關(guān)性,以及其相關(guān)性是否適于進行因子分析,Bartlett球型檢驗,用于判斷變量矩陣是不是單位矩陣2023/2/121小結(jié)因子分析是一種十分常用的多元統(tǒng)計方法,由于對影響研究對象的變量進行了降維處理,有助于我們對研究對象的理解因子分析通常是對多變量,大樣本量進行的一種統(tǒng)計分析,對于變量和樣本量均有一定的要求,通常變量與樣本量的比例不應(yīng)少于1:5,這樣才可能會有比較好的效果因子的可解釋性是因子分析得到廣泛應(yīng)用的重要原因2023/2/122——聚類分析方法2023/2/1232003中國競爭情報應(yīng)用戰(zhàn)略高級培訓(xùn)研討會昆明聚類分析:思考“物以類聚,人以群分”,現(xiàn)實世界中存在大量的分類問題:學(xué)生成績分等級;國家經(jīng)濟發(fā)展?fàn)顩r的分類(人均國民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等統(tǒng)計指標);人體健康水平的分類;學(xué)科門類;……2023/2/124聚類分析

(ClausterAnalysis)數(shù)值分類法的一種,在社會應(yīng)用中稱類型學(xué)。RobertTryon于1939年提出的一種心理學(xué)研究方法。目的:用數(shù)量關(guān)系對事物進行分類。對于可以用某些數(shù)量描述的事物,采用樣本間的距離來將性質(zhì)接近的事物歸為一類,從而達到對事物的分析和評價。聚類分析作分類時各類群乃至類群數(shù)事先未知,而是根據(jù)數(shù)據(jù)的特征確定的,又稱為無師可循的分類。一般分為逐步聚類、系統(tǒng)聚類和其它方法。2023/2/125

X1X2X3X4X5X6X7X8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77

河北1495.63

山西1406.33

內(nèi)蒙古1303.97

遼寧1730.84

吉林1561.86

黑龍江1410.11

上海3712.31

江蘇2207.58

浙江2629.16

安徽1844.78

福建2709.46

消費性支出數(shù)據(jù)(單位:元)數(shù)據(jù)來源:2000年《中國統(tǒng)計年鑒》數(shù)據(jù)示例2023/2/126

1.系統(tǒng)聚類法

在開始時不選重心,而是令各樣本自成一類;

計算各樣本間的距離或相似度,使距離最近的,或相似度最大的兩個樣本并成一類;

計算合并后的各類間的距離或相似度,使距離最小的或相似度最大的兩類并成一類。

重復(fù)進行兩個最近類的合并,每次減少一類,直至所有的樣本合并為一類,或直到滿意的分類為止。判據(jù):距離最小或相似度最大。2023/2/127樣本之間的距離-明氏距離Q為樣本所在空間的維度。當(dāng)各變量單位不同或測量范圍相差很大時,要對變量進行標準化處理。√2023/2/128樣本之間的距離-蘭氏距離蘭氏距離與各變量的單位無關(guān)。對大的異常值不敏感,故適用于高度偏斜的數(shù)據(jù)。明氏距離和蘭氏距離都沒有考慮變量之間的相關(guān)性,因此,這兩種距離更適合于變量之間互不相關(guān)的情形。2023/2/129樣本之間的距離-馬氏距離馬氏距離考慮了各變量之間的相關(guān)性,且與各變量的單位無關(guān)。S難以確定,S不應(yīng)隨聚類過程而變化。實際聚類分析中,馬氏距離不理想。2023/2/130相似系數(shù):表示樣本之間的相似度

相關(guān)系數(shù):夾角余弦2023/2/131類間距離的計算最大距離法又稱完全連接法,是以兩類間最遠的樣本間的距離為類間距離;最小距離法又稱單連接法,是以兩類間最近的樣本間距離為類間距離;中間距離法以兩類間最大和最小距離之中值為類間距離;類平均法以兩類樣本間距離的平均值為類間距離;重心法類與類之間的距離定義為它們的重心(均值)之間的歐氏距離。離差平方和法類中各樣本到類重心的歐氏距離平方之和稱為(類內(nèi))離差平方和。反映了各類內(nèi)樣本的分散程度。兩個較近的類合并后所增加的離差平方和最小。(與樣本數(shù)有較大的關(guān)系)2023/2/1322023/2/133聚類結(jié)果的輸出樹狀圖還表征出類與類之間的相對接近或距離程度。

1627581034943212023/2/134刷狀圖從上而下或從左而右,可分別反映出不同類的情況。2023/2/1352逐步(動態(tài))聚類法基本思路:在計算之前,先選取選擇一批凝聚點或給出一個初始的分類,讓樣本按某種原則向凝聚點凝聚(距離最近、或相似度最大),對凝聚點進行不斷的修改或迭代,直至分類比較合理或迭代穩(wěn)定為止。2023/2/136k均值法(1)選擇k個樣本作為初始凝聚點,或者將所有樣品分成k個初始類,然后將這k個類的重心(均值)作為初始凝聚點。(2)對除凝聚點之外的所有樣品逐個歸類,將每個樣本歸入凝聚點離它最近的那個類(通常采用歐氏距離),該類的凝聚點更新為這一類目前的均值,直至所有樣品都歸了類。(3)重復(fù)步驟(2),直至所有的樣品都不能再分配為止。2023/2/137選凝聚點初始分類修改分類最終分類分類合理否?NoYes2023/2/138需要特別注意變量的選擇(應(yīng)具有代表性,重要性、變量決定類群特征)數(shù)據(jù)的預(yù)處理(標準化處理)各種方法的比較

系統(tǒng)聚類:容易把握各對象間的關(guān)聯(lián),任意分類,分類客觀,不受其他因素影響;但計算量大。逐步聚類:經(jīng)驗、計算量少;但分類效果不穩(wěn)定、數(shù)據(jù)間關(guān)聯(lián)程度把握欠缺。類的個數(shù)給定一個閾值:要求類間距離大于閾值。觀測樣本散點圖:兩個或三個變量,多個變量綜合成兩個或三個變量,通過散點圖確定類的個數(shù)。使用統(tǒng)計量。2023/2/139小結(jié)聚類分析法是按樣本(或變量)的數(shù)據(jù)特征,把相似的樣本傾向于分在同一類中,把不相似的樣本傾向于分在不同類中。距離和相似系數(shù)反映了樣本之間的相似程度。相似程度越高,一般兩個樣本間的距離就越小或相似系數(shù)就越大,反之亦然。系統(tǒng)聚類是一種常用的聚類方法,常用的有最短距離法、最長距離法、中間距離法、類平均法、重心法和離差平方和法。在許多應(yīng)用中,類平均法和離差平方和法效果相對較好。逐步聚類(動態(tài)聚類)法是用于大數(shù)據(jù)集的一種聚類方法。2023/2/140SPSS軟件簡介

SPSS軟件是國際上最早的統(tǒng)計分析軟件,1984年首先推出了世界上第一個統(tǒng)計分析軟件微機版。迄今SPSS軟件已有30余年的成長歷史。全球約有25萬家產(chǎn)品用戶,它們分布于通訊、醫(yī)療、銀行、證券、保險、制造、商業(yè)、市場研究、科研教育等多個領(lǐng)域和行業(yè),是世界上應(yīng)用最廣泛的專業(yè)統(tǒng)計軟件。用戶只要掌握一定的Windows操作技能,粗通統(tǒng)計分析原理,就可以使用該軟件進行特定學(xué)科的統(tǒng)計分析了。美中不足的是,SPSS輸出結(jié)果雖然漂亮,但不能為WORD等常用文字處理軟件直接打開,只能用拷貝、粘貼的方式加以交互。2023/2/141定性+定量的方法2023/2/142——層次分析法(TheAnalyticHierarchyProcess,AHP)2023/2/143層次分析法簡介20世紀70年代由美國著名運籌學(xué)家、匹茲堡大學(xué)教授T.L.Saaty提出。一種多目標決策方法。對主觀判斷進行定量描述。主要用于優(yōu)先方案的選擇和評價體系的確定。與德爾菲法相結(jié)合,可以得出較滿意的結(jié)果。2023/2/144將一個復(fù)雜的問題分解成若干層次,建立起有序的梯階層次結(jié)構(gòu)(即層次結(jié)構(gòu)模型),每一層次中的元素具有大致相等的地位,且與上一層次和下一層次有著一定的聯(lián)系。并使人的經(jīng)驗和判斷能夠用數(shù)量形式加以表達和處理。即對因素的重要性進行兩兩比較,把兩兩比較的結(jié)果作為判斷矩陣的元素,構(gòu)造判斷矩陣,通過求解該矩陣的最大特征根及對應(yīng)的特征向量,獲得其相對重要性的排序結(jié)果。

對比較和判斷結(jié)果進行嚴格的邏輯分析和統(tǒng)計檢驗,保證了眾多的判斷元素及判斷矩陣在綜合過程中的思維一致性。1方法的思路和基本原理2023/2/145目標概念化構(gòu)造層次結(jié)構(gòu)模型建立判斷矩陣單層排序計算相對權(quán)重單層一致性檢驗是否通過總排序計算合成權(quán)重總判斷一致性檢驗是否通過評估總結(jié)果系統(tǒng)分析1-9標度特征向量法2層次分析法的實施程序

2023/2/146Saaty認為,每個層次的元素的數(shù)量最好不超過9個。(1)建立層次結(jié)構(gòu)模型目標層準則層方案層2023/2/147(2)建立判斷矩陣akB1B2…BnB1B2...Bnb11b21...b11b12b22...bn2………b1nb2n...bnn2023/2/148判斷矩陣構(gòu)建方法:1-9標度法標度含義1表示兩個因素相比,具有同樣重要性3表示兩個因素相比,一個因素比另一個因素稍微重要5表示兩個因素相比,一個因素比另一個因素明顯重要7表示兩個因素相比,一個因素比另一個因素特別重要9表示兩個因素相比,一個因素比另一個因素極端重要2,4,6,8

上述兩個相鄰判斷的中值倒數(shù)因素i與j比較得判斷bij,則因素j與i比較的判斷的bji=1/bij2023/2/149一致性檢驗

一致性指標CI:CI=(λmax-n)/(n-1)

平均隨機一致性指標RI:

隨機一致性比率CR:CR=CI/RI<0.10階數(shù)3456789RI值0.580.901.121.241.321.411.45主要用于判斷邏輯性錯誤,如

A>B,B>C,C>AA>>B,B>>C,A>C一致性檢驗

實際目的2023/2/150ExpertChoice(EC)軟件簡介ExpertChoice軟件是以層次分析法(AHP)為基礎(chǔ)的客觀決策支持工具,判斷的層次標準都表現(xiàn)在軟件的hierarchicalstructure上,決策者可融合自身問題的層次并做出重要的判斷。在ExpertChoice決策過程結(jié)束之后,決策者可借助于簡單明了的結(jié)果,理解決策是如何產(chǎn)生的。網(wǎng)址:/2023/2/151ExpertChoice應(yīng)用領(lǐng)域資源分配(ResourceAllocation)

資源選擇(SourceSelection)

人力資源管理(HumanResourceManagement)

員工表現(xiàn)評估(EmployeePerformanceEvaluation)

薪資決策(SalaryDecisions)

制定市場策略(FormulatingMarketingStrategy)

決策分析(SelectingAlternatives)

預(yù)測支出(PredictingLikelyOutcomes)

分析規(guī)劃(AnalyticalPlanning)

促進團體決策(FacilitatingGroupDecisionMaking)

收益/成本分析(Benefit/CostAnalysis)

工程設(shè)計評估(EngineeringDesignEvaluations)

生產(chǎn)作業(yè)管理(ProductionandOperationsManagement)

策略分析及評估(PolicyFormulationandEvaluation)

評估獲益和合并(EvaluatingAcquisitionsandMergers)

供貨商評估(SupplierEvaluation)

信用分析(CreditAnalysis)

顧客反應(yīng)(CustomerFeedback)

IT投資管理(ITPortfolioManagement)

產(chǎn)品定價(ProductPricingDecisions)

創(chuàng)新管理(InnovationManagement)2023/2/152軟件ExpertChoice(EC)2023/2/153——系統(tǒng)動力學(xué)法及

Vensim軟件簡介2023/2/1542003中國競爭情報應(yīng)用戰(zhàn)略高級培訓(xùn)研討會昆明系統(tǒng)動力學(xué)方法簡介系統(tǒng)動力學(xué)方法是一種以反饋控制理論為基礎(chǔ),以計算機仿真技術(shù)為手段,通常用以研究復(fù)雜的社會經(jīng)濟系統(tǒng)的定量方法。自50年代中美國麻省理工學(xué)院的福雷斯特(JayW.Forrester)教授于1956創(chuàng)立以來,它已成功地應(yīng)用于企業(yè)、城市、地區(qū)、國家甚至世界規(guī)模的許多戰(zhàn)略與決策等分析中,被譽為“戰(zhàn)略與決策實驗室”。2023/2/155系統(tǒng)動力學(xué)基本概念(1)系統(tǒng):一個由相互區(qū)別、相互作用的各部分有機地聯(lián)結(jié)在一起,為同一目的而完成某種功能的集合體。(2)反饋:系統(tǒng)內(nèi)同一單元或同一子塊其輸出與輸入間的關(guān)系稱為“反饋”。對整個系統(tǒng)而言,反饋則是指系統(tǒng)輸出與來自外部環(huán)境的輸入的關(guān)系。

正反饋:能產(chǎn)生自身運動的加強過程,在此過程中運動或動作所引起的后果將回授使原來的趨勢得到加強。負反饋:能自動尋求給定目標,未達到目標時將不斷作出響應(yīng)。

(3)反饋回路:由一系列的因果與相互作用鏈組成的閉合回路。分為正反饋回路和負反饋回路。

2023/2/156正反饋回路

具有正反饋特性的回路稱為正反饋回路。特性:非穩(wěn)定、非平衡、增長、自增強

正反饋回路舉例:人口增長同人口基數(shù)的關(guān)系

+++2023/2/157負反饋回路

具有負反饋特性的回路稱為負反饋回路。力圖縮小系統(tǒng)狀態(tài)相對于目標狀態(tài)的偏離。為穩(wěn)定回路、平衡回路或自校正回路。例:空調(diào)的恒溫部分。+-—期望溫度溫度繼電器冷卻器加熱器室溫2023/2/158社會小系統(tǒng)-存款與收入舉例2023/2/159系統(tǒng)動力學(xué)認為:反饋回路是構(gòu)成系統(tǒng)的基本結(jié)構(gòu)。一個復(fù)雜系統(tǒng)則是由這些相互作用的反饋回路組成的。一個反饋回路就是由狀態(tài)、速率、信息三個基本部分組成的基本結(jié)構(gòu)。一個復(fù)雜系統(tǒng)則按一定的系統(tǒng)結(jié)構(gòu)由若干相互作用的反饋回路所組成;反饋回路的交叉、相互作用形成了系統(tǒng)的總功能。系統(tǒng)的基本結(jié)構(gòu)2023/2/160系統(tǒng)的變量狀態(tài)變量(L):描述系統(tǒng)在任一特定時刻的狀態(tài),是隨時間而變化的累積量,是物質(zhì)、能量與信息的存儲環(huán)節(jié)。構(gòu)造方程時用“狀態(tài)變量方程”表示。速率變量(R):表示狀態(tài)變量變化的快慢。用“速率方程”表示:描述控制作用的政策表達式,即速率方程公式表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論