數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題_第1頁(yè)
數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題_第2頁(yè)
數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題_第3頁(yè)
數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題_第4頁(yè)
數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)分析上機(jī)實(shí)驗(yàn)?zāi)M題一第一章 數(shù)據(jù)的描述性分析 1建立數(shù)據(jù)集設(shè)有數(shù)據(jù)集如下:LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165相應(yīng)變量分別為NAME,AGE,WEIGHT和HEIGHT,輸入數(shù)據(jù)以建立一個(gè)名為exe_1的SAS數(shù)據(jù)集,并打印輸出2數(shù)據(jù)的描述性分析例1.2對(duì)血清蛋白含量,利用PROCUNIVARITE過(guò)程,求數(shù)據(jù)的方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差、四分位標(biāo)準(zhǔn)差,程序如下:練習(xí):利用MEANS過(guò)程求上述基本統(tǒng)計(jì)量。二回歸分析1線性回歸模型及其參數(shù)估計(jì)(模型及矩陣表示、參數(shù)估計(jì)及性質(zhì));矩陣表示 2統(tǒng)計(jì)推斷(回歸方程的顯

2、著性檢驗(yàn)、回歸系數(shù)的顯著性檢驗(yàn)、預(yù)測(cè)及其置信區(qū)間、與回歸系數(shù)有關(guān)的假設(shè)檢驗(yàn)的一般方法);(1) 回歸方程的顯著性檢驗(yàn): , ,檢驗(yàn)假設(shè):,統(tǒng)計(jì)量,時(shí),拒絕(2)回歸系數(shù)的統(tǒng)計(jì)推斷:檢驗(yàn)假設(shè),統(tǒng)計(jì)量,拒絕的置信區(qū)間:(3)預(yù)測(cè)及統(tǒng)計(jì)推斷:的置信區(qū)間:3殘差分析及處理措施(誤差的正態(tài)性檢驗(yàn)、殘差圖分析、Box-Cox變換);(1)誤差的正態(tài)性檢驗(yàn)1)殘差正態(tài)性的頻率檢驗(yàn)2)殘差的正態(tài)QQ圖檢驗(yàn)近似一條直線,(2)殘差圖分析3)Box-Cox變換選擇,使最小4回歸方程的選取(1)窮舉法評(píng)價(jià)回歸方程優(yōu)良性的準(zhǔn)則:修正的復(fù)相關(guān)系數(shù)準(zhǔn)則;準(zhǔn)則,預(yù)測(cè)平方和準(zhǔn)則(2)逐步回歸法例2.3某科學(xué)基金會(huì)的管理人員欲

3、了解從事研究工作的中、高水平的數(shù)學(xué)家的年工資額Y與他們的研究成果的質(zhì)量指標(biāo)、從事研究工作的時(shí)間以及能獲得資助的指標(biāo)為此按一定的設(shè)計(jì)方案調(diào)查了24位此類型的數(shù)學(xué)家,得數(shù)據(jù)如書(shū)上表2.3所示(1)假設(shè)誤差服從分布,建立與之間的線性回歸方程并研究相應(yīng)的統(tǒng)計(jì)推斷問(wèn)題(2)假設(shè)某位數(shù)學(xué)家的關(guān)于的值為,試預(yù)測(cè)他的年工資額并給出置信度為95%的置信區(qū)間三方差分析-單因素1.單因素方差分析(1)統(tǒng)計(jì)模型因變量Y因素,水平,上觀測(cè)值,(2) 顯著檢驗(yàn),拒絕(3)置信區(qū)間(略)置信度的置信區(qū)間, 置信度的置信區(qū)間為個(gè)的置信度至少的同時(shí)置信區(qū)間2.雙因素等重復(fù)試驗(yàn)下的方差分析(1)統(tǒng)計(jì)模型Y因素和B,水平,組合水平

4、觀測(cè)值, 為無(wú)偏估計(jì)假設(shè)成立時(shí),分別服從分布(2)顯著檢驗(yàn)假設(shè)檢驗(yàn)問(wèn)題:統(tǒng)計(jì)量 檢驗(yàn)值:如,拒絕相應(yīng)假設(shè)(3)無(wú)交互效應(yīng)的各因素均值的估計(jì)與比較(4)有交互效應(yīng)時(shí)因素各水平組合上的均值估計(jì)與比較例31 為比較同一類型的三種不同食譜的營(yíng)養(yǎng)效果,將19只幼鼠分為三組,每組分別為8只、4只、7只,各采用這三種食譜喂養(yǎng)假定其他條件均保持相同,12周后測(cè)得其體重增加量如表3.3所示,設(shè)體重增加服從方差分析模型(3.1)或(3.2),試比較這三種食譜的營(yíng)養(yǎng)效果是否有顯著差異表3.3 三種食譜下幼鼠的體重增加量 食譜 體重增加量 甲 164 190 203 205 206 214 228 257乙 185

5、197 201 231 丙 187 212 215 220 248 265 281 四主成分分析、典型相關(guān)分析1主成分分析(1)基于協(xié)方差矩陣的總體主成分的求法 (基于相關(guān)系數(shù)矩陣類似)維隨機(jī)變量,協(xié)方差陣非負(fù)定主成分定義:滿足:(1)系數(shù)向量單位化; (2)各主成分不相關(guān),無(wú)重疊信息,;(3)主成分方差由此遞減求總體主成分步驟:1)解,求的p個(gè)特征值;2)對(duì)應(yīng)的正交單位化的特征向量分別為;其中 ,3)的第個(gè)主成分為;為個(gè)主成分構(gòu)成的隨機(jī)向量4)主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率第k個(gè)主成份的貢獻(xiàn)率前k個(gè)主成份的累積貢獻(xiàn)率(2)基于樣本協(xié)方差矩陣的主成分分析(基于樣本相關(guān)系數(shù)矩陣類似)來(lái)自于總體的容量

6、為的樣本觀測(cè)數(shù)據(jù),樣本協(xié)方差矩陣其中 ,為的樣本均值步驟:1)求特征值2)相應(yīng)的正交單位化特征向量,3)第個(gè)樣本主成分, 4) 第k個(gè)樣本主成分的貢獻(xiàn)率前k個(gè)主成分的累積貢獻(xiàn)率5)第個(gè)樣本主成分的個(gè)觀測(cè)值稱為第個(gè)樣本主成分的得分,可以依據(jù)得分對(duì)各組樣本觀測(cè)數(shù)據(jù)進(jìn)行排序()樣本主成分的觀測(cè)數(shù)據(jù)(得分向量)例4.3對(duì)10名男中學(xué)生的身高()、胸圍()、體重()進(jìn)行測(cè)量,得數(shù)據(jù)如表4.2,從協(xié)方差矩陣出發(fā)對(duì)其做主成分分析,按照第一主成分排名表4.2 10名男中學(xué)生的身高、胸圍及體重?cái)?shù)據(jù)序 號(hào) 身高x1(cm) 胸圍x3(cm) 體重x3(cm)1 149.5 69.5 38.52 162.5 77.

7、0 55.53 162.7 78.5 50.84 162.2 87.5 65.55 156.5 74.5 49.06 156.1 74.5 45.57 172.0 76.5 51.08 173.2 81.5 59.59 159.5 74.5 43.510 157.7 79.0 53.52典型相關(guān)分析(1)總體典型變量的定義設(shè)有兩組隨機(jī)變量,的協(xié)方差矩陣為其中這里假定滿秩矩陣(為正定矩陣),不妨設(shè).1)構(gòu)造典型變量為第對(duì)典型變量. 確定,滿足(2)總體典型變量與典型相關(guān)系數(shù)的求法(1)求,則具有相同的非零特征根設(shè)為的特征根,則為的前個(gè)(非負(fù))特征根,其它特征根為0.(2)設(shè)和分別為的前個(gè)特征根對(duì)

8、應(yīng)的正交化單位向量,則的第對(duì)典型變量為(3)典型相關(guān)系數(shù)為.(3)樣本典型相關(guān)分析兩組隨機(jī)變量,組觀測(cè)數(shù)據(jù) , 標(biāo)準(zhǔn)化樣本 樣本相關(guān)系數(shù)矩陣為總體為相關(guān)系數(shù)矩陣的估計(jì),以替代即可(4)典型相關(guān)系數(shù)的顯著性檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)值為 若,拒絕依次就進(jìn)行檢驗(yàn),若對(duì)某個(gè),檢驗(yàn)值首次滿足,則認(rèn)為只有前對(duì)典型變量顯著相關(guān),選取前對(duì)即可注意:利用樣本協(xié)方差矩陣,分析方法一樣不需要對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理例4.6為研究空氣溫度與土壤溫度的關(guān)系,考慮六個(gè)變量日最高土壤溫度; 日最低土壤溫度; 日土壤溫度積分值; 日最高氣溫; 日最低氣溫; 日氣溫曲線積分值觀測(cè)了天,數(shù)據(jù)如書(shū)上表4.7,做典型相關(guān)分析五聚類分析1快速聚類(1)

9、歐氏距離快速聚類法(采用明氏距離距離快速聚類法類似)指定分類數(shù)為,聚類中采用的距離是歐氏距離(默認(rèn)的)1)按照最小最大原則,選取個(gè)初始聚點(diǎn)的集合分類原則最小距離法:每個(gè)樣品以最靠近的初始聚點(diǎn)歸類,得到類的初始分類結(jié)果其中 2)從出發(fā),計(jì)算新的聚點(diǎn)集合以的重心作為新的聚點(diǎn),其中是類中的樣品數(shù)得到新的聚點(diǎn)集合從出發(fā),將樣品作新的分類,得依次計(jì)算下去3)設(shè)在第m步得到聚點(diǎn)集和分類 新聚點(diǎn)集 和新分類集 4)判斷記 給定,若 則遞推計(jì)算過(guò)程結(jié)束,Proc fastclus過(guò)程中,的默認(rèn)值為0.02為最終分類結(jié)果,為最終的分類中心2系統(tǒng)聚類法(1)類間距離及其遞推公式記,和為兩個(gè)類,含樣品數(shù)和類的重心類

10、與類之間的距離記為和合并得,類間距離、與其他類的類間距離遞推公式有4種:1)最短距離、遞推公式兩類中樣品之間距離最短者作為類間距離2)最長(zhǎng)距離、遞推公式兩類中樣品之間距離最長(zhǎng)者3)類平均距離、遞推公式兩類中所有兩兩樣品之間的距離的平均4)重心距離、遞推公式兩類的重心之間的距離作為兩類間的距離(2)譜系聚類法的步驟 1)n個(gè)樣品開(kāi)始時(shí)作為n個(gè)類,計(jì)算兩兩之間的距離,構(gòu)成一個(gè)對(duì)稱距離矩陣 此時(shí)2)選擇中主對(duì)角線以下(或以上)最小元素,設(shè)為,這時(shí)與,將與合并為新類在中消去與對(duì)應(yīng)的行與列,加入新類與剩下未聚合的類間距離所組成的一行和一列,得新的階距離矩陣3)重復(fù)步驟(2),得, n個(gè)樣品聚為一個(gè)大類4

11、)記下合并樣品的編號(hào)及兩類合并時(shí)的距離(稱為距離水平),繪制聚類譜系圖例 6.1 對(duì)13個(gè)國(guó)家1990年,1995年與200年的可持續(xù)發(fā)展綜合國(guó)力做評(píng)估,其得分值如表6.1所示(1)試用快速聚類法將上述13個(gè)國(guó)家聚為4類:距離采用用歐式距離法; (2)按最短距離法方法進(jìn)行譜系聚類分析,采用標(biāo)準(zhǔn)化數(shù)據(jù)聚類并給出聚為4類結(jié)果六判別分析(1)馬氏距離的定義總體,均值向量, 協(xié)方差矩陣,來(lái)自的馬氏平方距離與的馬氏平方距離總體,均值向量, 協(xié)方差矩陣總體的馬氏距離(2)距離判別準(zhǔn)則-以兩總體為例個(gè)總體,均值向量,協(xié)方差矩陣待判樣品,計(jì)算到各總體的馬氏距離并比較,判定屬于馬氏距離最小的總體1) 總體協(xié)方差

12、矩陣相等:l 總體距離判別準(zhǔn)則對(duì)任意兩個(gè)總體,樣品到的馬氏平方距離差:則 其中 而 距離判別準(zhǔn)則為:若總體滿足: , 則判定l 利用樣本數(shù)據(jù)的距離判別準(zhǔn)則均值向量及公共協(xié)方差矩陣,分別用訓(xùn)練樣本估計(jì)代替距離判別準(zhǔn)則為:, 判定其中,線性判別函數(shù)的估計(jì)為l 特別:重點(diǎn)掌握兩總體情形,2)不全相等為二次判別函數(shù),表示樣品到總體的馬氏平方距離l 多總體距離判別準(zhǔn)則: 則判定l 特別:兩總體情形(3)誤判率的估計(jì)設(shè)來(lái)自兩總體()誤判率的回判估計(jì)誤判率的交叉確認(rèn)估計(jì)特別兩總體情形(3)兩總體Bayes判別判別準(zhǔn)則為特殊情形:1)重點(diǎn)則判別準(zhǔn)則為 即按照后驗(yàn)概率大小來(lái)劃分 其中后驗(yàn)概率兩個(gè)正態(tài)總體的Bayes判別稱后驗(yàn)概率最優(yōu)劃分兩正態(tài)總體一般判別準(zhǔn)則特殊情形Ø判別準(zhǔn)則(等價(jià)于)其中后驗(yàn)概率 =廣義平方距離函數(shù)當(dāng)未知時(shí),分別用來(lái)估計(jì),可得線

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論