![Chp.3變量選擇及數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view/9507473e1c8fb5b18a9d65f5276710c0/9507473e1c8fb5b18a9d65f5276710c01.gif)
![Chp.3變量選擇及數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view/9507473e1c8fb5b18a9d65f5276710c0/9507473e1c8fb5b18a9d65f5276710c02.gif)
![Chp.3變量選擇及數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view/9507473e1c8fb5b18a9d65f5276710c0/9507473e1c8fb5b18a9d65f5276710c03.gif)
![Chp.3變量選擇及數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view/9507473e1c8fb5b18a9d65f5276710c0/9507473e1c8fb5b18a9d65f5276710c04.gif)
![Chp.3變量選擇及數(shù)據(jù)預(yù)處理_第5頁](http://file4.renrendoc.com/view/9507473e1c8fb5b18a9d65f5276710c0/9507473e1c8fb5b18a9d65f5276710c05.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Chp.3變量選擇及數(shù)據(jù)預(yù)處理在數(shù)學(xué)地質(zhì)研究中,首先要對地質(zhì)數(shù)據(jù)進(jìn)行如下的考慮:1)當(dāng)取得數(shù)據(jù)的方法先進(jìn),而處理數(shù)據(jù)的方法落后,這同傳統(tǒng)的數(shù)據(jù)處理方法沒有區(qū)別;2)為了達(dá)到最佳地利用和綜合地質(zhì)數(shù)據(jù),必須解決:
a)如何使用數(shù)據(jù)?
b)使用什么數(shù)據(jù)?3)用各種方法(數(shù)學(xué)的、地質(zhì)的、經(jīng)驗(yàn)的)構(gòu)造一個(gè)與實(shí)際吻合的數(shù)據(jù)模型,這是關(guān)鍵問題。12地質(zhì)數(shù)據(jù)的分類地質(zhì)數(shù)據(jù)的特點(diǎn)變量的選擇變量的取值變量的變換Chp.3變量選擇及數(shù)據(jù)預(yù)處理3.1地質(zhì)數(shù)據(jù)的分類數(shù)據(jù)是事件發(fā)生的記錄,是事件表達(dá)的形式。地質(zhì)數(shù)據(jù)是表示地質(zhì)信息的數(shù)字、字母和符號的集合。用來表示地質(zhì)客觀事實(shí)這一地質(zhì)信息。從廣義的角度來看,地質(zhì)數(shù)據(jù)既可以是定量的、定性的數(shù)據(jù),也可以是文字的說明,甚至是圖形的顯示,因此,它幾乎等同于原始的地質(zhì)觀測結(jié)果或地質(zhì)資料。但是從狹義的角度來看,地質(zhì)數(shù)據(jù)主要是指定量的和定性的地質(zhì)數(shù)據(jù)。33.1地質(zhì)數(shù)據(jù)的分類地質(zhì)數(shù)據(jù)
定性數(shù)據(jù)
定量數(shù)據(jù)
間隔型數(shù)據(jù)
比例型數(shù)據(jù)
名義型數(shù)據(jù)
有序型數(shù)據(jù)
觀測數(shù)據(jù)方法數(shù)據(jù)經(jīng)驗(yàn)數(shù)據(jù)43.1地質(zhì)數(shù)據(jù)的分類(1)定性數(shù)據(jù)(qualitativedata):用符號、代碼表示的說明客體某種屬性、狀態(tài)的無數(shù)量概念的數(shù)據(jù)。名義型(nominaldata):區(qū)分不同對象或個(gè)體(如顏色的紅、灰、白等分別用1、2、3表示,它們只是個(gè)代碼,這里的2并不代表1的兩倍),或者從邏輯上表明客體的狀態(tài)(如某地出露花崗巖為+1,缺失為-1;天氣晴為+1,陰為0,下雨為-1等)有序型(ordereddata):只有順序、等級的概念(如礦物的硬度、巖漿侵入的期次、礦化強(qiáng)度、勘探類型等)。相同級差在絕對數(shù)量上不等!53.1
地質(zhì)數(shù)據(jù)的分類(2)定量數(shù)據(jù)(quantitativedata):它不僅說明客體的屬性、狀態(tài),且有量的概念。
其特點(diǎn)是:彼此間能比較大小,能定量的表示它們之間的大小,用數(shù)值表示某一現(xiàn)象的變化,以連續(xù)型為主。它是數(shù)據(jù)中反映數(shù)量概念最完整、意義最明確、最重要的類型。其中兩種最重要:63.1地質(zhì)數(shù)據(jù)的分類●間隔型(intervaldata):它們彼此間可比較大??;定量地表示其差異,這類數(shù)據(jù)差級的絕對數(shù)量是相等的(如海拔10M與20M,高差為10M,而海拔150M和160M,高差也是10M,即對相同間隔而言,長度相等);該數(shù)值無0值(如海拔0M,不是無高度,而是相對于海平面為0M)可以有負(fù)值(-150M,溫度0℃,-15℃)?!癖壤?proportionaldata):是具有絕對0值的間隔型數(shù)據(jù),如礦體厚度、品位值,但絕無負(fù)值。它可以計(jì)算兩值之差及差異的倍數(shù),是反映數(shù)量概念最完整、意義最明確、最重要的數(shù)據(jù)類型。73.1
地質(zhì)數(shù)據(jù)的分類(3)方法數(shù)據(jù)是在原始數(shù)據(jù)模型基礎(chǔ)上,根據(jù)計(jì)算方法及研究的需要生成的;它與原始數(shù)據(jù)模型的根本差別是數(shù)據(jù)發(fā)生了變化(如取對數(shù)、比值、相關(guān)系數(shù)等),這些新的數(shù)值以特定的意義代替了原始數(shù)據(jù)而成為方法數(shù)據(jù)。包括綜合數(shù)據(jù)、乘積數(shù)據(jù)、偽數(shù)據(jù)。83.1
地質(zhì)數(shù)據(jù)的分類●綜合數(shù)據(jù)(compositedtata):若干個(gè)簡單變量的和、積、或通過某種綜合方式構(gòu)成的新數(shù)據(jù)。例一:金礦化探原生暈,前緣指示元素為Hg、Sb、As、Tl,尾暈指示元素為Ag、Cu、Pb、Zn,樣品中各元素的含量變化很大。方法:Hg+Sb+As+Tl(前),Ag+Cu+Pb+Zn(尾)
(Hg+Sb+As+Tl)/(Ag+Cu+Pb+Zn)例二:膠東金礦勘查,膠東群地層、北東向斷裂構(gòu)造、中生代花崗巖缺一不可。93.1
地質(zhì)數(shù)據(jù)的分類●乘積數(shù)據(jù)(productdata):(乘積、協(xié)方差)提供隱蔽的信息,是綜合變量的特例。如:米克噸值=品位*厚度●偽變量(pseudovariable):為便于計(jì)算,人為附加一個(gè)數(shù)值。103.1
地質(zhì)數(shù)據(jù)的分類(4)經(jīng)驗(yàn)數(shù)據(jù)經(jīng)驗(yàn)數(shù)據(jù)是在研究地質(zhì)系統(tǒng)的變化規(guī)律時(shí),根據(jù)大量實(shí)際觀測值歸納出來的或根據(jù)經(jīng)驗(yàn)公式計(jì)算而得出的經(jīng)驗(yàn)值。
通常它們反映了一系列地質(zhì)因素對變化規(guī)律影響的總和。
有時(shí)經(jīng)驗(yàn)數(shù)據(jù)的地質(zhì)意義是十分明確的,但是具體的地質(zhì)影響因素及它們之間的相互關(guān)系卻是不確定或不清楚的。113.2
地質(zhì)數(shù)據(jù)的特點(diǎn)由于地質(zhì)系統(tǒng)、地質(zhì)條件和地質(zhì)作用復(fù)雜多變,地質(zhì)作用時(shí)間長短不一及各種技術(shù)測試手段存在著很大的差異等原因,造成了地質(zhì)數(shù)據(jù)自身具有許多特點(diǎn)。這些特點(diǎn)概括起來有下述幾個(gè)方面。123.2
地質(zhì)數(shù)據(jù)的特點(diǎn)(1)地質(zhì)數(shù)據(jù)的類型多、性質(zhì)不一,反映的地質(zhì)內(nèi)容十分廣泛,數(shù)據(jù)的多寡和數(shù)據(jù)的精度相差懸殊,量綱變化大,數(shù)據(jù)水平的高低亦不一樣。(2)地質(zhì)數(shù)據(jù)由于反映多種地質(zhì)作用迭加的結(jié)果而具有混合分布的特征。(3)目前仍以定量數(shù)據(jù)為主,定性數(shù)據(jù)的定量化研究和應(yīng)用尚處于開發(fā)階段。133.2
地質(zhì)數(shù)據(jù)的特點(diǎn)上述特點(diǎn)說明地質(zhì)數(shù)據(jù)不是屬于單一性質(zhì)數(shù)據(jù)的集合,而是屬于具有多種來源的復(fù)雜數(shù)據(jù)的集合。這些特點(diǎn)是客觀存在和不易改變的,因此在使用上要特別注意數(shù)據(jù)的適用性,即不同的使用目的應(yīng)選用不同的數(shù)據(jù)。
同時(shí)還要加強(qiáng)和改進(jìn)數(shù)據(jù)的加工和處理技術(shù),只有這樣才能有效地使用地質(zhì)數(shù)據(jù),使數(shù)學(xué)地質(zhì)的研究方法取得較好的地質(zhì)效果。143.3
變量的選擇(selectionofvariable)
如前所述,應(yīng)用數(shù)學(xué)地質(zhì)理論和方法解決地質(zhì)問題的基本途徑是通過對有關(guān)地質(zhì)變量的數(shù)學(xué)處理,建立所需的數(shù)學(xué)模型,揭示地質(zhì)體或地質(zhì)作用過程的數(shù)學(xué)特征。顯然,開展數(shù)學(xué)地質(zhì)研究的基本條件之一是必須有一組地質(zhì)變量。但是,自然界有許許多多,形形色色的地質(zhì)變量。沒必要更不可能全部用來進(jìn)行數(shù)學(xué)處理,而是需要從中選取一小部分來進(jìn)行數(shù)學(xué)地質(zhì)研究。問題背景:153.3
變量的選擇(selectionofvariable)
依據(jù)概念模型選取與之有密切聯(lián)系的因素(變量)變量應(yīng)具代表性(明確的物理意義)變量的對等原則與可比原則(控制區(qū)與研究區(qū)的對比性)變量的規(guī)模(尺度水平)與研究范圍相一致最大限度提取有用信息。3.3.1變量選擇的原則16斑巖型銅礦:斑巖體分布范圍之內(nèi),特殊的巖漿巖相、斷裂裂隙標(biāo)志、蝕變巖標(biāo)志、礦物組合標(biāo)志、地球化學(xué)標(biāo)志等。,特3.3
變量的選擇(selectionofvariable)
3.3.2變量選擇的思路原始數(shù)據(jù)模型是由變量及其觀測值構(gòu)成的矩陣,如下邊的m×n矩陣。樣1樣2……樣品nX11X12……X1nX21X22……X2n……………Xm1Xm2……Xmn變量12…m1718表1地質(zhì)圈閉數(shù)據(jù)編號閉合面積/102m2
閉合高度/m長短軸比埋藏深度/m110005001.5200022501501.022003100703.015004102002.018005401005.02500
X1X2X3X43.3
變量的選擇(selectionofvariable)
變量選擇的基本思路:對該矩陣的行進(jìn)行篩選、增補(bǔ)或組合,使之達(dá)到“變量結(jié)構(gòu)最優(yōu)化”。即在數(shù)學(xué)上減少空間維數(shù),使盡可能相互獨(dú)立的變量組成P(P<m)維空間的數(shù)據(jù)集,且對其信息損失不大,以最優(yōu)變量建立最佳數(shù)學(xué)模型,從而獲得最佳的研究效果。樣1樣2……樣品nX11X12……X1nX21X22……X2n……………Xm1Xm2……Xmn變量12…m193.3變量的選擇(selectionofvariable)
3.3.3變量的選擇方法地質(zhì)變量的選擇一般是在建立或明確具體研究對象的地質(zhì)概念模型的基礎(chǔ)上,通過解析幾何、數(shù)理統(tǒng)計(jì)等方法具體進(jìn)行選擇。這類方法很多,常用的有幾何作圖法、相關(guān)系數(shù)法、信息量計(jì)算法、秩和檢驗(yàn)法、統(tǒng)計(jì)推斷法、矢量長度分析法、數(shù)量化理論、變異序列法、回歸分析等。(1)幾何作圖法通過幾何作圖,直觀地顯示變量與研究對象,以及其它變量間的關(guān)系,并通過對這種關(guān)系的對比分析,來決定對變量的取舍。203.3變量的選擇(selectionofvariable)1)點(diǎn)聚圖法(scattergrammethod)
從已知含礦總體抽取m個(gè)樣品x1,x2,…,xm,從已知無礦總體抽取n個(gè)樣品y1,y2,…,yn。它們由p個(gè)地質(zhì)標(biāo)志來描述。用點(diǎn)聚圖法篩選和評價(jià)標(biāo)志時(shí),是把某地質(zhì)標(biāo)志看作空間中的一維數(shù)軸,把樣品看作該數(shù)軸上的點(diǎn),如果含礦樣品點(diǎn)的大部分集中分布在數(shù)軸的某個(gè)區(qū)間,而無礦樣品點(diǎn)的大部分集中分布在數(shù)軸的另一個(gè)區(qū)間,當(dāng)這種區(qū)分率高于75%時(shí),可以認(rèn)為該標(biāo)志對“含礦”和“無礦”具有較高的辯識能力,可選作參與預(yù)測的地質(zhì)標(biāo)志。213.3變量的選擇(selectionofvariable)2)雷達(dá)圖法(Radardiagrammethod)設(shè)有m個(gè)已知含礦樣品,n個(gè)已知無礦樣品,它們由p個(gè)地質(zhì)標(biāo)志來描述。用雷達(dá)圖法篩選標(biāo)志時(shí),以0為原點(diǎn),以適當(dāng)長度為半徑畫圓,將圓周p等分,連接圓心和等分點(diǎn)得p條成輻射狀的半徑,在等分點(diǎn)處注明地質(zhì)變量代碼。以這條半徑為坐標(biāo)軸,根據(jù)每個(gè)變量數(shù)值波動大小,在坐標(biāo)軸上刻度,將每個(gè)樣品各標(biāo)志值標(biāo)在坐標(biāo)軸上,連接成p邊形。分析對比兩類總體所構(gòu)成的多邊形形態(tài)及其關(guān)系,以發(fā)現(xiàn)具有鑒別能力的地質(zhì)標(biāo)志。223.3變量的選擇(selectionofvariable)
設(shè)有8個(gè)巖體,1、2、3、4為已知含礦巖體,5、6、7、8為已知無礦巖體,每個(gè)巖體取n個(gè)樣進(jìn)行化學(xué)分析,得每個(gè)巖體SiO2、TiO2、CaO、FeO、K2O化學(xué)成分?jǐn)?shù)據(jù)的平均值。
由圖可見,區(qū)分含礦和無礦的最好標(biāo)志是SiO2和FeO,其次是TiO2和CaO。但僅據(jù)TiO2有可能把含礦的3號巖體錯判為無礦,僅據(jù)CaO則可能把含礦的4號巖體錯判為無礦。若考慮組合標(biāo)志SiO2-TiO2-CaO-FeO,就有可能把1、2、3、4號巖體判為有礦,標(biāo)志K2O無區(qū)分能力,予以剔除。
233.3變量的選擇(selectionofvariable)
(2)相關(guān)系數(shù)法(correlationcoefficient)
1)簡單相關(guān)系數(shù):rxy=Sxy/SxSy
式中:Sxy為變量x,y的協(xié)方差
Sx,Sy為x,y各自的方差問題:如何選擇?243.3變量的選擇(selectionofvariable)(2)相關(guān)系數(shù)法(correlationcoefficient)
2)偏相關(guān)系數(shù)法:自變量與因變量之間相關(guān)性復(fù)雜,簡單的rxy不能充分說明x,y的關(guān)系,為此,必須在去掉其它變量影響的條件下計(jì)算兩個(gè)變量間的相關(guān)關(guān)系。設(shè)y與x1在去掉x2影響后的相關(guān)系數(shù)為rx1y,x2,則:式中rx1y,rx2y,rx1x2分別為x1與y,x2與y,x1與x2間的簡單相關(guān)系數(shù)。25實(shí)例:如表所示X1X2Y15710235831344412均值3.254.006.00標(biāo)準(zhǔn)差1.702.583.56①計(jì)算x1,x2及y的均值及標(biāo)準(zhǔn)差②計(jì)算簡單相關(guān)系數(shù)rx1x2=0.3779,rx1y=0.4276,rx2y=0.9901③計(jì)算偏相關(guān)系數(shù):26問題:如何選擇?3.3變量的選擇(selectionofvariable)(3)秩相關(guān)系數(shù)法所謂“秩”是把一個(gè)變量的實(shí)驗(yàn)觀測值按從小到大(或從大到?。┡判?,每一觀測值所占的位次稱為該數(shù)值的秩,用秩代替原始數(shù)值,求出兩個(gè)變量秩間的相關(guān)系數(shù),由于秩均為正整數(shù),計(jì)算方便。式中:di為i樣品變量1與變量2的秩之差,即d=x秩-y秩;
n為樣品數(shù)秩相關(guān)系數(shù)ρ為:27樣號PtAs樣號PtAs10.022.5100.06520.076110.7812.530.1371213.41840.022.5131.671450.7812.5141.971560.6511152.051670.022.5160.31884.6317170.39990.022.5180.49101)
Pt秩1、2、3、4均為2.5。因?yàn)樗鼈兊腜t含量均為0.02,故其秩(1+2+3+4)/4=2.52)
As秩2、3、4均為3。因?yàn)?、3、4的含量均為1,故其秩(2+3+4)/3=33)
As秩7、8、9、10、11均為9。因?yàn)?、8、9、10、11的含量均為3.5,故其秩為:
(7+8+9+10+11)/5=94)
ρ=1-6*156/(183-18)=0.84以上秩相關(guān)系數(shù)說明,Pt和As之間存在很強(qiáng)的相關(guān)性,若找礦,則后者是前者的良好指示元素。樣號PtAs秩差di=Pt秩-As秩di2含量序秩含量序秩10.0212.50.5111.52.2520.0222.51.023-0.50.2530.0232.51.033-0.50.2540.0242.53.579-6.542.2550.06553.589-41660.07662.0551170.13771.04341680.31883.599-1190.39992.56639100.4910106.01515.5-5.530.25110.6511113.510924120.781212.53.51193.512.25130.781312.54.51313-0.50.25141.6714146.01615.5-1.52.25151.9715154.0121239162.05161610.01717-11174.6317175.01414391813.4181811.0181800
Σdi=0Σdi2=156293.3變量的選擇(selectionofvariable)
(4)秩和檢驗(yàn)法(ranksumtest)
1)把已知兩總體的樣品混在一起,變量值從小到大排序并統(tǒng)計(jì)其秩;
2)求出樣品數(shù)較少的總體的秩之和T;
3)根據(jù)兩總體各自的樣品數(shù)n1,n2,給定α(如α=0.05),由秩和檢驗(yàn)表查出秩和上限T1和下限T2;
4)若T落在T1和T2之外,則認(rèn)為該變量在兩總體中差異顯著,可選做判別變量。303.3變量的選擇(selectionofvariable)實(shí)例:設(shè)從兩個(gè)巖體(A含礦,B無礦)分析了P個(gè)變量,其中X1變量在A、B兩巖體中的觀測值如表所示,問X1在區(qū)分A、B時(shí)的作用如何?A含礦14.714.814.915.6B無礦14.615.014.8
1)兩巖體混在一起并排序如表,統(tǒng)計(jì)其秩,其中14.8這個(gè)數(shù)A、B均有,它們的秩為相應(yīng)的兩個(gè)秩的平均,即:(3+4)/2=3.531序號1234567秩123.53.5567A含礦14.714.814.915.6B無礦14.614.815.03.3變量的選擇(selectionofvariable)2)求出樣數(shù)較少的總體的秩和T:T=1+3.5+6=10.53)根據(jù)兩總體各自的樣品數(shù)N1=3,N2=4,在а=0.05下查秩和檢驗(yàn)表的T1=7(秩上限),T2=17(秩下限)。
4)在本例中T1<T<T2(7<10.5<17),說明差異不明顯,X1在判別兩巖體時(shí)的作用不大。N1N2а=0.025а=0.05T1T2T1T224…10…
…4
…
…223
…511…213345……66……1821…677…151720…323.3變量的選擇(selectionofvariable)
(5)特征向量長度分析法(vectorlengthanalysismethod)
用于選擇二態(tài)變量,其方法和原理如下:1)把n個(gè)已知巖體(礦床)視做n維空間礦床2)每一個(gè)變量(P個(gè))視為n維空間中的一個(gè)向量(a11,a12,…),這n個(gè)礦床的P個(gè)變量構(gòu)成p×n矩陣A,其中aji為1或0,可理解為該礦床有該變量(特征)時(shí)為1,否則為0。
333.3變量的選擇(selectionofvariable)
(5)特征向量長度分析法(vectorlengthanalysismethod)
3)每一行為一特征向量,向量長為各元素平方和的平方根:
其中,i=1,2,…,n代表樣品,j=1,2,…,p代表變量;共P個(gè)向量長,Lj越大,說明該變量與其特征越密切4)計(jì)算邏輯向量長:為了既考慮某變量出現(xiàn)對成礦的意義,又考慮該變量與其它每一變量同時(shí)兩兩出現(xiàn)時(shí)的成礦意義,從而引入另一矩陣:B=A╳A′(A′為A的轉(zhuǎn)置陣),這時(shí),邏輯向量長為:
343.3變量的選擇(selectionofvariable)(5)特征向量長度分析法(vectorlengthanalysismethod)實(shí)例:設(shè)有a、b、c、d4個(gè)SK型鐵礦床,選取了灰?guī)r、閃長巖、構(gòu)造三個(gè)變量來研究,問:這三個(gè)變量中哪一個(gè)與SK型鐵礦床關(guān)系密切,可成為找礦有利特征?2)列出B陣:1)先列出A陣:353.3變量的選擇(selectionofvariable)
(5)特征向量長度分析法(vectorlengthanalysismethod)
3)計(jì)算特征向量長:
L灰=(32+22+12)1/2=3.74L閃=(23+32+12)1/2=3.74L構(gòu)=(12+12+22)1/2=2.254)按向量長大小排序,根據(jù)截止點(diǎn)選出有利變量。
363.3變量的選擇(selectionofvariable)(6)相關(guān)頻數(shù)比值法(Correlationfrequencyratiomethod)選擇變量的目的是:從大量可作為預(yù)報(bào)的變量中選出與預(yù)報(bào)目的較相關(guān)的,而且變量獨(dú)立性強(qiáng)的(互相關(guān)性差的)的若干較好的變量組成數(shù)學(xué)模型,使預(yù)報(bào)效果更好。其基本方法如下:
1)設(shè)預(yù)報(bào)量y(如1為有礦,0為無礦)與某變量xi之間相關(guān)程度的定量指標(biāo)用ni/N來表示(N可理解為樣本大小,ni為用xi報(bào)對的頻數(shù)),ni大表示xi與y相關(guān)好,反之,相關(guān)性差。373.3變量的選擇(selectionofvariable)(6)相關(guān)頻數(shù)比值法(Correlationfrequencyratiomethod)
2)各變量之間的相關(guān)系數(shù)(xi,xj之間)也可用相關(guān)頻數(shù)表示。
a)
xi報(bào)對,其它變量報(bào)錯,表示xi對于其它變量獨(dú)立性好;
b)
xi報(bào)對,其它變量也報(bào)對,表示xi對于其它變量獨(dú)立性差;
c)
令ni′為變量間的相關(guān)頻數(shù),即:xi報(bào)錯了,樣本中若干個(gè)變量也重復(fù)報(bào)錯的總頻數(shù)(注意:ni′中不包括xi自己),ni′表示變量間獨(dú)立性好壞。
這樣,ni′大表示變量xi獨(dú)立性差,ni′小表示變量xi獨(dú)立性好;383.3變量的選擇(selectionofvariable)(6)相關(guān)頻數(shù)比值法(Correlationfrequencyratiomethod)d)綜合考慮某個(gè)變量xi與y的相關(guān)性及與其它變量的獨(dú)立性,構(gòu)造一個(gè)綜合因子:相關(guān)頻數(shù)比:mi=ni/(ni′+1)
mi可作為判斷變量xi好壞的定量指標(biāo),mi大表示變量xi與預(yù)報(bào)量y相關(guān)好,而與其它變量相關(guān)性差,因而可用來預(yù)報(bào)y。e)計(jì)算各變量的mi后,將mi最小的變量去掉,計(jì)算其余變量的mi,依次進(jìn)行,最后剩余的變量即為最優(yōu)者。39實(shí)例:某地有10個(gè)巖體,其中5個(gè)含礦,5個(gè)不含礦,現(xiàn)有x1,…,x7等7個(gè)變量,問哪些變量在評價(jià)巖體含礦性方面較好?
巖體號預(yù)報(bào)量y自變量(預(yù)報(bào)變量)X1X2X3X4X5X6X71111010112111110013110001104101111015110111106001001007000101008000110109001001111001001001ni
8667566ni’
3877779mi
20.660.750.870.620.750.6040從計(jì)算表可知:(1)n1=8,n5=5,x1最好(2)n1′=3,n7′=9,x1最好(3)m1=2.0,m7=0.60,x1最好(4)x1最優(yōu),去掉x7
(5)再計(jì)算其余6個(gè)變量的mi
(6)依次下去。413.4變量的取值(1)定量變量定量變量的具體數(shù)值是通過各種實(shí)際的測量、計(jì)數(shù)和分析測試等手段取得的,對這些數(shù)據(jù)進(jìn)行變量的變換后即可進(jìn)行任何的地質(zhì)統(tǒng)計(jì)分析。
(2)定性變量一般用于表示名義型數(shù)據(jù),只能起鑒別作用,最多能參加某些邏輯運(yùn)算。這在進(jìn)行進(jìn)一步的地質(zhì)統(tǒng)計(jì)分析時(shí)往往是不夠的,必須結(jié)合地質(zhì)變量的特點(diǎn),對其進(jìn)行合理的賦值,然后采用與定量變量類似的方法對其進(jìn)行分析。423.4變量的取值(3)定性變量的賦值方法
1)按1,0兩種數(shù)值賦值在數(shù)量化理論中,把定性變量稱作“項(xiàng)目”,把變量的不同取“值”或狀態(tài)稱作“類目”。稱作項(xiàng)目j的類目k在i樣品中的反應(yīng)。適用于二態(tài)變量,經(jīng)此賦值后,可進(jìn)行類似于多元統(tǒng)計(jì)分析方法中的回歸分析、判別分析、因子分析、對應(yīng)分析等方法的數(shù)學(xué)計(jì)算。43否則時(shí)的定性數(shù)值為類目樣品中項(xiàng)目當(dāng)kjikjxi?íì=01),(3.4變量的取值(3)定性變量的賦值方法
2)按有序型數(shù)據(jù)的方式賦值變量的不同取值或狀態(tài)對某個(gè)地質(zhì)作用過程具有不同的指示作用時(shí),可以根據(jù)指示作用從大到小按自然數(shù)順序?qū)ζ滟x值。
例如:黃鐵礦———晶形———金礦化—賦值五角十二面體——大———3
八面體———次之——2
六面體———小———1443.4變量的取值(3)定性變量的賦值方法
2)按有序型數(shù)據(jù)的方式賦值45又如泥巖的顏色可分為4級,按生油能力強(qiáng)弱順序賦值如下:四態(tài)定性數(shù)據(jù)狀態(tài)紅色淺灰色灰色黑色賦值013
53.4變量的取值(3)定性變量的賦值方法
3)按統(tǒng)計(jì)計(jì)算結(jié)果賦值根據(jù)地質(zhì)變量在特定空間、時(shí)間范圍內(nèi)“表現(xiàn)”的統(tǒng)計(jì)結(jié)果,預(yù)測該變量與特定地質(zhì)事件的關(guān)系。46成礦構(gòu)造區(qū)資源總量對比得分單位面積資源總量對比得分礦床規(guī)模對比得分相對含礦性(概率P)A6260.5833B5550.625C7880.9583D4640.5833E3330.375F8770.9167G2420.3333H1110.1253.5變量的變換
不同的數(shù)學(xué)模型對數(shù)據(jù)的要求不同。例如:判別分析要求正態(tài)分布,回歸分析要求自變量、因變量線性相關(guān),聚類分析要求變量相互獨(dú)立,數(shù)據(jù)量綱一致。
因此,對數(shù)據(jù)必須按需要進(jìn)行變換,其目的大致如下:
1)使盡可能呈正態(tài)分布;
2)統(tǒng)一數(shù)據(jù)的量綱;
3)使變量間的非線性轉(zhuǎn)換為線性相關(guān);
4)用一組較少的新變量(且相互獨(dú)立)代替原來的變量。數(shù)據(jù)變化必須遵守的原則:1)損失最少的信息;2)不破壞數(shù)據(jù)與母體間的相互關(guān)系。
473.5變量的變換(1)正態(tài)變換對數(shù)變換:xij′=lg(xij+c)
反正弦變換:反余弦變換:平方根變換:
xij′=(xij+c)1/2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球技術(shù)服務(wù)合同范例
- 2025年航空、航天設(shè)備相關(guān)專用設(shè)備項(xiàng)目提案報(bào)告模式
- 2025年國際會議服務(wù)提供商合同標(biāo)準(zhǔn)
- 2025年度公司股權(quán)策劃內(nèi)部轉(zhuǎn)讓協(xié)議
- 2025年宅基地共建住宅合同樣本
- 2025年人保租賃合同格式
- 2025年不銹鋼管材訂購合同樣本
- 2025年個(gè)人購置家居設(shè)施合同范文
- 2025年化學(xué)品倉庫消防隔離帶鋪設(shè)工程承包協(xié)議
- 2025年圖書策劃保密合同
- 桂花-作文ppt-PPT課件(共14張)
- 高一數(shù)學(xué)概率部分知識點(diǎn)總結(jié)及典型例題解析 新課標(biāo) 人教版 必修
- 【課件】Unit1ReadingforWriting課件高中英語人教版(2019)必修第二冊
- 滴灌工程設(shè)計(jì)示例
- 鐵路運(yùn)費(fèi)計(jì)算方法
- 《小腦梗死護(hù)理查房》
- 免疫及炎癥相關(guān)信號通路
- 醫(yī)院室外管網(wǎng)景觀綠化施工組織設(shè)計(jì)
- 某風(fēng)電場設(shè)備材料設(shè)備清單
- —橋梁專業(yè)施工圖設(shè)計(jì)審查要(終)
- 德龍自卸車合格證掃描件(原圖)
評論
0/150
提交評論