版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章地質(zhì)變量與地質(zhì)數(shù)據(jù)§3地質(zhì)變量§1地質(zhì)數(shù)據(jù)§2地質(zhì)數(shù)據(jù)的預(yù)處理1§1地質(zhì)數(shù)據(jù)一、地質(zhì)數(shù)據(jù)的概念
地質(zhì)實體:是指客觀存在并可以相互區(qū)別的地質(zhì)體、地質(zhì)現(xiàn)象或地質(zhì)作用等,如一個巖體、一個化石、龜裂現(xiàn)象、風(fēng)化作用、地質(zhì)運動等。
地質(zhì)信息:地質(zhì)實體特性在人頭腦中的反映,可以進(jìn)行交流和處理。
地質(zhì)數(shù)據(jù):是表示地質(zhì)信息的數(shù)、字母和符號的集合。它是用來表示地質(zhì)客觀事實這一地質(zhì)信息的。從廣義角度來看,地質(zhì)數(shù)據(jù)可以是定量、定性數(shù)據(jù),也可以是文字說明,甚至是地質(zhì)圖形。從狹義角度來看,地質(zhì)數(shù)據(jù)主要是指定量的和定性的地質(zhì)數(shù)據(jù)。2
地質(zhì)數(shù)據(jù)是表示地質(zhì)信息的,地質(zhì)信息是反映地質(zhì)實體特性的。地質(zhì)實體地質(zhì)信息地質(zhì)數(shù)據(jù)
狹義上地質(zhì)數(shù)據(jù)分為定量和定性數(shù)據(jù),廣義上分為定量、定性、圖形及其它形式紀(jì)錄的資料等。據(jù)地質(zhì)數(shù)據(jù)的來源,又把地質(zhì)數(shù)據(jù)分為觀測、綜合、經(jīng)驗數(shù)據(jù)三類。二、地質(zhì)數(shù)據(jù)的分類3
指對樣品用物理、化學(xué)或直接觀測的方法獲得的表達(dá)樣品特性的數(shù)據(jù)。對于源于樣品、沒有經(jīng)過任何加工處理的數(shù)據(jù)稱為原始數(shù)據(jù)。依據(jù)觀測數(shù)據(jù)的性質(zhì),又可分為定性、定量數(shù)據(jù)兩類。
它是用符號或代碼表示的沒有數(shù)量概念的觀測數(shù)據(jù)。又分為名義型和有序型兩類:名義型數(shù)據(jù)是沒有數(shù)量概念和次序之分,但彼此之間有“相等”或“不相等”關(guān)系的定性數(shù)據(jù)。如巖石的紅綠灰黃可用字母ABCD表示,又如砂巖、泥巖、灰?guī)r可用S、N、H代替,有A=A,A≠B,S=S,S≠N的含義。1.觀測數(shù)據(jù)(1)定性數(shù)據(jù)4
有序型數(shù)據(jù)是沒有數(shù)量概念,但彼此之間具有次序關(guān)系的定性數(shù)據(jù)。如Ⅰ、Ⅱ、Ⅲ型干酪根可用數(shù)字1、2、3表示,具有Ⅰ型干酪根生烴潛力優(yōu)于Ⅱ型干酪根的含義。
定量數(shù)據(jù)是指用數(shù)值來描述的觀測數(shù)據(jù)。包括間隔型數(shù)據(jù)和比例型數(shù)據(jù)。(2)定量數(shù)據(jù)
間隔型數(shù)據(jù)是有明確數(shù)量概念和地質(zhì)含義的定量數(shù)據(jù)。如地層分層數(shù)據(jù)是典型的間隔型數(shù)據(jù)。間隔型數(shù)據(jù)有相等、不等以及大于、小于關(guān)系。數(shù)據(jù)之間的差異具有實際的地質(zhì)意義。如某地層底界和頂界分層深度值之差等于該地層的厚度。5
比例型數(shù)據(jù)是指定量數(shù)據(jù)的比值。比例型數(shù)據(jù)本身及其差值都有實際意義。比例型數(shù)據(jù)是大于等于0的實數(shù)。如兩地層厚度的比值反映其中一個地層厚度是另一個地層厚度的百分之幾,或反映某種沉積環(huán)境,或反映生油條件等。
由定量數(shù)據(jù)(或經(jīng)定量化后的定性數(shù)據(jù))經(jīng)有限次算術(shù)運算后得到的定量數(shù)據(jù)。它具有明顯的地質(zhì)意義,例如總烴含量、時間—溫度指數(shù)、生油巖厚度與沉積巖厚度的比等。另外,隨機(jī)變量的各種數(shù)值特征,如平均值、標(biāo)準(zhǔn)差、極差、相關(guān)系數(shù)等都可視為綜合數(shù)據(jù)。2.綜合數(shù)據(jù)6
經(jīng)驗數(shù)據(jù)是在研究地質(zhì)現(xiàn)象和規(guī)律的基礎(chǔ)上,根據(jù)大量實際資料和經(jīng)驗總結(jié)歸納出的數(shù)據(jù)。如單儲系數(shù)、排烴系數(shù)、聚集系數(shù)等。它是大量地質(zhì)信息的綜合反映,地質(zhì)意義明確,但它受哪些主控因素的影響,以及和各因素間的作用關(guān)系等問題不夠清楚。另外,經(jīng)驗數(shù)據(jù)還具有較明顯的地域性。因此,在油氣資源評價等工作中使用經(jīng)驗數(shù)據(jù)時,要特別注意對比地質(zhì)條件的相似性。3.經(jīng)驗數(shù)據(jù)7因地質(zhì)系統(tǒng)復(fù)雜性及測試手段的差異等因素影響,地質(zhì)數(shù)據(jù)有如下主要特點:
三、地質(zhì)數(shù)據(jù)的主要特點
(1)地質(zhì)數(shù)據(jù)類型多,性質(zhì)不一,反映地質(zhì)內(nèi)容豐富;量綱不統(tǒng)一,定量數(shù)據(jù)的數(shù)量級相差很大,各類數(shù)據(jù)的數(shù)量和精度相差懸殊。
(2)地質(zhì)數(shù)據(jù)往往是多種地質(zhì)因素綜合作用的結(jié)果,故具有混合分布特征。
(3)地質(zhì)數(shù)據(jù)以定量數(shù)據(jù)為主,而定性數(shù)據(jù)的定量化研究和應(yīng)用目前尚不成熟。8地質(zhì)數(shù)據(jù)的特點決定了地質(zhì)數(shù)據(jù)不是單一性質(zhì)的數(shù)據(jù)集合,而是多種來源的混合數(shù)據(jù)集合,這一特點客觀存在且不易改變。使用地質(zhì)數(shù)據(jù)時,要注意它們的適用性,同時還要研究和改進(jìn)數(shù)據(jù)加工和處理技術(shù),發(fā)揮各種地質(zhì)數(shù)據(jù)的作用,才能使地質(zhì)定量研究獲得良好效果。
四、地質(zhì)數(shù)據(jù)的誤差觀測值與真實值之間的差異稱為誤差,誤差與真實值之比稱為相對誤差。地質(zhì)數(shù)據(jù)的誤差包括三種類型:9
隨機(jī)誤差:是指觀測或測量過程不可控的、無規(guī)律的偶然因素引起的非系統(tǒng)性偶然誤差。這種誤差的特點是各向異性,一般服從均值為零的正態(tài)分布,當(dāng)觀測次數(shù)增加時,誤差均值趨于0。
系統(tǒng)誤差:是指由觀測系統(tǒng)本身所引起的服從某一確定規(guī)律的誤差。這類誤差的特點是往往造成觀測數(shù)據(jù)整體上偏大或偏小,具有系統(tǒng)單方向特征,可以通過數(shù)據(jù)標(biāo)準(zhǔn)化等手段校正觀測數(shù)據(jù),減低系統(tǒng)誤差。
過失誤差:是指在數(shù)據(jù)觀測和數(shù)據(jù)整理過程中,受各種干擾和粗心疏忽等因素的影響所產(chǎn)生的誤差。這類誤差的特點是與真實值偏離較大,可能向不同方向偏差,導(dǎo)致地質(zhì)數(shù)據(jù)失真,必須去偽存真、將其檢查剔除。10
五.數(shù)據(jù)矩陣假設(shè)有個n樣品,每個樣品有個m變量,為便于數(shù)據(jù)處理,那么常把樣品變量的觀測值記為如下數(shù)據(jù)矩陣:
X1
X2…Xm
其中xij是第i個樣品第j個變量的觀測值。11由于數(shù)學(xué)習(xí)慣的不同,也可能用每列表示一個樣品,每行表示一個地質(zhì)變量的多個觀測值。這樣,上述數(shù)據(jù)矩陣成為下列形式:
其中xij是第j個樣品第i個變量的觀測值。12
表1地質(zhì)圈閉數(shù)據(jù)編號閉合面積/102m2
閉合高度/m長短軸比埋藏深度/m110005001.5200022501501.022003100703.015004102002.018005401005.02500
X1X2X3X4(2-1)例:地質(zhì)圈閉數(shù)據(jù)矩陣13是對變量的觀測值進(jìn)行的標(biāo)準(zhǔn)化。主要目的:消除量綱造成的數(shù)量級差異?!?地質(zhì)數(shù)據(jù)的預(yù)處理
一、定量數(shù)據(jù)的標(biāo)準(zhǔn)化(統(tǒng)一量綱的數(shù)據(jù)變換)
方法:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、極差標(biāo)準(zhǔn)化、極差正規(guī)化、總和標(biāo)準(zhǔn)化、最大值標(biāo)準(zhǔn)化、模標(biāo)準(zhǔn)化和中心標(biāo)準(zhǔn)化等。常用方法有標(biāo)準(zhǔn)差和極差標(biāo)準(zhǔn)化、極差正規(guī)化等7種方法。
指在定量研究地質(zhì)問題時,預(yù)先對原始數(shù)據(jù)進(jìn)行的各種處理。其主要內(nèi)容為定量數(shù)據(jù)的標(biāo)準(zhǔn)化、定性數(shù)據(jù)的定量化、原始數(shù)據(jù)的網(wǎng)格化、原始數(shù)據(jù)的簡縮和增補、離群(異常)數(shù)據(jù)的識別與剔除等。14
X1X2
…
X
m1.標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化
變量xj的每個觀測值xij減去該變量觀測值的平均值,再除以觀測值的標(biāo)準(zhǔn)差sj。即矩陣X第j列上的每個元素減去該列元素的平均值,再除以第j列元素的標(biāo)準(zhǔn)差,變換公式為:15第j個變量觀測值的平均值,即標(biāo)準(zhǔn)化前的數(shù)據(jù)(原始數(shù)據(jù))標(biāo)準(zhǔn)化后的數(shù)據(jù)(無量綱數(shù)據(jù))第j個變量觀測值的標(biāo)準(zhǔn)差,即標(biāo)準(zhǔn)化是對每一列進(jìn)行的。16變量Xj’叫做標(biāo)準(zhǔn)化變量。對式(2-1)中數(shù)據(jù)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,得新的數(shù)據(jù)矩陣:標(biāo)準(zhǔn)化后數(shù)據(jù)的特點:平均值為0,標(biāo)準(zhǔn)差為1,又稱Xj’為規(guī)格化變量。17
極差標(biāo)準(zhǔn)化是變量Xj的每個觀測值Xij減去該變量觀測值的平均值,再除以極差△Xj
,即:
2.極差標(biāo)準(zhǔn)化
極差—變量觀測值的最大值與最小值之差,
即:原始觀測值觀測值的平均值觀測值的極差18
對式(2-1)中的數(shù)據(jù)極差標(biāo)準(zhǔn)化后,得新的數(shù)據(jù)矩陣(各列極差等于1):特點:各列的極差為119
變量的每個觀測值減去觀測值的最小值,再除以極差。變換公式為:
極差正規(guī)化后新數(shù)據(jù)的特點是:最大值為1,最小值為0,即新數(shù)據(jù)分布在區(qū)間[0,1]內(nèi)。
3.極差正規(guī)化
對式(2-1)中的數(shù)據(jù)極差正規(guī)化后,得新的數(shù)據(jù)矩陣:),,2,1;,,2,1(/)min(1mjnixxxxjjinijijiLL==D-=¢££20
4.總和標(biāo)準(zhǔn)化變量的每個觀測值變換為它與該項變量所有觀測值總和的比值。變換公式為:
(i=1,2,…,n;j=1,2,…,m)第j個變量觀測值總和
21數(shù)據(jù)總和標(biāo)準(zhǔn)化之后的數(shù)據(jù)矩陣特點:原始觀測數(shù)據(jù)矩陣中的元素經(jīng)過變換后,數(shù)據(jù)矩陣的元素值在[0,1]之間,且每個變量的所有觀測值之和等于1。22
5.最大值標(biāo)準(zhǔn)化每個變量的觀測值除以該變量所有觀測值中的最大者。變換公式為:
(i=1,2,…,n;j=1,2,…,m)第j個變量觀測值中最大值特點:變換后每個變量最大值為1數(shù)據(jù)最大值標(biāo)準(zhǔn)化之后的數(shù)據(jù)矩陣23
6.中心標(biāo)準(zhǔn)化變量的每個原始觀測值減去該變量所有原始觀測值的平均值。變換公式為:
(i=1,2,…,n;j=1,2,…,m)特點:變換后每個變量所有觀測值的平均值等于0,即總和為0
數(shù)據(jù)中心標(biāo)準(zhǔn)化之后的數(shù)據(jù)矩陣24
7.模標(biāo)準(zhǔn)化將每個變量的觀測值視為n維空間上的向量,則模標(biāo)準(zhǔn)化是將每個變量的觀測值除以該變量的模
。變換公式為:
(i=1,2,…,n;j=1,2,…,m)第j個變量的模(j=1,2,…,m)
25定性數(shù)據(jù)的定量化是指將定性數(shù)據(jù)變換為數(shù)值形式。根據(jù)定性數(shù)據(jù)狀態(tài)的多少,可分為兩態(tài)和多態(tài)有序定性數(shù)據(jù)。定量化方法:對定性數(shù)據(jù)的狀態(tài)賦值。二、定性數(shù)據(jù)的定量化模標(biāo)準(zhǔn)化后為:特點:變換后,每個變量的平方和(模)等于126只有兩種狀態(tài),非此即彼,可用0和1表示,從而實現(xiàn)定性數(shù)據(jù)的定量化。如某觀測點是否有某種化石,若有用1表示,若無用0代表。一般來說,按以下原則處理:二態(tài)定性數(shù)據(jù)狀態(tài)肯定或有利否定或不利賦值10
有序多態(tài)定性數(shù)據(jù)是指狀態(tài)多于兩個,且狀態(tài)可按一定次序排列的定性數(shù)據(jù)。如巖心的含油性,按含油程度可分為4級,采用等差方式賦值如下:
1.兩態(tài)定性數(shù)據(jù)的變換2.多態(tài)有序定性數(shù)據(jù)的變換27又如泥巖的顏色可分為4級,按生油能力強(qiáng)弱順序賦值如下:這種賦值就采用了非等差方式,原則是按狀態(tài)的重要性對狀態(tài)賦值。具有一定的人為因素。四態(tài)定性數(shù)據(jù)狀態(tài)紅色淺灰色灰色黑色賦值0135四態(tài)定性數(shù)據(jù)狀態(tài)不含油油斑含油飽含油賦值012328原始數(shù)據(jù)的網(wǎng)格化:把平面上無規(guī)則分布的數(shù)據(jù)點Mi(xi,yi,zi)上的值分配到規(guī)則矩形網(wǎng)格交點上(如下圖所示),產(chǎn)生規(guī)則分布的定量數(shù)據(jù)。這是計算機(jī)繪制等值圖線圖必須要做的工作。三、原始數(shù)據(jù)的網(wǎng)格化無規(guī)則分布的數(shù)據(jù)點規(guī)則分布的網(wǎng)格數(shù)據(jù)點29產(chǎn)生網(wǎng)格化數(shù)據(jù)的簡單思路:取平均值
在實際中,已知的各點數(shù)據(jù)對插值點的影響不一,距插值點近的數(shù)據(jù)點對被插值點影響應(yīng)該更大。(-1,1,1)(-1,-1,1)(1,1,1)(1,-1,1)(0,0,1)網(wǎng)格交點(-1,1,3)(-1,-1,1)(1,1,2)(1,-1,1)(0,0,1.75)網(wǎng)格交點理想情況下的插值示意圖30可以采用不同的插值方法實現(xiàn)數(shù)據(jù)的網(wǎng)格化。在此僅介紹既簡單實用的按象限取點距離倒數(shù)加權(quán)平均法如下:各點到坐標(biāo)原點(xi,yi)的距離記為:考慮到距離大小對網(wǎng)格點上預(yù)測值的影響,故取距離的倒數(shù)作為權(quán),求網(wǎng)格交點(xi,yi)的預(yù)測值。以插值點(xi,yi)為坐標(biāo)原點,在四個象限內(nèi)各取一個距坐標(biāo)原點最近的點,記為:(xk,yk)(k=1,2,3,4)k=1,2,3,4(xi,yi)31在上式中,當(dāng)出現(xiàn)dk=0時,則以zk作為網(wǎng)格點(xi
,yi
)上的值。
例1已知數(shù)據(jù)
M1(5.707,4.707,1),M2(3.586,5.414,2),M3(2.879,1.879,3)
M4(7.828,1.172,4),插值點為M(5,4,z)解:①各點到插值點的距離:(2-2)32②式(2-2)的分母:③式(2-2)的分子:④插值點的Z值:(1)(2)(3)(4)(1.92)插值示意圖33
1.原始數(shù)據(jù)的簡縮當(dāng)分布在研究區(qū)上的數(shù)據(jù)點很多(可能出現(xiàn)反映相同地質(zhì)特征的多個近似數(shù)據(jù)點)時,或者是數(shù)據(jù)在區(qū)域上的分布極不均勻時,不僅會使計算量增加,而且也無助于最終的成果解釋,甚至在計算過程中還會出現(xiàn)不可預(yù)料的計算病態(tài)問題。因此,就需要對作用不大或相近、可有可無的多余數(shù)據(jù)予以舍棄,這就是數(shù)據(jù)的簡縮。四、原始數(shù)據(jù)的簡縮和增補
數(shù)據(jù)的簡縮方法一般包括分區(qū)加權(quán)平均法、分區(qū)滑動平均法和隨機(jī)刪點法。34
(1)分區(qū)加權(quán)平均法設(shè)研究區(qū)內(nèi)每個數(shù)據(jù)點都有m個變量,根據(jù)需要將該區(qū)劃分成大小相等或不等的n個小區(qū)域,每個小區(qū)域內(nèi)至少有一個數(shù)據(jù)點。定義第j個小區(qū)域內(nèi)第i個數(shù)據(jù)點上第k個變量的觀測值為:則第j個小區(qū)內(nèi)第k個地質(zhì)變量觀測值的縮簡值為:zjk-第j個小區(qū)第k個變量觀測值的簡縮值;
nj
-第j個小區(qū)地質(zhì)數(shù)據(jù)點數(shù);
zjki-第j個小區(qū)第i個數(shù)據(jù)點第k個變量的觀測值。35原始數(shù)據(jù)點簡縮后的數(shù)據(jù)點①②③④⑤⑥⑦⑧⑨⑩36按照上式對研究區(qū)內(nèi)原始數(shù)據(jù)進(jìn)行處理后,相當(dāng)于在每個小區(qū)內(nèi)有1個有效數(shù)據(jù)點,從而將原來大量的數(shù)據(jù)點簡化為n個有效數(shù)據(jù)點。若第j個小區(qū)域內(nèi)有nj個數(shù)據(jù)點,每個數(shù)據(jù)點上有m個地質(zhì)變量的觀測值,其中第i個數(shù)據(jù)點的坐標(biāo)為(xjki,yjki),那么第j個小區(qū)簡縮后的有效數(shù)據(jù)點的坐標(biāo)值及變量值為:(2)分區(qū)滑動平均法分區(qū)滑動平均法的分區(qū)原則與分區(qū)加權(quán)平均法相同,但這種方法要考慮簡縮后數(shù)據(jù)點的位置。37j=(1,2,…,n;k=1,2,…,m)38
xjk、yjk為第j個小區(qū)第k個地質(zhì)變量觀測值縮簡后的橫坐標(biāo)和縱坐標(biāo);
zjk為第j個小區(qū)第k個地質(zhì)變量的縮簡值;
xjki、yjki為第j個小區(qū)第k個地質(zhì)變量觀測值在第i個數(shù)據(jù)點的橫坐標(biāo)與縱坐標(biāo);
zjki為第j個小區(qū)第i個數(shù)點上第k個地質(zhì)變量觀測值;
nj為第j個小區(qū)內(nèi)數(shù)據(jù)點數(shù)。按上述公式算出的坐標(biāo)有m個,如果需要一個統(tǒng)一的坐標(biāo)點,則可根據(jù)地質(zhì)變量觀測值的大小,采用加權(quán)平均的方法算出。另外,根據(jù)實際需要也可用其它方法計算。39
(3)隨機(jī)刪點對于探區(qū)內(nèi)的局部數(shù)據(jù)點密集區(qū),隨機(jī)刪去一些數(shù)據(jù)點,既可減少計算工作量,又可提高計算過程的穩(wěn)定性。刪點方法是對數(shù)據(jù)點編號,用隨機(jī)抽樣法刪去其中的一些數(shù)據(jù)點。
2.數(shù)據(jù)的增補研究區(qū)內(nèi)出現(xiàn)數(shù)據(jù)點空白區(qū)時,在空白區(qū)內(nèi)補充一些數(shù)據(jù)點,這就是數(shù)據(jù)的增補。補點方法:①據(jù)臨近點數(shù)據(jù)的變化趨勢補充適量的數(shù)據(jù)點;②用插值方法補充一定數(shù)量的數(shù)據(jù)點。
注意:補點的目的是為了全區(qū)計算的穩(wěn)定性,而原空白區(qū)的計算結(jié)果僅供參考。40五、離群數(shù)據(jù)的識別與處理相對研究區(qū)的觀測數(shù)據(jù)來說,稱局部的異常高值和異常低值為離群數(shù)據(jù)(失真數(shù)據(jù))。這種數(shù)據(jù)往往直接影響到基于觀測數(shù)據(jù)的數(shù)據(jù)處理過程和對計算結(jié)果的合理解釋。對這些數(shù)據(jù)應(yīng)該進(jìn)行適當(dāng)處理。對于那些人為等因素造成的錯誤數(shù)據(jù),理所當(dāng)然應(yīng)該刪除或重新觀測。實際上,我們總是假設(shè)數(shù)據(jù)總體服從某種分布,進(jìn)而討論是否存在失真數(shù)據(jù)的問題。涉及一些統(tǒng)計假設(shè)檢驗內(nèi)容41離群數(shù)據(jù)的識別和處理的主要目的:
降低失真數(shù)據(jù)對處理結(jié)果的影響。離群數(shù)據(jù)識別和處理的主要步驟:判斷數(shù)據(jù)體中是否存在失真數(shù)據(jù)(分布檢驗)挑選出失真數(shù)據(jù)處理失真數(shù)據(jù)。42(一)離群數(shù)據(jù)的判定1.類比法以實際工作經(jīng)驗確定一個離群數(shù)據(jù)的界限,以此判定是否存在離群數(shù)據(jù)。B.N.斯米爾諾夫根據(jù)實際經(jīng)驗,總結(jié)出一個確定礦床品位離群數(shù)據(jù)的界限。礦床品位離群數(shù)據(jù)的界限礦床類型組份分布性質(zhì)典型礦床離群品位高出平均品位的倍數(shù)Ⅰ很均勻大多數(shù)沉積礦床2~3Ⅱ均勻復(fù)雜沉積礦床與變質(zhì)礦床4~5Ⅲ不均勻絕大多數(shù)有色金屬礦床8~10Ⅳ很不均勻大多數(shù)稀有金屬礦床和金礦床12~15Ⅴ極不均勻某些稀有金屬礦床和金礦床>15432.計算法利用一個經(jīng)驗公式確定離群數(shù)據(jù)的界限。H.B.沃洛多莫夫給出了下面的公式,通道計算來確定離群數(shù)據(jù)的界限。ch-正常數(shù)據(jù)的最高值c1-校正前(包括離群數(shù)據(jù))的樣品平均值c2-校正后(不包括離群數(shù)據(jù))的樣品平均值n-包括離群數(shù)據(jù)在內(nèi)的樣品總數(shù)在實際計算時,令M=20%~30%,由上式可計算出離群數(shù)據(jù)的界限值。443.統(tǒng)計檢驗法(1)肖維納(Chavent)檢驗法求所有數(shù)據(jù)的均值;求所有數(shù)據(jù)的標(biāo)準(zhǔn)差σ;求每次觀測的概率誤差Q;計算可疑數(shù)據(jù)與平均值的偏差D和D/Q;比較D/Q和D’/Q’的大小,若D/Q>D’/Q’,則舍去這一觀測值。n510152050100D’/Q’2.52.93.23.33.84.2觀測次數(shù)與對應(yīng)偏差/概率誤差表45C%
1.17
1.15
1.16
1.60
1.19例:某生油巖測定其有機(jī)碳含量的數(shù)值如右:D
0.084
0.104
0.094
0.346
0.064D2
0.0071
0.0108
0.0088
0.1197
0.0410D1.60/Q=0.346/0.1309=2.64>D’/Q’=2.5D1.15/Q=0.104/0.1309=0.7945<D’/Q’=2.5離群數(shù)據(jù)正常數(shù)據(jù)46(2)格羅伯斯(Grubps)檢驗法當(dāng)數(shù)據(jù)x1,x2,…xn(按由小到大排序)服從正態(tài)分布時,可用下述統(tǒng)計量來檢驗數(shù)據(jù)是否為外來值。計算數(shù)據(jù)的參數(shù)U:查得不同顯著水平和不同n下的臨界值Una,比較U和Una,若U>Una,則數(shù)據(jù)為外來值。47格羅伯斯檢驗臨界值表αn0.010.0250.050.10αn0.010.0250.050.1031.1551.1551.1531.148152.7052.5462.4082.24741.4921.4811.4631.425162.7472.5852.4432.27951.7491.7151.6721.602172.7852.6202.4752.30961.9441.8871.8221.729182.8212.6512.5042.33672.0972.0201.9381.828192.8492.6762.5272.35882.1982.1042.0111.890202.8842.7082.5572.35892.3232.2152.1091.977212.9122.7332.5802.408102.4102.2902.1762.036222.9392.7582.6032.429112.4852.3552.2342.088232.9632.7812.6242.449122.5502.4122.2852.134242.9872.8022.6442.467132.6082.4612.3312.175252.9972.7922.6822.450142.6592.5072.3712.21348C%DD2
1.170.0840.0071
1.150.1040.0108
1.160.0940.0088
1.600.3460.1197
1.190.0640.0410計算xi的U:例:某生油巖測定其有機(jī)碳含量的數(shù)值如右:查得U5,0.01=1.749,計算參數(shù)s=0.194對于x1,
U=0.084/0.194=0.4329<U5,0.01對于x2,U=0.104/0.194=0.536<U5,0.01對于x4,U=0.346/0.194=1.78>U5,0.01x4是離群數(shù)據(jù)49Xf隨機(jī)變量觀測值的兩種頻率直方圖(a)Xf(b)判斷觀測數(shù)據(jù)是否服從正態(tài)分布,一個簡單而直觀的方法是觀察其頻率直方圖。檢驗觀測數(shù)據(jù)是否服從正態(tài)分布的方法還有:正態(tài)分布χ2
檢驗法和偏度、峰度檢驗法。50正態(tài)分布χ2檢驗法對來自正態(tài)總體變量的n個觀測數(shù)據(jù)x1,x2…xn,將區(qū)間(-∞,+∞)分為k個小區(qū)間:
(a0,a1)(a1,a2)……(ak-1,ak)
其中:a1、ak-1分別為觀測數(shù)據(jù)的最小值和最大值,a0=-∞ak=+∞。
設(shè)vi為數(shù)據(jù)落入其中第i個小區(qū)間(ai
-1,ai)的頻數(shù)(個數(shù)),pi為相應(yīng)的理論概率。對于假設(shè)H0:觀測數(shù)據(jù)來自正態(tài)總體51若H0為真,則由皮爾遜定理知:因此確定正態(tài)分布的χ2檢驗法步驟如下:(1)計算觀測數(shù)據(jù)數(shù)學(xué)期望和方差的極大似然估計量和s2:(2)在數(shù)據(jù)來自正態(tài)總體的假設(shè)下,求落入?yún)^(qū)間(ai-1,ai)的頻數(shù)vi(i=1,2,…k),并計算統(tǒng)計量η。52(3)對顯著性檢驗水平α,查表求拒絕域臨界值χ2k-3(α)(α一般取0.05、0.1等)若η<χ2k-3(α),則接收H0,否則拒絕H0。注:小區(qū)間個數(shù)要足夠(一般應(yīng)>10)。53正態(tài)分布偏度、峰度檢驗法隨機(jī)變量的偏度Ep和峰度Ef:偏度Ep和峰度Ef是指隨機(jī)變量X的標(biāo)準(zhǔn)化變量(X-μ)/σ的三階中心矩和四階中心矩,即:據(jù)指標(biāo)觀測值xi(i=1,2,…,n)可以求得上述量的矩估計值:54對于假設(shè)H0:觀測數(shù)據(jù)來自正態(tài)總體若H0為真,則當(dāng)n充分大時,近似有:55因此確定正態(tài)分布偏度、峰度檢驗法:(1)對于觀測數(shù)據(jù)xi(i=1,2…n),求出其偏度、峰度的矩估計Up、Uf。(2)對給定的顯著性檢驗水平α,求出其檢驗拒絕域臨界值:若|Up|<Pp且|Uf|<Pf,則接受H0,否則拒絕H0。56若隨機(jī)變量X~N(μ,σ2),則由契比雪夫不等式知:因此,對于觀測數(shù)據(jù)Xi(i=1,2,…,n),可確定它可以大概率落入的區(qū)間:(X-2S,X+2S)或(X-3S,X+3S),某數(shù)據(jù)不在上述區(qū)間內(nèi),則認(rèn)為該數(shù)據(jù)離散,需處理;否則,認(rèn)為正常。契比雪夫不等式法573.離群數(shù)據(jù)的處理
當(dāng)不能肯定離群數(shù)據(jù)是否失真時,應(yīng)查明其離群的原因,對原因不明而又比較重要的數(shù)據(jù),如果條件允許可進(jìn)行重新觀測。當(dāng)能肯定離群數(shù)據(jù)失真時,應(yīng)予舍棄,因為它會對有效數(shù)據(jù)產(chǎn)生干擾,影響計算和地質(zhì)解釋結(jié)果。
對不能舍棄的離群數(shù)據(jù)可以采用平均值代替法、鄰近數(shù)據(jù)平均值代替法、界限值代替法和地質(zhì)推斷代替法等予以處理58§3地質(zhì)變量
2.地質(zhì)變量的分類由于地質(zhì)現(xiàn)象的復(fù)雜性,導(dǎo)致了地質(zhì)變量的多樣性,一般根據(jù)地質(zhì)變量所取數(shù)據(jù)的方法及性質(zhì),可將其分為觀測變量(定性和定量變量)和綜合變量。一、地質(zhì)變量的概念及其分類
1.地質(zhì)變量的概念它是反映某地質(zhì)現(xiàn)象在時間或空間上變化規(guī)律的量。如生油巖的厚度、地層的埋藏深度、生油巖中有機(jī)質(zhì)的豐度等。59
觀測變量是可以直接進(jìn)行觀測、分析或度量的地質(zhì)變量。如地層的厚度、原油的密度和粘度、巖石的顏色等。
綜合變量是把二個或二個以上的觀測變量按一定的方式進(jìn)行組合而得到的具有綜合意義的地質(zhì)變量。如區(qū)分天然氣成因類型的“甲烷系數(shù)”:當(dāng)M>99%時認(rèn)為是生物成因氣,否則認(rèn)為是熱解成因氣。又如總烴與有機(jī)碳之比為有機(jī)質(zhì)轉(zhuǎn)化率等等。60
1.具有明確的地質(zhì)意義指地質(zhì)變量所代表的具體地質(zhì)含義或特征。如:地層的時代、地層溫度、圈閉閉合面積等變量可表示石油地質(zhì)特征;有機(jī)質(zhì)類型、有機(jī)質(zhì)豐度、有機(jī)質(zhì)成熟度等變量可表示地球化學(xué)特征。二、地質(zhì)變量的特征
2.具有明顯的統(tǒng)計性質(zhì)多數(shù)地質(zhì)變量可認(rèn)為是隨機(jī)變量。因此,它們的觀測值具有明顯的統(tǒng)計意義,如觀測值的平均值是地質(zhì)變量數(shù)學(xué)期望的估計值,而觀測值的標(biāo)準(zhǔn)差則反映了地質(zhì)變量在區(qū)域上的波動程度。61
3.具有相關(guān)性地質(zhì)變量之間具有一定程度的相關(guān)性,如巖石的滲透率與有效孔隙度密切相關(guān)。
分析研究地質(zhì)變量的目的是想通過它們預(yù)測地質(zhì)體的特征及有關(guān)的地下資源。那么用什么樣的地質(zhì)變量才能更好地達(dá)到研究目的?這就是地質(zhì)變量的選擇問題。例如,要想通過某些地質(zhì)變量預(yù)測某生油層的生油量,那么就要選擇與生油量相關(guān)的地質(zhì)變量。一般來說,地質(zhì)變量的選擇應(yīng)遵循以下基本原則:
三、地質(zhì)變量的選擇62
3.具有相關(guān)性地質(zhì)變量之間具有一定程度的相關(guān)性,如巖石的滲透率與有效孔隙度密切相關(guān)。
三、地質(zhì)變量的選擇(1)要獲得一批地質(zhì)意義明確、統(tǒng)計特征明顯且與研究對象和目的有著密切關(guān)系的地質(zhì)變量。(2)要達(dá)到變量結(jié)構(gòu)的最優(yōu)化,也就是要具有最優(yōu)的變量組合。這樣可以減少空間維數(shù),以盡可能相互獨立的變量組成n(n=1,2,…)維空間的數(shù)學(xué)模型,從而既簡化了計算,又便于結(jié)果的分析和解釋。
1、選擇的目的63(3)使實際地質(zhì)系統(tǒng)的有用信息損失達(dá)到最小。(4)有利于建立最優(yōu)的地質(zhì)概念模型和數(shù)學(xué)模型,從而獲得最佳的地質(zhì)效果。(二)選擇地質(zhì)變量的途徑和方法1.地質(zhì)途徑選擇變量的地質(zhì)途徑就是要應(yīng)用與石油地質(zhì)勘探有關(guān)的各地質(zhì)分支學(xué)科的基本理論和方法來對實際地質(zhì)系統(tǒng)進(jìn)行地質(zhì)觀測,并收集與其有關(guān)的地質(zhì)資料,建立地質(zhì)概念模型,選擇變量。64常用的地質(zhì)資料的類別(1)地面地質(zhì)調(diào)查資料:包括不同比例尺的地質(zhì)概查、地質(zhì)普查、地質(zhì)詳查、地質(zhì)細(xì)測等各類地質(zhì)資料。
(2)地球物理勘探資料:包括重力、磁力、電法、地震勘探等各類物探資料。(3)地球化學(xué)勘探資料:包括各種微量金屬元素、烴類含量等化探資料。(4)遙感地質(zhì)測量資料:包括航空和航天遙感測量資料。
(5)鉆井地質(zhì)勘探資料:包括巖屑、鉆時、泥漿、氣測錄井、巖心分析、中途測試等。(6)試油試采資料:包括油氣水產(chǎn)量、地層壓力、地層溫度等。65(7)地球物理測井資料:包括電阻、電位、感應(yīng)聲波、地震、放射性、井徑測井等。(8)巖礦分析資料:包括薄片鑒定、重礦物分析、粒度分析等。
(9)油層物性資料:包括儲層孔隙度、滲透率、含油飽和度等。
(10)油氣水性質(zhì)資料:包括原油密度、粘度、餾分、天然氣密度、成分、地下水礦化度、離子成分、微量元素含量等。(11)生油指標(biāo)分析資料:包括有機(jī)碳含量、瀝青含量、環(huán)境指標(biāo)、干酪根類型、Ro、OEP值等。
(12)古生物鑒定資料:包括大型古生物、微體古生物、牙形石鑒定等。(13)其它化驗分析資料:包括掃描電鏡、電子探針、熱解色譜、差熱分析、X射線衍射分析、熱模擬、泥巖壓實模擬、包裹體測定等。6667資料項目數(shù)據(jù)內(nèi)容1.錄井資料(1)砂樣錄井;(2)鉆時錄井;(3)泥漿錄井;(4)氣測錄井2.測井資料(5)標(biāo)準(zhǔn)電測;(6)橫向電測;(7)放射性測井;(8)微電極測井;(9)井徑測井;(10)井溫測井;(11)井斜測井;(12)井內(nèi)流體測井3.巖心資料(13)鉆井取心;(14)井壁取心4.儲油層巖性(15)薄片鑒定;(16)粒度分析;(17)碳酸鹽含量;(18)巖心含鹽量5.地層對比資料(19)油層總厚度;(20)油層有效厚度;(21)最好油層厚度;(22)最大單層厚度6.含油飽和度(23)原始含油飽和度;(24)殘余油飽和度7.孔隙度(25)總孔隙度;(26)有效孔隙度8.滲透率(27)空氣滲透率;(28)有效滲透率9.油層溫度(29)油層溫度;(30)地溫梯度10.地層壓力(31)原始地層壓力;(32)靜止壓力11.飽和壓力(33)飽和壓力12.流動壓力(34)流動壓力13.井口壓力(35)油管壓力;(36)套管壓力14.油氣比(37)油氣比15.原油性質(zhì)地層條件下:(38)原油粘度;(39)原始油氣比;(40)體積系數(shù);(41)壓縮系數(shù);(42)原始密度;地面條件下:(43)原油密度;(44)原油粘度;(45)凝固點;(46)含蠟量;(47)蠟融點;(48)含水率;(49)含砂量;(50)餾分16.天然氣性質(zhì)(51)天然氣密度;(52)粘度;(53)組分分析17.地層水性質(zhì)(54)礦化度;(55)成分;(56)密度;(57)機(jī)械雜質(zhì);(58)含鐵量18.產(chǎn)量(59)產(chǎn)油量;(60)產(chǎn)氣量;(61)產(chǎn)水量;(62)注水井吸水量19.含油面積和油水邊界(63)含油面積;(64)油水邊界20.粘土夾層(65)粘土性質(zhì);(66)夾層厚度;(67)夾層分布范圍;(68)有機(jī)碳;(69)有機(jī)氮;(70)還原系數(shù);(71)瀝青含量;(72)瀝青性質(zhì)探井中取全取準(zhǔn)20項資料72項數(shù)據(jù)(1960,大慶油田)682.數(shù)學(xué)途徑(1)相關(guān)系數(shù)法:如簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)等。(2)統(tǒng)計推斷法:如因子分析、回歸分析、判別分析、典型相關(guān)分析等。(3)地質(zhì)特征矢量長度分析法:這是一種篩選二態(tài)變量的方法。地質(zhì)變量的選擇除了地質(zhì)途徑外還應(yīng)與數(shù)學(xué)的方法結(jié)合起來,這樣可以使變量的選擇建立在最優(yōu)化準(zhǔn)則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年安全心理學(xué)課件制作與個性化學(xué)習(xí)需求
- 視頻號推廣方案
- 2024年教育改革下的《馬鈞傳》教學(xué)策略
- 2012年燃?xì)饨?jīng)營許可證換證申請表
- 八年級英語上冊Unit3I'mmoreoutgoingthanmysister知識點新版人教新目標(biāo)版
- 2024年《高等數(shù)學(xué)2》教案編寫:注重數(shù)學(xué)思維培養(yǎng)
- 八年級數(shù)學(xué)下冊第5章數(shù)據(jù)的頻數(shù)分布5.1頻數(shù)與頻率教學(xué)反思新版湘教版
- 2024年經(jīng)濟(jì)法說課課件的視覺美感
- 2025屆高考政治一輪復(fù)習(xí)第10單元文化傳承與創(chuàng)新微課堂16主觀題對文化交流的原因意義和措施的考查教案新人教版必修3
- 2024-2025學(xué)年高中歷史專題五烽火連綿的局部戰(zhàn)爭5.3高科技條件下的現(xiàn)代戰(zhàn)爭課時作業(yè)含解析人民版選修3
- 供應(yīng)商現(xiàn)場審核培訓(xùn)
- 培訓(xùn)內(nèi)驅(qū)力的課件
- 《髕骨骨折骨折》課件
- 腎內(nèi)科激素的用藥知識-健康科普知識講座課件
- 關(guān)于工商管理社會實踐報告
- 學(xué)校食堂調(diào)查方案
- 2024年航空職業(yè)技能鑒定考試-無人機(jī)AOPA駕駛證考試(視距內(nèi)駕駛員視距內(nèi)駕駛員)筆試歷年真題薈萃含答案
- 激勵理論-赫茨伯格的“雙因素理論”案例分析課件
- JC-T 738-2004水泥強(qiáng)度快速檢驗方法
- 胸腔積液患者病例討論
- 第六章-冷凍真空干燥技術(shù)-wang
評論
0/150
提交評論