數(shù)據(jù)挖掘的統(tǒng)計限制_第1頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第2頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第3頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第4頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二節(jié)數(shù)據(jù)挖掘的統(tǒng)計限制一、整體情報預(yù)警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:

2002年,美國布什政府提出了針對所有可獲得的數(shù)據(jù)進行挖掘的計劃,目的用于追蹤恐怖活動。這些數(shù)據(jù)包括信用卡收據(jù)、酒店記錄、旅行數(shù)據(jù)以及許多其他類型的情報。一、整體情報預(yù)警Totalinformationawareness(TIA)2、缺陷:

尋找了許多關(guān)聯(lián)模糊的數(shù)據(jù),顯然會得出虛假的結(jié)果因此侵犯無辜者的隱私。

①通過瀏覽大量的數(shù)據(jù),并想從中發(fā)現(xiàn)疑似的恐怖行為,是否會找出很多無辜行為。

②是否會找出雖然非法但不是恐怖行為的行為。

③這些最終結(jié)果的發(fā)現(xiàn)是否會導(dǎo)致警察登門造訪甚至更糟糕的情形。二、邦弗朗尼原理1、非正式闡述:可幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。

假定人們有一定量的數(shù)據(jù)并期望從中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件發(fā)生。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但實際上并不重要,除此之外,別無他由,這個意義上而言,這些事件的出現(xiàn)純屬“臆造”。

在數(shù)據(jù)隨機性假設(shè)的基礎(chǔ)上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結(jié)果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預(yù)期,尋找到的幾乎任何事物都是臆造的,也就是說,他們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。二、邦弗朗尼原理2、原理:

在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結(jié)果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。3、作用:對數(shù)據(jù)挖掘的過度使用進行警告。三、邦弗朗尼原理的例子1、數(shù)據(jù)挖掘的目標:

確信在某個地方有一群惡人,目的是找出這群惡人。我們有理由相信這些惡人會定期在某個賓館聚會商討作惡計劃。2、數(shù)據(jù)的有趣特征:惡人在兩個不同日子入住同一賓館。3、假設(shè):(1)惡人數(shù)目可能有10億(2)每個人每100天當(dāng)中會有一天去賓館(3)一個賓館最多容納100個人。因此10

萬個賓館足夠容納10億人中的1%也

就是1000萬人在某個給定的日子入住賓館。(4)我們將對1000天的賓館入住記錄進行

核查。4、是否能推斷某兩人可能是惡人:(1)假設(shè)沒有惡人,則每人去賓館的概率為0.01,且是隨機地從10萬個賓館中選擇一個。(2)給定某天,任意兩人決定去賓館的概率:0.0001(3)給定某天,兩人同時入住同一賓館的概率:0.0001/105=10-9

(4)任意給定不同兩天,兩人入住同一賓館的概率:10-9的平方,即10-18上述推理中,只需要兩人兩次中每次住的賓館相同即可,不需要兩次都是同一賓館。5、事件出現(xiàn)多少次表明作惡事件發(fā)生:事件:兩個人在兩天中的每一天入住相同賓館。(1)10億人中的人員組對個數(shù):(2)1000天內(nèi)任意兩天的組合個數(shù):(3)疑似作惡事件的期望數(shù)目:6、結(jié)果:大概25萬對人員疑似惡人,即使他們根本不是。假定實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論