版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第二節(jié)數(shù)據(jù)挖掘的統(tǒng)計限制一、整體情報預(yù)警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:
2002年,美國布什政府提出了針對所有可獲得的數(shù)據(jù)進行挖掘的計劃,目的用于追蹤恐怖活動。這些數(shù)據(jù)包括信用卡收據(jù)、酒店記錄、旅行數(shù)據(jù)以及許多其他類型的情報。一、整體情報預(yù)警Totalinformationawareness(TIA)2、缺陷:
尋找了許多關(guān)聯(lián)模糊的數(shù)據(jù),顯然會得出虛假的結(jié)果因此侵犯無辜者的隱私。
①通過瀏覽大量的數(shù)據(jù),并想從中發(fā)現(xiàn)疑似的恐怖行為,是否會找出很多無辜行為。
②是否會找出雖然非法但不是恐怖行為的行為。
③這些最終結(jié)果的發(fā)現(xiàn)是否會導(dǎo)致警察登門造訪甚至更糟糕的情形。二、邦弗朗尼原理1、非正式闡述:可幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。
假定人們有一定量的數(shù)據(jù)并期望從中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件發(fā)生。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但實際上并不重要,除此之外,別無他由,這個意義上而言,這些事件的出現(xiàn)純屬“臆造”。
在數(shù)據(jù)隨機性假設(shè)的基礎(chǔ)上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結(jié)果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預(yù)期,尋找到的幾乎任何事物都是臆造的,也就是說,他們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。二、邦弗朗尼原理2、原理:
在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結(jié)果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。3、作用:對數(shù)據(jù)挖掘的過度使用進行警告。三、邦弗朗尼原理的例子1、數(shù)據(jù)挖掘的目標:
確信在某個地方有一群惡人,目的是找出這群惡人。我們有理由相信這些惡人會定期在某個賓館聚會商討作惡計劃。2、數(shù)據(jù)的有趣特征:惡人在兩個不同日子入住同一賓館。3、假設(shè):(1)惡人數(shù)目可能有10億(2)每個人每100天當(dāng)中會有一天去賓館(3)一個賓館最多容納100個人。因此10
萬個賓館足夠容納10億人中的1%也
就是1000萬人在某個給定的日子入住賓館。(4)我們將對1000天的賓館入住記錄進行
核查。4、是否能推斷某兩人可能是惡人:(1)假設(shè)沒有惡人,則每人去賓館的概率為0.01,且是隨機地從10萬個賓館中選擇一個。(2)給定某天,任意兩人決定去賓館的概率:0.0001(3)給定某天,兩人同時入住同一賓館的概率:0.0001/105=10-9
(4)任意給定不同兩天,兩人入住同一賓館的概率:10-9的平方,即10-18上述推理中,只需要兩人兩次中每次住的賓館相同即可,不需要兩次都是同一賓館。5、事件出現(xiàn)多少次表明作惡事件發(fā)生:事件:兩個人在兩天中的每一天入住相同賓館。(1)10億人中的人員組對個數(shù):(2)1000天內(nèi)任意兩天的組合個數(shù):(3)疑似作惡事件的期望數(shù)目:6、結(jié)果:大概25萬對人員疑似惡人,即使他們根本不是。假定實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024天然氣價格聯(lián)動機制合同
- 04項目合作關(guān)于共同開發(fā)智能家居系統(tǒng)的合作協(xié)議
- 2024年區(qū)塊鏈技術(shù)應(yīng)用于供應(yīng)鏈合同
- 2024年大數(shù)據(jù)分析與人工智能應(yīng)用開發(fā)合同
- 2024年室內(nèi)設(shè)計監(jiān)理合同
- 2024區(qū)塊鏈技術(shù)買賣合同
- 2024年工程項目勞務(wù)分包合作協(xié)議
- 2024年合作守則:兩人共事協(xié)議
- 2024年天然氣物流合作協(xié)議
- 數(shù)模電子技術(shù)課程設(shè)計
- 【圖文】污水源熱泵空調(diào)原理
- 雙梁橋式起重機變頻改造方案
- 胸痹中醫(yī)臨床路徑和診療方案
- 歐盟鐵路機車車輛互聯(lián)互通技術(shù)規(guī)范_TSI_CE認證解析
- 小學(xué)生安全用電知識(課堂PPT)
- 裝飾自己的名字說課稿
- 人教版(PEP)四年級上冊英語unit 1 My classroom圖文完美版(課堂PPT)
- 幼小銜接中存在的問題及對策
- 中級漢語期末考試測試題(共5頁)
- 《國家電網(wǎng)公司安全生產(chǎn)事故隱患排查治理管理辦法》(國家電網(wǎng)安監(jiān)[
- 水保監(jiān)理報告范文
評論
0/150
提交評論