Xie-AI-第7章-知識發(fā)現(xiàn)與數(shù)據(jù)挖掘_第1頁
Xie-AI-第7章-知識發(fā)現(xiàn)與數(shù)據(jù)挖掘_第2頁
Xie-AI-第7章-知識發(fā)現(xiàn)與數(shù)據(jù)挖掘_第3頁
Xie-AI-第7章-知識發(fā)現(xiàn)與數(shù)據(jù)挖掘_第4頁
Xie-AI-第7章-知識發(fā)現(xiàn)與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

主講:謝榕

武漢大學國際軟件學院人工智能及其應用內(nèi)容提要:◆知識發(fā)現(xiàn)的產(chǎn)生和發(fā)展◆知識發(fā)現(xiàn)的定義◆知識發(fā)現(xiàn)的處理過程第七章(1)知識發(fā)現(xiàn)8.1知識發(fā)現(xiàn)的產(chǎn)生和發(fā)展數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledgediscoveryindatabase,KDD)知識發(fā)現(xiàn)最早于1989年8月在美國底特律舉行的第11屆國際人工智能聯(lián)合會議專題討論會上提出來的。1991年、1993年、1994年又舉行了KDD專題討論會。1995年以來,每年舉辦一次KDD國際會議(InternationalConferenceonKnowledgeDiscoveryandDataMining)。1997年,國際專業(yè)雜志《KnowledgeDiscoveryandDataMining》問世。IEEEACMVLDBSIGMOD…國家在科技重大攻關(guān)項目和863計劃項目中,都設立了相關(guān)的研究課題?;A理論新算法數(shù)據(jù)挖掘數(shù)據(jù)倉庫與OLAP可視化技術(shù)知識表示方法Web數(shù)據(jù)挖掘…8.2知識發(fā)現(xiàn)的定義定義:數(shù)據(jù)庫中的知識發(fā)現(xiàn)是從大量數(shù)據(jù)中辨識出有效的、新穎的、潛在有用的、并可被理解的模式的高級處理過程。新穎程度函數(shù)N(E,F)有用模式u=U(E,F)可視化8.3知識發(fā)現(xiàn)的處理過程數(shù)據(jù)選擇:根據(jù)用戶的需求從數(shù)據(jù)庫中提取與KDD相關(guān)知識。數(shù)據(jù)變換:從發(fā)掘數(shù)據(jù)庫里選擇數(shù)據(jù)。圖:知識發(fā)現(xiàn)過程數(shù)據(jù)預處理:再加工所產(chǎn)生的數(shù)據(jù),檢查數(shù)據(jù)的完整性及一致性,處理噪音數(shù)據(jù),填補丟失數(shù)據(jù),形成發(fā)掘數(shù)據(jù)庫。數(shù)據(jù)挖掘:根據(jù)用戶要求,確定KDD的目標是發(fā)現(xiàn)何種類型的的知識。知識評價:對所獲得的規(guī)則進行價值評定,以決定所得到的規(guī)則是否存入基礎庫。數(shù)據(jù)挖掘數(shù)據(jù)挖掘預處理數(shù)據(jù)挖掘后處理◆什么激發(fā)了數(shù)據(jù)挖掘?◆什么是數(shù)據(jù)挖掘?◆對何種數(shù)據(jù)進行數(shù)據(jù)挖掘◆數(shù)據(jù)挖掘功能例1:關(guān)聯(lián)挖掘例2:新聞視頻挖掘例3:Web挖掘◆數(shù)據(jù)挖掘研究方向及面臨的困難第七章(2)數(shù)據(jù)挖掘近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界和整個社會的極大關(guān)注,其主要原因是存在可以廣泛使用的大量數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。例1:超市經(jīng)營者希望將常被同時購買的商品放在一起以增加銷售。例2:保險公司想知道購買保險的客戶具有哪些特征。例3:醫(yī)學研究人員希望從已有的成千上萬份病歷中找出患某種疾病病人的共同特征。獲取的信息和知識可以廣泛用于各種應用,包括市場分析欺詐檢測顧客保有產(chǎn)品控制科學探索等8.1什么激發(fā)了數(shù)據(jù)挖掘?圖:數(shù)據(jù)庫系統(tǒng)技術(shù)的演變高級數(shù)據(jù)分析自然成為下一個目標。數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)管理(包括數(shù)據(jù)存儲和檢索,數(shù)據(jù)庫事務處理)高級數(shù)據(jù)分析(涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)快速增長的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫中。沒有強有力的工具,理解它們已經(jīng)遠遠超出了人的能力。收集在大型數(shù)據(jù)儲存庫中的數(shù)據(jù)變成了“數(shù)據(jù)墳墓”。數(shù)據(jù)挖掘工具進行數(shù)據(jù)分析可發(fā)現(xiàn)重要的數(shù)據(jù)模式正在擴大的數(shù)據(jù)和信息之間的裂口呼喚系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳墓轉(zhuǎn)換成知識“金塊”。8.2什么是數(shù)據(jù)挖掘?從數(shù)據(jù)中挖掘知識知識提取數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈數(shù)據(jù)挖掘數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識。數(shù)據(jù)清理與數(shù)據(jù)集成 -消除噪聲和不一致數(shù)據(jù) -多種數(shù)據(jù)源可以組合在一起數(shù)據(jù)選擇與數(shù)據(jù)變換 -從數(shù)據(jù)庫中提取與分析任務相關(guān)的數(shù)據(jù) -數(shù)據(jù)變換或統(tǒng)一成適合挖掘形式如匯總或聚集操作數(shù)據(jù)挖掘 -基本步驟,使用智能方法提取數(shù)據(jù)模式模式評估與知識表示 -根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式 -使用可視化和知識表示技術(shù),向用戶提供挖掘的知識圖:數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)過程的一個步驟知識發(fā)現(xiàn)過程典型的數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器根據(jù)用戶的數(shù)據(jù)挖掘請求,負責提取相關(guān)數(shù)據(jù)。知識庫領域知識,用于指導搜索或評估結(jié)果模式興趣度包括概念分層、用戶信念知識、附加興趣度約束或閾值、元數(shù)據(jù)數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子數(shù)據(jù)表或其他類型的信息庫。典型的數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘引擎

執(zhí)行特征化、關(guān)聯(lián)和相關(guān)分析、分類、預測、聚類分析、離群點分析和演變分析等任務。模式評估模塊

使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,將搜索聚焦在有趣模式上。用戶界面

在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互。市場上已有“數(shù)據(jù)挖掘系統(tǒng)”機器學習系統(tǒng)統(tǒng)計數(shù)據(jù)分析工具實驗系統(tǒng)原型數(shù)據(jù)庫系統(tǒng)信息檢索系統(tǒng)演繹數(shù)據(jù)庫系統(tǒng)進行數(shù)據(jù)或信息檢索??處理大量數(shù)據(jù)的數(shù)據(jù)分析從數(shù)據(jù)庫提取有趣的知識、規(guī)律或高層信息

發(fā)現(xiàn)的知識可以用于做決策、過程控制、信息管理和查詢處理真正的數(shù)據(jù)挖掘系統(tǒng)8.3對何種數(shù)據(jù)進行數(shù)據(jù)挖掘數(shù)據(jù)挖掘可以應用于任何類型的信息、儲存庫以及瞬態(tài)數(shù)據(jù)(如數(shù)據(jù)流)??疾斓臄?shù)據(jù)儲存庫包括:

關(guān)系數(shù)據(jù)庫

數(shù)據(jù)倉庫

事務數(shù)據(jù)庫

萬維網(wǎng)

數(shù)據(jù)流

高級數(shù)據(jù)庫系統(tǒng)包括對象-關(guān)系數(shù)據(jù)庫和面向特殊應用的數(shù)據(jù)庫,如:

時間序列數(shù)據(jù)庫

空間數(shù)據(jù)庫

時空數(shù)據(jù)庫

多媒體數(shù)據(jù)庫挖掘的難題和技術(shù)可能因存儲系統(tǒng)而異。1.關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫系統(tǒng)也稱數(shù)據(jù)庫管理系統(tǒng)(DBMS),由一組內(nèi)部相關(guān)的數(shù)據(jù)(稱作數(shù)據(jù)庫)和一組管理和存取數(shù)據(jù)的軟件程序組成。關(guān)系數(shù)據(jù)庫表的匯集,每個表都賦予唯一的名字。每個表包含一組屬性(列或字段),通常存放大量元組(記錄或行)。關(guān)系表中的每個元組代表一個對象,被唯一的關(guān)鍵字標識,并被一組屬性值描述。通常為關(guān)系數(shù)據(jù)庫構(gòu)造語義數(shù)據(jù)模型,如實體-聯(lián)系(ER)模型。例:AllElectronics的關(guān)系數(shù)據(jù)庫customeritememployeebranchpurchaseitems_soldworks_at數(shù)據(jù)庫查詢與統(tǒng)計關(guān)系數(shù)據(jù)通過數(shù)據(jù)庫查詢訪問。數(shù)據(jù)庫查詢使用如SQL關(guān)系查詢語言。關(guān)系操作:連接、選擇和投影例1:顯示上個月按分店分組的總銷售例2:多少銷售事務出現(xiàn)在12月份?例3:哪一位銷售人員的銷售量最高?例:顯示上個季度銷售的所有商品的列表查詢可以檢索數(shù)據(jù)的一個指定的子集。聚集函數(shù),如sum,avg(平均),count,max(最大)和min(最?。﹃P(guān)系數(shù)據(jù)庫的數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的數(shù)據(jù)源,是我們數(shù)據(jù)挖掘研究的一種主要數(shù)據(jù)形式。例1:分析顧客數(shù)據(jù)-根據(jù)顧客的收入、年齡和以前的信用信息預測新顧客的信用風險。例2:檢測偏差-與前一年相比,哪種商品的銷售出人預料。-這種商品的包裝是否有變化,或價格是否大幅度提高?當數(shù)據(jù)挖掘用于關(guān)系數(shù)據(jù)庫時,可以進一步搜索趨勢或數(shù)據(jù)模式。2.數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息儲存庫,存放在一個一致的模式下,并且通常駐留在單個站點。例:AllElectronics典型的數(shù)據(jù)倉庫框架數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新過程來構(gòu)造。問題:假設AllElectronics是一個跨國公司,世界各地分布有自己的數(shù)據(jù)庫。要求:提供公司第三季度每種類型的商品、每個分布的銷售分析。對數(shù)據(jù)倉庫進行數(shù)據(jù)挖掘數(shù)據(jù)倉庫中的數(shù)據(jù)按主題組織,如顧客、商品、供應商和活動等。數(shù)據(jù)存儲從歷史的角度(如過去的5~10年)提供信息,數(shù)據(jù)倉庫不是存放細節(jié),而是存放事務的匯總,并匯總到更高層次。數(shù)據(jù)倉庫用多維數(shù)據(jù)庫結(jié)構(gòu)建模。其中,每個維對應于模式中一個或一組屬性,每個單元存放某種聚集度量值,如count或salesamount。數(shù)據(jù)倉庫的實際物理結(jié)構(gòu)可以是關(guān)系數(shù)據(jù)存儲或多維數(shù)據(jù)立方體)。數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖,并允許預計算和快速訪問匯總數(shù)據(jù)。提供多維數(shù)據(jù)視圖匯總數(shù)據(jù)的預計算OLAP操作:允許用戶在不同的匯總級別觀察數(shù)據(jù)上卷:通過維的概念分層向上攀升或通過維歸約,在數(shù)據(jù)方體上進行聚集。下鉆:上鉆的逆操作,由不太詳細數(shù)據(jù)到更詳細數(shù)據(jù)。3.事務數(shù)據(jù)庫事務數(shù)據(jù)庫由一個文件組成,其中每個記錄代表一個事務。一個事務包含唯一的事務標識號(trans_ID)和組成該事務的項的列表。事務數(shù)據(jù)庫可能有一些與之相關(guān)聯(lián)的附加表。例:AllElectronics銷售事務數(shù)據(jù)庫對事務數(shù)據(jù)庫的數(shù)據(jù)挖掘例1:顯示SandySmith購買的所有商品。例2:顯示有多少事務包含商品號I3?掃描整個事務數(shù)據(jù)庫例3:哪些商品一塊銷售得很好?事務數(shù)據(jù)庫的頻繁模式:通過識別頻繁項集—頻繁一塊銷售的商品例:AllElectronics銷售事務數(shù)據(jù)庫4.時間、序列和時間序列數(shù)據(jù)庫時間數(shù)據(jù)庫(temporaldatabase)

存放包含時間相關(guān)屬性的關(guān)系數(shù)據(jù)。這些屬性可能涉及若干時間標簽,每個都具有不同的語義。序列數(shù)據(jù)庫(sequencedatabase)

存放具有或不具有具體時間概念的有序事件的序列。

例:顧客購物序列、Web點擊流、生物學序列等時間序列數(shù)據(jù)庫(time-seriesdatabase)

存放定時(如每小時、每天、每周)重復測量得到的值或事件的序列。

例:股票交易、庫存控制、自然現(xiàn)象(如氣溫和風力)觀測收集的數(shù)據(jù)。對時間序列數(shù)據(jù)庫的數(shù)據(jù)挖掘使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)數(shù)據(jù)庫中對象演變特征或?qū)ο笞兓厔?。例如,銀行數(shù)據(jù)的挖掘-根據(jù)顧客的流量安排銀行出納員。-挖掘股票交易數(shù)據(jù),發(fā)現(xiàn)可能幫助你制訂投資策略的趨勢。定義時間的多粒度。例如,時間按財政年、學年或日歷年分解,年可以進一步分解成季度或月。5.空間數(shù)據(jù)庫空間數(shù)據(jù)庫(spatialdatabase)包含涉及空間的信息地理(地圖)數(shù)據(jù)庫超大規(guī)模集成電路(VLSI)計算機輔助設計數(shù)據(jù)庫醫(yī)療和衛(wèi)星圖像數(shù)據(jù)庫對空間數(shù)據(jù)庫的數(shù)據(jù)挖掘發(fā)現(xiàn)描述坐落在特定類型地點(如公園)附近的房屋特征根據(jù)城市離主要高速公路的距離描述大城市貧困率的變化趨勢??疾炜臻g對象集之間的聯(lián)系,發(fā)現(xiàn)空間自相關(guān)或關(guān)聯(lián)的對象子集。通過空間聚類分析可以發(fā)現(xiàn)簇和離群點。進行空間分類,根據(jù)空間對象相關(guān)特征集構(gòu)造預測模型。6.時空數(shù)據(jù)庫存放隨時間變化的空間對象的空間數(shù)據(jù)庫稱作時空數(shù)據(jù)庫(spatiotemporaldatabase)。對時空數(shù)據(jù)庫的數(shù)據(jù)挖掘?qū)⒁苿訉ο蟮内厔莘纸M識別移動怪異的車輛根據(jù)疾病隨時間的地理分布,區(qū)別生物恐怖攻擊與正常的流感爆發(fā)7.萬維網(wǎng)萬維網(wǎng)及其分布式信息服務(如Google,Yahoo!,美國在線和AltaVista)提供了豐富的、世界范圍的聯(lián)機信息服務,其中數(shù)據(jù)對象鏈接在一起便于交互訪問。用戶通過鏈接,從一個對象到另一個對象,尋找感興趣的信息。這種系統(tǒng)對數(shù)據(jù)挖掘提供了大量機會和挑戰(zhàn)。對萬維網(wǎng)的數(shù)據(jù)挖掘Web挖掘旨在開發(fā)可伸縮的、有效的Web數(shù)據(jù)分析和挖掘方法。幫助了解Web上信息的分布、描述Web頁面的特征并對Web頁面進行分類,發(fā)現(xiàn)不同的Web頁面、用戶、社團和基于Web的活動之間的Web的動態(tài)特性、關(guān)聯(lián)和其他聯(lián)系。權(quán)威Web頁面分析(authoritativeWebpageanalysis)

根據(jù)Web頁面的重要性、影響和主題,幫助對Web頁面定秩。自動Web頁面聚類和分類

基于頁面的內(nèi)容,以多維的方式對Web頁面分組和安排。Web社區(qū)分析(Webcommunityanalysis)

識別隱藏的Web社會網(wǎng)絡和社團,并觀察它們的演變。8.數(shù)據(jù)流流數(shù)據(jù)(streamdata)

數(shù)據(jù)動態(tài)地從觀測平臺(或窗口)流進和流出。數(shù)據(jù)流的性質(zhì)

海量甚至可能無限,動態(tài)變化,以固定的次序流進和流出,只允許一遍或少數(shù)幾遍掃描,要求快速響應時間。

例:各種類型的科學和工程數(shù)據(jù),時間序列數(shù)據(jù)和產(chǎn)生于其他動態(tài)環(huán)境下的數(shù)據(jù)-電力供應 -網(wǎng)絡通信-股票交易 -電信-Web點擊流 -視頻監(jiān)視-氣象或環(huán)境監(jiān)控數(shù)據(jù)對數(shù)據(jù)流的數(shù)據(jù)挖掘挖掘數(shù)據(jù)流涉及流數(shù)據(jù)中的一般模式和動態(tài)變化的有效發(fā)現(xiàn)。

例:根據(jù)消息流中的異常檢測計算機網(wǎng)絡入侵

通過數(shù)據(jù)流聚類、流模型動態(tài)構(gòu)造或?qū)斍暗念l繁模式與前一次的頻繁模式進行比較來發(fā)現(xiàn)。對流數(shù)據(jù)還可進行多層、多維聯(lián)機分析和挖掘。對何種數(shù)據(jù)進行數(shù)據(jù)挖掘數(shù)據(jù)挖掘可以應用于任何類型的信息、儲存庫以及瞬態(tài)數(shù)據(jù)(如數(shù)據(jù)流)。考察的數(shù)據(jù)儲存庫包括:

關(guān)系數(shù)據(jù)庫

數(shù)據(jù)倉庫

事務數(shù)據(jù)庫

萬維網(wǎng)

數(shù)據(jù)流

高級數(shù)據(jù)庫系統(tǒng)包括對象-關(guān)系數(shù)據(jù)庫和面向特殊應用的數(shù)據(jù)庫,如:

時間序列數(shù)據(jù)庫

空間數(shù)據(jù)庫

時空數(shù)據(jù)庫

多媒體數(shù)據(jù)庫8.4數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘功能—可以挖掘什么類型的模式挖掘頻繁模式、關(guān)聯(lián)和相關(guān)分類和預測聚類分析離群點分析演變分析1.挖掘頻繁模式、關(guān)聯(lián)和相關(guān)頻繁模式(frequentpattern):在數(shù)據(jù)中頻繁出現(xiàn)的模式。存在多種類型的頻繁模式,包括:頻繁項集

頻繁地在事務數(shù)據(jù)集中一起出現(xiàn)的項的集合,如牛奶和面包。頻繁子序列

例:顧客傾向于先購買PC再購買數(shù)碼相機然后再購買內(nèi)存卡這樣的模式是一個(頻繁)序列模式。子結(jié)構(gòu)

可能涉及不同的結(jié)構(gòu)形式,如圖、樹或格,可以與項集或子序列結(jié)合在一起。如果一個子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為(頻繁)結(jié)構(gòu)模式。挖掘頻繁模式導致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)和相關(guān)。分類(classification)找出描述和區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標號未知的對象類。導出的模型形式:分類(IF-THEN)規(guī)則決策樹神經(jīng)網(wǎng)絡其他方法樸素貝葉斯分類支持向量機k最近鄰分類導出模型是基于對訓練數(shù)據(jù)集(即類標號已知的數(shù)據(jù)對象)的分析。圖:分類模型的不同形式表示(a)IF-THEN規(guī)則(b)決策樹(c)神經(jīng)網(wǎng)絡2.聚類分析根據(jù)對象最大化類內(nèi)部的相似性、最小化類之間的相似性的原則進行聚類或分組。對象的簇(cluster)的形成使得相比之下在一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導出規(guī)則。聚類也便于分類法組織形式(taxonomyformation),將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。例:聚類分析對AllElectronics的顧客數(shù)據(jù)進行聚類分析,識別顧客的同類子族。這些簇可以表示每個購物目標群。圖:一個城市內(nèi)顧客位置的二維圖3.離群點分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對象是離群點(outlier)。離群點數(shù)據(jù)分析稱作離群點挖掘(outliermining)。分析方法數(shù)據(jù)分布或概率模型:使用統(tǒng)計檢驗檢測離群點。距離度量:將遠離任何簇的對象視為離群點?;谄畹姆椒ǎ嚎疾煲蝗簩ο笾饕卣魃系牟顒e來識別離群點。例:離群點分析通過檢測一個給定賬號與正常的付費相比,購買數(shù)額特別大來發(fā)現(xiàn)信用卡欺騙性使用。離群點值還可以通過購物地點和類型或購物頻率來檢測。4.演變分析數(shù)據(jù)演變分析(evolutionanalysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。這類分析的不同特點包括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于相似性的數(shù)據(jù)分析。例:演變分析假設有紐約股票交易所過去幾年的主要股票市場數(shù)據(jù),并希望投資高科技產(chǎn)業(yè)公司的股票。股票交易數(shù)據(jù)挖掘研究可以識別整個股票市場和特定的公司的股票演變規(guī)律。該規(guī)律可以幫助預測股票市場價格的未來走向,對股票投資做出決策。數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘功能—可以挖掘什么類型的模式挖掘頻繁模式、關(guān)聯(lián)和相關(guān)分類和預測聚類分析離群點分析演變分析例1:挖掘頻繁模式、關(guān)聯(lián)和相關(guān)有無規(guī)律?例1:挖掘頻繁模式、關(guān)聯(lián)和相關(guān)頻繁模式(Frequentpattern)是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項集、子序列或子結(jié)構(gòu))。例:購物籃分析作為某經(jīng)銷店經(jīng)理,想更多了解顧客的購物習慣。特別是,哪組商員顧客可能會在一次購物時同時購買?可對商店顧客事務零售數(shù)據(jù)進行購物籃分析,分析結(jié)果可以用于營銷規(guī)劃、廣告策劃或分類設計。經(jīng)典Apriori算法Apriori算法:使用候選產(chǎn)生發(fā)現(xiàn)頻繁項集R.Agrawal和R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)性算法。例:

以Allelectronics某分店的事務數(shù)據(jù)挖掘為例用Apriori算法尋找D中的頻繁項集由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則由數(shù)據(jù)庫D中的事務找出頻繁項集,直接由它們產(chǎn)生強關(guān)聯(lián)規(guī)則(強關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)。最小置信度閾值例2:新聞視頻挖掘一些重大的新聞事件對人們的日常生活產(chǎn)生極大的影響新聞視頻不僅僅只是一個簡單的一次性消費品,而是一個極富價值的資料庫。通過對大量的新聞視頻節(jié)目進行分析和挖掘,完全可以從中發(fā)現(xiàn)有價值的信息并指導人們做出具體的決策。-央視主播郭志堅怒批《讓子彈飛》:拋棄社會責任國內(nèi)外研究現(xiàn)狀對圖像數(shù)據(jù)挖掘的一些相關(guān)問題、框架及方法進行綜述性的研究對圖像進行分類方法的研究有關(guān)視頻數(shù)據(jù)挖掘的研究仍然還很初步對交通視頻序列進行了趨勢分析,通過視頻序列中對象的時空關(guān)系來挖掘交通擁塞的趨勢討論傳統(tǒng)數(shù)據(jù)挖掘方法在影片挖掘中應用所帶來的問題以及解決方案就新聞視頻中領域知識與視音頻分析的結(jié)合問題進行嘗試給出個性化的新聞視頻訪問方法新聞視頻挖掘需要解決兩個問題:為了輔助決策,需要從新聞視頻中挖掘出什么?怎樣進行挖掘,需要采用哪些具體的方法?新聞視頻挖掘的內(nèi)容結(jié)構(gòu)的挖掘通過對新聞視頻的分析,挖掘出新聞視頻的結(jié)構(gòu)挖掘出來的結(jié)構(gòu)將有助于獲得不同電視臺節(jié)目的編排風格e.g.中央臺新聞聯(lián)播:新聞提要、國內(nèi)新聞、國際新聞、廣告、天氣預報e.g.鳳凰衛(wèi)視中文臺:今日要聞、頭條話題、財經(jīng)報道、重點掃描、專題報道發(fā)現(xiàn)不同電視臺輿論的傾向性為其它新聞視頻挖掘任務奠定基礎。語義事件的挖掘一些事件的出現(xiàn)往往蘊涵著豐富語義信息新聞視頻中出現(xiàn)的標題事件新聞視頻中出現(xiàn)的人物特寫趨勢的挖掘通過對某個新聞事件的跟蹤,發(fā)現(xiàn)其發(fā)生/發(fā)展趨勢,并對未來可能趨勢進行預測。e.g.SARS的新聞報道非常頻繁,可以得出結(jié)論:前段時期SARS疫情比較嚴重,從而引起了媒體各界的普遍關(guān)注。e.g.近段時期,有關(guān)SARS的報道呈減弱趨勢,可能會有這樣的預測:即SARS疫情已經(jīng)逐步緩解,可望在未來的一個月里解除警界。新聞視頻挖掘的內(nèi)容關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)不同事件之間的內(nèi)在聯(lián)系e.g.美伊戰(zhàn)爭對世界石油價格的影響,對世界格局的影響決策者興趣點的挖掘為了更好地輔助決策人員的決策,有必要對新聞視頻中的新聞事件進行分類,建立一個決策人員所關(guān)注話題的據(jù)超立方體。e.g.決策人員關(guān)心與伊拉克戰(zhàn)爭相關(guān)的話題,伊拉克戰(zhàn)爭問題就可以看作一個大的數(shù)據(jù)超立方體。與伊拉克戰(zhàn)爭有關(guān)的其它事件,如戰(zhàn)爭期間伊拉克人民的生活問題不同國家對伊拉克戰(zhàn)爭的不同立場伊拉克戰(zhàn)爭給世界政治、經(jīng)濟帶來的影響以及伊拉克戰(zhàn)后重建新聞視頻挖掘的方法數(shù)據(jù)的準備根據(jù)決策人員的具體需求提供相應的待挖掘的數(shù)據(jù)從新聞視頻庫中提取最近兩個星期的新聞視頻數(shù)據(jù)數(shù)據(jù)準備階段的工作采用傳統(tǒng)數(shù)據(jù)挖掘的方法來進行,對新聞視頻的采集時間字段進行過濾即可獲得待挖掘的新聞視頻數(shù)據(jù)集結(jié)構(gòu)的挖掘在新聞視頻的結(jié)構(gòu)挖掘階段,目標是將新聞視頻分割成一個個鏡頭、場景、故事單元等帶有一定語義內(nèi)容的段落。比較相鄰幀間顏色直方圖的變化情況確定鏡頭的邊界采用聚類方法將相似鏡頭聚集成類,得到一個個的場景場景內(nèi)鏡頭之間時間關(guān)系分析確定口播幀類,達到新聞故事單元自動分割的目的分割出來的新聞故事單元將成為新聞視頻挖掘的元數(shù)據(jù)語義事件的挖掘?qū)σ曨l語義內(nèi)容的理解標題事件確定標題事件發(fā)生的具體位置人物特寫事件的探測采用對象探測的方法,設定一些基本的規(guī)則濾除一些小人臉事件新聞視頻挖掘的方法新聞故事重要度的判定從新聞故事的來源分析來自權(quán)威電視臺的新聞比來自地方臺的新聞更重要從新聞故事的播出時段進行分析黃金時段播出的新聞往往比非黃金時段播出的新聞更重要從新聞故事被報道的次數(shù)進行分析一條新聞被多家電視臺報道,或者被同一電視臺多次報道或者跟蹤報道從新聞故事的播放次序進行分析播放次序越靠前的新聞往往越重要從新聞故事的播出時間長短進行分析重要新聞播放時間比較長從新聞故事中特寫人物的重要性進行分析新聞故事中出現(xiàn)了領導人物的特寫將新聞故事的播出時間、持續(xù)時間、播出次序等信息提取并保存下來,建立以新聞故事為單位的重要度評判模型對重要新聞故事的統(tǒng)計分析對時間軸的統(tǒng)計來挖掘新聞故事之間隱含的趨勢對地理位置進行統(tǒng)計,挖掘故事之間的位置集中性新聞視頻挖掘的方法挖掘模式的可視化將有趣模式用可視的方式展現(xiàn)出來時間趨勢圖將專題的發(fā)展趨勢在時間軸上加以體現(xiàn),便于決策者了解專題的發(fā)展過程時空圖綜合時間與空間的關(guān)系,從總體上進行分析并指導決策例2:Web挖掘用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)或半結(jié)構(gòu)化的、動態(tài)的、且易造成混淆的,很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘。技術(shù)難點典型Web挖掘的處理流程Step2:信息選擇和預處理從取得Web資源中剔除無用信息,將信息進行必要的整理Step1:查找資源從目標Web文檔中得到數(shù)據(jù)Step3:模式發(fā)現(xiàn)在同一個站點內(nèi)部或在多個站點之間自動進行模式發(fā)現(xiàn)Step4:模式分析驗證、解釋上一步驟產(chǎn)生的模式基于索引的Web搜索引擎作用:搜索Web,索引Web頁面,建立和存儲大量基于關(guān)鍵詞的索引,幫助定位包含某些關(guān)鍵詞的Web頁面集。Java程序設計語言印度尼西亞的島嶼煮好的咖啡有經(jīng)驗的用戶通過提供一組嚴格約束的關(guān)鍵詞和短語,可以快速定位文檔。簡單的基于關(guān)鍵詞的搜索引擎存在的問題:搜索引擎返回大量文檔條目,其中很多與話題的相關(guān)性并不大。一詞多義例:關(guān)鍵詞JavaWeb挖掘的任務搜索Web結(jié)構(gòu),依次確定Web內(nèi)容的重要性,發(fā)現(xiàn)Web內(nèi)容的規(guī)律性和動態(tài)性,挖掘Web的訪問模式。Web挖掘任務Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web使用挖掘Web內(nèi)容挖掘從Web內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息。Web內(nèi)容挖掘的對象包括文本圖像音頻視頻多媒體其他類型數(shù)據(jù)Web內(nèi)容挖掘技術(shù)自動文摘從文檔中抽取信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋,用戶不需要瀏覽全文就可了解文檔總體內(nèi)容。文本分類在已有數(shù)據(jù)的基礎上構(gòu)造一個分類器。文本聚類把一組文檔按照相似性歸納成若干個類別。關(guān)聯(lián)規(guī)則利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)規(guī)則。Web結(jié)構(gòu)挖掘半結(jié)構(gòu)化數(shù)據(jù)基本結(jié)構(gòu)是DOM(DocumentObjectModel,文檔對象模型)一種樹結(jié)構(gòu)頁中每個HTML標簽對應于DOM樹的一個節(jié)點。Web頁面被一些預定義的標簽分割成片段有用的標簽包括<P>(段落)、<TABLE>(表)、<UL>(列表)、<H1>-<H6>(標題)等。DOM結(jié)構(gòu)有助于信息提取。VIPS算法

一個樣本的HTML源碼和DOM樹結(jié)構(gòu)難以提取頁面的正確語義內(nèi)容結(jié)構(gòu)基于視覺的頁面分割(VIsion-basedPageSegmentation,VIPS)算法權(quán)威Web頁面識別HITS算法(Hyperlink-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論