試論基于多媒體的數據挖掘_第1頁
試論基于多媒體的數據挖掘_第2頁
試論基于多媒體的數據挖掘_第3頁
試論基于多媒體的數據挖掘_第4頁
試論基于多媒體的數據挖掘_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 基于多媒體的數據挖掘摘要:多媒體挖掘是數據挖掘的一個新興且富有挑戰(zhàn)性的子領域。本文介紹了多媒體數據挖掘的特性,一種適合多媒體挖掘的系統模型,闡述了幾種多媒體挖掘方法以與討論了多媒體數據挖掘在知識服務中的應用。關鍵詞:數據挖掘,多媒體挖掘,挖掘方法,服務應用目前,數據挖掘是數據庫研究、開發(fā)和應用最活躍的分支之一,也是人們一直研究的熱點。在數據挖掘近年來研究與應用迅猛發(fā)展的過程中,前人取得了一定的成果1。新的和改進的算法不斷出現,所考察的數據類型日趨豐富,應用領域逐漸擴大,數據挖掘技術正慢慢融入到多媒體數據庫中。多媒體數據庫因為其數據量大、數據結構復雜、模式多樣等特點一直是人們研究的難點。隨著數

2、據挖掘技術應用的成功,人們將目光放到了多媒體數據庫中進行知識發(fā)現。一、數據挖掘的概念與其結構1、基本概念簡單地說,數據挖掘是從大量數據中提取或挖掘知識。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數據挖掘相近的同義詞有數據融合、數據分析和決策支持等。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發(fā)現的是用戶感興趣的知識;發(fā)現的知識要可接受、可理解、可運用;并不要求發(fā)現放之四海皆準的知識,僅支持特定的發(fā)現問題。數據挖掘是從大量數據中尋找其規(guī)律的技術,主要有數據準備、規(guī)律尋找和規(guī)律表

3、示三個步驟。2、體系結構一個典型的數據挖掘系統的體系結構如下:其中數據庫、數據倉庫或者是其他一些信息存儲媒介為數據挖掘的工作對象;服務器主要是響應數據挖掘引擎的請求,提取相應的數據;領域知識庫主要用來指導挖掘的過程,以與用來評價挖掘出來的候選模式;數據挖掘引擎是整個系統的核心部分,可以由以下模塊組成:分類模塊、關聯規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等;模式評價模塊主要是根據一定的度量標準來與數據挖掘模塊交互,以使得數據挖掘向著我們感興趣的方向進行,往往越是高效的數據挖掘系統這種交互影響的程度越高;圖形用戶界面主要是為方便用戶與數據挖掘系統的交互,由用戶提出挖掘任務、指定重要的挖掘參

4、數以與由當前返回的結果指導進行更進一步的挖掘工作。二、多媒體與數據挖掘相結合隨著多媒體技術的發(fā)展,人們接觸的數據形式不斷地豐富,多媒體數據庫的日益增多,原有的數據庫技術已滿足不了應用的需要,人們希望從這些媒體數據中得到一些高層的概念和模式,找出蘊涵于其中的有價值的知識。這種將數據挖掘技術和多媒體信息處理技術有機地結合起來形成的在多媒體數據中進行知識發(fā)現的信息處理方法就是多媒體數據挖掘 。1、多媒體數據挖掘的特性 由于音頻視頻設備、數碼像機、CD- ROM和因特網的流行和普與,多媒體數據庫系統變得日益普通。多媒體數據通常是一種多維的、非結構化或者半結構化的,各媒體數據有著不同的特點,有著各自表述

5、信息的方式,各媒體既可獨立表示信息又可共同表示一樣事件的不同特征,共同描述事件的存在、發(fā)展和結果。因此,多媒體數據集中必定存在關于信息主體的特征、屬性以與它們之間的關系,或者存在著某些人們從直觀上無法得到的模式。多媒體數據挖掘是一種智能的數據分析,旨在從特定的多媒體數據集中發(fā)現必要的結果來用于決策、對策與融合分析。例如在MMMiner(Mult iMediaMiner,多媒體挖掘)中,如查找包含人臉的所有圖像,用戶界面上就會逐步顯示不同國家、不同膚色、不同表情的人臉,而不是顯示一些猴臉或者是馬臉。由此可見,多媒體挖掘就是從大量的多媒體數據集中,通過綜合分析視聽特性和語義,發(fā)現隱含的、有效的、有

6、價值的、可理解的模式,得出事件的趨向和關聯,為用戶提供問題求解層次的決策支持能力。22、多媒體數據挖掘的系統模型多媒體挖掘需要一個切實可行的系統框架模型。它的一般系統結構模型如圖:3、多媒體數據挖掘的方法31多媒體數據的相似性搜索 對于多媒體數據相似性搜索,主要考慮兩種多媒體索引和檢索系統:(1)基于描述的檢索系統,它基于圖像描述(如關鍵詞、標題、尺寸和創(chuàng)建時間等)建立索引和進行對象檢索:(2)基于容的檢索系統,它支持基于圖像容的檢索,如顏色直方圖、紋理、模式、圖像拓撲、對象的形狀和它們在圖像中的布局和位置。基于描述的檢索若人工完成是很費力的。若自動完成,則質量較差。例如,關鍵詞到圖像的賦值可

7、能是棘手和武斷的任務。最近開發(fā)的基于web的圖像聚類和分類方法提高了基于描述的web圖像檢索的質量,因為環(huán)繞圖像的文本信息和web信息可以用于提取合適的描述,并將描述相似主題的圖像聚合在一起?;谌莸臋z索使用視覺特征索引圖像,并促進基于特征相似性的對象檢索,這在很多應用中都是非常期望的。332多媒體數據的多維分析 為便于大型多媒體數據庫的多維分析,可以用類似于從關系數據構造傳統數據立方體的方法,設計和構造多媒體數據立方體。多媒體數據立方體可包含針對多媒體信息的維和度量,如顏色、紋理和形狀。如圖是一個簡單的圖像數據立方體的模型:多媒體數據立方體是一種對多媒體數據進行多維分析的有趣模型, 通過適當

8、的一些操作: 上卷、下鉆、切片和切塊、轉軸(旋轉)可以進行強有力的分析。多媒體數據立方體的建立有助于基于視覺容的多媒體數據的多維分析,和多種知識的挖掘,包括匯總、比較、分類、關聯和聚類。33多媒體數據的分類和預測分析分類和預測建模已經用于挖掘多媒體數據,尤其在科學研究中,如天文學、地震學和地理科學的研究。數據分類可通過以下兩步來實現:(1)建立描述預先定義的數據類或概念集的分類器: 分類通常是根據媒體數據的某一特性來確定的,該特性在元數據庫中表現為視聽描述子。通過分析元數據庫中部分數據的該描述子值來構造模型,并把用于建立模型的媒體數據作為訓練集。訓練樣本可以隨機選取,并預先給出類標號。(2)使

9、用模型分類:首先評估分類器的預測準確率,用給定檢驗集上的準確率來判定分類器的準確率,如果分類器的準確率可以接受,就可以用它來對未來元組進行分類。34多媒體數據挖掘的關聯規(guī)則 多媒體圖像數據挖掘的一個十分關鍵的問題是圖像數據本身的表示問題。這也是圖像處理和模式識別的關鍵。一般說來,可以用顏色、紋理、形狀和運動向量等來表示圖像的基本特征。高級概念可以看成是一種特征模式。多媒體圖像數據挖掘的過程可以由下圖所示:在圖像和視頻數據庫中,可以挖掘涉與多媒體對象的關聯規(guī)則。至少包括以下三類:(1)圖像容和非圖像容特征間的關聯:如規(guī)則“如果一幅圖片的上面至少50%是藍色,則它很可能代表天空”屬于此類,因為它把

10、圖像的容和關鍵詞天空關聯在一起。(2)與空間聯系無關的圖像容間的關聯:如規(guī)則“如果一幅圖片包含兩個藍色正方形,則它很可能也包含一個紅色圓形”屬于此類,因為關聯考慮的都是圖像容。(3)與空間聯系有關的圖像容間的關聯:如規(guī)則“如果一個紅色三角形在兩個黃色正方形之間,則很可能下面存在一個大的橢圓形對象”屬于此類,因為它把圖像中對象與空間聯系關聯在一起。4為了挖掘多媒體對象間的關聯,可以把每個圖像看作一個事務,找出在不同圖像中頻繁出現的模式。三、多媒體數據挖掘在知識服務中的應用1、文本數據挖掘所謂多媒體文本數據挖掘,就是從大量的多媒體文本數據中發(fā)現有意義的模式過程。多媒體文本數據挖掘的過程對多媒體文本

11、數據挖掘最行之有效的途徑就是將多媒體文本數據結構化后,再對結構化數據采用數據挖掘方法。文本挖掘從功能上可以分為總結、分類、聚類、趨勢預測等。文本是指從文檔中抽取關鍵信息,用簡潔的形式對文檔容進行摘要或解釋。從而用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體容。文本總結在有些場合非常有用,例如, 搜索引擎在向用戶返回查詢結果時,通常需要給出文檔的摘要。目前,絕大部分搜索引擎采用的方法是簡單地截取文檔的前幾行。在對文檔進行特征提取前,需要先進行文本信息的預處理,對英文而言,需進行Stemming 處理,中文的情況則不同,因為中文詞與詞之間沒有固有的間隔符,需要進行分詞處理。在中文信息處理領域,對

12、中文自動分詞研究已經比較多了,提出了一些分詞方法,如最大匹配法、逐詞遍歷匹配法、最小匹配法等。采用基于詞典的正向逐詞遍歷匹配法,在我們設計的分類系統(ST CS)中,我們在分析了最大匹配法的特點后,提出了一種改進的算法。該算法在允許一定的分詞錯誤率的情況下,能顯著提高分詞效率,其速度優(yōu)于傳統的最大匹配法。但是我們忽略了通用詞的處理,僅處理專用詞典中詞條,從而較好地避免了通用分詞的技術問題,此方法適合于專用領域文檔的分類。2、圖像數據挖掘圖像挖掘是多媒體挖掘的一個分支,圖像挖掘可以廣泛地應用于圖像檢索、醫(yī)學影像診斷分析、衛(wèi)星圖片分析、地下礦藏預測等各種領域。其挖掘方法和原型結構存在著巨大的改進空

13、間。圖像挖掘的一般過程如下。運用圖像處理技術。如圖像分割、邊緣探測、邊緣提取、模式識別等。從圖像(視頻幀)中抽取能代表、區(qū)分該圖像的結構化容的特征。同時收集用于圖像處理和數據挖掘所需要的知識。獲得各種元數據與領域知識。建立特征庫和知識庫。 當挖掘任務確定后。抽取與挖掘任務相關的特征向量。形成多維特征向量。在這些特征向量空間中比較、分析各向量之間的距離或相似關系。在知識庫的指導下。完成對圖像容的分析、索引、摘要、分類、聚類、關聯等操作。將所得到的結果進行解釋和表示。從而獲得高層的概念或模式。63、視頻、音頻數據挖掘除了靜態(tài)圖像,在數字文檔、萬維網、廣播數據流、個人或專業(yè)數據庫中,還能獲得數字形式

14、的大量音頻和視頻信息。這類信息量增長迅速,迫切需要針對音頻和視頻數據的、有效的、基于容的檢索和挖掘方法。典型的例子包括:在TV工作室搜索和多媒體編輯特定的視頻片段,從監(jiān)視錄像中檢測可疑的人或場景,在個人多媒體庫中檢索特定的事件,從氣象雷達記錄中發(fā)現模式或離散點,在你的MP3音頻簿中找到特定的主旋律或曲調。4、在醫(yī)學圖書館服務中的應用多媒體數據挖掘對醫(yī)學信息有很強的適應性。多媒體技術的應用便于醫(yī)學信息的儲存多媒體技術是當今信息技術領域發(fā)展最快、最活躍的技術,是新一代電子技術發(fā)展和競爭的焦點。利用現代數據挖掘技術對醫(yī)學信息進行組織、開發(fā)、傳遞和評價以與導航,可以最大限度滿足用戶的醫(yī)學信息資源需求和

15、服務需求。多媒體醫(yī)學信息數據庫系統為醫(yī)學教育、咨詢提供了方便的技術手段,也為從事臨床醫(yī)學研究的人員提供了高效的數據處理工具。目前,高校醫(yī)學資源庫的建立已初具規(guī)模,擁有多種媒體、容豐富的數字化信息資源。這些信息具有模式的多態(tài)性(純數據、圖像、信號、文字等)、不完整性(疾病信息的客觀不完整和描述疾病的豐觀不完整)、較強時間性、復雜性和冗余性。常用的數據庫與統計分析方法已經遠不能滿足現實的要求,因此。必須使用多媒體數據庫對高校醫(yī)學信息資源進行整理和收集。多媒體數據挖掘在醫(yī)學圖書館服務中的應用·醫(yī)學資料的數據類型多種多樣,大致有下列幾種:文本,包括病員的個人資料,如、性別,住址等;長文本,包

16、括病史詳述、醫(yī)生的診斷報告等;靜態(tài)圖像,包括各類醫(yī)學圖片,如CT、x光片、等;運動圖像,包括B超或血管造影等得到的視頻圖像;聲音,包括電子聽診器偵聽到的聲音和醫(yī)生的口頭診斷結果等音頻數據5。醫(yī)學信息的特點要求多媒體挖掘技術在基礎醫(yī)學領域、疾病的臨床診斷和治療方面、流行病學研究和醫(yī)學統計方法學方面、醫(yī)院和衛(wèi)生事業(yè)管理等多方面都已經有各種挖掘方法和軟件出現(如DNA序列分析)。相信隨著數據挖掘技術的廣泛應用,方法的不斷改進,可實現軟件的發(fā)展,數據挖掘在醫(yī)學領域的應用將更為廣泛和深入,從而帶來更大的社會經濟效益。四、前景展望多媒體數據挖掘是多媒體和數據挖掘的結合,是一個新的研究方向,一些概念和方在形成中,有很多問題急待解決。盡管多媒體數據挖掘面臨著許多問題和挑戰(zhàn),但是對多媒體數據進行挖掘并且實現智能化信息檢索是未來發(fā)展的需求,是一個很有前途的研究方向。我相信隨著研究的深入,一定會取得更多的成就。而隨著多媒體數據挖掘的不斷發(fā)展,技術的進步,對于人們的日常生活也會產生巨大的影響。我相信多媒體數據挖掘的發(fā)展會給人們帶來更便捷、更豐富的生活。參考文獻:1Advances in k

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論