(整理)什么是數(shù)據(jù)挖掘0001_第1頁
(整理)什么是數(shù)據(jù)挖掘0001_第2頁
(整理)什么是數(shù)據(jù)挖掘0001_第3頁
(整理)什么是數(shù)據(jù)挖掘0001_第4頁
(整理)什么是數(shù)據(jù)挖掘0001_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘 (Data Mining) ,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn) (Knowledge Discovery in Database, KDD),就是 從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘 就是從大量數(shù)據(jù)中提取或 “挖掘 ”知識。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。 例如, 使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄, 或通過因特 網(wǎng)的搜索引擎查找特定的 Web 頁面,則是信息檢索( information retrieval )領(lǐng)域的任務(wù)。雖然這些任務(wù)是 重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科

2、學技術(shù)和數(shù)據(jù)的明顯特 征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強信息檢索系統(tǒng)的 能力。 數(shù)據(jù)挖掘的起源 為迎接前一節(jié)中的這些挑戰(zhàn), 來自不同學科的研究者匯集到一起, 開始著手開發(fā)可以處理不同數(shù)據(jù)類型 的更有效的、可伸縮的工具。這些工作建立在研究者先前使用的方法學和算法之上,在數(shù)據(jù)挖掘領(lǐng)域達到 高潮。特別地, 數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想: (1) 來自統(tǒng)計學的抽樣、 估計和假設(shè)檢驗, (2) 人 工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域 的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化

3、和信息檢索。 一些其他領(lǐng)域也起到重要的支撐作用。 特別地, 需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、 索引和查詢處理支持。 源于高性能 (并行) 計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。 分布式技術(shù)也能幫助處理海量數(shù)據(jù), 并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。 數(shù)據(jù)挖掘能做什么 1) 數(shù)據(jù)挖掘能做以下六種不同事情(分析方法): 分類(Classification ) 估值(Estimation ) 預(yù)言(Prediction ) 相關(guān)性分組或關(guān)聯(lián)規(guī)則( Affinity grouping or association rules ) 聚集( Clustering ) 描述和可視化( Des c

4、ription and Visualization ) 復(fù)雜數(shù)據(jù)類型挖掘 (Text, Web , 圖形圖像,視頻,音頻等 ) 2) 數(shù)據(jù)挖掘分類 以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 直接數(shù)據(jù)挖掘 目標是利用可用的數(shù)據(jù)建立一個模型, 這個模型對剩余的數(shù)據(jù), 對一個特定的變量 (可以理解成數(shù)據(jù)庫 中表的屬性,即列)進行描述。 間接數(shù)據(jù)挖掘 目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關(guān)系 。 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘 3) 各種分析方法的簡介 分類 ( Classification ) 首先從數(shù)據(jù)中選出

5、已經(jīng)分好類的訓(xùn)練集, 在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù), 建立分類模型, 對于 沒有分類的數(shù)據(jù)進行分類。 例子: a. 信用卡申請者,分類為低、中、高風險 b. 分配客戶到預(yù)先定義的客戶分片 注意: 類的個數(shù)是確定的,預(yù)先定義好的 估值( Estimation ) 估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的 類別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù) b. 根據(jù)購買模式,估計一個家庭的收入 c. 估計 real estate 的價值 一般來說, 估值可以作為分類的前一步工作。 給定一些輸入數(shù)據(jù),

6、通過估值,得到未知的連續(xù)變量的值, 然后,根據(jù)預(yù)先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score 01 )。然后,根據(jù)閾值,將貸款級別分類。 預(yù)言( Prediction ) 通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量 的預(yù)言。從這種意義上說,預(yù)言其實沒有必要分為一個單獨的類。預(yù)言其目的是對未來未知變量的預(yù)測, 這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則( Affinity grouping or association rules ) 決定哪些事情將一起

7、發(fā)生。 例子: a. 超市中客戶在購買 A的同時,經(jīng)常會購買 B,即A = B(關(guān)聯(lián)規(guī)則) b. 客戶在購買A后,隔一段時間,會購買 B (序列分析) 聚集(Clustering) 聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類, 不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病 b. 租 VCD 類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,哪一種類的促銷對客戶響應(yīng)最好? ,對于這一 類問題,首 先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更

8、好。 描述和可視化( Des cription and Visualization ) 是對數(shù)據(jù)挖掘結(jié)果的表示方式。 數(shù)據(jù)挖掘的一般流程 定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。 數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù) - 在大型 數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預(yù)處理-進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完 整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。 數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖 掘。 結(jié)果分析:對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。 知識的運用:將分析所得到的知識

9、集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。 數(shù)據(jù)挖掘的商業(yè)背景 數(shù)據(jù)挖掘首先是需要商業(yè)環(huán)境中收集了大量的數(shù)據(jù),然后要求挖掘的知識是有價值的。有價值對商業(yè) 而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。 數(shù)據(jù)挖掘技術(shù)實現(xiàn) 在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。 數(shù)據(jù)的抽取 數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù) 據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及 互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系

10、統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護。 數(shù)據(jù)的存儲和管理 數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù) 據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲 和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù) 據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的 服務(wù)器。 數(shù)據(jù)的展現(xiàn) 在數(shù)據(jù)展現(xiàn)方面主要的方式有: 查詢:實現(xiàn)預(yù)定義查詢、動態(tài)查詢、 OLAP 查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)

11、系數(shù)據(jù)表格、復(fù) 雜表格、 OLAP 表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網(wǎng)狀圖、 交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計:進行平均值、最大值、最 小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān) 系和模式的知識。 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖 掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉 庫應(yīng)用中極為重要和相對獨立的方面和工具。 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合

12、與互動發(fā)展的,其學術(shù)研究價值和應(yīng)用研究前景將是令人振奮的。它是數(shù) 據(jù)挖掘?qū)<?、?shù)據(jù)倉庫技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫“奴隸 ”到數(shù)據(jù)庫 “主人 轉(zhuǎn)變的企業(yè)最終用戶的通途。 數(shù)據(jù)挖掘 (Data Mining) ,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn) (Knowledge Discovery in Database, KDD) ,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡 過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或 “挖掘 ”知識。 1. 數(shù)據(jù)挖掘能做什么? 1) 數(shù)據(jù)挖掘能做以下六種不同事情(分析方法) : 分類 ( Classification

13、) 估值( Estimation ) 預(yù)言(Prediction ) 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules ) 聚集( Clustering ) 描述和可視化( Des cription and Visualization ) 復(fù)雜數(shù)據(jù)類型挖掘 (Text, Web ,圖形圖像,視頻,音頻等) 2) 數(shù)據(jù)挖掘分類 以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 直接數(shù)據(jù)挖掘 目標是利用可用的數(shù)據(jù)建立一個模型, 這個模型對剩余的數(shù)據(jù), 對一個特定的變量 (可 以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。 間接數(shù)據(jù)挖掘

14、 目標中沒有選出某一具體的變量, 用模型進行描述; 而是在所有的變量中建立起某種關(guān) 系。 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘 3) 各種分析方法的簡介 分類 ( Classification ) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集, 在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù), 建立 分類模型,對于沒有分類的數(shù)據(jù)進行分類。 例子: a. 信用卡申請者,分類為低、中、高風險 b. 分配客戶到預(yù)先定義的客戶分片 注意: 類的個數(shù)是確定的,預(yù)先定義好的 估值( Estimation ) 估值與分類類似, 不同之處在于, 分類描述的是離散型變量的輸出, 而估值處理連續(xù)值 的輸出;分類的類

15、別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù) b. 根據(jù)購買模式,估計一個家庭的收入 c. 估計 real estate 的價值 一般來說, 估值可以作為分類的前一步工作。 給定一些輸入數(shù)據(jù), 通過估值, 得到未知 的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運 用估值,給各個客戶記分(Score 01)。然后,根據(jù)閾值,將貸款級別分類。 預(yù)言( Prediction ) 通常, 預(yù)言是通過分類或估值起作用的, 也就是說, 通過分類或估值得出模型,該模型 用于對未知變量的預(yù)言。 從這種意義上說, 預(yù)言其實沒有必要分為

16、一個單獨的類。 預(yù)言其目 的是對未來未知變量的預(yù)測, 這種預(yù)測是需要時間來驗證的, 即必須經(jīng)過一定時間后, 才知 道預(yù)言準確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則( Affinity grouping or association rules ) 決定哪些事情將一起發(fā)生。 例子: a. 超市中客戶在購買 A的同時,經(jīng)常會購買 B,即A = B(關(guān)聯(lián)規(guī)則) b. 客戶在購買 A 后,隔一段時間,會購買 B (序列分析) 聚集( Clustering ) 聚集是對記錄分組, 把相似的記錄在一個聚集里。 聚集和分類的區(qū)別是聚集不依賴于預(yù) 先定義好的類,不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)

17、示了一個特定的疾病 b. 租 VCD 類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,哪一種類的促銷對客戶響應(yīng)最好?,對于這 一 類問題, 首先對整個客戶做聚集, 將客戶分組在各自的聚集里, 然后對每個不同的聚集, 回答問題,可能效果更好。 描述和可視化(Des cription and Visualization ) 是對數(shù)據(jù)挖掘結(jié)果的表示方式。 2.數(shù)據(jù)挖掘的商業(yè)背景 數(shù)據(jù)挖掘首先是需要商業(yè)環(huán)境中收集了大量的數(shù)據(jù),然后要求挖掘的知識是有價值的。 有 價值對商業(yè)而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。 3. 數(shù)據(jù)挖掘 技術(shù)實現(xiàn) 在技術(shù)

18、上可以根據(jù)它的工作過程分為: 數(shù)據(jù)的抽取、 數(shù)據(jù)的存儲和管理、 數(shù)據(jù)的展現(xiàn)等 關(guān)鍵技術(shù)。 數(shù)據(jù)的抽取 數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。 由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境, 它需要通過 抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。 數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù) 據(jù)抽取方面, 未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面, 以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源 的變化,使系統(tǒng)更便于管理和維護。 數(shù)據(jù)的存儲和管理 數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性, 也決定了其對外部數(shù)據(jù)的 表現(xiàn)形式。 數(shù)據(jù)倉庫管理所涉及的數(shù)

19、據(jù)量比傳統(tǒng)事務(wù)處理大得多, 且隨時間的推移而快速累 積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量 的數(shù)據(jù)、 如何優(yōu)化查詢等。 目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴展關(guān)系型數(shù)據(jù)庫 的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔當數(shù)據(jù)倉庫的服務(wù)器。 數(shù)據(jù)的展現(xiàn) 在數(shù)據(jù)展現(xiàn)方面主要的方式有: 查詢:實現(xiàn)預(yù)定義查詢、動態(tài)查詢、 OLAP 查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系 數(shù)據(jù)表格、 復(fù)雜表格、 OLAP 表格、報告以及各種綜合報表; 可視化: 用易于理解的點線圖、 直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互 關(guān)系;統(tǒng)計:進行平

20、均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖 掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識。 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作, 一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟, 提高數(shù)據(jù)挖掘的效率和能力, 確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù) 挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨立的方面和工具。 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動發(fā)展的,其學術(shù)研究價值和應(yīng)用研究前景將是令人振 奮的。它是數(shù)據(jù)挖掘?qū)<摇?數(shù)據(jù)倉庫技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從 數(shù)據(jù)庫 奴隸”到數(shù)據(jù)庫 主人”轉(zhuǎn)變的企業(yè)最終用戶的通

21、途???數(shù)據(jù)挖掘?qū)д?數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速進步使得各組織機構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的 信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處 理它們。有時,即使數(shù)據(jù)集相對較小,由于數(shù)據(jù)本身的非傳統(tǒng)特點,也不能使用傳統(tǒng)的方法 處理。在另外一些情況下,需要回答的問題不能使用已有的數(shù)據(jù)分析技術(shù)來解決。這樣,就 需要開發(fā)新的方法。 數(shù)據(jù)挖掘是一種技術(shù), 它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖 掘為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊有數(shù)據(jù)類型提供了令人振奮的機會。本 章,我們概述數(shù)據(jù)挖掘,并列舉本書所涵蓋的關(guān)鍵主題。我們從介紹需要新

22、的數(shù)據(jù)分析技術(shù) 的一些著名應(yīng)用開始。 商務(wù) 借助POS(銷售點)數(shù)據(jù)收集技術(shù)條碼掃描器、射頻識別(RFID)和智 能卡技術(shù),零售商可以在其商店的收銀臺收集顧客購物的最新數(shù)據(jù)。零售商可 以利用這些信息,加上電子商務(wù)網(wǎng)站的日志、電購中心的顧客服務(wù)記錄等其他的 重要商務(wù)數(shù)據(jù),更好地理解顧客的需求,做出更明智的商務(wù)決策。 數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作 流管理、商店分布和欺詐檢測等。數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商務(wù) 問題,如“誰是最有價值的顧客?” “什么產(chǎn)品可以交叉銷售或提升銷售?”“公 司明年的收入前景如何?”這些問題催生了一種新的數(shù)據(jù)分析技術(shù)一一關(guān)

23、聯(lián)分析 (見第6、7章)。 醫(yī)學、科學與工程醫(yī)學、科學與工程技術(shù)界的研究者正在快速積累大量數(shù)據(jù), 這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。 例如,為了更深入地理解地球的氣候 系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣 的全球觀測數(shù)據(jù)。然而,由于這些數(shù)據(jù)的規(guī)模和時空特性, 傳統(tǒng)的方法常常不適 合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘開發(fā)的技術(shù)可以幫助地球科學家回答如下問題:“干 旱和颶風等生態(tài)系統(tǒng)擾動的頻度和強度與全球變暖之間有何聯(lián)系?”“海洋表面 溫度對地表降水量和溫度有何影響?”“如何準確地預(yù)測一個地區(qū)的生長季節(jié)的 開始和結(jié)束?” 再舉一個例子,分子生物學研究者希望利用當前收集

24、的大量基因組數(shù)據(jù),更好地理解基因的 結(jié)構(gòu)和功能。過去,傳統(tǒng)方法只允許科學家在一個實驗中每次研究少量基因。微陣列技術(shù)的 最新突破已經(jīng)能讓科學家在多種情況下,比較數(shù)以千計的基因的特性。這種比較有助于確定 每個基因的作用,或許可以查出導(dǎo)致特定疾病的基因。然而,由于數(shù)據(jù)的噪聲和高維性,需 要新的數(shù)據(jù)分析方法。除分析基因序列數(shù)據(jù)外,數(shù)據(jù)挖掘還能用來處理生物學的其他難題, 如蛋白質(zhì)結(jié)構(gòu)預(yù)測、多序列校準、生物化學路徑建模和種系發(fā)生學。 1.1什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用 來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還具有預(yù)測未來觀測結(jié) 果的能力

25、,例如,預(yù)測一位新的顧客是否會在一家百貨公司消費100美元以上。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個 別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(inf ormation retrieval )領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜 的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學技術(shù)和數(shù)據(jù)的明顯特征 來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用 來增強信息檢索系統(tǒng)的能力。 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn) (knowledge discovery in database, KDD

26、 )不可 缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,如圖 1-1 所示。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。 后處理 信息 輸入數(shù)據(jù) 一數(shù)據(jù)預(yù)處理-一 數(shù)據(jù)挖掘 圖1-1數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD )過程 輸入數(shù)據(jù)可以以各種形式存儲(平展文件、電子數(shù)據(jù)表或關(guān)系表),并且可以駐留在集中的 數(shù)據(jù)存儲庫中,或分布在多個站點上。數(shù)據(jù)預(yù)處理(preprocess ing)的目的是將未加工的輸 入數(shù)據(jù)轉(zhuǎn)換成適合分析的形式。數(shù)據(jù)預(yù)處理涉及的步驟包括融合來自多個數(shù)據(jù)源的數(shù)據(jù),清 洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測值,選擇與當前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。由于收集 和

27、存儲數(shù)據(jù)的方式可能有許多種,數(shù)據(jù)預(yù)處理可能是整個知識發(fā)現(xiàn)過程中最費力、最耗時的 步驟。 “結(jié)束循環(huán)(closing the loop ) ”通常指將數(shù)據(jù)挖掘結(jié)果集成到?jīng)Q策支持系統(tǒng) 的過程。例如,在商務(wù)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果所揭示的規(guī)律可以與商務(wù)活動管 理工具集成,使得可以進行和測試有效的商品促銷活動。這樣的集成需要后處理 (postprocessing )步驟,確保只將那些有效的和有用的結(jié)果集成到?jīng)Q策支持系 統(tǒng)中。后處理的一個例子是可視化(見第 3章),它使得數(shù)據(jù)分析者可以從各種 不同的視角探查數(shù)據(jù)和數(shù)據(jù)挖掘結(jié)果。在后處理階段,還能使用統(tǒng)計度量或假設(shè) 檢驗,刪除虛假的數(shù)據(jù)挖掘結(jié)果。 1.2引發(fā)

28、數(shù)據(jù)挖掘的挑戰(zhàn) 正如前面所提到的,當面臨新的數(shù)據(jù)集提出的挑戰(zhàn)時,傳統(tǒng)的數(shù)據(jù)分析技術(shù)常常 遇到實際困難。下面是一些特定的挑戰(zhàn),它們引發(fā)了對數(shù)據(jù)挖掘的研究。 可伸縮由于數(shù)據(jù)產(chǎn)生和收集技術(shù)的進步,數(shù)吉字節(jié)、數(shù)太字節(jié)甚至數(shù)拍字節(jié) 的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是 可伸縮的(scalable )。許多數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)性搜索 問題。可伸縮可能還需要實現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),以有效的方式訪問個別記錄。例如,當要處理的數(shù)據(jù)不能放進內(nèi)存時,可能需要非內(nèi)存算法。使用抽樣技術(shù)或開發(fā)并 行和分布算法也可以提高可伸縮程度。 高維性 現(xiàn)在,常常遇到具有數(shù)以百計或數(shù)以千計

29、屬性的數(shù)據(jù)集,而不是數(shù)十 年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學領(lǐng)域,微陣列技術(shù)的進步已 經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達數(shù)據(jù)。 具有時間或空間分量的數(shù)據(jù)集也趨向于 具有很高的維度。例如,考慮包含不同地區(qū)的溫度測量的數(shù)據(jù)集。 如果溫度在一 個相當長的時間周期內(nèi)重復(fù)地測量,貝U維度(特征數(shù))的增長正比于測量的次數(shù)。 為低維數(shù)據(jù)開發(fā)的傳統(tǒng)的數(shù)據(jù)分析技術(shù)通常不能很好地處理這樣的高維數(shù)據(jù)。此 外,對于某些數(shù)據(jù)分析算法,隨著維度(特征數(shù))的增加,計算復(fù)雜性迅速增加。 異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的 數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學、醫(yī)

30、學和其 他領(lǐng)域的作用越來越大,越來越需要能夠處理異種屬性的技術(shù)。 近年來,已經(jīng)出 現(xiàn)了更復(fù)雜的數(shù)據(jù)對象。這些非傳統(tǒng)的數(shù)據(jù)類型的例子包括含有半結(jié)構(gòu)化文本和 超鏈接的Web頁面集、具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù)、包含地球表面不同位置 上的時間序列測量值(溫度、氣壓等)的氣象數(shù)據(jù)。為挖掘這種復(fù)雜對象而開發(fā) 的技術(shù)應(yīng)當考慮數(shù)據(jù)中的聯(lián)系,如時間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu) 化文本和XML文檔中元素之間的父子聯(lián)系。 數(shù)據(jù)的所有權(quán)與分布有時,需要分析的數(shù)據(jù)并非存放在一個站點,或歸屬一 個單位,而是地理上分布在屬于多個機構(gòu)的資源中。 這就需要開發(fā)分布式數(shù)據(jù)挖 掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包

31、括:(1)如何降低執(zhí)行分布式計 算所需的通信量? (2)如何有效地統(tǒng)一從多個資源得到的數(shù)據(jù)挖掘結(jié)果?(3) 如何處理數(shù)據(jù)安全性問題? 非傳統(tǒng)的分析傳統(tǒng)的統(tǒng)計方法基于一種假設(shè)一檢驗?zāi)J?。換句話說,提出一 種假設(shè),設(shè)計實驗來收集數(shù)據(jù),然后針對假設(shè)分析數(shù)據(jù)。但是,這一過程勞力費 神。當前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評估數(shù)以千計的假設(shè),因此希望自動地 產(chǎn)生和評估假設(shè)導(dǎo)致了一些數(shù)據(jù)挖掘技術(shù)的開發(fā)。此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計的實驗的結(jié)果,并且它們通常代表數(shù)據(jù)的時機性樣本( opp ortunistic sample ),而不是隨機樣本(random sample )。而且,這些數(shù)據(jù)集 常

32、常涉及非傳統(tǒng)的數(shù)據(jù)類型和數(shù)據(jù)分布。 1.3數(shù)據(jù)挖掘的起源 為迎接前一節(jié)中的這些挑戰(zhàn),來自不同學科的研究者匯集到一起,開始著手開發(fā) 可以處理不同數(shù)據(jù)類型的更有效的、可伸縮的工具。這些工作建立在研究者先前 使用的方法學和算法之上,在數(shù)據(jù)挖掘領(lǐng)域達到高潮。特別地,數(shù)據(jù)挖掘利用了 來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設(shè)檢驗,(2)人工 智能、模式識別和機器學習的搜索算法、 建模技術(shù)和學習理論。數(shù)據(jù)挖掘也迅速 地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號 處理、可視化和信息檢索。 一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和

33、查 詢處理支持。源于高性能 (并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式 技術(shù)也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。 圖1-2展示數(shù)據(jù)挖掘與其他領(lǐng)域之間的聯(lián)系。 數(shù)據(jù)庫技術(shù)、并疔計算、分布式計算 1.4數(shù)據(jù)挖掘任務(wù) 通常,數(shù)據(jù)挖掘任務(wù)分為下面兩大類: l預(yù)測任務(wù)。這些任務(wù)的目標是根據(jù)其他屬性的值,預(yù)測特定屬性的值。被預(yù)測的屬性一般 稱目標變量(target variable)或因變量(dependent variable),而用來做預(yù)測的屬性稱說明 變量(explanatory variable) 或自變量(independent variable)。

34、 l描述任務(wù)。這里,目標是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異 常)。本質(zhì)上,描述性數(shù)據(jù)挖掘任務(wù)通常是探查性的,并且常常需要后處理技術(shù)驗證和解釋 結(jié)果。 圖1-3展示本書其余部分講述的四種主要數(shù)據(jù)挖掘任務(wù) 圖1-3四種主要數(shù)據(jù)挖掘任務(wù) 預(yù)測建模(predictive modeling)涉及以說明變量函數(shù)的方式為目標變量建立 模型。有兩類預(yù)測建模任務(wù):分類(classification ),用于預(yù)測離散的目標變 量;回歸(regression ),用于預(yù)測連續(xù)的目標變量。例如,預(yù)測一個Web用戶 是否會在網(wǎng)上書店買書是分類任務(wù),因為該目標變量是二值的。另一方面,預(yù)測 某股票的

35、未來價格是回歸任務(wù),因為價格具有連續(xù)值屬性。兩項任務(wù)目標都是訓(xùn) 練一個模型,使目標變量預(yù)測值與實際值之間的誤差達到最小。預(yù)測建??梢杂?來確定顧客對產(chǎn)品促銷活動的反應(yīng),預(yù)測地球生態(tài)系統(tǒng)的擾動,或根據(jù)檢查結(jié)果 判斷病人是否患有某種特定的疾病。 例1.1 預(yù)測花的類型 考慮如下任務(wù):根據(jù)花的特征預(yù)測花的種類。特殊地, 考慮根據(jù)是否屬于 Setosa、Versicolour、Virginica 這三類之一對鳶尾花(Ir is )進行分類。為進行這一任務(wù),我們需要一個數(shù)據(jù)集,包含這三類花的特性。 一個具有這類信息的數(shù)據(jù)集是著名的鳶尾花數(shù)據(jù)集,可從加州大學歐文分校的機 器學習數(shù)據(jù)庫中得到(http:/w

36、 /mlearn )。除花的種類之外, 該數(shù)據(jù)集還包含萼片寬度、萼片長度、花瓣長度和花瓣寬度四個其他屬性。(鳶 尾花數(shù)據(jù)集和它的屬性將在3.1節(jié)進一步介紹。)圖1-4給出鳶尾花數(shù)據(jù)集中1 50種化的化瓣寬度與化瓣長度的對比圖?;陮挾确殖蒷ow、medium high 、1.75,)?;ò觊L度也分成l 類,分別對應(yīng)于區(qū)間0, 0.75)、0.75, 1.75) 5,)。根據(jù) ow、medium high 三類,分別對應(yīng)于區(qū)間0, 2.5)、2.5, 5) 花瓣寬度和長度的這些類別,可以推出如下規(guī)則: I * * V K * VersicoJour * Vlrgmic

37、a CM.755 1 JunwftK聘麓用 圖1-4 150種鳶尾花的寬度與長度對比 花瓣寬度和花瓣長度為low蘊涵Setosa。 花瓣寬度和花瓣長度為medium蘊涵Versicolour。 花瓣寬度和花瓣長度為high蘊涵Virginica 。 盡管這些規(guī)則不能對所有的花進行分類,但是它們對大多數(shù)花都能很好地進行分 類(盡管不完善)。注意:根據(jù)花瓣寬度和花瓣長度,Setosa種類的花完全可 以與Versicolour和Virginica 種類的花分開;但是后兩類花在這些屬性上有一 些重疊。 關(guān)聯(lián)分析(association analysis)用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。 所發(fā)現(xiàn)的模

38、式通常用蘊涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模 的,關(guān)聯(lián)分析的目標是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具有相關(guān)功能的基因組、識別一起訪問的Web頁面、理解地球氣候系統(tǒng)不同元 素之間的聯(lián)系等。 例1.2購物籃分析表1-1給出的事務(wù)是在一家雜貨店收銀臺收集的銷售數(shù) 據(jù)。關(guān)聯(lián)分析可以用來發(fā)現(xiàn)顧客頻繁地同時購買的商品。例如,我們可能發(fā)現(xiàn)規(guī) 則尿布?牛奶。該規(guī)則暗示購買尿布的顧客多半會購買牛奶。這種類型的規(guī) 則可以用來發(fā)現(xiàn)相關(guān)商品中可能的交叉銷售的機會。 表1-1購物籃數(shù)據(jù) 事務(wù)ID 商品 1 面包,黃油,尿布,牛奶 2 咖啡,糖,小甜餅,鮭魚 3 面包,黃油,咖啡,尿布

39、,牛奶,雞蛋 4 面包,黃油,鮭魚,雞 5 雞蛋,面包,黃油 6 鮭魚,尿布,牛奶 7 面包,茶,糖,雞蛋 8 咖啡,糖,雞,雞蛋 9 面包,尿布,牛奶,鹽 10 茶,雞蛋,小甜餅,尿布,牛奶 聚類分析(cluster analysis)旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于 不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對 相關(guān)的顧客分組、找出顯著影響地球氣候的海洋區(qū)域以及壓縮數(shù)據(jù)等。 例1.3文檔聚類表1-2給出的新聞文章可以根據(jù)它們各自的主題分組。每 篇文章表示為詞一頻率對(w, C)的集合,其中W是詞,而c是該詞在文章中出現(xiàn) 的次數(shù)。在該數(shù)據(jù)集中,有兩個自然簇。

40、第一個簇由前四篇文章組成,對應(yīng)于經(jīng)濟新聞,而第二個簇包含后四篇文章,對應(yīng)于衛(wèi)生保健新聞。一個好的聚類算法 應(yīng)當能夠根據(jù)文章中出現(xiàn)的詞的相似性,識別這兩個簇。 表1-2新聞文章集合 文早 詞 1 dollar: 1, industry: 4, country: 2, loan: 3, deal: 2, government: 2 2 machinery: 2, labor: 3, market: 4, industry: 2, work: 3, country: 1 3 job: 5, in?ation: 3, rise: 2, jobless: 2, market: 3, country: 2

41、, index: 4 3 5 domestic: 3, forecast: 2, gain: 1, market: 2, sale: 3, price: 2 6 patient: 4, symptom: 2, drug: 3, health: 2, clinic: 2, doctor: 2 7 pharmaceutical: 2, company: 3, drug: 2, vaccine: 1, ?u: 3 8 death: 2, cancer: 4, drug: 3, public: 4, health: 3, director: 2 medical: 2, cost: 3, increase: 2, patient: 2, health: 3, care: 1 異常檢測(anomaly detection )的任務(wù)是識別其特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論