版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 內(nèi)容提要 智能決策智能決策是物聯(lián) 網(wǎng)“智慧”的來源。 本章將介紹數(shù)據(jù)挖掘的 基本流程,基本類型和 典型算法。 第12章介紹了搜索引擎的相關(guān)知識 搜索引擎的基本組成 搜索引擎的體系結(jié)構(gòu)(信息采集,索引技術(shù),搜索服 務(wù)) 物聯(lián)網(wǎng)中搜索引擎的挑戰(zhàn) 本章介紹數(shù)據(jù)挖掘的基本流程(預(yù)處理,數(shù)據(jù)挖掘, 知識評估與表示),重點介紹幾種典型的數(shù)據(jù)挖掘算 法,最后討論物聯(lián)網(wǎng)中智能決策的新特點。 內(nèi)容回顧 13.1 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘有哪三個步驟? 本章內(nèi)容 13.1 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Min
2、ing) 從大量數(shù)據(jù)中獲取潛在有用的并且可以被人們理解的模式的過程 是一個反復(fù)迭代的人機(jī)交互和處理的過程,歷經(jīng)多個步驟, 并且在一些步驟中需要由用戶提供決策 數(shù)據(jù)挖掘的過程:數(shù)據(jù)挖掘的過程: 數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和對挖掘結(jié)果的評估與表示 每一個階段的輸出結(jié)果成為下一個階段的輸入 13.1 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程 數(shù)據(jù)預(yù)處理階段數(shù)據(jù)預(yù)處理階段 數(shù)據(jù)準(zhǔn)備:了解領(lǐng)域特點,確定用戶需求 數(shù)據(jù)選取:從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本 數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)的完整性及一致性,消除噪聲等 數(shù)據(jù)變換:通過投影或利用其他操作減少數(shù)據(jù)量 數(shù)據(jù)挖掘階段數(shù)據(jù)挖掘階段 確定挖掘目標(biāo):確定要發(fā)現(xiàn)的知識類型
3、 選擇算法:根據(jù)確定的目標(biāo)選擇合適的數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘:運用所選算法,提取相關(guān)知識并以一定的方式表示 知識評估與表示階段知識評估與表示階段 模式評估:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進(jìn)行評估 知識表示:使用可視化和知識表示相關(guān)技術(shù),呈現(xiàn)所挖掘的知識 13.1 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程 13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘的基本類型和算法有那些? 本章內(nèi)容 13.2 數(shù)據(jù)挖掘的基本類型和算法 數(shù)據(jù)挖掘的基本類型數(shù)據(jù)挖掘的基本類型 關(guān)聯(lián)分析(Association Analysis) 聚
4、類分析(Clustering Analysis) 離群點分析(Outlier Analysis) 分類與預(yù)測(Classification and Prediction) 演化分析(Evolution Analysis) 描述性挖掘任務(wù): 刻劃數(shù)據(jù)庫中數(shù) 據(jù)的一般特性 預(yù)測性挖掘任務(wù): 在當(dāng)前數(shù)據(jù)上進(jìn)行 推斷和預(yù)測 關(guān)聯(lián)分析 關(guān)聯(lián)分析關(guān)聯(lián)分析的目標(biāo)是從給定的數(shù)據(jù)中發(fā)現(xiàn)頻繁出現(xiàn)的模式,即關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則通常的表述形式是X Y,表示“數(shù)據(jù)庫中滿足條件X的記錄(元組) 可能也滿足條件Y” 以某電器商場銷售記錄為例: 含義:4% (支持度)的顧客的年齡在20至29歲且月收入在3000至500
5、0元,且 這樣的顧客中,65% (置信度)的人購買了筆記本電腦 關(guān)聯(lián)分析 挖掘關(guān)聯(lián)規(guī)則,需要置信度和支持度越高越好 基本概念基本概念 項集:滿足若干條件的數(shù)據(jù)項的集合,如果條件數(shù)為k,則稱k-項集 滿足年齡(顧客, “2029”)的項集是1-項集 滿足年齡(顧客, “2029”) 收入(顧客, “30005000”)的項集是2-項集 計算步驟計算步驟 首先找到具備足夠支持度的項集,即頻繁項集 然后由頻繁項集構(gòu)成關(guān)聯(lián)規(guī)則,并計算置信度 關(guān)聯(lián)分析 如何尋找頻繁項集如何尋找頻繁項集 Apriori算法 基本思想:基本思想:利用已求出的k-項集來計算(k+1)-項集 首先計算頻繁1-項集 然后根據(jù)兩個
6、頻繁k-項集p1, p2, ., pk,q1, q2, ., qk計算頻繁(k+1)- 項集,其中pi=qi,1=i=k-1,且該(k+1)-項集為p1, p2, ., pk, qk 最后判定該(k+1)-項集是否頻繁即可 缺點:缺點:可能產(chǎn)生大量候選項集,并需要重復(fù)地掃描數(shù)據(jù)庫 FP-Growth算法 利用樹狀結(jié)構(gòu)保存項集,從而減小了計算頻繁項集所需的存儲空間 關(guān)聯(lián)分析 如何由頻繁項集構(gòu)造關(guān)聯(lián)規(guī)則,并計算置信度如何由頻繁項集構(gòu)造關(guān)聯(lián)規(guī)則,并計算置信度 關(guān)聯(lián)規(guī)A B的置信度 其中count(A AND B)為滿足條件A以及B的數(shù)據(jù)項數(shù)目,count(A)為滿足條件A 的數(shù)據(jù)項數(shù)目 計算步驟計算
7、步驟 對于每一個頻繁項集S,計算S的所有非空子集 對于每個S的非空子集F,若 大于給定置信度閾值,則得到一 個關(guān)聯(lián)規(guī)則 )(count ) AND (count )|(P)(Confidence A BA ABBA )(count )(count F S )(FSF 分類和預(yù)測 分類和預(yù)測分類和預(yù)測的目標(biāo)是找出描述和區(qū)分不同數(shù)據(jù)類或概念的模型 或函數(shù),以便能夠使用模型預(yù)測數(shù)據(jù)類或標(biāo)記未知的對象 所獲得的分類模型分類模型可以采用多種形式加以描述輸出 分類規(guī)則 判定樹 數(shù)學(xué)公式 神經(jīng)網(wǎng)絡(luò) 分類與預(yù)測的區(qū)別:分類與預(yù)測的區(qū)別:分類通常指預(yù)測數(shù)據(jù)對象屬于哪一類,而當(dāng)被預(yù)測 的值是數(shù)值數(shù)據(jù)時,通常稱為預(yù)
8、測 分類和預(yù)測 以判定樹判定樹方法為例,簡要介紹分類的基本步驟和結(jié)果表示 問題實例問題實例:假定商場需要向潛在的客戶郵寄新產(chǎn)品資料 和促銷信息。客戶數(shù)據(jù)庫描述的客戶屬性包括姓名、年齡、 收入、職業(yè)和信用記錄。 我們可以按是否會在商場購買計算機(jī)將客戶分為兩類,只 將促銷材料郵寄給那些會購買計算機(jī)的客戶,從而降低成 本。 分類和預(yù)測 用于預(yù)測客戶是否可能購買計算機(jī)的判定樹,其中每個非樹葉節(jié)點表示 一個屬性上的測試,每個樹葉節(jié)點代表預(yù)測結(jié)果 分類和預(yù)測 如何構(gòu)造上述判定樹?如何構(gòu)造上述判定樹? 基本概念:基本概念:n個客戶中有a個購買了計算機(jī)的期望信息 建立樹節(jié)點時,選取合適的判定屬性,以最大化期望
9、信息增益應(yīng) 某種屬性上的信息增益大小反映了該屬性區(qū)分給定數(shù)據(jù)的的能力強弱 n an n an n a n a anaI loglog),( 10條客戶記錄,其中6人購買了計算機(jī),4人沒有購買。這10位客戶中有3 人的職業(yè)是學(xué)生,其中有2人購買計算機(jī),而非學(xué)生客戶購買計算機(jī)的有4 人。在選擇區(qū)分屬性以前,數(shù)據(jù)的期望信息為 ,用職業(yè)區(qū) 分之后的期望信息為 ,則選擇職業(yè)作為區(qū)分屬性 的信息增益為 673. 0)4 , 6( IE 669. 0)3 , 4( 10 7 ) 1 , 2( 10 3 IIE 004. 0EE 聚類分析 聚類的目的是將數(shù)據(jù)對象劃分為多個類或簇, 在同一個簇中的對象之間具有較
10、高的相似度, 而不同簇中的對象差別較大 聚類與分類的區(qū)別:聚類與分類的區(qū)別:要劃分的類是事先未知的 聚類分析的應(yīng)用聚類分析的應(yīng)用 政治博客空間及其中一個社區(qū)結(jié)構(gòu) (Political polblogsphere Feb.2005, compiled by Lada Adamic and Natalie Glance) 復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu) 社會網(wǎng)絡(luò)中的社區(qū)代表根據(jù)興趣或 背景而形成的真實的社會團(tuán)體,引 文網(wǎng)絡(luò)中的社區(qū)代表針對同一主題 的相關(guān)論文,萬維網(wǎng)中的社區(qū)就是 討論相關(guān)主題的若干網(wǎng)站。發(fā)現(xiàn)這 些網(wǎng)絡(luò)中的社區(qū)有助于我們有效地 理解網(wǎng)絡(luò)。 聚類分析 聚類分析的方法聚類分析的方法 劃分方法劃分方法
11、:要求事先給定聚類的數(shù)目k。首先創(chuàng)建一個初始劃分,然后通過 對劃分中心點的反復(fù)迭代來改進(jìn)劃分。典型算法有k-means算法等 層次方法層次方法:對給定數(shù)據(jù)集合進(jìn)行逐層遞歸的合并或者分裂,因此可以被分 為合并或分裂方法。合并方法首先將每個對象都作為獨立的類,然后持續(xù)合 并相近的類,直到達(dá)到終止條件為止。分裂方法首先將所有的數(shù)據(jù)對象置于 一個類中,然后反復(fù)迭代并判定當(dāng)前的類是否可以被繼續(xù)分裂,直到達(dá)到終 止條件為止 基于密度的方法基于密度的方法:只要某區(qū)域數(shù)據(jù)密度超過閾值,就將該區(qū)域的數(shù)據(jù)進(jìn)行 聚類。其優(yōu)勢在于噪音數(shù)據(jù)下的抗干擾能力,并能夠發(fā)現(xiàn)任意形狀的聚類 聚類分析 聚類分析的方法(續(xù))聚類分析
12、的方法(續(xù)) 基于網(wǎng)格的方法基于網(wǎng)格的方法:把對象空間量化為具有規(guī)則形狀的單元格,從而形成一 個網(wǎng)格狀結(jié)構(gòu)。在聚類的時候,將每個單元格當(dāng)作一條數(shù)據(jù)進(jìn)行處理。優(yōu)點 是處理速度很快,因處理時間與數(shù)據(jù)對象數(shù)目無關(guān),而只與量化空間中的單 元格數(shù)目相關(guān) 基于模型的方法基于模型的方法:如果事先已知數(shù)據(jù)是根據(jù)潛在的概率分布生成的,基于 模型的方法便可為每個聚類構(gòu)建相關(guān)的數(shù)據(jù)模型,然后尋找數(shù)據(jù)對給定模型 的最佳匹配。主要分兩類:統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法 離群點分析 離群點離群點(Outlier):數(shù)據(jù)集合中存在的一些數(shù)據(jù)對象,它們與其余絕大多數(shù) 數(shù)據(jù)的特性或模型不一致 尋找離群點的意義尋找離群點的意義 發(fā)現(xiàn)信
13、用卡詐騙發(fā)現(xiàn)信用卡詐騙。通過檢測購物地點、商品種類或者購物金額和頻率, 能夠發(fā)現(xiàn)與絕大多數(shù)正常消費不一樣的記錄,這種行為就有可能屬于信 用卡詐騙性使用 預(yù)防網(wǎng)絡(luò)詐騙預(yù)防網(wǎng)絡(luò)詐騙。在網(wǎng)絡(luò)銷售的時候,詐騙者往往冒充商家,出售報價 比正常價格低出許多的商品,這樣的行為也是可以通過離群點分析被找 到的 離群點分析 尋找離群點的方法尋找離群點的方法 基于統(tǒng)計的方法:基于統(tǒng)計的方法:需要事先已知數(shù)據(jù)的分布或概率模型(例如一個正態(tài)分布), 然后根據(jù)數(shù)據(jù)點與該模型的不一致性檢驗來確定離群點 基于距離的方法:基于距離的方法:不需要數(shù)據(jù)模型,而是將那些沒有足夠鄰居的數(shù)據(jù)對象 看作是離群點,這里的鄰居是基于距給定對
14、象的距離來定義的。現(xiàn)有的基于 距離的離群點探測算法又分為基于索引的算法,嵌套循環(huán)算法和基于單元的 算法,其目的都是為了減小計算和I/O開銷 基于偏移的方法:基于偏移的方法:不采用統(tǒng)計檢驗或基于距離的度量值來確定異常對象。 相反,它通過檢查數(shù)據(jù)對象的一組主要特征來確定離群點。偏離事先給出的 特征描述的數(shù)據(jù)對象被認(rèn)為是離群點 演化分析 演化分析演化分析的目的是挖掘隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢,并 對其建模,進(jìn)而為相關(guān)決策提供參考 演化分析的應(yīng)用演化分析的應(yīng)用 對股票的演化分析可以得出整個股票市場和特定的公司的股票變化規(guī) 律,為投資者決策提供幫助 對生態(tài)和氣候的演化分析可以知道人類活動對自然
15、的影響程度,為環(huán) 境保護(hù)提供重要依據(jù) 建模方法:建模方法:除了關(guān)聯(lián)分析和分類分析,還包括與時間相關(guān)的數(shù)據(jù)分析方 法,主要包括趨勢分析、相似搜索、序列模式挖掘和與周期分析 演化分析 與時間相關(guān)的數(shù)據(jù)分析方法與時間相關(guān)的數(shù)據(jù)分析方法 趨勢分析:趨勢分析:確定趨勢的常見方法是計算數(shù)據(jù)n階的變化平均值,或者采用最 小二乘法等方法平滑數(shù)據(jù)變化曲線 相似搜索:相似搜索:相似搜索用于找出與給定序列最接近的數(shù)據(jù)序列 序列模式挖掘:序列模式挖掘:挖掘相對時間或其它維屬性出現(xiàn)頻率高的模式 周期分析:周期分析:挖掘具有周期的模式或者關(guān)聯(lián)規(guī)則,例如”若每周六公司的下 班時間比平時晚半小時以上,則選擇打車回家的人數(shù)大約
16、增加20%” 13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng)智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘在物聯(lián)網(wǎng)背景下有著廣泛的需求 本章內(nèi)容 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘技術(shù)在物聯(lián)網(wǎng)中的需求數(shù)據(jù)挖掘技術(shù)在物聯(lián)網(wǎng)中的需求 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析 精準(zhǔn)農(nóng)業(yè) 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量 監(jiān)控 互聯(lián)網(wǎng)用戶行為 分析 通過植入土壤或暴露在空氣中的傳感器監(jiān)控土壤性狀 和環(huán)境狀況。 數(shù)據(jù)通過物聯(lián)網(wǎng)傳輸?shù)竭h(yuǎn)程控制中心,可及時查清當(dāng) 前農(nóng)作物的生長環(huán)境現(xiàn)狀和變化趨勢,確定農(nóng)作物的生 產(chǎn)目標(biāo)。 通
17、過數(shù)據(jù)挖掘的方法,可以知道:環(huán)境溫度濕度和土 壤各項參數(shù)等因素是如何影響農(nóng)作物產(chǎn)量的,如何調(diào)節(jié) 它們才能夠最大限度地提高農(nóng)作物產(chǎn)量 市場行銷 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量 監(jiān)控 互聯(lián)網(wǎng)用戶行為 分析 利用數(shù)據(jù)挖掘技術(shù)通過對用戶數(shù)據(jù)的分析,可以得到 關(guān)于顧客購物取向和興趣的信息,從而為商業(yè)決策提供 依據(jù) 數(shù)據(jù)庫行銷(Database Marketing) 通過交互式查詢、數(shù)據(jù)分割和模型預(yù)測等方法來 選擇潛在的顧客以便向它們推銷產(chǎn)品 預(yù)測采用何種銷售渠道和優(yōu)惠條件,使得用戶最 有可能被打動 貨籃分析(Basket Analysis) 通過分析市場銷售數(shù)據(jù)(例如POS數(shù)據(jù)庫
18、)來發(fā)現(xiàn)顧 客的購買行為模式 智能家居 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量 監(jiān)控 互聯(lián)網(wǎng)用戶行為 分析 以獲取天氣信息為例:一方面,智能設(shè)備隨時關(guān)注氣 象信息,并針對雨天發(fā)出報警提醒;另一方面,另外一 些智能終端會隨時跟蹤主人的行蹤,并通過數(shù)據(jù)挖掘方 法由主人的歷史行動特征數(shù)據(jù)預(yù)測他的去向 一旦預(yù)測到主人要出門,那么就在合適的時候由相應(yīng) 的智能終端提醒他不要忘記帶雨傘。例如,如果主人在 門口,就將由安裝在門上的智能設(shè)備向他發(fā)出提醒,如 果在車內(nèi),則由車載計算機(jī)發(fā)出提醒 金融安全 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量 監(jiān)控 互聯(lián)網(wǎng)用戶行為 分析 由于金融投資
19、的風(fēng)險很大,所以在進(jìn)行投資決策時, 需要通過對各種投資方向的數(shù)據(jù)進(jìn)行分析,以選擇最佳 的投資方向。數(shù)據(jù)挖掘可以通過對已有數(shù)據(jù)的處理,找 到數(shù)據(jù)對象之間的關(guān)系,然后利用學(xué)習(xí)得到的模式進(jìn)行 合理的預(yù)測 金融欺詐識別主要是通過分析正常行為和詐騙行為的 數(shù)據(jù)和模式,得到詐騙行為的一些特性,這樣當(dāng)某項業(yè) 務(wù)記錄符合這樣的特征時,識別系統(tǒng)可以向決策人員提 出警告 產(chǎn)品制造和質(zhì)量監(jiān)控 精準(zhǔn)農(nóng)業(yè) 市場行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量 監(jiān)控 互聯(lián)網(wǎng)用戶行為 分析 隨著科技進(jìn)步,制造業(yè)已不是簡單的手工勞動,而是 集成了多種先進(jìn)科技的流水作業(yè)。在產(chǎn)品的生產(chǎn)制造過 程中常常伴隨有大量的數(shù)據(jù),如產(chǎn)品的各種加工條件或 控制參數(shù)(如時間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)業(yè)安全生產(chǎn)管理辦法
- 動物救助捐贈管理計劃
- 體育賽事巴士租賃合同
- 神經(jīng)外科人才聘用合同模板
- 2022年大學(xué)森林資源專業(yè)大學(xué)物理下冊月考試卷C卷-附解析
- 2022年大學(xué)生物科學(xué)專業(yè)大學(xué)物理二月考試題C卷-附解析
- 25樓地面采暖工程施工合同
- 2022年大學(xué)數(shù)學(xué)專業(yè)大學(xué)物理二期末考試試卷D卷-附解析
- 2022年大學(xué)口腔醫(yī)學(xué)專業(yè)大學(xué)物理二期末考試試卷-附解析
- 新生兒濕疹護(hù)理健康宣教
- 【課件】第4課 畫外之意-中國傳統(tǒng)花鳥畫、人物畫 課件-2022-2023學(xué)年高中美術(shù)人教版(2019)美術(shù)鑒賞
- 堤壩拋石固腳施工方案(標(biāo)準(zhǔn)版)
- 醫(yī)療器械不良事件報告表
- 災(zāi)難救援現(xiàn)場的檢傷分類方法
- 探秘瀾滄江-湄公河流域的河流地貌(公共課件)
- 盤扣支架施工合同
- 建筑工程各種材料臺賬樣表格模板
- 配餐學(xué)校供餐企業(yè)交接餐檢查記錄表
- 通風(fēng)隊崗位說明書XXXX117
- 初中體育與健康人教九年級(2023年修訂) 田徑初三跨欄教案
- DB13T 5216-2020 建設(shè)用地土壤污染風(fēng)險篩選值
評論
0/150
提交評論