已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第13章物聯(lián)網中的智能決策 內容提要 智能決策是物聯(lián)網 智慧 的來源 本章將介紹數(shù)據挖掘的基本流程 基本類型和典型算法 第12章介紹了搜索引擎的相關知識搜索引擎的基本組成搜索引擎的體系結構 信息采集 索引技術 搜索服務 物聯(lián)網中搜索引擎的挑戰(zhàn)本章介紹數(shù)據挖掘的基本流程 預處理 數(shù)據挖掘 知識評估與表示 重點介紹幾種典型的數(shù)據挖掘算法 最后討論物聯(lián)網中智能決策的新特點 內容回顧 13 1數(shù)據挖掘概述13 2數(shù)據挖掘的基本類型和算法 13 3智能決策與物聯(lián)網什么是數(shù)據挖掘 數(shù)據挖掘有哪三個步驟 本章內容 13 1數(shù)據挖掘概述 數(shù)據挖掘 DataMining 從大量數(shù)據中獲取潛在有用的并且可以被人們理解的模式的過程是一個反復迭代的人機交互和處理的過程 歷經多個步驟 并且在一些步驟中需要由用戶提供決策數(shù)據挖掘的過程 數(shù)據預處理 數(shù)據挖掘和對挖掘結果的評估與表示每一個階段的輸出結果成為下一個階段的輸入 13 1數(shù)據挖掘概述 數(shù)據挖掘的過程數(shù)據預處理階段數(shù)據準備 了解領域特點 確定用戶需求數(shù)據選取 從原始數(shù)據庫中選取相關數(shù)據或樣本數(shù)據預處理 檢查數(shù)據的完整性及一致性 消除噪聲等數(shù)據變換 通過投影或利用其他操作減少數(shù)據量數(shù)據挖掘階段確定挖掘目標 確定要發(fā)現(xiàn)的知識類型選擇算法 根據確定的目標選擇合適的數(shù)據挖掘算法數(shù)據挖掘 運用所選算法 提取相關知識并以一定的方式表示知識評估與表示階段模式評估 對在數(shù)據挖掘步驟中發(fā)現(xiàn)的模式 知識 進行評估知識表示 使用可視化和知識表示相關技術 呈現(xiàn)所挖掘的知識 13 1數(shù)據挖掘概述 數(shù)據挖掘的過程 13 1數(shù)據挖掘概述13 2數(shù)據挖掘的基本類型和算法 13 3智能決策與物聯(lián)網數(shù)據挖掘的基本類型和算法有那些 本章內容 13 2數(shù)據挖掘的基本類型和算法 數(shù)據挖掘的基本類型關聯(lián)分析 AssociationAnalysis 聚類分析 ClusteringAnalysis 離群點分析 OutlierAnalysis 分類與預測 ClassificationandPrediction 演化分析 EvolutionAnalysis 描述性挖掘任務 刻劃數(shù)據庫中數(shù)據的一般特性 預測性挖掘任務 在當前數(shù)據上進行推斷和預測 關聯(lián)分析 關聯(lián)分析的目標是從給定的數(shù)據中發(fā)現(xiàn)頻繁出現(xiàn)的模式 即關聯(lián)規(guī)則關聯(lián)規(guī)則通常的表述形式是XY 表示 數(shù)據庫中滿足條件X的記錄 元組 可能也滿足條件Y 以某電器商場銷售記錄為例 含義 4 支持度 的顧客的年齡在20至29歲且月收入在3000至5000元 且這樣的顧客中 65 置信度 的人購買了筆記本電腦 關聯(lián)分析 挖掘關聯(lián)規(guī)則 需要置信度和支持度越高越好基本概念項集 滿足若干條件的數(shù)據項的集合 如果條件數(shù)為k 則稱k 項集滿足年齡 顧客 20 29 的項集是1 項集滿足年齡 顧客 20 29 收入 顧客 3000 5000 的項集是2 項集計算步驟首先找到具備足夠支持度的項集 即頻繁項集然后由頻繁項集構成關聯(lián)規(guī)則 并計算置信度 關聯(lián)分析 如何尋找頻繁項集Apriori算法基本思想 利用已求出的k 項集來計算 k 1 項集首先計算頻繁1 項集然后根據兩個頻繁k 項集 p1 p2 pk q1 q2 qk 計算頻繁 k 1 項集 其中pi qi 1 i k 1 且該 k 1 項集為 p1 p2 pk qk 最后判定該 k 1 項集是否頻繁即可缺點 可能產生大量候選項集 并需要重復地掃描數(shù)據庫FP Growth算法利用樹狀結構保存項集 從而減小了計算頻繁項集所需的存儲空間 關聯(lián)分析 如何由頻繁項集構造關聯(lián)規(guī)則 并計算置信度關聯(lián)規(guī)AB的置信度其中count AANDB 為滿足條件A以及B的數(shù)據項數(shù)目 count A 為滿足條件A的數(shù)據項數(shù)目計算步驟對于每一個頻繁項集S 計算S的所有非空子集對于每個S的非空子集F 若大于給定置信度閾值 則得到一個關聯(lián)規(guī)則 分類和預測 分類和預測的目標是找出描述和區(qū)分不同數(shù)據類或概念的模型或函數(shù) 以便能夠使用模型預測數(shù)據類或標記未知的對象所獲得的分類模型可以采用多種形式加以描述輸出分類規(guī)則判定樹數(shù)學公式神經網絡 分類與預測的區(qū)別 分類通常指預測數(shù)據對象屬于哪一類 而當被預測的值是數(shù)值數(shù)據時 通常稱為預測 分類和預測 以判定樹方法為例 簡要介紹分類的基本步驟和結果表示 問題實例 假定商場需要向潛在的客戶郵寄新產品資料和促銷信息 客戶數(shù)據庫描述的客戶屬性包括姓名 年齡 收入 職業(yè)和信用記錄 我們可以按是否會在商場購買計算機將客戶分為兩類 只將促銷材料郵寄給那些會購買計算機的客戶 從而降低成本 分類和預測 用于預測客戶是否可能購買計算機的判定樹 其中每個非樹葉節(jié)點表示一個屬性上的測試 每個樹葉節(jié)點代表預測結果 分類和預測 如何構造上述判定樹 基本概念 n個客戶中有a個購買了計算機的期望信息建立樹節(jié)點時 選取合適的判定屬性 以最大化期望信息增益應某種屬性上的信息增益大小反映了該屬性區(qū)分給定數(shù)據的的能力強弱 10條客戶記錄 其中6人購買了計算機 4人沒有購買 這10位客戶中有3人的職業(yè)是學生 其中有2人購買計算機 而非學生客戶購買計算機的有4人 在選擇區(qū)分屬性以前 數(shù)據的期望信息為 用職業(yè)區(qū)分之后的期望信息為 則選擇職業(yè)作為區(qū)分屬性的信息增益為 聚類分析 聚類的目的是將數(shù)據對象劃分為多個類或簇 在同一個簇中的對象之間具有較高的相似度 而不同簇中的對象差別較大聚類與分類的區(qū)別 要劃分的類是事先未知的聚類分析的應用 聚類分析 聚類分析的方法劃分方法 要求事先給定聚類的數(shù)目k 首先創(chuàng)建一個初始劃分 然后通過對劃分中心點的反復迭代來改進劃分 典型算法包括k means算法和k medoids算法等層次方法 對給定數(shù)據集合進行逐層遞歸的合并或者分裂 因此可以被分為合并或分裂方法 合并方法首先將每個對象都作為獨立的類 然后持續(xù)合并相近的類 直到達到終止條件為止 分裂方法首先將所有的數(shù)據對象置于一個類中 然后反復迭代并判定當前的類是否可以被繼續(xù)分裂 直到達到終止條件為止基于密度的方法 只要某區(qū)域數(shù)據密度超過閾值 就將該區(qū)域的數(shù)據進行聚類 其優(yōu)勢在于噪音數(shù)據下的抗干擾能力 并能夠發(fā)現(xiàn)任意形狀的聚類 聚類分析 聚類分析的方法 續(xù) 基于網格的方法 把對象空間量化為具有規(guī)則形狀的單元格 從而形成一個網格狀結構 在聚類的時候 將每個單元格當作一條數(shù)據進行處理 優(yōu)點是處理速度很快 因處理時間與數(shù)據對象數(shù)目無關 而只與量化空間中的單元格數(shù)目相關基于模型的方法 如果事先已知數(shù)據是根據潛在的概率分布生成的 基于模型的方法便可為每個聚類構建相關的數(shù)據模型 然后尋找數(shù)據對給定模型的最佳匹配 主要分兩類 統(tǒng)計學方法和神經網絡方法 離群點分析 離群點 Outlier 數(shù)據集合中存在的一些數(shù)據對象 它們與其余絕大多數(shù)數(shù)據的特性或模型不一致尋找離群點的意義發(fā)現(xiàn)信用卡詐騙 通過檢測購物地點 商品種類或者購物金額和頻率 能夠發(fā)現(xiàn)與絕大多數(shù)正常消費不一樣的記錄 這種行為就有可能屬于信用卡詐騙性使用預防網絡詐騙 在網絡銷售的時候 詐騙者往往冒充商家 出售報價比正常價格低出許多的商品 這樣的行為也是可以通過離群點分析被找到的 離群點分析 尋找離群點的方法基于統(tǒng)計的方法 需要事先已知數(shù)據的分布或概率模型 例如一個正態(tài)分布 然后根據數(shù)據點與該模型的不一致性檢驗來確定離群點基于距離的方法 不需要數(shù)據模型 而是將那些沒有足夠鄰居的數(shù)據對象看作是離群點 這里的鄰居是基于距給定對象的距離來定義的 現(xiàn)有的基于距離的離群點探測算法又分為基于索引的算法 嵌套循環(huán)算法和基于單元的算法 其目的都是為了減小計算和I O開銷基于偏移的方法 不采用統(tǒng)計檢驗或基于距離的度量值來確定異常對象 相反 它通過檢查數(shù)據對象的一組主要特征來確定離群點 偏離事先給出的特征描述的數(shù)據對象被認為是離群點 演化分析 演化分析的目的是挖掘隨時間變化的數(shù)據對象的變化規(guī)律和趨勢 并對其建模 進而為相關決策提供參考演化分析的應用對股票的演化分析可以得出整個股票市場和特定的公司的股票變化規(guī)律 為投資者決策提供幫助對生態(tài)和氣候的演化分析可以知道人類活動對自然的影響程度 為環(huán)境保護提供重要依據 建模方法 除了關聯(lián)分析和分類分析 還包括與時間相關的數(shù)據分析方法 主要包括趨勢分析 相似搜索 序列模式挖掘和與周期分析 演化分析 與時間相關的數(shù)據分析方法趨勢分析 確定趨勢的常見方法是計算數(shù)據n階的變化平均值 或者采用最小二乘法等方法平滑數(shù)據變化曲線相似搜索 相似搜索用于找出與給定序列最接近的數(shù)據序列序列模式挖掘 挖掘相對時間或其它維屬性出現(xiàn)頻率高的模式周期分析 挖掘具有周期的模式或者關聯(lián)規(guī)則 例如 若每周六公司的下班時間比平時晚半小時以上 則選擇打車回家的人數(shù)大約增加20 13 1數(shù)據挖掘概述13 2數(shù)據挖掘的基本類型和算法 13 3智能決策與物聯(lián)網數(shù)據挖掘在物聯(lián)網背景下有著廣泛的需求 本章內容 13 3智能決策與物聯(lián)網 數(shù)據挖掘技術在物聯(lián)網中的需求精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 精準農業(yè) 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 通過植入土壤或暴露在空氣中的傳感器監(jiān)控土壤性狀和環(huán)境狀況 數(shù)據通過物聯(lián)網傳輸?shù)竭h程控制中心 可及時查清當前農作物的生長環(huán)境現(xiàn)狀和變化趨勢 確定農作物的生產目標 通過數(shù)據挖掘的方法 可以知道 環(huán)境溫度濕度和土壤各項參數(shù)等因素是如何影響農作物產量的 如何調節(jié)它們才能夠最大限度地提高農作物產量 市場行銷 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 利用數(shù)據挖掘技術通過對用戶數(shù)據的分析 可以得到關于顧客購物取向和興趣的信息 從而為商業(yè)決策提供依據數(shù)據庫行銷 DatabaseMarketing 通過交互式查詢 數(shù)據分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品預測采用何種銷售渠道和優(yōu)惠條件 使得用戶最有可能被打動貨籃分析 BasketAnalysis 通過分析市場銷售數(shù)據 例如POS數(shù)據庫 來發(fā)現(xiàn)顧客的購買行為模式 智能家居 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 以獲取天氣信息為例 一方面 智能設備隨時關注氣象信息 并針對雨天發(fā)出報警提醒 另一方面 另外一些智能終端會隨時跟蹤主人的行蹤 并通過數(shù)據挖掘方法由主人的歷史行動特征數(shù)據預測他的去向一旦預測到主人要出門 那么就在合適的時候由相應的智能終端提醒他不要忘記帶雨傘 例如 如果主人在門口 就將由安裝在門上的智能設備向他發(fā)出提醒 如果在車內 則由車載計算機發(fā)出提醒 金融安全 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 由于金融投資的風險很大 所以在進行投資決策時 需要通過對各種投資方向的數(shù)據進行分析 以選擇最佳的投資方向 數(shù)據挖掘可以通過對已有數(shù)據的處理 找到數(shù)據對象之間的關系 然后利用學習得到的模式進行合理的預測金融欺詐識別主要是通過分析正常行為和詐騙行為的數(shù)據和模式 得到詐騙行為的一些特性 這樣當某項業(yè)務記錄符合這樣的特征時 識別系統(tǒng)可以向決策人員提出警告 產品制造和質量監(jiān)控 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 隨著科技進步 制造業(yè)已不是簡單的手工勞動 而是集成了多種先進科技的流水作業(yè) 在產品的生產制造過程中常常伴隨有大量的數(shù)據 如產品的各種加工條件或控制參數(shù) 如時間 溫度等 通過各種監(jiān)控儀器收集的這些數(shù)據反映了每個生產環(huán)節(jié)的狀態(tài) 對生產的順利進行起著這關重要的作用 通過數(shù)據挖掘對數(shù)據進行分析 可以得到產品質量與這些參數(shù)之間的關系 從而能獲得針對性很強的建議以改進產品質量 而且有可能發(fā)現(xiàn)新的更高效節(jié)約的控制模式 為廠家?guī)碡S厚的回報 互聯(lián)網用戶行為分析 精準農業(yè)市場行銷智能家居金融安全產品制造和質量監(jiān)控互聯(lián)網用戶行為分析 隨著中國互聯(lián)網用戶數(shù)的激增 用戶在互聯(lián)網上的行為分析逐漸引起了關注 例如 用戶在上網的時候通常需要不停地從一個網頁通過HTTP鏈接跳轉到另一個網頁獲取互聯(lián)網用戶訪問模式帶來的好處很多 首先可以輔助改善分布式網絡系統(tǒng)的性能 例如在有高度相關的站點間提供快速有效的訪問通道 其次 能夠幫助更好地組織和設計網頁 以及幫助改善市場營銷策略 例如把廣告放在合適的網頁上 以更好地吸引客戶的注意 本章小結 內容回顧本章介紹了數(shù)據挖掘的基本流程 重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年借殼上市業(yè)務合作框架協(xié)議
- 2025年健康食品代理委托協(xié)議
- 2025年地暖安裝協(xié)議
- 2025年出售合同解約協(xié)議書
- 2025年保密協(xié)議約定規(guī)范規(guī)則
- 2025年增資協(xié)議訂立簽字合同
- 2025年兒童房家具定制協(xié)議
- 2025年數(shù)據中心裝修升級與物業(yè)安全保障合同3篇
- 二零二五版鋼材貿易融資及風險管理合同3篇
- 2025年度新能源儲能技術研發(fā)承包合同范本4篇
- 2024年發(fā)電廠交接班管理制度(二篇)
- 《數(shù)學課程標準》義務教育2022年修訂版(原版)
- 農機維修市場前景分析
- HG+20231-2014化學工業(yè)建設項目試車規(guī)范
- 匯款賬戶變更協(xié)議
- 電力系統(tǒng)動態(tài)仿真與建模
- 蝦皮shopee新手賣家考試題庫及答案
- 四川省宜賓市2023-2024學年八年級上學期期末義務教育階段教學質量監(jiān)測英語試題
- 價值醫(yī)療的概念 實踐及其實現(xiàn)路徑
- 2024年中國華能集團燃料有限公司招聘筆試參考題庫含答案解析
- 《紅樓夢》中的男性形象解讀
評論
0/150
提交評論