版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第13章 物聯(lián)網(wǎng)中的 智能決策,內(nèi)容提要,智能決策是物聯(lián)網(wǎng)“智慧”的來(lái)源。 本章將介紹數(shù)據(jù)挖掘的基本流程,基本類型和典型算法。,13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘有哪三個(gè)步驟?,本章內(nèi)容,13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘(Data Mining) 從大量數(shù)據(jù)中獲取潛在有用的并且可以被人們理解的模式的過(guò)程。即從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。 是一個(gè)反復(fù)迭代的人機(jī)交互和處理的過(guò)程,歷經(jīng)多個(gè)步驟,并且在一些步驟中需要由用戶提供決策 數(shù)據(jù)挖掘的過(guò)程: 數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和對(duì)挖掘結(jié)果的評(píng)估與表示 每一個(gè)階段的輸出結(jié)果成為下
2、一個(gè)階段的輸入,沃爾馬的故事,13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘的過(guò)程 數(shù)據(jù)預(yù)處理階段 數(shù)據(jù)準(zhǔn)備:了解領(lǐng)域特點(diǎn),確定用戶需求 數(shù)據(jù)選?。簭脑紨?shù)據(jù)庫(kù)中選取相關(guān)數(shù)據(jù)或樣本 數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)的完整性及一致性,消除噪聲等 數(shù)據(jù)變換:通過(guò)投影或利用其他操作減少數(shù)據(jù)量 數(shù)據(jù)挖掘階段 確定挖掘目標(biāo):確定要發(fā)現(xiàn)的知識(shí)類型 選擇算法:根據(jù)確定的目標(biāo)選擇合適的數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘:運(yùn)用所選算法,提取相關(guān)知識(shí)并以一定的方式表示 知識(shí)評(píng)估與表示階段 模式評(píng)估:對(duì)在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識(shí))進(jìn)行評(píng)估 知識(shí)表示:使用可視化和知識(shí)表示相關(guān)技術(shù),呈現(xiàn)所挖掘的知識(shí),13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘的過(guò)程,13.1
3、數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘的基本類型和算法有那些?,本章內(nèi)容,13.2 數(shù)據(jù)挖掘的基本類型和算法,數(shù)據(jù)挖掘的基本類型 關(guān)聯(lián)分析(Association Analysis) 聚類分析(Clustering Analysis) 離群點(diǎn)分析(Outlier Analysis) 分類與預(yù)測(cè)(Classification and Prediction) 演化分析(Evolution Analysis),描述性挖掘任務(wù):刻畫數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性,預(yù)測(cè)性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷和預(yù)測(cè),關(guān)聯(lián)分析,關(guān)聯(lián)分析的目標(biāo)是從給定的數(shù)據(jù)中發(fā)現(xiàn)頻繁出現(xiàn)的
4、模式,即關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則通常的表述形式是X Y,表示“數(shù)據(jù)庫(kù)中滿足條件X的記錄(元組)可能也滿足條件Y” 以某電器商場(chǎng)銷售記錄為例: 含義:4% (支持度)的顧客的年齡在20至29歲且月收入在3000至5000元,且這樣的顧客中,65% (置信度)的人購(gòu)買了筆記本電腦,關(guān)聯(lián)分析,挖掘關(guān)聯(lián)規(guī)則,需要置信度和支持度越高越好 基本概念 項(xiàng)集:滿足若干條件的數(shù)據(jù)項(xiàng)的集合,如果條件數(shù)為k,則稱k-項(xiàng)集 滿足年齡(顧客, “2029”)的項(xiàng)集是1-項(xiàng)集 滿足年齡(顧客, “2029”) 收入(顧客, “30005000”)的項(xiàng)集是2-項(xiàng)集 計(jì)算步驟 首先找到具備足夠支持度的項(xiàng)集,即頻繁項(xiàng)集 然后由頻繁項(xiàng)
5、集構(gòu)成關(guān)聯(lián)規(guī)則,并計(jì)算置信度,分類和預(yù)測(cè),分類和預(yù)測(cè)的目標(biāo)是找出描述和區(qū)分不同數(shù)據(jù)類或概念的模型或函數(shù),以便能夠使用模型預(yù)測(cè)數(shù)據(jù)類或標(biāo)記未知的對(duì)象 所獲得的分類模型可以采用多種形式加以描述輸出 分類規(guī)則 判定樹 數(shù)學(xué)公式 神經(jīng)網(wǎng)絡(luò) 分類與預(yù)測(cè)的區(qū)別:分類通常指預(yù)測(cè)數(shù)據(jù)對(duì)象屬于哪一類,而當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí),通常稱為預(yù)測(cè),分類和預(yù)測(cè),以判定樹方法為例,簡(jiǎn)要介紹分類的基本步驟和結(jié)果表示,問(wèn)題實(shí)例:假定商場(chǎng)需要向潛在的客戶郵寄新產(chǎn)品資料和促銷信息。客戶數(shù)據(jù)庫(kù)描述的客戶屬性包括姓名、年齡、收入、職業(yè)和信用記錄。 我們可以按是否會(huì)在商場(chǎng)購(gòu)買計(jì)算機(jī)將客戶分為兩類,只將促銷材料郵寄給那些會(huì)購(gòu)買計(jì)算機(jī)的客
6、戶,從而降低成本。,分類和預(yù)測(cè),用于預(yù)測(cè)客戶是否可能購(gòu)買計(jì)算機(jī)的判定樹,其中每個(gè)非樹葉節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)樹葉節(jié)點(diǎn)代表預(yù)測(cè)結(jié)果,聚類分析,聚類的目的是將數(shù)據(jù)對(duì)象劃分為多個(gè)類或簇,在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大 聚類與分類的區(qū)別:要?jiǎng)澐值念愂鞘孪任粗?聚類分析的應(yīng)用,聚類分析,聚類分析的方法 劃分方法:要求事先給定聚類的數(shù)目k。首先創(chuàng)建一個(gè)初始劃分,然后通過(guò)對(duì)劃分中心點(diǎn)的反復(fù)迭代來(lái)改進(jìn)劃分。典型算法包括k-means算法和k-medoids算法等 層次方法:對(duì)給定數(shù)據(jù)集合進(jìn)行逐層遞歸的合并或者分裂,因此可以被分為合并或分裂方法。合并方法首先將每個(gè)對(duì)象
7、都作為獨(dú)立的類,然后持續(xù)合并相近的類,直到達(dá)到終止條件為止。分裂方法首先將所有的數(shù)據(jù)對(duì)象置于一個(gè)類中,然后反復(fù)迭代并判定當(dāng)前的類是否可以被繼續(xù)分裂,直到達(dá)到終止條件為止 基于密度的方法:只要某區(qū)域數(shù)據(jù)密度超過(guò)閾值,就將該區(qū)域的數(shù)據(jù)進(jìn)行聚類。其優(yōu)勢(shì)在于噪音數(shù)據(jù)下的抗干擾能力,并能夠發(fā)現(xiàn)任意形狀的聚類,聚類分析,聚類分析的方法(續(xù)) 基于網(wǎng)格的方法:把對(duì)象空間量化為具有規(guī)則形狀的單元格,從而形成一個(gè)網(wǎng)格狀結(jié)構(gòu)。在聚類的時(shí)候,將每個(gè)單元格當(dāng)作一條數(shù)據(jù)進(jìn)行處理。優(yōu)點(diǎn)是處理速度很快,因處理時(shí)間與數(shù)據(jù)對(duì)象數(shù)目無(wú)關(guān),而只與量化空間中的單元格數(shù)目相關(guān) 基于模型的方法:如果事先已知數(shù)據(jù)是根據(jù)潛在的概率分布生成的
8、,基于模型的方法便可為每個(gè)聚類構(gòu)建相關(guān)的數(shù)據(jù)模型,然后尋找數(shù)據(jù)對(duì)給定模型的最佳匹配。主要分兩類:統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法,離群點(diǎn)分析,離群點(diǎn)(Outlier):數(shù)據(jù)集合中存在的一些數(shù)據(jù)對(duì)象,它們與其余絕大多數(shù)數(shù)據(jù)的特性或模型不一致 尋找離群點(diǎn)的意義 發(fā)現(xiàn)信用卡詐騙。通過(guò)檢測(cè)購(gòu)物地點(diǎn)、商品種類或者購(gòu)物金額和頻率,能夠發(fā)現(xiàn)與絕大多數(shù)正常消費(fèi)不一樣的記錄,這種行為就有可能屬于信用卡詐騙性使用 預(yù)防網(wǎng)絡(luò)詐騙。在網(wǎng)絡(luò)銷售的時(shí)候,詐騙者往往冒充商家,出售報(bào)價(jià)比正常價(jià)格低出許多的商品,這樣的行為也是可以通過(guò)離群點(diǎn)分析被找到的,離群點(diǎn)分析,尋找離群點(diǎn)的方法 基于統(tǒng)計(jì)的方法:需要事先已知數(shù)據(jù)的分布或概率模型(例
9、如一個(gè)正態(tài)分布),然后根據(jù)數(shù)據(jù)點(diǎn)與該模型的不一致性檢驗(yàn)來(lái)確定離群點(diǎn) 基于距離的方法:不需要數(shù)據(jù)模型,而是將那些沒有足夠鄰居的數(shù)據(jù)對(duì)象看作是離群點(diǎn),這里的鄰居是基于距給定對(duì)象的距離來(lái)定義的?,F(xiàn)有的基于距離的離群點(diǎn)探測(cè)算法又分為基于索引的算法,嵌套循環(huán)算法和基于單元的算法,其目的都是為了減小計(jì)算和I/O開銷 基于偏移的方法:不采用統(tǒng)計(jì)檢驗(yàn)或基于距離的度量值來(lái)確定異常對(duì)象。相反,它通過(guò)檢查數(shù)據(jù)對(duì)象的一組主要特征來(lái)確定離群點(diǎn)。偏離事先給出的特征描述的數(shù)據(jù)對(duì)象被認(rèn)為是離群點(diǎn),演化分析,演化分析的目的是挖掘隨時(shí)間變化的數(shù)據(jù)對(duì)象的變化規(guī)律和趨勢(shì),并對(duì)其建模,進(jìn)而為相關(guān)決策提供參考 演化分析的應(yīng)用 對(duì)股票的演
10、化分析可以得出整個(gè)股票市場(chǎng)和特定的公司的股票變化規(guī)律,為投資者決策提供幫助 對(duì)生態(tài)和氣候的演化分析可以知道人類活動(dòng)對(duì)自然的影響程度,為環(huán)境保護(hù)提供重要依據(jù) 建模方法:除了關(guān)聯(lián)分析和分類分析,還包括與時(shí)間相關(guān)的數(shù)據(jù)分析方法,主要包括趨勢(shì)分析、相似搜索、序列模式挖掘和與周期分析,演化分析,與時(shí)間相關(guān)的數(shù)據(jù)分析方法 趨勢(shì)分析:確定趨勢(shì)的常見方法是計(jì)算數(shù)據(jù)n階的變化平均值,或者采用最小二乘法等方法平滑數(shù)據(jù)變化曲線 相似搜索:相似搜索用于找出與給定序列最接近的數(shù)據(jù)序列 序列模式挖掘:挖掘相對(duì)時(shí)間或其它維屬性出現(xiàn)頻率高的模式 周期分析:挖掘具有周期的模式或者關(guān)聯(lián)規(guī)則,例如”若每周六公司的下班時(shí)間比平時(shí)晚半
11、小時(shí)以上,則選擇打車回家的人數(shù)大約增加20%”,13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘在物聯(lián)網(wǎng)背景下有著廣泛的需求,本章內(nèi)容,13.3 智能決策與物聯(lián)網(wǎng),數(shù)據(jù)挖掘技術(shù)在物聯(lián)網(wǎng)中的需求 精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析 ,精準(zhǔn)農(nóng)業(yè),精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,通過(guò)植入土壤或暴露在空氣中的傳感器監(jiān)控土壤性狀和環(huán)境狀況。 數(shù)據(jù)通過(guò)物聯(lián)網(wǎng)傳輸?shù)竭h(yuǎn)程控制中心,可及時(shí)查清當(dāng)前農(nóng)作物的生長(zhǎng)環(huán)境現(xiàn)狀和變化趨勢(shì),確定農(nóng)作物的生產(chǎn)目標(biāo)。 通過(guò)數(shù)據(jù)挖掘的方法,
12、可以知道:環(huán)境溫度濕度和土壤各項(xiàng)參數(shù)等因素是如何影響農(nóng)作物產(chǎn)量的,如何調(diào)節(jié)它們才能夠最大限度地提高農(nóng)作物產(chǎn)量,市場(chǎng)行銷,精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,利用數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)用戶數(shù)據(jù)的分析,可以得到關(guān)于顧客購(gòu)物取向和興趣的信息,從而為商業(yè)決策提供依據(jù) 數(shù)據(jù)庫(kù)行銷(Database Marketing) 通過(guò)交互式查詢、數(shù)據(jù)分割和模型預(yù)測(cè)等方法來(lái)選擇潛在的顧客以便向它們推銷產(chǎn)品 預(yù)測(cè)采用何種銷售渠道和優(yōu)惠條件,使得用戶最有可能被打動(dòng) 貨籃分析(Basket Analysis) 通過(guò)分析市場(chǎng)銷售數(shù)據(jù)(例如POS數(shù)據(jù)庫(kù))來(lái)發(fā)現(xiàn)顧客的購(gòu)買行為模式,智能家
13、居,精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,以獲取天氣信息為例:一方面,智能設(shè)備隨時(shí)關(guān)注氣象信息,并針對(duì)雨天發(fā)出報(bào)警提醒;另一方面,另外一些智能終端會(huì)隨時(shí)跟蹤主人的行蹤,并通過(guò)數(shù)據(jù)挖掘方法由主人的歷史行動(dòng)特征數(shù)據(jù)預(yù)測(cè)他的去向 一旦預(yù)測(cè)到主人要出門,那么就在合適的時(shí)候由相應(yīng)的智能終端提醒他不要忘記帶雨傘。例如,如果主人在門口,就將由安裝在門上的智能設(shè)備向他發(fā)出提醒,如果在車內(nèi),則由車載計(jì)算機(jī)發(fā)出提醒,金融安全,精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,由于金融投資的風(fēng)險(xiǎn)很大,所以在進(jìn)行投資決策時(shí),需要通過(guò)對(duì)各種投資方向
14、的數(shù)據(jù)進(jìn)行分析,以選擇最佳的投資方向。數(shù)據(jù)挖掘可以通過(guò)對(duì)已有數(shù)據(jù)的處理,找到數(shù)據(jù)對(duì)象之間的關(guān)系,然后利用學(xué)習(xí)得到的模式進(jìn)行合理的預(yù)測(cè) 金融欺詐識(shí)別主要是通過(guò)分析正常行為和詐騙行為的數(shù)據(jù)和模式,得到詐騙行為的一些特性,這樣當(dāng)某項(xiàng)業(yè)務(wù)記錄符合這樣的特征時(shí),識(shí)別系統(tǒng)可以向決策人員提出警告,產(chǎn)品制造和質(zhì)量監(jiān)控,精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,隨著科技進(jìn)步,制造業(yè)已不是簡(jiǎn)單的手工勞動(dòng),而是集成了多種先進(jìn)科技的流水作業(yè)。在產(chǎn)品的生產(chǎn)制造過(guò)程中常常伴隨有大量的數(shù)據(jù),如產(chǎn)品的各種加工條件或控制參數(shù)(如時(shí)間、溫度等)。通過(guò)各種監(jiān)控儀器收集的這些數(shù)據(jù)反映了每個(gè)生產(chǎn)環(huán)
15、節(jié)的狀態(tài),對(duì)生產(chǎn)的順利進(jìn)行起著這關(guān)重要的作用。 通過(guò)數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行分析,可以得到產(chǎn)品質(zhì)量與這些參數(shù)之間的關(guān)系,從而能獲得針對(duì)性很強(qiáng)的建議以改進(jìn)產(chǎn)品質(zhì)量,而且有可能發(fā)現(xiàn)新的更高效節(jié)約的控制模式,為廠家?guī)?lái)豐厚的回報(bào),互聯(lián)網(wǎng)用戶行為分析,精準(zhǔn)農(nóng)業(yè) 市場(chǎng)行銷 智能家居 金融安全 產(chǎn)品制造和質(zhì)量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,隨著中國(guó)互聯(lián)網(wǎng)用戶數(shù)的激增,用戶在互聯(lián)網(wǎng)上的行為分析逐漸引起了關(guān)注。例如,用戶在上網(wǎng)的時(shí)候通常需要不停地從一個(gè)網(wǎng)頁(yè)通過(guò)HTTP鏈接跳轉(zhuǎn)到另一個(gè)網(wǎng)頁(yè) 獲取互聯(lián)網(wǎng)用戶訪問(wèn)模式帶來(lái)的好處很多,首先可以輔助改善分布式網(wǎng)絡(luò)系統(tǒng)的性能,例如在有高度相關(guān)的站點(diǎn)間提供快速有效的訪問(wèn)通道。其次,能夠幫助更好地組織和設(shè)計(jì)網(wǎng)頁(yè),以及幫助改善市場(chǎng)營(yíng)銷策略(例如把廣告放在合適的網(wǎng)頁(yè)上)以更好地吸引客戶的注意,本章小結(jié),內(nèi)容回顧 本章介紹了數(shù)據(jù)挖掘的基本流程,重點(diǎn)介紹了五種典型的數(shù)據(jù)挖掘算法和步驟。最后討論了物聯(lián)網(wǎng)背景下數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銷售經(jīng)理轉(zhuǎn)正工作總結(jié)
- 民間借貸代理詞(34篇)
- 工作中的心得體會(huì)
- 有兒子離婚協(xié)議書(34篇)
- 甜品店的創(chuàng)業(yè)計(jì)劃書15篇
- 酒店電氣火災(zāi)應(yīng)急預(yù)案(3篇)
- 2023年地震數(shù)據(jù)采集系統(tǒng)資金申請(qǐng)報(bào)告
- 茶文化與茶藝鑒賞 教案 項(xiàng)目六 品茶韻-常見茶葉的沖泡與鑒賞
- 2023年防水油漆投資申請(qǐng)報(bào)告
- 2024年安防電子項(xiàng)目資金需求報(bào)告代可行性研究報(bào)告
- 拆除原有花壇施工方案
- 2023-2023年度國(guó)家級(jí)工法名單
- 馬克思主義原理學(xué)習(xí)通超星課后章節(jié)答案期末考試題庫(kù)2023年
- 洞簫曲合集下冊(cè)
- 黃色卡通風(fēng)名著導(dǎo)讀稻草人PPT模板
- 鋁單板施工勞務(wù)合同
- 超市承包合同協(xié)議書
- 2023年普通高招報(bào)名思想政治品德考核表
- 尼康D7100數(shù)碼單反攝影從入門到精通
- 初中綜評(píng)網(wǎng)典型事例三篇
- 思想政治教育方法論習(xí)題(最全)
評(píng)論
0/150
提交評(píng)論