版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、-2-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析目目 錄錄8.1 8.1 大數(shù)據(jù)概述大數(shù)據(jù)概述8.2 8.2 推薦系統(tǒng)推薦系統(tǒng)8.3 8.3 推薦系統(tǒng)設(shè)計(jì)實(shí)踐推薦系統(tǒng)設(shè)計(jì)實(shí)踐8.4 8.4 數(shù)據(jù)預(yù)處理實(shí)現(xiàn)及結(jié)果分析數(shù)據(jù)預(yù)處理實(shí)現(xiàn)及結(jié)果分析8.5 8.5 實(shí)驗(yàn)結(jié)果及其分析實(shí)驗(yàn)結(jié)果及其分析本章小結(jié)本章小結(jié)-3-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.1 8.1 大數(shù)據(jù)概述大數(shù)據(jù)概述大數(shù)據(jù)大數(shù)據(jù)(Big Data, Mega Data)Big Data, Mega Data),指的是那些需要利用新處理方法才能,指的是那些需要利用新處理方法才能通過數(shù)據(jù)體現(xiàn)出更強(qiáng)決策力、洞察力和流程優(yōu)化能力的海量、高增長通過
2、數(shù)據(jù)體現(xiàn)出更強(qiáng)決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。率和多樣化的信息資產(chǎn)。大大數(shù)據(jù)一般具有數(shù)據(jù)一般具有4V4V特點(diǎn):特點(diǎn):VolumeVolume(大量)、(大量)、VelocityVelocity(高速)、(高速)、VarietyVariety(多樣)、(多樣)、ValueValue(價(jià)值)。(價(jià)值)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義在于對含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,進(jìn)而大數(shù)據(jù)技術(shù)的戰(zhàn)略意義在于對含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,進(jìn)而體現(xiàn)龐大數(shù)據(jù)背后的價(jià)值。體現(xiàn)龐大數(shù)據(jù)背后的價(jià)值。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算密不可分。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算密不可分。適用于大數(shù)據(jù)的技術(shù),包括適用
3、于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(大規(guī)模并行處理(MPPMPP)數(shù)據(jù)庫)數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。儲系統(tǒng)。-4-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.1.1 8.1.1 大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)的特點(diǎn)數(shù)據(jù)分析需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并提取新的知識,是大數(shù)數(shù)據(jù)分析需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并提取新的知識,是大數(shù)據(jù)價(jià)值挖掘的關(guān)鍵。據(jù)價(jià)值挖掘的關(guān)鍵。經(jīng)過數(shù)據(jù)的計(jì)算和處理后,所得的數(shù)據(jù)便成為數(shù)據(jù)分析的原始數(shù)據(jù),經(jīng)過數(shù)據(jù)的計(jì)算和處理后,所得的數(shù)據(jù)便成為數(shù)據(jù)分析的原始數(shù)
4、據(jù),根據(jù)所需數(shù)據(jù)的應(yīng)用需求對數(shù)據(jù)進(jìn)行進(jìn)一步的處理和分析,最終找到根據(jù)所需數(shù)據(jù)的應(yīng)用需求對數(shù)據(jù)進(jìn)行進(jìn)一步的處理和分析,最終找到數(shù)據(jù)內(nèi)部隱藏的規(guī)律或者知識,從而體現(xiàn)數(shù)據(jù)的真正價(jià)值。數(shù)據(jù)內(nèi)部隱藏的規(guī)律或者知識,從而體現(xiàn)數(shù)據(jù)的真正價(jià)值。大數(shù)據(jù)的特點(diǎn)包括:大數(shù)據(jù)的特點(diǎn)包括:v 數(shù)據(jù)體量巨大數(shù)據(jù)體量巨大v 流動(dòng)速度快流動(dòng)速度快v 數(shù)據(jù)種類繁多數(shù)據(jù)種類繁多v 價(jià)值密度低價(jià)值密度低-5-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.1.2 8.1.2 大數(shù)據(jù)的傳統(tǒng)處理方法大數(shù)據(jù)的傳統(tǒng)處理方法統(tǒng)計(jì)分析是運(yùn)用統(tǒng)計(jì)方法及與分析對象有關(guān)的知識,從定量與定性的統(tǒng)計(jì)分析是運(yùn)用統(tǒng)計(jì)方法及與分析對象有關(guān)的知識,從定量與定性的結(jié)合上
5、進(jìn)行的研究活動(dòng)。結(jié)合上進(jìn)行的研究活動(dòng)。統(tǒng)計(jì)分析是繼統(tǒng)計(jì)設(shè)計(jì)、統(tǒng)計(jì)調(diào)查、統(tǒng)計(jì)整理之后,通過分析從而達(dá)統(tǒng)計(jì)分析是繼統(tǒng)計(jì)設(shè)計(jì)、統(tǒng)計(jì)調(diào)查、統(tǒng)計(jì)整理之后,通過分析從而達(dá)到對研究對象更為深刻的認(rèn)識。到對研究對象更為深刻的認(rèn)識。統(tǒng)計(jì)分析是在一定的選題下,集分析方案的設(shè)計(jì)、資料的搜集和整理統(tǒng)計(jì)分析是在一定的選題下,集分析方案的設(shè)計(jì)、資料的搜集和整理而展開的研究活動(dòng)。系統(tǒng)、完善的資料是統(tǒng)計(jì)分析的必要條件。而展開的研究活動(dòng)。系統(tǒng)、完善的資料是統(tǒng)計(jì)分析的必要條件。統(tǒng)計(jì)分析可以統(tǒng)計(jì)分析可以分為分為5 5個(gè)步驟個(gè)步驟:v 描述要分析的數(shù)據(jù)的性質(zhì)。描述要分析的數(shù)據(jù)的性質(zhì)。v 研究基礎(chǔ)群體的數(shù)據(jù)關(guān)系。研究基礎(chǔ)群體的數(shù)據(jù)關(guān)系
6、。v 創(chuàng)建一個(gè)模型,總結(jié)數(shù)據(jù)與基礎(chǔ)群體的聯(lián)系。創(chuàng)建一個(gè)模型,總結(jié)數(shù)據(jù)與基礎(chǔ)群體的聯(lián)系。v 證明(或否定)該模型的有效性。證明(或否定)該模型的有效性。v 采用預(yù)測分析來預(yù)測將來的趨勢。采用預(yù)測分析來預(yù)測將來的趨勢。-6-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.1.3 8.1.3 大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)方法大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)方法聚類分析聚類分析v 聚類聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(的子集(SubsetSubset),這樣讓在同一個(gè)子集中的成員對象都有相似的),這樣讓在同一個(gè)子集中的成員對象都有相似的一些屬性
7、,常見的包括在坐標(biāo)系中更加短的空間距離等。一些屬性,常見的包括在坐標(biāo)系中更加短的空間距離等。v結(jié)構(gòu)性聚類:利用以前成功使用過的聚類器進(jìn)行分類結(jié)構(gòu)性聚類:利用以前成功使用過的聚類器進(jìn)行分類 結(jié)構(gòu)性算法可以從上至下或者從下至上雙向進(jìn)行計(jì)算。從結(jié)構(gòu)性算法可以從上至下或者從下至上雙向進(jìn)行計(jì)算。從下至上算法從每個(gè)對象作為單獨(dú)分類開始,不斷融合其中下至上算法從每個(gè)對象作為單獨(dú)分類開始,不斷融合其中相近的對象。而從上至下算法則是把所有對象作為一個(gè)整相近的對象。而從上至下算法則是把所有對象作為一個(gè)整體分類,然后逐漸分小。體分類,然后逐漸分小。分割式聚類算法,是一次性確定要產(chǎn)生的類別。分割式聚類算法,是一次性確
8、定要產(chǎn)生的類別?;诿芏鹊木垲愃惴?,是為了挖掘有任意形狀特性的類別基于密度的聚類算法,是為了挖掘有任意形狀特性的類別而發(fā)明的。此算法把一個(gè)類別視為數(shù)據(jù)集中大于某閾值的而發(fā)明的。此算法把一個(gè)類別視為數(shù)據(jù)集中大于某閾值的一個(gè)區(qū)域。一個(gè)區(qū)域。-7-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v 分散性聚類:一次確定所有分類。分散性聚類:一次確定所有分類。K-meansK-means算法表示以空間中算法表示以空間中k k個(gè)個(gè)點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。算法歸納為點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。算法歸納為: :v選擇聚類的個(gè)數(shù)選擇聚類的個(gè)數(shù)k k。v任意產(chǎn)生任意產(chǎn)生k k個(gè)聚類,然后確定
9、聚類中心,或者直接生成個(gè)聚類,然后確定聚類中心,或者直接生成k k個(gè)中心。個(gè)中心。v對每個(gè)點(diǎn)確定其聚類中心點(diǎn)。對每個(gè)點(diǎn)確定其聚類中心點(diǎn)。v再計(jì)算其聚類新中心。再計(jì)算其聚類新中心。v重復(fù)以上步驟直到滿足收斂要求重復(fù)以上步驟直到滿足收斂要求 ( (通常就是確定的中心點(diǎn)不再通常就是確定的中心點(diǎn)不再改變改變) )。v 該算法的最大優(yōu)勢在于簡潔和快速。該算法的最大優(yōu)勢在于簡潔和快速。v 劣勢在于對于一些結(jié)果并不能夠滿足需要,因?yàn)榻Y(jié)果往往需要隨劣勢在于對于一些結(jié)果并不能夠滿足需要,因?yàn)榻Y(jié)果往往需要隨機(jī)點(diǎn)的選擇非常巧合。機(jī)點(diǎn)的選擇非常巧合。-8-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)v 神經(jīng)網(wǎng)
10、絡(luò)神經(jīng)網(wǎng)絡(luò)是一種由大量的節(jié)點(diǎn)(或稱是一種由大量的節(jié)點(diǎn)(或稱“神經(jīng)元神經(jīng)元”、“單元單元”)和)和之間之間相互聯(lián)接構(gòu)成的運(yùn)算模型。相互聯(lián)接構(gòu)成的運(yùn)算模型。v 每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(Activation Activation FunctionFunction)。)。v 每兩個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對于通過該連接信號的加權(quán)值,每兩個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對于通過該連接信號的加權(quán)值,稱之為權(quán)重(稱之為權(quán)重(WeightWeight),這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。),這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。v 網(wǎng)絡(luò)的輸出隨著網(wǎng)絡(luò)的連接方式、權(quán)重值
11、和激勵(lì)函數(shù)的不同而不網(wǎng)絡(luò)的輸出隨著網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵(lì)函數(shù)的不同而不同。同。v 神經(jīng)網(wǎng)絡(luò)是一個(gè)能夠?qū)W習(xí),能夠總結(jié)歸納的系統(tǒng),也就是說它能神經(jīng)網(wǎng)絡(luò)是一個(gè)能夠?qū)W習(xí),能夠總結(jié)歸納的系統(tǒng),也就是說它能夠通過已知數(shù)據(jù)的實(shí)驗(yàn)運(yùn)用來學(xué)習(xí)和歸納總結(jié)。夠通過已知數(shù)據(jù)的實(shí)驗(yàn)運(yùn)用來學(xué)習(xí)和歸納總結(jié)。-9-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v人工神經(jīng)網(wǎng)絡(luò)通過對局部情況的對照比較(而這些比較是基于不同情人工神經(jīng)網(wǎng)絡(luò)通過對局部情況的對照比較(而這些比較是基于不同情況下的自動(dòng)學(xué)習(xí)和解決實(shí)際問題的復(fù)雜性所決定的),它能夠推理產(chǎn)況下的自動(dòng)學(xué)習(xí)和解決實(shí)際問題的復(fù)雜性所決定的),它能夠推理產(chǎn)生一個(gè)可以自動(dòng)識別的系統(tǒng)。生一個(gè)
12、可以自動(dòng)識別的系統(tǒng)。v常見的多層結(jié)構(gòu)的前饋網(wǎng)絡(luò)(常見的多層結(jié)構(gòu)的前饋網(wǎng)絡(luò)(Multilayer Feedforward NetworkMultilayer Feedforward Network)由)由三部分組成:三部分組成:v 輸入層(輸入層(Input LayerInput Layer),眾多神經(jīng)元(),眾多神經(jīng)元(NeuronNeuron)接受大量非線)接受大量非線形輸入信息。輸入的信息稱為輸入向量。形輸入信息。輸入的信息稱為輸入向量。v 輸出層(輸出層(Output LayerOutput Layer),信息在神經(jīng)元鏈接中傳輸、分析、權(quán)),信息在神經(jīng)元鏈接中傳輸、分析、權(quán)衡,形成輸出結(jié)
13、果。輸出的信息稱為輸出向量。衡,形成輸出結(jié)果。輸出的信息稱為輸出向量。v 隱藏層(隱藏層(Hidden LayerHidden Layer),簡稱),簡稱“隱層隱層”,是輸入層和輸出層之,是輸入層和輸出層之間眾多神經(jīng)元和鏈接組成的各個(gè)層面。隱層可以有多層,習(xí)慣上間眾多神經(jīng)元和鏈接組成的各個(gè)層面。隱層可以有多層,習(xí)慣上會用一層。隱層的節(jié)點(diǎn)(神經(jīng)元)數(shù)目不定,習(xí)慣上會選輸入節(jié)會用一層。隱層的節(jié)點(diǎn)(神經(jīng)元)數(shù)目不定,習(xí)慣上會選輸入節(jié)點(diǎn)點(diǎn)1.21.21.51.5倍的節(jié)點(diǎn)。倍的節(jié)點(diǎn)。-10-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v決策樹決策樹v 決策樹(決策樹(Decision TreeDecision
14、Tree)由一個(gè)決策圖和可能出現(xiàn)的結(jié)果(包括)由一個(gè)決策圖和可能出現(xiàn)的結(jié)果(包括資源成本和風(fēng)險(xiǎn))構(gòu)成,用來創(chuàng)建到達(dá)目標(biāo)的規(guī)劃。資源成本和風(fēng)險(xiǎn))構(gòu)成,用來創(chuàng)建到達(dá)目標(biāo)的規(guī)劃。v 決策樹是一個(gè)利用像樹一樣的圖形或決策模型進(jìn)行決策支持的工決策樹是一個(gè)利用像樹一樣的圖形或決策模型進(jìn)行決策支持的工具。具。v 決策樹經(jīng)常在運(yùn)籌學(xué)中使用,特別是在決策分析中。決策樹經(jīng)常在運(yùn)籌學(xué)中使用,特別是在決策分析中。v 決策樹法的決策程序如下:決策樹法的決策程序如下:繪制樹狀圖,根據(jù)已知條件排列出各個(gè)方案和每一方案的各種繪制樹狀圖,根據(jù)已知條件排列出各個(gè)方案和每一方案的各種自然狀態(tài)。自然狀態(tài)。將各狀態(tài)概率及損益值標(biāo)于概率
15、枝上。將各狀態(tài)概率及損益值標(biāo)于概率枝上。計(jì)算各個(gè)方案期望值并將其標(biāo)于該方案對應(yīng)的狀態(tài)節(jié)點(diǎn)上。計(jì)算各個(gè)方案期望值并將其標(biāo)于該方案對應(yīng)的狀態(tài)節(jié)點(diǎn)上。進(jìn)行剪枝,比較各個(gè)方案的期望值,并標(biāo)于方案枝上,將期望進(jìn)行剪枝,比較各個(gè)方案的期望值,并標(biāo)于方案枝上,將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。-11-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v相對于其他數(shù)據(jù)挖掘算法,決策樹在以下幾個(gè)方面擁有優(yōu)勢:相對于其他數(shù)據(jù)挖掘算法,決策樹在以下幾個(gè)方面擁有優(yōu)勢:v 決策樹易于理解和實(shí)現(xiàn),人們在通過解釋后都有能力去理解決策決策樹易于理解和實(shí)現(xiàn),人們在通過解
16、釋后都有能力去理解決策樹所表達(dá)的意義。樹所表達(dá)的意義。v 對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的。其他的技對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的。其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性。術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性。v 能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬性的單一。性的單一。v 決策樹是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所決策樹是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。產(chǎn)生的決策樹很容易推出相應(yīng)
17、的邏輯表達(dá)式。v 易于通過靜態(tài)測試來對模型進(jìn)行評測。表示有可能測量該模型的易于通過靜態(tài)測試來對模型進(jìn)行評測。表示有可能測量該模型的可信度??尚哦?。v 在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。果。-12-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析關(guān)聯(lián)分析關(guān)聯(lián)分析v 關(guān)聯(lián)規(guī)則,是數(shù)據(jù)挖掘的一個(gè)重要課題,用于從大量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,是數(shù)據(jù)挖掘的一個(gè)重要課題,用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。v 關(guān)聯(lián)規(guī)則有以下常見分類:關(guān)聯(lián)規(guī)則有以下常見分類:根據(jù)根據(jù)關(guān)聯(lián)規(guī)則所處理的值的類型:關(guān)聯(lián)規(guī)則
18、所處理的值的類型:布爾關(guān)聯(lián)規(guī)則(布爾關(guān)聯(lián)規(guī)則(Boolean Association RulesBoolean Association Rules)數(shù)量關(guān)聯(lián)規(guī)則(數(shù)量關(guān)聯(lián)規(guī)則(Quantitative Association RulesQuantitative Association Rules)根據(jù)關(guān)聯(lián)規(guī)則所涉及的數(shù)據(jù)維數(shù):根據(jù)關(guān)聯(lián)規(guī)則所涉及的數(shù)據(jù)維數(shù):單維關(guān)聯(lián)規(guī)則(單維關(guān)聯(lián)規(guī)則(Single-dimensional Association RulesSingle-dimensional Association Rules)多維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則(Multi-dimensional As
19、sociation RulesMulti-dimensional Association Rules)根據(jù)關(guān)聯(lián)規(guī)則所涉及的抽象層次根據(jù)關(guān)聯(lián)規(guī)則所涉及的抽象層次: :單層關(guān)聯(lián)規(guī)則(單層關(guān)聯(lián)規(guī)則(Single-level Association Rules)Single-level Association Rules)廣義關(guān)聯(lián)規(guī)則(廣義關(guān)聯(lián)規(guī)則(Generalized Association RulesGeneralized Association Rules)v 常用的關(guān)聯(lián)分析算法有:常用的關(guān)聯(lián)分析算法有:AprioriApriori演算法、演算法、F-PF-P算法和算法和EclatEclat算
20、法等算法等。-13-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.2 8.2 推薦系統(tǒng)推薦系統(tǒng)推薦系統(tǒng)一般基于各種智能算法,借助數(shù)據(jù)挖掘技術(shù),提取大數(shù)據(jù)中推薦系統(tǒng)一般基于各種智能算法,借助數(shù)據(jù)挖掘技術(shù),提取大數(shù)據(jù)中呈現(xiàn)的各種指標(biāo)隱含的信息模式,從而產(chǎn)生個(gè)性化的推薦結(jié)果。呈現(xiàn)的各種指標(biāo)隱含的信息模式,從而產(chǎn)生個(gè)性化的推薦結(jié)果。個(gè)性化推薦是根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶推薦用戶感興個(gè)性化推薦是根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶推薦用戶感興趣的信息和商品。趣的信息和商品。個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平臺,以幫
21、助電子商務(wù)網(wǎng)站為其顧客購物提供完全個(gè)性化的決策支持和臺,以幫助電子商務(wù)網(wǎng)站為其顧客購物提供完全個(gè)性化的決策支持和信息服務(wù)。信息服務(wù)。-14-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.8.2.12.1 背景簡介背景簡介互聯(lián)網(wǎng)技術(shù)迅速發(fā)展,傳統(tǒng)搜索算法無法針對不同用戶的興趣愛好提互聯(lián)網(wǎng)技術(shù)迅速發(fā)展,傳統(tǒng)搜索算法無法針對不同用戶的興趣愛好提供相應(yīng)的服務(wù)。供相應(yīng)的服務(wù)。信息的爆炸使得信息的利用率降低,這種現(xiàn)象被稱之為信息超載。個(gè)信息的爆炸使得信息的利用率降低,這種現(xiàn)象被稱之為信息超載。個(gè)性化推薦,包括個(gè)性化搜索,是當(dāng)前解決這個(gè)問題最有效的工具之性化推薦,包括個(gè)性化搜索,是當(dāng)前解決這個(gè)問題最有效的工具之一
22、。一。推薦問題從根本上說是代替用戶評估它從未看過的產(chǎn)品。推薦問題從根本上說是代替用戶評估它從未看過的產(chǎn)品。個(gè)性化推薦系統(tǒng)通過建立用戶與信息產(chǎn)品之間的二元關(guān)系,利用已有個(gè)性化推薦系統(tǒng)通過建立用戶與信息產(chǎn)品之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個(gè)用戶潛在感興趣的對象,進(jìn)而進(jìn)行的選擇過程或相似性關(guān)系挖掘每個(gè)用戶潛在感興趣的對象,進(jìn)而進(jìn)行個(gè)性化推薦。個(gè)性化推薦。-15-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.8.2.22.2 推薦系統(tǒng)中的常用方法推薦系統(tǒng)中的常用方法主要的推薦方法包括:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則主要的推薦方法包括:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦
23、、基于效用推薦、基于知識推薦和組合推薦。推薦、基于效用推薦、基于知識推薦和組合推薦。基于內(nèi)容推薦基于內(nèi)容推薦v 基于內(nèi)容的推薦(基于內(nèi)容的推薦(Content-based RecommendationContent-based Recommendation)是信息過濾)是信息過濾技術(shù)的延續(xù)與發(fā)展,是建立在項(xiàng)目的內(nèi)容信息上做出的推薦,而技術(shù)的延續(xù)與發(fā)展,是建立在項(xiàng)目的內(nèi)容信息上做出的推薦,而不需要依據(jù)用戶對項(xiàng)目的評價(jià)意見,更多地需要用機(jī)器學(xué)習(xí)的方不需要依據(jù)用戶對項(xiàng)目的評價(jià)意見,更多地需要用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資料。法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資
24、料。v 在基于內(nèi)容的推薦系統(tǒng)中,項(xiàng)目或?qū)ο笫峭ㄟ^相關(guān)的特征的屬性在基于內(nèi)容的推薦系統(tǒng)中,項(xiàng)目或?qū)ο笫峭ㄟ^相關(guān)的特征的屬性來定義,系統(tǒng)基于用戶評價(jià)對象的特征,學(xué)習(xí)用戶的興趣,考察來定義,系統(tǒng)基于用戶評價(jià)對象的特征,學(xué)習(xí)用戶的興趣,考察用戶資料與待預(yù)測項(xiàng)目的相匹配程度。用戶資料與待預(yù)測項(xiàng)目的相匹配程度。v 用戶的資料模型取決于所用學(xué)習(xí)方法,常用的有決策樹、神經(jīng)網(wǎng)用戶的資料模型取決于所用學(xué)習(xí)方法,常用的有決策樹、神經(jīng)網(wǎng)絡(luò)和基于向量的表示方法等。絡(luò)和基于向量的表示方法等。-16-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v 基于內(nèi)容推薦方法的優(yōu)點(diǎn)是:基于內(nèi)容推薦方法的優(yōu)點(diǎn)是:不需要其它用戶的數(shù)據(jù),沒有冷開始
25、問題和稀疏問題。不需要其它用戶的數(shù)據(jù),沒有冷開始問題和稀疏問題。能為具有特殊興趣愛好的用戶進(jìn)行推薦。能為具有特殊興趣愛好的用戶進(jìn)行推薦。能推薦新的或不是很流行的項(xiàng)目,沒有新項(xiàng)目問題。能推薦新的或不是很流行的項(xiàng)目,沒有新項(xiàng)目問題。通過列出推薦項(xiàng)目的內(nèi)容特征,可以解釋為什么推薦那些項(xiàng)通過列出推薦項(xiàng)目的內(nèi)容特征,可以解釋為什么推薦那些項(xiàng)目。目。已有比較好的技術(shù),如關(guān)于分類學(xué)習(xí)方面的技術(shù)已相當(dāng)成熟。已有比較好的技術(shù),如關(guān)于分類學(xué)習(xí)方面的技術(shù)已相當(dāng)成熟。v 缺點(diǎn):要求內(nèi)容能容易抽取成有意義的特征,要求特征內(nèi)容有良缺點(diǎn):要求內(nèi)容能容易抽取成有意義的特征,要求特征內(nèi)容有良好的結(jié)構(gòu)性,并且用戶的口味必須能夠用
26、內(nèi)容特征形式來表達(dá),好的結(jié)構(gòu)性,并且用戶的口味必須能夠用內(nèi)容特征形式來表達(dá),不能顯式地得到其它用戶的判斷情況。不能顯式地得到其它用戶的判斷情況。協(xié)同過濾推薦協(xié)同過濾推薦v 協(xié)同過濾推薦(協(xié)同過濾推薦(Collaborative Filtering RecommendationCollaborative Filtering Recommendation)技)技術(shù)一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計(jì)算用戶之間術(shù)一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計(jì)算用戶之間的距離,然后利用目標(biāo)用戶的最近鄰居用戶對商品評價(jià)的加權(quán)評的距離,然后利用目標(biāo)用戶的最近鄰居用戶對商品評價(jià)的加權(quán)評價(jià)值來預(yù)測目標(biāo)用
27、戶對特定商品的喜好程度,系統(tǒng)從而根據(jù)這一價(jià)值來預(yù)測目標(biāo)用戶對特定商品的喜好程度,系統(tǒng)從而根據(jù)這一喜好程度來對目標(biāo)用戶進(jìn)行推薦。喜好程度來對目標(biāo)用戶進(jìn)行推薦。-17-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v 協(xié)同過濾最大優(yōu)點(diǎn)是對推薦對象沒有特殊的要求,能處理非結(jié)構(gòu)協(xié)同過濾最大優(yōu)點(diǎn)是對推薦對象沒有特殊的要求,能處理非結(jié)構(gòu)化的復(fù)雜對象?;膹?fù)雜對象。v 基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進(jìn)行相應(yīng)的推基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進(jìn)行相應(yīng)的推薦,并且是自動(dòng)的。薦,并且是自動(dòng)的。v 協(xié)同過濾的優(yōu)點(diǎn):協(xié)同過濾的優(yōu)點(diǎn):能夠過濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容分析的信息。能夠過濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容
28、分析的信息。共享其他人的經(jīng)驗(yàn),避免了內(nèi)容分析的不完全和不精確,并共享其他人的經(jīng)驗(yàn),避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念進(jìn)行過濾。且能夠基于一些復(fù)雜的,難以表述的概念進(jìn)行過濾。有推薦新信息的能力。可以發(fā)現(xiàn)內(nèi)容上完全不相似的信息,有推薦新信息的能力。可以發(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個(gè)性化學(xué)習(xí)的速度。量,加快個(gè)性化學(xué)習(xí)的速度。-18-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析基于關(guān)聯(lián)規(guī)則
29、的推薦(基于關(guān)聯(lián)規(guī)則的推薦(Association Rule-based RecommendationAssociation Rule-based Recommendation)是)是以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購商品作為規(guī)則頭,規(guī)則體為推薦對象。以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購商品作為規(guī)則頭,規(guī)則體為推薦對象?;谛в玫耐扑](基于效用的推薦(Utility-based RecommendationUtility-based Recommendation)是建立在對用戶)是建立在對用戶使用項(xiàng)目的效用情況上計(jì)算的,其核心問題是怎么樣為每一個(gè)用戶去使用項(xiàng)目的效用情況上計(jì)算的,其核心問題是怎么樣為每一個(gè)用戶去創(chuàng)建
30、一個(gè)效用函數(shù)。創(chuàng)建一個(gè)效用函數(shù)?;谥R的推薦(基于知識的推薦(Knowledge-based RecommendationKnowledge-based Recommendation)在某種程度上)在某種程度上可以看作為一種推理(可以看作為一種推理(InferenceInference)技術(shù),它不是建立在用戶需要和偏)技術(shù),它不是建立在用戶需要和偏好基礎(chǔ)上推薦的。好基礎(chǔ)上推薦的。組合推薦(組合推薦(Hybrid RecommendationHybrid Recommendation)。)。v 研究和應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。研究和應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。v
31、最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個(gè)推薦預(yù)測結(jié)果,然后用某方法組合其結(jié)果。產(chǎn)生一個(gè)推薦預(yù)測結(jié)果,然后用某方法組合其結(jié)果。-19-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.3 8.3 推薦系統(tǒng)設(shè)計(jì)實(shí)踐推薦系統(tǒng)設(shè)計(jì)實(shí)踐 完整的推薦系統(tǒng)由收集用戶信息的行為記錄模塊、分析用戶喜好完整的推薦系統(tǒng)由收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊組成。推薦算法模塊是最核心的部分。的模型分析模塊和推薦算法模塊組成。推薦算法模塊是最核心的部分。8.3.1 8.3.1 推薦系統(tǒng)實(shí)現(xiàn)流程推薦系統(tǒng)實(shí)現(xiàn)流程基于基于用
32、戶的協(xié)同過濾推薦的基本原理是(如圖用戶的協(xié)同過濾推薦的基本原理是(如圖8.28.2所示):所示):v 根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶口味和偏根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶口味和偏好相似的好相似的“鄰居鄰居”用戶群,一般采用計(jì)算用戶群,一般采用計(jì)算“K-K-鄰居鄰居”的算法;的算法;v 基于這基于這K K個(gè)鄰居的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。個(gè)鄰居的歷史偏好信息,為當(dāng)前用戶進(jìn)行推薦。基于項(xiàng)目的協(xié)同過濾推薦的基本原理是(如圖基于項(xiàng)目的協(xié)同過濾推薦的基本原理是(如圖8.38.3所示)所示) :v 使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相使用所有
33、用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度;似度;v 根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶。根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶。-20-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析圖圖8.2 8.2 基于用戶的協(xié)同過濾基于用戶的協(xié)同過濾機(jī)制的基本原理機(jī)制的基本原理用戶A用戶B用戶C物品A物品B物品C物品D推薦喜歡用戶A用戶B用戶C物品A物品B物品C推薦喜歡相似圖圖8.3 8.3 基于項(xiàng)目的協(xié)同過濾推基于項(xiàng)目的協(xié)同過濾推薦機(jī)制的基本原理薦機(jī)制的基本原理基于模型的推薦原理基于模型的推薦原理v 將已有的用戶喜好信息作為訓(xùn)練樣本,訓(xùn)練出一個(gè)預(yù)測用戶喜好將已有的用戶喜好信息作為訓(xùn)
34、練樣本,訓(xùn)練出一個(gè)預(yù)測用戶喜好的模型;的模型;v 基于此模型計(jì)算相似度進(jìn)行推薦?;诖四P陀?jì)算相似度進(jìn)行推薦。-21-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.3. 8.3. 2 2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理方法一般包括:數(shù)據(jù)清洗,數(shù)據(jù)聚合,數(shù)據(jù)變換,數(shù)據(jù)歸數(shù)據(jù)預(yù)處理方法一般包括:數(shù)據(jù)清洗,數(shù)據(jù)聚合,數(shù)據(jù)變換,數(shù)據(jù)歸約等。約等。數(shù)據(jù)清洗:主要從填充空缺值,識別孤立點(diǎn),消除噪聲,并糾正數(shù)據(jù)數(shù)據(jù)清洗:主要從填充空缺值,識別孤立點(diǎn),消除噪聲,并糾正數(shù)據(jù)中的不一致這幾個(gè)方面來對原始數(shù)據(jù)集進(jìn)行處理。中的不一致這幾個(gè)方面來對原始數(shù)據(jù)集進(jìn)行處理。v 空缺值的處理及其實(shí)現(xiàn)方式空缺值的處理及其實(shí)現(xiàn)方式忽略元
35、組忽略元組忽略屬性列忽略屬性列人工填寫空缺值人工填寫空缺值自動(dòng)填充空缺值:包括三種策略:自動(dòng)填充空缺值:包括三種策略:使用全局常量填充空缺值,將空缺屬性值用同常數(shù)替換。使用全局常量填充空缺值,將空缺屬性值用同常數(shù)替換。使用屬性的均值或期望值或者眾數(shù)進(jìn)行默認(rèn)填充。使用屬性的均值或期望值或者眾數(shù)進(jìn)行默認(rèn)填充??梢酝ㄟ^線性回歸、基于推理的工具或者決策樹歸納確定可以通過線性回歸、基于推理的工具或者決策樹歸納確定空缺值的可能值來進(jìn)行填充??杖敝档目赡苤祦磉M(jìn)行填充。-22-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v噪聲數(shù)據(jù)的清理方法噪聲數(shù)據(jù)的清理方法v 噪聲數(shù)據(jù)是一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差,其包含錯(cuò)誤或孤
36、噪聲數(shù)據(jù)是一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差,其包含錯(cuò)誤或孤立點(diǎn)值。立點(diǎn)值。v 導(dǎo)致噪聲產(chǎn)生的原因有多種:導(dǎo)致噪聲產(chǎn)生的原因有多種:采集設(shè)備出了故障;采集設(shè)備出了故障;數(shù)據(jù)錄入或搜集整理的過程出現(xiàn)人為的失誤或疏忽數(shù)據(jù)錄入或搜集整理的過程出現(xiàn)人為的失誤或疏忽;數(shù)據(jù)傳輸過程中的錯(cuò)誤等等。數(shù)據(jù)傳輸過程中的錯(cuò)誤等等。v 目前,有以下幾種處理噪聲數(shù)據(jù)的方法:目前,有以下幾種處理噪聲數(shù)據(jù)的方法:分箱:通過考察分箱:通過考察“鄰居鄰居”(周圍的值)來平滑存儲數(shù)據(jù)的值。(周圍的值)來平滑存儲數(shù)據(jù)的值。聚類:將類似的值組織成群或分類,通過刪除離群點(diǎn)來平滑聚類:將類似的值組織成群或分類,通過刪除離群點(diǎn)來平滑數(shù)據(jù)。數(shù)據(jù)
37、。計(jì)算機(jī)和人工相結(jié)合:通過已有經(jīng)驗(yàn)對數(shù)據(jù)集中明顯不符合計(jì)算機(jī)和人工相結(jié)合:通過已有經(jīng)驗(yàn)對數(shù)據(jù)集中明顯不符合邏輯的數(shù)據(jù)點(diǎn)進(jìn)行處理之后,再通過回歸或者數(shù)據(jù)處理算法邏輯的數(shù)據(jù)點(diǎn)進(jìn)行處理之后,再通過回歸或者數(shù)據(jù)處理算法對以初步處理后的數(shù)據(jù)集進(jìn)行處理。對以初步處理后的數(shù)據(jù)集進(jìn)行處理?;貧w分析:可以通過讓數(shù)據(jù)適合一個(gè)回歸函數(shù)來平滑數(shù)據(jù)?;貧w分析:可以通過讓數(shù)據(jù)適合一個(gè)回歸函數(shù)來平滑數(shù)據(jù)。-23-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v數(shù)據(jù)集成:將兩個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放近一個(gè)一致的數(shù)據(jù)存數(shù)據(jù)集成:將兩個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放近一個(gè)一致的數(shù)據(jù)存儲設(shè)備中,這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或一般
38、文件。儲設(shè)備中,這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。v 數(shù)據(jù)一致性:在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體數(shù)據(jù)一致性:在數(shù)據(jù)集成時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體有時(shí)并不一定是匹配的。有時(shí)并不一定是匹配的。v 數(shù)據(jù)屬性值冗余:屬性或維命名的不一致可能導(dǎo)致數(shù)據(jù)集中的冗數(shù)據(jù)屬性值冗余:屬性或維命名的不一致可能導(dǎo)致數(shù)據(jù)集中的冗余。余。v 元組重復(fù)問題:重復(fù)是指對于同一個(gè)數(shù)據(jù),存在兩個(gè)或多個(gè)相同元組重復(fù)問題:重復(fù)是指對于同一個(gè)數(shù)據(jù),存在兩個(gè)或多個(gè)相同的元組。的元組。v 數(shù)據(jù)值表現(xiàn)形式?jīng)_突的檢測與處理:數(shù)據(jù)集中的某一實(shí)體,如果數(shù)據(jù)值表現(xiàn)形式?jīng)_突的檢測與處理:數(shù)據(jù)集中的某一實(shí)體,如果
39、其來自不同數(shù)據(jù)源,那么它的的屬性值就有可能不同。這可能是其來自不同數(shù)據(jù)源,那么它的的屬性值就有可能不同。這可能是因?yàn)閿?shù)據(jù)的表示方式、縮減比例(通常用于數(shù)值屬性)或數(shù)據(jù)格因?yàn)閿?shù)據(jù)的表示方式、縮減比例(通常用于數(shù)值屬性)或數(shù)據(jù)格式編碼不同。式編碼不同。-24-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v數(shù)據(jù)變化數(shù)據(jù)變化是將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。是將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。v 平滑:去掉數(shù)據(jù)中的噪聲,包括分箱、聚類、回歸。平滑:去掉數(shù)據(jù)中的噪聲,包括分箱、聚類、回歸。v 聚類:對數(shù)據(jù)進(jìn)行匯總和聚集。聚類:對數(shù)據(jù)進(jìn)行匯總和聚集。v 數(shù)據(jù)概化:使用概念分層,用高層次概念替換低層次數(shù)據(jù)概化:使用概念分層,
40、用高層次概念替換低層次“原始原始”數(shù)數(shù)據(jù)。據(jù)。v 規(guī)范化:將原來的度量值轉(zhuǎn)換為無量綱的值,即將屬性數(shù)據(jù)按比規(guī)范化:將原來的度量值轉(zhuǎn)換為無量綱的值,即將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。例縮放,使之落入一個(gè)小的特定區(qū)間。v 屬性構(gòu)造:利用已知屬性,構(gòu)造新屬性,以更好地刻畫數(shù)據(jù)的特屬性構(gòu)造:利用已知屬性,構(gòu)造新屬性,以更好地刻畫數(shù)據(jù)的特性,幫助整個(gè)數(shù)據(jù)挖掘的過程。性,幫助整個(gè)數(shù)據(jù)挖掘的過程。v 數(shù)據(jù)離散化:聚類、分類或關(guān)聯(lián)分析中的某些算法要求數(shù)據(jù)是分?jǐn)?shù)據(jù)離散化:聚類、分類或關(guān)聯(lián)分析中的某些算法要求數(shù)據(jù)是分類屬性,因此需要對數(shù)值屬性進(jìn)行離散化。類屬性,因此需要對數(shù)值屬性進(jìn)行離散化。-25
41、-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v數(shù)據(jù)規(guī)約:數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的壓縮表示,它比源數(shù)數(shù)據(jù)規(guī)約:數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的壓縮表示,它比源數(shù)據(jù)集小得多,但仍然接近于保持原數(shù)據(jù)的完整性,這樣在歸約的數(shù)據(jù)據(jù)集小得多,但仍然接近于保持原數(shù)據(jù)的完整性,這樣在歸約的數(shù)據(jù)集上挖掘?qū)⒏行?,并能產(chǎn)生相同的分析結(jié)果。集上挖掘?qū)⒏行?,并能產(chǎn)生相同的分析結(jié)果。v 維度規(guī)約和特征變換維度規(guī)約和特征變換維度規(guī)約維度規(guī)約是指通過使用數(shù)據(jù)編碼或變換,得到原始數(shù)據(jù)數(shù)據(jù)是指通過使用數(shù)據(jù)編碼或變換,得到原始數(shù)據(jù)數(shù)據(jù)的規(guī)約或的規(guī)約或“壓縮壓縮”表示。表示。如果維度較低,許多數(shù)據(jù)挖掘算法的效果會更好。一方面是
42、如果維度較低,許多數(shù)據(jù)挖掘算法的效果會更好。一方面是因?yàn)榫S規(guī)約可刪除不相關(guān)的特征并降低噪聲,另一方面是因因?yàn)榫S規(guī)約可刪除不相關(guān)的特征并降低噪聲,另一方面是因?yàn)榫S災(zāi)難。為維災(zāi)難。使用維規(guī)約,使模型涉及更少的特征,因而可以產(chǎn)生更容易使用維規(guī)約,使模型涉及更少的特征,因而可以產(chǎn)生更容易理解的模型,可以降低數(shù)據(jù)挖掘算法的時(shí)間和空間復(fù)雜度。理解的模型,可以降低數(shù)據(jù)挖掘算法的時(shí)間和空間復(fù)雜度。-26-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v抽樣:選樣作為一種數(shù)據(jù)歸約技術(shù),是用較小的隨機(jī)樣本子集表示大抽樣:選樣作為一種數(shù)據(jù)歸約技術(shù),是用較小的隨機(jī)樣本子集表示大的數(shù)據(jù)集。的數(shù)據(jù)集。 簡單選擇簡單選擇n n個(gè)樣本
43、,不放回:由個(gè)樣本,不放回:由N N個(gè)元組中抽取個(gè)元組中抽取n n個(gè)樣本,其中任何個(gè)樣本,其中任何元組被抽取的概率均為元組被抽取的概率均為1/n1/n。 簡單選擇簡單選擇n n個(gè)樣本,回放:一個(gè)元組被抽取后,它又被放回,以便個(gè)樣本,回放:一個(gè)元組被抽取后,它又被放回,以便可以再次抽取??梢栽俅纬槿?。 聚類選樣:先將所有元組聚類,再從每個(gè)聚類中隨機(jī)選取一個(gè)樣聚類選樣:先將所有元組聚類,再從每個(gè)聚類中隨機(jī)選取一個(gè)樣本。本。 分層選樣:將元組劃分成不相交的部分,稱作層,通過對每一層分層選樣:將元組劃分成不相交的部分,稱作層,通過對每一層的簡單隨機(jī)選樣得到總體樣本的分層選樣。的簡單隨機(jī)選樣得到總體樣本
44、的分層選樣。v數(shù)值壓縮:可以通過選擇替代的、數(shù)值壓縮:可以通過選擇替代的、“較小的較小的”數(shù)據(jù)表示形式來減少數(shù)數(shù)據(jù)表示形式來減少數(shù)據(jù)量。據(jù)量。v特征選擇特征選擇指從一組已知特征集合中選擇最具有代表性的特征子集,使指從一組已知特征集合中選擇最具有代表性的特征子集,使其保留原有數(shù)據(jù)的大部分信息,即所選擇的特征子集可以像原來的全其保留原有數(shù)據(jù)的大部分信息,即所選擇的特征子集可以像原來的全部特征一樣用來正確區(qū)分?jǐn)?shù)據(jù)集中的每個(gè)數(shù)據(jù)對象。部特征一樣用來正確區(qū)分?jǐn)?shù)據(jù)集中的每個(gè)數(shù)據(jù)對象。-27-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v特征選擇的理想方法是:將所有可能的特征子集作為感興趣的數(shù)據(jù)算特征選擇的理想方法
45、是:將所有可能的特征子集作為感興趣的數(shù)據(jù)算法的輸入,然后選取產(chǎn)生最好結(jié)果的子集。法的輸入,然后選取產(chǎn)生最好結(jié)果的子集。根據(jù)特征選擇過程與后續(xù)數(shù)據(jù)挖掘算法的關(guān)聯(lián),特征選擇方法可分為根據(jù)特征選擇過程與后續(xù)數(shù)據(jù)挖掘算法的關(guān)聯(lián),特征選擇方法可分為過濾、封裝和嵌入。具體細(xì)節(jié)如圖過濾、封裝和嵌入。具體細(xì)節(jié)如圖8.48.4所示。所示。特征特征特征特征特征子集特征子集搜索策略搜索策略驗(yàn)證過程驗(yàn)證過程評估評估停止標(biāo)準(zhǔn)停止標(biāo)準(zhǔn)不滿足不滿足滿足滿足圖圖8.48.4 特征選擇流程圖特征選擇流程圖針對特征子集選擇的搜索策略主要包括:針對特征子集選擇的搜索策略主要包括:逐步向前選擇;逐步向前選擇;逐步向后刪除;逐步向后刪
46、除;向前選擇和向后刪除結(jié)合向前選擇和向后刪除結(jié)合決策樹歸納。決策樹歸納。-28-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.3.3 8.3.3 基于用戶屬性相似性判斷基于用戶屬性相似性判斷協(xié)同過濾推薦根據(jù)其他用戶的觀點(diǎn)產(chǎn)生對目標(biāo)用戶的推薦列表:如果協(xié)同過濾推薦根據(jù)其他用戶的觀點(diǎn)產(chǎn)生對目標(biāo)用戶的推薦列表:如果用戶對一些項(xiàng)目的評分比較相似,則他們對其他項(xiàng)目的評分也比較相用戶對一些項(xiàng)目的評分比較相似,則他們對其他項(xiàng)目的評分也比較相似。似。協(xié)同過濾推薦系統(tǒng)使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶的若干最近鄰居,然后協(xié)同過濾推薦系統(tǒng)使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶的若干最近鄰居,然后根據(jù)最近鄰居對項(xiàng)目的評分預(yù)測目標(biāo)用戶對項(xiàng)目的評分
47、,產(chǎn)生對應(yīng)的根據(jù)最近鄰居對項(xiàng)目的評分預(yù)測目標(biāo)用戶對項(xiàng)目的評分,產(chǎn)生對應(yīng)的推薦列表。推薦列表。為了找到目標(biāo)用戶的最近鄰居,必須度量用戶之間的相似性,然后選為了找到目標(biāo)用戶的最近鄰居,必須度量用戶之間的相似性,然后選擇相似性最高的若干用戶作為目標(biāo)用戶的最近鄰居。擇相似性最高的若干用戶作為目標(biāo)用戶的最近鄰居。目標(biāo)用戶的最近鄰居查詢是否準(zhǔn)確,直接關(guān)系到整個(gè)推薦系統(tǒng)的推薦目標(biāo)用戶的最近鄰居查詢是否準(zhǔn)確,直接關(guān)系到整個(gè)推薦系統(tǒng)的推薦質(zhì)量。準(zhǔn)確查詢目標(biāo)用戶的最近鄰居是整個(gè)協(xié)同過濾推薦成功的關(guān)鍵。質(zhì)量。準(zhǔn)確查詢目標(biāo)用戶的最近鄰居是整個(gè)協(xié)同過濾推薦成功的關(guān)鍵。常見的相似性度量方法有:余弦相似性度量、相關(guān)相似性度
48、量及修正常見的相似性度量方法有:余弦相似性度量、相關(guān)相似性度量及修正的余弦相似性度量。的余弦相似性度量。-29-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析為了便于聚類,首先將用戶喜好和自身屬性歸納為若干特征類,稱之為為了便于聚類,首先將用戶喜好和自身屬性歸納為若干特征類,稱之為用戶屬性空間用戶屬性空間 。其中。其中k為用戶屬性的數(shù)量。然而,對于某用戶,為用戶屬性的數(shù)量。然而,對于某用戶,針對某具體屬性,可能會有多個(gè)屬性值。因此,這里采用單一屬性來得針對某具體屬性,可能會有多個(gè)屬性值。因此,這里采用單一屬性來得出用戶在某一屬性上的相似性,最后對所有的屬性的相似度求和,再進(jìn)出用戶在某一屬性上的相似性,最
49、后對所有的屬性的相似度求和,再進(jìn)行平均,最后得出用戶之間的相似度。行平均,最后得出用戶之間的相似度。用戶用戶U1、U2屬性值空間屬性值空間A1=a11,a12,a1k,因此,可以通過,因此,可以通過A1屬性和用屬性和用戶來構(gòu)造戶來構(gòu)造nk的二維用戶屬性特征矩陣,如表的二維用戶屬性特征矩陣,如表8.28.2所示。所示。表表8.2 用戶屬性特征矩陣用戶屬性特征矩陣12,kAAA 10100101 1010 01011AU1U2UiUnU11a12a1 ja1ka-30-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v利用相似性計(jì)算的方法來度量用戶利用相似性計(jì)算的方法來度量用戶U1、U2在在A1屬性上的相似性
50、信賴度。屬性上的相似性信賴度。把某個(gè)用戶對于某一屬性的符合值看成一組特征向量,例如,對于用把某個(gè)用戶對于某一屬性的符合值看成一組特征向量,例如,對于用戶戶 U1、U2在在 A1屬 性 的 二 維 空 間 上 的 特 征 向 量 分 別屬 性 的 二 維 空 間 上 的 特 征 向 量 分 別是是 , 。 則用戶則用戶U1、U2在在A1屬性的相似性可有以下計(jì)算公式來表示:屬性的相似性可有以下計(jì)算公式來表示: (1)v其中,其中, 表示用戶表示用戶U1、U2在在A1上的相似度,上的相似度, 表表示用戶示用戶U1、U2 在在A1上沒有共同特征的屬性值取值,通過對屬性特征值上沒有共同特征的屬性值取值,
51、通過對屬性特征值異或,而求得用戶在某一屬性上不具有相似性的概值,然后求和,并異或,而求得用戶在某一屬性上不具有相似性的概值,然后求和,并與與k值相除,得到用戶在屬性值相除,得到用戶在屬性A1上非相似度,上非相似度, k表示屬性表示屬性A1取值總數(shù)。取值總數(shù)。1111111211,kU Au au au a2121121221,kU Au au au a 11211112111121(,)11kiiiU aU aU AU ASsim U A U AKK 1121(,)sim U A U A1121U AUA -31-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析v通過以下公式求得用戶通過以下公式求得用戶U
52、1、U2之間的相似性信賴度的平均值,之間的相似性信賴度的平均值,即即 。 (2)v求出此用戶在所有屬性上信賴度的期望值,從而來描述用戶之間的相求出此用戶在所有屬性上信賴度的期望值,從而來描述用戶之間的相似性的平均值,似性的平均值,m表示該用戶用多少個(gè)屬性來描述。表示該用戶用多少個(gè)屬性來描述。v用戶之間的相似度可通過以下公式求得:用戶之間的相似度可通過以下公式求得: (3)()EA sim12112(,)(,)miiisim U A U ASEA sim U Um111221()(,)( 1)kikiSSSsim U USS-32-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.3.4 8.3.4 用戶
53、相似性聚類用戶相似性聚類k-meansk-means算法是無監(jiān)督學(xué)習(xí)算法,輸入為一個(gè)無標(biāo)記的數(shù)據(jù)集合。算法是無監(jiān)督學(xué)習(xí)算法,輸入為一個(gè)無標(biāo)記的數(shù)據(jù)集合。k-meansk-means算法會初始化一組數(shù)據(jù)點(diǎn),稱之為類重心,類重心為每個(gè)類的算法會初始化一組數(shù)據(jù)點(diǎn),稱之為類重心,類重心為每個(gè)類的中心的假設(shè)。重心隨機(jī)從數(shù)據(jù)點(diǎn)中選取。中心的假設(shè)。重心隨機(jī)從數(shù)據(jù)點(diǎn)中選取。 假如數(shù)據(jù)集合都是假如數(shù)據(jù)集合都是n維向量,那么這些類類重心也是維向量,那么這些類類重心也是n維向量,之后重維向量,之后重復(fù)以下兩步,直到算法收斂:復(fù)以下兩步,直到算法收斂:v 對于每個(gè)對于每個(gè)xi,需要獲得距離最近的重心,需要獲得距離最近
54、的重心j,然后將其標(biāo)記成不同的然后將其標(biāo)記成不同的類別。類別。 (4) v 將類重心更新為分配給該類的所有點(diǎn)的均值,重新確定類重心。將類重心更新為分配給該類的所有點(diǎn)的均值,重新確定類重心。 (5) ( )ijset c iarg min xu_()set distancedset clustercenterEA distance-33-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析假設(shè),有假設(shè),有n個(gè)用戶,則本次推薦按系統(tǒng)構(gòu)成的集合為個(gè)用戶,則本次推薦按系統(tǒng)構(gòu)成的集合為U=U1,U2,Un,經(jīng)過經(jīng)過K-meansK-means算法處理算法處理之后,所生成的聚類集合表示為之后,所生成的聚類集合表示為C=c
55、1,c2,cj,其中其中j表示為經(jīng)算法處理之后生成的聚類總數(shù),表示為經(jīng)算法處理之后生成的聚類總數(shù),ci表示此子簇中的用戶表示此子簇中的用戶在個(gè)人喜好或偏好方面具有較高的相似性。在個(gè)人喜好或偏好方面具有較高的相似性。算法的實(shí)現(xiàn)為:算法的實(shí)現(xiàn)為: Input: ClusterNum j and Matrix(nk);Output: the number of cluster about matrix is j;方法:方法:步驟步驟1 1 在二維用戶屬性特征矩陣中檢索所有在二維用戶屬性特征矩陣中檢索所有n個(gè)項(xiàng)目,用集合個(gè)項(xiàng)目,用集合 U=U1,U2,Un表示;表示;步驟步驟2 2 集合中隨機(jī)選擇集合
56、中隨機(jī)選擇j個(gè)項(xiàng)目,將他們的屬性特征數(shù)據(jù)作為個(gè)項(xiàng)目,將他們的屬性特征數(shù)據(jù)作為 初始聚類中心,用集合初始聚類中心,用集合 表示;表示;步驟步驟3 3 對對j個(gè)聚類進(jìn)行初始化為空,用集合個(gè)聚類進(jìn)行初始化為空,用集合C表示表示; 12 ,jCc cc-34-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析步驟步驟4 4 對剩余的項(xiàng)目執(zhí)行以下操作:對剩余的項(xiàng)目執(zhí)行以下操作:步驟步驟5 5 計(jì)算新生成聚類中所有項(xiàng)目的平均值,并生成新的聚類計(jì)算新生成聚類中所有項(xiàng)目的平均值,并生成新的聚類 中心;中心;步驟步驟6 6 重復(fù)重復(fù)4 4和和5 5,直到聚類中心不再發(fā)生變化為止,并輸出,直到聚類中心不再發(fā)生變化為止,并輸出s
57、個(gè)個(gè) 類簇。類簇。算法:用戶聚類算法1: for all do2: for all do3: 4: end for5: 6: 7: end foriuUicC(u ,c )iisim,(u c )max(u c ),(u c ),(u c )imimimimsimsimsimsimiCu -35-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.3.5 8.3.5 推薦結(jié)果推薦結(jié)果本設(shè)計(jì)基于協(xié)同過濾思想為用戶提供滿意的推薦服務(wù),利用公式本設(shè)計(jì)基于協(xié)同過濾思想為用戶提供滿意的推薦服務(wù),利用公式(3)(3),計(jì) 算 用 戶 之 間 的 相 似 性 , 從 而 找 出 用 戶計(jì) 算 用 戶 之 間 的 相 似
58、 性 , 從 而 找 出 用 戶 u 的 最 近 鄰的 最 近 鄰居居 。依據(jù)公式依據(jù)公式(3)(3)以及經(jīng)以及經(jīng)k-meansk-means算法生成的算法生成的j個(gè)用戶子簇,結(jié)合目標(biāo)用戶的個(gè)用戶子簇,結(jié)合目標(biāo)用戶的最近鄰居選擇最近鄰居選擇top-ntop-n個(gè)預(yù)測值較高的餐館推薦給用戶,計(jì)算方法如下:個(gè)預(yù)測值較高的餐館推薦給用戶,計(jì)算方法如下: (6) 表示用戶表示用戶u與用戶與用戶n之間的相似性,之間的相似性,Rn,j表示用戶表示用戶n對餐館對餐館i的的評分,評分, 、 表示用戶表示用戶u和用戶和用戶n對餐館的平均評分。對餐館的平均評分。12,ujNU Uu,( , ) ()( , )uu
59、n jnn Nu iun Nsim u nRRPRsim u n( , )sim u nuRnR-36-第第8 8章章 大數(shù)據(jù)分析大數(shù)據(jù)分析8.4 8.4 數(shù)據(jù)預(yù)處理實(shí)現(xiàn)及結(jié)果分析數(shù)據(jù)預(yù)處理實(shí)現(xiàn)及結(jié)果分析8.4.1 準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)本部分以加利福尼亞大學(xué)爾灣分校提供的墨西哥餐館消費(fèi)情況數(shù)據(jù)集本部分以加利福尼亞大學(xué)爾灣分校提供的墨西哥餐館消費(fèi)情況數(shù)據(jù)集為為例,針對墨西哥消費(fèi)者的喜好來產(chǎn)生例,針對墨西哥消費(fèi)者的喜好來產(chǎn)生top-ntop-n餐廳推薦列表。餐廳推薦列表。 數(shù)據(jù)集包括三部分:數(shù)據(jù)集包括三部分:chefmoz chefmoz 餐館的基本信息、所調(diào)研餐館的基本信息、所調(diào)研customerc
60、ustomer的基的基本喜好信息以及最終的用戶對餐館的評分估計(jì)信息本喜好信息以及最終的用戶對餐館的評分估計(jì)信息rating_finalrating_final。v RestaurantsRestaurants分別涉及分別涉及chefmozaccept.csvchefmozaccept.csv、chefmozcuisine.csvchefmozcuisine.csv、chefmozhours4.csvchefmozhours4.csv、chefmozparking.csvchefmozparking.csv、geoplaces2.csv geoplaces2.csv 五五張數(shù)據(jù)表。張數(shù)據(jù)表。v
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:巨災(zāi)指數(shù)保險(xiǎn)調(diào)節(jié)下政府應(yīng)急物資采儲策略優(yōu)化研究
- 課題申報(bào)參考:教育強(qiáng)國與新質(zhì)生產(chǎn)力研究
- 2025年度個(gè)人屋頂光伏安裝合同范本3篇
- 2025年塔城b2考貨運(yùn)資格證要多久
- 2025個(gè)人蝦池承包養(yǎng)殖資源整合與開發(fā)合同3篇
- 十佳書香家庭事跡
- 二零二五版智能農(nóng)業(yè)監(jiān)測系統(tǒng)采購合同提升農(nóng)業(yè)效率4篇
- 二零二五學(xué)校與家長聯(lián)合實(shí)施家校共育行動(dòng)計(jì)劃3篇
- 2025年度北京商品房買賣合同(含智能家居系統(tǒng)升級承諾)3篇
- 2025年個(gè)人間信息保密與責(zé)任承擔(dān)協(xié)議書3篇
- 2024版?zhèn)€人私有房屋購買合同
- 2024爆炸物運(yùn)輸安全保障協(xié)議版B版
- 2025年度軍人軍事秘密保護(hù)保密協(xié)議與信息安全風(fēng)險(xiǎn)評估合同3篇
- 《食品與食品》課件
- 讀書分享會《白夜行》
- 光伏工程施工組織設(shè)計(jì)
- DB4101-T 121-2024 類家庭社會工作服務(wù)規(guī)范
- 化學(xué)纖維的鑒別與測試方法考核試卷
- 2024-2025學(xué)年全國中學(xué)生天文知識競賽考試題庫(含答案)
- 自動(dòng)駕駛汽車道路交通安全性探討研究論文
- 術(shù)后譫妄及護(hù)理
評論
0/150
提交評論