第8章大數(shù)據(jù)分析.ppt_第1頁
第8章大數(shù)據(jù)分析.ppt_第2頁
第8章大數(shù)據(jù)分析.ppt_第3頁
第8章大數(shù)據(jù)分析.ppt_第4頁
第8章大數(shù)據(jù)分析.ppt_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)分析,第8章,目錄,8.1大數(shù)據(jù)概要8.2推薦系統(tǒng)8.3推薦系統(tǒng)設(shè)定修改實(shí)踐8.4數(shù)據(jù)預(yù)處理實(shí)現(xiàn)和結(jié)果分析8.5實(shí)驗(yàn)結(jié)果及其分析本章的總結(jié),8.1大數(shù)據(jù)概要,所謂大數(shù)據(jù)(Big Data,Mega Data ), 指需要新的處理方法來通過數(shù)據(jù)表達(dá)更強(qiáng)的決策的大數(shù)據(jù)一般具有4V的特征: Volume、Velocity、Variety和Value。 大數(shù)據(jù)技術(shù)的戰(zhàn)略意義是專業(yè)化處理有意義的數(shù)據(jù),體現(xiàn)大數(shù)據(jù)背后的價(jià)值。 在技術(shù)上,大數(shù)據(jù)與云計(jì)算密切相關(guān)。 適用于大型數(shù)據(jù)的技術(shù),包括大型并行處理(MPP )數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展存儲系統(tǒng)。 8.

2、1.1大數(shù)據(jù)的特征數(shù)據(jù)分析需要從復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)規(guī)則,提取新知識,是大數(shù)據(jù)價(jià)值挖掘的關(guān)鍵。 經(jīng)過數(shù)據(jù)的修正和處理,得到的數(shù)據(jù)成為數(shù)據(jù)分析的原始數(shù)據(jù),根據(jù)需要對數(shù)據(jù)進(jìn)行進(jìn)一步的處理和分析,最終找到數(shù)據(jù)內(nèi)部的隱藏規(guī)則或知識,體現(xiàn)數(shù)據(jù)的真正價(jià)值。 大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量巨大流動速度快,數(shù)據(jù)種類多,價(jià)值密度低,8.1.2大數(shù)據(jù)的傳統(tǒng)處理方法統(tǒng)一修正分析是運(yùn)用有關(guān)統(tǒng)一修正方法和分析對象的知識,從定量和定性結(jié)合開始進(jìn)行的研究活動。 統(tǒng)訂分析繼統(tǒng)訂設(shè)訂、統(tǒng)訂調(diào)查、統(tǒng)訂整理之后,通過分析達(dá)到對研究對象的更深層次的認(rèn)識。 統(tǒng)訂分析是在一定的選題下,集中分析方案的設(shè)訂、資料的收集和整理而開展的研究活動。 系統(tǒng)、完善的

3、資料是統(tǒng)一修訂分析的必要條件。 整合分析分為描述要分析的數(shù)據(jù)性質(zhì)的五個(gè)步驟。 研究基礎(chǔ)小組的數(shù)據(jù)關(guān)系。 建立統(tǒng)一數(shù)據(jù)與基礎(chǔ)小組聯(lián)系的模型。 證明(或否定)該模型的有效性。 用預(yù)測分析預(yù)測將來的趨勢。8.1.3大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)方法聚類分析聚類通常以靜態(tài)分類的方式將相似對象分成不同組或更多子集,并且具有與相同子集的成員對象相似的若干屬性結(jié)構(gòu)聚集:可以如從上到下或從下到上雙向地校正采用先前成功的聚集器的分類結(jié)構(gòu)算法。 從下到上的算法以每個(gè)對象的個(gè)別分類開始,繼續(xù)融合其中相近的對象。 從上到下的算法將所有對象分類為一個(gè)整體,逐漸變小。 分割聚類算法用于確定一次生成的類。 基于密度的聚類算法被發(fā)明用

4、于挖掘具有任意形狀特性的類。 此算法將類別視為大于數(shù)據(jù)集中的閾值的區(qū)域。 分散性聚類:一次決定所有的分類。 K-means算法表示以空間中的k個(gè)點(diǎn)為中心進(jìn)行聚類,并對最接近它們的對象進(jìn)行分類。 算法總結(jié)為:個(gè)選擇聚類的個(gè)數(shù)k。 可任選地產(chǎn)生k個(gè)集群、確定集群的中心或者直接產(chǎn)生k個(gè)中心。 對每個(gè)點(diǎn)決定其集群中心點(diǎn)。 修正那個(gè)集群的新中心。 重復(fù)上述步驟,直到滿足收斂要求(通常確定的中心點(diǎn)不會改變)。 該算法的最大優(yōu)點(diǎn)是簡單快捷。 缺點(diǎn)是不能滿足某些結(jié)果的需要,因?yàn)殡S機(jī)點(diǎn)的選擇通常是非常偶然的。 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是由與多個(gè)節(jié)點(diǎn)(或稱為“神經(jīng)元”、“單元”)的互連構(gòu)成的運(yùn)算模型。 每個(gè)節(jié)點(diǎn)代表一個(gè)稱

5、為激勵函數(shù)的特定輸出函數(shù)。 兩個(gè)節(jié)點(diǎn)之間的連接表示對通過該連接的信號的加權(quán)值,稱為權(quán)重,其對應(yīng)于人工神經(jīng)網(wǎng)絡(luò)的存儲。網(wǎng)絡(luò)的輸出根據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值、激勵函數(shù)而不同。 神經(jīng)網(wǎng)絡(luò)是一個(gè)可以學(xué)習(xí)、歸納的系統(tǒng),可以通過已知數(shù)據(jù)的實(shí)驗(yàn)運(yùn)用來學(xué)習(xí)、歸納。 人工神經(jīng)網(wǎng)絡(luò)通過對局部狀況進(jìn)行比較(這些比較是根據(jù)不同狀況的自動學(xué)習(xí)和實(shí)際問題解決的復(fù)雜性而決定的),它可以推論并創(chuàng)建自動識別的系統(tǒng)。 常見的多層結(jié)構(gòu)的前饋網(wǎng)絡(luò)由三部分組成:輸入層,許多神經(jīng)元接收大量的非線性輸入信息。 輸入的信息稱為輸入向量。 輸出層通過神經(jīng)元鏈路傳遞、分析、折衷信息,形成輸出結(jié)果。 輸出的信息稱為輸出向量。 隱藏層簡稱為“隱藏層

6、”,是由輸入層和輸出層之間的多個(gè)神經(jīng)元和鏈路組成的各層。 隱藏層可以有多個(gè)層,習(xí)慣上使用一個(gè)層。 隱藏層的節(jié)點(diǎn)(神經(jīng)元)數(shù)不定,習(xí)慣性地選擇輸入節(jié)點(diǎn)的1.21.5倍的節(jié)點(diǎn)。 中的組合圖層性質(zhì)變更選項(xiàng)。 決策樹由一個(gè)決策圖和可能包含資源成本和風(fēng)險(xiǎn)的結(jié)果組成,用于創(chuàng)建修訂圖以實(shí)現(xiàn)目標(biāo)。 決策樹是利用樹一樣的圖形和決策模型進(jìn)行決策支持的工具。 決策樹常用于運(yùn)籌學(xué),尤其用于決策分析。 決策樹法的決策步驟是制作樹狀圖,根據(jù)已知的條件排列各方案和各方案的各種自然狀態(tài)。 把各狀態(tài)的概率及損益的值附在概率分支上。 校正每個(gè)計(jì)劃的期望值并將其標(biāo)記為對應(yīng)于該計(jì)劃的狀態(tài)節(jié)點(diǎn)。 剪枝,比較各方案的期待值,在方案枝上做

7、上記號,把期待值小的(即去掉劣等方案)最后的方案作為最佳方案。 相對于其他的數(shù)據(jù)挖掘算法,決策樹具有容易理解和實(shí)現(xiàn),人們有能力通過解釋理解決策樹表示的意思的優(yōu)點(diǎn)。 決策樹中,數(shù)據(jù)的準(zhǔn)備通常簡單或不需要。 其他技術(shù)通常需要將數(shù)據(jù)普遍化,例如刪除多才多藝的屬性和空白的屬性。 可以同時(shí)處理數(shù)據(jù)類型和正常類型的屬性。 其他技術(shù)通常要求數(shù)據(jù)屬性的單一性。 決策樹是白色箱子的模型。 給出觀察的模型,可以容易地從生成的決策樹導(dǎo)出適當(dāng)?shù)倪壿嫻健?通過靜態(tài)測試對模型進(jìn)行評價(jià)很容易。 表明該模型的可靠性有測量的可能性。 在相對短的時(shí)間內(nèi),可以對大型數(shù)據(jù)源取得可行且有效的結(jié)果。關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中的一個(gè)重

8、要課題,它用于從大量數(shù)據(jù)中挖掘有價(jià)值的數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系。 關(guān)聯(lián)規(guī)則包括根據(jù)關(guān)聯(lián)規(guī)則處理的值類型:布爾關(guān)聯(lián)規(guī)則數(shù)量關(guān)聯(lián)規(guī)則關(guān)聯(lián)的數(shù)據(jù)維:單維關(guān)聯(lián)規(guī)則(siii ) 一般的分類是基于關(guān)聯(lián)規(guī)則的多維關(guān)聯(lián)規(guī)則是關(guān)聯(lián)規(guī)則的抽象層次:單層關(guān)聯(lián)規(guī)則的廣義關(guān)聯(lián)推薦系統(tǒng)一般基于各種智能算法,利用數(shù)據(jù)挖掘技術(shù)提取大數(shù)據(jù)中出現(xiàn)的各種指標(biāo)所暗示的信息模式,生成個(gè)性化推薦結(jié)果。 個(gè)性化推薦是根據(jù)用戶的興趣特征和購買行為,向用戶推薦用戶感興趣的信息和商品。 個(gè)性化推薦系統(tǒng)是基于大量數(shù)據(jù)挖掘構(gòu)建的高級商務(wù)智能平臺,電子商務(wù)網(wǎng)站完全個(gè)性化到顧客購物的決策支持和信息,8.2.1背景介紹因特網(wǎng)技術(shù)迅速發(fā)展和傳播信息的爆炸降低

9、了信息的利用率,這種現(xiàn)象稱為信息過載。 個(gè)性化建議(包括個(gè)性化搜索)是當(dāng)前解決此問題最有效的工具之一。 建議的問題基本上是代表用戶對未見過的產(chǎn)品進(jìn)行評價(jià)。 個(gè)性化推薦系統(tǒng)通過建立用戶與信息產(chǎn)品之間的二維關(guān)系,利用現(xiàn)有的選擇過程和相似性關(guān)系挖掘每個(gè)用戶可能感興趣的對象,進(jìn)行個(gè)性化推薦。 8.2.2推薦系統(tǒng)中常用方法的主要推薦方法有基于內(nèi)容的推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于效用的推薦、基于知識庫推薦和組合推薦。 基于內(nèi)容推薦的內(nèi)容推薦是信息過濾技術(shù)的繼續(xù)和發(fā)展,是基于項(xiàng)目內(nèi)容信息的推薦,不需要基于用戶對項(xiàng)目的評價(jià)意見,而是以機(jī)器學(xué)習(xí)的方式進(jìn)行內(nèi)容推薦在基于內(nèi)容的推薦系統(tǒng)中,項(xiàng)目和對象由

10、相關(guān)的特征的屬性定義,該系統(tǒng)由用戶評估對象的特征,學(xué)習(xí)用戶興趣,并且考察用戶資料和要預(yù)測的項(xiàng)目之間的適合度。 用戶的資料模型取決于所使用的學(xué)習(xí)方法,常用決策樹、神經(jīng)網(wǎng)絡(luò)、基于向量的表現(xiàn)方法等。 建議使用基于內(nèi)容的方法的優(yōu)點(diǎn)是不需要其他用戶的數(shù)據(jù),不存在冷啟動或稀疏問題。 可以推薦給有特殊興趣的用戶。 您可以推薦一個(gè)新的或不太受歡迎的項(xiàng)目。 沒有新項(xiàng)目的問題。 通過列舉推薦項(xiàng)目的內(nèi)容特征,能夠說明推薦這些項(xiàng)目的理由。 分類學(xué)習(xí)相關(guān)技術(shù)相當(dāng)成熟等,有比較好的技術(shù)。 缺點(diǎn):內(nèi)容可以很容易地提取出有意義的特征,要求特征內(nèi)容具有良好的結(jié)構(gòu)性,用戶的喜好必須以內(nèi)容特征形式表達(dá),不能明確得到其他用戶的判斷情

11、況。 協(xié)同過濾推薦協(xié)同過濾推薦技術(shù)通常采用最近鄰技術(shù),通過使用用戶的歷史偏好信息來校正用戶之間的距離,然后目標(biāo)用戶對最近鄰用戶的商品評估的加權(quán)值。 協(xié)作過濾的最大優(yōu)點(diǎn)是,推薦對象沒有特別的要求,可以處理非結(jié)構(gòu)化的復(fù)雜對象。 基于協(xié)調(diào)過濾的推薦系統(tǒng)從用戶的觀點(diǎn)進(jìn)行適當(dāng)?shù)耐扑],可以說是自動的。 協(xié)調(diào)過濾的優(yōu)點(diǎn):可以過濾機(jī)器自動內(nèi)容分析困難的信息。 分享他人的經(jīng)驗(yàn)可以避免內(nèi)容分析的不完整性和不準(zhǔn)確性,并根據(jù)復(fù)雜難以表達(dá)的概念進(jìn)行過濾。 我有推薦新信息的能力。 發(fā)現(xiàn)內(nèi)容上完全不同的信息,用戶無法預(yù)先預(yù)測推薦信息的內(nèi)容。 有效使用其他類似用戶的反饋信息,減少用戶的反饋量,提高個(gè)性化學(xué)習(xí)的速度。 基于關(guān)聯(lián)

12、規(guī)則的推薦(association rule-basedrecommendation )基于關(guān)聯(lián)規(guī)則,以購買的商品為規(guī)則標(biāo)題,以規(guī)則體為推薦對象。 基于效用的推薦是基于用戶利用該項(xiàng)目的效用來校正的,其核心問題是為每個(gè)用戶創(chuàng)建效用函數(shù)。 知識型推薦在一定程度上可以被視為推理技術(shù),而不是基于用戶的需求和偏好來推薦的。 “混合推薦”(Hybrid Recommendation )。 研究和應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。 最簡單的方法是使用基于內(nèi)容的方法和推薦的協(xié)作過濾方法來生成推薦的預(yù)測結(jié)果,然后將結(jié)果以某種方式進(jìn)行組合。8.3推薦系統(tǒng)設(shè)置修訂實(shí)踐、完整推薦系統(tǒng)包括收集用戶信息的行為記錄

13、模塊、分析用戶偏好的模型分析模塊和推薦算法模塊。 推薦算法模塊是最核心的部分。 8.3.1實(shí)現(xiàn)推薦系統(tǒng)的過程基于用戶的協(xié)同過濾推薦的基本原理(如圖8.2所示): 根據(jù)所有用戶對物品或信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶的偏好相似的“鄰居”用戶群,通常對“K-鄰居”進(jìn)行糾正基于項(xiàng)目的協(xié)同過濾推薦的基本原理(如圖8.3所示) : 使用所有用戶對物品和信息的偏好,基于發(fā)現(xiàn)物品和物品之間的相似度的用戶的歷史偏好信息,向用戶推薦相似的。 基于圖8.2用戶的協(xié)同過濾機(jī)制的基本原理,基于圖8.3項(xiàng)目的協(xié)同過濾推薦機(jī)制的基本原理,基于模型的推薦原理,通過使用現(xiàn)有用戶偏好信息作為訓(xùn)練樣本,基于訓(xùn)練用于預(yù)測用戶偏好的模型的

14、模型來計(jì)算和推薦相似度。 8.3. 2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理方法包括數(shù)據(jù)清洗、數(shù)據(jù)聚合、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約等。 數(shù)據(jù)清洗:主要從空缺值的填充、孤立點(diǎn)的識別、去噪、數(shù)據(jù)中的不一致的修正等方面處理原始數(shù)據(jù)集。 空缺值的處理及其實(shí)施方法元組忽略屬性列手動輸入空缺值自動輸入空缺值的方法:有三種方法可以使用全局常量輸入空缺值,并用相同的常量替換空缺屬性值。 使用屬性的平均值或期望值或頻率值進(jìn)行默認(rèn)輸入。 可通過線性回歸、基于推論的工具或決策樹歸納確定空缺值的可能值來輸入。 清除噪音數(shù)據(jù)的方法噪音數(shù)據(jù)是包含錯誤或孤立點(diǎn)值的測量變量的隨機(jī)錯誤或偏差。 噪音產(chǎn)生的原因有很多:收集設(shè)備發(fā)生故障的數(shù)據(jù)輸入或收集整理

15、過程中發(fā)生人為錯誤或疏忽的數(shù)據(jù)傳輸中的錯誤等。 現(xiàn)在,作為處理噪音數(shù)據(jù)的方法,有幾種通過考察“鄰居”(周圍的值),平滑地保存數(shù)據(jù)的值的方法。 聚類:對相似的值進(jìn)行分組或分類,通過刪除偏差點(diǎn)來平滑數(shù)據(jù)。 計(jì)算機(jī)與人工結(jié)合:根據(jù)現(xiàn)有經(jīng)驗(yàn)處理數(shù)據(jù)集明顯不符合邏輯的數(shù)據(jù)點(diǎn)后,再根據(jù)回歸或數(shù)據(jù)處理算法處理初步處理的數(shù)據(jù)集。 回歸分析:通過使數(shù)據(jù)適合回歸函數(shù),可以使數(shù)據(jù)平滑化。 數(shù)據(jù)整合:在幾乎一致的數(shù)據(jù)存儲設(shè)備上存儲來自兩個(gè)或多個(gè)數(shù)據(jù)源的數(shù)據(jù),包括多個(gè)數(shù)據(jù)庫、多維數(shù)據(jù)集或通用文件。 數(shù)據(jù)完整性:數(shù)據(jù)整合時(shí),來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體可能不一致。 數(shù)據(jù)屬性值冗馀:屬性或維名稱不匹配可能導(dǎo)致數(shù)據(jù)集中的冗馀。 元組重復(fù)問題:重復(fù)意味著相同數(shù)據(jù)存在多個(gè)相同元組。 檢測和處理數(shù)據(jù)值表示形式的沖突:如果數(shù)據(jù)集中的一個(gè)實(shí)體來自不同的數(shù)據(jù)源,則其屬性值可能不同。 這可能是因?yàn)閿?shù)據(jù)的表示、縮小率(通常用于數(shù)字屬性)或數(shù)據(jù)格式的編碼不同。 數(shù)據(jù)的變化就是將數(shù)據(jù)轉(zhuǎn)換為適合挖掘的格式。 平滑化:從數(shù)據(jù)中去除噪音。 其中包括盒子劃分、聚類、回歸等。 聚類:聚合和聚合數(shù)據(jù)。 數(shù)據(jù)概化:使用概念層次結(jié)構(gòu),將低級別的“原始”數(shù)據(jù)替換為高級別的概念。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論