算法新聞--第6章-大數(shù)據(jù)與推薦系統(tǒng)課件_第1頁(yè)
算法新聞--第6章-大數(shù)據(jù)與推薦系統(tǒng)課件_第2頁(yè)
算法新聞--第6章-大數(shù)據(jù)與推薦系統(tǒng)課件_第3頁(yè)
算法新聞--第6章-大數(shù)據(jù)與推薦系統(tǒng)課件_第4頁(yè)
算法新聞--第6章-大數(shù)據(jù)與推薦系統(tǒng)課件_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、新編21世紀(jì)新聞傳播學(xué)系列教材 新聞學(xué)系列 算法新聞Algorithmic Journalism 目 錄 Contents個(gè)性化分發(fā)與內(nèi)容生產(chǎn)變革算法推薦原理用戶畫(huà)像的標(biāo)簽體系文本型內(nèi)容的建模與分析01020304智能推薦算法05大數(shù)據(jù)與推薦系統(tǒng)06 目 錄 Contents新媒體時(shí)代的標(biāo)題基于算法推薦的自媒體定位新媒體背景下的內(nèi)容生產(chǎn)090708新媒體內(nèi)容的制作10新媒體的內(nèi)容生產(chǎn)運(yùn)營(yíng)11人工智能與推薦系統(tǒng)12大數(shù)據(jù)與推薦系統(tǒng)本章要點(diǎn)關(guān)鍵詞第6章在大數(shù)據(jù)技術(shù)及其軟硬件平臺(tái)蓬勃發(fā)展的過(guò)程中,智能推薦系統(tǒng)從中受益,用戶側(cè)大數(shù)據(jù)幫助系統(tǒng)更好地認(rèn)識(shí)和理解用戶的興趣愛(ài)好,內(nèi)容側(cè)大數(shù)據(jù)提供了豐富多樣的內(nèi)

2、容選擇,滿足用戶的個(gè)性化需求。另外,正是因?yàn)楹A繑?shù)據(jù)的存在,深度學(xué)習(xí)算法可以被反復(fù)訓(xùn)練和完善,提供更加高效和準(zhǔn)確的個(gè)性化匹配。本章重點(diǎn)介紹大數(shù)據(jù)的基本原理和概念,大數(shù)據(jù)在算法推薦系統(tǒng)的應(yīng)用,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的原理及其在算法推薦系統(tǒng)的應(yīng)用。大數(shù)據(jù)、算法推薦系統(tǒng)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò) 目 錄 Contents詳解大數(shù)據(jù)大數(shù)據(jù)與算法推薦系統(tǒng)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)010203第1節(jié) 詳解大數(shù)據(jù) 1.1 大數(shù)據(jù)的背景與意義1.1.1 理解“大數(shù)據(jù)”的三個(gè)維度 數(shù)據(jù)早期計(jì)算機(jī)可以處理的數(shù)據(jù)稱為 “結(jié)構(gòu)化” 數(shù)據(jù),也稱作行數(shù)據(jù),使用二維表結(jié)構(gòu)來(lái)表達(dá)數(shù)據(jù)的邏輯,并進(jìn)行數(shù)據(jù)存儲(chǔ)。結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)

3、范,主要通過(guò)電子表格或關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。 (例:電話簿文件) 隨著計(jì)算機(jī)應(yīng)用系統(tǒng)的發(fā)展,出現(xiàn)了半結(jié)構(gòu)化數(shù)據(jù)。和普通的純文本相比,半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,但和具有嚴(yán)格理論模型的關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)相比,對(duì)數(shù)據(jù)結(jié)構(gòu)的要求略寬松。 (例:系統(tǒng)日志文件)隨著互聯(lián)網(wǎng)的發(fā)展,在以上兩種類型的數(shù)據(jù)之外,又出現(xiàn)了無(wú)結(jié)構(gòu)化數(shù)據(jù)。(例:網(wǎng)頁(yè)、 電子郵件、 流媒體數(shù)據(jù) ) 1.1.1 理解“大數(shù)據(jù)”的三個(gè)維度 人(用戶)早期計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)的使用者主要來(lái)自科學(xué)計(jì)算的領(lǐng)域,計(jì)算任務(wù)和用戶人群結(jié)構(gòu)都比較單一,計(jì)算所需數(shù)據(jù)多需要專用設(shè)備采集和生成,數(shù)據(jù)量與當(dāng)前的大數(shù)據(jù)相比屬于“小”數(shù)據(jù)。 隨著個(gè)人電腦和互聯(lián)網(wǎng)

4、的普及,用戶在網(wǎng)絡(luò)上的行為變得更加個(gè)人化,各種社交需求也映射到了網(wǎng)絡(luò)空間,出現(xiàn)了各種各樣的社交媒體。用戶在社交媒體上的自我表達(dá)和互動(dòng)交流產(chǎn)生了海量異構(gòu)數(shù)據(jù)。 設(shè)備隨著硬件制造水平的不斷提升,目前計(jì)算和存儲(chǔ)設(shè)備的能力正在不斷沖擊硬件制造工藝所能達(dá)到的極限。在個(gè)人電腦之外,一些更小的設(shè)備比如手機(jī)、車載傳感器、物聯(lián)網(wǎng)設(shè)備等,其制造工藝也在飛速發(fā)展,通過(guò)這些設(shè)備產(chǎn)生的數(shù)據(jù)量更是呈現(xiàn)幾何級(jí)數(shù)的增長(zhǎng),相應(yīng)的處理模式也不再是單機(jī)的數(shù)量擴(kuò)展或者簡(jiǎn)單的計(jì)算機(jī)集群的疊加。 1.1 大數(shù)據(jù)的背景與意義1.1.2 大數(shù)據(jù)的典型應(yīng)用 搜索引擎互聯(lián)網(wǎng)上的數(shù)據(jù)量不斷增長(zhǎng), 用戶難以依靠人工方法在網(wǎng)上查找到感興趣的內(nèi)容, 于

5、是搜索引擎順勢(shì)而生。 搜索引擎使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù), 不斷對(duì)互聯(lián)網(wǎng)上網(wǎng)頁(yè)的內(nèi)容及其關(guān)鍵詞進(jìn)行索引和記錄存儲(chǔ)。 當(dāng)用戶提交搜索關(guān)鍵詞時(shí), 搜索引擎根據(jù)自身數(shù)據(jù)庫(kù)的記錄, 返回與用戶查詢匹配的網(wǎng)頁(yè)作為搜索結(jié)果呈現(xiàn)。 電子商務(wù) 早期,正是由于具備了足夠多的用戶購(gòu)買行為數(shù)據(jù),亞馬遜才能夠設(shè)計(jì)和實(shí)施基于用戶興趣的協(xié)同過(guò)濾算法, 為用戶推薦其可能感興趣的商品。在我國(guó),電子商務(wù)行業(yè)的發(fā)展突飛猛進(jìn),2018年“雙11”全網(wǎng)最終銷售額3143億元,遠(yuǎn)超2017年的2539億元, 增長(zhǎng)23.8%; 用戶體驗(yàn)也同步提升。 智能推薦推薦內(nèi)容:文本內(nèi)容推薦圖片、視頻等多媒體數(shù)據(jù)的個(gè)性化推薦推薦策略:對(duì)基礎(chǔ)的協(xié)同過(guò)濾算法和關(guān)

6、聯(lián)規(guī)則挖掘等進(jìn)行了升級(jí)和改進(jìn),吸收了人工智能和機(jī)器學(xué)習(xí)算法的最新進(jìn)展,使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)內(nèi)容的特征,用于更精準(zhǔn)的個(gè)性化推薦。 1.1.2 大數(shù)據(jù)的典型應(yīng)用 零售行業(yè)關(guān)聯(lián)規(guī)則推薦算法就來(lái)自連鎖超市沃爾瑪?shù)慕?jīng)營(yíng)和銷售分析。 對(duì)于連鎖超市、日用消費(fèi)品行業(yè), 大數(shù)據(jù)同樣能幫助企業(yè)提高利潤(rùn)率。 例如, 瓶裝水的銷售公司可以通過(guò)已有的銷售大數(shù)據(jù)了解不同地區(qū)消費(fèi)者對(duì)水瓶規(guī)格的需求情況, 并以此為依據(jù)進(jìn)行不同規(guī)格瓶裝水的銷售調(diào)配, 進(jìn)而提高利潤(rùn)。 政府公共服務(wù)及其他行業(yè) 對(duì)于政府部門、 醫(yī)療行業(yè)和制造業(yè)來(lái)說(shuō), 各國(guó)政府、 相關(guān)企業(yè)都在使用大數(shù)據(jù)幫助自己降低成本, 提高利潤(rùn)。以政府投入為例, 2012年

7、美國(guó)政府率先啟動(dòng) 大數(shù)據(jù)研究與發(fā)展計(jì)劃”, 正式從國(guó)家戰(zhàn)略高度推動(dòng)大數(shù)據(jù)發(fā)展,宣布將投資2億多美元, 用以大力推進(jìn)大數(shù)據(jù)的收集、 訪問(wèn)、 組織和開(kāi)發(fā)利用等相關(guān)技術(shù)的發(fā)展, 進(jìn)而大幅提高從海量復(fù)雜的數(shù)據(jù)中提煉信息和獲取知識(shí)的能力與水平。 1.1 大數(shù)據(jù)的背景與意義1.1.3 大數(shù)據(jù)應(yīng)用系統(tǒng) 互聯(lián)網(wǎng)領(lǐng)域: 包括在線社交網(wǎng)絡(luò)、 電子商務(wù)、 即時(shí)通信工具等等。物聯(lián)網(wǎng)領(lǐng)域: 移動(dòng)設(shè)備和傳感器都可以作為一個(gè)物聯(lián)網(wǎng)的終端來(lái)進(jìn)行內(nèi)容的采集。例如布置在城市里進(jìn)行空氣質(zhì)量數(shù)據(jù)采集的采集器, 或者進(jìn)行空間計(jì)算和氣象計(jì)算時(shí)的數(shù)據(jù)采集器。 大量的低成本量采集器幫助數(shù)據(jù)需求方實(shí)現(xiàn)大數(shù)據(jù)的積累, 支持后續(xù)計(jì)算。 書(shū)籍、 歷

8、史文獻(xiàn)電子化和社會(huì)信息交互領(lǐng)域:例如,谷歌公司曾經(jīng)掃描了幾十萬(wàn)本紙質(zhì)書(shū), 嘗試對(duì)其進(jìn)行數(shù)字化 ,方法是將所有掃描后的圖片版電子書(shū)裁成一個(gè)個(gè)單詞片段, 并在用于網(wǎng)站防止機(jī)器注冊(cè)時(shí)顯示的驗(yàn)證碼中顯示這些單詞片段。 第1節(jié) 詳解大數(shù)據(jù) 1.2 大數(shù)據(jù)的定義與挑戰(zhàn) 1.2.1 大數(shù)據(jù)研究的源起 學(xué)術(shù)界2008年 自然 雜志發(fā)布了 “大數(shù)據(jù)” ??ǔR源俗鳛?“大數(shù)據(jù)” 這個(gè)概念以及這一研究領(lǐng)域在學(xué)術(shù)界的起點(diǎn)。隨后,在2011年,科學(xué) 雜志也推出了“處理數(shù)據(jù)” (Dealing with Data) ???。 產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)和業(yè)務(wù)的創(chuàng)新者和領(lǐng)軍者包括亞馬遜、IBM、甲骨文、谷歌等公司。這些公司出于自

9、身業(yè)務(wù)發(fā)展和實(shí)踐經(jīng)驗(yàn), 提出了各自領(lǐng)域的大數(shù)據(jù)計(jì)算平臺(tái)。 例如亞馬遜公司的云服務(wù)平臺(tái) AWS (Amazon Web Services) 能夠提供計(jì)算能力、 數(shù)據(jù)庫(kù)存儲(chǔ)、 內(nèi)容交付以及其他功能來(lái)幫助實(shí)現(xiàn)業(yè)務(wù)擴(kuò)展和增長(zhǎng)。 1.2.1 大數(shù)據(jù)研究的源起 國(guó)外各國(guó)政府也積極跟進(jìn)和布局大數(shù)據(jù)基礎(chǔ)研究。 美國(guó)政府曾經(jīng)出資兩億美元支持大數(shù)據(jù)研究與發(fā)展計(jì)劃。日本政府在2013年發(fā)布了 創(chuàng)建最尖端IT國(guó)家宣言,全面闡述了2013年至2020年間以發(fā)展開(kāi)放公共數(shù)據(jù)和大數(shù)據(jù)為核心的國(guó)家戰(zhàn)略。 戰(zhàn)略中包括了向民間開(kāi)放公共數(shù)據(jù)、 促進(jìn)大數(shù)據(jù)的廣泛應(yīng)用等政策。 我國(guó) 我國(guó)的 “十二五” 規(guī)劃提出全面地推動(dòng)信息化?!笆?/p>

10、五” 以來(lái), 我國(guó)大數(shù)據(jù)產(chǎn)業(yè)從無(wú)到有, 全國(guó)各地發(fā)展大數(shù)據(jù)積極性較高, 行業(yè)應(yīng)用得到快速推廣。 “國(guó)家大數(shù)據(jù)戰(zhàn)略” 被寫進(jìn)了備受關(guān)注的 “十三五” 規(guī)劃。 規(guī)劃提出, 目標(biāo)到2020年,技術(shù)先進(jìn)、 應(yīng)用繁榮、 保障有力的大數(shù)據(jù)產(chǎn)業(yè)體系基本形成。 大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù)業(yè)務(wù)收入突破1萬(wàn)億元, 年均復(fù)合增長(zhǎng)率保持30%左右, 加快建設(shè)數(shù)據(jù)強(qiáng)國(guó),為實(shí)現(xiàn)制造強(qiáng)國(guó)和網(wǎng)絡(luò)強(qiáng)國(guó)提供強(qiáng)大的產(chǎn)業(yè)支撐 1.2 大數(shù)據(jù)的定義與挑戰(zhàn)1.2.2 大數(shù)據(jù)的概念和特點(diǎn)盡管 “大數(shù)據(jù)” 這個(gè)概念以及相應(yīng)的算法和技術(shù)已經(jīng)廣泛傳播并應(yīng)用, 但是目前為止并沒(méi)有一個(gè)被廣泛接受的精確定義。 以下嘗試識(shí)別大數(shù)據(jù)的 “4V” 維度特征 ,可

11、以從這些特征維度來(lái)界定大數(shù)據(jù)這個(gè)概念: 規(guī)模 (Volume) 大數(shù)據(jù)的數(shù)據(jù)量級(jí)或規(guī)模超出了既有系統(tǒng)能夠處理的水平。 速度 (Velocity)大數(shù)據(jù)的產(chǎn)生速度非常快, 每時(shí)每刻都有大量的數(shù)據(jù)在應(yīng)用系統(tǒng)中生成和積累。 價(jià)值 (Value) 大數(shù)據(jù)具有價(jià)值挖掘的潛力, 但是大數(shù)據(jù)也存在價(jià)值密度低的問(wèn)題, 即, 海量數(shù)據(jù)中有相當(dāng)多的無(wú)效或不相關(guān)數(shù)據(jù), 它們對(duì)于實(shí)現(xiàn)價(jià)值挖掘的貢獻(xiàn)度較低。 多樣性 (Variety) 大數(shù)據(jù)的類型多種多樣, 存在各種格式和形式的數(shù)據(jù)。 1.2.2 大數(shù)據(jù)的概念和特點(diǎn) 大數(shù)據(jù)的特征數(shù)據(jù)規(guī)模大數(shù)據(jù)生成速度快數(shù)據(jù)價(jià)值密度不高數(shù)據(jù)類型多樣通常認(rèn)為, 數(shù)據(jù)滿足 “4V” 的特征

12、就可以將其納入大數(shù)據(jù)的范疇, 或者說(shuō)它是一個(gè)大數(shù)據(jù)能解決的問(wèn)題。 “大數(shù)據(jù)” 不等于 “海量數(shù)據(jù)” 1.2 大數(shù)據(jù)的定義與挑戰(zhàn)1.2.3 大數(shù)據(jù)的研究意義 輔助社會(huì)管理 預(yù)測(cè)流感趨勢(shì)。2009年美國(guó)爆發(fā)甲型 H1N1流感, 谷歌公司的工程師利用大數(shù)據(jù)的分析手段, 分析谷歌搜索引擎中每天數(shù)十億條用戶搜索查詢?nèi)罩荆?測(cè)試了4.5億個(gè)數(shù)學(xué)模型, 建立了較為準(zhǔn)確的 流感預(yù)測(cè)模型, 及時(shí)準(zhǔn)確地獲知了全球流感傳播趨勢(shì)。 推動(dòng)科技進(jìn)步 海嘯預(yù)警??焖贉?zhǔn)確地測(cè)定出地震參數(shù),并判斷出該地震是否會(huì)激發(fā)海嘯以及海嘯規(guī)模。然后, 模擬計(jì)算海嘯到達(dá)海岸的時(shí)間及強(qiáng)度,將海嘯預(yù)警信息及時(shí)傳送給可能遭受襲擊的沿海地區(qū)居民。

13、支持商業(yè)決策 數(shù)據(jù)驅(qū)動(dòng)的商業(yè)智能是指利用現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、 線上分析處理技術(shù)、 數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù)進(jìn)行數(shù)據(jù)分析以實(shí)現(xiàn)商業(yè)價(jià)值。 促進(jìn)民生改善 智能交通系統(tǒng)、 路網(wǎng)的導(dǎo)航應(yīng)用軟件、 網(wǎng)約車服務(wù) 1.2 大數(shù)據(jù)的定義與挑戰(zhàn)1.2.4 大數(shù)據(jù)面臨的問(wèn)題與挑戰(zhàn)從數(shù)據(jù)規(guī)模的量變出發(fā), 演化出數(shù)據(jù)的生成速度、 數(shù)據(jù)的價(jià)值和類型等3個(gè)維度的質(zhì)變, 形成了 “大數(shù)據(jù)”。 也就是說(shuō), 大數(shù)據(jù)并不僅僅是數(shù)據(jù)量的積累, 更是量變發(fā)生到一定階段之后引發(fā)的質(zhì)變。 一個(gè)顯著現(xiàn)象是環(huán)境的變化:以往應(yīng)對(duì)數(shù)據(jù)量增長(zhǎng)的方式無(wú)非是硬件系統(tǒng)擴(kuò)容 (例如增加內(nèi)存和 CPU 等) 以及軟件系統(tǒng)升級(jí) (例如從處理 MB規(guī)模數(shù)據(jù)升級(jí)為處

14、理 GB規(guī)模數(shù)據(jù))。 但這樣增加資源的方式逐漸變得不適用了。 面臨的關(guān)鍵問(wèn)題就是, 可以使用的資源是受限的 進(jìn)入大數(shù)據(jù)時(shí)代之前, 我們的計(jì)算能力充足, 能夠應(yīng)付增長(zhǎng)的數(shù)據(jù); 進(jìn)入大數(shù)據(jù)時(shí)代之后, 現(xiàn)有的計(jì)算能力的增長(zhǎng)速度已經(jīng)趕不上數(shù)據(jù)增長(zhǎng)的速度了, 大數(shù)據(jù)的問(wèn)題變成了資源受限的計(jì)算問(wèn)題, 發(fā)生了質(zhì)變。 大數(shù)據(jù)時(shí)代, 計(jì)算環(huán)境由資源充足轉(zhuǎn)變?yōu)橘Y源受限, 計(jì)算的視角也由探索優(yōu)化轉(zhuǎn)變?yōu)榭尚行耘卸ǎ?因此, 計(jì)算方法也從嚴(yán)格計(jì)算轉(zhuǎn)向了近似計(jì)算。第1節(jié) 詳解大數(shù)據(jù) 1.3 大數(shù)據(jù)平臺(tái)基礎(chǔ)架構(gòu) 硬件平臺(tái)從應(yīng)對(duì)數(shù)據(jù)規(guī)模的角度, 仍然需要提高硬件處理能力, 完成海量數(shù)據(jù)的采集、存儲(chǔ)和分析處理。 從存儲(chǔ)規(guī)模上,

15、 需要建設(shè)PB級(jí)的數(shù)據(jù)機(jī)房, 配合高速運(yùn)算的多CPU、 高速的輸入輸出設(shè)備, 以及數(shù)百 GB的內(nèi)存容量。 軟件平臺(tái)大數(shù)據(jù)平臺(tái)的軟件部分主要是實(shí)現(xiàn)數(shù)據(jù)的采集、 存儲(chǔ)、 計(jì)算和分析,軟件平臺(tái)框架包括存儲(chǔ)框架和計(jì)算框架。存儲(chǔ)框架底層基于分布式的文件存儲(chǔ)系統(tǒng)。 這是由于巨量數(shù)據(jù)已經(jīng)無(wú)法保存在一臺(tái)或幾臺(tái)機(jī)器上, 而是需要進(jìn)行分布式的存儲(chǔ)。 對(duì)于計(jì)算框架來(lái)說(shuō), 如果計(jì)算任務(wù)的實(shí)時(shí)性要求不高, 則可以采用離線計(jì)算的方式, 把問(wèn)題切分成每個(gè)機(jī)器都能計(jì)算的子任務(wù), 分配到多臺(tái)機(jī)器執(zhí)行計(jì)算, 最后匯總計(jì)算結(jié)果。 針對(duì)實(shí)時(shí)計(jì)算任務(wù), 則需要將其搭建在實(shí)時(shí)的計(jì)算平臺(tái)上面完成。第1節(jié) 詳解大數(shù)據(jù) 1.4 云計(jì)算與大數(shù)據(jù)

16、 云計(jì)算云計(jì)算是一種通過(guò)互聯(lián)網(wǎng)以服務(wù)的方式提供動(dòng)態(tài)可伸縮的虛擬化資源的計(jì)算模式。 動(dòng)態(tài)可伸縮是指根據(jù)用戶的需求提供規(guī)模可變的資源。 云計(jì)算VS大數(shù)據(jù)云計(jì)算的核心問(wèn)題是如何不斷改進(jìn)支持云計(jì)算的技術(shù), 以及從技術(shù)的角度如何把計(jì)算的成本降下來(lái)。 大數(shù)據(jù)則更關(guān)注業(yè)務(wù)邏輯的實(shí)現(xiàn), 以及從數(shù)據(jù)中能發(fā)掘什么價(jià)值。 動(dòng)態(tài)可伸縮: 例如,用戶的某個(gè)計(jì)算任務(wù)需要100臺(tái)主機(jī)完成,則可以租用云計(jì)算平臺(tái)的100臺(tái)虛擬主機(jī);如果僅需要10臺(tái)主機(jī),那么就租用10臺(tái)虛擬主機(jī)。 虛擬化資源: 對(duì)于用戶來(lái)說(shuō),這些虛擬主機(jī)在物理上 的位置等均不必關(guān)心,因此用戶面對(duì)的 資源稱為虛擬化資源。第2節(jié) 大數(shù)據(jù)與算法推薦系統(tǒng) 2.1 推薦

17、系統(tǒng)的數(shù)據(jù)依賴2.1.1 大數(shù)據(jù)在個(gè)性化推薦系統(tǒng)中的應(yīng)用(A)研究用戶 用戶行為分析系統(tǒng)獲取用戶使用行為的有關(guān)數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)、分析,從中發(fā)現(xiàn)用戶使用習(xí)慣的規(guī)律,并運(yùn)用這些規(guī)律改進(jìn)智能推薦算法。用戶行為包含時(shí)間、地點(diǎn)、人物、動(dòng)作、內(nèi)容等基本要素。用戶行為數(shù)據(jù)越多、越準(zhǔn)確,用戶畫(huà)像數(shù)據(jù)越準(zhǔn)確,個(gè)性化推薦效果越好。 用戶消費(fèi)心理分析是從心理層面分析和掌握用戶的內(nèi)在需求,從而改進(jìn)推薦效果的一種方法。一些電商平臺(tái)或是付費(fèi)類的內(nèi)容推薦平臺(tái),需要分析用戶在何種心理情境下更容易發(fā)生消費(fèi)行為,識(shí)別出影響用戶消費(fèi)的心理環(huán)境因素,并進(jìn)行個(gè)性化的產(chǎn)品和內(nèi)容推薦 。 社交網(wǎng)絡(luò)分析 關(guān)注在線社交網(wǎng)絡(luò)中的個(gè)體、個(gè)體間的關(guān)系

18、和相互作用,以及在此之上的社群發(fā)現(xiàn)、情感分析、話題挖掘等。識(shí)別目標(biāo)人群并進(jìn)行有針對(duì)性的精準(zhǔn)推薦,尋找意見(jiàn)領(lǐng)袖、借助意見(jiàn)領(lǐng)袖完成內(nèi)容的推廣或產(chǎn)品的銷售。 2.1 推薦系統(tǒng)的數(shù)據(jù)依賴2.1.1 大數(shù)據(jù)在個(gè)性化推薦系統(tǒng)中的應(yīng)用(B)研究產(chǎn)品 特征挖掘 以文本內(nèi)容為例, 可以使用數(shù)據(jù)挖掘的手段, 提取文本類內(nèi)容的關(guān)鍵詞、 主題、 摘要、 分類、 話題、 語(yǔ)義等, 作為與用戶畫(huà)像中的用戶標(biāo)簽匹配的依據(jù)。 對(duì)比分析 主要關(guān)注產(chǎn)品的異同, 通過(guò)大數(shù)據(jù)多維度的描述, 尋找產(chǎn)品之間的細(xì)微差別, 實(shí)現(xiàn)細(xì)分人群的精準(zhǔn)推薦。 預(yù)測(cè)分析 可以從產(chǎn)品的基本數(shù)據(jù)指標(biāo) (如新增用戶數(shù)、 活躍用戶數(shù)、 用戶留存率、 產(chǎn)品的使用

19、時(shí)長(zhǎng)、 用戶的地域分布等) 對(duì)產(chǎn)品的未來(lái)使用情況進(jìn)行預(yù)測(cè)。 2.1.1 大數(shù)據(jù)在個(gè)性化推薦系統(tǒng)中的應(yīng)用 預(yù)測(cè)分析可以使用的計(jì)算模型包括: 直方圖 (頻率分布) 分析將變量的數(shù)值范圍等分為若干區(qū)間, 統(tǒng)計(jì)該變量在各個(gè)區(qū)間上出現(xiàn)的頻率, 并用矩形條的長(zhǎng)度表示頻率的高低。 時(shí)間序列圖 (趨勢(shì)) 分析描述變量在一段時(shí)間內(nèi)變化波動(dòng)的趨勢(shì)和規(guī)律, 如某個(gè)頻道內(nèi)容的閱讀量大體在什么范圍內(nèi)波動(dòng)、 是否具有波動(dòng)較大的時(shí)期或時(shí)點(diǎn)等。 散點(diǎn)圖 (相關(guān)性及數(shù)據(jù)分布) 分析在回歸分析中, 數(shù)據(jù)點(diǎn)在直角坐標(biāo)系平面上的分布圖。 散點(diǎn)圖表示因變量隨自變量變化的趨勢(shì), 可以選擇合適的函數(shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合。此外還有算術(shù)平均分析、

20、 移動(dòng)平均分析等計(jì)算模型。 2.1 推薦系統(tǒng)的數(shù)據(jù)依賴2.1.2 推薦系統(tǒng)的數(shù)據(jù)依賴海量數(shù)據(jù) 正是由于具備了大量的用戶數(shù)據(jù)和產(chǎn)品數(shù)據(jù),推薦系統(tǒng)才能實(shí)現(xiàn)智能的個(gè)性化推薦。 因此, 大數(shù)據(jù)是推薦系統(tǒng)業(yè)務(wù)的基本 “原料”。 推薦模型 推薦模型 (例如協(xié)同過(guò)濾、關(guān)聯(lián)規(guī)則推薦) 需要使用各種“特征”進(jìn)行內(nèi)容與用戶的匹配計(jì)算。因此,內(nèi)容分析和用戶標(biāo)簽挖掘是搭建推薦系統(tǒng)的基石。 內(nèi)容篩選策略 針對(duì)每個(gè)用戶,系統(tǒng)如果直接使用推薦模型從海量?jī)?nèi)容中進(jìn)行內(nèi)容選擇和推薦,將面臨計(jì)算開(kāi)銷過(guò)大、成本過(guò)高的問(wèn)題。因此需要考慮對(duì)算法進(jìn)行優(yōu)化, 使用多種內(nèi)容篩選機(jī)制進(jìn)行候選內(nèi)容的過(guò)濾。 算法推薦系統(tǒng)在海量數(shù)據(jù)的基礎(chǔ)上, 使用推

21、薦模型和內(nèi)容篩選策略相結(jié)合的手段, 實(shí)現(xiàn)推薦性能的提升。第2節(jié) 大數(shù)據(jù)與算法推薦系統(tǒng) 2.2 用戶側(cè)大數(shù)據(jù):用戶標(biāo)簽的計(jì)算2.2.1 用戶標(biāo)簽數(shù)據(jù)的分類和策略推薦系統(tǒng)在用戶一側(cè)主要關(guān)注用戶標(biāo)簽大數(shù)據(jù)。 用戶標(biāo)簽數(shù)據(jù)分類興趣類標(biāo)簽: 例如興趣的類別、 主題、 關(guān)鍵詞, 內(nèi)容的來(lái)源, 基于興趣用戶聚類的類別標(biāo)簽等。身份類標(biāo)簽: 如性別、 年齡、 常住地點(diǎn)等。行為標(biāo)簽: 主要是用戶使用推薦系統(tǒng)的行為特點(diǎn), 例如哪個(gè)時(shí)間段使用更頻繁、 關(guān)注哪種類型的內(nèi)容。 2.2.1 用戶標(biāo)簽數(shù)據(jù)的分類和策略 用戶標(biāo)簽生成策略過(guò)濾噪聲數(shù)據(jù): 對(duì)于用戶停留時(shí)間短的點(diǎn)擊和閱讀, 不進(jìn)行標(biāo)簽提?。?用戶可能由于誤操作或是標(biāo)

22、題黨內(nèi)容誤導(dǎo)而進(jìn)行了點(diǎn)擊, 因此用戶的真實(shí)興趣并不高, 將其認(rèn)為是噪聲數(shù)據(jù)。 降低熱門標(biāo)簽權(quán)重: 對(duì)于用戶在熱門文章上的點(diǎn)擊、 閱讀等動(dòng)作做降權(quán)處理, 也就是這些熱門文章對(duì)應(yīng)的標(biāo)簽熱度在系統(tǒng)中并不會(huì)持續(xù)線性增長(zhǎng)。 例如, 對(duì)于熱點(diǎn)新聞, 用戶可能出于信息獲取的角度去閱讀, 并不能表示此類文章是他的真實(shí)興趣。 時(shí)間衰減: 隨著用戶動(dòng)作的增加, 老的特征權(quán)重會(huì)隨時(shí)間衰減, 用戶新動(dòng)作貢獻(xiàn)的特征權(quán)重會(huì)更大。 2.2 用戶側(cè)大數(shù)據(jù):用戶標(biāo)簽的計(jì)算2.2.2 用戶標(biāo)簽數(shù)據(jù)的計(jì)算算法推薦系統(tǒng)將用戶的每一個(gè)操作收集記錄在用戶行為原始日志中,例如用戶的每一次點(diǎn)擊、 閱讀、 評(píng)論、 分享等等。 系統(tǒng)使用批量計(jì)算

23、或流式計(jì)算的方式從原始日志中提取用戶行為體現(xiàn)出的用戶標(biāo)簽。 流式計(jì)算的優(yōu)勢(shì)在于可以大大降低計(jì)算資源開(kāi)銷, 綜合考評(píng)的數(shù)據(jù)能夠節(jié)省80%的CPU時(shí)間開(kāi)銷;還可以接近實(shí)時(shí)地更新用戶興趣模型。對(duì)于用戶來(lái)說(shuō),系統(tǒng)能夠根據(jù)他們最新的興趣進(jìn)行內(nèi)容推送,這樣的用戶體驗(yàn)是更加流暢和更加個(gè)性化的。一般來(lái)說(shuō), 系統(tǒng)可以混合使用流式計(jì)算和批量計(jì)算??梢允褂昧魇接?jì)算更新大部分的用戶畫(huà)像 ;而年齡、 常住地等相對(duì)靜態(tài)的數(shù)據(jù),對(duì)時(shí)效性不太敏感, 則可以放到批量平臺(tái)上進(jìn)行計(jì)算。 圖2.1 用戶標(biāo)簽大 數(shù) 據(jù) 采 集 的計(jì)算流程 第2節(jié) 大數(shù)據(jù)與算法推薦系統(tǒng) 2.3 內(nèi)容側(cè)大數(shù)據(jù):組織和分類內(nèi)容側(cè)的數(shù)據(jù)量非常龐大,因此算法推

24、薦系統(tǒng)關(guān)心的核心問(wèn)題是如何對(duì)內(nèi)容進(jìn)行組織并對(duì)其進(jìn)行有效的分類, 服務(wù)于內(nèi)容的高效取回。 文本內(nèi)容通常都是采用典型的層次化分類方法進(jìn)行組織的。通過(guò)一層一層的分類器,系統(tǒng)將內(nèi)容從抽象到具象進(jìn)行依據(jù)語(yǔ)義 (含義) 的分類和組織。例如, 系統(tǒng)要給某個(gè)用戶推薦 “英國(guó)近代史” 類的內(nèi)容, 就先去查找歷史類的內(nèi)容, 進(jìn)而查找近代史、西方近代史、 英國(guó)近代史的內(nèi)容, 從而篩選出與 “英國(guó)近代史” 這個(gè)標(biāo)簽相關(guān)的內(nèi)容。 這里 “歷史” “近代史” “西方近代史” “英國(guó)近代史” 就是逐層遞進(jìn)、 逐漸具象化的分類器。 層次化的內(nèi)容分類方法符合人的思維方式, 從系統(tǒng)實(shí)現(xiàn)來(lái)說(shuō)也更有邏輯性。 第3節(jié) 深度學(xué)習(xí)和神經(jīng)網(wǎng)

25、絡(luò) 3.1 深度學(xué)習(xí)的概念和應(yīng)用3.1.1 大信息處理系統(tǒng)的兩種模式 “拉” 模式用戶主動(dòng)發(fā)起尋找數(shù)據(jù)的過(guò)程。 最典型的應(yīng)用就是搜索引擎, 由用戶提交查詢, 搜索引擎幫用戶實(shí)現(xiàn)在網(wǎng)絡(luò)上進(jìn)行信息搜集和計(jì)算的過(guò)程。 “推” 模式它對(duì)用戶來(lái)說(shuō)更加便捷和友好, 用戶并不需要提交各種查詢關(guān)鍵詞, 由系統(tǒng)根據(jù)其對(duì)用戶興趣和需求的認(rèn)知來(lái)進(jìn)行智能化的推薦, 實(shí)現(xiàn)信息推送。 此時(shí), 系統(tǒng)需要更高的智能處理和學(xué)習(xí)能力, 推薦系統(tǒng)越來(lái)越成為深度學(xué)習(xí)的一個(gè)重要應(yīng)用領(lǐng)域。 3.1 深度學(xué)習(xí)的概念和應(yīng)用3.1.2 深度學(xué)習(xí)深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)算法在很多領(lǐng)域 (如圖像處理、語(yǔ)音識(shí)別、文字理解等)都

26、取得了長(zhǎng)足發(fā)展。深度學(xué)習(xí)的一個(gè)本質(zhì)特征是, 它試圖對(duì)數(shù)據(jù)特征進(jìn)行一些深層次的抽象挖掘。通過(guò)組合低層特征,形成更加抽象的高層,表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的有效表示。深度學(xué)習(xí)具有優(yōu)秀的自動(dòng)提取特征的能力, 能夠?qū)W習(xí)多層次的抽象特征表示, 并對(duì)異質(zhì)或跨域的內(nèi)容信息進(jìn)行學(xué)習(xí), 并可在一定程度上處理推薦系統(tǒng)冷啟動(dòng)問(wèn)題。 深度學(xué)習(xí)更關(guān)注的是直接分析數(shù)據(jù), 進(jìn)入數(shù)據(jù)底層, 利用模型考察能否通過(guò)大規(guī)模的學(xué)習(xí)把數(shù)據(jù)特征 “學(xué)習(xí)” 出來(lái), 以及特征之間到底有什么映射關(guān)系, 隨后就可以以此建立一些數(shù)據(jù)模型。 深度學(xué)習(xí)的優(yōu)勢(shì)在于其領(lǐng)域無(wú)關(guān)性, 其在圖像、 語(yǔ)言、文本領(lǐng)域都有應(yīng)用。 3.1.2 深度學(xué)習(xí) 目標(biāo)要求假

27、設(shè)某用戶在一個(gè)視頻網(wǎng)站上觀看了幾部電影, 則該網(wǎng)站就可以給用戶進(jìn)行后續(xù)的電影推薦。 實(shí)現(xiàn)方法網(wǎng)站可以使用 “無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法”, 基于電影海報(bào)向用戶推薦電影。 具體過(guò)程電影海報(bào)的特點(diǎn)非常鮮明, 不同類別和主題的電影海報(bào)之間差異性很大, 而同類電影的海報(bào)在風(fēng)格上則存在著相似性。 假設(shè)用戶在網(wǎng)站上觀看了一部名為 盜火線 的電影, 則使用機(jī)器學(xué)習(xí)的電影推薦網(wǎng)站可以做到只分析這個(gè)電影的海報(bào), 就為用戶推薦出相關(guān)的一系列電影。也就是說(shuō),根據(jù)用戶已有的歷史行為而不是用戶自己報(bào)告的興趣,只是通過(guò)無(wú)監(jiān)督學(xué)習(xí)直接分析電影海報(bào),就可以向用戶推薦他感興趣的其他電影。案例:深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用 “電影推薦”

28、第3節(jié) 深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò) 3.2 神經(jīng)網(wǎng)絡(luò)3.2.1 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)結(jié)合, 形成了 “深度神經(jīng)網(wǎng)絡(luò)” 算法。 抽象地說(shuō), 它是把數(shù)據(jù)底層的一些特征組合起來(lái), 送到更加抽象的高層完成學(xué)習(xí)。特征是用于表示屬性類別的, 識(shí)別出類別特征就可以實(shí)現(xiàn)分類。例如某張圖中明亮的顏色較多, 這就是一種簡(jiǎn)化后的特征。 實(shí)際上在神經(jīng)網(wǎng)絡(luò)的模型中會(huì)有多個(gè) “神經(jīng)元” (也就是分類器) 支持算法發(fā)現(xiàn)該圖片亮色較多這個(gè)特征。 深度學(xué)習(xí)的優(yōu)點(diǎn)能夠自動(dòng)提取數(shù)據(jù)的特征, 而不需要顯式的告知。 例如 算法推薦系統(tǒng)中一個(gè)用戶的年齡、 性別、 居住地等等, 深度學(xué)習(xí)算法可以通過(guò)多樣多層的抽象學(xué)習(xí)自動(dòng)得出??梢?/p>

29、對(duì)跨領(lǐng)域的信息進(jìn)行學(xué)習(xí)。 對(duì)于系統(tǒng)冷啟動(dòng)的問(wèn)題 (系統(tǒng)如何向不熟悉的新用戶推薦內(nèi)容),深度學(xué)習(xí)也能較好地解決。 3.2 神經(jīng)網(wǎng)絡(luò)3.2.2 深度神經(jīng)網(wǎng)絡(luò)的研究和發(fā)展歷史早在1943年就有學(xué)者開(kāi)始研究人工神經(jīng)網(wǎng)絡(luò), 最早人工神經(jīng)網(wǎng)絡(luò)只有一個(gè)神經(jīng)元。20世紀(jì)50年代末的1958年, 神經(jīng)網(wǎng)絡(luò)迎來(lái)了第一次興起, 這時(shí)它還是單層的神經(jīng)網(wǎng)絡(luò), 通過(guò)一系列神經(jīng)元在同一層網(wǎng)絡(luò)中進(jìn)行計(jì)算。 20世紀(jì)60年代末到20世紀(jì)70年代初經(jīng)歷了人工智能的低谷期,行業(yè)內(nèi)將1969年稱作人工智能的冬天。在20世紀(jì)70年代到80年代初, 整個(gè)學(xué)界對(duì)人工智能的研究仍然處于沉寂期。 1986年神經(jīng)網(wǎng)絡(luò)迎來(lái)了它的第二次研究高峰,

30、這時(shí)候網(wǎng)絡(luò)已經(jīng)演變到了兩層, 前一層許多神經(jīng)元的計(jì)算 (分類) 結(jié)果傳送給后一層繼續(xù)計(jì)算。 2000年前后, 神經(jīng)網(wǎng)絡(luò)的研究又進(jìn)入了一個(gè)低谷期, 學(xué)術(shù)界投入的研究力量縮減。 在最近十年,由于大數(shù)據(jù)的出現(xiàn),軟硬件處理能力提升,人工智能和多層的深度神經(jīng)網(wǎng)絡(luò)又迎來(lái)了一個(gè)蓬勃發(fā)展的時(shí)代。此時(shí)的神經(jīng)網(wǎng)絡(luò)已經(jīng)演變?yōu)槎鄬由窠?jīng)網(wǎng)絡(luò)。 3.2 神經(jīng)網(wǎng)絡(luò)3.2.3 解讀神經(jīng)網(wǎng)絡(luò):分類器本質(zhì)上可以將神經(jīng)網(wǎng)絡(luò)理解為分類器,通過(guò)多層網(wǎng)絡(luò)的神經(jīng)元,對(duì)輸入數(shù)據(jù)進(jìn)行一次一次的分類,最終得出數(shù)據(jù)的類別、屬性、主題等。其典型應(yīng)用包括垃圾郵件判斷、疾病判斷、圖片識(shí)別等。在算法層面, 神經(jīng)網(wǎng)絡(luò)輸入的是一些特征向量。 垃圾郵件判別的對(duì)

31、應(yīng)輸入是郵件中提取的詞向量, 疾病判斷的對(duì)應(yīng)輸入是生化指標(biāo)構(gòu)成的向量, 而圖片識(shí)別的輸入則是圖片像素組成的向量。 神經(jīng)網(wǎng)絡(luò)的輸出簡(jiǎn)單來(lái)說(shuō)就是分類結(jié)果。 比如一封電子郵件是否為垃圾郵件, 一個(gè)病人是否感染某種疾病, 一張圖片是否為包含貓或狗的圖片, 這些都是分類及其結(jié)果。 3.2 神經(jīng)網(wǎng)絡(luò)3.2.4 解讀神經(jīng)網(wǎng)絡(luò):神經(jīng)元神經(jīng)網(wǎng)絡(luò)里最基本的元素叫作神經(jīng)元 。一個(gè)神經(jīng)元的作用就是分一次類, 根據(jù)數(shù)據(jù)是否滿足某個(gè)條件, 將其分成 “是” 或 “否” 兩類。 圖3.1 神經(jīng)元的分類功能示意 3.2.4 解讀神經(jīng)網(wǎng)絡(luò):神經(jīng)元 對(duì)于二維數(shù)據(jù)來(lái)說(shuō),使用一條直線就可以把平面一分為二;對(duì)于三維空間來(lái)說(shuō),則需要使用

32、不同的平面對(duì)三維空間進(jìn)行分隔,實(shí)現(xiàn)分類。實(shí)際上,數(shù)據(jù)特征向量的維度遠(yuǎn)不止三維。因此要想對(duì)n維數(shù)據(jù)進(jìn)行分類,則需要構(gòu)造n-1維的超平面(分類器)對(duì)n維空間進(jìn)行分隔。 神經(jīng)元數(shù)量過(guò)多時(shí), 為了進(jìn)行功能區(qū)分, 要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分層, 底層神經(jīng)元的組合計(jì)算結(jié)果輸送給高層網(wǎng)絡(luò)的神經(jīng)元繼續(xù)計(jì)算。 對(duì)數(shù)據(jù)的每一次劃分都使用了一個(gè)神經(jīng)元, 幾百萬(wàn)、 幾千萬(wàn)神經(jīng)元組合起來(lái)就組成了一個(gè)多層的深度神經(jīng)網(wǎng)絡(luò),即可完成復(fù)雜的學(xué)習(xí)和計(jì)算任務(wù)。 3.2 神經(jīng)網(wǎng)絡(luò)3.2.5 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練: 反向傳播 含義:一個(gè)好的深度神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的正確分類。 例如對(duì)圖片進(jìn)行分類的任務(wù), 假設(shè)輸入一張貓的圖片, 模型將其標(biāo)記為狗的圖片, 那么這個(gè)神經(jīng)網(wǎng)絡(luò)模型的質(zhì)量就不高。 此時(shí)可以采用反向傳播的方法對(duì)神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行修正。過(guò)程:如果某一次分類計(jì)算中, 神經(jīng)網(wǎng)絡(luò)的輸出值并不等于正確值, 則算法從神經(jīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論