第4章大數(shù)據(jù)分析

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-10-06 格式：PPTX 頁數(shù)：48 大?。?86.70KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析實(shí)例引入：個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架實(shí)例引入：個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷用戶想購買一輛汽車，由于該用戶經(jīng)常通過某個(gè)網(wǎng)站瀏覽不同品牌和價(jià)格的汽車商品簡(jiǎn)介，因此，用戶的瀏覽記錄被存儲(chǔ)在該網(wǎng)站后臺(tái)數(shù)據(jù)庫中，包含瀏覽的產(chǎn)品價(jià)位、汽車品牌、汽車的功能配置參數(shù)等。汽車銷售的技術(shù)人員也可以獲取用戶的基本信息和消費(fèi)記錄，通過大數(shù)據(jù)分析算法對(duì)該用戶的個(gè)人喜好和購買能力進(jìn)行分析，最終得到用戶可能會(huì)購買的汽車品牌信息。汽車銷售的實(shí)例中，購車用戶的特征可以通過用戶的歷史瀏覽數(shù)據(jù)進(jìn)行描繪，形成該用戶的用戶畫像，并依據(jù)特征對(duì)該用戶未來的消費(fèi)趨勢(shì)進(jìn)行預(yù)測(cè)，把用戶可能會(huì)購買的商品推薦給用戶，實(shí)現(xiàn)在大數(shù)據(jù)時(shí)代下的精準(zhǔn)營銷策略。大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營銷精準(zhǔn)營銷是在精準(zhǔn)定位的基礎(chǔ)上，依據(jù)現(xiàn)代信息技術(shù)特別是近些年發(fā)展快速的大數(shù)據(jù)技術(shù)，對(duì)企業(yè)的營銷實(shí)施可衡量并且回報(bào)率高的精準(zhǔn)策略，降低企業(yè)的營銷成本，提升市場(chǎng)競(jìng)爭(zhēng)力。精準(zhǔn)營銷以用戶為中心，通過現(xiàn)代化技術(shù)手段直接與用戶溝通，使企業(yè)收集大量的用戶數(shù)據(jù)，借助大數(shù)據(jù)分析技術(shù)，將用戶數(shù)據(jù)加工為有用信息，然后企業(yè)利用加工后的信息，為用戶推薦個(gè)性化產(chǎn)品，使用戶享受到專業(yè)的客戶服務(wù)。。精準(zhǔn)營銷的關(guān)鍵在于如何精準(zhǔn)地找到產(chǎn)品的目標(biāo)人群，再讓產(chǎn)品深入用戶心坎里，讓用戶認(rèn)識(shí)產(chǎn)品、了解產(chǎn)品、信任產(chǎn)品到最后依賴產(chǎn)品。大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營銷以選購汽車為例，為了滿足用戶的需求，汽車企業(yè)應(yīng)從多個(gè)角度進(jìn)行營銷。一方面，將產(chǎn)品做好、做精、做強(qiáng)、生產(chǎn)出更多符合不同用戶要求的產(chǎn)品。另一方面，將汽車產(chǎn)品信息傳達(dá)給目標(biāo)用戶，引領(lǐng)用戶的選擇，尋找吻合度高、對(duì)受眾影響大的媒體進(jìn)行宣傳，在訪問量較大的網(wǎng)站上進(jìn)行汽車廣告推送，增大用戶點(diǎn)擊感興趣的商品的概率。在網(wǎng)站上推送的汽車車型，由訪問該網(wǎng)站的用戶特征決定。通過用戶畫像進(jìn)行精準(zhǔn)營銷。什么是用戶畫像阿蘭·庫珀（AlanCooper）最早提出了用戶畫像（Persona）的概念，認(rèn)為“用戶畫像是真實(shí)用戶的虛擬代表，是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型”。用戶畫像也稱為用戶的信息標(biāo)簽。用戶畫像的主要用途是幫助商家了解用戶，對(duì)用戶了解得越深，刻畫出的畫像就越準(zhǔn)確，用戶畫像被大量地應(yīng)用在精準(zhǔn)營銷和智能推薦領(lǐng)域，是真實(shí)世界的用戶在網(wǎng)絡(luò)世界的映射什么是用戶畫像大數(shù)據(jù)時(shí)代的用戶畫像和傳統(tǒng)的畫像完全不同，傳統(tǒng)的用戶畫像指的是畫家利用畫筆對(duì)用戶的外貌進(jìn)行描繪，體現(xiàn)出的是用戶的輪廓和形態(tài)?；ヂ?lián)網(wǎng)時(shí)代下的用戶畫像是根據(jù)用戶社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息抽象出的一個(gè)標(biāo)簽化的用戶模型，即構(gòu)建用戶畫像的核心工作是給用戶貼“標(biāo)簽”，標(biāo)簽是通過對(duì)用戶數(shù)據(jù)分析得到的高度精練的特征標(biāo)識(shí)?；ヂ?lián)網(wǎng)時(shí)代的用戶畫像表現(xiàn)出來的信息更加豐富，信息種類也不局限于視覺特征，凡是能夠?qū)τ脩舻奶卣鬟M(jìn)行描述的信息，都可以放到用戶畫像里面。大數(shù)據(jù)算法構(gòu)建出來的用戶畫像具有更加豐富的屬性，可以被更多的上層應(yīng)用使用通過對(duì)用戶數(shù)據(jù)的分析，可以對(duì)用戶進(jìn)行畫像，給出某個(gè)特定用戶的相關(guān)信息，如年齡區(qū)間、從事的職業(yè)、婚姻狀況、家庭成員、消費(fèi)習(xí)慣、個(gè)人愛好、是否從事體育運(yùn)動(dòng)、消費(fèi)習(xí)慣、經(jīng)常購買哪類商品等構(gòu)建個(gè)性化用戶畫像用于構(gòu)建用戶畫像的數(shù)據(jù)，不僅需要數(shù)量多，而且還要和業(yè)務(wù)場(chǎng)景緊密結(jié)合，在本章介紹的汽車銷售實(shí)例中，為了精準(zhǔn)地推送給用戶汽車的廣告，首先要對(duì)用戶進(jìn)行用戶畫像，將用戶的特征描述清楚，然后再根據(jù)畫像的特征進(jìn)行精準(zhǔn)營銷如果用戶畫像勾勒出來的是一個(gè)年齡在20～30歲的年輕人，從事IT行業(yè)，平時(shí)喜歡選購電子產(chǎn)品，那么可以分析出該年輕人會(huì)比較鐘情于經(jīng)濟(jì)型轎車如果給出的用戶畫像是一個(gè)對(duì)美術(shù)比較感興趣的人，熱愛網(wǎng)絡(luò)小說和文學(xué)，偏好人文社科書籍，也熱愛音樂和舞蹈，那么可能會(huì)對(duì)外觀設(shè)計(jì)和內(nèi)飾風(fēng)格比較注重，同時(shí)也會(huì)關(guān)注車輛的舒適性和安全性能，感興趣的可能是運(yùn)動(dòng)型多用途汽車的車型獲取信息的便利性增大構(gòu)建個(gè)性化用戶畫像用戶畫像的主要步驟可以分為如下3步首先需要明確研究的目標(biāo)，即對(duì)哪些用戶進(jìn)行畫像。例如，為了研究電商平臺(tái)用戶流失的情況，就要將那些購物體驗(yàn)較差的用戶設(shè)定為目標(biāo)用戶；如果要研究潛在客戶是否能成為正式客戶，就要將那些目前還未接觸過本產(chǎn)品但采購了同類型其他品牌商品的用戶設(shè)定為目標(biāo)用戶對(duì)目標(biāo)用戶的所有的相關(guān)數(shù)據(jù)進(jìn)行收集，如用戶的性別、職業(yè)、年齡、地域、消費(fèi)層次等基本信息；也可以是用戶的行為信息，如瀏覽記錄、搜索過的關(guān)鍵詞、發(fā)表過的評(píng)論等通過大數(shù)據(jù)分析技術(shù)，包括描述性統(tǒng)計(jì)分析、數(shù)據(jù)挖掘算法等，為用戶貼上相應(yīng)的標(biāo)簽，標(biāo)示出用戶的興趣、偏好和需求等。通過用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷構(gòu)建好用戶畫像后，即可對(duì)用戶需求、基本特征、用戶價(jià)值進(jìn)行分析，實(shí)現(xiàn)精準(zhǔn)營銷用戶需求分析：了解用戶需要什么，才能精準(zhǔn)地提供需要的服務(wù)和商品。通過大數(shù)據(jù)分析實(shí)現(xiàn)對(duì)用戶畫像，可以得到準(zhǔn)確的用戶需求。在移動(dòng)互聯(lián)網(wǎng)時(shí)代，用戶的消費(fèi)數(shù)據(jù)不斷積累，利用用戶消費(fèi)數(shù)據(jù)可勾畫出用戶可能需要哪類商品，用戶的需求隱含在其瀏覽和選購過程中，是更深層次需求的挖掘，需要對(duì)用戶的消費(fèi)習(xí)慣進(jìn)行分析。通過用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷用戶基本特征分析：用戶畫像是對(duì)一個(gè)用戶全方位的展示，為了讓用戶的畫像內(nèi)容豐富，標(biāo)簽要盡量多。用戶畫像的目的之一是為企業(yè)找到目標(biāo)用戶，目標(biāo)用戶是可能要購買企業(yè)產(chǎn)品的，并且是有能力購買的。例如，用戶購買產(chǎn)品的類型、采購的頻率、采購商品的價(jià)格、用戶所在的區(qū)域等基本屬性信息就非常重要，了解了基本屬性信息，企業(yè)可以和用戶進(jìn)行溝通，將產(chǎn)品推薦給用戶通過大數(shù)據(jù)分析技術(shù)，包括描述性統(tǒng)計(jì)分析、數(shù)據(jù)挖掘算法等，為用戶貼上相應(yīng)的標(biāo)簽，標(biāo)示出用戶的興趣、偏好和需求等。用戶價(jià)值分析：在對(duì)人物畫像時(shí)，可以根據(jù)大數(shù)據(jù)分析給出人物的價(jià)值特征。用戶價(jià)值可以理解為用戶在系統(tǒng)中的商業(yè)變現(xiàn)能力，包括廣告價(jià)值、付費(fèi)價(jià)值。實(shí)例引入：個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘大數(shù)據(jù)時(shí)代的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息，還在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系，而大數(shù)據(jù)分析就是大數(shù)據(jù)研究領(lǐng)域的核心內(nèi)容之一。大數(shù)據(jù)分析是決策過程中的決定性因素，也是大數(shù)據(jù)時(shí)代發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)。大數(shù)據(jù)分析核心即為挖掘。數(shù)據(jù)分析的定義是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析，將數(shù)據(jù)加以匯總和理解并消化，以求最大化地開發(fā)數(shù)據(jù)的功能、發(fā)揮數(shù)據(jù)的作用數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立，但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能，而隨著計(jì)算機(jī)的不斷發(fā)展，數(shù)據(jù)分析也得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物數(shù)據(jù)分析的目的是將隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中和提煉出來，從而找出所研究對(duì)象的內(nèi)在規(guī)律大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)挖掘是指通過人工智能、機(jī)器學(xué)習(xí)等方法，從大量的數(shù)據(jù)中挖掘出未知的且有價(jià)值的信息和知識(shí)的過程數(shù)據(jù)挖掘主要側(cè)重解決4類問題，即分類、聚類、關(guān)聯(lián)和預(yù)測(cè)數(shù)據(jù)挖掘的重點(diǎn)在于尋找未知的模式與規(guī)律，尋找那些事先未知的但又非常有價(jià)值的信息，主要采用統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法進(jìn)行挖掘數(shù)據(jù)分析是將數(shù)據(jù)變成信息的方法，數(shù)據(jù)挖掘是將信息變成認(rèn)知的方法，如果想要從數(shù)據(jù)中提取一定的規(guī)律往往，需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知隨著大數(shù)據(jù)技術(shù)和體系的發(fā)展，越來越多的人使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為核心的，人們對(duì)大數(shù)據(jù)的認(rèn)知和傳統(tǒng)數(shù)據(jù)有著很大區(qū)別。數(shù)據(jù)的質(zhì)量也有區(qū)別，數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢測(cè)原始數(shù)據(jù)中是否存在臟數(shù)據(jù)，臟數(shù)據(jù)一般是指不符合要求的數(shù)據(jù)數(shù)據(jù)完整性數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)重復(fù)性數(shù)據(jù)的一致性大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ)，對(duì)數(shù)據(jù)分析而言，對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析分布分析分布分析是指根據(jù)數(shù)據(jù)在坐標(biāo)圖里分布的特點(diǎn)來對(duì)數(shù)據(jù)進(jìn)行分析的方法，在生產(chǎn)工作正常的情況下，產(chǎn)品的質(zhì)量不可能完全相同，但也不會(huì)相差太大，而是圍繞著一定的平均值，在一定的范圍內(nèi)變動(dòng)和分布。分布分析是通過對(duì)質(zhì)量的變動(dòng)分布狀態(tài)的分析發(fā)現(xiàn)問題的一種重要方法。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ)，對(duì)數(shù)據(jù)分析而言，對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析對(duì)比分析對(duì)比分析主要是分析兩個(gè)相互聯(lián)系的指標(biāo)，從數(shù)量上展示和說明研究對(duì)象的各種關(guān)系（規(guī)模的大小、水平的高低、速度的快慢等）是否協(xié)調(diào)，分析其中的差異，從而揭示事物代表的發(fā)展變化情況和變化規(guī)律。對(duì)比分析分為絕對(duì)數(shù)比較和相對(duì)數(shù)比較大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ)，對(duì)數(shù)據(jù)分析而言，對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析統(tǒng)計(jì)分析統(tǒng)計(jì)分析是對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述，常從集中趨勢(shì)度量和離中趨勢(shì)度量?jī)蓚€(gè)方面分析。集中趨勢(shì)度量。集中趨勢(shì)度量是指數(shù)據(jù)向某一中心靠攏的傾向，核心是尋找數(shù)據(jù)的代表值或中心值，通過算數(shù)平均數(shù)、中位數(shù)和眾數(shù)來度量。離中趨勢(shì)度量是指一組數(shù)據(jù)中各數(shù)據(jù)以不同程度的距離偏離中心的趨勢(shì)。衡量離中趨勢(shì)的4個(gè)度量值分別為極差、分位距、標(biāo)一組準(zhǔn)差和方差，其中分位距最常用的是四分位距。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ)，對(duì)數(shù)據(jù)分析而言，對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析相關(guān)性分析數(shù)據(jù)相關(guān)性是指數(shù)據(jù)之間存在某種關(guān)系，該關(guān)系一般通過相關(guān)系數(shù)來體現(xiàn)，而相關(guān)系數(shù)就是用于反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量，是按積差方法計(jì)算，以兩個(gè)變量與各自平均值的離差為基礎(chǔ)，通過兩個(gè)離差相乘來反映兩個(gè)變量之間的相關(guān)程度。常見的相關(guān)系數(shù)有兩類，分別是皮爾遜積矩相關(guān)系數(shù)（Pearson相關(guān)系數(shù)）和斯皮爾曼秩相關(guān)系數(shù)（Spearman等級(jí)相關(guān)系數(shù)）。大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理對(duì)海量的數(shù)據(jù)進(jìn)行處理時(shí)，處理的方式包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換。數(shù)據(jù)清洗包括4個(gè)方面：缺失值分析處理異常值分析處理重復(fù)值分析處理數(shù)據(jù)一致性分析處理大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約技術(shù)能在很大程度上移除數(shù)據(jù)中錯(cuò)誤的實(shí)例或樣本屬性，不但能提升數(shù)據(jù)挖掘的速度，還會(huì)提升數(shù)據(jù)挖掘的準(zhǔn)確度。數(shù)據(jù)規(guī)約算法可分為5類：特征選?。‵eatureSelection）實(shí)例選?。↖nstanceSelection）離散化（Discretization）特征提?。‵eatureExtraction）實(shí)例生成（InstanceGeneration）大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約算法說明算法說明特征選取用于減少數(shù)據(jù)的維度，從數(shù)據(jù)維度的角度出發(fā)，目的在于移除數(shù)據(jù)集合中的不相關(guān)或冗余屬性，最終選出一個(gè)能代表或接近原始集合數(shù)據(jù)分布的屬性子集實(shí)例選取用于減少數(shù)據(jù)集合中實(shí)例樣本數(shù)據(jù)樣本的數(shù)量，目的在于選出能代表集合特征的實(shí)例子集，其隨機(jī)選取的方式被稱為取樣，常用在大體量數(shù)據(jù)集合中，防止數(shù)據(jù)的過擬合離散化又稱作特征簡(jiǎn)化，用于簡(jiǎn)化樣本屬性的描述，是將一種定量化的數(shù)據(jù)轉(zhuǎn)換為另一種定量化數(shù)據(jù)的過程，該過程會(huì)將數(shù)據(jù)集合中的數(shù)值屬性進(jìn)行離散化處理，轉(zhuǎn)化為在一定區(qū)間內(nèi)的有限數(shù)值。在后續(xù)的挖掘過程中，可將數(shù)據(jù)屬性當(dāng)成固定區(qū)間內(nèi)的可計(jì)算數(shù)值進(jìn)行處理特征提取用于生成新的屬性或樣本，主要分為線性和非線性提取兩種方式。實(shí)例生成算法除了移除數(shù)據(jù)集合中的數(shù)據(jù)，在規(guī)約的過程中還會(huì)對(duì)原始集合中的樣本進(jìn)行改動(dòng)，抽取多個(gè)樣本特征，生成更能代表數(shù)據(jù)特征的新樣本實(shí)例生成大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并，通過平滑處理、數(shù)據(jù)泛化、規(guī)格化等方法將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式方法方法說明平滑處理幫助去除數(shù)據(jù)中的噪聲合計(jì)處理對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作數(shù)據(jù)泛化處理用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象規(guī)格化處理將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍之中屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性，以在數(shù)據(jù)處理過程中起幫助作用大數(shù)據(jù)分析技術(shù)4.分析建模分析建模是挖掘大數(shù)據(jù)價(jià)值的關(guān)鍵，在大數(shù)據(jù)分析中，常用的分析模式：聚類分類回歸關(guān)聯(lián)規(guī)則智能推薦時(shí)間序列模式識(shí)別大數(shù)據(jù)分析技術(shù)5.模型評(píng)估模型的可用性，指的是模型不僅要在過去的數(shù)據(jù)集中預(yù)測(cè)準(zhǔn)確，還要在未來的數(shù)據(jù)集中也能夠預(yù)測(cè)準(zhǔn)確。通過模型評(píng)估可以知道模型的效果，預(yù)測(cè)結(jié)果的準(zhǔn)確性，有利于對(duì)模型進(jìn)行修正。目前主要的算法有：分類算法回歸算法聚類算法關(guān)聯(lián)規(guī)則智能推薦算法大數(shù)據(jù)分析技術(shù)分類算法評(píng)估算法指標(biāo)說明分類算法準(zhǔn)確率準(zhǔn)確率是分類算法中最常用的評(píng)估指標(biāo)，它表示正確分類的樣本數(shù)占總樣本數(shù)的比例，數(shù)值越高越好精確率精確率反映了在所有被預(yù)測(cè)為正類的樣本中，有多少是真正的正類樣本，數(shù)值越高越好召回率召回率反映了所有真正為正類的樣本中，有多少被正確地預(yù)測(cè)為正類，數(shù)值越高越好F1值F1值是精確率和召回率的調(diào)和平均值，用于平衡精確率和召回率，數(shù)值越高越好ROC曲線ROC曲線是通過繪制真陽性率（TruePositiveRate，TPR）和假陽性率（FalsePositiveRate，F(xiàn)PR）之間的關(guān)系而得到的曲線，TPR指分類器正確識(shí)別正例的能力，F(xiàn)PR指在所有實(shí)際為負(fù)例的樣本中，模型錯(cuò)誤地預(yù)測(cè)為正例的樣本比例，TPR越接近1越好，F(xiàn)PR越接近0表示算法性能越好AUCAUC（AreaUndertheCurve）是ROC曲線下的面積，用于衡量分類器性能。AUC值越接近1，表示分類器性能越好大數(shù)據(jù)分析技術(shù)回歸算法評(píng)估算法指標(biāo)說明回歸算法平均絕對(duì)誤差（MeanAbsoluteError，MAE）對(duì)于每個(gè)觀測(cè)值，計(jì)算預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異的絕對(duì)值，對(duì)所有差異值進(jìn)行求和，并除以觀測(cè)值的總數(shù)，得到MAE，MAE值越小表示模型擬合度越好均方誤差（MeanSquaredError，MSE）對(duì)于每個(gè)觀測(cè)值，計(jì)算模型的預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異，并將其平方計(jì)算后求和，再除以觀測(cè)值的總數(shù)，得到平均差異值。MSE值越小表示模型擬合度越好均方根誤差（RootMeanSquaredError，RMSE）對(duì)于每個(gè)觀測(cè)值，計(jì)算模型的預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異，并將其平方計(jì)算后進(jìn)行求和，并除以觀測(cè)值的總數(shù)，得到平均差異值后計(jì)算其平方根。RMSE值越小表示模型擬合度越好決定系數(shù)（R2）R2反映模型對(duì)數(shù)據(jù)的擬合程度，值越接近1表示模型擬合度越好大數(shù)據(jù)分析技術(shù)聚類和關(guān)聯(lián)規(guī)則算法評(píng)估算法指標(biāo)說明聚類算法輪廓系數(shù)輪廓系數(shù)是衡量聚類效果的一種指標(biāo)，值越接近1表示樣本更適合被聚類到其所在的簇，值越低則表示樣本在不同聚類之間的邊界上關(guān)聯(lián)規(guī)則支持度支持度反映了規(guī)則在所有事務(wù)中應(yīng)用的頻繁程度，數(shù)值越高越好置信度置信度表示規(guī)則的預(yù)測(cè)精度，數(shù)值越高越好大數(shù)據(jù)分析技術(shù)智能推薦算法評(píng)估算法指標(biāo)說明智能推薦算法準(zhǔn)確率準(zhǔn)確率、召回率和F1值是智能推薦算法中最常用的評(píng)估指標(biāo)，數(shù)值越高越好召回率F1值平均精確率（AveragePrecision，AP）AP是智能推薦算法中較為常用的一種評(píng)估指標(biāo)，表示在所有被推薦的項(xiàng)目中，用戶真正感興趣的項(xiàng)目占所有推薦項(xiàng)目的比例，數(shù)值越高越好平均倒數(shù)排名（MeanReciprocalRank，MRR）MRR反映了用戶對(duì)推薦結(jié)果的滿意程度，數(shù)值越高越好實(shí)例引入：個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架主流的大數(shù)據(jù)分析處理框架主流的分析處理框架介紹目前主流的大數(shù)據(jù)分析處理框架有批處理框架、流式處理框架、圖計(jì)算處理框架等。運(yùn)用較多的是批處理和流式處理框架批處理框架：最早出現(xiàn)的大數(shù)據(jù)分析處理方式是批處理，批處理是對(duì)數(shù)據(jù)先進(jìn)行存儲(chǔ)再分析處理，是一種集中式的數(shù)據(jù)分析處理。流式處理框架：隨著數(shù)據(jù)不斷地變化，流式處理框架的使用逐漸成為一種趨勢(shì)。流式處理框架將源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流，只要有新數(shù)據(jù)就及時(shí)處理，不需要做持久性的操作。圖計(jì)算處理框架：隨著圖數(shù)據(jù)的規(guī)模爆炸式增長，處理圖數(shù)據(jù)的圖計(jì)算處理框架應(yīng)運(yùn)而生，圖計(jì)算處理框架也被認(rèn)為是新興數(shù)據(jù)驅(qū)動(dòng)市場(chǎng)的支撐技術(shù)主流的大數(shù)據(jù)分析處理框架HadoopHadoop生態(tài)系統(tǒng)子項(xiàng)目說明Hive一個(gè)數(shù)據(jù)倉庫系統(tǒng)，提供了類似于SQL的查詢語言HBase一種分布的、可伸縮的列式數(shù)據(jù)存儲(chǔ)庫，支持隨機(jī)、實(shí)時(shí)讀/寫訪問Pig分析大數(shù)據(jù)集的一個(gè)平臺(tái)Sqoop可高效傳輸批量數(shù)據(jù)的一種工具Flume一種用于高效采集、匯總、移動(dòng)大量日志數(shù)據(jù)的服務(wù)ZooKeeper一種用于維護(hù)配置信息、命名，提供分布式同步等的集中服務(wù)Spark一個(gè)開源的數(shù)據(jù)分析集群計(jì)算框架Storm一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)Avr一個(gè)數(shù)據(jù)序列化系統(tǒng)HadoopHadoop的技術(shù)優(yōu)勢(shì)高可靠性。HDFS采用了備份恢復(fù)機(jī)制，MapReduce中的任務(wù)采用了監(jiān)控機(jī)制，Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。可擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，集群可以很方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。高效性。Hadoop可以在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，在數(shù)據(jù)所在節(jié)點(diǎn)進(jìn)行并行處理，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非?？?。高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。經(jīng)濟(jì)性。Hadoop是開源軟件，可以運(yùn)行在成本較低的計(jì)算機(jī)之上，它由普通的服務(wù)器構(gòu)建的節(jié)點(diǎn)組成，因此Hadoop的成本比較低。HadoopHadoop的技術(shù)劣勢(shì)抽象層次低。實(shí)際開發(fā)過程中，許多的業(yè)務(wù)邏輯沒有辦法從高層撰寫相關(guān)的邏輯代碼，需要去底層手動(dòng)進(jìn)行編碼。即使是完成一個(gè)非常簡(jiǎn)單的任務(wù)，都需要編寫一個(gè)完整的MapReduce代碼，然后編譯打包運(yùn)行。表達(dá)能力有限?，F(xiàn)實(shí)中一些實(shí)際的問題沒有辦法用MapReduce的映射和歸約環(huán)節(jié)來解決。執(zhí)行迭代操作效率低。對(duì)于MapReduce來說，MapReduce本身將整個(gè)作業(yè)劃分成多個(gè)階段進(jìn)行，每一個(gè)階段完成后將結(jié)果寫入HDFS，供下一個(gè)MapReduce作業(yè)階段調(diào)用。高代價(jià)的磁盤輸入輸出，造成了執(zhí)行迭代操作效率低。實(shí)時(shí)性差。MapReduce計(jì)算框架是針對(duì)批處理設(shè)計(jì)的，因此在實(shí)時(shí)交互查詢應(yīng)用中一般很難實(shí)現(xiàn)。主流的大數(shù)據(jù)分析處理框架SparkSpark是一個(gè)強(qiáng)大的分布式處理和易于使用的大數(shù)據(jù)框架，可以解決各種復(fù)雜的數(shù)據(jù)問題，有很多商業(yè)機(jī)構(gòu)在生產(chǎn)環(huán)境中使用，有些機(jī)構(gòu)甚至在幾十萬個(gè)節(jié)點(diǎn)集群上運(yùn)行，操作PB級(jí)的數(shù)據(jù)屬性介紹組件SparkSQL、SparkStreaming、SparkMLlib和SparkGraphX等支持語言Java、Scala和Python等功能日志抽取、清洗、轉(zhuǎn)化、加載、SQL查詢、模式識(shí)別和機(jī)器學(xué)習(xí)等SparkSpark的運(yùn)行架構(gòu)包含4個(gè)部分，分別是任務(wù)控制節(jié)點(diǎn)（DriverProgram）、集群管理器（ClusterManager）、工作節(jié)點(diǎn)（WorkerNode）和執(zhí)行進(jìn)程（Executor）。就系統(tǒng)結(jié)構(gòu)而言，Spark采用主/從模式，包含一個(gè)主服務(wù)器和若干個(gè)Worker。當(dāng)Spark需要執(zhí)行一個(gè)應(yīng)用程序時(shí)，SparkContext（Spark功能的主要入口點(diǎn)）會(huì)向集群管理器申請(qǐng)資源，并請(qǐng)求運(yùn)行執(zhí)行進(jìn)程，同時(shí)向執(zhí)行進(jìn)程發(fā)送程序代碼，接著在執(zhí)行器上執(zhí)行任務(wù)（Task）。當(dāng)運(yùn)行完畢后，再將執(zhí)行結(jié)果返回給任務(wù)控制節(jié)點(diǎn)，也可以存儲(chǔ)在HDFS或HBase中。主流的大數(shù)據(jù)分析處理框架Flink任何類型的數(shù)據(jù)都是作為事件流產(chǎn)生的，例如，信用卡交易、傳感器測(cè)量、機(jī)器日志、網(wǎng)站或移動(dòng)應(yīng)用程序上的用戶交互所產(chǎn)生的數(shù)據(jù)都以流的形式生成。ApacheFlink正是為處理流數(shù)據(jù)而設(shè)計(jì)的。Flink技術(shù)原理。ApacheFlink是一個(gè)流式處理框架，其分布式的計(jì)算模式使其成為一個(gè)可伸縮的開源流式處理平臺(tái)，用于無界數(shù)據(jù)集和有界數(shù)據(jù)集的狀態(tài)計(jì)算，其核心模塊是一個(gè)數(shù)據(jù)流引擎，主要通過Java代碼實(shí)現(xiàn)。對(duì)時(shí)間和狀態(tài)的精確控制，使Flink運(yùn)行時(shí)無界流能運(yùn)行任何類型的應(yīng)用程序。有界流由專門的固定大小的數(shù)據(jù)集設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和算法進(jìn)行內(nèi)部處理，從而獲得優(yōu)異的性能。Flink功能強(qiáng)大，支持開發(fā)和運(yùn)行多種不同種類的應(yīng)用程序。Flink的主要特性包括對(duì)流式和批處理的支持一體化、精細(xì)的狀態(tài)管理、事件時(shí)間支持和對(duì)狀態(tài)的唯一一致性保障等FlinkFlink提供3層API，如圖所示，從上至下依次為SQL/TableAPI、DataStreamAPI、ProcessFunction。層級(jí)越高，代碼越簡(jiǎn)潔；層級(jí)越低，表達(dá)能力越弱。FlinkFlink生態(tài)系統(tǒng)Flink社區(qū)正在努力支持Catalog、SchemaRegistries以及MetadataStores，包括API和SQL客戶端的支持，并且正在添加數(shù)據(jù)定義語言（DataDefinitionLanguage，DDL）支持，以便添加表和流到Catalog中。在Flink社區(qū)中還有一個(gè)巨大的工作是集成Flink與Hive生態(tài)系統(tǒng)。Flink和Hadoop、Spark一樣，是Apache軟件基金會(huì)下的頂級(jí)項(xiàng)目，F(xiàn)link也有生態(tài)系統(tǒng)，F(xiàn)link框架中有部署層、核心層、庫和API。其中，API提供了復(fù)雜事件處理（ComplexEventProcessing，CEP）接口，主要是獲取大量流數(shù)據(jù)中的重要信息。Flink和Spark一樣，提供一個(gè)機(jī)器學(xué)習(xí)的庫，里面包含許多數(shù)據(jù)挖掘的算法和機(jī)器學(xué)習(xí)的算法，如支持向量機(jī)、回歸問題、K-Means等一些常用算法FlinkFlink技術(shù)優(yōu)勢(shì)Flink以流數(shù)據(jù)處理為核心，考慮到MapReduce計(jì)算框架存在的諸多問題，設(shè)計(jì)彌補(bǔ)了MapReduce不能分析處理實(shí)時(shí)計(jì)算的局限，因此Flink優(yōu)勢(shì)極為明顯。Flink擅長處理無界和有界數(shù)據(jù)集Flink具有低處理延遲Flink旨在以任何規(guī)模運(yùn)行有狀態(tài)流應(yīng)用程序Flink是一個(gè)分布式系統(tǒng)，需要計(jì)算資源才能執(zhí)行應(yīng)用程序FlinkFlink應(yīng)用場(chǎng)景Flink因其豐富的功能集而成為開發(fā)和運(yùn)行多種不同類型應(yīng)用程序的絕佳選擇。Flink可以應(yīng)用于事件驅(qū)動(dòng)型應(yīng)用、數(shù)據(jù)分析、數(shù)據(jù)管道等方向事件驅(qū)動(dòng)型應(yīng)用是一類具有狀態(tài)的應(yīng)用數(shù)據(jù)分析任務(wù)需要從原始數(shù)據(jù)中提取有價(jià)值的信息和指標(biāo)，傳統(tǒng)的分析方式通常是利用批查詢，借助一些先進(jìn)的流處理引擎，實(shí)時(shí)地進(jìn)行數(shù)據(jù)分析，而Flink恰好同時(shí)支持流式及批量分析應(yīng)用數(shù)據(jù)管道以持續(xù)流模式運(yùn)行，支持從一個(gè)不斷生成數(shù)據(jù)的源頭讀取記錄，并將數(shù)據(jù)以低延遲移動(dòng)到終點(diǎn)，可以用于轉(zhuǎn)換、豐富數(shù)據(jù)。很多常見的數(shù)據(jù)轉(zhuǎn)換和增強(qiáng)操作可以利用Flink的SQL接口實(shí)現(xiàn)。Flink在數(shù)據(jù)管道中典型的應(yīng)用場(chǎng)景有電子商務(wù)中的實(shí)時(shí)查詢索引構(gòu)建和電子商務(wù)中的持續(xù)ETL等主流的大數(shù)據(jù)分析處理框架

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第4章 大數(shù)據(jù)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第4章大數(shù)據(jù)分析