第4章 大數(shù)據(jù)分析_第1頁
第4章 大數(shù)據(jù)分析_第2頁
第4章 大數(shù)據(jù)分析_第3頁
第4章 大數(shù)據(jù)分析_第4頁
第4章 大數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析實(shí)例引入:個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架實(shí)例引入:個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷用戶想購買一輛汽車,由于該用戶經(jīng)常通過某個(gè)網(wǎng)站瀏覽不同品牌和價(jià)格的汽車商品簡(jiǎn)介,因此,用戶的瀏覽記錄被存儲(chǔ)在該網(wǎng)站后臺(tái)數(shù)據(jù)庫中,包含瀏覽的產(chǎn)品價(jià)位、汽車品牌、汽車的功能配置參數(shù)等。汽車銷售的技術(shù)人員也可以獲取用戶的基本信息和消費(fèi)記錄,通過大數(shù)據(jù)分析算法對(duì)該用戶的個(gè)人喜好和購買能力進(jìn)行分析,最終得到用戶可能會(huì)購買的汽車品牌信息。汽車銷售的實(shí)例中,購車用戶的特征可以通過用戶的歷史瀏覽數(shù)據(jù)進(jìn)行描繪,形成該用戶的用戶畫像,并依據(jù)特征對(duì)該用戶未來的消費(fèi)趨勢(shì)進(jìn)行預(yù)測(cè),把用戶可能會(huì)購買的商品推薦給用戶,實(shí)現(xiàn)在大數(shù)據(jù)時(shí)代下的精準(zhǔn)營銷策略。大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營銷精準(zhǔn)營銷是在精準(zhǔn)定位的基礎(chǔ)上,依據(jù)現(xiàn)代信息技術(shù)特別是近些年發(fā)展快速的大數(shù)據(jù)技術(shù),對(duì)企業(yè)的營銷實(shí)施可衡量并且回報(bào)率高的精準(zhǔn)策略,降低企業(yè)的營銷成本,提升市場(chǎng)競(jìng)爭(zhēng)力。精準(zhǔn)營銷以用戶為中心,通過現(xiàn)代化技術(shù)手段直接與用戶溝通,使企業(yè)收集大量的用戶數(shù)據(jù),借助大數(shù)據(jù)分析技術(shù),將用戶數(shù)據(jù)加工為有用信息,然后企業(yè)利用加工后的信息,為用戶推薦個(gè)性化產(chǎn)品,使用戶享受到專業(yè)的客戶服務(wù)。。精準(zhǔn)營銷的關(guān)鍵在于如何精準(zhǔn)地找到產(chǎn)品的目標(biāo)人群,再讓產(chǎn)品深入用戶心坎里,讓用戶認(rèn)識(shí)產(chǎn)品、了解產(chǎn)品、信任產(chǎn)品到最后依賴產(chǎn)品。大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)營銷以選購汽車為例,為了滿足用戶的需求,汽車企業(yè)應(yīng)從多個(gè)角度進(jìn)行營銷。一方面,將產(chǎn)品做好、做精、做強(qiáng)、生產(chǎn)出更多符合不同用戶要求的產(chǎn)品。另一方面,將汽車產(chǎn)品信息傳達(dá)給目標(biāo)用戶,引領(lǐng)用戶的選擇,尋找吻合度高、對(duì)受眾影響大的媒體進(jìn)行宣傳,在訪問量較大的網(wǎng)站上進(jìn)行汽車廣告推送,增大用戶點(diǎn)擊感興趣的商品的概率。在網(wǎng)站上推送的汽車車型,由訪問該網(wǎng)站的用戶特征決定。通過用戶畫像進(jìn)行精準(zhǔn)營銷。什么是用戶畫像阿蘭·庫珀(AlanCooper)最早提出了用戶畫像(Persona)的概念,認(rèn)為“用戶畫像是真實(shí)用戶的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型”。用戶畫像也稱為用戶的信息標(biāo)簽。用戶畫像的主要用途是幫助商家了解用戶,對(duì)用戶了解得越深,刻畫出的畫像就越準(zhǔn)確,用戶畫像被大量地應(yīng)用在精準(zhǔn)營銷和智能推薦領(lǐng)域,是真實(shí)世界的用戶在網(wǎng)絡(luò)世界的映射什么是用戶畫像大數(shù)據(jù)時(shí)代的用戶畫像和傳統(tǒng)的畫像完全不同,傳統(tǒng)的用戶畫像指的是畫家利用畫筆對(duì)用戶的外貌進(jìn)行描繪,體現(xiàn)出的是用戶的輪廓和形態(tài)?;ヂ?lián)網(wǎng)時(shí)代下的用戶畫像是根據(jù)用戶社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息抽象出的一個(gè)標(biāo)簽化的用戶模型,即構(gòu)建用戶畫像的核心工作是給用戶貼“標(biāo)簽”,標(biāo)簽是通過對(duì)用戶數(shù)據(jù)分析得到的高度精練的特征標(biāo)識(shí)?;ヂ?lián)網(wǎng)時(shí)代的用戶畫像表現(xiàn)出來的信息更加豐富,信息種類也不局限于視覺特征,凡是能夠?qū)τ脩舻奶卣鬟M(jìn)行描述的信息,都可以放到用戶畫像里面。大數(shù)據(jù)算法構(gòu)建出來的用戶畫像具有更加豐富的屬性,可以被更多的上層應(yīng)用使用通過對(duì)用戶數(shù)據(jù)的分析,可以對(duì)用戶進(jìn)行畫像,給出某個(gè)特定用戶的相關(guān)信息,如年齡區(qū)間、從事的職業(yè)、婚姻狀況、家庭成員、消費(fèi)習(xí)慣、個(gè)人愛好、是否從事體育運(yùn)動(dòng)、消費(fèi)習(xí)慣、經(jīng)常購買哪類商品等構(gòu)建個(gè)性化用戶畫像用于構(gòu)建用戶畫像的數(shù)據(jù),不僅需要數(shù)量多,而且還要和業(yè)務(wù)場(chǎng)景緊密結(jié)合,在本章介紹的汽車銷售實(shí)例中,為了精準(zhǔn)地推送給用戶汽車的廣告,首先要對(duì)用戶進(jìn)行用戶畫像,將用戶的特征描述清楚,然后再根據(jù)畫像的特征進(jìn)行精準(zhǔn)營銷如果用戶畫像勾勒出來的是一個(gè)年齡在20~30歲的年輕人,從事IT行業(yè),平時(shí)喜歡選購電子產(chǎn)品,那么可以分析出該年輕人會(huì)比較鐘情于經(jīng)濟(jì)型轎車如果給出的用戶畫像是一個(gè)對(duì)美術(shù)比較感興趣的人,熱愛網(wǎng)絡(luò)小說和文學(xué),偏好人文社科書籍,也熱愛音樂和舞蹈,那么可能會(huì)對(duì)外觀設(shè)計(jì)和內(nèi)飾風(fēng)格比較注重,同時(shí)也會(huì)關(guān)注車輛的舒適性和安全性能,感興趣的可能是運(yùn)動(dòng)型多用途汽車的車型獲取信息的便利性增大構(gòu)建個(gè)性化用戶畫像用戶畫像的主要步驟可以分為如下3步首先需要明確研究的目標(biāo),即對(duì)哪些用戶進(jìn)行畫像。例如,為了研究電商平臺(tái)用戶流失的情況,就要將那些購物體驗(yàn)較差的用戶設(shè)定為目標(biāo)用戶;如果要研究潛在客戶是否能成為正式客戶,就要將那些目前還未接觸過本產(chǎn)品但采購了同類型其他品牌商品的用戶設(shè)定為目標(biāo)用戶對(duì)目標(biāo)用戶的所有的相關(guān)數(shù)據(jù)進(jìn)行收集,如用戶的性別、職業(yè)、年齡、地域、消費(fèi)層次等基本信息;也可以是用戶的行為信息,如瀏覽記錄、搜索過的關(guān)鍵詞、發(fā)表過的評(píng)論等通過大數(shù)據(jù)分析技術(shù),包括描述性統(tǒng)計(jì)分析、數(shù)據(jù)挖掘算法等,為用戶貼上相應(yīng)的標(biāo)簽,標(biāo)示出用戶的興趣、偏好和需求等。通過用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷構(gòu)建好用戶畫像后,即可對(duì)用戶需求、基本特征、用戶價(jià)值進(jìn)行分析,實(shí)現(xiàn)精準(zhǔn)營銷用戶需求分析:了解用戶需要什么,才能精準(zhǔn)地提供需要的服務(wù)和商品。通過大數(shù)據(jù)分析實(shí)現(xiàn)對(duì)用戶畫像,可以得到準(zhǔn)確的用戶需求。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶的消費(fèi)數(shù)據(jù)不斷積累,利用用戶消費(fèi)數(shù)據(jù)可勾畫出用戶可能需要哪類商品,用戶的需求隱含在其瀏覽和選購過程中,是更深層次需求的挖掘,需要對(duì)用戶的消費(fèi)習(xí)慣進(jìn)行分析。通過用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷用戶基本特征分析:用戶畫像是對(duì)一個(gè)用戶全方位的展示,為了讓用戶的畫像內(nèi)容豐富,標(biāo)簽要盡量多。用戶畫像的目的之一是為企業(yè)找到目標(biāo)用戶,目標(biāo)用戶是可能要購買企業(yè)產(chǎn)品的,并且是有能力購買的。例如,用戶購買產(chǎn)品的類型、采購的頻率、采購商品的價(jià)格、用戶所在的區(qū)域等基本屬性信息就非常重要,了解了基本屬性信息,企業(yè)可以和用戶進(jìn)行溝通,將產(chǎn)品推薦給用戶通過大數(shù)據(jù)分析技術(shù),包括描述性統(tǒng)計(jì)分析、數(shù)據(jù)挖掘算法等,為用戶貼上相應(yīng)的標(biāo)簽,標(biāo)示出用戶的興趣、偏好和需求等。用戶價(jià)值分析:在對(duì)人物畫像時(shí),可以根據(jù)大數(shù)據(jù)分析給出人物的價(jià)值特征。用戶價(jià)值可以理解為用戶在系統(tǒng)中的商業(yè)變現(xiàn)能力,包括廣告價(jià)值、付費(fèi)價(jià)值。實(shí)例引入:個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘大數(shù)據(jù)時(shí)代的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息,還在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,而大數(shù)據(jù)分析就是大數(shù)據(jù)研究領(lǐng)域的核心內(nèi)容之一。大數(shù)據(jù)分析是決策過程中的決定性因素,也是大數(shù)據(jù)時(shí)代發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)。大數(shù)據(jù)分析核心即為挖掘。數(shù)據(jù)分析的定義是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,將數(shù)據(jù)加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能、發(fā)揮數(shù)據(jù)的作用數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,而隨著計(jì)算機(jī)的不斷發(fā)展,數(shù)據(jù)分析也得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物數(shù)據(jù)分析的目的是將隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中和提煉出來,從而找出所研究對(duì)象的內(nèi)在規(guī)律大數(shù)據(jù)分析技術(shù)1.數(shù)據(jù)分析與數(shù)據(jù)挖掘數(shù)據(jù)挖掘是指通過人工智能、機(jī)器學(xué)習(xí)等方法,從大量的數(shù)據(jù)中挖掘出未知的且有價(jià)值的信息和知識(shí)的過程數(shù)據(jù)挖掘主要側(cè)重解決4類問題,即分類、聚類、關(guān)聯(lián)和預(yù)測(cè)數(shù)據(jù)挖掘的重點(diǎn)在于尋找未知的模式與規(guī)律,尋找那些事先未知的但又非常有價(jià)值的信息,主要采用統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法進(jìn)行挖掘數(shù)據(jù)分析是將數(shù)據(jù)變成信息的方法,數(shù)據(jù)挖掘是將信息變成認(rèn)知的方法,如果想要從數(shù)據(jù)中提取一定的規(guī)律往往,需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知隨著大數(shù)據(jù)技術(shù)和體系的發(fā)展,越來越多的人使用大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)為核心的,人們對(duì)大數(shù)據(jù)的認(rèn)知和傳統(tǒng)數(shù)據(jù)有著很大區(qū)別。數(shù)據(jù)的質(zhì)量也有區(qū)別,數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢測(cè)原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求的數(shù)據(jù)數(shù)據(jù)完整性數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)重復(fù)性數(shù)據(jù)的一致性大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對(duì)數(shù)據(jù)分析而言,對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析分布分析分布分析是指根據(jù)數(shù)據(jù)在坐標(biāo)圖里分布的特點(diǎn)來對(duì)數(shù)據(jù)進(jìn)行分析的方法,在生產(chǎn)工作正常的情況下,產(chǎn)品的質(zhì)量不可能完全相同,但也不會(huì)相差太大,而是圍繞著一定的平均值,在一定的范圍內(nèi)變動(dòng)和分布。分布分析是通過對(duì)質(zhì)量的變動(dòng)分布狀態(tài)的分析發(fā)現(xiàn)問題的一種重要方法。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對(duì)數(shù)據(jù)分析而言,對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析對(duì)比分析對(duì)比分析主要是分析兩個(gè)相互聯(lián)系的指標(biāo),從數(shù)量上展示和說明研究對(duì)象的各種關(guān)系(規(guī)模的大小、水平的高低、速度的快慢等)是否協(xié)調(diào),分析其中的差異,從而揭示事物代表的發(fā)展變化情況和變化規(guī)律。對(duì)比分析分為絕對(duì)數(shù)比較和相對(duì)數(shù)比較大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對(duì)數(shù)據(jù)分析而言,對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析統(tǒng)計(jì)分析統(tǒng)計(jì)分析是對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,常從集中趨勢(shì)度量和離中趨勢(shì)度量?jī)蓚€(gè)方面分析。集中趨勢(shì)度量。集中趨勢(shì)度量是指數(shù)據(jù)向某一中心靠攏的傾向,核心是尋找數(shù)據(jù)的代表值或中心值,通過算數(shù)平均數(shù)、中位數(shù)和眾數(shù)來度量。離中趨勢(shì)度量是指一組數(shù)據(jù)中各數(shù)據(jù)以不同程度的距離偏離中心的趨勢(shì)。衡量離中趨勢(shì)的4個(gè)度量值分別為極差、分位距、標(biāo)一組準(zhǔn)差和方差,其中分位距最常用的是四分位距。大數(shù)據(jù)分析技術(shù)2.數(shù)據(jù)認(rèn)知科學(xué)地分析數(shù)據(jù)特征是數(shù)據(jù)分析的基礎(chǔ),對(duì)數(shù)據(jù)分析而言,對(duì)數(shù)據(jù)特征的準(zhǔn)確把握是至關(guān)重要的。數(shù)據(jù)特征分析常用的方法有分布分析、對(duì)比分析、統(tǒng)計(jì)分析、相關(guān)性分析相關(guān)性分析數(shù)據(jù)相關(guān)性是指數(shù)據(jù)之間存在某種關(guān)系,該關(guān)系一般通過相關(guān)系數(shù)來體現(xiàn),而相關(guān)系數(shù)就是用于反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量,是按積差方法計(jì)算,以兩個(gè)變量與各自平均值的離差為基礎(chǔ),通過兩個(gè)離差相乘來反映兩個(gè)變量之間的相關(guān)程度。常見的相關(guān)系數(shù)有兩類,分別是皮爾遜積矩相關(guān)系數(shù)(Pearson相關(guān)系數(shù))和斯皮爾曼秩相關(guān)系數(shù)(Spearman等級(jí)相關(guān)系數(shù))。大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理對(duì)海量的數(shù)據(jù)進(jìn)行處理時(shí),處理的方式包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換。數(shù)據(jù)清洗包括4個(gè)方面:缺失值分析處理異常值分析處理重復(fù)值分析處理數(shù)據(jù)一致性分析處理大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約技術(shù)能在很大程度上移除數(shù)據(jù)中錯(cuò)誤的實(shí)例或樣本屬性,不但能提升數(shù)據(jù)挖掘的速度,還會(huì)提升數(shù)據(jù)挖掘的準(zhǔn)確度。數(shù)據(jù)規(guī)約算法可分為5類:特征選?。‵eatureSelection)實(shí)例選?。↖nstanceSelection)離散化(Discretization)特征提?。‵eatureExtraction)實(shí)例生成(InstanceGeneration)大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)處理數(shù)據(jù)規(guī)約算法說明算法說明特征選取用于減少數(shù)據(jù)的維度,從數(shù)據(jù)維度的角度出發(fā),目的在于移除數(shù)據(jù)集合中的不相關(guān)或冗余屬性,最終選出一個(gè)能代表或接近原始集合數(shù)據(jù)分布的屬性子集實(shí)例選取用于減少數(shù)據(jù)集合中實(shí)例樣本數(shù)據(jù)樣本的數(shù)量,目的在于選出能代表集合特征的實(shí)例子集,其隨機(jī)選取的方式被稱為取樣,常用在大體量數(shù)據(jù)集合中,防止數(shù)據(jù)的過擬合離散化又稱作特征簡(jiǎn)化,用于簡(jiǎn)化樣本屬性的描述,是將一種定量化的數(shù)據(jù)轉(zhuǎn)換為另一種定量化數(shù)據(jù)的過程,該過程會(huì)將數(shù)據(jù)集合中的數(shù)值屬性進(jìn)行離散化處理,轉(zhuǎn)化為在一定區(qū)間內(nèi)的有限數(shù)值。在后續(xù)的挖掘過程中,可將數(shù)據(jù)屬性當(dāng)成固定區(qū)間內(nèi)的可計(jì)算數(shù)值進(jìn)行處理特征提取用于生成新的屬性或樣本,主要分為線性和非線性提取兩種方式。實(shí)例生成算法除了移除數(shù)據(jù)集合中的數(shù)據(jù),在規(guī)約的過程中還會(huì)對(duì)原始集合中的樣本進(jìn)行改動(dòng),抽取多個(gè)樣本特征,生成更能代表數(shù)據(jù)特征的新樣本實(shí)例生成大數(shù)據(jù)分析技術(shù)3.數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并,通過平滑處理、數(shù)據(jù)泛化、規(guī)格化等方法將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式方法方法說明平滑處理幫助去除數(shù)據(jù)中的噪聲合計(jì)處理對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作數(shù)據(jù)泛化處理用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象規(guī)格化處理將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍之中屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性,以在數(shù)據(jù)處理過程中起幫助作用大數(shù)據(jù)分析技術(shù)4.分析建模分析建模是挖掘大數(shù)據(jù)價(jià)值的關(guān)鍵,在大數(shù)據(jù)分析中,常用的分析模式:聚類分類回歸關(guān)聯(lián)規(guī)則智能推薦時(shí)間序列模式識(shí)別大數(shù)據(jù)分析技術(shù)5.模型評(píng)估模型的可用性,指的是模型不僅要在過去的數(shù)據(jù)集中預(yù)測(cè)準(zhǔn)確,還要在未來的數(shù)據(jù)集中也能夠預(yù)測(cè)準(zhǔn)確。通過模型評(píng)估可以知道模型的效果,預(yù)測(cè)結(jié)果的準(zhǔn)確性,有利于對(duì)模型進(jìn)行修正。目前主要的算法有:分類算法回歸算法聚類算法關(guān)聯(lián)規(guī)則智能推薦算法大數(shù)據(jù)分析技術(shù)分類算法評(píng)估算法指標(biāo)說明分類算法準(zhǔn)確率準(zhǔn)確率是分類算法中最常用的評(píng)估指標(biāo),它表示正確分類的樣本數(shù)占總樣本數(shù)的比例,數(shù)值越高越好精確率精確率反映了在所有被預(yù)測(cè)為正類的樣本中,有多少是真正的正類樣本,數(shù)值越高越好召回率召回率反映了所有真正為正類的樣本中,有多少被正確地預(yù)測(cè)為正類,數(shù)值越高越好F1值F1值是精確率和召回率的調(diào)和平均值,用于平衡精確率和召回率,數(shù)值越高越好ROC曲線ROC曲線是通過繪制真陽性率(TruePositiveRate,TPR)和假陽性率(FalsePositiveRate,F(xiàn)PR)之間的關(guān)系而得到的曲線,TPR指分類器正確識(shí)別正例的能力,F(xiàn)PR指在所有實(shí)際為負(fù)例的樣本中,模型錯(cuò)誤地預(yù)測(cè)為正例的樣本比例,TPR越接近1越好,F(xiàn)PR越接近0表示算法性能越好AUCAUC(AreaUndertheCurve)是ROC曲線下的面積,用于衡量分類器性能。AUC值越接近1,表示分類器性能越好大數(shù)據(jù)分析技術(shù)回歸算法評(píng)估算法指標(biāo)說明回歸算法平均絕對(duì)誤差(MeanAbsoluteError,MAE)對(duì)于每個(gè)觀測(cè)值,計(jì)算預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異的絕對(duì)值,對(duì)所有差異值進(jìn)行求和,并除以觀測(cè)值的總數(shù),得到MAE,MAE值越小表示模型擬合度越好均方誤差(MeanSquaredError,MSE)對(duì)于每個(gè)觀測(cè)值,計(jì)算模型的預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異,并將其平方計(jì)算后求和,再除以觀測(cè)值的總數(shù),得到平均差異值。MSE值越小表示模型擬合度越好均方根誤差(RootMeanSquaredError,RMSE)對(duì)于每個(gè)觀測(cè)值,計(jì)算模型的預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異,并將其平方計(jì)算后進(jìn)行求和,并除以觀測(cè)值的總數(shù),得到平均差異值后計(jì)算其平方根。RMSE值越小表示模型擬合度越好決定系數(shù)(R2)R2反映模型對(duì)數(shù)據(jù)的擬合程度,值越接近1表示模型擬合度越好大數(shù)據(jù)分析技術(shù)聚類和關(guān)聯(lián)規(guī)則算法評(píng)估算法指標(biāo)說明聚類算法輪廓系數(shù)輪廓系數(shù)是衡量聚類效果的一種指標(biāo),值越接近1表示樣本更適合被聚類到其所在的簇,值越低則表示樣本在不同聚類之間的邊界上關(guān)聯(lián)規(guī)則支持度支持度反映了規(guī)則在所有事務(wù)中應(yīng)用的頻繁程度,數(shù)值越高越好置信度置信度表示規(guī)則的預(yù)測(cè)精度,數(shù)值越高越好大數(shù)據(jù)分析技術(shù)智能推薦算法評(píng)估算法指標(biāo)說明智能推薦算法準(zhǔn)確率準(zhǔn)確率、召回率和F1值是智能推薦算法中最常用的評(píng)估指標(biāo),數(shù)值越高越好召回率F1值平均精確率(AveragePrecision,AP)AP是智能推薦算法中較為常用的一種評(píng)估指標(biāo),表示在所有被推薦的項(xiàng)目中,用戶真正感興趣的項(xiàng)目占所有推薦項(xiàng)目的比例,數(shù)值越高越好平均倒數(shù)排名(MeanReciprocalRank,MRR)MRR反映了用戶對(duì)推薦結(jié)果的滿意程度,數(shù)值越高越好實(shí)例引入:個(gè)性化用戶畫像實(shí)現(xiàn)精準(zhǔn)營銷大數(shù)據(jù)分析技術(shù)主流的大數(shù)據(jù)分析處理框架主流的大數(shù)據(jù)分析處理框架主流的分析處理框架介紹目前主流的大數(shù)據(jù)分析處理框架有批處理框架、流式處理框架、圖計(jì)算處理框架等。運(yùn)用較多的是批處理和流式處理框架批處理框架:最早出現(xiàn)的大數(shù)據(jù)分析處理方式是批處理,批處理是對(duì)數(shù)據(jù)先進(jìn)行存儲(chǔ)再分析處理,是一種集中式的數(shù)據(jù)分析處理。流式處理框架:隨著數(shù)據(jù)不斷地變化,流式處理框架的使用逐漸成為一種趨勢(shì)。流式處理框架將源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流,只要有新數(shù)據(jù)就及時(shí)處理,不需要做持久性的操作。圖計(jì)算處理框架:隨著圖數(shù)據(jù)的規(guī)模爆炸式增長,處理圖數(shù)據(jù)的圖計(jì)算處理框架應(yīng)運(yùn)而生,圖計(jì)算處理框架也被認(rèn)為是新興數(shù)據(jù)驅(qū)動(dòng)市場(chǎng)的支撐技術(shù)主流的大數(shù)據(jù)分析處理框架HadoopHadoop生態(tài)系統(tǒng)子項(xiàng)目說明Hive一個(gè)數(shù)據(jù)倉庫系統(tǒng),提供了類似于SQL的查詢語言HBase一種分布的、可伸縮的列式數(shù)據(jù)存儲(chǔ)庫,支持隨機(jī)、實(shí)時(shí)讀/寫訪問Pig分析大數(shù)據(jù)集的一個(gè)平臺(tái)Sqoop可高效傳輸批量數(shù)據(jù)的一種工具Flume一種用于高效采集、匯總、移動(dòng)大量日志數(shù)據(jù)的服務(wù)ZooKeeper一種用于維護(hù)配置信息、命名,提供分布式同步等的集中服務(wù)Spark一個(gè)開源的數(shù)據(jù)分析集群計(jì)算框架Storm一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)Avr一個(gè)數(shù)據(jù)序列化系統(tǒng)HadoopHadoop的技術(shù)優(yōu)勢(shì)高可靠性。HDFS采用了備份恢復(fù)機(jī)制,MapReduce中的任務(wù)采用了監(jiān)控機(jī)制,Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。可擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,集群可以很方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。高效性。Hadoop可以在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),在數(shù)據(jù)所在節(jié)點(diǎn)進(jìn)行并行處理,并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。經(jīng)濟(jì)性。Hadoop是開源軟件,可以運(yùn)行在成本較低的計(jì)算機(jī)之上,它由普通的服務(wù)器構(gòu)建的節(jié)點(diǎn)組成,因此Hadoop的成本比較低。HadoopHadoop的技術(shù)劣勢(shì)抽象層次低。實(shí)際開發(fā)過程中,許多的業(yè)務(wù)邏輯沒有辦法從高層撰寫相關(guān)的邏輯代碼,需要去底層手動(dòng)進(jìn)行編碼。即使是完成一個(gè)非常簡(jiǎn)單的任務(wù),都需要編寫一個(gè)完整的MapReduce代碼,然后編譯打包運(yùn)行。表達(dá)能力有限?,F(xiàn)實(shí)中一些實(shí)際的問題沒有辦法用MapReduce的映射和歸約環(huán)節(jié)來解決。執(zhí)行迭代操作效率低。對(duì)于MapReduce來說,MapReduce本身將整個(gè)作業(yè)劃分成多個(gè)階段進(jìn)行,每一個(gè)階段完成后將結(jié)果寫入HDFS,供下一個(gè)MapReduce作業(yè)階段調(diào)用。高代價(jià)的磁盤輸入輸出,造成了執(zhí)行迭代操作效率低。實(shí)時(shí)性差。MapReduce計(jì)算框架是針對(duì)批處理設(shè)計(jì)的,因此在實(shí)時(shí)交互查詢應(yīng)用中一般很難實(shí)現(xiàn)。主流的大數(shù)據(jù)分析處理框架SparkSpark是一個(gè)強(qiáng)大的分布式處理和易于使用的大數(shù)據(jù)框架,可以解決各種復(fù)雜的數(shù)據(jù)問題,有很多商業(yè)機(jī)構(gòu)在生產(chǎn)環(huán)境中使用,有些機(jī)構(gòu)甚至在幾十萬個(gè)節(jié)點(diǎn)集群上運(yùn)行,操作PB級(jí)的數(shù)據(jù)屬性介紹組件SparkSQL、SparkStreaming、SparkMLlib和SparkGraphX等支持語言Java、Scala和Python等功能日志抽取、清洗、轉(zhuǎn)化、加載、SQL查詢、模式識(shí)別和機(jī)器學(xué)習(xí)等SparkSpark的運(yùn)行架構(gòu)包含4個(gè)部分,分別是任務(wù)控制節(jié)點(diǎn)(DriverProgram)、集群管理器(ClusterManager)、工作節(jié)點(diǎn)(WorkerNode)和執(zhí)行進(jìn)程(Executor)。就系統(tǒng)結(jié)構(gòu)而言,Spark采用主/從模式,包含一個(gè)主服務(wù)器和若干個(gè)Worker。當(dāng)Spark需要執(zhí)行一個(gè)應(yīng)用程序時(shí),SparkContext(Spark功能的主要入口點(diǎn))會(huì)向集群管理器申請(qǐng)資源,并請(qǐng)求運(yùn)行執(zhí)行進(jìn)程,同時(shí)向執(zhí)行進(jìn)程發(fā)送程序代碼,接著在執(zhí)行器上執(zhí)行任務(wù)(Task)。當(dāng)運(yùn)行完畢后,再將執(zhí)行結(jié)果返回給任務(wù)控制節(jié)點(diǎn),也可以存儲(chǔ)在HDFS或HBase中。主流的大數(shù)據(jù)分析處理框架Flink任何類型的數(shù)據(jù)都是作為事件流產(chǎn)生的,例如,信用卡交易、傳感器測(cè)量、機(jī)器日志、網(wǎng)站或移動(dòng)應(yīng)用程序上的用戶交互所產(chǎn)生的數(shù)據(jù)都以流的形式生成。ApacheFlink正是為處理流數(shù)據(jù)而設(shè)計(jì)的。Flink技術(shù)原理。ApacheFlink是一個(gè)流式處理框架,其分布式的計(jì)算模式使其成為一個(gè)可伸縮的開源流式處理平臺(tái),用于無界數(shù)據(jù)集和有界數(shù)據(jù)集的狀態(tài)計(jì)算,其核心模塊是一個(gè)數(shù)據(jù)流引擎,主要通過Java代碼實(shí)現(xiàn)。對(duì)時(shí)間和狀態(tài)的精確控制,使Flink運(yùn)行時(shí)無界流能運(yùn)行任何類型的應(yīng)用程序。有界流由專門的固定大小的數(shù)據(jù)集設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和算法進(jìn)行內(nèi)部處理,從而獲得優(yōu)異的性能。Flink功能強(qiáng)大,支持開發(fā)和運(yùn)行多種不同種類的應(yīng)用程序。Flink的主要特性包括對(duì)流式和批處理的支持一體化、精細(xì)的狀態(tài)管理、事件時(shí)間支持和對(duì)狀態(tài)的唯一一致性保障等FlinkFlink提供3層API,如圖所示,從上至下依次為SQL/TableAPI、DataStreamAPI、ProcessFunction。層級(jí)越高,代碼越簡(jiǎn)潔;層級(jí)越低,表達(dá)能力越弱。FlinkFlink生態(tài)系統(tǒng)Flink社區(qū)正在努力支持Catalog、SchemaRegistries以及MetadataStores,包括API和SQL客戶端的支持,并且正在添加數(shù)據(jù)定義語言(DataDefinitionLanguage,DDL)支持,以便添加表和流到Catalog中。在Flink社區(qū)中還有一個(gè)巨大的工作是集成Flink與Hive生態(tài)系統(tǒng)。Flink和Hadoop、Spark一樣,是Apache軟件基金會(huì)下的頂級(jí)項(xiàng)目,F(xiàn)link也有生態(tài)系統(tǒng),F(xiàn)link框架中有部署層、核心層、庫和API。其中,API提供了復(fù)雜事件處理(ComplexEventProcessing,CEP)接口,主要是獲取大量流數(shù)據(jù)中的重要信息。Flink和Spark一樣,提供一個(gè)機(jī)器學(xué)習(xí)的庫,里面包含許多數(shù)據(jù)挖掘的算法和機(jī)器學(xué)習(xí)的算法,如支持向量機(jī)、回歸問題、K-Means等一些常用算法FlinkFlink技術(shù)優(yōu)勢(shì)Flink以流數(shù)據(jù)處理為核心,考慮到MapReduce計(jì)算框架存在的諸多問題,設(shè)計(jì)彌補(bǔ)了MapReduce不能分析處理實(shí)時(shí)計(jì)算的局限,因此Flink優(yōu)勢(shì)極為明顯。Flink擅長處理無界和有界數(shù)據(jù)集Flink具有低處理延遲Flink旨在以任何規(guī)模運(yùn)行有狀態(tài)流應(yīng)用程序Flink是一個(gè)分布式系統(tǒng),需要計(jì)算資源才能執(zhí)行應(yīng)用程序FlinkFlink應(yīng)用場(chǎng)景Flink因其豐富的功能集而成為開發(fā)和運(yùn)行多種不同類型應(yīng)用程序的絕佳選擇。Flink可以應(yīng)用于事件驅(qū)動(dòng)型應(yīng)用、數(shù)據(jù)分析、數(shù)據(jù)管道等方向事件驅(qū)動(dòng)型應(yīng)用是一類具有狀態(tài)的應(yīng)用數(shù)據(jù)分析任務(wù)需要從原始數(shù)據(jù)中提取有價(jià)值的信息和指標(biāo),傳統(tǒng)的分析方式通常是利用批查詢,借助一些先進(jìn)的流處理引擎,實(shí)時(shí)地進(jìn)行數(shù)據(jù)分析,而Flink恰好同時(shí)支持流式及批量分析應(yīng)用數(shù)據(jù)管道以持續(xù)流模式運(yùn)行,支持從一個(gè)不斷生成數(shù)據(jù)的源頭讀取記錄,并將數(shù)據(jù)以低延遲移動(dòng)到終點(diǎn),可以用于轉(zhuǎn)換、豐富數(shù)據(jù)。很多常見的數(shù)據(jù)轉(zhuǎn)換和增強(qiáng)操作可以利用Flink的SQL接口實(shí)現(xiàn)。Flink在數(shù)據(jù)管道中典型的應(yīng)用場(chǎng)景有電子商務(wù)中的實(shí)時(shí)查詢索引構(gòu)建和電子商務(wù)中的持續(xù)ETL等主流的大數(shù)據(jù)分析處理框架

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論