丨如何發(fā)掘數(shù)據(jù)之間關(guān)系_第1頁
丨如何發(fā)掘數(shù)據(jù)之間關(guān)系_第2頁
丨如何發(fā)掘數(shù)據(jù)之間關(guān)系_第3頁
丨如何發(fā)掘數(shù)據(jù)之間關(guān)系_第4頁
丨如何發(fā)掘數(shù)據(jù)之間關(guān)系_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

我們Hadoop大數(shù)據(jù)技術(shù)最早源于,而使用大數(shù)據(jù)技術(shù)最重要的應當我們使用進行搜索的時候,你會發(fā)現(xiàn),通常在搜索的前三個結(jié)果里就能找到自那么為什么能在十幾萬的網(wǎng)頁中知道我最想看的網(wǎng)頁是哪些,然后把這些頁面排答案是使用了一種叫PageRank的算法,這種算法根據(jù)網(wǎng)頁的關(guān)系給網(wǎng)頁打分。如果一個網(wǎng)頁A,包含另一個網(wǎng)頁B的超,那么就認為A網(wǎng)頁給B網(wǎng)頁投了一票,以下面四個網(wǎng)頁A、B、C、D舉例,帶箭頭的線條表示。B網(wǎng)頁包含了A、D兩個頁面的超,相當于B網(wǎng)頁給A、D每個頁面投了一票,初始1BAD1/2(B包含了A、D兩個超,所以每個投票值1/2分),自己從C頁面得到1/3分(C包含了A、B、D三個頁面的超,每個投票值1/3分)。而A頁面則從B、C、D分別得到1/2、1/3、1分。用表示就PR(A)

這樣經(jīng)過一次計算后,每個頁面的PageRank分值就會重新分配,重復同樣的算法過程,經(jīng)過幾次計算后,根據(jù)每個頁面PageRank分值進行排序,就得到一個頁面重要程度的排但是這個算法還有個問題,如果某個頁面只包含指向自己的超,這樣的話其他頁面不斷給它送分,而自己一分不出,隨著計算執(zhí)行次數(shù)越多,它的分值也就越高,這顯然是不合理的。這種情況就像下圖所示的,A頁面只包含指向自己的超。的解決方案是,設想瀏覽一個頁面的時候,有一定概率不是點擊超,而是在地址欄輸入一個URL其他頁面,表示在上,就是PR(A)=

)

(1?4上面(1?α)就是跳轉(zhuǎn)到其他任何頁面的概率,通常取經(jīng)驗值0.15(即α為0.85),因為有一定概率輸入的URL是自己的,所以加上上面最后一項,其中分母4表示所有那么對于N個網(wǎng)頁,任何一個頁面Pi的PageRank計算如PageRank(Pi)= Pj∈M(Pi

jL(P j

1?α中,Pj∈M(Pi)表示所有包含有Pi超的Pj,L(Pj)表示Pj頁面包含的超數(shù)N由于要對全世界的網(wǎng)頁進行,所以這里的N可能是一個萬億級的數(shù)字,一開始將所有頁面的PageRank值設為1,帶入上面計算,每個頁面都得到一個新的PageRank值。再把這些新的PageRank值帶入上面的,繼續(xù)得到更新的PageRank值,如此迭代計算,直到所有頁面的PageRank值幾乎不再有大的變化才停止。要研發(fā)大數(shù)據(jù)技術(shù)的原因,并因此誕生了一個大數(shù)據(jù)行業(yè)。而PageRank算法也讓從眾多搜索引擎公司脫穎而出,鑄就了接近萬億級的市值,開創(chuàng)了人關(guān)聯(lián)分析是大數(shù)據(jù)計算的重要場景之一,我在專欄開篇的時候就討論過一個經(jīng)典案例,通過數(shù)據(jù)挖掘,商家發(fā)現(xiàn)尿不濕和啤酒經(jīng)常會同時被,所以商家就把啤酒和尿不濕擺放在一起促進銷售。這個案例曾經(jīng)被質(zhì)疑是,因為沒有人見過超市把啤酒和尿布放在一起賣。在傳統(tǒng)商超確實沒有見過把啤酒和紙尿褲放在一起的情況,可能是因為傳統(tǒng)商超的物理貨架分區(qū)策略限制它沒有辦法這么做,而啤酒和尿不濕存在關(guān)聯(lián)關(guān)系則確實是大數(shù)據(jù)中存在的規(guī)律,在電子商務就可以輕易進行關(guān)聯(lián)推薦。析也被稱作是“購物籃分析”,頻繁出現(xiàn)的商品組合也被稱作是“頻繁模式”。是4%,也就是說,在所有訂單中,同時出現(xiàn)啤酒和尿不濕這兩件商品的概率是4%。置信度用于衡量頻繁模式內(nèi)部的關(guān)聯(lián)關(guān)系,如果出現(xiàn)尿不濕的訂單全部都包含啤酒,那么就可以說尿不濕后啤酒的置信度是100%;如果出現(xiàn)啤酒的訂單中有20%包含尿不濕,那么就可以說啤酒后尿不濕的置信度是20%。大型超市的商品種類數(shù)量數(shù)以萬計,所有商品的組合更是一個天文數(shù)字;而電子商務的商品種類,歷史訂單數(shù)據(jù)同樣也非常龐大,雖然我們有大數(shù)據(jù)技術(shù),但是資源依然是有限的。那我們應該從哪里考慮著手,可以使用最少的計算資源尋找到最小支持度的頻繁模式?尋找滿足最小支持度的頻繁模式經(jīng)典算法是Ariori算法,Ariori算法的步驟是:第1第2步:尋找滿足最小支持度的單件商品,也就是單件商品出現(xiàn)在所有訂單中的概率不低第3步:從第2步找到的所有滿足最小支持度的單件商品中,進行兩兩組合,尋找滿足最第4步:從第3步找到的所有滿足最小支持度的兩件商品,以及第2步找到的滿足最小支第Apriori算法極大地降低了需要計算的商品組合數(shù)目,這個算法的原理是,如果一個商品組合不滿足最小支持度,那么所有包含這個商品組合的其他商品組合也不滿足最小支持度。所以從最小商品組合,也就是一件商品開始計算最小支持度,逐漸迭代,進而篩選出所有滿足最小支持度的頻繁模式。通過關(guān)聯(lián)分析,可以發(fā)現(xiàn)看似不相關(guān)商品的關(guān)聯(lián)關(guān)系,并利用這些關(guān)系進行商品,比如我上面提到的啤酒和尿不濕的例子,一方面可以為用戶提供便利;另一方面也能提高企業(yè)營收。專欄下一期還會講到發(fā)現(xiàn)用戶進行推薦的算法。上一期我們討論了“分類”,分類算法主要解決如何將一個數(shù)據(jù)分到幾個確定類別中的一類里去。分類算法通常需要樣本數(shù)據(jù)訓練模型,再利用模型進行數(shù)據(jù)分類,那么一堆樣本數(shù)據(jù)又如何知道各自的類別呢?樣本數(shù)據(jù)歸類一方面可以通過人工手動打,另一方面也可以利用算法進行自動歸類,即所謂的“聚類”。K-means第1步:隨機在圖中取K個點,圖中K=2,即圖中的實心小圓點第2步:求圖中所有點到這K個點的距離,假如一個點離點X最近,那么這個點屬于X點群。在圖中,可以看到A、B屬于上方的點,C、D、E屬于中部的點。第3步:對已經(jīng)分好組的兩組數(shù)據(jù),分別求其中心點。對于圖中二維平面上的數(shù)據(jù),求中心點最簡單的算法就是對當前同一個分組中所有點的X坐標和Y坐標分別求平均值,得到的<x,y>就是中心點。第4步:重復第2步和第3步,直到每個分組的中心點不再移動。這時候,距每個中心點K-means算法原理簡單,在知道分組個數(shù)的情況下,效果非常好,是聚類經(jīng)典算法。通過今天我們聊了數(shù)據(jù)挖掘的幾個典型算法,PageRank算法通過挖掘關(guān)系,發(fā)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁的權(quán)重;Apriori算法通過購物籃分析,發(fā)現(xiàn)商品的頻繁模式;K-means算法則可以進行自動數(shù)據(jù)聚類。這些算法不需要人工事先對數(shù)據(jù)進行標注,一般被稱作無監(jiān)督算法。上期的分類算法需要樣本數(shù)據(jù),而這些樣本數(shù)據(jù)是需要人工進行預先標注的,因此分類算法數(shù)據(jù)挖掘其實在大數(shù)據(jù)出現(xiàn)之前,甚至在計算機出現(xiàn)之間就已經(jīng)存在了,因為挖掘數(shù)據(jù)中的規(guī)律可以幫助我們更好地認識,最終實現(xiàn)更好地改造。大數(shù)據(jù)技術(shù)使數(shù)據(jù)挖掘更加方便、成本更低,而幾乎各種大數(shù)據(jù)產(chǎn)品都有對應的算法庫可以方便地進行大數(shù)據(jù)挖掘。所以請保持好奇心,通過數(shù)據(jù)挖掘發(fā)現(xiàn)規(guī)律,進而可以創(chuàng)造的價值。網(wǎng)頁的關(guān)系如何用數(shù)據(jù)表示呢?PageRank算法用MapReduce或者Spark編程如何?歸科技所有,不得售賣。頁面已增加防盜追蹤,將依法其上一 37|如何對數(shù)據(jù)進行分類和預測下一 39|如何預測用戶的喜好言言 2小氣 老師您好,我今年六月份剛本科畢業(yè),入職一家大型國企的科技公司,最近新上了一個項目是關(guān)于物聯(lián)網(wǎng)的,大概就是上千萬只表的數(shù)據(jù)供業(yè)務場景使用,這些表大部分是一次數(shù)據(jù),小部分是準實時,并對這些表進行開關(guān)閥操作,有準實時的和非準實時的,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論