![數據方法——以關聯為例_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/59cc5283-9b2c-4ebd-b143-6584144c8bb5/59cc5283-9b2c-4ebd-b143-6584144c8bb51.gif)
![數據方法——以關聯為例_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/59cc5283-9b2c-4ebd-b143-6584144c8bb5/59cc5283-9b2c-4ebd-b143-6584144c8bb52.gif)
![數據方法——以關聯為例_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/59cc5283-9b2c-4ebd-b143-6584144c8bb5/59cc5283-9b2c-4ebd-b143-6584144c8bb53.gif)
![數據方法——以關聯為例_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/59cc5283-9b2c-4ebd-b143-6584144c8bb5/59cc5283-9b2c-4ebd-b143-6584144c8bb54.gif)
![數據方法——以關聯為例_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/13/59cc5283-9b2c-4ebd-b143-6584144c8bb5/59cc5283-9b2c-4ebd-b143-6584144c8bb55.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據分析方法以關聯分析為例目錄l大數據是什么l大數據分析五個方面l關聯分析大數據l指的是所涉及的數據量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。截至2012年,單一數據集的大小從數兆字節(jié)(TB)至數十兆億字節(jié)(PB)不等。l經濟的開發(fā)成長促進了密集數據科技的使用。全世界共有約46億的移動電話用戶,并有10至20億人鏈接互聯網。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動信息量的成長。全世界通過電信網絡交換信息的容量在1986年為281兆億字節(jié)(PB),1993年為471兆字節(jié),2000年
2、時增長為2.2艾字節(jié)(EB),在2007年則為65艾字節(jié)。根據預測,在2013年互聯網每年的信息流量將會達到667艾字節(jié)。1.Wikipedia大數據2.2011 年,新生成的和復制的信息量估計超過了 1.8 ZB(澤字節(jié));而在 2013 年,這一數字估計可達 4 ZB.1ZB=1024EB=1024*1024PB=1024*1024*1024TBZB與TB相差的數量級等于TB與KB之間相差的數量級.大數據應用的威力3.醫(yī)療保險和醫(yī)療補助服務中心已經開始在要求支付前用預測分析軟件來標示看似報銷欺詐的憑據。欺詐預防系統(tǒng)有助于實時甄別高風險醫(yī)療保健提供者的欺詐、浪費與濫用行為,它已經終止、阻止或
3、確認了 1.15 億 美元的欺詐性支付,在該程序上頭一年花的每 1 美元帶來了 3 美元的成本節(jié)約。在阿富汗戰(zhàn)爭最激烈的那幾年,美國國防高級研究計劃局派遣了數據科學家團隊和可視化技術團隊到戰(zhàn)地。在一個名為 Nexus 7 的計劃中,這些團隊被直接派進作戰(zhàn)部隊,用他們的工具幫助指揮官解決特定的作戰(zhàn)計劃。在其中一個地區(qū),Nexus 7 的工程師將衛(wèi)星數據和監(jiān)測儀數據融合, 觀察交通工具是如何在道路網中流動,這使其更容易定位并摧毀簡易爆炸裝置。-白宮2014“大數據”白皮書大數據分析五個方面4.1.預測性分析能力 數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的
4、結果做出一些預測性的判斷。 2.數據質量和數據管理 數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。 3.可視化分析 不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求??梢暬梢灾庇^的展示數據,讓數據自己說話,讓觀眾聽到結果。 4.語義引擎 我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。 5.數據挖掘算法 可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數
5、據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。 關聯分析關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。或者說,關聯分析是發(fā)現交易數據庫中不同商品(項)之間的聯系。5.關聯分析關聯分析研究的關系有兩種:簡單關聯關系和序列關聯關系。簡單關聯關系購買面包的顧客中80%會購買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒有共同屬性,但是二者搭配后就是一頓美味早餐。商場購買時,如果你把這兩樣擺在一起時,就會刺激顧客的潛意識聯系了二者的關系,并刺激購買。這是一種簡單的關聯關系。6.關聯分
6、析序列關聯關系比如買了iphone手機的顧客中80%會選擇購買iphone手機保護殼,這就是序列關聯關系,一般沒人先去買個保護殼再去買手機。這是存在先后的時間上的順序的。7.關聯分析研究的關系有兩種:簡單關聯關系和序列關聯關系。關聯分析8.關聯算法的三個概念1.支持度(Support) 就是數據集中包含某幾個特定項的概率。比如在1000次的商品交易中同時出現了啤酒和尿布的次數是50次,那么此關聯的支持度為5%。2.置信度(Confidence) 就是在數據集中已經出現A時,B發(fā)生的概率,置信度的計算公式是 :A與B同時出現的概率/A出現的概率。3.提高度(Lift,也稱興趣度) 即商品之間的親
7、密關系。當提高度指標大于1時,表明商品之間可能具有真正的關聯關系。提高度數據越大,則商品之間的關聯意義越大。如果提高度小于1.0時,表明商品之間不可能具有真正的關聯關系。在某些情況下,提高度會出現負值,此時商品之間很有可能具有相互排斥的關系,體現在購物籃中,就是這些商品從來不會出現在同一個購物籃中。關聯分析案例-購物籃分析在一家超市中,人們發(fā)現了一個特別有趣的現象:尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的銷量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實案例。原來,美國的婦女通常在家照顧孩子,所以她們經常會囑咐丈
8、夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這個發(fā)現為商家?guī)砹舜罅康睦麧櫋?.關聯分析-關聯分析階段10.1.第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平。以一個包含A與B兩個項目的2-itemset為例,我們可以求得包含A,B項目組的支持度,若支持度大于等于所設定的最小支持度(Minimum Support)門檻值時,則A,B稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表
9、示為Large k或Frequent k。算法并從Large k的項目組中再試圖產生長度超過k的項目集Large k+1,直到無法再找到更長的高頻項目組為止。2.第二階段是要產生關聯規(guī)則。從高頻項目組產生關聯規(guī)則,是利用前一步驟的高頻k-項目組來產生規(guī)則,在最小可信度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的可信度滿足最小可信度,則稱此規(guī)則為關聯規(guī)則。例如:經由高頻k-項目組A,B所產生的規(guī)則,若其可信度大于等于最小可信度,則稱A,B為關聯規(guī)則。關聯分析-關聯分析階段11.就“啤酒尿布”這個案例而言,使用關聯規(guī)則挖掘技術,對交易資料庫中的記錄進行資料挖掘,首先必須要
10、設定最小支持度與最小可信度兩個門檻值,在此假設最小支持度min-support=5% 且最小可信度min-confidence=65%。因此符合需求的關聯規(guī)則將必須同時滿足以上兩個條件。若經過挖掘所找到的關聯規(guī)則 尿布,啤酒滿足下列條件,將可接受尿布,啤酒 的關聯規(guī)則。用公式可以描述為:Support(尿布,啤酒)5% and Confidence(尿布,啤酒)65%。其中,Support(尿布,啤酒)5%于此應用范例中的意義為:在所有的交易記錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)65%于此應用范例中的意義為:在所有包含尿布的
11、交易記錄資料中,至少有65%的交易會同時購買啤酒。因此,今后若有某消費者出現購買尿布的行為,我們將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據尿布,啤酒關聯規(guī)則而定,因為就過去的交易記錄而言,支持了“大部分購買尿布的交易,會同時購買啤酒”的消費行為。關聯分析案例-購物籃分析-數據關聯的意義1.購物籃大于商品傳統(tǒng)零售業(yè)里考核員工的主要指標是商品銷售額。老板會將商品銷售指標下發(fā)到個人,每個人都只會關注自己的“一畝三分地”,賣啤酒的只管悶頭賣啤酒,賣尿布的只管悶頭賣尿布,每個柜臺只管自己的商品是否能進入客戶手中的購物籃。賣啤酒的不關心購物籃中的尿布,賣尿布的也漠視購物籃中的啤酒,只要別漏了
12、自己柜臺的東西,長此以往商店的整體效益當然不會好了,效益不好就要裁員,零售店無法擴大。反觀沃爾瑪的賣場管理體系中,購物籃是主要的管理對象,而不僅僅是商品。為什么沃爾瑪會以購物籃為管理重點?沃爾瑪認為商品銷售量的沖刺只是短期行為,而零售企業(yè)的生命力取決于購物籃。一個小小的購物籃體現了客戶的真實消費需求和購物行為,每一只購物籃里都蘊藏著太多的客戶信息。零售業(yè)的宗旨是服務客戶,沃爾瑪認為商店的管理核心應該是以購物籃為中心的顧客經營模式,商品排名只能體現商品自身的表現,而購物籃可以體現客戶的購買行為及消費需求,關注購物籃可以使門店隨時掌握客戶的消費動向,從而使門店始終與客戶保持一致。12.關聯分析案例-購物籃分析-數據關聯的意義購物籃的表現形式就是我們常說的“客單價”,客單價的高低直接反映了零售企業(yè)的經營效益。根據AC尼爾森2006年對國內零售企業(yè)的調查發(fā)現, 從周一到周五正常工作日,同樣一個萬米經營面積的大賣場,國內賣場的平均客
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘師大版道德與法治九年級下冊4.1《感受時代洗禮》聽課評課記錄
- 招商引資項目合同(2篇)
- 理療按摩技術加盟合同(2篇)
- 新北師大版小學數學一年級上冊《有幾棵樹》聽評課記錄
- 岳麓版歷史七年級下冊第26課《唐代的社會風尚與文化》聽課評課記錄2
- 蘇教版數學九年級上冊聽評課記錄《1-2一元二次方程的解法(1)》
- 湘教版數學七年級上冊5.2《復式統(tǒng)計圖及統(tǒng)計圖的選擇》聽評課記錄1
- 中華書局版歷史七年級上冊第17課《三國兩晉南北朝的文化》聽課評課記錄
- 新版湘教版秋八年級數學上冊第一章分式課題同分母分式的加法和減法聽評課記錄
- 【人教版】八年級地理上冊第二章《自然災害》聽課評課記錄及優(yōu)化訓練答案
- 口腔預防兒童宣教
- 綠城桃李春風推廣方案
- 體質健康概論
- 檔案管理流程優(yōu)化與效率提升
- 顱腦損傷的生物標志物
- 2023高考語文實用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場應用
- (完整word版)大格子作文紙模板(帶字數統(tǒng)計)
- 高考語文復習:小說閱讀主觀題題型探究-解讀《理水》
- 物流營銷(第四版) 課件 第一章 物流營銷概述
- 藍印花布鑒賞課件
評論
0/150
提交評論