大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第9章 大數(shù)據(jù)分析模型_第1頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第9章 大數(shù)據(jù)分析模型_第2頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第9章 大數(shù)據(jù)分析模型_第3頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第9章 大數(shù)據(jù)分析模型_第4頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第9章 大數(shù)據(jù)分析模型_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第9章大數(shù)據(jù)分析模型QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理下面是行業(yè)人士應該知道的十大數(shù)據(jù)思維原理。(1)數(shù)據(jù)核心原理:從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心。這是因為計算模式發(fā)生了轉(zhuǎn)變。Hadoop體系的分布式計算框架是“數(shù)據(jù)”為核心的范式。非結(jié)構(gòu)化數(shù)據(jù)及分析需求將改變IT系統(tǒng)的升級方式:從簡單增量到架構(gòu)變化。例如:IBM使用以數(shù)據(jù)為中心的設計,目的是降低在超級計算機之間進行大量數(shù)據(jù)交換的必要性。大數(shù)據(jù)背景下,云計算破繭重生,在存儲和計算上都體現(xiàn)了以數(shù)據(jù)為核心的理念。大數(shù)據(jù)可以有效地利用已大量建設的云計算資源。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理科學進步越來越多地由數(shù)據(jù)來推動。大數(shù)據(jù)往往利用眾多技術和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應對大數(shù)據(jù)帶來的挑戰(zhàn),需要新的統(tǒng)計思路和計算方法。說明:用以數(shù)據(jù)為核心的思維方式思考問題,解決問題,反映了當下IT產(chǎn)業(yè)的變革,數(shù)據(jù)成為人工智能的基礎。數(shù)據(jù)比流程更重要,數(shù)據(jù)庫可以開發(fā)出深層次信息。云計算機可以從數(shù)據(jù)庫、記錄數(shù)據(jù)庫中搜索出你是誰,你需要什么,從而推薦給你所需要的信息。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(2)數(shù)據(jù)價值原理:由功能是價值轉(zhuǎn)變?yōu)閿?shù)據(jù)是價值。大數(shù)據(jù)的真正價值在于創(chuàng)造,在于填補無數(shù)個還未實現(xiàn)過的空白。大數(shù)據(jù)并不在“大”,而在于“有用”,價值含量、挖掘成本比數(shù)量更為重要。不管大數(shù)據(jù)的核心價值是不是預測,基于大數(shù)據(jù)所形成的決策模式已經(jīng)為不少企業(yè)帶來了盈利和聲譽。數(shù)據(jù)能告訴我們每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進行分類或聚合。大數(shù)據(jù)是數(shù)據(jù)數(shù)量上的增加,以至于我們能夠?qū)崿F(xiàn)從量變到質(zhì)變的過程。舉例來說,這里有一張照片,照片里的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨著處理速度越來越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張,數(shù)量的增長實現(xiàn)質(zhì)變時,就產(chǎn)生了電影。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用數(shù)據(jù)價值思維方式思考問題,解決問題。信息總量的變化導致了信息形態(tài)的變化。如今“大數(shù)據(jù)”這個概念幾乎應用到了所有人類致力于發(fā)展的領域中。從功能為價值轉(zhuǎn)變?yōu)閿?shù)據(jù)為價值,說明數(shù)據(jù)和大數(shù)據(jù)的價值在擴大,“數(shù)據(jù)為王”的時代出現(xiàn)了。數(shù)據(jù)被解釋為信息,信息常識化是知識,所以說數(shù)據(jù)解釋、數(shù)據(jù)分析能產(chǎn)生價值。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(3)全樣本原理:從抽樣轉(zhuǎn)變?yōu)椴捎萌珨?shù)據(jù)作為樣本。如果數(shù)據(jù)足夠多,它會讓人能夠看得見、摸得著規(guī)律。例如在大數(shù)據(jù)時代,無論是商家還是信息的搜集者,會比我們自己更知道我們想干什么。如果數(shù)據(jù)被真正挖掘出來的話,通過信用卡消費的記錄,可以成功預測未來5年內(nèi)的情況。說明:用全數(shù)據(jù)樣本思維方式思考問題,解決問題。從抽樣中得到的結(jié)論總是有水分的,,大數(shù)據(jù)越大,真實性也就越大,因為大數(shù)據(jù)包含了全部的信息。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(4)關注效率原理:由關注精確度轉(zhuǎn)變?yōu)殛P注效率。大數(shù)據(jù)標志著人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數(shù)據(jù)化了,擁有大量的數(shù)據(jù)和更多不那么精確的數(shù)據(jù)為我們理解世界打開了一扇新的大門。大數(shù)據(jù)能提高生產(chǎn)效率和銷售效率,其原因是它能夠讓我們知道市場的需要,人的消費需要。大數(shù)據(jù)讓企業(yè)的決策更科學,由關注精確度轉(zhuǎn)變?yōu)殛P注效率的提高,大數(shù)據(jù)分析能提高企業(yè)的效率。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理競爭是企業(yè)的動力,而效率是企業(yè)的生命。一般來講,投入與產(chǎn)出比是效率,追求高效率也就是追求高價值。手工、機器、自動機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動。智能機器核心是大數(shù)據(jù)驅(qū)動,而大數(shù)據(jù)驅(qū)動的速度更快。在快速變化的市場,快速預測、快速決策、快速創(chuàng)新、快速定制、快速生產(chǎn)、快速上市成為企業(yè)行動的準則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數(shù)據(jù)思維。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用關注效率思維方式思考問題,解決問題。大數(shù)據(jù)思維有點像混沌思維,確定與不確定交織在一起,過去那種一元思維結(jié)果已被二元思維結(jié)果取代。過去尋求精確度,現(xiàn)在尋求高效率;過去尋求因果性,現(xiàn)在尋求相關性;過去尋求確定性,現(xiàn)在尋求概率性,對不精確的數(shù)據(jù)結(jié)果已能容忍。只要大數(shù)據(jù)分析指出可能性,就會有相應的結(jié)果,從而為企業(yè)快速決策、快速動作、搶占先機提高了效率。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(5)關注相關性原理:由因果關系轉(zhuǎn)變?yōu)殛P注相關性。社會需要放棄它對因果關系的渴求,轉(zhuǎn)而關注相關關系,也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而人們做決定和理解現(xiàn)實的最基本方式也將受到挑戰(zhàn)。圖9-1數(shù)據(jù)的相關性第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)不需要科學的手段來證明這個事件和那個事件之間有一個必然,先后關聯(lián)發(fā)生的一個因果規(guī)律。它只需要知道出現(xiàn)這種跡象的時候,數(shù)據(jù)統(tǒng)計的結(jié)果顯示它會有高概率產(chǎn)生相應的結(jié)果,只要發(fā)現(xiàn)這種跡象,就可以去做一個決策。大數(shù)據(jù)透露出來的信息有時確實會顛覆人的現(xiàn)有認知。比如,騰訊一項針對社交網(wǎng)絡的統(tǒng)計顯示,愛看家庭劇的男人是女性的兩倍還多;最關心金價的是中國大媽,但緊隨其后的卻是90后。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用關注相關性思維方式來思考問題,解決問題。過去尋找原因的信念正在被“更好”的相關性所取代。當世界由探求因果關系變成挖掘相關關系,我們怎樣才能既不損壞社會繁榮和人類進步所依賴的因果推理基石,又能取得實際進步呢?這是值得思考的問題。轉(zhuǎn)向相關性,不是不要因果關系,因果關系還是基礎,科學的基石還是要的。只是在高速信息化的時代,為了得到即時信息,實時預測,在快速的大數(shù)據(jù)分析技術下,尋找到相關性信息,就可預測用戶的行為,為企業(yè)快速決策提供提前量。比如預警技術,只有提前幾十秒察覺,防御系統(tǒng)才能起作用。雷達顯示有個提前量,如果沒有這個預知的提前量,雷達的作用就沒有了。相關性也是這個原理。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(6)預測原理:從不能預測轉(zhuǎn)變?yōu)榭梢灶A測。大數(shù)據(jù)的核心就是預測,這個預測性體現(xiàn)在很多方面。大數(shù)據(jù)把數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性,因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化。我們進入了一個用數(shù)據(jù)進行預測的時代,雖然可能無法解釋其背后的原因。隨著系統(tǒng)接收到的數(shù)據(jù)越來越多,通過記錄找到的最好的預測與模式,可以對系統(tǒng)進行改進。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。真正的革命并不在于分析數(shù)據(jù)的機器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\用數(shù)據(jù)。一旦把統(tǒng)計學和現(xiàn)在大規(guī)模的數(shù)據(jù)融合在一起,將會顛覆很多我們原來的思維。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用大數(shù)據(jù)預測思維方式來思考問題,解決問題。數(shù)據(jù)預測、數(shù)據(jù)記錄預測、數(shù)據(jù)統(tǒng)計預測、數(shù)據(jù)模型預測,數(shù)據(jù)分析預測、數(shù)據(jù)模式預測、數(shù)據(jù)深層次信息預測等等,已轉(zhuǎn)變?yōu)榇髷?shù)據(jù)預測、大數(shù)據(jù)記錄預測、大數(shù)據(jù)統(tǒng)計預測、大數(shù)據(jù)模型預測,大數(shù)據(jù)分析預測、大數(shù)據(jù)模式預測、大數(shù)據(jù)深層次信息預測。互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和云計算保證了大數(shù)據(jù)實時預測的可能性,也為企業(yè)和用戶提供了實時預測的信息,相關性預測的信息,讓企業(yè)和用戶搶占先機。由于大數(shù)據(jù)的全樣本性,使云計算軟件預測的效率和準確性大大提高,有這種跡象,就有這種結(jié)果。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(7)信息找人原理:從人找信息,轉(zhuǎn)變?yōu)樾畔⒄胰??;ヂ?lián)網(wǎng)和大數(shù)據(jù)的發(fā)展,是一個從人找信息,到信息找人的過程。互聯(lián)網(wǎng)提供搜索引擎技術,讓人們知道如何找到自己所需要的信息,所以搜索引擎是一個很關鍵的技術。在后搜索引擎時代,使用搜索引擎的頻率會大大降低,使用的時長也會大大地縮短,這是因為推薦引擎的誕生。就是說從人找信息到信息找人越來越成為一個趨勢,推薦引擎很懂“我”。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)還改變了信息優(yōu)勢。按照循證醫(yī)學,現(xiàn)在治病的第一件事情不是去研究病理學,而是拿過去的數(shù)據(jù)去研究,相同情況下是如何治療的。這導致專家和普通人之間的信息優(yōu)勢沒有了。原來我相信醫(yī)生,因為醫(yī)生知道得多,但現(xiàn)在我可以到谷歌上查,知道自己得了什么病。說明:用信息找人的思維方式思考問題,解決問題。從人找信息到信息找人,是交互時代一個轉(zhuǎn)變,也是智能時代的要求。智能機器已不是冷冰冰的機器,而是具有一定智能的機器。信息找人這四個字,預示著大數(shù)據(jù)時代可以讓信息找人,原因是企業(yè)懂用戶,機器懂用戶,你需要什么信息,企業(yè)和機器提前知道,而且主動提供你所需要的信息。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(8)機器懂人原理:由人懂機器轉(zhuǎn)變?yōu)闄C器更懂人。讓機器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機器。甚至不是讓人懂環(huán)境,而是讓環(huán)境來適應人。某種程度上自然環(huán)境不能這樣講,但是在數(shù)字化環(huán)境中已經(jīng)是這樣的一個趨勢,就是我們所生活的世界越來越趨向于更適應我們,更懂我們。例如圖書網(wǎng)站的相關書籍推薦就是這樣。讓機器懂人是讓機器具有學習的功能。人工智能在研究機器學習,大數(shù)據(jù)分析要求機器更智能,具有分析能力,機器即時學習變得更重要。機器學習主要研究如何使用計算機模擬和實現(xiàn)人類獲取知識(學習)過程、創(chuàng)新、重構(gòu)已有的知識,從而提升自身處理問題的能力,機器學習的最終目的是從數(shù)據(jù)中獲取知識。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)技術的其中一個核心目標是要從體量巨大、結(jié)構(gòu)繁多的數(shù)據(jù)中挖掘出隱蔽在背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮最大化的價值。由計算機代替人去挖掘信息,獲取知識。從各種各樣的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))中快速獲取有價值信息的能力,就是大數(shù)據(jù)技術。大數(shù)據(jù)機器分析中,半監(jiān)督學習、集成學習、概率模型等技術尤為重要。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用機器更懂人的思維方式思考問題,解決問題。機器從沒有常識到逐步有點常識,這是很大的變化。讓機器懂人是人工智能的成功,同時也是人的大數(shù)據(jù)思維轉(zhuǎn)變。你的機器、你的軟件、你的服務是否更懂人?這將是衡量一個機器、一組軟件、一項服務好壞的標準。人機關系已發(fā)生很大變化,由人機分離,轉(zhuǎn)化為人機溝通,人機互補,機器懂人。在互聯(lián)網(wǎng)大數(shù)據(jù)時代有問題問機器,問百度,成為生活的一部分。機器什么都知道,原因是有大數(shù)據(jù)庫,機器可搜索到相關數(shù)據(jù),從而使機器懂人。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(9)智能電商原理:大數(shù)據(jù)改變了電子商務模式,讓電子商務更智能。商務智能在大數(shù)據(jù)時代獲得了重新定義。例如:交友網(wǎng)站根據(jù)個人的性格與之前成功配對的情侶之間的關聯(lián)來進行新的配對。在不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領域都會被計算機系統(tǒng)所改變甚至取代。計算機系統(tǒng)可以發(fā)揮作用的領域遠遠不止駕駛和交友,還有更多更復雜的任務。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。就像互聯(lián)網(wǎng)通過給計算機添加通信功能而改變了世界,大數(shù)據(jù)也將改變我們生活中最重要的方面,因為它為我們的生活創(chuàng)造了前所未有的可量化的維度。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用電子商務更智能的思維方式思考問題,解決問題。人腦思維與機器思維有很大差別,但機器思維在速度上是取勝的,而且智能軟件在很多領域已能代替人腦思維的操作工作。例如云計算機已能處理超字節(jié)的大數(shù)據(jù)量,人們需要的所有信息都可得到顯現(xiàn),而且每個人互聯(lián)網(wǎng)行為都可記錄,這些記錄的大數(shù)據(jù)經(jīng)過云計算處理能產(chǎn)生深層次信息,經(jīng)過大數(shù)據(jù)軟件挖掘,企業(yè)需要的商務信息都能實時提供,為企業(yè)決策和營銷、定制產(chǎn)品等提供了大數(shù)據(jù)支持。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(10)定制產(chǎn)品原理:由企業(yè)生產(chǎn)產(chǎn)品轉(zhuǎn)變?yōu)橛煽蛻舳ㄖ飘a(chǎn)品。大規(guī)模定制是指為大量客戶定制產(chǎn)品和服務,成本低又兼具個性化。在廠家可以負擔得起大規(guī)模定制帶去的高成本的前提下,要真正做到個性化產(chǎn)品和服務,就必須對客戶需求有很好的了解,這背后就需要依靠大數(shù)據(jù)技術。大數(shù)據(jù)改變企業(yè)競爭力,定制產(chǎn)品是其中一個很好的技術。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用定制產(chǎn)品思維方式思考問題,解決問題。大數(shù)據(jù)時代讓企業(yè)找到了定制產(chǎn)品、訂單生產(chǎn)、用戶銷售的新路子。用戶在家購買商品已成為趨勢,快遞的快速,讓用戶體驗到實時購物的快感,進而成為網(wǎng)購迷,個人消費不是減少了,反而是增加了。為什么企業(yè)要互聯(lián)網(wǎng)化大數(shù)據(jù)化,也許有這個原因。2000萬家互聯(lián)網(wǎng)網(wǎng)店的出現(xiàn),說明數(shù)據(jù)廣告、數(shù)據(jù)傳媒的重要性。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理企業(yè)產(chǎn)品直接銷售給用戶,省去了中間商流通環(huán)節(jié),使產(chǎn)品的價格可以以出廠價銷售,讓消費者獲得了好處,網(wǎng)上產(chǎn)品便宜成為用戶的信念,網(wǎng)購市場形成了。要讓用戶成為你的產(chǎn)品粉絲,就必須了解用戶需要,定制產(chǎn)品成為用戶的心愿,也就成為企業(yè)發(fā)展的新方向。大數(shù)據(jù)思維是客觀存在的,是新的思維觀。用大數(shù)據(jù)思維方式思考問題,解決問題是當下企業(yè)潮流。大數(shù)據(jù)思維開啟了一次重大的時代轉(zhuǎn)型。第9章導讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理目錄什么是分析模型回歸分析模型關聯(lián)分析模型分類分析模型12345聚類分析模型6結(jié)構(gòu)分析模型7文本分析模型什么是分析模型PART019.19.1什么是分析模型客觀事物或現(xiàn)象是一個多因素的綜合體,而模型就是對被研究對象(客觀事物或現(xiàn)象)的一種抽象,分析模型是對客觀事物或現(xiàn)象的一種描述??陀^事物或現(xiàn)象的各因素之間存在著相互依賴又相互制約的關系,通常是復雜的非線性關系。為了分析相互作用機制,揭示內(nèi)部規(guī)律,可根據(jù)理論推導,或?qū)τ^測數(shù)據(jù)的分析,或依據(jù)實踐經(jīng)驗,設計一種模型來代表所研究的對象。模型反映對象最本質(zhì)的東西,略去了枝節(jié),是被研究對象實質(zhì)性的描述和某種程度的簡化,其目的在便于分析研究。模型可以是數(shù)學模型或物理模型。前者不受空間和時間尺度的限制,可進行壓縮或延伸,利用計算機進行模擬研究,因而得到廣泛應用;后者根據(jù)相似理論來建立模型。借助模型進行分析是一種有效的科學方法。回歸分析模型PART029.29.2回歸分析模型回歸分析是靈活常用的統(tǒng)計分析方法之一,它旨在探尋在一個數(shù)據(jù)集內(nèi),根據(jù)實際問題考察其中一個或多個變量(因變量)與其余變量(自變量)的依賴關系。特別適用于定量地描述和解釋變量之間相互關系,或者估測、預測因變量的值。例如,回歸分析可以用于發(fā)現(xiàn)個人收入和性別、年齡、受教育程度、工作年限的關系,基于數(shù)據(jù)庫中現(xiàn)有的個人收入、性別、年齡、受教育程度和工作年限構(gòu)造回歸模型,在該模型中輸入性別、年齡、受教育程度和工作年限來預測個人收入。

圖9-3簡單線性回歸模型9.2回歸分析模型又例如,回歸性分析可以幫助確定溫度(自變量)和作物產(chǎn)量(因變量)之間存在的關系類型。利用此項技術幫助確定自變量變化時,因變量的值如何變化。例如當自變量增加因變量是否會增加?如果是,增加是線性還是非線性的?例如,為了決定冰激凌店要準備的庫存數(shù)量,分析師通過插入溫度值來進行回歸性分析。將基于天氣預報的值作為自變量,將冰激凌出售量作為因變量。分析師發(fā)現(xiàn)溫度每上升5度,就需要增加15%的庫存。9.2回歸分析模型如圖9-4所示,線性回歸表示一個恒定的變化速率。而非線性回歸表示一個可變的變化速率(見圖9-5)。

圖9-4線性回歸圖9-5非線性回歸9.2回歸分析模型其中,回歸性分析適用的問題例如:·一個離海250英里的城市的溫度會是怎樣的?·基于小學成績,一個學生的高中成績會是怎樣的?·基于食物的攝入量,一個人肥胖的概率是怎樣的?如果只需考察一個變量與其余多個變量之間的相互依賴關系,稱為多元回歸問題。若要同時考察多個因變量與多個自變量之間的相互依賴關系,稱為多因變量的多元回歸問題。關聯(lián)分析模型PART039.39.3關聯(lián)分析模型關聯(lián)分析是指一組識別哪些事件趨向于一起發(fā)生的技術。當應用到零售市場購物籃分析時,關聯(lián)學習會告訴你是否會有一種不尋常的高概率事件,其中消費者會在同一次購物之旅中一起購買某些商品(這方面的一個著名案例就是有關啤酒和尿布的故事)。關聯(lián)分析需要單品層級的數(shù)據(jù)。單品就是商品,任何商品在單獨提及的時候都可以稱作單品,指的是包含特定自然屬性與社會屬性的商品種類。對于零售交易的數(shù)據(jù)量,意味著需要在數(shù)據(jù)管理平臺上運行的可擴展性的算法。在某些情況下,分析師可以使用集群抽象法(抽取部分客戶或購物行程及所有相關單品交易作為樣品)。一些有趣和有用的關聯(lián)可能是罕見的,并非常容易被忽略,除非進行全數(shù)據(jù)集分析。9.3關聯(lián)分析模型關聯(lián)分析模型用于描述多個變量之間的關聯(lián),這是大數(shù)據(jù)分析的一種重要模型。如果兩個或多個變量之間存在一定的關聯(lián),那么其中一個變量的狀態(tài)就能通過其他變量進行預測。關聯(lián)分析的輸入是數(shù)據(jù)集合,輸出是數(shù)據(jù)集合中全部或者某些元素之間的關聯(lián)關系。例如,房屋的位置和房價之間的關聯(lián)關系,或者氣溫和空調(diào)銷量之間的關系。圖9-6關聯(lián)分析模型示例9.3.2相關分析9.3.1關聯(lián)規(guī)則分析關聯(lián)分析是指一組識別哪些事件趨向于一起發(fā)生的技術。9.3關聯(lián)分析模型9.3.1

關聯(lián)規(guī)則分析關聯(lián)規(guī)則分析又稱關聯(lián)挖掘,是在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關聯(lián)、相關性或因果結(jié)構(gòu)?;蛘哒f,關聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。先驗算法是用于關聯(lián)分析的經(jīng)典算法之一,其設計目的是為了處理包含交易信息內(nèi)容的數(shù)據(jù)庫(如顧客購買的商品清單,或者網(wǎng)頁常訪清單),而其他的算法則是設計用來尋找無交易信息或無時間標記(如DNA測序)的數(shù)據(jù)之間的聯(lián)系規(guī)則。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)規(guī)則分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián),并以規(guī)則的形式表達出來,這就是關聯(lián)規(guī)則。9.3.1

關聯(lián)規(guī)則分析關聯(lián)規(guī)則分析用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性或相關性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關聯(lián)規(guī)則分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。9.3.2

相關分析相關關系是一種非確定性的關系,例如,以X和Y分別表示一個人的身高和體重,或分別表示每畝地的施肥量與每畝地的小麥產(chǎn)量,則X與Y顯然有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。相關性分析是對總體中確實具有聯(lián)系的指標進行分析,它描述客觀事物相互間關系的密切程度并用適當?shù)慕y(tǒng)計指標表示出來的過程。例如,變量B無論何時增長,變量A都會增長,更進一步,我們也想分析變量A增長與變量B增長的相關程度。利用相關性分析可以幫助形成對數(shù)據(jù)集的理解,發(fā)現(xiàn)可以幫助解釋某個現(xiàn)象的關聯(lián)。因此相關性分析常被用來做數(shù)據(jù)挖掘,也就是識別數(shù)據(jù)集中變量之間的關系來發(fā)現(xiàn)模式和異常,揭示數(shù)據(jù)集的本質(zhì)或現(xiàn)象的原因。9.3.2

相關分析當兩個變量被認為相關時,基于線性關系它們保持一致,意味著當一個變量改變另一個變量也會恒定地成比例地改變。相關性用一個-1到+1之間的十進制數(shù)來表示,它也被叫作相關系數(shù)。當數(shù)字從-1到0或從+1到0改變時,關系程度由強變?nèi)?。圖9-8描述了+1相關性,表明兩個變量之間呈正相關關系。

圖9-8當一個變量增大,另一個也增大,反之亦然9.3.2

相關分析圖9-9描述了0相關性,表明兩個變量之間沒有關系。圖9-9當一個變量增大,另一個保持不變或者無規(guī)律地增大或者減少9.3.2

相關分析圖9-10描述了-1相關性,表明兩個變量之間呈負相關關系。圖9-10當一個變量增大,另一個減小,反之亦然9.3.2

相關分析相關性分析適用的問題例如可以是:·離大海的距離遠近會影響一個城市的溫度高低嗎?·在小學表現(xiàn)好的學生在高中也會同樣表現(xiàn)很好嗎?·肥胖癥和過度飲食有怎樣的關聯(lián)?9.3.2

相關分析典型相關分析是研究兩組變量之間相關關系(相關程度)的一種多元統(tǒng)計分析方法。為了研究兩組變量之間的相關關系,采用類似于主成分分析的方法,在兩組變量中,分別選取若干有代表性的變量組成有代表性的綜合指數(shù),使用這兩組綜合指數(shù)之間的相關關系,來代替這兩組變量之間的相關關系,這些綜合指數(shù)稱為典型變量。9.3.2

相關分析其基本思想是,首先在每組變量中找到變量的線性組合,使得兩組線性組合之間具有最大的相關系數(shù)。然后選取和最初挑選的這對線性組合不相關的線性組合,使其配對,并選取相關系數(shù)最大的一對,如此繼續(xù)下去,直到兩組變量之間的相關性被提取完畢為止。被選取的線性組合配對稱為典型變量,它們的相關系數(shù)稱為典型相關系數(shù)。典型相關系數(shù)度量了這兩組變量之間聯(lián)系的強度。在大數(shù)據(jù)中,相關性分析可以首先讓用戶發(fā)現(xiàn)關系的存在?;貧w性分析可以用于進一步探索關系并且基于自變量的值來預測因變量的值。分類分析模型PART049.49.4分類分析模型分類是應用極其廣泛的一大問題,也是數(shù)據(jù)挖掘、機器學習領域深入研究的重要內(nèi)容。分類分析可以在已知研究對象已經(jīng)分為若干類的情況下,確定新的對象屬于哪一類。根據(jù)判別中的組數(shù),可以分為二分類和多分類。按分類策略,可以分為判別分析和機器學習分類。圖9-11分類分析模型9.4.3支持向量機9.4.1判別分類的原理和方法9.4.4邏輯回歸9.4.2基于機器學習的分類模型9.4.5決策樹9.4.7隨機森林9.4.8樸素貝葉斯9.4.6K近鄰9.4分類分析模型9.4.1

判別分析的原理和方法判別分析是多元統(tǒng)計分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析;根據(jù)判別函數(shù)的形式,可以分為線性判別和非線性判別;根據(jù)判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據(jù)判別標準不同,可以分為距離判別、費舍爾判別、貝葉斯判別等。判別方法處理問題時,通常要設法建立用來衡量新樣品與各已知組別的接近程度的指數(shù),即判別函數(shù),然后利用此函數(shù)來進行判別,同時也指定一種判別準則,借以判別新樣品的歸屬。最常用的判別函數(shù)是線性判別函數(shù),即將判別函數(shù)表示成為線性的形式。9.4.2

基于機器學習的分類模型分類是一種有監(jiān)督機器學習,它將數(shù)據(jù)分為相關的、以前學習過的類別,包括兩個步驟:(1)將已經(jīng)被分類或者有標號的訓練數(shù)據(jù)給系統(tǒng),可以形成一個對不同類別的理解。(2)將未知或者相似數(shù)據(jù)給系統(tǒng)分類,基于訓練數(shù)據(jù)形成理解,算法會分類無標號數(shù)據(jù)。分類技術可以對兩個或者兩個以上的類別進行分類,常見應用是過濾垃圾郵件。在一個簡化的分類過程中,在訓練時將有標號的數(shù)據(jù)給機器使其建立對分類的理解,然后將未標號的數(shù)據(jù)給機器,使它進行自我分類。

圖9-12機器學習可以用來自動分類數(shù)據(jù)集9.4.2

基于機器學習的分類模型例如,銀行想找出哪些客戶可能會拖欠貸款?;跉v史數(shù)據(jù)編制一個訓練數(shù)據(jù)集,其中包含標記的曾經(jīng)拖欠貸款的顧客樣例和不曾拖欠貸款的顧客樣例。將這樣的訓練數(shù)據(jù)給分類算法,使之形成對“好”或“壞”顧客的認識。最終,將這種認識作用于新的未加標簽的客戶數(shù)據(jù),來發(fā)現(xiàn)一個給定的客戶屬于哪個類。9.4.2

基于機器學習的分類模型分類適用的樣例問題可以是:·基于其他申請是否被接受或者被拒絕,申請人的信用卡申請是否應該被接受?·基于已知的水果蔬菜樣例,西紅柿是水果還是蔬菜?·病人的藥檢結(jié)果是否表示有心臟病的風險?需要注意的是,判別分析和機器學習分類方法并非涇渭分明,例如,基于機器學習的分類方法可以根據(jù)樣例學習(如支持向量機)得到線性判別函數(shù)用于判別分析。9.4.3

支持向量機支持向量機是一個有監(jiān)督的學習模型,它是一種對線性和非線性數(shù)據(jù)進行分類的方法,是所有知名的數(shù)據(jù)挖掘算法中最健壯、最準確的方法之一。它使用一種非線性映射,把原訓練數(shù)據(jù)映射到較高的維度上,在新的維度上,它搜索最佳分離超平面,即將一個類的元組與其他類分離的決策邊界。其基本模型定義為特征空間上間隔最大的線性分類器,其學習策略是使間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。9.4.4

邏輯回歸利用邏輯回歸可以實現(xiàn)二分類,邏輯回歸與多重線性回歸有很多相同之處,最大的區(qū)別就在于它們的因變量不同。正因為此,這兩種回歸可以歸于同一個家族,即廣義線性模型。如果是連續(xù)的,就是多重線性回歸;如果是二項分布,就是邏輯回歸;如果是泊松分布,就是泊松回歸;如果是負二項分布,就是負二項回歸。邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,所以實際最常用的就是二分類邏輯回歸。9.4.4

邏輯回歸邏輯回歸應用廣泛,在流行病學中應用較多,比較常用的情形是探索某一疾病的危險因素,根據(jù)危險因素預測某疾病發(fā)生的概率,或者預測(根據(jù)模型預測在不同自變量情況下,發(fā)生某病或某種情況的概率有多大)、判別(跟預測有些類似,也是根據(jù)模型判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某病)。例如,想探討胃癌發(fā)生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習慣、幽門螺桿菌感染情況等。自變量既可以是連續(xù)的,也可以是分類的。邏輯回歸雖然名字里帶“回歸”,但它實際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個類別),所以利用了邏輯函數(shù)。9.4.5

決策樹決策樹是進行預測分析的一種很常用的簡單分類工具,它相對容易使用,并且對非線性關系的運行效果好,可以產(chǎn)生高度可解釋的輸出。圖9-13決策樹示例9.4.5

決策樹通過訓練數(shù)據(jù)構(gòu)建決策樹,可以高效地對未知的數(shù)據(jù)進行分類。決策樹有兩大優(yōu)點:①決策樹模型可讀性好,具有描述性,有助于人工分析;②效率高,只需要一次構(gòu)建,反復使用,每一次預測的最大計算次數(shù)不超過決策樹的深度。決策樹是在已知各種情況發(fā)生概率的基礎上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,它代表的是對象屬性與對象值之間的一種映射關系。9.4.5

決策樹決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。決策樹是一個預測模型,代表對象屬性與對象值之間的一種映射關系。樹中每個節(jié)點表示某個對象,每個分叉路徑代表某個可能的屬性值,而每個葉節(jié)點則對應從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術叫作決策樹學習。決策樹學習輸出為一組規(guī)則,它將整體逐步細分成更小的細分,每個細分相對于單一特性或者目標變量是同質(zhì)的。終端用戶可以將規(guī)則以樹狀圖的形式可視化,該樹狀圖很容易進行解釋,并且這些規(guī)則在決策機器中易于部署。這些特性——方法的透明度和部署的快速性——使決策樹成為一個常用的方法。9.4.5

決策樹注意不要混淆決策樹學習和在決策分析中使用的決策樹方法,盡管在每種情況下的結(jié)果都是一個樹狀的圖。決策分析中的決策樹方法是管理者可以用來評估復雜決策的工具,它處理主觀可能性并且利用博弈論來確定最優(yōu)選擇。另一方面,建立決策樹的算法完全從數(shù)據(jù)中來,并且根據(jù)所觀測的關系而不是用戶先前預期來建立樹。9.4.6k近鄰鄰近算法,或者說k近鄰(kNN)分類算法,是分類技術中最簡單的方法之一。所謂k近鄰,就是k個最近鄰居的意思,是說每個樣本都可以用它最接近的k個鄰居來代表。其核心思想是,如果一個樣本在特征空間中的k個最相鄰樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別樣本的特性。kNN方法在類別決策時只與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰近樣本,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。9.4.6k近鄰如圖9-14所示,要判斷平面中黑色叉號代表的樣本的類別。分別選取1近鄰、2近鄰、3近鄰。在1近鄰時,判定為黑色圓圈代表的類別,但在3近鄰時卻判定為黑色三角代表的類別。

圖9-14k近鄰實例顯然,k是一個重要的參數(shù),當k取不同值時,結(jié)果也會顯著不同;采用不同的距離度量,也會導致分類結(jié)果的不同。我們還可能采取基于權(quán)值等多種策略改變投票機制。9.4.7

隨機森林隨機森林是一類專門為決策樹分類器設計的組合方法,它組合了多棵決策樹對樣本進行訓練和預測,其中每棵樹使用的訓練集是從總的訓練集中,通過有放回采樣得到的。也就是說,總的訓練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓練集中,也可能從未出現(xiàn)在一棵樹的訓練集中。在訓練每棵樹的節(jié)點時,使用的特征是從所有特征中按照一定比例隨機無放回地抽取而得到的。9.4.7

隨機森林宏觀來說,隨機森林的構(gòu)建步驟如下:首先,對原始訓練數(shù)據(jù)進行隨機化,創(chuàng)建隨機向量;然后,使用這些隨機向量來建立多棵決策樹。再將這些決策樹組合,構(gòu)成隨機森林??梢钥闯觯S機森林是自主聚集的一個拓展變體,它在決策樹的訓練過程中引入了隨機屬性選擇。具體來說,決策樹在劃分屬性時會選擇當前節(jié)點屬性集合中的最優(yōu)屬性,而隨機森林則會從當前節(jié)點的屬性集合中隨機選擇含有k個屬性的子集,然后從這個子集中選擇最優(yōu)屬性進行劃分。9.4.7

隨機森林隨機森林方法雖然簡單,但在許多實現(xiàn)中表現(xiàn)驚人,而且,隨機森林的訓練效率經(jīng)常優(yōu)于自主聚集。隨機森林的隨機性來自于以下幾個方面:(1)抽樣帶來的樣本隨機性。(2)隨機選擇部分屬性作為決策樹的分裂判別屬性,而不是利用全部的屬性。(3)生成決策樹時,在每個判斷節(jié)點,從最好的幾個劃分中隨機選擇一個。9.4.7

隨機森林我們通過一個例子來介紹隨機森林的產(chǎn)生和運用方法。有一組大小為200的訓練樣本,記錄著被調(diào)查者是否會購買一種健身器械,類別為“是”和“否”。其余的屬性如下:年齡>30 婚否 性別 是否有貸款

學歷>本科 收入>1萬/月我們構(gòu)建4棵決策樹來組成隨機森林,并且使用了剪枝的手段保證每棵決策樹盡可能簡單(這樣就有更好的泛化能力)。9.4.7

隨機森林對每棵決策樹采用如下方法進行構(gòu)建:(1)從200個樣本中有放回抽樣200次,從而得到大小為200的樣本,顯然,這個樣本中可能存在著重復的數(shù)據(jù)。(2)隨機地選擇3個屬性作為決策樹的分裂屬性。(3)構(gòu)建決策樹并剪枝。假設最終我們得到了如圖9-15所示的4棵決策樹。9.4.7

隨機森林

圖9-154棵決策樹組成的隨機森林9.4.7

隨機森林可以看出,性別和婚姻狀況對于是否購買該產(chǎn)品起到十分重要的作用,此外,對于第3棵決策樹,“學歷”屬性并沒有作為決策樹的劃分屬性,這說明學歷和是否購買此產(chǎn)品關系很小。每棵樹從不同的側(cè)面體現(xiàn)出了蘊含在樣本后的規(guī)律知識。當新樣本到達時,我們只需對4棵樹的結(jié)果進行匯總,這里采用投票的方式進行匯總。例如,新樣本為(年齡24歲,未婚,女,有貸款,本科學歷,收入<1萬/月)。第一棵樹將預測為購買;第二棵樹預測為不購買,第三棵樹預測為購買,第四棵樹預測為購買。所以最后的投票結(jié)果為:購買3票,不購買1票,從而隨機森林預測此記錄為“購買”。9.4.8

樸素貝葉斯貝葉斯判別法是在概率框架下實施決策的基本判別方法。對于分類問題來說,在所有相關概率都已知的情形下,貝葉斯判別法考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標記。而樸素貝葉斯判別法則是基于貝葉斯定理和特征條件獨立假設的分類方法,是貝葉斯判別法中的一個有特定假設和限制的具體方法。對于給定的訓練數(shù)據(jù)集,首先基于特征條件獨立假設學習輸入和輸出的聯(lián)合分布概率;然后基于此模型對給定的輸入x,再利用貝葉斯定理求出其后驗概率最大的輸出y。9.4.8

樸素貝葉斯樸素貝葉斯分類算法的基本思想是:對于給定元組X,求解在X出現(xiàn)的前提下各個類別出現(xiàn)的概率,哪個最大就認為X屬于哪個類別。在沒有其他可用信息下,我們會選擇后驗概率最大的類別。樸素貝葉斯方法的重要假設就是屬性之間相互獨立?,F(xiàn)實應用中,屬性之間很難保證全部都相互獨立,這時可以考慮使用貝葉斯網(wǎng)絡等方法。聚類分析模型PART059.59.5聚類分析模型細分是對業(yè)務可使用的最有效和最廣泛的戰(zhàn)略工具之一。戰(zhàn)略細分是一種取決于分析用例的商業(yè)實踐,例如市場細分或者客戶細分。當解析目標是將用例分成同質(zhì)化的子類,或基于多個變量維度的相似性進行區(qū)分時,稱為分類問題或用例,通常采用聚類技術的特定方法來解決這個問題。例如,營銷研究人員基于調(diào)查每個受訪者的盡可能多的信息,使用聚類技術來標示潛在的細分市場。聚類技術還可以用到預測模型分析中,當分析師擁有的數(shù)據(jù)是一個非常大的集合時,可以先運行一個基于多變量維度的分割來細分該數(shù)據(jù)集,然后為每個分類建立單獨的預測模型。9.5聚類分析模型聚類技術將一系列用例劃分為不同的組,這些組與一系列活躍變量是同質(zhì)的。在客戶細分中,每個案例代表一個客戶;在市場細分中。每個案例代表一個消費者,他可能是當前客戶、原來的客戶或者潛在客戶。在使用所有可用的數(shù)據(jù)進行分析時,聚類的效率是最高的,因此在數(shù)據(jù)庫或Hadoop內(nèi)部運行的聚類算法都特別有用。目前有100多種多變量聚類分析方法,最流行的是k-均值聚類技術,它可以最大限度地減少所有活動變量的聚類均值的方差,在大多數(shù)數(shù)據(jù)挖掘的軟件包里都有。9.5.3聚類分析方法9.5.1聚類問題分析9.5.4聚類分析的應用9.5.2聚類分析的分類細分是對業(yè)務可使用的最有效和最廣泛的戰(zhàn)略工具之一。戰(zhàn)略細分是一種取決于分析用例的商業(yè)實踐,例如市場細分或者客戶細分。9.5聚類分析模型9.5.1

聚類問題分析聚類是一種典型的無監(jiān)督學習技術,通過這項技術,數(shù)據(jù)被分割成不同的組,在每組中的數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學習類別,相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個算法都有不同的技術來確定聚類。聚類常用在數(shù)據(jù)挖掘中理解一個給定數(shù)據(jù)集的性質(zhì)。在形成理解之后,分類可以被用來更好地預測相似但卻是全新或未見過的數(shù)據(jù)。聚類可以被用在未知文件的分類以及通過將具有相似行為的顧客分組的個性化市場營銷策略上。圖9-16所示的散點圖描述了可視化表示的聚類。

圖9-16散點圖總結(jié)了聚類的結(jié)果9.5.1

聚類問題分析例如,基于已有的顧客記錄檔案,某銀行想要給現(xiàn)有顧客介紹很多新的金融產(chǎn)品。分析師用聚類將顧客分類至多組中,然后給每組介紹最適合這個組整體特征的一個或多個金融產(chǎn)品。聚類適用的樣例問題如:(1)根據(jù)樹之間的相似性,存在多少種樹?(2)根據(jù)相似的購買記錄,存在多少組顧客?(3)根據(jù)病毒的特性,它們的不同分組是什么?9.5.1

聚類問題分析聚類分析的目標是將基于共同特點的用例、樣品或變量按照它們在性質(zhì)上的親疏程度進行分類,其中沒有關于樣品或變量的分類標簽,這在實際生活中也是十分重要的。例如,你希望根據(jù)消費者的選擇而不是對象本身的特性來進行分組,你可能想了解哪些物品消費者會一起購買,從而可以在消費者購買時推薦相關商品,或者開發(fā)一種打包商品。用來描述樣品或變量的親疏程度通常有兩個途徑。一是個體間的差異度:把每個樣品或變量看成是多維空間上的一個點,在多維坐標中,定義點與點、類和類之問的距離,用點與點間距離來描述樣品或變量之間的親疏程度。二是測度個體間的相似度:計算樣品或變量的簡單相關系數(shù)或者等級相關系數(shù),用相似系數(shù)來描述樣品或變量之間的親疏程度。9.5.1

聚類問題分析聚類問題中,除了要計算物體和物體之間的相似性,還要度量兩個類之間的相似性。常用的度量有最遠(最近)距離、組間平均鏈鎖距離、組內(nèi)平均鏈鎖距離、重心距離和離差平方和距離。此外,變量的選擇和處理也是不容忽視的重要環(huán)節(jié)。9.5.2

聚類分析的分類我們來了解聚類分析策略的分類方法。(1)基于分類對象的分類。根據(jù)分類對象的不同,聚類分析可以分為Q型聚類和R型聚類。Q型聚類就是對樣品個體進行聚類,R型聚類則是對指標變量進行聚類。9.5.2

聚類分析的分類①Q(mào)型聚類:當聚類把所有的觀測記錄進行分類時,將性質(zhì)相似的觀測分在同一個類,性質(zhì)差異較大的觀測分在不同的類。Q型聚類分析的目的是對樣品進行分類。分類的結(jié)果是直觀的,且比傳統(tǒng)分類方法更細致和合理。使用不同的分類方法通常有不同的分類結(jié)果。對任何觀測數(shù)據(jù)都沒有唯一“正確”的分類方法。實際應用中,常采用不同的分類方法對數(shù)據(jù)進行分析計算,以便對分類提供具體意見,并由實際工作者決定所需要的分類數(shù)及分類情況。Q型聚類主要采取基于相似性的度量。9.5.2

聚類分析的分類②R型聚類:把變量作為分類對象進行聚類。這種聚類適用于變量數(shù)目比較多且相關性比較強的情形,目的是將性質(zhì)相近的變量聚類為同一個類,并從中找出代表變量,從而減少變量的個數(shù)以達到降維的效果。R型聚類主要采取基于相似系數(shù)相似性度量。9.5.2

聚類分析的分類R型聚類分析的目的有以下幾方面:①了解變量間及變量組合間的親疏關系。②對變量進行分類。③根據(jù)分類結(jié)果及它們之間的關系,在每一類中選擇有代表性的變量作為重要變量,利用少數(shù)幾個重要變量進一步作分析計算,如進行回歸分析或Q型聚類分析等以達到減少變量個數(shù)、變量降維的目的。9.5.2

聚類分析的分類(2)基于聚類結(jié)構(gòu)的分類。根據(jù)聚類結(jié)構(gòu),聚類分析可以分為凝聚和分解兩種方式。在凝聚方式中,每個個體自成一體,將最親密的凝聚成一類,再重新計算各個個體間的距離,最相近的凝聚成一類,以此類推。隨著凝聚過程的進行,每個類內(nèi)的親密程度逐漸下降。9.5.2

聚類分析的分類在分解方式中,所有個體看成一個大類,類內(nèi)計算距離,將彼此間距離最遠的個體分離出去,直到每個個體自成一類。分解過程中每個類內(nèi)的親密程度逐漸增強。評價聚類有效性的標準有兩種:一是外部標準,通過測量聚類結(jié)果和參考標準的一致性來評價聚類結(jié)果的優(yōu)良;另一種是內(nèi)部指標,用于評價同一聚類算法在不同聚類條件下聚類結(jié)果的優(yōu)良程度,通常用來確定數(shù)據(jù)集的最佳聚類數(shù)。內(nèi)部指標用于根據(jù)數(shù)據(jù)集本身和聚類結(jié)果的統(tǒng)計特征對聚類結(jié)果進行評估,并根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù)。9.5.3

聚類分析方法聚類分析的內(nèi)容十分豐富,按其聚類的方法可分為以下幾種:(1)k均值聚類法:指定聚類數(shù)目Κ確定Κ個數(shù)據(jù)中心,每個點分到距離最近的類中,重新計算K個類的中心,然后要么結(jié)束,要么重算所有點到新中心的距離聚類。其結(jié)束準則包括迭代次數(shù)超過指定或者新的中心點距離上一次中心點的偏移量小于指定值。(2)系統(tǒng)聚類法:開始每個對象自成一類,然后每次將最相似的兩類合并,合并后重新計算新類與其他類的距離或相近性測度。這一過程可用一張譜系聚類圖描述。(3)調(diào)優(yōu)法(動態(tài)聚類法):首先對n個對象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對其進行調(diào)整,直到分類合理為止。9.5.3

聚類分析方法(4)最優(yōu)分割法(有序樣品聚類法):開始將所有樣品看作一類,然后根據(jù)某種最優(yōu)準則將它們分割為二類、三類,一直分割到所需的Κ類為止。這種方法適用于有序樣品的分類問題,也稱為有序樣品的聚類法。(5)模糊聚類法:利用模糊集理論來處理分類問題,它對經(jīng)濟領域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。(6)圖論聚類法:利用圖論中最小生成樹、內(nèi)聚子圖、頂點隨機游走等方法處理圖類問題。9.5.4

聚類分析的應用聚類分析有著廣泛的應用。在商業(yè)方面,聚類分析被用來將用戶根據(jù)其性質(zhì)分類,從而發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在計算生物學領域,聚類分析被用來對動植物和對基因進行分類,從而獲得更加準確的生物分類;在保險領域,聚類分析根據(jù)住宅類型、價值、地理位置來鑒定一個城市的房產(chǎn)分組;在電子商務中,通過聚類分析可以發(fā)現(xiàn)具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好地幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。結(jié)構(gòu)分析模型PART069.69.6結(jié)構(gòu)分析模型結(jié)構(gòu)分析是對數(shù)據(jù)中結(jié)構(gòu)的發(fā)現(xiàn),其輸入是數(shù)據(jù),輸出是數(shù)據(jù)中某種有規(guī)律性的結(jié)構(gòu)。在統(tǒng)計分組的基礎上,結(jié)構(gòu)分析將部分與整體的關系作為分析對象,以發(fā)現(xiàn)在整體變化過程中各關鍵影響因素及其作用的程度和方向的分析過程。

圖9-17結(jié)構(gòu)分析模型示例9.6.2社團發(fā)現(xiàn)9.6.1典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析是對數(shù)據(jù)中結(jié)構(gòu)的發(fā)現(xiàn),其輸入是數(shù)據(jù),輸出是數(shù)據(jù)中某種有規(guī)律性的結(jié)構(gòu)。9.6結(jié)構(gòu)分析模型9.6.1

典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析的對象是圖或者網(wǎng)絡。例如,在醫(yī)學中,通常情況下某一類藥物都具有相似分子結(jié)構(gòu)或相同的子結(jié)構(gòu),它們針對某一種疾病的治療具有很好的效果,如抗生素中的大環(huán)內(nèi)酯類,幾乎家喻戶曉的紅霉素就是其中的一種。這種特性給我們提供了一個很好的設想:如果科學家新發(fā)現(xiàn)了某種物質(zhì),經(jīng)探尋,它的分子結(jié)構(gòu)中某一子結(jié)構(gòu)與某一類具有相同治療效果藥物的子結(jié)構(gòu)相同,我們雖不可以斷定這種物質(zhì)對治療這種疾病有積極作用,但是這至少提供了一個實驗的方向,對相關研究起到積極作用。甚至我們可以通過改變具有類似結(jié)構(gòu)的物質(zhì)的分子結(jié)構(gòu)來獲得這種物質(zhì),如果在成本上優(yōu)于之前制藥方法的成本,那么在醫(yī)學史上將是一大突破。9.6.1

典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析中有最短路徑、鏈接排名、結(jié)構(gòu)計數(shù)、結(jié)構(gòu)聚類和社團發(fā)現(xiàn)這5個問題。最短路徑問題是對圖中頂點之間最短路徑結(jié)構(gòu)的發(fā)現(xiàn);鏈接排名則是對圖中節(jié)點的鏈接關系進行發(fā)現(xiàn),從而對圖中的節(jié)點按照其重要性進行排名;鏈接排名在搜索引擎中得到了廣泛的應用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論