《商務(wù)智能方法與應(yīng)用》全冊配套課件_第1頁
《商務(wù)智能方法與應(yīng)用》全冊配套課件_第2頁
《商務(wù)智能方法與應(yīng)用》全冊配套課件_第3頁
《商務(wù)智能方法與應(yīng)用》全冊配套課件_第4頁
《商務(wù)智能方法與應(yīng)用》全冊配套課件_第5頁
已閱讀5頁,還剩805頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《商務(wù)智能方法與應(yīng)用》

全冊配套課件引例:(1)榨菜指數(shù)3引例:榨菜指數(shù)(1/2)4引例:榨菜指數(shù)(3/4)引例:榨菜指數(shù)(4/4)(2)日本7-11案例(感冒指數(shù))6日本7-11案例(溫度和暢銷品)7一家零售商最近發(fā)現(xiàn),當(dāng)天氣變冷,肉桂葡式蛋撻的銷量上升500%。那么零售商可能就要做出抉擇。每當(dāng)預(yù)測天氣轉(zhuǎn)冷時,應(yīng)該儲備多少肉桂葡式蛋撻?還有一家零售商發(fā)現(xiàn),奶酪打折似乎能促進(jìn)紅酒的銷售。那么希望減小紅酒庫存的時候,是不是應(yīng)考慮奶酪打折這種方法?

這兩個問題的答案取決于大數(shù)據(jù)分析的核心問題:弄清與因果關(guān)系之間的區(qū)別。將相關(guān)性誤解為因果關(guān)系所做出的決策是危險的,可能會遭受慘敗,因為你所期待看到的影響可能并不會發(fā)生。8葡式蛋撻(3)啤酒與尿布一般看來,啤酒和尿布是顧客群完全不同的商品。但是沃爾瑪一年內(nèi)數(shù)據(jù)挖掘的結(jié)果顯示,在居民區(qū)中尿布賣得好的店面啤酒也賣得很好。原因其實(shí)很簡單,一般太太讓先生下樓買尿布的時候,先生們一般都會犒勞自己兩聽啤酒。因此啤酒和尿布一起購買的機(jī)會是最多的。塔吉特美國一名男子闖入Target店鋪進(jìn)行抗議:"你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券。“該經(jīng)理當(dāng)時并不知道這一行為是總公司數(shù)據(jù)挖掘的結(jié)果。一個月后,這位父親來道歉,因為這時他才知道他的女兒的確懷孕了。Target比這位父親知道他女兒懷孕的時間足足早了一個月。10塔吉特Target能夠通過分析女性客戶購買記錄,“猜出”哪些是孕婦。他們從Target的數(shù)據(jù)倉庫中挖掘出25項與懷孕高度相關(guān)的商品,制作“懷孕預(yù)測”指數(shù)。比如他們發(fā)現(xiàn)女性會在懷孕四個月左右,大量購買無香味乳液。以此為依據(jù)推算出預(yù)產(chǎn)期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購買。1112★過去零售商依靠供應(yīng)鏈軟件、內(nèi)部分析軟件甚至直覺來預(yù)測庫存需求。預(yù)測分析能夠準(zhǔn)確預(yù)測哪些商店位置應(yīng)該保持哪些產(chǎn)品?!锸褂肕icrosoft

AnalysisServices,采用數(shù)據(jù)挖掘技術(shù)可以為產(chǎn)品存儲決策提供準(zhǔn)確及時的信息,可以預(yù)測在未來一周內(nèi)一本書是否將脫銷,準(zhǔn)確性為98.52%,預(yù)測該書是否將在未來兩周內(nèi)脫銷的準(zhǔn)確性為86.45%。(4)庫存預(yù)測★美國一家箱包銷售網(wǎng)站通過個性化的展示提高銷售額。與其他網(wǎng)站設(shè)計頁面以鼓勵大部分消費(fèi)者采購的做法不同,該網(wǎng)站個性化的解決方案將不停地創(chuàng)建頁面以適合每個具體的訪問者?!锶绻L問者的瀏覽記錄顯示其對手提包感興趣,網(wǎng)站將創(chuàng)建突出這些商品的個性化頁面。★支撐上述目的實(shí)現(xiàn)的手段:準(zhǔn)確的數(shù)據(jù)挖掘和智能分析。(5)登錄網(wǎng)站的當(dāng)前用戶現(xiàn)在最可能購買什么東西?亞馬遜網(wǎng)站的個性化推薦服務(wù)★NBA的教練的新式武器:數(shù)據(jù)挖掘。使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件優(yōu)化他們的戰(zhàn)術(shù)組合?!顰nferneeHardaway+BrianShaw=-17分★AnferneeHardaway+DarrellArmstrong=+14分★增加Armstrong的上場時間,Armstrong得了21分,哈德衛(wèi)得了42分,魔術(shù)隊以88比79獲勝。(6)NBA教練如何布陣以提升獲勝機(jī)會?曼城隊2011年夏天,曼城隊助理教練大衛(wèi)·普拉特決定利用數(shù)據(jù)分析來解決球隊在表現(xiàn)方面遇到的一個棘手難題。普拉特發(fā)現(xiàn),盡管球隊陣容中擁有多名高大強(qiáng)壯的球員,但他們的角球得分情況卻不盡如人意。

在征求了俱樂部內(nèi)部數(shù)據(jù)分析師的意見后,該隊增加了對內(nèi)旋角球(球轉(zhuǎn)向守門員方向)的使用。戰(zhàn)術(shù)轉(zhuǎn)變產(chǎn)生了驚人的效果。在整個賽季中,曼城隊依靠角球打入15個進(jìn)球,成為英超角球得分效率最高的球隊,其中2/3的進(jìn)球采用的是內(nèi)旋角球。

17曼城隊這一實(shí)踐為數(shù)據(jù)驅(qū)動型決策提供了強(qiáng)有力的支撐。事實(shí)上,早在兩年前,曼奇尼曾就球隊角球的使用情況咨詢過俱樂部的數(shù)據(jù)分析師。分析師回應(yīng),曼奇尼依靠直覺偏愛采用的戰(zhàn)術(shù)——外旋角球(球飛向遠(yuǎn)離守門員的方向)從數(shù)據(jù)統(tǒng)計上看并不理想。曼奇尼選擇相信自己的直覺而非數(shù)據(jù)分析的導(dǎo)向性建議。因為直覺告訴他,球旋向遠(yuǎn)離門將的方向減小了門將觸球的概率,同時增加了進(jìn)攻隊員沖頂時爭到頭球的概率。但當(dāng)曼奇尼發(fā)現(xiàn)兩種變數(shù)存在某種聯(lián)系的時候,直覺卻模糊了他對兩者關(guān)聯(lián)程度的判斷能力。換句話說,外旋角球和進(jìn)球數(shù)可能存在著某種關(guān)聯(lián),但數(shù)據(jù)表明,內(nèi)旋角球和進(jìn)球數(shù)存在著更為直接的因果關(guān)系。

18創(chuàng)立于2007年9月,是淘寶第一箱包品牌成功秘笈:強(qiáng)大的數(shù)據(jù)分析來鎖定消費(fèi)者需求利用IT技術(shù),麥包包實(shí)現(xiàn)了對淘寶、拍拍和有啊三大C2C平臺數(shù)百家箱包店鋪以及數(shù)十家B2C箱包網(wǎng)站的信息和數(shù)據(jù)抓取,從而判斷市場前景。麥包包的數(shù)據(jù)抓取范圍已經(jīng)走出中國,開始監(jiān)控亞馬遜、eBay和歐洲的一些電子商務(wù)平臺。支撐這一系統(tǒng)的,是50多臺服務(wù)器以及10個專職的數(shù)據(jù)分析師,天天對抓回來的數(shù)據(jù)進(jìn)行分析,試圖精確捕捉消費(fèi)者需求。(7)麥包包:數(shù)據(jù)預(yù)測需求提前兩個月,麥包包就在做市場分析計算出各種款式的受歡迎度預(yù)測在淘寶以及它所有在線零售市場可能的銷售數(shù)額倒推回去做產(chǎn)品設(shè)計、包裝及宣傳推廣麥包包:數(shù)據(jù)預(yù)測需求成功模式中糧生化簡介中糧集團(tuán)中糧集團(tuán)有限公司于1952年成立,是一家集貿(mào)易、實(shí)業(yè)、金融、信息、服務(wù)和科研為一體的大型企業(yè)集團(tuán),橫跨農(nóng)產(chǎn)品、食品、酒店、地產(chǎn)等眾多領(lǐng)域。1994年以來,一直名列美國《財富》雜志全球企業(yè)500強(qiáng)。旗下上市公司

中國糧油

中國食品

中糧屯河

中糧包裝

中糧生化

中糧地產(chǎn)

蒙牛乳業(yè)旗下品牌福臨門玉米油,金帝巧克力,長城葡萄酒…中糧生化簡介信息化建設(shè)較為完善作為世界500強(qiáng)企業(yè),中糧集團(tuán)一直積極致力于信息化建設(shè)工作,充分利用信息化工具提高企業(yè)管理水平。中糧生化下屬各利潤點(diǎn)基本實(shí)現(xiàn)業(yè)務(wù)流程的信息化,主要包括財務(wù)系統(tǒng)、生產(chǎn)制造系統(tǒng)、采購系統(tǒng)、人力資源管理系統(tǒng)、6S報表系統(tǒng)。全面信息化后存在的問題1數(shù)據(jù)量增大,數(shù)據(jù)難以管理★隨著中糧生化能源事業(yè)部各個業(yè)務(wù)系統(tǒng)的持續(xù)運(yùn)行和未來業(yè)務(wù)系統(tǒng)的陸續(xù)投入,形成了大量的基礎(chǔ)數(shù)據(jù)★子公司數(shù)據(jù)不斷上傳各業(yè)務(wù)系統(tǒng),給業(yè)務(wù)系統(tǒng)帶來大數(shù)據(jù)量的事務(wù)處理壓力全面信息化后存在的問題2查詢與報表不足以支持戰(zhàn)略決策的需求★在各業(yè)務(wù)系統(tǒng)中進(jìn)行統(tǒng)計分析,對各系統(tǒng)的日報表匯總形成企業(yè)整體日報表★領(lǐng)導(dǎo)層不會看底層的原始數(shù)據(jù)和怎么處理業(yè)務(wù),希望看到整個公司層面的信息全面信息化后存在的問題3信息孤島,部門數(shù)據(jù)相互獨(dú)立★銷售、財務(wù)、人力資源、生產(chǎn)、日報表等業(yè)務(wù)系統(tǒng)相互獨(dú)立,形成信息孤島★各子公司數(shù)據(jù)相互獨(dú)立,無法滿足決策層統(tǒng)觀全局的要求商務(wù)智能解決方案-數(shù)據(jù)整合建立統(tǒng)一數(shù)據(jù)模型對數(shù)據(jù)的規(guī)范化定義,實(shí)現(xiàn)統(tǒng)一的信息資源層次體系、數(shù)據(jù)元素標(biāo)準(zhǔn)和信息編碼,建立統(tǒng)一的數(shù)據(jù)模型以滿足各個業(yè)務(wù)系統(tǒng)的集成。整合各個業(yè)務(wù)系統(tǒng),建立中糧生化數(shù)據(jù)倉庫系統(tǒng)由于數(shù)據(jù)分布在不同的業(yè)務(wù)系統(tǒng),給數(shù)據(jù)共享、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用帶來很多不便,因此中糧生化整合各個業(yè)務(wù)系統(tǒng),建立中糧生化數(shù)據(jù)倉庫系統(tǒng),將數(shù)據(jù)集中起來,解決數(shù)據(jù)層面的信息孤島問題。

商務(wù)智能解決方案-數(shù)據(jù)分析多維分析支持直接基于現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(關(guān)系型數(shù)據(jù)庫)創(chuàng)建多維立方體;可進(jìn)行常規(guī)的切片,旋轉(zhuǎn)、鉆取等在線分析操作;支持圖表(如:直方圖、餅圖等),并能在圖表中鉆取數(shù)據(jù)。數(shù)據(jù)挖掘從時間、空間、橫向、縱向等多維度對數(shù)據(jù)進(jìn)行分析。按主題細(xì)分,可劃分為生產(chǎn)主題分析、采購主題分析、銷售主題分析、財務(wù)主題分析、產(chǎn)成品庫存主題分析、物流主題分析、人力資源主題分析等。商務(wù)智能解決方案-數(shù)據(jù)分析銷售分析產(chǎn)品庫存管理分析物流管理分析人力資源管理分析財務(wù)管理分析原料采購管理分析生產(chǎn)管理分析商務(wù)智能解決方案-結(jié)果展示能夠制作標(biāo)準(zhǔn)、主從、交叉、分組統(tǒng)計、參數(shù)等各種形式的報表能夠創(chuàng)建多種類型圖形包括2D和3D餅圖、柱狀圖、線性圖、泡泡圖、散點(diǎn)圖、漏斗圖、金字塔圖、錐體圖等,提供多種美觀儀表盤、信號燈等,支持多種形式的數(shù)據(jù)鉆取支持Web方式瀏覽,所有報表能發(fā)布到指定的Webserver,可以通過IE方式瀏覽各種報表的數(shù)據(jù)和相應(yīng)的圖表商業(yè)智能案例:銀行高管駕駛艙SmarteVision高管駕駛艙目標(biāo)32以用戶最熟悉工具實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)應(yīng)用高可用性高性能

及時的關(guān)鍵指標(biāo)以集團(tuán)運(yùn)營的視角,滲透到整個企業(yè),釋放新的洞察力突破性的洞察力按需要,快速創(chuàng)建跨系統(tǒng)、逐步擴(kuò)展的業(yè)務(wù)解決方案按需求構(gòu)建與擴(kuò)大

關(guān)注三位一體戰(zhàn)略實(shí)況產(chǎn)品業(yè)務(wù)類別現(xiàn)金管理績效分析客戶貢獻(xiàn)分析36營業(yè)網(wǎng)點(diǎn)收益分析37服務(wù)網(wǎng)點(diǎn)擴(kuò)張策略分析38數(shù)據(jù)挖掘(2)商務(wù)智能能夠為我們做什么?Tosupportdecisionmakingatalllevelsofbusinessmanagementbasedonthefactsand(scientific)predictionsofcurrentandfuturebusinesssituationsthatareobtainedfromintelligentanalysisofhistoricalbusinessdata.BusinessdecisionsmadewithBIsupportaremore

★Correct

★Accurate

★Objective

★Timely40聚類示意圖(1/5)41聚類示意圖(2/5)42聚類示意圖(3/5)43聚類示意圖(4/5)44聚類示意圖(5/5)45聚類——銀行客戶細(xì)分46聚類——非學(xué)生群體的通信行為474849復(fù)雜類型數(shù)據(jù)挖掘空間數(shù)據(jù)挖掘空間數(shù)據(jù)包括:地圖,遙感圖片,醫(yī)學(xué)圖像等空間數(shù)據(jù)的特點(diǎn)包括距離、位置、色塊、氣溫等信息。通常按照復(fù)雜、多維的空間索引結(jié)構(gòu)組織數(shù)據(jù)??臻g數(shù)據(jù)挖掘是指對空間中非顯式存在的知識、空間關(guān)系或其他有意義的模式等進(jìn)行提取,需要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)。例如,通過對地質(zhì)斷裂帶應(yīng)力分析可以推斷出哪些地方近期發(fā)生地震的概率較高,這個挖掘過程中,不但需要對地址斷裂帶的地理位置數(shù)據(jù)進(jìn)行處理,還需要結(jié)合地震歷史數(shù)據(jù)和時間數(shù)據(jù)進(jìn)行挖掘。5051復(fù)雜類型數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)包括:音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖像數(shù)據(jù)等。典型的多媒體數(shù)據(jù)庫系統(tǒng)包括GoogleEarth,百度圖像,人類基因數(shù)據(jù)庫等。如在反恐檔案和追蹤系統(tǒng)中,應(yīng)用恐怖份子圖像查詢和搜索,音頻匹配與語音識別等方面。52圖像數(shù)據(jù)——輪胎痕跡(1/2)53圖像數(shù)據(jù)——輪胎痕跡(2/2)54圖像數(shù)據(jù)——模糊的車牌畫面(1/2)5556圖像數(shù)據(jù)——模糊的車牌畫面(2/2)文本挖掘和多媒體挖掘舉例(定制愛情)575859文本挖掘和多媒體挖掘舉例60文本挖掘和多媒體挖掘舉例花田界面清新簡潔,采用類似微博的信息流展示形式。首頁是異性用戶最近更新的圖片、內(nèi)心獨(dú)白和文字傳情,展示其生活方式、個人品味等軟性資料?;ㄌ飯F(tuán)隊正試圖通過自然語言處理技術(shù)和語義分析方法來解碼用戶性格,實(shí)現(xiàn)“軟硬兼施”的精準(zhǔn)推薦。首先,他們運(yùn)用切分詞方法,從用戶的“內(nèi)心獨(dú)白”中提取出現(xiàn)頻率較高的關(guān)鍵詞;再將這些關(guān)鍵詞分類,如感性詞匯或理性詞匯;最后,通過文本分析、語義分析,從中挖掘出用戶的性格是內(nèi)向、外向、理想化還是現(xiàn)實(shí)派等等。6162文本挖掘和多媒體挖掘舉例花田團(tuán)隊只有30多個人,大多是85后。他們在對海量軟硬數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,總結(jié)出一些人物特征,建立出一定數(shù)量的人物模型。再分析具體用戶,將其分門別類套入各種模型。這樣,用戶心儀其中某一個人,便可向其推薦這一類人。這種模型不僅是性格模型,還包括外貌模型?!拔覀凂R上要推出人臉識別。比如你想找個像范冰冰的女生,你輸入范冰冰,就會推薦給你很多范冰冰臉型的女生?!被ㄌ锏暮笈_已經(jīng)提取出范冰冰臉型的數(shù)據(jù),之后還會推出幾十種流行的男女明星臉型供用戶選擇。63文本挖掘和多媒體挖掘舉例如果花田能夠跨產(chǎn)品平臺,結(jié)合網(wǎng)易門戶、郵箱、游戲等其它網(wǎng)易資源進(jìn)行大數(shù)據(jù)分析,是否就能向用戶推薦與自身閱讀習(xí)慣、工作習(xí)慣、娛樂習(xí)慣都匹配的對象呢?真正的大數(shù)據(jù)必然是跨平臺的,但跨平臺數(shù)據(jù)提取在一定程度上又涉及用戶隱私。數(shù)據(jù)分析不只可用于精準(zhǔn)推薦,還能識別婚戀網(wǎng)站中的造假和詐騙。引入大數(shù)據(jù)可以開發(fā)出一套騙子識別模型,由以往的被動等待用戶舉報騙子,改為主動出擊。64網(wǎng)絡(luò)挖掘——尋找意見領(lǐng)袖65END66商務(wù)智能方法與應(yīng)用北京信息科技大學(xué)胡敏minmin516@第一章導(dǎo)言Lecture1:Introduction思維導(dǎo)圖上課內(nèi)容:whattorememberinclass?

whattounderstandinclass?

whattoexerciseafterclass?

whattowidenyoursights?

whattogodeepintoresearch?主要內(nèi)容1.1商務(wù)智能的基本概念1.2商務(wù)智能的過程1.3商務(wù)智能的系統(tǒng)構(gòu)成1.4商務(wù)智能的發(fā)展歷史1.1商務(wù)智能的基本概念商務(wù)智能數(shù)據(jù)信息和知識商務(wù)智能商務(wù)智能(Businessintelligence)1996年GartnerGroup

HowardDresner數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以輔助企業(yè)決策為目的一類技術(shù)及其應(yīng)用商務(wù)智能商務(wù)智能(Businessintelligence)工業(yè)界商務(wù)智能可以被看作是一類技術(shù)或工具,利用它們可以對大量的數(shù)據(jù)進(jìn)行收集、管理、分析和挖掘,以改善業(yè)務(wù)決策水平,增強(qiáng)企業(yè)的競爭力學(xué)術(shù)界商務(wù)智能是一套理論、方法和應(yīng)用,通過它們可以快速地發(fā)現(xiàn)海量數(shù)據(jù)中隱含的各種知識,有效地解決企業(yè)面臨的管理和決策問題,支持企業(yè)的戰(zhàn)略實(shí)施。商務(wù)智能的概念

商務(wù)智能指收集、轉(zhuǎn)換、分析和發(fā)布數(shù)據(jù)的過程,目的是為了更好的決策。商務(wù)智能是指將數(shù)據(jù)轉(zhuǎn)化為知識的過程。它包括捕獲和分析信息,交流信息,以及利用這些信息開發(fā)市場。商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計商務(wù)知識和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動,完善各種商務(wù)流程,提升商務(wù)績效,增強(qiáng)綜合競爭力的智慧和能力。BusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain

—DataWarehouseInstitute

商務(wù)智能是融合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成企業(yè)內(nèi)外數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價值的知識,面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)企業(yè)經(jīng)營決策,提升企業(yè)競爭力。商務(wù)智能的概念

商務(wù)智能的概念數(shù)據(jù)ETL數(shù)據(jù)倉庫數(shù)據(jù)挖掘可視化OLAP數(shù)據(jù)知識決策模式趨勢事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)POS人口統(tǒng)計生命周期77商務(wù)智能在行業(yè)的應(yīng)用銀行客戶利潤分析分支行利潤分析交叉銷售信用風(fēng)險管理新產(chǎn)品推銷收費(fèi)策略保險欺詐管理收費(fèi)策略目標(biāo)市場活動客戶挽留客戶利潤分析零售地區(qū)/商店各種貨物(品牌,分類等)銷售業(yè)績定價和減價市場籃子關(guān)系市場需求預(yù)測倉儲規(guī)劃通訊客戶忠實(shí)客戶流失模式客戶利潤分析競爭分析欺詐管理80各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦……基因挖掘基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析……銀行電信零售保險制藥生物信息科學(xué)研究……相關(guān)行業(yè)商務(wù)應(yīng)用需求的推動神經(jīng)網(wǎng)絡(luò)、決策樹、回歸分析、粗集、遺傳算法商務(wù)智能應(yīng)用領(lǐng)域銀行美國銀行家協(xié)會(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險控制等電子商務(wù)網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應(yīng)網(wǎng)站…生物制藥、基因研究DNA序列查詢和匹配;識別基因序列的共發(fā)生性…電信欺詐甄別;客戶流失…保險、零售……政府部門、教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)和公用事業(yè)等。利用商務(wù)智能的企業(yè)現(xiàn)在已越來越多,遍及各行各業(yè)。數(shù)據(jù)倉庫理解業(yè)務(wù):網(wǎng)絡(luò)資源分析產(chǎn)品結(jié)構(gòu)及組合分析服務(wù)質(zhì)量分析業(yè)務(wù)發(fā)展分析理解客戶:客戶貢獻(xiàn)度分析客戶群體劃分客戶行為分析制訂市場營銷策略風(fēng)險分析:客戶流失的測算信用分析欺詐分析內(nèi)部績效考核:產(chǎn)品、部門利潤分析資源分配資源成本分析誰是最好的客戶?如何擴(kuò)大利潤?如何避免風(fēng)險?收入/成本如何分配?商務(wù)智能對企業(yè)的作用和價值不同層次的商務(wù)智能應(yīng)用以前發(fā)生了什么為什么發(fā)生了現(xiàn)在發(fā)生著什么將來會發(fā)生什么業(yè)務(wù)活動管理不同層次的商務(wù)智能應(yīng)用商務(wù)智能用戶數(shù)據(jù)(data)數(shù)據(jù)是對事物描述的符號。在計算機(jī)科學(xué)中,數(shù)據(jù)是數(shù)字、文字、圖像、聲音等可以輸入到計算機(jī)被識別的符號企業(yè)運(yùn)營離不開數(shù)據(jù)。企業(yè)運(yùn)營的各個環(huán)節(jié)每天都在積累數(shù)據(jù),如供應(yīng)商、客戶的數(shù)據(jù),銷售、生產(chǎn)以及庫存數(shù)據(jù)等。用戶生成數(shù)據(jù)(usergenerateddata,UGD)社會化媒體、智能化手機(jī)等使得全世界不計其數(shù)的個體也在不斷產(chǎn)生數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)(structureddata)通常二維表格的形式存儲在關(guān)系數(shù)據(jù)庫中交易細(xì)節(jié)表交易號商品號單價折扣數(shù)量005872051337922.99010058720514677520100587205000700104.500587206147525105.900587206113838107.5非結(jié)構(gòu)化數(shù)據(jù)(unstructureddata)文本數(shù)據(jù)iphone4s,目前最大的問題,感覺還是電量,充滿一次,用兩天,不過,我還沒怎么玩游戲,都是開瀏覽器之類的應(yīng)用,和聽歌,但是想想,畢竟手機(jī)的電池和ipad的還是沒法比。信息(information)通過一定的技術(shù)和方法,對數(shù)據(jù)進(jìn)行集成、分析,挖掘其潛在的規(guī)律和內(nèi)涵,得到的結(jié)果是信息。信息是具有商務(wù)意義的數(shù)據(jù)例如,通過對零售信息的集成和分析發(fā)現(xiàn),某超市的客戶群根據(jù)其消費(fèi)行為可以分為若干個群體,每個群體具有一些明顯的特征。例如,其中一個群體是單身女性,喜歡經(jīng)常購買化妝品,消費(fèi)金額高。知識(knowledge)當(dāng)信息用于商務(wù)決策,并基于決策開展相應(yīng)的商務(wù)活動時,信息就上升為知識信息轉(zhuǎn)化為知識的過程不僅需要信息,而且需要結(jié)合決策者的經(jīng)驗和能力,用以解決實(shí)際的問題。例如,某連鎖超市的經(jīng)理發(fā)現(xiàn),近期化妝品的銷售業(yè)績下降了,為了解決該問題,決定采取促銷措施,根據(jù)對數(shù)據(jù)的分析得到的客戶分群的信息,銷售經(jīng)理鎖定了促銷的目標(biāo)客戶群,最終開展了為這部分客戶郵寄優(yōu)惠券的促銷活動。1.2商務(wù)智能過程1.2.1知識發(fā)現(xiàn)知識發(fā)現(xiàn)的特征知識模式是使用一種形式化語言來進(jìn)行的表達(dá),表達(dá)描述了事實(shí)集合的子集中的一種顯著的事實(shí)。通過某種知識發(fā)現(xiàn)方法得到一個顧客細(xì)分的結(jié)果子集為{41歲顧客,42歲顧客,48歲顧客,43歲顧客,64歲顧客…},可以歸納為“40歲之上的顧客”或者“中年以上的顧客”等。知識發(fā)現(xiàn)強(qiáng)調(diào)模式的有效性、新穎性、潛在有用性以及最終能被理解。921.2商務(wù)智能過程1.2.2知識發(fā)現(xiàn)過程1、理解所要進(jìn)行研究的領(lǐng)域、與之相關(guān)的以前的知識、以及用戶的目標(biāo);2、創(chuàng)建/選擇目標(biāo)數(shù)據(jù)集合;3、數(shù)據(jù)清理和預(yù)處理;4、數(shù)據(jù)縮減和投影;5、選定數(shù)據(jù)挖掘任務(wù);6、選擇數(shù)據(jù)挖掘算法;7、數(shù)據(jù)挖掘過程;8、對挖掘出來的模式進(jìn)行解釋;9、完善和鞏固所發(fā)現(xiàn)的知識。9394信息管理學(xué)院1.2.2知識發(fā)現(xiàn)過程——7個步驟如下:1)數(shù)據(jù)清理:消除噪聲或不一致2)數(shù)據(jù)集成:多種數(shù)據(jù)源組合在一起3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式6)模式評估:根據(jù)某種興趣度量,識別表示知識的真正有趣的模式7)知識表示:使用可視化和知識表示技術(shù),向用戶提供挖掘的知識1.2商務(wù)智能過程信息管理學(xué)院知識發(fā)現(xiàn)過程7個步驟如下:數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識任務(wù)相關(guān)的數(shù)據(jù)選擇與轉(zhuǎn)換數(shù)據(jù)挖掘模式評估與知識表示1.2商務(wù)智能過程商務(wù)智能流程1

Identifybusinessissue2Formulatebusinessquestion3Whatinfo.doIneed4WheredoIfindtheinfo.5Retrieveinfo.6

Analyse

Info.7

Report

answers8

Take

actions1.3商務(wù)智能的系統(tǒng)構(gòu)成六個主要組成部分?jǐn)?shù)據(jù)源數(shù)據(jù)倉庫在線分析處理數(shù)據(jù)探查數(shù)據(jù)挖掘業(yè)務(wù)性能管理數(shù)據(jù)源企業(yè)內(nèi)部的操作型系統(tǒng),即支持各業(yè)務(wù)部分日常運(yùn)營的信息系統(tǒng)企業(yè)的外部,如人口統(tǒng)計信息、競爭對手信息等數(shù)據(jù)倉庫(datawarehouse)各種數(shù)據(jù)源的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換之后需要放到一個供分析使用的環(huán)境,以便對數(shù)據(jù)進(jìn)行管理,這就是數(shù)據(jù)倉庫數(shù)據(jù)集市(datamart):通常針對單個部門的數(shù)據(jù)倉庫,區(qū)別于企業(yè)范圍內(nèi)的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫可以將分析數(shù)據(jù)與實(shí)現(xiàn)業(yè)務(wù)處理的操作型數(shù)據(jù)隔離,一方面不影響業(yè)務(wù)處理系統(tǒng)的性能,另一方面為數(shù)據(jù)的分析提供了一個綜合的、集成的、統(tǒng)一的數(shù)據(jù)管理平臺。詳細(xì)信息在第8章介紹在線分析處理(onlineanalyticalprocessing)在線分析處理:業(yè)務(wù)性能度量可以通過多個維度、多個層次進(jìn)行多種聚集匯總,通過交互的方式發(fā)現(xiàn)業(yè)務(wù)運(yùn)行的關(guān)鍵性能指標(biāo)的異常之處。多維數(shù)據(jù)可以進(jìn)行多種操作如切片、切塊、下鉆、上卷等詳細(xì)信息在第9章介紹數(shù)據(jù)探查(exploration)包括靈活的查詢、即時報表以及統(tǒng)計方法等該類方法屬于被動分析方法探查數(shù)據(jù)的方法可以借助統(tǒng)計上的中心性、發(fā)散性以及相關(guān)性的統(tǒng)計量分析,多變量分析時也可以借助可視化技術(shù)。詳細(xì)信息在第7、10章介紹。數(shù)據(jù)挖掘(datamining)數(shù)據(jù)挖掘是從大量數(shù)據(jù)中自動發(fā)現(xiàn)隱含的信息和知識的過程,屬于主動分析方法,不需要分析者的先驗假設(shè),可以發(fā)現(xiàn)未知的知識常用的分析方法包括分類、聚類、關(guān)聯(lián)分析、數(shù)值預(yù)測、序列分析、社會網(wǎng)絡(luò)分析等數(shù)據(jù)挖掘:分類分類(classification)是通過對具有類別的對象的數(shù)據(jù)集進(jìn)行學(xué)習(xí),概括其主要特征,構(gòu)建分類模型,根據(jù)該模型預(yù)測對象的類別的一種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)。例如,電信公司的客戶可以分為兩類,一類是忠誠的,一類是流失的。根據(jù)這兩類客戶的個人特征方面的數(shù)據(jù)以及在公司的消費(fèi)方面的數(shù)據(jù),利用分類技術(shù)可以構(gòu)建分類模型數(shù)據(jù)挖掘:聚類聚類(clustering)是依據(jù)物以類聚的原理,將沒有類別的對象根據(jù)對象的特征自動聚集成不同簇的過程,使得屬于同一個簇的對象之間非常相似,屬于不同簇的對象之間不相似。其典型應(yīng)用是客戶分群數(shù)據(jù)挖掘:關(guān)聯(lián)分析關(guān)聯(lián)分析最早用于分析超市中顧客一次購買的物品之間的關(guān)聯(lián)性例如,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則(associationrule)“尿不濕

啤酒(0.5%,60%)”,其含義為,0.5%的交易中會同時購買尿不濕和啤酒,且買尿不濕的交易中有60%會同時買啤酒數(shù)據(jù)挖掘:數(shù)值預(yù)測數(shù)值預(yù)測用于預(yù)測連續(xù)變量的取值。常用的預(yù)測方法是回歸分析例如,可以根據(jù)客戶個人特征,如年齡、工作類型、受教育程度、婚姻狀況等,來預(yù)測其每月的消費(fèi)額度。數(shù)據(jù)挖掘:序列分析序列分析是對序列數(shù)據(jù)庫進(jìn)行分析,從中挖掘出有意義模式的技術(shù)。序列模式(sequentialpattern)的發(fā)現(xiàn)屬于序列分析,它是從序列數(shù)據(jù)庫中發(fā)現(xiàn)的一種有序模式例如,《赤壁,鴻門宴,見龍卸甲》,意味著“看了赤壁之后會接著看鴻門宴,過段時間會看見龍卸甲”。數(shù)據(jù)挖掘:社會網(wǎng)絡(luò)分析社會網(wǎng)絡(luò)(socialnetwork)是由個人或組織及其之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)社會網(wǎng)絡(luò)分析(socialnetworkanalysis)是對社會網(wǎng)絡(luò)的結(jié)構(gòu)和屬性進(jìn)行分析,以發(fā)現(xiàn)其中的局部或全局特點(diǎn),發(fā)現(xiàn)其中有影響力的個人或組織,發(fā)現(xiàn)網(wǎng)絡(luò)的動態(tài)變化規(guī)律等。業(yè)務(wù)績效管理業(yè)務(wù)績效管理(businessperformancemanagement),簡稱BPM,又稱為企業(yè)績效管理(corporateperformancemanagement),是對企業(yè)的關(guān)鍵性能指標(biāo),如銷售、成本、利潤以及可盈利性等,進(jìn)行度量、監(jiān)控和比較的方法和工具。這些信息通常通過可視化的工具如平衡積分卡和儀表盤等進(jìn)行展示。相關(guān)內(nèi)容見第10章。1.4商務(wù)智能的發(fā)展管理信息系統(tǒng)決策支持系統(tǒng)主管信息系統(tǒng)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和在線分析處理管理信息系統(tǒng)(managementinformationsystem)簡稱MIS,產(chǎn)生于二十世紀(jì)七十年代為企業(yè)提供企業(yè)管理的全方位信息,為管理人員提供管理決策信息的信息系統(tǒng)其目的主要是提供信息以實(shí)現(xiàn)對企業(yè)或組織的快速有效管理決策支持系統(tǒng)(decisionsupportsystem),簡稱DSS,開始于二十世紀(jì)七十年代,發(fā)展于八十年代決策支持系統(tǒng)是基于計算機(jī)的用于支持業(yè)務(wù)或組織決策的信息系統(tǒng)。通常,決策支持系統(tǒng)基于數(shù)據(jù)庫和模型庫,用于解決半結(jié)構(gòu)化和非結(jié)構(gòu)化的決策問題,輔助管理人員做出快速、正確的決策主管信息系統(tǒng)(Executiveinformationsystem)簡稱EIS,又稱為經(jīng)理信息系統(tǒng),出現(xiàn)于二十世紀(jì)八十年代是針對企業(yè)內(nèi)的高級管理人員的決策支持系統(tǒng)。這種系統(tǒng)提供了靈活的報表生成、預(yù)測、趨勢分析等功能。系統(tǒng)以直觀的形式展現(xiàn)企業(yè)的運(yùn)行狀況以及關(guān)鍵成功因素(criticalsuccessfactors)商務(wù)智能商務(wù)智能系統(tǒng)是隨著數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和在線分析處理等技術(shù)的發(fā)展于二十世紀(jì)九十年代而產(chǎn)生的通過數(shù)據(jù)倉庫可以集成企業(yè)內(nèi)外的各種數(shù)據(jù),為數(shù)據(jù)的分析處理提供基礎(chǔ)。在線分析處理則提供從多個維度探查業(yè)務(wù)性能指標(biāo)的交互分析功能。數(shù)據(jù)挖掘結(jié)合人工智能、統(tǒng)計等技術(shù)實(shí)現(xiàn)對大量數(shù)據(jù)中潛在模式、規(guī)律、異常的發(fā)現(xiàn)和評價。這些新興的技術(shù)為企業(yè)管理人員提供了更強(qiáng)大的決策支持工具。第2章商務(wù)智能過程Lecture2:DevelopingBIapplications主要內(nèi)容2.1商務(wù)智能系統(tǒng)的開發(fā)方法2.2數(shù)據(jù)倉庫與數(shù)據(jù)庫2.3在線分析處理與在線事務(wù)處理2.4商務(wù)智能與決策支持系統(tǒng)2.1商務(wù)智能系統(tǒng)的開發(fā)方法商務(wù)智能系統(tǒng)的開發(fā)過程商務(wù)智能系統(tǒng)成功的關(guān)鍵因素2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)識別業(yè)務(wù)需求識別信息需求時間成本規(guī)劃規(guī)劃詳細(xì)的需求分析數(shù)據(jù)定義分析技術(shù)選擇設(shè)計實(shí)現(xiàn)數(shù)據(jù)倉庫OLAP設(shè)計數(shù)據(jù)挖掘設(shè)計數(shù)據(jù)集市構(gòu)建數(shù)據(jù)倉庫構(gòu)建數(shù)據(jù)集市在線分析處理數(shù)據(jù)挖掘算法增強(qiáng)查詢報表企業(yè)績效管理2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)在規(guī)劃階段,主要目標(biāo)是選擇要實(shí)施商務(wù)智能的業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域,從而解決企業(yè)的關(guān)鍵業(yè)務(wù)決策問題,識別使用商務(wù)智能系統(tǒng)的人員以及相應(yīng)的信息需求,規(guī)劃項目的時間、成本、資源的使用了解每個業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域的需求,收集他們當(dāng)前急需解決的問題企業(yè)中哪些業(yè)務(wù)環(huán)節(jié)的支出費(fèi)用太高?哪些過程耗用時間太長?哪些環(huán)節(jié)的決策質(zhì)量不高2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)每類需求,重要性和實(shí)現(xiàn)的難易程度重要性方面,可以從三個方面進(jìn)行衡量衡量商務(wù)智能提供的信息的可操作性;衡量實(shí)施商務(wù)智能可能給企業(yè)帶來的回報,衡量實(shí)施商務(wù)智能可以幫助企業(yè)實(shí)現(xiàn)短期目標(biāo)實(shí)現(xiàn)的難易程度商務(wù)智能的實(shí)現(xiàn)需要涉及的范圍衡量數(shù)據(jù)的可獲取性2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)分析階段,針對在規(guī)劃階段最終選擇要實(shí)現(xiàn)商務(wù)智能的業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域,進(jìn)行詳細(xì)的需求分析收集需要的各類數(shù)據(jù),選擇需要的商務(wù)智能支撐技術(shù),如數(shù)據(jù)倉庫、在線分析數(shù)據(jù)或者數(shù)據(jù)挖掘等2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)如果要創(chuàng)建數(shù)據(jù)倉庫,則進(jìn)行數(shù)據(jù)倉庫的模型設(shè)計,常用的是多維數(shù)據(jù)模型。數(shù)據(jù)集市可以從數(shù)據(jù)倉庫中抽取數(shù)據(jù)進(jìn)行構(gòu)建在不構(gòu)建數(shù)據(jù)倉庫的情況下,也可以直接為某個業(yè)務(wù)部門設(shè)計和實(shí)現(xiàn)數(shù)據(jù)集市。如果要實(shí)現(xiàn)OLAP解決問題,則要設(shè)計多維分析的聚集操作類型。如果要借助數(shù)據(jù)挖掘技術(shù),則需要選擇具體的算法2.1.1商務(wù)智能系統(tǒng)的開發(fā)過程規(guī)劃需求分析設(shè)計實(shí)現(xiàn)實(shí)現(xiàn)階段,選擇ETL工具實(shí)現(xiàn)源數(shù)據(jù)的抽取,構(gòu)建數(shù)據(jù)倉庫和(或)數(shù)據(jù)集市對數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù),選取并應(yīng)用相應(yīng)的查詢或分析工具,包括增強(qiáng)型的查詢、報表工具、在線分析處理工具、數(shù)據(jù)挖掘系統(tǒng)以及企業(yè)績效管理工具等在具體應(yīng)用該系統(tǒng)之前,需要完成對系統(tǒng)的數(shù)據(jù)加載和應(yīng)用測試,設(shè)計系統(tǒng)的訪問控制和安全管理方法。2.1.2商務(wù)智能系統(tǒng)成功的關(guān)鍵因素業(yè)務(wù)驅(qū)動高層支持業(yè)務(wù)人員和IT人員的合作循序漸進(jìn)培訓(xùn)2.2數(shù)據(jù)倉庫與數(shù)據(jù)庫聯(lián)系表現(xiàn)在兩個方面數(shù)據(jù)倉庫中的大部分?jǐn)?shù)據(jù)來自于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中當(dāng)前絕大多數(shù)數(shù)據(jù)倉庫都是利用數(shù)據(jù)庫系統(tǒng)來管理的區(qū)別:構(gòu)建目的、管理的數(shù)據(jù)、管理方法都不同數(shù)據(jù)庫主要用于實(shí)現(xiàn)企業(yè)的日常業(yè)務(wù)運(yùn)營,提高業(yè)務(wù)運(yùn)營的效率;數(shù)據(jù)倉庫的構(gòu)建主要用于集成多個數(shù)據(jù)源的數(shù)據(jù),這些數(shù)據(jù)最終用于分析數(shù)據(jù)庫通常只包含當(dāng)前數(shù)據(jù),數(shù)據(jù)的存儲盡量避免冗余,數(shù)據(jù)的組織按照業(yè)務(wù)過程涉及的數(shù)據(jù)實(shí)現(xiàn),是應(yīng)用驅(qū)動的。數(shù)據(jù)倉庫中的數(shù)據(jù)是按照主題組織的,將某一主題的所有數(shù)據(jù)集成在一起,數(shù)據(jù)存在冗余2.2數(shù)據(jù)倉庫與數(shù)據(jù)庫區(qū)別:構(gòu)建目的、管理的數(shù)據(jù)、管理方法都不同數(shù)據(jù)庫中的數(shù)據(jù)需要進(jìn)行頻繁的插入、刪除、修改等更新操作,需要復(fù)雜的并發(fā)控制機(jī)制保證事務(wù)運(yùn)行的隔離性。數(shù)據(jù)倉庫中的數(shù)據(jù)主要用于分析處理,除了初始的導(dǎo)入和成批的數(shù)據(jù)清除操作之外,數(shù)據(jù)很少需要更新操作數(shù)據(jù)庫中數(shù)據(jù)的更新操作的時效性很強(qiáng),事務(wù)的吞吐率是個非常重要的指標(biāo)。而數(shù)據(jù)倉庫的數(shù)據(jù)量十分龐大,分析時通常涉及大量數(shù)據(jù),時效性不是最關(guān)鍵的。數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量非常關(guān)鍵,不正確的數(shù)據(jù)將導(dǎo)致錯誤的分析結(jié)果。2.3在線分析處理與在線事務(wù)處理OLTPvs.OLAP在線事務(wù)處理(onlinetransactionprocessing),簡稱OLTP,是數(shù)據(jù)庫管理系統(tǒng)的主要功能,用于完成企業(yè)內(nèi)部各個部門的日常業(yè)務(wù)操作。在線分析處理(onlineanalyticalprocessing),簡稱OLAP,是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,提供數(shù)據(jù)的多維分析以支持決策過程OLTPvs.OLAP

在線事務(wù)處理OLTP在線分析處理OLAP用戶普通職員管理人員,分析人員功能日常業(yè)務(wù)處理決策支持?jǐn)?shù)據(jù)庫設(shè)計高度規(guī)范化非規(guī)范化數(shù)據(jù)處理在線插入、刪除、修改批量加載和刪除使用方式重復(fù)操作即時的圖表形式的交互查詢執(zhí)行單元短的事務(wù)處理復(fù)雜的查詢數(shù)據(jù)當(dāng)前、細(xì)節(jié)數(shù)據(jù)歷史的匯總數(shù)據(jù)性能指標(biāo)事務(wù)吞吐量查詢響應(yīng)時間事務(wù)特性并發(fā)控制和事務(wù)恢復(fù)很重要并發(fā)控制和事務(wù)恢復(fù)不重要2.4商務(wù)智能與決策支持系統(tǒng)DSS決策支持系統(tǒng)(decisionsupportsystem)的概念最早由ScottMorton在20世紀(jì)70年代初提出“一種交互式的基于計算機(jī)的系統(tǒng),用于協(xié)助決策者使用數(shù)據(jù)和模型解決非結(jié)構(gòu)化的問題”決策支持系統(tǒng)的用戶主要是管理人員和業(yè)務(wù)分析人員,主要目的是輔助決策者進(jìn)行科學(xué)決策DSS的系統(tǒng)架構(gòu)RalphH.Sprague和EricD.Carlson:對話-數(shù)據(jù)-模型架構(gòu)(Dialog-Data-Modeling,DDM)決策支持系統(tǒng)由數(shù)據(jù)庫管理系統(tǒng)、模型庫管理系統(tǒng)和對話產(chǎn)生與管理系統(tǒng)三部分組成。后來又引入了知識庫管理系統(tǒng)數(shù)據(jù)庫模型庫知識庫數(shù)據(jù)庫管理系統(tǒng)模型庫管理系統(tǒng)知識庫管理系統(tǒng)對話產(chǎn)生與管理系統(tǒng)用戶DSS數(shù)據(jù)庫管理系統(tǒng)用于抽取、存儲、更新決策所需的數(shù)據(jù)模型庫管理系統(tǒng)主要用于管理決策所需的各種模型知識庫管理系統(tǒng)提供知識的表示、存儲和管理,用于支持定量模型無法解決的決策過程,幫助用戶建立、應(yīng)用和管理描述性、過程性和推理性知識對話產(chǎn)生與管理系統(tǒng)主要負(fù)責(zé)用戶與系統(tǒng)的交互。數(shù)據(jù)庫模型庫知識庫數(shù)據(jù)庫管理系統(tǒng)模型庫管理系統(tǒng)知識庫管理系統(tǒng)對話產(chǎn)生與管理系統(tǒng)用戶DSS&BIDSS中數(shù)據(jù)庫的數(shù)據(jù)集成功能較弱,而數(shù)據(jù)倉庫技術(shù),具有良好的數(shù)據(jù)集成、轉(zhuǎn)換等功能決策支持系統(tǒng)的知識庫通常是設(shè)置好的,知識很少發(fā)生變化,知識的類型和范圍很窄。商務(wù)智能系統(tǒng)則能從大量的數(shù)據(jù)中發(fā)現(xiàn)新穎有用的知識,提供更加靈活的查詢和報表功能以及多維分析功能,可以對決策支持系統(tǒng)的知識庫進(jìn)行動態(tài)更新商務(wù)智能系統(tǒng)與決策支持系統(tǒng)相比,在數(shù)據(jù)分析和知識發(fā)現(xiàn)方面具有更強(qiáng)的功能,但是它只提供對決策有幫助的信息,并不提供可能的決策方案第3章關(guān)聯(lián)分析Chapter3:AssociationAnalysis141關(guān)聯(lián)若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,比如在一次購買活動中所買不同商品的相關(guān)性。關(guān)聯(lián)分析即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,“在購買計算機(jī)的顧客中,有30%的人也同時購買了打印機(jī)”。從大量的商務(wù)事務(wù)記錄中發(fā)現(xiàn)潛在的關(guān)聯(lián)關(guān)系,可以幫助人們作出正確的商務(wù)決策。142購物籃分析此類關(guān)聯(lián)分析在零售業(yè),如超市等得到廣泛應(yīng)用,企業(yè)可以獲得注入產(chǎn)品間的關(guān)聯(lián),或者產(chǎn)品類別和購買這些類別的產(chǎn)品的顧客的統(tǒng)計信息之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析又稱購物籃分析,在銷售配貨、商店商品的陳列設(shè)計、超市購物路線設(shè)計、產(chǎn)品定價和促銷等方面得到廣泛應(yīng)用。143什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計、聚集和分類等。舉例:

規(guī)則形式:“Body—>Head[support,confidence]”.buys(x,“diapers”)—>buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)—>grade(x,“A”)[1%,75%]主要內(nèi)容3.1頻繁模式與關(guān)聯(lián)規(guī)則3.2頻繁項集的典型挖掘方法3.3關(guān)聯(lián)規(guī)則的生成方法3.4關(guān)聯(lián)規(guī)則的其他類型3.5關(guān)聯(lián)規(guī)則的興趣度的其他度量3.1頻繁模式與關(guān)聯(lián)規(guī)則從交易數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫以及其他的數(shù)據(jù)集中發(fā)現(xiàn)項或?qū)ο蟮念l繁模式(frequentpatterns)、關(guān)聯(lián)(associations)的過程buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]Rao,SrikumarS.“Diaper-beerSyndrome,”Forbes,April6,1998.pp.128–130outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTRUEnoovercasthothighFALSEyesrainymildhighFALSEyesrainycoolnormalFALSEyes交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts交易數(shù)據(jù)庫I={A,B,C,D,E,F}2項集:Transactionaldatabase

每個交易:由顧客一次購買的商品(items)組成I={i1,i2,…,im}項集(Itemset):x={ij1,ij2,…,ijp},ijiI每個項集包含的項的個數(shù),稱為項集的長度,一個長度為k的項集又稱為k項集。支持度(Support)交易包含項集X的概率E.g.X={A},Y={A,B}=AB若support(X)>=minsup,則X稱為頻繁項集(frequentitemset),也可以說X是頻繁的.設(shè)minsup=50%{A:3,B:3,D:4,E:3,AD:3}TIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F閉合頻繁項集一個頻繁項集X被稱為閉合頻繁項集(closedfrequentitemset)當(dāng)且僅當(dāng)不存在任一個項集Y滿足X

Y且support(Y)=support(X)。閉合頻繁項集X被稱為是閉合的。例如:A是頻繁的,但不是閉合的,因為support(AD)=support(A),且A

ADTIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則給定兩個項集X和Y,關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)含式X

I稱為規(guī)則的前件,Y

I稱為規(guī)則的后件,X∩Y=

規(guī)則X→Y的支持度(support)support(X→Y)=support(X∪Y)規(guī)則X→Y的置信度(confidence)SupportandconfidenceTransaction-idItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則:X

Ysupport(X

Y)=support(X∪Y)=|TXY|/nE.g:X={A}Y={C}support(A

C)=support(AC)=0.2X={A,D}=ADY=Csupport(AD

C)=support=(ADC)=0.2SupportandconfidenceTIDItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F置信度(confidence)Confidence(X

Y)=|TXY|/|TX|=sup(XY)/sup(X)A

C(20%,33%)AD

C(20%,50%)買尿片的交易同時買啤酒和尿片的交易買啤酒的交易關(guān)聯(lián)規(guī)則的挖掘給定如下閾值minimumsupport:minsupMinimumconfidence:

minconf發(fā)現(xiàn)所有形如X

Y

的關(guān)聯(lián)規(guī)則,滿足Support(XY)≥minsupConfidence(XY)≥minconf3.2頻繁項集的典型挖掘方法3.2.1逐層發(fā)現(xiàn)算法AprioriApriori(Agrawal&Srikant@VLDB’94)3.2.2無候選集發(fā)現(xiàn)算法FP-growthFreq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)其他方法:Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)Highdimensionaldataset:TD-close(Liu,Han,etal.@ICDE06)…3.2.1逐層發(fā)現(xiàn)算法Apriori主要步驟k=1統(tǒng)計每個k項候選集的支持度,找出頻繁的k項集:Lk利用頻繁的k項集生成k+1項候選集(Candidateitemset

):Ck+1k=k+1;轉(zhuǎn)至步驟2示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2minsup=2/4如何生成候選項集?性質(zhì)1:給定最小支持度閾值minsup,一個頻繁項集的所有非空子集都是頻繁的。if{beer,diaper}isfrequent,sois{beer}and{diaper}If{beer}isnotfrequent,{beer,diaper}isnotfrequentApriori剪裁規(guī)則:若存在某些項集是不頻繁的,則這些項集的任何超集都是不頻繁的,因而無須生成和測試。157

項集格上圖是{i1,i2,i3,i4}的項集格(lattice),這種結(jié)構(gòu)能枚舉所有可能的項集。假設(shè){i2,i3,i4}是頻繁項集,那么它的所有子集{i2},{i3},{i4},{i2,i3},{i2,i4}和{i3,i4}都是頻繁的。反之,如{i1,i2}是非頻繁的,它的所有超集{i1,i2,i3},{i1,i2,i4}和{i1,i2,i3,i4}都是非頻繁的。如何生成候選項集?假設(shè)每個Lk

中的項集的項都是按順序排列的步驟1:兩兩組合

Lk中項集生成

Ck+1步驟2:裁剪(pruning)如何生成候選項集?假設(shè)項集的項按字母序排列:beer<bread<butter<cheese<diaper<nuts如何生成候選項集?步驟1

abcd

abce設(shè)p和q

是Lk

中的兩個項集,滿足時生成(k+1)項集:p.item1=q.item1,…,p.itemk-1=q.itemk-1,

p.itemk<q.itemkp.item1p.item2…p.itemk-1p.itemkq.item1q.item2…q.itemk-1q.itemkp.item1p.item2…p.itemk-1p.itemkq.itemk如何生成候選項集?步驟1字母序:a<b<c<d<eL3={abc,abd,acd,ace,bcd}abcdfromabcandabdacdefromacdandaceC4={abcd,acde}L3item1item2item3abcabdacdacebcd如何生成候選項集?步驟2刪除那些包含非頻繁k項集的(k+1)項集E.g:L3={abc,abd,acd,ace,bcd},C4={abcd,acde}由于{cde}不頻繁,所以acde不可能頻繁

C4={abcd}DatabaseTDB1stscanC1C2C22ndscanL33rdscanC3L1L2TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2Supmin=2164Apriori性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:多次掃描數(shù)據(jù)庫:

如果最長的模式是n的話,則需要

n+1次數(shù)據(jù)庫掃描FP增長算法與Apriori算法不同,頻繁模式增長(frequentpatterngrowth)算法,簡稱FP增長算法使用一種稱為FP樹的數(shù)據(jù)結(jié)構(gòu),并且采用分而治之的策略,無需產(chǎn)生候選頻繁項集就能得到全部的頻繁項集。3.2.2無候選集發(fā)現(xiàn)算法FP-growthFPgrowth—Han,Pei&Yin@SIGMOD’00采用一種樹的數(shù)據(jù)結(jié)構(gòu)(FP-tree)來實(shí)現(xiàn)頻繁項集的發(fā)現(xiàn),不需要先生成候選項集FP-tree的特點(diǎn)完整性保留了用于挖掘頻繁項集的所有信息緊湊性減少了與頻繁項集挖掘無關(guān)的信息,F(xiàn)-list:高頻項更多機(jī)會被不同交易共享永遠(yuǎn)小于原來的交易數(shù)據(jù)庫TID Itemsbought 100 {f,a,c,d,g,i,m,p}

200 {a,b,c,f,l,m,o}300

{b,f,h,j,o,w}

400

{b,c,k,s,p}

500

{a,f,c,e,l,p,m,n}

算法:FP-growthHeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3minsup=3/5掃描交易數(shù)據(jù)庫,找出所有頻繁單項按照支持度降序排列所有頻繁單項,得到f-list掃描交易數(shù)據(jù)庫,構(gòu)建FP-treeT調(diào)用mineTree(T,}f-list=f-c-a-b-m-p{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1FP-treeTID (ordered)frequentitems100

{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}頻繁項集的分割頻繁項集的集合可以分為若干個不相交的子集例如:F-list=f-c-a-b-m-p所有包含p的項集含有m不包含p的項集…含有c

不含a,b,m,p的項集項f生成條件模式庫(conditionalpatternbase)從頭表(headertable)開始

通過指針鏈遍歷FP-tree找到所有包含某項如p的分支合并相同前綴路徑,構(gòu)成

p條件模式庫Conditionalpatternbasesitem cond.patternbasec f:3a fc:3b fca:1,f:1,c:1m fca:2,fcab:1p fcam:2,cb:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3FP-tree:T100{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}mineTree(T,X){}c:3HeaderTableItemfrequencyheadc 3Tpfcam:2cb:1以p為例:X=

;生成并輸出頻繁項集X∪{p}=p,support=3生成p的條件模式庫統(tǒng)計單項頻率:c:3,f:2,a:2,m:2,

b:1為條件模式庫構(gòu)建FP-tree:

TpX={p},調(diào)用mineTree(Tp,X)優(yōu)化對單支前綴路徑特殊處理,減少處理時間設(shè)minsup=2(出現(xiàn)2次)圖3.2頻繁模式樹T項集頻數(shù)abc2abd2表3.3項e的條件模式庫優(yōu)化

圖3.3項e的頻繁模式樹Te

圖3.4頻繁模式樹Te的多分支部分Q單支前綴路徑ab:5,生成與e的所有組合,即S={ae:4,be:4,abe:4}將此路徑用一個空的根節(jié)點(diǎn)替換,生成樹Q,分別對單項c和d處理,分別生成了1個項集,ce和de,構(gòu)成集合M={ce:2,de:2}返回S∪M∪(S

M),S

M={ace:2,ade:2,bce:2,bde:2,abce:2,abde:2}挖掘高維度數(shù)據(jù)集中的頻繁項集Carpenter(Pan,etal.@KDD’03)MinedatasetswithsmallrowsbutnumerouscolumnsConstructabottom-uprow-enumerationtreeforefficientminingTD-close(Liu,Han,etal.@ICDE06)MinedatasetswithsmallrowsbutnumerouscolumnsConstructaTop-downrow-enumerationtreeforefficientminingMiningFrequentPatternsfromVeryHighDimensional

Data:ATop-DownRowEnumerationApproach

HongyanLiuTsinghuaUniversityJiaweiHan,DongXin,ZhengShao

UniversityofIllinoisatUrbana-Champaign行枚舉方法riABCD1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d39/4/2024Minsup=2TableTTransposedTableitemsetrowseta11,2,3a24,5b11,2,3,4c11,3c22,4,5d22,3,49/4/2024自上而下的挖掘策略1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d313a1b1c124b1c2d225c234b1d245a2c2351514b123a1b1d2245c2234b1d2134b1124b1123a1b113512514523534512a1b11245134523451234b11235Minsup=3123459/4/2024自上而下、分而治之的遞歸挖掘345134523451234545a2c2245c214512455a2b2c2d325c2351513512523512351a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d213a1b1c124b1c2d234b1d214b123a1b1d2234b1d2134b1124b1123a1b112a1b11234b1Without5With5w/o4With45w/o3With345w/o2With2345w/o1Divide-and-conquer3.3關(guān)聯(lián)規(guī)則的生成方法生成關(guān)聯(lián)規(guī)則為每個頻繁項集l,生成非空子集s;若滿足

則輸出規(guī)則:(l-s)

se.g:l=ABCD,s=D,(l-s)=ABCconfidence(ABC

D)=support(ABCD)/support(ABC)生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%

Confidence(B

CE)<80%

Confidence(E

BC)<80%

Confidence(C

BE)<80%

L1L2L3生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%confidence(C

BE):<80%L1L2L3生成關(guān)聯(lián)規(guī)則ForBCE,Confidence(BE

C)<80%,HowaboutB

ECandE

BC?生成關(guān)聯(lián)規(guī)則對于頻繁項集l=ABCD若BCDA和ACDB

都成立

則CDAB

有可能成立.若CDAB,BDAC,和ADBC都成立,

則DABC

有可能成立3.4關(guān)聯(lián)規(guī)則的其他類型關(guān)聯(lián)規(guī)則的類型多層次關(guān)聯(lián)規(guī)則什么品牌的啤酒和尿片(diapers)有關(guān)聯(lián)?多維關(guān)聯(lián)規(guī)則

負(fù)關(guān)聯(lián)規(guī)則、無關(guān)規(guī)則(dissociationrule)

playbasketballnoteatcereal[20%,33.3%]結(jié)構(gòu)化數(shù)據(jù)中的關(guān)聯(lián)分析多層次關(guān)聯(lián)規(guī)則項有概念層次性低層的項通常具有較低的支持度將項抽象到一定高的層次產(chǎn)生的規(guī)則更有意義一個超市的庫存中至少有10000個項FoodbreadmilkskimSunsetFraser2%whitewheat

milk→bread[20%,60%].2%milk→wheatbread[6%,50%].多層次關(guān)聯(lián)規(guī)則兩類單層 F→G BC→E多層 FC→ETidItems10A,C,D20B,C,E30A,B,C,E40B,EHGFAEBDC信息管理學(xué)院示例:給定某事務(wù)的任務(wù)相關(guān)數(shù)據(jù)集D,它是計算機(jī)部的銷售數(shù)據(jù),對每個事務(wù)TID給出了購買的商品多層關(guān)聯(lián)規(guī)則信息管理學(xué)院商品的概念分層如:計算機(jī)類商品軟件計算機(jī)計算機(jī)輔件打印機(jī)臺式機(jī)筆記本應(yīng)用系統(tǒng)彩色黑白鼠標(biāo)鍵盤IBM…康柏財務(wù)操作系統(tǒng)佳能HP雙飛燕康柏多層關(guān)聯(lián)規(guī)則信息管理學(xué)院概念分層定義了由低層概念到更一般的高層概念的映射序列,可以通過將數(shù)據(jù)內(nèi)的低層概念用概念分層的高層概念替換,對數(shù)據(jù)概化。例中概念分層為4層,記為0,1,2和3在最低的原始層很難找出有趣的購買模式,如{IBM臺式機(jī),HP激光打印機(jī)}不太可能滿足最小支持度。而{計算機(jī),打印機(jī)}更容易滿足最小支持度多層關(guān)聯(lián)規(guī)則信息管理學(xué)院問題:如何使用概念分層有效挖掘多層關(guān)聯(lián)規(guī)則。考察一些基于支持度-置信度框架的方法對于所有層使用一致的最小支持度在較低層使用遞減的最小支持度逐層獨(dú)立層交叉單項過濾層交叉K-項集過濾挖掘多層關(guān)聯(lián)規(guī)則的方法信息管理學(xué)院2.

挖掘多層關(guān)聯(lián)規(guī)則的方法對于所有層使用一致的最小支持度:在每一層挖掘時,使用相同的最小支持度閾值。如整個使用最小支持度閾值5%計算機(jī)[support=10%]臺式機(jī)[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=5%信息管理學(xué)院2.

挖掘多層關(guān)聯(lián)規(guī)則的方法在較低層使用遞減的最小支持度:在每個抽象層有自己的最小支持度閾值。抽象層越低,對應(yīng)的閾值越小。如層1和層2的最小支持度閾值分別為5%和3%計算機(jī)[support=10%]臺式機(jī)[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=3%信息管理學(xué)院逐層獨(dú)立:完全的寬度搜索,沒有頻繁項集的背景知識用于剪枝??疾烀總€節(jié)點(diǎn),不管它的父節(jié)點(diǎn)是否是頻繁的。計算機(jī)[support=10%]臺式機(jī)[support=4%]筆記本[support=6%]層1min_sup=12%層2min_sup=3%信息管理學(xué)院層交叉單項過濾:一個第i層的項被考察,當(dāng)且僅當(dāng)它在第(i-1)層的父節(jié)點(diǎn)是頻繁的。根據(jù)遞減支持度,如果父節(jié)點(diǎn)是頻繁的,它的子女將被考察;否則,它的子孫將由搜索中剪枝。計算機(jī)[support=10%]臺式機(jī)(未考察)筆記本(未考察)層1min_sup=12%層2min_sup=3%信息管理學(xué)院層交叉k-項集過濾:一個第i層的k-項集被考察,當(dāng)且僅當(dāng)它在第(i-1)層的對應(yīng)父節(jié)點(diǎn)k-項集是頻繁的。計算機(jī),打印機(jī)[support=8%]臺式機(jī),彩色打印機(jī)[support=4%]筆記本,黑白打印機(jī)[support=2%]層1min_sup=5%層2min_sup=3%逐層獨(dú)立策略的條件寬松,而層交叉k-項集過濾策略的限制太強(qiáng),層交叉單項過濾策略是一個折衷。進(jìn)一步改進(jìn)為受控層交叉單項過濾策略。通過設(shè)置一個層傳遞閾值,用于向較低層“傳遞”相對頻繁的項信息管理學(xué)院受控的層交叉單項過濾策略:如果滿足層傳遞閾值,則允許考察不滿足最小支持度閾值項的子女計算機(jī)[suppo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論