大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能課件_第1頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能課件_第2頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能課件_第3頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能課件_第4頁
大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1大數(shù)據(jù)時代的數(shù)據(jù)挖掘與商務(wù)智能2大 綱大數(shù)據(jù)的時代背景商務(wù)智能與數(shù)據(jù)科學基于統(tǒng)計的傳統(tǒng)數(shù)據(jù)分析技術(shù)數(shù)據(jù)管理系統(tǒng)與聯(lián)機分析處理數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術(shù)典型應用及案例分析3第二部分商務(wù)智能與數(shù)據(jù)科學4商務(wù)智能概論什么是商務(wù)智能?數(shù)據(jù)、信息、知識管理、信息與決策決策支持系統(tǒng)5什么是商務(wù)智能?商務(wù)智能(BI)定義眾說紛紜。高級管理人員信息系統(tǒng)(EIS)管理信息系統(tǒng)(MIS),決策支持系統(tǒng)(DSS)數(shù)據(jù)庫技術(shù),數(shù)據(jù)倉庫(數(shù)據(jù)集市)數(shù)據(jù)整合與清洗工具查詢和報告工具,在線分析處理工具(OLAP)統(tǒng)計數(shù)據(jù)分析,數(shù)據(jù)挖掘分析性ERP、CRM、SCM。 企業(yè)績效管理,平衡記分卡商業(yè)智能Gartner商業(yè)智能的概念

2、于1996年最早由加特納集團(Gartner Group)提出,加特納集團將商業(yè)智能定義為:商業(yè)智能描述了一系列的概念和方法,通過應用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。67什么是商務(wù)智能?商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計商務(wù)知識和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動,完善各種商務(wù)流程,提升各方面商務(wù)績效,增強綜合競爭力的智慧和能力。8企業(yè)企業(yè)這里用“組織機構(gòu)”或“實體”會顯得更完整,因為所有的組織機構(gòu)和實

3、體(不只是企業(yè))都可以而且應該利用商務(wù)智能;之所以仍用“企業(yè)”是為保持與“商務(wù)”的一致性。各行各業(yè),包括非企業(yè)性機構(gòu),比如政府部門、教育機構(gòu)、醫(yī)療機構(gòu)和公用事業(yè)等,都應該而且能夠利用商務(wù)智能。9現(xiàn)代信息技術(shù)利用現(xiàn)代信息技術(shù)這是這一定義中的關(guān)鍵之一,IT的發(fā)展產(chǎn)生了信息經(jīng)濟和信息社會,在這一新型的經(jīng)濟和社會形態(tài)中,信息的爆炸式激增又產(chǎn)生了對能夠處理和控制信息的新技術(shù)的強烈需求;商務(wù)智能就是新的IT在商務(wù)分析中的有效利用。BI過程中所涉及的IT主要有:從不同的數(shù)據(jù)源收集的數(shù)據(jù)中提取有用的數(shù)據(jù),對數(shù)據(jù)進行清理以保證數(shù)據(jù)的質(zhì)量,將數(shù)據(jù)經(jīng)轉(zhuǎn)換、重構(gòu)后存入數(shù)據(jù)倉庫或數(shù)據(jù)集市(這時數(shù)據(jù)變?yōu)樾畔ⅲ?,然后尋找?/p>

4、適的查詢、報告和分析工具和數(shù)據(jù)挖掘工具對信息進行處理(這時信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)于用戶面前,轉(zhuǎn)變?yōu)闆Q策。10收集數(shù)據(jù)收集收集數(shù)據(jù)是管理和分析數(shù)據(jù)的前提,數(shù)據(jù)收集工作是十分重要的,必須引起企業(yè)的充分重視,在這方面中國企業(yè)與世界上發(fā)達國家中的先進企業(yè)之間的差距非常大,這是商務(wù)智能在中國還不能很快成熟起來的重要原因之一, 這應了中國的一句俗話:“巧婦難為無米之炊”。數(shù)據(jù)和信息的收集主要是通過各種交易系統(tǒng)進行的,比如ERP、CRM、SCM和E-Business等系統(tǒng)。隨著中國企業(yè)在這些方面的進步,數(shù)據(jù)和信息的數(shù)量會快速增長的。另外,信息,特別是非結(jié)構(gòu)化的信息,來自公司各個部門和各個員

5、工創(chuàng)造和收集的、沒有放在上述交易系統(tǒng)中的內(nèi)容。第三方也是企業(yè)收集數(shù)據(jù)和信息的一個重要來源,這樣的外部數(shù)據(jù)和信息包括市場調(diào)研報告、人口統(tǒng)計報告、顧客信用報告等。11管理和分析數(shù)據(jù)管理這里的“管理”主要是指對數(shù)據(jù)的儲存、提取、清洗、轉(zhuǎn)換、裝載、整合等工作,其目的主要是為了提高數(shù)據(jù)的質(zhì)量和安全性。分析“分析”是一個廣泛的概念,這里包括數(shù)據(jù)查詢、數(shù)據(jù)報告、多維分析、數(shù)據(jù)挖掘、高級統(tǒng)計分析等。大多數(shù)人理解的商務(wù)智能都集中在這些分析工具上。12結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化結(jié)構(gòu)化的數(shù)據(jù)主要是指儲存于各個交易系統(tǒng)背后的關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),通常都是以表格的形式存在和展現(xiàn)的。傳統(tǒng)的商務(wù)智能概念只包括這種結(jié)構(gòu)化的、

6、可定量的數(shù)據(jù)。非結(jié)構(gòu)化的非結(jié)構(gòu)化的數(shù)據(jù)和信息主要是上面的提到的各個部門和各個員工創(chuàng)造和收集的、沒有放在各種交易系統(tǒng)中的內(nèi)容,通常是以零散的文件形式存在和展現(xiàn)的;新的商務(wù)智能概念納入了非結(jié)構(gòu)化內(nèi)容的分析,但是非機構(gòu)化的內(nèi)容的管理仍然主要是通過文件管理和內(nèi)容管理(Document Management & Content Management)軟件來進行的。13商務(wù)數(shù)據(jù)和信息 商務(wù)數(shù)據(jù)和信息并不能加以狹隘的理解,這里所致的商務(wù)數(shù)據(jù)和信息包括一切可能對商務(wù)產(chǎn)生影響的、直接和間接的數(shù)據(jù)和信息,往小里說包括顧客的名字、地址和電話號碼等,往大里說包括過國際上的政治、經(jīng)濟、文化和軍事情況等。14商務(wù)智能的目

7、的創(chuàng)造和累計商務(wù)知識和見解這是商務(wù)智能的第一層的目的和功能, 也是最直接的目的和功能;“知識和見解”正是“智能”得名的由來。改善商務(wù)決策水平這是商務(wù)智能的更高一層的目的和功能,企業(yè)能否利用好這一功能、實現(xiàn)這一目的在很大程度上取決于領(lǐng)導者的意識和胸襟以及企業(yè)文化中決策科學化和民主化的成分。15商務(wù)行動與商務(wù)流程采取有效的商務(wù)行動采取有效的商務(wù)行動是創(chuàng)造和累計商務(wù)知識和見解、改善商務(wù)決策水平的目的和動力。商務(wù)智能是能夠指導實戰(zhàn)的高明兵法,而不是“無所不知、但無能為力”的“紙上談兵”。完善各種商務(wù)流程殘缺、散亂、僵化、低效的商務(wù)流程是企業(yè)的頑疾,商務(wù)智能能夠為這一頑疾的診斷和治療做出一定的貢獻; 優(yōu)

8、化后自動化(請注意先后順序)的商務(wù)流程反過來也會促進商務(wù)智能的發(fā)展。16商務(wù)績效提升各方面商務(wù)績效這是商務(wù)智能在企業(yè)內(nèi)部的最高目的和作用,有效的商務(wù)智能系統(tǒng)和技術(shù)能夠幫助企業(yè)提升各個方面的績效:財務(wù)的和非財務(wù)的,前臺的和后臺的,企業(yè)內(nèi)的和供應鏈內(nèi)的,組織的和個人的。企業(yè)績效管理已成為熱門的管理和技術(shù)概念,這既是因為各種軟件廠商的推動又是因為企業(yè)所面臨的績效方面的壓力的增大。17綜合競爭力增強綜合競爭力這是商務(wù)智能在企業(yè)中的最高目的和作用。商務(wù)智能事關(guān)企業(yè)的興衰成敗和生死存亡。如今以及未來企業(yè)之間的競爭是主要是綜合智能上的競爭,不管是中國企業(yè)還是外國企業(yè),不管是國營企業(yè)還是民營企業(yè),不管是大企業(yè)

9、還是小企業(yè),都必須提高企業(yè)經(jīng)營和競爭活動中的智能水平,爭取成為優(yōu)秀的智能企業(yè),否則一定會落后于智能上高人一等、捷足先登的企業(yè)。智慧和能力把商務(wù)智能分為智慧和能力是因為真正的商務(wù)智能既有思想層面也有行動層面(而且“智能”本身可以一分為二、二合為一)。18商務(wù)智能軟件發(fā)展前景根據(jù)Gartner公司的報告,2007年全球BI(商業(yè)智能)軟件市場份額達到了51億美元,比2006年增加了13%。最大的贏家是那些大的軟件廠商,如SAP、IBM、Oracle和Microsoft,它們總的市場份額從2006年的20%,增加到2007年的66%。這種急劇增長主要是通過并購來實現(xiàn)的。在2007年1月份,SAP收購

10、了BO(Business Object),IBM收購了Cognos。在2007年3月份,Oracle則收購了Hyperion。合并之后,SAP和BO排名第一,占據(jù)了全球26.3的BI軟件市場,比第二名(IBM和Cognos,市場份額為14.7%)高出了將近一倍。SAS為第三名,市場份額為14.5%。下表中的排名與此不同,是因為有些并購直到2008年才最終完成。19Gartner發(fā)布商務(wù)智能魔力象限 /reprints/oracle/154227.html20Gartner發(fā)布客戶數(shù)據(jù)挖掘魔力象限 /reprints/sas/vol5/article3/article3.html21數(shù)據(jù)、信息與

11、知識每時每刻,我們身邊都充滿了各種各樣的數(shù)據(jù)。但只有將這些雜亂無章的數(shù)據(jù),轉(zhuǎn)換為信息和知識,才能幫助我們做出聰明的選擇。由于數(shù)據(jù)、信息與知識三者之間有著密切的相關(guān)性,他們常被混淆使用。我們將重點對數(shù)據(jù)、信息與知識進行分析和對比。 22數(shù)據(jù)(Data)數(shù)據(jù)泛指對客觀事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示,以適合于用人工或自然的方式進行保存、傳遞和處理。例如,水的溫度是100,禮物的重量是500克,木頭的長度是2米,大樓的高度時45層。在這些表述中:100;500克;2米;45層就是數(shù)據(jù)。數(shù)據(jù)的表現(xiàn)形式是多種多樣的,除了數(shù)字,數(shù)據(jù)還以圖像、聲音、文字等形式表現(xiàn)出來。23信息(Informat

12、ion)信息是指有一定含義的、經(jīng)過加工處理的、對決策有價值的數(shù)據(jù)。 信息數(shù)據(jù)處理 信息是有意義的數(shù)據(jù),是被賦予相關(guān)性和目的性的數(shù)據(jù)。例如,人口的分布情況、降雨量分布情況等??梢杂脤iT的信息管理系統(tǒng)對各類信息進行管理。信息管理系統(tǒng)的最基本功能就是數(shù)據(jù)收集和數(shù)據(jù)處理。24知識(Knowledge)知識是信息基礎(chǔ)上的又一次升華,是濃縮的系統(tǒng)化了的信息。需要通過信息,使用歸納、演繹的方法得到。知識只有在經(jīng)過廣泛深入地實踐檢驗,被人消化吸收,并成為了個人的信念和判斷取向之后才能成為知識。知識信息+理解(understanding)與推理(reasoning)解決問題的技能(skill)決策支持系統(tǒng)、專家

13、系統(tǒng)、案例推理系統(tǒng)是對人類知識的利用,而智能數(shù)據(jù)分析是獲得隱含在數(shù)據(jù)信息中的知識。OECD 1990s 知識分類 3W+H25信息(Information)知識(Knowledge)與智慧(Wisdom) 26The Data Information Knowledge and Wisdom Hierarchy (DIKW) 知識是從數(shù)據(jù)到智慧劃分為不同層次的。27示例 數(shù)據(jù):上季度產(chǎn)品A在華東地區(qū)銷售額為120萬。 信息:上季度產(chǎn)品A華東地區(qū)銷售額比去年同期減少了25 %。 知識:如分析原因是華東地區(qū)銷售單位不行,或產(chǎn)品A進入了衰退期,還是公司整體營銷活動落后,競爭者強力促銷導致?或是其它原

14、因。針對這一問題公司應對的策略是什么? 智慧:應對的行動方案可能有多種,但(戰(zhàn)略)選擇哪個靠智慧。行動則又會產(chǎn)生新的交易數(shù)據(jù)。28管理與管理系統(tǒng) 管理是管理主體作用于管理客體的活動過程。隨著科技的發(fā)展,管理及管理系統(tǒng)的信息化、網(wǎng)絡(luò)化、智能化已越來越受到人們的廣泛關(guān)注。 (信息)管理系統(tǒng):數(shù)據(jù)處理系統(tǒng)、檢索系統(tǒng)、計算機輔助系統(tǒng)、管理信息系統(tǒng)MIS、辦公自動化系統(tǒng)OA、決策支持系統(tǒng)DSS、知識管理系統(tǒng)KMS等。29決策與信息 “決策” 一詞的英語表述為decision-making,意思就是作出決定或選擇。當今是信息爆炸時代,重要的不是獲得信息,而在于對信息的加工和分析,使之對決策有用。決策者需要

15、的是對決策有意義的新信息,決策者的注意力是一種最寶貴資源,不能無謂消耗在大量無關(guān)的信息上。對信息的提供,就應當有一定條件的限制,不符合這些條件的信息,不應該輸送給決策者。所以信息系統(tǒng)應該包括一個篩選系統(tǒng),以保證提供與決策有關(guān)的有用信息。 30國民經(jīng)濟和社會的信息化社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn)社會信息化后,社會的歷史是數(shù)據(jù)的歷史因此政府提出“信息化”和“發(fā)展軟件產(chǎn)業(yè)”31數(shù)據(jù)分析與挖掘有許多預測機構(gòu)和名人都看好數(shù)據(jù)分析技術(shù)對未來科學技術(shù)的影響,對市場所占有的份額有樂觀的估計。世界有名的Gartner Group咨詢公司預計:不久的將來先進大型企業(yè)會設(shè)置“統(tǒng)一數(shù)據(jù)分析專家”, 數(shù)據(jù)分析的應

16、用一定會擴展開來!微軟專家也認為數(shù)據(jù)分析與挖掘會成為21世紀的重要技術(shù)之一,也有研究小組。在微軟亞洲研究院(/asia/)有相應的研究,有多個研究小組與數(shù)據(jù)分析有關(guān)。32數(shù)據(jù)分析與挖掘概況一些技術(shù)的發(fā)展也需要數(shù)據(jù)分析技術(shù)。 ERP(企業(yè)資源計劃), SCM(物流與供應鏈管理), CRM(客戶關(guān)系管理),BI(商務(wù)智能), 數(shù)據(jù)庫, 數(shù)據(jù)倉庫,知識管理 決策支持系統(tǒng)新的發(fā)展。 數(shù)據(jù)的大量積累,需求的多樣性而發(fā)展起來。33數(shù)據(jù)分析與挖掘概況數(shù)據(jù)分析與挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)34數(shù)據(jù)分析與挖掘概況數(shù)據(jù)爆炸,知識貧乏 苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策! 數(shù)據(jù)知識決策模式趨勢

17、事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府人口統(tǒng)計生命周期35應用需求科學領(lǐng)域生物醫(yī)學數(shù)據(jù) & DNA數(shù)據(jù)分析空間數(shù)據(jù)分析 (GIS, GPS, 遙感系統(tǒng))商業(yè)領(lǐng)域經(jīng)濟 & 金融數(shù)據(jù)分析零售業(yè)數(shù)據(jù)分析電信業(yè)數(shù)據(jù)分析WWW數(shù)據(jù)分析Necessity is the mother of invention(Plato)36現(xiàn)代數(shù)據(jù)分析的特點最大的特點:海量數(shù)據(jù)集(大數(shù)據(jù))美國零售商沃爾瑪每天大約2千萬筆的交易,一年的客戶交易數(shù)據(jù)庫容量超過11TBAT&T公司,1億電話用戶,每天3億次的呼叫特征數(shù)據(jù)美國宇航局NASA的地球觀測系統(tǒng)每小時生成幾個GB的原始數(shù)據(jù)

18、人類基因工程中超過3.3109個核苷酸的數(shù)據(jù)庫其它特點:較高維度,有噪聲,屬性值缺失37技術(shù)驅(qū)動 更大,更便宜的存儲器 - 磁盤密度以Moores law增長 “每18個月增長一倍” - 存儲器價格飛快下降下降更快,更便宜的信息處理器 - 分析更多的數(shù)據(jù) - 適應更多復雜的模型 - 引起更多查詢技術(shù) - 激起更強的可視化技術(shù) 數(shù)據(jù)處理與分析技術(shù) - 數(shù)據(jù)庫與數(shù)據(jù)倉庫 - 統(tǒng)計學 - 人工智能 - 機器學習38智能數(shù)據(jù)分析(1) Intelligent data analysis has its origins in various disciplines. Ststistics and machine learning is the most important two dis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論