大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用_第1頁
大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用_第2頁
大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用_第3頁
大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用_第4頁
大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會20132013年年1212月月1414日日夏火松 博士 教授 博導 大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與大數(shù)據(jù)情景下離群數(shù)據(jù)挖掘與商務應用商務應用第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會n提綱提綱 第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會OUTLIER 離群數(shù)據(jù)挖掘(OUTLIER)問題最早就被提出(Hawkins,1980),現(xiàn)有的對離群數(shù)據(jù)(有的稱為孤立點)的處理方法主要研究如何減少離群數(shù)據(jù)對正常數(shù)據(jù)的影響,或僅當作噪音對待 。而現(xiàn)實的大數(shù)據(jù)中離群數(shù)據(jù)一方面伴有大量的噪音 ,另一方

2、面又可能包括極有價值的信息。從算法上大部分的研究集中在關(guān)系的發(fā)現(xiàn)、類別的判定和類別的描述,而忽視了離群數(shù)據(jù)的存在和意義。離群數(shù)據(jù)的發(fā)現(xiàn)主要有三種研究方法:統(tǒng)計學的方法、基于距離的有三種研究方法:統(tǒng)計學的方法、基于距離的方法和基于偏離的方法。方法和基于偏離的方法。 第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會 從科學研究上:從科學研究上:隨著新一代的互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,處理速度、容量限制和數(shù)據(jù)質(zhì)量發(fā)生了深刻的變化,大數(shù)據(jù)時代已經(jīng)來臨(鄔賀銓院士,2012),以“數(shù)據(jù)驅(qū)動”為特征的新興商務智能應用模式正在發(fā)生變化。利用大行為數(shù)據(jù)和大交易數(shù)據(jù)進行的大數(shù)據(jù)挖掘分析與應用的

3、重要性已經(jīng)得到先進企業(yè)關(guān)注并開始應用。大數(shù)據(jù)具有體量大、類型多樣復雜、快速、價值稀疏等特性(李國杰,2012)。這種價值的稀疏(大海撈針)特性,正好適合離群數(shù)據(jù)挖掘在大數(shù)據(jù)中找出有價值的模式與知識。 離群數(shù)據(jù)挖掘能夠從隱藏在大量的社會網(wǎng)絡(luò)關(guān)系數(shù)據(jù)中發(fā)現(xiàn)一些不易發(fā)現(xiàn)的未知知識,能從微博社會網(wǎng)絡(luò)關(guān)系中分析重要突發(fā)事件的回應與正面積極的回應,為決策者提供重要的、極有價值的信息或知識,從而產(chǎn)生不可估量的效益?,F(xiàn)有數(shù)據(jù)挖掘的研究一部分研究集中于算法的改進與提出上,另一部分集中于挖掘內(nèi)容上的關(guān)系。 第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會 從教學上:從教學上:基于數(shù)據(jù)挖掘的信息分

4、析理論與技術(shù)成為未來信管與電商專業(yè)的重要內(nèi)容。B 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)夏火松 - 2004 - 本書詳細闡述了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本原理, 系統(tǒng)而全面地介紹了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的概念, 作用, 算法和應用舉例, 并且給出了信息分析所涉及到的若干問題及框架. 本書介紹了最新的信息分析技術(shù)研究成果, 如小波分析, Rough 分析, 蟻群分析, 分形技術(shù), .被引用次數(shù):152第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會-第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會文獻探索 關(guān)鍵詞 領(lǐng)域作者 重要期刊圖圖 1 1 基于基于big data big d

5、ata 的的OUTLIEROUTLIER與與BIBI應用應用第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會設(shè)計科學 Design as an Artifact Problem Relevance Design Evaluation Research Contributions Research Rigor Design as a Search Communication of Research第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會大數(shù)據(jù)的4V特性體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長

6、總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會大數(shù)據(jù)時代三大變革思維變革思維變革商業(yè)變革管理變革更多:不是隨機樣本,而是全體數(shù)據(jù)更雜:不是精確性,而是混雜性更好:不是因果關(guān)系,而是相關(guān)關(guān)系數(shù)據(jù)化:一切皆可“量化”價值:“取之不盡

7、,用之不竭”的數(shù)據(jù)創(chuàng)新角色定位:數(shù)據(jù)、技術(shù)與思維的三足鼎立風險:讓數(shù)據(jù)主宰一切的隱憂掌控:責任與自由并舉的信息管理維克多在大數(shù)據(jù)時代維克多在大數(shù)據(jù)時代第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會基于基于SQL語言語言: 面對OLAP的傳統(tǒng)行和列不基于不基于SQL或或map-reduce的的: 由谷歌率先發(fā)由谷歌率先發(fā)起起數(shù)據(jù)流數(shù)據(jù)流: 基于運行商數(shù)據(jù)直接生成任意圖形新平臺技術(shù)新平臺技術(shù)數(shù)據(jù)入數(shù)據(jù)入口口/匯聚匯聚數(shù)據(jù)平臺數(shù)據(jù)平臺分析分析不同范圍的服務不同范圍的服務傳統(tǒng)交付模式 - 單片或基于設(shè)備的解決方案云云: 能夠充分利用物理設(shè)施的彈性,以實現(xiàn)處理快速增長數(shù)據(jù)的能力“數(shù)據(jù)

8、庫將演變成一個虛擬的,基于云計算,超級可擴展的分布式平臺。”- Forrester analyst Jim Kobielus新的傳輸方案新的傳輸方案新模式和新技術(shù)第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會利用用戶”行為指紋”創(chuàng)造新商機用戶在線的每一次點擊,每一次評論,每一個視頻點播,就是大數(shù)據(jù)的典型來源?;ヂ?lián)網(wǎng)企業(yè)之所以取得令人矚目的成績,其核心的本質(zhì)就是包括用戶網(wǎng)絡(luò)操作的大數(shù)據(jù),進行記錄和分析,形成用戶“行為指紋”,從而洞悉用戶的潛在的、真實的需求,形成預判。這是傳統(tǒng)企業(yè)花費重金都難以企及的夢想。所有傳統(tǒng)的產(chǎn)品公司都只能淪為這種新型用戶平臺級公司的附庸。第11屆(20

9、13)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會Big data 文獻分析 縱觀國內(nèi)外研究現(xiàn)狀可見: 1.大數(shù)據(jù)相關(guān)的研究與應用目前仍然處于起步階段,學術(shù)研究大多局限于宏觀層面。 2.企業(yè)對社交媒體和互聯(lián)網(wǎng)中大數(shù)據(jù)的應用仍然不足,急需進一步的深入開展。 3.現(xiàn)在的大數(shù)據(jù)研究大多立足于信息科學,側(cè)重于大數(shù)據(jù)的獲取、存儲、處理挖掘和信息安全等方面,而很少有基于管理角度的研究。第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會-第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會研究問題的述評之一:研究問題的述評之一:目前社會關(guān)系網(wǎng)絡(luò)的研究重點關(guān)注社會網(wǎng)絡(luò)關(guān)系與內(nèi)容

10、的挖掘,可分為2類問題:第一類問題是一次承載較大信息量的社會網(wǎng)絡(luò)關(guān)系與內(nèi)容的挖掘;另一類是一次承載信息量小但總規(guī)模數(shù)據(jù)大而分布的(具有大數(shù)據(jù)特征)社會網(wǎng)絡(luò)關(guān)系與內(nèi)容的挖掘,例如微博客的關(guān)系,這種關(guān)系既有弱關(guān)系(生人間)又有強關(guān)系(熟人間)。對第2類問題的研究能夠很好的分析互聯(lián)網(wǎng)與移動網(wǎng)絡(luò)之間的信息傳遞和知識發(fā)現(xiàn)的規(guī)律和機制,但是缺乏研究針對微博特征、分但是缺乏研究針對微博特征、分形相似不變性和大數(shù)據(jù)離群挖掘的方法來研究其內(nèi)容創(chuàng)造形相似不變性和大數(shù)據(jù)離群挖掘的方法來研究其內(nèi)容創(chuàng)造、共享、傳播之間的社會關(guān)系網(wǎng)絡(luò)與、共享、傳播之間的社會關(guān)系網(wǎng)絡(luò)與BI應用模式。應用模式。第11屆(2013)信息管理與

11、電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會研究問題的述評之二:研究問題的述評之二:在社會計算研究領(lǐng)域中王飛躍等人的研究主要集中在利用復雜網(wǎng)絡(luò)理論和典型的社會問題來研究社會系統(tǒng)建模、實驗與分析方法、相關(guān)社會學理論研究及應用研究,而采用離群數(shù)據(jù)挖掘、SVM和分形相似不變性等思路來研究社會計算在微博中的大數(shù)據(jù)社會網(wǎng)絡(luò)關(guān)系離群挖掘與BI應用模式還少見報道。第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會研究問題的述評之三:研究問題的述評之三:現(xiàn)有微博挖掘研究是一種建立在文本挖掘、用戶活躍指數(shù)等的假設(shè)基礎(chǔ)上,這種假設(shè)并沒有解決從大數(shù)據(jù)社會計算視這種假設(shè)并沒有解決從大數(shù)據(jù)社會計算視角對微博中離

12、群數(shù)據(jù)分析,這種模型也很少考慮相似行為角對微博中離群數(shù)據(jù)分析,這種模型也很少考慮相似行為模型。模型。第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會研究問題的述評之四:研究問題的述評之四: 離群數(shù)據(jù)的發(fā)現(xiàn)主要研究有三種方法:統(tǒng)計學的方法離群數(shù)據(jù)的發(fā)現(xiàn)主要研究有三種方法:統(tǒng)計學的方法(Barnett,1994)、基于距離的方法(、基于距離的方法(Knorr&Ng,1997,1998,1999)和基于偏離的方法)和基于偏離的方法(Angiulli,2006)。 第一種方法需要知道數(shù)據(jù)的分布模型,使用假設(shè)檢驗來確認離群第一種方法需要知道數(shù)據(jù)的分布模型,使用假設(shè)檢驗來確認離群

13、數(shù)據(jù)的存在。數(shù)據(jù)的存在。 第二種是通過數(shù)據(jù)間的距離計算來確定沒有足夠多鄰居對象的離第二種是通過數(shù)據(jù)間的距離計算來確定沒有足夠多鄰居對象的離群數(shù)據(jù)群數(shù)據(jù) ,但是由于需要通過抽樣技術(shù)設(shè)置合適的參數(shù),目前研,但是由于需要通過抽樣技術(shù)設(shè)置合適的參數(shù),目前研究集中在距離的定義和最近鄰點的鄰居方法。究集中在距離的定義和最近鄰點的鄰居方法。 第三種第三種通過數(shù)據(jù)中的某項記錄對整個數(shù)據(jù)的影響及變化來確定離群數(shù)據(jù),也就是求出數(shù)據(jù)子集的偏離程度,即相異度,但是由于事先并不知道數(shù)據(jù)的特性而相異函數(shù)的定義較為復雜。 缺乏集成研究大數(shù)據(jù)背景下的基于社會計算的分布式、異構(gòu)微博缺乏集成研究大數(shù)據(jù)背景下的基于社會計算的分布式

14、、異構(gòu)微博離群數(shù)據(jù)挖掘問題離群數(shù)據(jù)挖掘問題,最終制約新一代的社會計算環(huán)境下大數(shù)據(jù)的BI管理研究和廣泛應用。 第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會-第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會應用模式: 大數(shù)據(jù)的應用模式在業(yè)界出現(xiàn)了大數(shù)據(jù)的應用模式在業(yè)界出現(xiàn)了6類代表:類代表: (1)技術(shù)提供模式)技術(shù)提供模式 (2)數(shù)據(jù)空間運營模式)數(shù)據(jù)空間運營模式 (3)數(shù)據(jù)使能模式(阿里金融的小額信貸)數(shù)據(jù)使能模式(阿里金融的小額信貸) (4)數(shù)字媒體模式)數(shù)字媒體模式 (5)租售信息)租售信息 (6)租售數(shù)據(jù)模式)租售數(shù)據(jù)模式 第11屆(2013)信息管理與電子商務院長、主任專業(yè)建設(shè)與學術(shù)年會OUTLIER應用模式: 由于傳統(tǒng)的由于傳統(tǒng)的BI應用模式是基于關(guān)系模型的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘下應用模式是基于關(guān)系模型的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘下的典型應用,但是這種模式忽視了新一代互聯(lián)網(wǎng)的非結(jié)構(gòu)化、異的典型應用,但是這種模式忽視了新一代互聯(lián)網(wǎng)的非結(jié)構(gòu)化、異構(gòu)、分布多源的大數(shù)據(jù)視角下的稀有價值的挖掘與商務智能應用構(gòu)、分布多源的大數(shù)據(jù)視角下的稀有價值的挖掘與商務智能應用, 第11屆(2013)信息管理與電子商務院長、主任專

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論