大數(shù)據(jù)分析、挖掘與應(yīng)用20_第1頁
大數(shù)據(jù)分析、挖掘與應(yīng)用20_第2頁
大數(shù)據(jù)分析、挖掘與應(yīng)用20_第3頁
大數(shù)據(jù)分析、挖掘與應(yīng)用20_第4頁
大數(shù)據(jù)分析、挖掘與應(yīng)用20_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 大數(shù)據(jù)分析、挖掘與應(yīng)用數(shù)據(jù)挖掘與智能信息系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)挖掘與智能信息系統(tǒng)實(shí)驗(yàn)室室 一、大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)的基本概念大數(shù)據(jù)的基本概念 比較有代表性:比較有代表性: 1) 3V 1) 3V 定義,即認(rèn)為大數(shù)據(jù)需滿足定義,即認(rèn)為大數(shù)據(jù)需滿足3 3 個(gè)特點(diǎn):規(guī)模性個(gè)特點(diǎn):規(guī)模性(Volume)(Volume)、多樣性、多樣性(Variety)(Variety)和高速性和高速性(Velocity)(Velocity)。 2) 4V 2) 4V 定義,即嘗試在定義,即嘗試在3V 3V 的基礎(chǔ)上增加一個(gè)新的特性。的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)關(guān)于第四個(gè)V V 的說法并不統(tǒng)一,的說法并不統(tǒng)一,ID

2、C IDC 認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性有價(jià)值性(Value)(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特,大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而點(diǎn)。而IBM IBM 認(rèn)為大數(shù)據(jù)必然具有真實(shí)性認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)(Veracity)。 3) 3) 維基百科對(duì)大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利維基百科對(duì)大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。忍時(shí)間的數(shù)據(jù)集。二、大數(shù)據(jù)處理架構(gòu)大數(shù)據(jù)處理模式大數(shù)據(jù)處理模式 1 1)流處理)流處理(Stream

3、 Processing)(Stream Processing),即直接處理,即直接處理 流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少。因此,盡可能快地對(duì)最新的數(shù)據(jù)做出分逝而不斷減少。因此,盡可能快地對(duì)最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。 2 2)批處理)批處理(Batch Processing)(Batch Processing),即先存儲(chǔ)后處理,即先存儲(chǔ)后處理 Google Google 公司在公司在2004 2004 年提出的年提出的MapReduceMapReduce編

4、程模編程模型是最具代表性的批處理模式。型是最具代表性的批處理模式。 MAPREDUCE執(zhí)行流程圖 MapReduceMapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的分塊,然后分別交給不同的MapMap任務(wù)區(qū)處理。任務(wù)區(qū)處理。MapMap任務(wù)任務(wù)從輸入中解析出從輸入中解析出Key/ValueKey/Value對(duì)集合,然后對(duì)這些集合執(zhí)對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的行用戶自行定義的MapMap函數(shù)得到中間結(jié)果,并將該結(jié)果函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。寫入本地硬盤。ReduceReduce任務(wù)從硬盤上讀取數(shù)據(jù)之后,任務(wù)從硬盤上

5、讀取數(shù)據(jù)之后,會(huì)根據(jù)會(huì)根據(jù)key key 值進(jìn)行排序,將具有相同值進(jìn)行排序,將具有相同key key 值的組織在值的組織在一起。最后用戶自定義的一起。最后用戶自定義的ReduceReduce函數(shù)會(huì)作用于這些排函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。好序的結(jié)果并輸出最終結(jié)果。 MapReduceMapReduce的核心設(shè)計(jì)思想:的核心設(shè)計(jì)思想: 1)1)將問題分而治之;將問題分而治之; 2)2)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效的避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通訊開銷。的避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通訊開銷。 MapReduceMapReduce模

6、型簡單,且現(xiàn)實(shí)中很多問題都模型簡單,且現(xiàn)實(shí)中很多問題都可用可用MapReduceMapReduce模型來表示。因此該模型公開后,立刻模型來表示。因此該模型公開后,立刻受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。得到廣泛的應(yīng)用。大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的基本流程 1)1)數(shù)據(jù)抽取與集成數(shù)據(jù)抽取與集成 2)2)數(shù)據(jù)分析數(shù)據(jù)分析 面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的增多著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的增多; ;大數(shù)據(jù)時(shí)代的算法需要進(jìn)

7、行調(diào)整,準(zhǔn)確率不再是大數(shù)據(jù)大數(shù)據(jù)時(shí)代的算法需要進(jìn)行調(diào)整,準(zhǔn)確率不再是大數(shù)據(jù)應(yīng)用的最主要指標(biāo)應(yīng)用的最主要指標(biāo); ;數(shù)據(jù)結(jié)果好壞的衡量。數(shù)據(jù)結(jié)果好壞的衡量。 3 3)數(shù)據(jù)解釋)數(shù)據(jù)解釋( (可視化技術(shù)可視化技術(shù)) )三、天體光譜大數(shù)據(jù)分析與挖掘 我國已建造一臺(tái)大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡我國已建造一臺(tái)大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡(LAMOSTLAMOST),是國家重大科學(xué)工程項(xiàng)目,也是世界上光譜),是國家重大科學(xué)工程項(xiàng)目,也是世界上光譜獲取率最高的望遠(yuǎn)鏡。預(yù)計(jì)獲取率最高的望遠(yuǎn)鏡。預(yù)計(jì)LAMOSTLAMOST所觀測到的光譜數(shù)據(jù)容所觀測到的光譜數(shù)據(jù)容量將有可能達(dá)到量將有可能達(dá)到4TB4TB;巡天所

8、覆蓋的波段為;巡天所覆蓋的波段為37003700埃至埃至90009000埃,埃,即其觀測屬性可達(dá)數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:即其觀測屬性可達(dá)數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:圖像和圖像和FITSFITS文件等。文件等。 科學(xué)目標(biāo)科學(xué)目標(biāo): : “星系紅移巡天星系紅移巡天”、“恒星和銀河系恒星和銀河系的結(jié)構(gòu)的結(jié)構(gòu) 特征特征”和和“多波段認(rèn)證多波段認(rèn)證” 。 天體光譜大數(shù)據(jù)分析處理主要內(nèi)容天體光譜大數(shù)據(jù)分析處理主要內(nèi)容: :預(yù)處理預(yù)處理( (去噪、去噪、歸一化等歸一化等) )、分類與識(shí)別分類與識(shí)別、測量(紅移等參數(shù))測量(紅移等參數(shù))等。等。 一條SEYFERT 2 SEYFERT 2

9、光譜數(shù)據(jù)圖( (紅移為0)0) 天體光譜是天體電磁輻射按照波長的有序排列,蘊(yùn)含著天體的重要天體光譜是天體電磁輻射按照波長的有序排列,蘊(yùn)含著天體的重要物理信息,例如:天體的化學(xué)成份、天體的表面溫度、直徑、質(zhì)量、光物理信息,例如:天體的化學(xué)成份、天體的表面溫度、直徑、質(zhì)量、光度以及天體的視向運(yùn)動(dòng)和自轉(zhuǎn)度以及天體的視向運(yùn)動(dòng)和自轉(zhuǎn)。天文學(xué)家和天體物理學(xué)家通過分析天體天文學(xué)家和天體物理學(xué)家通過分析天體光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的形成和隨時(shí)間的演化等重大科學(xué)問題形成和隨時(shí)間的演化等重大科學(xué)問題。 由于天文界對(duì)宇

10、宙的認(rèn)識(shí)還比較有限,由于天文界對(duì)宇宙的認(rèn)識(shí)還比較有限,LAMOSTLAMOST巡天計(jì)劃的一個(gè)重要任務(wù)是要發(fā)現(xiàn)一些新的、巡天計(jì)劃的一個(gè)重要任務(wù)是要發(fā)現(xiàn)一些新的、特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術(shù)從海特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術(shù)從海量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)律是數(shù)據(jù)挖掘值得研究和探索的新應(yīng)用領(lǐng)域。律是數(shù)據(jù)挖掘值得研究和探索的新應(yīng)用領(lǐng)域。 面向特定任務(wù)的數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)挖掘面向特定任務(wù)的數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域發(fā)展的趨勢(shì)之一。以領(lǐng)域發(fā)展的趨勢(shì)之一。以LAMOSTLAMOST項(xiàng)目為背景,對(duì)天體項(xiàng)目為背景,對(duì)天體

11、光譜數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,其研究成果不僅具有光譜數(shù)據(jù)挖掘技術(shù)進(jìn)行了研究,其研究成果不僅具有重要的理論價(jià)值,而且可直接應(yīng)用到重要的理論價(jià)值,而且可直接應(yīng)用到LAMOSTLAMOST中,為國中,為國家重大科學(xué)工程提供技術(shù)支撐。家重大科學(xué)工程提供技術(shù)支撐。近年來主持承擔(dān)的部分課題1 1 海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(6127226361272263),國家自),國家自然科學(xué)基金,然科學(xué)基金,2013.1-2016.12,2013.1-2016.12,(在研)(在研)2 2 面向面向LAMOST LAMOST 天文光譜特征線的數(shù)據(jù)挖掘方法研究(天文光

12、譜特征線的數(shù)據(jù)挖掘方法研究(6107314561073145),),國家自然科學(xué)基金,國家自然科學(xué)基金,2011.1-2013.12,2011.1-2013.12,(在研)(在研)3 3 面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究(6111112031761111120317),國家自然科學(xué)基金委國際合作與交流項(xiàng)目,),國家自然科學(xué)基金委國際合作與交流項(xiàng)目,2011.6-2011.12,2011.6-2011.12,(結(jié)題)(結(jié)題)4 4 基于加權(quán)和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖掘技術(shù)基于加權(quán)和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖

13、掘技術(shù)(6077301460773014),國家自然科學(xué)基金,),國家自然科學(xué)基金,2008.1-2010.12,2008.1-2010.12,(結(jié)題)(結(jié)題)5 5 基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(6091112047860911120478),國家),國家自然科學(xué)基金委國際合作與交流項(xiàng)目,自然科學(xué)基金委國際合作與交流項(xiàng)目,2009.9-2010.3,2009.9-2010.3,(結(jié)題)(結(jié)題)6 6 基于背景知識(shí)的數(shù)據(jù)挖掘方法及其在基于背景知識(shí)的數(shù)據(jù)挖掘方法及其在LAMOSTLAMOST中的應(yīng)用(中的應(yīng)用(6057307560573075),),

14、國家自然科學(xué)基金,國家自然科學(xué)基金,2006.1-2008.12,2006.1-2008.12,(結(jié)題)(結(jié)題)7 7 海量天體光譜數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)海量天體光譜數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)(2003AA133060) (2003AA133060) ,國家,國家“863863”高技術(shù)計(jì)劃子課題,高技術(shù)計(jì)劃子課題,2003.8-2005.82003.8-2005.8(結(jié)題)(結(jié)題)主要成果之一:基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng) 將概念格中每個(gè)概念節(jié)點(diǎn)內(nèi)涵描述為天體光將概念格中每個(gè)概念節(jié)點(diǎn)內(nèi)涵描述為天體光譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識(shí)譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識(shí)

15、別方法。首先將概念節(jié)點(diǎn)的內(nèi)涵縮減看作天體光譜特別方法。首先將概念節(jié)點(diǎn)的內(nèi)涵縮減看作天體光譜特征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;其次對(duì)于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念其次對(duì)于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念節(jié)點(diǎn)內(nèi)涵是否為稠密子空間,進(jìn)而判斷出概念節(jié)點(diǎn)外節(jié)點(diǎn)內(nèi)涵是否為稠密子空間,進(jìn)而判斷出概念節(jié)點(diǎn)外延中包含的數(shù)據(jù)對(duì)象是否為天體光譜離群數(shù)據(jù);最后延中包含的數(shù)據(jù)對(duì)象是否為天體光譜離群數(shù)據(jù);最后以離散化天體光譜數(shù)據(jù)作為形式背景,實(shí)驗(yàn)驗(yàn)證了利以離散化天體光譜數(shù)據(jù)作為形式背景,實(shí)驗(yàn)驗(yàn)證了利用該方法識(shí)別出的天體光譜離群數(shù)據(jù)是準(zhǔn)確的、完備用

16、該方法識(shí)別出的天體光譜離群數(shù)據(jù)是準(zhǔn)確的、完備的和有效的。的和有效的。典型論文1 Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An 1 Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An Outlier Mining Algorithm Based on Constrained Concept Outlier Mining Algorithm Based on Constrained Concept Lattice, International Journal of Syst

17、ems ScienceLattice, International Journal of Systems Science(acceptaccept)2 Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold 2 Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold Pedrycz. A Completeness Analysis of Frequent Weighted Pedrycz. A Completeness Analysis of Frequent Weigh

18、ted Concept Lattices and Their Algebraic PropertiesConcept Lattices and Their Algebraic Properties,Data & Data & Knowledge EngineeringKnowledge Engineering,818182 (2012) 82 (2012) :104104117 117 3 Jifu Zhang3 Jifu Zhang,Yiyong Jiang, Kai H. Chang et al. A Concept Yiyong Jiang, Kai H. Chang e

19、t al. A Concept Lattice Based Outlier Mining Method in Low Dimensional Lattice Based Outlier Mining Method in Low Dimensional Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-1439 1439 4 4 張繼福;張素蘭;蔣義勇張繼福;張素蘭;蔣義勇. . 基于約束概念格的天體光譜局部離群

20、數(shù)基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng),光譜學(xué)與光譜分析,據(jù)挖掘系統(tǒng),光譜學(xué)與光譜分析,20092009,2929(2 2):):551-555 551-555 5 5 張繼福等張繼福等. . 基于概念格的天體光譜離群數(shù)據(jù)識(shí)別方法,自動(dòng)化學(xué)報(bào),基于概念格的天體光譜離群數(shù)據(jù)識(shí)別方法,自動(dòng)化學(xué)報(bào),20082008,3434(9 9):):1060-1066 1060-1066 6 Jianghui Cai6 Jianghui Cai;Jifu ZhangJifu Zhang;Zhao Xujun. A Star Spectrum Zhao Xujun. A Star Spectrum Ou

21、tlier Mining System Based on Simulated Annealing, Outlier Mining System Based on Simulated Annealing, International Journal of Innovative Computing, Information International Journal of Innovative Computing, Information and Controland Control,20082008,4 4(9 9):):2263-2271 2263-2271 主要成果之二:天體光譜數(shù)據(jù)相關(guān)性分

22、析系統(tǒng) 以國家重大科學(xué)工程以國家重大科學(xué)工程LAMOSTLAMOST項(xiàng)目為背項(xiàng)目為背景,利用一階謂詞邏輯作為天體光譜知識(shí)表示景,利用一階謂詞邏輯作為天體光譜知識(shí)表示技術(shù),提出了一種約束技術(shù),提出了一種約束FPFP樹及其構(gòu)造算法,從樹及其構(gòu)造算法,從而有效地提高了天體光譜數(shù)據(jù)相關(guān)性分析的針而有效地提高了天體光譜數(shù)據(jù)相關(guān)性分析的針對(duì)性和效率,并在此基礎(chǔ)上,提出了一種基于對(duì)性和效率,并在此基礎(chǔ)上,提出了一種基于約束約束FPFP樹的天體光譜數(shù)據(jù)相關(guān)性分析方法。實(shí)樹的天體光譜數(shù)據(jù)相關(guān)性分析方法。實(shí)驗(yàn)結(jié)果分析表明,利用該相關(guān)性分析方法挖掘驗(yàn)結(jié)果分析表明,利用該相關(guān)性分析方法挖掘天體光譜數(shù)據(jù)特征和物理化學(xué)性

23、質(zhì)之間存在的天體光譜數(shù)據(jù)特征和物理化學(xué)性質(zhì)之間存在的相關(guān)性,是可行的和有價(jià)值的。相關(guān)性,是可行的和有價(jià)值的。典型論文1 Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao 1 Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao Qin. Interrelation Analysis of Celestial Spectra Data Qin. Interrelation Analysis of Celestial Spectra Data using Constrained Fr

24、equent Pattern Treesusing Constrained Frequent Pattern Trees,Knowledge-Knowledge-Based Systems 41 (2013): 77-88. Based Systems 41 (2013): 77-88. 2 Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, 2 Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, Haifeng Yang.Stellar spectra association rule mining Haifeng Yang.Stellar spectra association rule mining method based on weighted frequent pattern tree. Research method based on weighted frequent pattern tree. Res

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論