大數(shù)據(jù)與數(shù)學(xué)研究課件_第1頁(yè)
大數(shù)據(jù)與數(shù)學(xué)研究課件_第2頁(yè)
大數(shù)據(jù)與數(shù)學(xué)研究課件_第3頁(yè)
大數(shù)據(jù)與數(shù)學(xué)研究課件_第4頁(yè)
大數(shù)據(jù)與數(shù)學(xué)研究課件_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與數(shù)學(xué)研究目錄第一部分大數(shù)據(jù)及其面臨的挑戰(zhàn)第二部分大數(shù)據(jù)分析與處理中的關(guān)鍵科學(xué)問(wèn)題第三部分關(guān)于若干大數(shù)據(jù)科學(xué)問(wèn)題的研究第四部分結(jié)語(yǔ)什么是大數(shù)據(jù)?數(shù)據(jù)歷史的記錄、交易的軌跡、過(guò)程的監(jiān)控、

經(jīng)驗(yàn)的累積、……數(shù)據(jù):以編碼形式存在的信息載體,是真實(shí)世界的碎片化反映記錄文件報(bào)告表格視頻圖片歌曲 ZB(1021),EB(1018),PB(1015), TB(1012),GB(109),MB(106)數(shù)據(jù)的常見(jiàn)形式什么是大數(shù)據(jù)?常規(guī)定義大數(shù)據(jù)是指無(wú)法在容許的時(shí)間內(nèi)用常規(guī)的軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,大數(shù)據(jù)規(guī)模的標(biāo)準(zhǔn)是持續(xù)變化的,當(dāng)前泛指單一數(shù)據(jù)集的大小在十幾TB和PB之間。(維基百科)

具有數(shù)量大、增長(zhǎng)快、類型多、價(jià)值密度低等4V特征的數(shù)據(jù)集。VolumePB—ZB量級(jí)

不可能集中存儲(chǔ)

不可能集中處理

動(dòng)態(tài)增長(zhǎng)、時(shí)變以數(shù)據(jù)流呈現(xiàn),有時(shí)

效性

形式、來(lái)源多樣

冗余、不完全并存

非結(jié)構(gòu)化

存在大價(jià)值

但依賴整體

價(jià)值密度低VelocityVarietyValue大數(shù)據(jù)=現(xiàn)有數(shù)據(jù)處理技術(shù)難以處理的超大規(guī)模數(shù)據(jù)什么是大數(shù)據(jù)?泛化定義泛指一個(gè)時(shí)代、一項(xiàng)技術(shù)、一種文化、一個(gè)挑戰(zhàn)。(通常也是大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)與大數(shù)據(jù)應(yīng)用的總稱)擁有大數(shù)據(jù)是時(shí)代特征、解讀大數(shù)據(jù)是時(shí)代任務(wù)、應(yīng)用大數(shù)據(jù)是時(shí)代機(jī)遇?。ù髷?shù)據(jù)時(shí)代)能夠?qū)?fù)雜海量數(shù)據(jù)進(jìn)行實(shí)時(shí)獲取、傳輸、存儲(chǔ)、加工和利用的高新技術(shù)?。ù髷?shù)據(jù)技術(shù))我們信奉上帝,除了上帝任何人都要以數(shù)據(jù)說(shuō)話?。ù髷?shù)據(jù)文化)現(xiàn)有的數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理與分析技術(shù)己無(wú)法適用于現(xiàn)有的需要!(大數(shù)據(jù)挑戰(zhàn))什么是大數(shù)據(jù)?更本質(zhì)的定義“大”是一個(gè)相對(duì)的概念反映真實(shí)世界的數(shù)據(jù)(碎片)其量己達(dá)到可以從一定程度上反映其真實(shí)面貌的程度。大數(shù)據(jù)(量變

質(zhì)變)為什么大數(shù)據(jù)會(huì)熱?是必然還是炒作?數(shù)字化(Digitization)數(shù)據(jù)化(Datafication)物聯(lián)網(wǎng)作為聯(lián)接人、機(jī)、環(huán)境的基本交互方式大數(shù)據(jù)處理與分析是信息處理的基本形式新一輪信息技術(shù)革命互聯(lián)網(wǎng)、云存儲(chǔ)作為基本的基礎(chǔ)設(shè)施服務(wù)計(jì)算作為計(jì)算機(jī)應(yīng)有的基本模式新一輪信息技術(shù)革命與人類社會(huì)經(jīng)濟(jì)活動(dòng)交匯融合必然產(chǎn)生大數(shù)據(jù);大數(shù)據(jù)從信息載體這一底層(一個(gè)更普適、更本質(zhì)的角度)捕捉到了信息化的共性基礎(chǔ)、未來(lái)發(fā)展與普適技術(shù)。大數(shù)據(jù)及其面臨的挑戰(zhàn)發(fā)展大數(shù)據(jù)技術(shù)是國(guó)家戰(zhàn)略重要性:社會(huì)媒體、人口流動(dòng)、居住交通數(shù)據(jù)交通流、醫(yī)療、商業(yè)、環(huán)境、勞動(dòng)力等數(shù)據(jù)醫(yī)療、醫(yī)保、健康、影像等大數(shù)據(jù)環(huán)境、氣象、交通、社會(huì)發(fā)展等大數(shù)據(jù)突發(fā)事件預(yù)測(cè)、關(guān)鍵人群監(jiān)測(cè)城市智慧管理環(huán)境治理醫(yī)療診斷方案大數(shù)據(jù)技術(shù):有關(guān)如何收集、整理(存儲(chǔ))、解讀和應(yīng)用大數(shù)據(jù)的理論與方法大數(shù)據(jù)技術(shù)是解決眾多國(guó)家重大現(xiàn)實(shí)需求問(wèn)題的共性基礎(chǔ)大數(shù)據(jù)及其面臨的挑戰(zhàn)大數(shù)據(jù)技術(shù)是一個(gè)國(guó)家創(chuàng)新能力的核心要素及核心競(jìng)爭(zhēng)力指標(biāo):它能幫助人們從大數(shù)據(jù)中發(fā)現(xiàn)新知識(shí),創(chuàng)造新價(jià)值,形成新理念,因而是認(rèn)知世界與改造世界的能力(即國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展的一種能力)大數(shù)據(jù)具有重大的科學(xué)社會(huì)經(jīng)濟(jì)價(jià)值價(jià)值:大數(shù)據(jù)及其面臨的挑戰(zhàn)在大數(shù)據(jù)技術(shù)中,分析與處理是核心核心:數(shù)據(jù)是基礎(chǔ)、平臺(tái)是支撐、分析是核心、效益是根本領(lǐng)域科學(xué)問(wèn)題一:大數(shù)據(jù)資源管理與公共政策領(lǐng)域科學(xué)問(wèn)題二:大數(shù)據(jù)高效獲取、存儲(chǔ)、調(diào)用與處理的信息技術(shù)領(lǐng)域科學(xué)問(wèn)題三大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)與計(jì)算基礎(chǔ)領(lǐng)域科學(xué)問(wèn)題四大數(shù)據(jù)工程(結(jié)合領(lǐng)域的大數(shù)據(jù)應(yīng)用)數(shù)據(jù)獲取與數(shù)據(jù)管理數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)分析與理解結(jié)合領(lǐng)域的大數(shù)據(jù)應(yīng)用大數(shù)據(jù)技術(shù)需要多學(xué)科綜合研究數(shù)據(jù)價(jià)值(MITTechnologyReview,2015)大數(shù)據(jù)及其面臨的挑戰(zhàn)統(tǒng)計(jì)(電商、語(yǔ)音識(shí)別等)查詢(google翻譯、風(fēng)險(xiǎn)、信用評(píng)估等等)比對(duì)(電商等)排序(網(wǎng)頁(yè)排序、推薦系統(tǒng)等)融合(互聯(lián)網(wǎng)+)預(yù)處理(對(duì)齊、配準(zhǔn)、標(biāo)準(zhǔn)化等)發(fā)展趨勢(shì)預(yù)測(cè)(負(fù)荷預(yù)測(cè)等)共性結(jié)構(gòu)發(fā)現(xiàn)(電力客戶細(xì)分等)模式識(shí)別(設(shè)備故障診斷等)關(guān)聯(lián)性(設(shè)備交叉故障等)關(guān)鍵要素分析(售電量影響因素分析等)優(yōu)化與控制(電力調(diào)度等)處理分析大數(shù)據(jù)及其面臨的挑戰(zhàn)聚焦大數(shù)據(jù)分析與處理具有緊迫性據(jù)IDC統(tǒng)計(jì)數(shù)據(jù)顯示,中國(guó)目前擁有的數(shù)據(jù)量占全球的14%(己收集),但數(shù)據(jù)利用率不到0.4%,大量的數(shù)據(jù)“沉睡”在各個(gè)角落,未發(fā)揮應(yīng)有作用。大數(shù)據(jù)大分析大垃圾大價(jià)值公眾要的是答案、不是數(shù)據(jù)!大數(shù)據(jù)及其面臨的挑戰(zhàn)分析目標(biāo)的改變數(shù)據(jù)特征的改變中小規(guī)模、固定尺寸、非時(shí)變、單一結(jié)構(gòu)、集中存儲(chǔ)超大規(guī)模、分布存儲(chǔ)、流數(shù)據(jù)、超高維、多源異構(gòu)等;尋找統(tǒng)計(jì)規(guī)律,因果分析為主關(guān)聯(lián)性分析,支持智能決策樣本等于母體?相關(guān)性能替代因果性?大數(shù)據(jù)推出來(lái)的才是真的?數(shù)據(jù)足夠多可代替理論?BigData

orBigMistake?---Financialtimes,2014---Science,2014認(rèn)識(shí)論上的困惑(從數(shù)據(jù)到模式、從模式到知識(shí)、從知識(shí)到?jīng)Q策每一個(gè)階段都需要猜想、假設(shè)和理論的支撐)!

認(rèn)識(shí)論上的困惑挑戰(zhàn)一:方法論上的沖擊分析基礎(chǔ)被破壞(統(tǒng)計(jì)學(xué)基礎(chǔ)、計(jì)算理論基礎(chǔ)、邏輯等)計(jì)算模式受拷問(wèn)(異構(gòu)環(huán)境下的多粒度分布并行計(jì)算)處理算法不可用(必須采用新計(jì)算模式,形成新方法論)真?zhèn)涡愿与y以判定(基礎(chǔ)不牢,地動(dòng)山搖?。┐髷?shù)據(jù)及其面臨的挑戰(zhàn)獨(dú)立同分布被破壞大數(shù)定理和中心極限定理的條件(樣本數(shù)>>維數(shù))—D.Lazer,etal.,TheParableofGoogleFlu:TrapsinBigDataAnalysis,Science,2014GoogleFluTrends:大量誤報(bào)流感爆發(fā)規(guī)模。(Estimatinghigh100outof108weeks)P值檢驗(yàn)的基礎(chǔ)被破壞StaticallyHypothesisInferenceTesting(SHIT!).對(duì)于一大類問(wèn)題應(yīng)用,P=0.01導(dǎo)致11%的誤報(bào)率;

而P=0.05導(dǎo)致29%的誤報(bào)率!—R.Nuzzo,StatisticalErrors,Nature,2014

方法論上的沖擊挑戰(zhàn)二:立項(xiàng)依據(jù)(為什么聚焦分析與處理?)謠言比真理多、科學(xué)內(nèi)涵的探討少、局部有進(jìn)展(偏重架構(gòu)、應(yīng)用與實(shí)踐方面探索),但缺少對(duì)科學(xué)問(wèn)題的系統(tǒng)研究。核心基礎(chǔ)和共性技術(shù)尚未建立起來(lái)。國(guó)內(nèi)外處于同一水平。以壓縮感知為代表的處理高維數(shù)據(jù)的稀疏性理論與方法(L1,L1/2,SCAD)以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法(尤其對(duì)于圖像大數(shù)據(jù))以經(jīng)驗(yàn)級(jí)聯(lián)貝葉斯(EHB)方法為代表的多粒度并行計(jì)算模式和結(jié)構(gòu)發(fā)現(xiàn)方法以hadoop、spark、神經(jīng)計(jì)算機(jī)為代表的分布式計(jì)算架構(gòu)以排序與搜索、排序?qū)W習(xí)、參數(shù)服務(wù)器等為基礎(chǔ)的互聯(lián)網(wǎng)應(yīng)用實(shí)現(xiàn)全球首部稀疏微波成像驗(yàn)證性原理樣機(jī)深度網(wǎng)絡(luò)

對(duì)于上述挑戰(zhàn)性問(wèn)題,近年來(lái)科學(xué)界與產(chǎn)業(yè)界都開(kāi)展了廣泛的探索與實(shí)踐,取得一批令人振奮的結(jié)果。

動(dòng)態(tài):大數(shù)據(jù)及其面臨的挑戰(zhàn)聚焦大數(shù)據(jù)分析與處理的核心基礎(chǔ)與共性關(guān)鍵技術(shù)研究,力求在分析基礎(chǔ)、處理算法、真?zhèn)涡耘卸ā⒔Y(jié)合典型領(lǐng)域的示范應(yīng)用等方面取得突破,為各行各業(yè)大數(shù)據(jù)應(yīng)用提供科學(xué)支撐和共性技術(shù)支撐。

國(guó)家應(yīng)有大數(shù)據(jù)重大戰(zhàn)略對(duì)策建議:大數(shù)據(jù)及其面臨的挑戰(zhàn)切入好:大數(shù)據(jù)技術(shù)涉及方方面面,但分析與處理是核心。經(jīng)過(guò)近幾年的“期望膨脹期”之后的冷思考,對(duì)其中科學(xué)問(wèn)題有了更準(zhǔn)確的把握,對(duì)研究方法有了初步嘗試有了開(kāi)展研究的基礎(chǔ)。大數(shù)據(jù)及其面臨的挑戰(zhàn)機(jī)遇多:數(shù)據(jù)分析與處理是中國(guó)人擅長(zhǎng)領(lǐng)域,有優(yōu)良傳統(tǒng)和較深厚的積累,尤其是通過(guò)近年來(lái)的反復(fù)研討與實(shí)踐,對(duì)解決大數(shù)據(jù)分析中關(guān)鍵科學(xué)問(wèn)題有了一些新的解決思路,再加之,國(guó)家重視、產(chǎn)業(yè)倒逼都是難得機(jī)遇,為該領(lǐng)域的突破帶來(lái)了可能

有了取得突破的可能。大數(shù)據(jù)技術(shù)發(fā)展難得機(jī)遇“在大數(shù)據(jù)科學(xué)平臺(tái)、干細(xì)胞與再生醫(yī)學(xué)等滿足國(guó)家重大需求的領(lǐng)域方向、我國(guó)可能實(shí)現(xiàn)重大科技突破的領(lǐng)域以及世界可能發(fā)生重大科技事件的領(lǐng)域加快或加強(qiáng)重大科技布局”。——認(rèn)為大數(shù)據(jù)科學(xué)平臺(tái)是滿足國(guó)家重大需求的領(lǐng)域方向和我國(guó)可能實(shí)現(xiàn)重大科技突破的領(lǐng)域。良好積累,有取得突破、占據(jù)領(lǐng)先的可能中央重視,有體制優(yōu)勢(shì)產(chǎn)業(yè)倒逼,有創(chuàng)新驅(qū)動(dòng)的原始驅(qū)動(dòng)力大數(shù)據(jù)及其面臨的挑戰(zhàn)正當(dāng)時(shí):“研究大數(shù)據(jù)、投資大數(shù)據(jù)”已是當(dāng)下蜂踴而至、熱情至高的價(jià)值取向與選擇。誰(shuí)為如此高漲的大眾熱情負(fù)責(zé)?解決大數(shù)據(jù)發(fā)展基礎(chǔ)與共性技術(shù)問(wèn)題,引導(dǎo)大數(shù)據(jù)產(chǎn)業(yè)健康可持續(xù)發(fā)展是國(guó)家責(zé)任。NSFC應(yīng)有的承擔(dān)學(xué)界期盼為此共同努力!目錄第一部分大數(shù)據(jù)及其面臨的挑戰(zhàn)第二部分大數(shù)據(jù)分析與處理中的關(guān)鍵科學(xué)問(wèn)題第三部分關(guān)于若干大數(shù)據(jù)科學(xué)問(wèn)題的研究第四部分結(jié)語(yǔ)大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(挑戰(zhàn)的進(jìn)一步分析)方法論上的沖擊分析基礎(chǔ)被破壞(統(tǒng)計(jì)學(xué)基礎(chǔ)、計(jì)算理論基礎(chǔ)、邏輯等)計(jì)算模式受拷問(wèn)(異構(gòu)環(huán)境下的多粒度分布并行計(jì)算)處理算法不可用(必須采用新計(jì)算模式,形成新方法論)真?zhèn)涡愿与y以判定(基礎(chǔ)不牢,地動(dòng)山搖?。┨魬?zhàn)一挑戰(zhàn)二挑戰(zhàn)三分析基礎(chǔ)被破壞處理模式需革新決策應(yīng)用缺基礎(chǔ)挑戰(zhàn)一(分析基礎(chǔ)被破壞)統(tǒng)計(jì)學(xué)基礎(chǔ)被破壞(Nature,2014)計(jì)算理論必須重建對(duì)大數(shù)據(jù)計(jì)算如何定義可解?對(duì)大數(shù)據(jù)計(jì)算如何區(qū)別難和易?對(duì)大數(shù)據(jù)如何度量計(jì)算復(fù)雜性?

(時(shí)間十存儲(chǔ)十通訊十能耗?)

基于線性的相關(guān)性不再能完全刻畫(huà)隨機(jī)變量之間的相關(guān);破壞表示基底的無(wú)關(guān)性假設(shè)破壞建模f(x,y,z)中對(duì)x,y,z的獨(dú)立性假設(shè)!數(shù)據(jù)可能隨時(shí)間變化(),具有了生命周期且活性發(fā)生變化,分析結(jié)果(如聚類Cluster())對(duì)t具有某種穩(wěn)定性嗎?目標(biāo)一科學(xué)問(wèn)題一大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)與計(jì)算基礎(chǔ)

在大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)與計(jì)算基礎(chǔ)方面取得突破性進(jìn)展,建立起若干新的理論,推動(dòng)形成數(shù)據(jù)科學(xué)的基礎(chǔ)理論體系。以線性回歸為例,中對(duì)于高維未必總是成立(原因:高維時(shí)

難保證

與X中某些分量不相關(guān);或者在線性相關(guān)的意義下,所選變量X無(wú)法完全刻畫(huà)響應(yīng))

變量選擇與預(yù)測(cè)失效!破壞p/n->0的假設(shè)(典型例子:DNA的維度p=30億堿基對(duì),樣本個(gè)數(shù)n=病人數(shù),顯然p/n為很大的數(shù),并不趨于0?。?/p>

大數(shù)定律和中心極限定理不再成立!大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(挑戰(zhàn)的進(jìn)一步分析)挑戰(zhàn)二(處理模式需革新)環(huán)境:?jiǎn)我唤Y(jié)構(gòu)(CPU,MIC)混合結(jié)構(gòu)(CPU+GPU+MIC共存協(xié)作計(jì)算)程序:串行程序設(shè)計(jì)MPI并行多粒度異構(gòu)分布并行模式1:計(jì)算密集型數(shù)據(jù)密集型混合型(計(jì)算密集型+數(shù)據(jù)密集型)模式2:傳統(tǒng)并行分布式并行計(jì)算模式更新傳統(tǒng)算法失效分布式計(jì)算可行嗎?解什么時(shí)候可組裝?流數(shù)據(jù)如何高效處理?隨機(jī)計(jì)算高效嗎?

異構(gòu)并行可靠嗎?(大數(shù)據(jù)基礎(chǔ)算法)基于Hadoop的處理可行嗎?所出現(xiàn)的幾個(gè)算法并沒(méi)有理論上的可行性支持!X1X2X3……Xn隨機(jī)機(jī)制D1DkDm….….聚合機(jī)制目標(biāo)二科學(xué)問(wèn)題二大數(shù)據(jù)分析與處理的新型計(jì)算模式與高效算法

提出適應(yīng)異構(gòu)計(jì)算環(huán)境下多粒度分布并行計(jì)算模式的系列高效算法(大數(shù)據(jù)算法),形成大數(shù)據(jù)處理的領(lǐng)先核心技術(shù)。大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(挑戰(zhàn)的進(jìn)一步分析)目標(biāo)三科學(xué)問(wèn)題三挑戰(zhàn)三(決策應(yīng)用缺基礎(chǔ))面向典型領(lǐng)域的基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn)及其方法論依據(jù)

在國(guó)家重大需求的若干典型領(lǐng)域,形成大數(shù)據(jù)分析與處理的行業(yè)核心技術(shù),促進(jìn)相應(yīng)領(lǐng)域科學(xué)發(fā)現(xiàn)新模式的形成,推動(dòng)各行各業(yè)利用大數(shù)據(jù)的能力與水平。大數(shù)據(jù)行業(yè)應(yīng)用需求旺盛,但缺乏有效的共性技術(shù)支撐與理論指導(dǎo);基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn)(所謂的第四范式)仍缺乏有效的方法論支撐與理論基礎(chǔ);基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn)真?zhèn)涡耘卸ǜ永щy決策分析少基礎(chǔ)(FinancialTimes,14)以查詢、簡(jiǎn)單模型為基礎(chǔ)的大數(shù)據(jù)決策方式其邏輯基礎(chǔ)何在?如何評(píng)價(jià)其有效性、可靠性?行業(yè)應(yīng)用缺支撐大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(挑戰(zhàn)的進(jìn)一步分析)大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題如何從大數(shù)據(jù)中獲取知識(shí)、支撐決策、贏得價(jià)值?支持大數(shù)據(jù)分析與處理的統(tǒng)計(jì)學(xué)基礎(chǔ)與計(jì)算基礎(chǔ);大數(shù)據(jù)分析與處理的新型計(jì)算模式與高效算法;面向典型領(lǐng)域的基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn)及其方法論依據(jù)??茖W(xué)問(wèn)題(1個(gè)中心3個(gè)問(wèn)題)數(shù)據(jù)表示與數(shù)據(jù)建模

分析理論與分析方法

計(jì)算模式與計(jì)算方法

決策分析與真?zhèn)卧u(píng)價(jià)

主要研究大數(shù)據(jù)的高效表示及相應(yīng)的計(jì)算建模方法論:主要研究?jī)?nèi)容1:大數(shù)據(jù)表示與大數(shù)據(jù)建模大數(shù)據(jù)的表示理論與方法(新型編碼、基于特征的表示、隱結(jié)構(gòu)表示、異構(gòu)數(shù)據(jù)的統(tǒng)一表示)大數(shù)據(jù)抽樣理論(對(duì)樣本總體的推斷、數(shù)據(jù)的集約表示、支持分布隨機(jī)處理的抽樣理論)稀疏建模的理論與方法(高階、非線性稀疏性理論與方法)高維數(shù)據(jù)建模的理論與方法(降維、高維統(tǒng)計(jì)推斷等)高不確定性數(shù)據(jù)的建模(統(tǒng)計(jì)、概率、邏輯、認(rèn)知模型等)1大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題

主要研究大數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)、計(jì)算理論基礎(chǔ)與共性分析方法等:主要研究?jī)?nèi)容2:大數(shù)據(jù)分析理論與大數(shù)據(jù)分析方法大數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)新理論(相關(guān)性問(wèn)題、偽相關(guān)問(wèn)題、超高維問(wèn)題、內(nèi)生性問(wèn)題、穩(wěn)定性問(wèn)題等)大數(shù)據(jù)計(jì)算的復(fù)雜性理論(重建可解性理論、復(fù)雜性理論、設(shè)計(jì)可行近似算法等)大數(shù)據(jù)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘新方法(針對(duì)流數(shù)據(jù)、分布式數(shù)據(jù)、超高維數(shù)據(jù)、高度不確定性數(shù)據(jù)的基礎(chǔ)算法,等)大數(shù)據(jù)可視分析方法(高維特征提取、幾何空間化方法等)2大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題

主要研究分布式環(huán)境下的大數(shù)據(jù)分析與處理的新型計(jì)算模式與基礎(chǔ)算法:主要研究?jī)?nèi)容3:大數(shù)據(jù)計(jì)算模式與大數(shù)據(jù)計(jì)算方法分布實(shí)時(shí)計(jì)算問(wèn)題(分布并行的計(jì)算架構(gòu)與編程新模型、分布式計(jì)算的可行性理論、大數(shù)據(jù)算法設(shè)計(jì)等)現(xiàn)代超算問(wèn)題(異構(gòu)計(jì)算環(huán)境下的計(jì)算優(yōu)化、多粒度分布式并行環(huán)境下的新編程模型、大數(shù)據(jù)超算算法等)非結(jié)構(gòu)化信息處理(異構(gòu)數(shù)據(jù)的統(tǒng)一表示與分析方法、基于認(rèn)知的非結(jié)構(gòu)化信息處理方法等)多源異構(gòu)信息融合(多模態(tài)異構(gòu)數(shù)據(jù)的融合表示與推理、多母體數(shù)據(jù)的統(tǒng)計(jì)推斷、跨領(lǐng)域遷移學(xué)習(xí)等)3大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題

結(jié)合典型領(lǐng)域,驗(yàn)證并展示所發(fā)展的新理論與新方法的有效性,形成相應(yīng)領(lǐng)域基于數(shù)據(jù)科學(xué)發(fā)現(xiàn)的方法論:主要研究?jī)?nèi)容4:大數(shù)據(jù)決策分析與結(jié)果真?zhèn)卧u(píng)價(jià)基于大數(shù)據(jù)分析決策的邏輯基礎(chǔ)大數(shù)據(jù)科學(xué)發(fā)現(xiàn)的可證實(shí)性方法與驗(yàn)證方法典型領(lǐng)域的基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn):4社會(huì)安全(基于多源數(shù)據(jù)融合的群體監(jiān)測(cè)與事件發(fā)現(xiàn))醫(yī)療健康(醫(yī)療影像數(shù)據(jù)分析處理、醫(yī)保與體檢數(shù)據(jù)分析)電力調(diào)控(市場(chǎng)環(huán)境下電網(wǎng)運(yùn)營(yíng)、運(yùn)行、調(diào)度策略)高鐵安全(高鐵運(yùn)行監(jiān)控、安全態(tài)勢(shì)評(píng)估等)大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題解決若干統(tǒng)計(jì)學(xué)基礎(chǔ)、計(jì)算理論基礎(chǔ)方面的關(guān)鍵問(wèn)題;提出一批新概念、新理論和新方法,形成數(shù)據(jù)科學(xué)基礎(chǔ)理論體系。創(chuàng)立大數(shù)據(jù)算法設(shè)計(jì)方法學(xué),提出大數(shù)據(jù)分析與處理的系列基礎(chǔ)算法,形成具有獨(dú)立自主知識(shí)產(chǎn)權(quán)的核心技術(shù)族。

選擇2-3個(gè)國(guó)家重大需求牽引的典型領(lǐng)域,提出大數(shù)據(jù)問(wèn)題解決系統(tǒng)方案并在應(yīng)用上取得突破,形成領(lǐng)域相關(guān)的科學(xué)發(fā)現(xiàn)新模式與行業(yè)應(yīng)用核心技術(shù)。大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)處理算法大數(shù)據(jù)應(yīng)用示范大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(期望突破)提出大數(shù)據(jù)相關(guān)性新度量;提出并發(fā)展稀疏性超高維統(tǒng)計(jì)推斷和檢驗(yàn)新理論;建立偽相關(guān)判定準(zhǔn)則和基于內(nèi)生性的超高維統(tǒng)計(jì)建模理論;提出流數(shù)據(jù)、分布數(shù)據(jù)情形下的可解性與難解性理論及方法。在異構(gòu)分布式計(jì)算模式下,系統(tǒng)建立聚類、分類、回歸、相關(guān)性分析、大規(guī)模線性代數(shù)問(wèn)題求解等大數(shù)據(jù)處理基礎(chǔ)算法。

在國(guó)家安全、醫(yī)療健康、電力調(diào)控、高鐵安全等國(guó)家重大需求領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù)取得突破性成果,形成領(lǐng)域相關(guān)的科學(xué)發(fā)現(xiàn)新模式與行業(yè)應(yīng)用核心技術(shù)。

大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)處理算法大數(shù)據(jù)應(yīng)用示范大數(shù)據(jù)關(guān)鍵科學(xué)問(wèn)題(期望突破)目錄第一部分大數(shù)據(jù)及其面臨的挑戰(zhàn)第二部分大數(shù)據(jù)分析與處理中的關(guān)鍵科學(xué)問(wèn)題第三部分關(guān)于若干大數(shù)據(jù)科學(xué)問(wèn)題的研究第四部分結(jié)語(yǔ)關(guān)于若干大數(shù)據(jù)科學(xué)問(wèn)題的研究大數(shù)據(jù)分析與處理是傳統(tǒng)統(tǒng)計(jì)學(xué)分析、智能信息處理(機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘)、數(shù)據(jù)庫(kù)技術(shù)的延伸和發(fā)展。在這些領(lǐng)域,國(guó)內(nèi)己經(jīng)形成了一批優(yōu)勢(shì)的研究群體,并取得一批國(guó)際領(lǐng)先/先進(jìn)水平的研究成果。馬志明院士徐宗本院士鄂維南院士李國(guó)杰院士高文院士李未院士關(guān)于若干大數(shù)據(jù)科學(xué)問(wèn)題的探索西安交大課題組的研究超高維問(wèn)題:稀疏建模理論與方法大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題:方法論與分布式計(jì)算非結(jié)構(gòu)化信息處理問(wèn)題:視覺(jué)模擬算法關(guān)于超高維問(wèn)題大數(shù)據(jù)超高維問(wèn)題大數(shù)據(jù)超高維問(wèn)題:“決策要素()伴隨大數(shù)據(jù)規(guī)模(n)呈現(xiàn)更高量級(jí)”所引起的解的不適定性與經(jīng)典統(tǒng)計(jì)推斷失效問(wèn)題。經(jīng)典統(tǒng)計(jì)學(xué):n>>p;高維問(wèn)題:p>>n;

大數(shù)據(jù)高維問(wèn)題:p=O(exp(n)),n->∞.線性模型:數(shù)據(jù):基本科學(xué)問(wèn)題如何補(bǔ)足信息使問(wèn)題可解?高維統(tǒng)計(jì)推斷超高維數(shù)據(jù)的低維特征表示

研究熱點(diǎn):利用稀疏性先驗(yàn)(壓縮感知、低秩分解、高階與非線性稀疏)關(guān)于高維問(wèn)題的研究(稀疏性先驗(yàn))(典則)稀疏性:信息表示的普遍屬性。意指:一個(gè)觀測(cè)中感興趣的信息單元在整個(gè)單元中僅占少數(shù)部分的性質(zhì)。通常用表示向量x的非零元素個(gè)數(shù)刻畫(huà)。稀疏信號(hào)稀疏圖像稀疏SAR場(chǎng)景(線性)變換稀疏性:信息表示中更為普遍的屬性,指在某個(gè)線性變換A下,Ax具有典則稀疏性。(用來(lái)刻畫(huà))關(guān)于高維問(wèn)題的研究(稀疏性先驗(yàn))社交網(wǎng)絡(luò)語(yǔ)義分析結(jié)構(gòu)稀疏性:以某種結(jié)構(gòu)方式所呈現(xiàn)的稀疏性。主要用于刻畫(huà)屬性間的相依關(guān)系,是處理多視角、多通道信息融合的重要工具之一。結(jié)構(gòu)稀疏度量:組間稀疏(q范數(shù)),組內(nèi)合作(p范數(shù))特征提取基因序列分析[Jenatton2010]關(guān)于高維問(wèn)題的研究(稀疏性先驗(yàn))關(guān)于高維問(wèn)題的研究(稀疏性先驗(yàn))非線性稀疏性:線性變換(表示)稀疏性向非線性的推廣,即在某個(gè)非線性變換T下,T(x)具有稀疏性(用

刻畫(huà))。稀疏神經(jīng)元響應(yīng)(Barlow,1979;Roland,1993)響應(yīng)稀疏性非線性變換稀疏壓縮感知圖像處理特征提取機(jī)器學(xué)習(xí)

地震信號(hào)處理……稀疏信息處理:涉及具有稀疏性的信息源的信息處理。稀疏性問(wèn)題:一個(gè)與大量疑似要素相關(guān)但本質(zhì)上僅由少量要素決定的問(wèn)題。稀疏性問(wèn)題模型:關(guān)于高維問(wèn)題的研究(稀疏性問(wèn)題)特殊情形信息獲取模型L0框架L1框架(S.Mallat(1993),J.A.Tropp&D.Needell(2007,2009)等)挑戰(zhàn)與問(wèn)題

只在很嚴(yán)格的條件下才有L1/L0

等價(jià)性(Donoho,2006);L1框架不能保證在最少采樣下完全重構(gòu)信號(hào);L1理論對(duì)于正規(guī)化約束()問(wèn)題失效.(Donoho(1994,2006),R.Tibshirani(1996),Candes,Tao&Romberg(2006)等)L1范數(shù)是L0范數(shù)的凸包絡(luò)關(guān)于高維問(wèn)題的研究(解決思路)稀疏性問(wèn)題傳統(tǒng)解決思路基于Banach幾何啟示及Lq/L0的等價(jià)性研究(相位圖方法),徐宗本等提出了L1/2正則化框架(Xu,Proc.ICM,2010)。L1/2框架sparsestsparsenotsparsenotsparse?NP

problemnon-smoothconvexsmoothandconvexhardtosolve

Banach幾何啟示

相位圖研究sufficientlysparsenon-convex關(guān)于高維問(wèn)題的研究(創(chuàng)新思路)如果q=1/2,F是α-Lipschitz連續(xù),.則的解滿足:其中,是由下述閾值函數(shù)所定義的對(duì)角非線性閾值算子:表示定理(Xu,et.al.,L1/2Regularization:

Athresholdingrepresentationtheoryandafastsolver.

IEEETNNLS,2012).解的表示理論:一個(gè)問(wèn)題的的解是否具有解析表達(dá)形式?關(guān)于高維問(wèn)題的研究(L1/2正則化理論)對(duì)固定的,記。則問(wèn)題的解滿足:或或

擇一性直接推出問(wèn)題的解之稀疏度

與正則化參數(shù)的如下基本關(guān)系:其中表示向量的第

個(gè)最大分量

問(wèn)題的解是有限的定理Xu,et.al.,L1/2Regularization:Athresholdingrepresentationtheoryandafastsolver.

IEEETNNLS,2012.解的擇一性理論:解的閾值截?cái)嘈再|(zhì),閾值等于多少?關(guān)于高維問(wèn)題的研究(L1/2正則化理論)RIP(Candesetal.,2005,2006,2007):Coherence(Donohoetal.,2001,2003):定理.對(duì)于任意的

k-稀疏信號(hào)x*:1)

,

則(P1)精確恢復(fù)x*;(Candes&Tao,2008)2)

,

則(P1)精確恢復(fù)x*;(Lietal.,2011)3)

,

則(P1)精確恢復(fù)x*;(Caietal.,2012)4)

,

則(Pq)精確恢復(fù)x*;(Wangetal.,2010)5)

,

則(P1)精確恢復(fù)x*;(Donoho&Elad,2003)6)

,

則(P1/2)有限步精確恢復(fù)x*;(Zengetal.,2014)重構(gòu)理論重構(gòu)理論:在什么樣的條件下通過(guò)松弛模型可完全重構(gòu)原稀疏信號(hào)?關(guān)于高維問(wèn)題的研究(L1/2正則化理論)RIP(Candesetal.,2005,2006,2007):Coherence(Donohoetal.,2001,2003):采樣數(shù)理論:至少需要多少采樣可保證完全重構(gòu)原始稀疏信號(hào)?定理.假定信號(hào)維數(shù)為N,則重建k-稀疏信號(hào)所需的測(cè)量數(shù)M滿足:1)對(duì)于確定性矩陣:;(DeVore,2007)2)

對(duì)于高斯(Rademacher,亞高斯)隨機(jī)矩陣:

;

(Baraniuketal.,2008)3)

對(duì)于Fourier(Hadamard)變換子矩陣:;

(Donoho&Tanner,2009;Dossal,Peyre&Fadili,2010)采樣數(shù)理論關(guān)于高維問(wèn)題的研究(L1/2正則化理論)

將通常的正則化參數(shù)選擇問(wèn)題(連續(xù)問(wèn)題)劃歸到了稀疏度指定問(wèn)題(離散問(wèn)題)。這一化簡(jiǎn)有重要意義。對(duì)于k稀疏問(wèn)題,給出了最優(yōu)的正則化參數(shù)設(shè)置策略;然而很多學(xué)習(xí)問(wèn)題本身就是一個(gè)k-稀疏問(wèn)題。

步驟1(求解k稀疏問(wèn)題):對(duì)于確定的稀疏度k,通過(guò)下述迭代過(guò)程求解問(wèn)題的k-稀疏解:步驟2(求問(wèn)題的最優(yōu)解):將原問(wèn)題

分解成若干個(gè)k-稀疏問(wèn)題,重復(fù)步驟1;獲得一組k-稀疏解,比較得出最優(yōu)解。Half型算法意義和價(jià)值關(guān)于高維問(wèn)題的研究(L1/2正則化理論)Half算法收斂性理論算法收斂性:重構(gòu)算法是否收斂?收斂到哪?有多快?1)如果Fα-Lipschitz連續(xù),,則

Half型算法收斂;2)如果,

則Half算法收斂到L1/2的局部極小點(diǎn);3)在某些進(jìn)一步條件下,Half算法的收斂

是最終線性的。

(J.S.Zeng,S.B.Lin,Y.Wang,Z.B.Xu,L1/2regularization:ConvergenceAnalysis,IEEETSP,2014.)關(guān)于高維問(wèn)題的研究(L1/2正則化理論)

:0,1元素矩陣,提取圖像塊中已知像素點(diǎn);:例子圖像塊集合圖像填充:

主要任務(wù)是通過(guò)數(shù)學(xué)模型和計(jì)算機(jī)算法,將圖像中的缺失部分(由于污損、劃痕、圖像編輯、文字等造成的缺損)自動(dòng)填充完整.(Xu&Sun,IEEETIP,2010)稀疏正則化模型關(guān)于高維問(wèn)題的研究(應(yīng)用舉例)(a)藍(lán)色區(qū)域?yàn)榇畛鋮^(qū)域;(b)填充完整圖像(a)(b)(a)(b)關(guān)于高維問(wèn)題的研究(

L1/2理論應(yīng)用到圖像填充)視頻監(jiān)控問(wèn)題:從視頻中提取背景與目標(biāo),以利于視頻傳輸與目標(biāo)分析。+TransmissionReconstructionwithB-TseparationformCompressivemeasurements關(guān)于高維問(wèn)題的研究(

L1/2理論應(yīng)用到視頻監(jiān)控)

Model

關(guān)于高維問(wèn)題的研究(

L1/2理論應(yīng)用到視頻監(jiān)控)傳統(tǒng)SAR成像過(guò)程:新的基于L1/2正則化理論的稀疏SAR成像模型(ES-SAR):雷達(dá)觀測(cè)SAR成像原始場(chǎng)景二維成像X*ES-SAR:CS-SAR:L1L1/2可重建區(qū)域回波數(shù)據(jù)Y關(guān)于高維問(wèn)題的研究(L1/2理論應(yīng)用到SAR成像)RDA新方法RDARadarsat滿采樣數(shù)據(jù)成像結(jié)果(場(chǎng)景大小2048*2756):完全與傳統(tǒng)SAR一樣用于大場(chǎng)景成像,且有明顯的抑制旁瓣作用新方法RDA:4s原CS方法:>2天新方法:415s關(guān)于高維問(wèn)題的研究(L1/2理論應(yīng)用到SAR成像)實(shí)際數(shù)據(jù)驗(yàn)證距離多普勒算法50%采樣下ES-SAR成像關(guān)于高維問(wèn)題的研究(L1/2理論應(yīng)用到SAR成像)港口鹽田開(kāi)展全球首次稀疏微波成像機(jī)載原理性系統(tǒng)驗(yàn)證實(shí)驗(yàn);設(shè)計(jì)并實(shí)現(xiàn)全球首部稀疏微波成像驗(yàn)證性原理樣機(jī)。關(guān)于高維問(wèn)題的研究(L1/2理論應(yīng)用到SAR成像)機(jī)載平臺(tái)(海南試飛)70%采樣下ES-SAR成像70%采樣下ES-SAR成像關(guān)于高維問(wèn)題的研究(L1/2理論應(yīng)用到SAR成像)關(guān)于大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題

大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題大數(shù)據(jù)算法:通過(guò)數(shù)據(jù)分解與變量分組實(shí)現(xiàn)計(jì)算過(guò)程的分解與組裝,并可在分布式計(jì)算環(huán)境下實(shí)現(xiàn)、能支持大數(shù)據(jù)分析與處理的算法?;究茖W(xué)問(wèn)題大數(shù)據(jù)算法設(shè)計(jì)與分析方法學(xué)分布式計(jì)算的可行性理論流數(shù)據(jù)分析與處理算法分布數(shù)據(jù)(網(wǎng)絡(luò)數(shù)據(jù))高效處理算法超高復(fù)雜性數(shù)據(jù)的分析、挖掘與學(xué)習(xí)大數(shù)據(jù)分析與挖掘基礎(chǔ)算法熱點(diǎn)問(wèn)題:TheBigDataBootstrap.Kleineret.al.2012ICML

X1X2X3……Xn隨機(jī)機(jī)制D1DkDm….….聚合機(jī)制通過(guò)數(shù)據(jù)分解與變量分組實(shí)現(xiàn)計(jì)算過(guò)程的分解與組裝,并可在分布式計(jì)算環(huán)境下實(shí)現(xiàn)的算法能處理的數(shù)據(jù)集具有大數(shù)據(jù)的典型特征之一:海量、異構(gòu)、分布/多源、流數(shù)據(jù)、超高維、高不確定性等具有較低的復(fù)雜性(在大數(shù)據(jù)意義下:時(shí)間復(fù)雜性+存儲(chǔ)復(fù)雜性+通訊復(fù)雜性)算法具有某些獨(dú)特性質(zhì),如:高度容錯(cuò)、解的可拼接/可組裝性等

大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題(定義)BigDataData1Data2Data3Data4Data5Datam分解Map1Map2Map3Map4Map5MapmShuffle,sortData1Data2Datak…………Reduce1Reduce2Reducek組裝數(shù)據(jù)模型大數(shù)據(jù)模型

大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題(定義)

大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題(設(shè)計(jì)方法)傳統(tǒng)的RERM方法:Model:Theory:(Regressionfunction)basedonthefactthehypothesiserror:

大數(shù)據(jù)算法設(shè)計(jì)問(wèn)題(可行性理論)基于分布式的大數(shù)據(jù)回歸:將大數(shù)據(jù)集D隨機(jī)拆分成m個(gè)子集,讓m臺(tái)機(jī)器分別對(duì)Di進(jìn)行回歸,將所得結(jié)果進(jìn)行平均,以此獲得D的回歸估計(jì)?;締?wèn)題:基于分布式的處理可行嗎?基于Hadoop的回歸算法:Step1Step2新的方法論:使用隨機(jī)抽樣不等同于估計(jì)假設(shè)條件誤差。(Randomsamplinginequalityquantifiesthefactthatadifferentiablefunctioncannotattainitslargevaluesanywhereifitsderivativesareboundedona

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論