信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用_第1頁(yè)
信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用_第2頁(yè)
信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用_第3頁(yè)
信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用_第4頁(yè)
信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息資源管理-擴(kuò)展知識(shí)

大數(shù)據(jù)及其經(jīng)典應(yīng)用信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第1頁(yè)引子棱鏡門波士頓馬拉松爆炸案PredPol少數(shù)派匯報(bào)

大數(shù)據(jù)元年video/10/12信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第2頁(yè)一、大數(shù)據(jù)相關(guān)概念二、國(guó)內(nèi)外大數(shù)據(jù)分析研究現(xiàn)實(shí)狀況三、構(gòu)建大數(shù)據(jù)分析平臺(tái)四、公共安全領(lǐng)域大數(shù)據(jù)應(yīng)用案例目錄/10/13信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第3頁(yè)一、大數(shù)據(jù)相關(guān)概念

/10/14信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第4頁(yè)數(shù)據(jù)管理技術(shù)發(fā)展歷史數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫(kù)管理等時(shí)代,大數(shù)據(jù)技術(shù)出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新發(fā)展階段19461951195619611970197419791991第一臺(tái)計(jì)算機(jī)ENIAC面世磁帶+卡片人工管理磁盤被創(chuàng)造,進(jìn)入文件管理時(shí)代網(wǎng)絡(luò)型SQLE-RGE企業(yè)創(chuàng)造第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但僅限于GE自己主機(jī)1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度變大,數(shù)據(jù)與應(yīng)用分離需求開始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開始萌芽并蓬勃發(fā)展,并在1990年后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)IBME.F.Dodd提出關(guān)系模型SQL語(yǔ)言被創(chuàng)造關(guān)系型數(shù)據(jù)庫(kù)ORACLE公布第一個(gè)商用SQL關(guān)系數(shù)據(jù)庫(kù),后續(xù)快速發(fā)展數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)開始涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)開始全方面普及且平臺(tái)無關(guān),進(jìn)入成熟期后,互聯(lián)網(wǎng)快速發(fā)展,數(shù)據(jù)量成倍遞增,量變引發(fā)質(zhì)變,開始對(duì)數(shù)據(jù)管理技術(shù)提出全新要求1946年,電腦誕生,數(shù)據(jù)與應(yīng)用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級(jí)項(xiàng)目,重點(diǎn)支持海量數(shù)據(jù)分布式管理和分布式計(jì)算GFS谷歌發(fā)表論文介紹分布式計(jì)算5信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第5頁(yè)大數(shù)據(jù)發(fā)展背景全球信息化發(fā)展已步入大數(shù)據(jù)時(shí)代150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)全球每秒鐘發(fā)送290萬(wàn)封電子郵件天天有2.88萬(wàn)小時(shí)視頻上傳到Y(jié)outubeFacebook每日評(píng)論達(dá)32億條,天天上傳照片近3億張,每個(gè)月處理數(shù)據(jù)總量約130萬(wàn)TB全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)年將增加到35ZB大數(shù)據(jù)正快速成為最值得關(guān)注IT領(lǐng)域之一5月,EMCWorld2011大會(huì)主題“云計(jì)算相遇大數(shù)據(jù)”,EMC除了一直提倡云計(jì)算外,還拋出"大數(shù)據(jù)"(BigData)概念6月底,IBM、麥肯錫等眾多國(guó)外機(jī)構(gòu)公布"大數(shù)據(jù)"相關(guān)研究匯報(bào),給予主動(dòng)跟進(jìn)2011年10月,Gartner認(rèn)為2012年十大戰(zhàn)略技術(shù)將包含"大數(shù)據(jù)"2011年11月底,IDC將"大數(shù)據(jù)"放入2012年信息通信產(chǎn)業(yè)十大預(yù)測(cè)之一IDC全球數(shù)據(jù)量預(yù)測(cè)(1ZB

=1百萬(wàn)PB=10億TB)Google網(wǎng)站Bigdata關(guān)鍵詞搜索及新聞引用量6信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第6頁(yè)什么是大數(shù)據(jù)123大數(shù)據(jù)定義了解大數(shù)據(jù)“4V”特征大數(shù)據(jù)產(chǎn)生、增加/10/17信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第7頁(yè)“大數(shù)據(jù)”是怎樣產(chǎn)生?二十一世紀(jì)是數(shù)據(jù)信息大發(fā)展時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。

半個(gè)世紀(jì)以來,伴隨計(jì)算機(jī)技術(shù)全方面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革程度。它不但使世界充滿著比以往更多信息,而且其增加速度也在加緊。信息爆炸學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念*。如今,這個(gè)概念幾乎應(yīng)用到了全部些人類智力與發(fā)展領(lǐng)域中。/10/18信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第8頁(yè)大數(shù)據(jù)時(shí)代爆炸增加想駕馭這龐大數(shù)據(jù),我們必須了解大數(shù)據(jù)特征。地球上至今總共數(shù)據(jù)量:在

年,個(gè)人用戶才剛才前進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB數(shù)據(jù);在

年,這個(gè)數(shù)字到達(dá)了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到

年,整個(gè)世界數(shù)據(jù)總量將會(huì)增加44倍,到達(dá)35.2ZB(1ZB=10億TB)!1GB

=2^30字節(jié)1TB=2^40字節(jié)1PB

=2^50字節(jié)1EB

=2^60字節(jié)1ZB=2^70字節(jié)/10/19信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第9頁(yè)大數(shù)據(jù)4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”顯著特征,或者說,只有具備這些特點(diǎn)數(shù)據(jù),才是大數(shù)據(jù)。VolumeVelocityValueVariety/10/110信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第10頁(yè)大數(shù)據(jù)組成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部經(jīng)營(yíng)交易信息主要包含聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化、經(jīng)過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問靜態(tài)、歷史數(shù)據(jù)。經(jīng)過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包含:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)全部數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其它起源社交媒體數(shù)據(jù)組成。它包含了呼叫詳細(xì)統(tǒng)計(jì)CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、經(jīng)過管理文件傳輸ManageFileTransfer協(xié)議傳送海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。能夠告訴我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理架構(gòu)。比如含有開放源碼、在商品硬件群中運(yùn)行ApacheHadoop。/10/111信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第11頁(yè)分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存放;分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等一些相關(guān)技術(shù)存放結(jié)構(gòu)化數(shù)據(jù)海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存放不利于檢索、查詢和存放半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存放按照非結(jié)構(gòu)化存放處理方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitterstorm和yahoo!S4)/10/112信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第12頁(yè)大數(shù)據(jù)市場(chǎng)潛力/10/113信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第13頁(yè)利用GPS數(shù)據(jù)了解交通情況智能電表應(yīng)用級(jí)家庭能源監(jiān)測(cè)3月29日奧巴馬政府公布了”大數(shù)據(jù)研發(fā)計(jì)劃”。該計(jì)劃目標(biāo)是改進(jìn)現(xiàn)有些人們從海量和復(fù)雜數(shù)據(jù)中獲取知識(shí)能力,從而加速美國(guó)在科學(xué)與工程領(lǐng)域創(chuàng)造步伐,增強(qiáng)國(guó)家安全,轉(zhuǎn)變現(xiàn)有教學(xué)和學(xué)習(xí)方式?!按髷?shù)據(jù)戰(zhàn)略”上升為美國(guó)最高國(guó)策對(duì)數(shù)據(jù)占有和控制,做為在陸權(quán)、海權(quán)、空權(quán)之外另一個(gè)國(guó)家關(guān)鍵能力。大數(shù)據(jù)浪潮谷歌搜索與流感預(yù)測(cè)大數(shù)據(jù)與喬布斯癌癥治療微博&投資沃爾瑪啤酒與紙尿布塔吉特預(yù)測(cè)少女懷孕沃爾瑪?shù)皳榕c颶風(fēng)用具關(guān)系“魔毯”病人監(jiān)控智慧城市&智能化交通谷歌翻譯系統(tǒng)信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第14頁(yè)了解大數(shù)據(jù)數(shù)據(jù)已經(jīng)成為能夠與物質(zhì)資產(chǎn)和人力資本相提并論主要生產(chǎn)要素

——麥肯錫《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力前沿》信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第15頁(yè)二、國(guó)內(nèi)外大數(shù)據(jù)分析研究現(xiàn)實(shí)狀況

信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第16頁(yè)流感趨勢(shì)預(yù)測(cè)

全球每年約10%~15%人群會(huì)患上流感,受感染人群約5000萬(wàn)人,死亡人數(shù)約50萬(wàn)。這可不是個(gè)小數(shù)字。假如我們能夠盡早提前預(yù)測(cè)到流感即將暴發(fā),無疑將使全球公眾都將受益:政府和醫(yī)療機(jī)構(gòu)提前拿出應(yīng)對(duì)辦法,就能挽救大量生命。,谷歌推出了其著名流感趨勢(shì)網(wǎng)站(http://www.谷歌.org/flutrends)。該網(wǎng)站假定前提是:假如用戶患上了流感,則他們會(huì)搜索更多同流感相關(guān)信息。如此一來,假如對(duì)任何一個(gè)國(guó)家或地域相關(guān)流感搜索量進(jìn)行統(tǒng)計(jì),就能很好推斷出某個(gè)國(guó)家或地域是否正暴發(fā)流感。實(shí)際上,谷歌這項(xiàng)統(tǒng)計(jì)數(shù)據(jù)被證實(shí)很有效。谷歌對(duì)應(yīng)數(shù)據(jù),同美國(guó)疾病控制與預(yù)防中心(CDC)等政府機(jī)構(gòu)所統(tǒng)計(jì)數(shù)據(jù)非??拷?7%)。在一些情況下,谷歌甚至能夠比CDC提前一周預(yù)測(cè)出哪些地域?qū)⒈┌l(fā)流感。/10/117信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第17頁(yè)全球每星期會(huì)有數(shù)以百萬(wàn)計(jì)用戶在網(wǎng)上搜索健康信息。正如您所預(yù)料那樣,在流感季節(jié),與流感相關(guān)搜索會(huì)顯著增多;到了過敏季節(jié),與過敏相關(guān)搜索會(huì)顯著上升;而到了夏季,與曬傷相關(guān)搜索又會(huì)大幅增加。一些搜索字詞非常有利于了解流感疫情。Google流感趨勢(shì)會(huì)依據(jù)匯總Google搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前流感疫情進(jìn)行估測(cè)。搜索流感相關(guān)主題人數(shù)與實(shí)際患有流感癥狀人數(shù)之間存在著親密關(guān)系。當(dāng)然,并非每個(gè)搜索“流感”人都真患有流感,但將與流感相關(guān)搜索查詢匯總到一起時(shí),便能夠找到一個(gè)模式。將統(tǒng)計(jì)查詢數(shù)量與傳統(tǒng)流感監(jiān)測(cè)系統(tǒng)數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果發(fā)覺許多搜索查詢?cè)诹鞲屑竟?jié)確實(shí)會(huì)顯著增多。經(jīng)過對(duì)這些搜索查詢出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),便能夠估測(cè)出世界上不一樣國(guó)家和地域流感傳輸情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February)/10/118信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第18頁(yè)上圖顯示了依據(jù)歷史查詢所得美國(guó)近幾年流感估測(cè)結(jié)果,以及這些結(jié)果與官方流感監(jiān)測(cè)數(shù)據(jù)對(duì)比。從圖中能夠看出,依據(jù)與流感相關(guān)Google搜索查詢所得到估測(cè)結(jié)果,與以往流感疫情指示線非??拷?。當(dāng)然,過去表現(xiàn)并不能確保以后結(jié)果一定準(zhǔn)確。/10/119信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第19頁(yè)/10/120信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第20頁(yè)/10/121信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第21頁(yè)卡耐基梅隆大學(xué)JiweiLi和康乃爾大學(xué)ClaireCardie,成功利用Twitter預(yù)測(cè)了早期流感暴發(fā)。他們方式與Google類似。首先,從Twitter數(shù)據(jù)流中過濾包含與“流感”相關(guān),并帶有位置標(biāo)簽tweet;然后,在地圖上標(biāo)注這些tweet位置分布,以及隨時(shí)間產(chǎn)生改變。同時(shí),還制作了流感動(dòng)態(tài)改變模型。新模型中,流感包含4個(gè)階段:無傳染階段、暴發(fā)階段、穩(wěn)定階段以及衰退階段。另外,采取了全新算法,試圖盡可能快得發(fā)覺不一樣時(shí)期轉(zhuǎn)換節(jié)點(diǎn)。實(shí)際上,Li和Cardie在年6月至年6月間,已經(jīng)利用100萬(wàn)美國(guó)人360萬(wàn)條tweet,驗(yàn)證了該方法有效性。為了檢驗(yàn)他們預(yù)測(cè)是否成真,Li和Cardie將他們分析與CDC進(jìn)行對(duì)比。他們說,“我們確信,流感相關(guān)tweet與CDC提供流感疾病案例數(shù)目,呈顯著相關(guān)?!?10/122信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第22頁(yè)/10/123信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第23頁(yè)日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開這個(gè)網(wǎng)站用自己Twitter賬號(hào)登錄,就能夠在短時(shí)間內(nèi)經(jīng)過數(shù)萬(wàn)條Twitter找出可能感冒人,并經(jīng)過過去感冒情況和今日感冒情況進(jìn)行分析(以及統(tǒng)計(jì)當(dāng)前發(fā)燒以及嗓子痛患者數(shù)量),另外該程序還會(huì)結(jié)合氣溫和濕度改變來預(yù)測(cè)未來感冒流行情況,并制作一個(gè)“易感冒日歷”。當(dāng)前,這類服務(wù)正在日本陸續(xù)展開。經(jīng)過這個(gè)服務(wù)器分析,大家就能夠知道在自己身邊到底有多少人有感冒癥狀,并提前做好預(yù)防準(zhǔn)備。日本國(guó)立感染癥研究所將會(huì)把全國(guó)約

5000個(gè)醫(yī)療診所流感患者進(jìn)行統(tǒng)計(jì)并公布數(shù)據(jù)。經(jīng)過對(duì)比,研究所得出實(shí)際統(tǒng)計(jì)數(shù)字和網(wǎng)站上預(yù)測(cè)結(jié)果基本是一致,那么為何大數(shù)據(jù)結(jié)果會(huì)很準(zhǔn)呢?首先是因?yàn)榻?jīng)過網(wǎng)絡(luò)信息分析技術(shù)有所進(jìn)步,已經(jīng)能夠經(jīng)過各種各樣留言自動(dòng)搜索到相關(guān)數(shù)據(jù),并自動(dòng)分類。就像Google現(xiàn)在所使用技術(shù),就是利用服務(wù)器分析與流感關(guān)系十分親密十幾個(gè)單詞進(jìn)行統(tǒng)計(jì)。另一個(gè)就是大數(shù)據(jù)所特有功效。在流感最嚴(yán)重時(shí)候,天天會(huì)有成千上萬(wàn)條Tweets公布,即便有一些誤差,但經(jīng)過數(shù)據(jù)分析也能分析出數(shù)據(jù)精準(zhǔn)度。以往,公共機(jī)構(gòu)在公布流感情報(bào)時(shí)候最少要延遲一周,在有些偏遠(yuǎn)地域立桿信息也并不確切,而現(xiàn)在,經(jīng)過網(wǎng)絡(luò)能夠有效填補(bǔ)這些缺憾。/10/124信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第24頁(yè)/10/125信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第25頁(yè)/10/126信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第26頁(yè)淘寶數(shù)據(jù)化運(yùn)行——實(shí)例分析分析流程1.分析主題確定及數(shù)據(jù)指標(biāo)選擇;

2.數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)提取及清洗;

3.不相關(guān)指標(biāo)剔除;

4.用訓(xùn)練數(shù)據(jù)建立模型;

5.用測(cè)試數(shù)據(jù)檢驗(yàn)?zāi)P停?/p>

6.預(yù)測(cè)新流失用戶,并提取用戶名單;7.制訂挽留策略:對(duì)圈定客戶深入進(jìn)行分群,然后逐群制訂有針正確挽留策略。比如有群組是屬于夜間通話多(和

總體均值相比)客戶,那么針對(duì)他們挽留策略可能是

推薦一些夜間通話優(yōu)惠資費(fèi)方案。8.實(shí)施挽留行動(dòng)、搜集客戶反饋。9.評(píng)定挽留效果:

/10/127信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第27頁(yè)三、構(gòu)建大數(shù)據(jù)分析平臺(tái)

信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第28頁(yè)四、公共安全領(lǐng)域大數(shù)據(jù)應(yīng)用案例

信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第29頁(yè)面向公共安全領(lǐng)域大數(shù)據(jù)分析技術(shù)平臺(tái)數(shù)據(jù)挖掘DataMiner多維分析BIBeans查詢Discoverer數(shù)據(jù)倉(cāng)庫(kù)管理(OEM)數(shù)據(jù)提取WarehouseBuilder應(yīng)用服務(wù)器ApplicationServer/PortalDataBase人口

數(shù)據(jù)外部數(shù)據(jù)犯罪數(shù)據(jù)報(bào)表ReportsDataMiningOLAP數(shù)據(jù)轉(zhuǎn)換中央數(shù)據(jù)倉(cāng)庫(kù)知識(shí)發(fā)覺信息展現(xiàn)應(yīng)用系統(tǒng)源數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)管理數(shù)據(jù)使用/10/130信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第30頁(yè)刑偵犯罪預(yù)防搜集犯罪信息推斷罪犯習(xí)慣預(yù)測(cè)罪案發(fā)生非法出入境判別海關(guān)走私模式分析緊急事件處理人員緊急疏散資源緊急調(diào)配緊急狀態(tài)安全管理緊急事件發(fā)生預(yù)演交通管理公共安全領(lǐng)域基于大數(shù)據(jù)智能分析/10/131信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第31頁(yè)信息起源銀行交易歷史資料庫(kù)/知識(shí)庫(kù)公共信息政府?dāng)?shù)據(jù)庫(kù)Internet截獲/監(jiān)聽情報(bào)通信情報(bào)人工情報(bào)/10/132信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第32頁(yè)問題關(guān)鍵大量信息(相關(guān)/無關(guān))是分析基礎(chǔ),也是分析障礙事件信息往往是隨機(jī)取得不確定原因影響分析結(jié)果分析速度是關(guān)鍵/10/133信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第33頁(yè)飛速膨脹信息各種學(xué)科邊緣結(jié)合有限記憶和注意范圍長(zhǎng)時(shí)間連續(xù)分析工作嚴(yán)重依賴分析人員經(jīng)驗(yàn)怎樣用計(jì)算機(jī)系統(tǒng)支持復(fù)雜海量分析過程?限制…他們負(fù)擔(dān)了大部分負(fù)擔(dān)依靠分析人員/10/134信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第34頁(yè)限制…分析人員沉重負(fù)擔(dān)依靠分析人員/10/135信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第35頁(yè)當(dāng)前分析需求從不一樣起源有效集成知識(shí)和信息連續(xù)知識(shí)積累提供自動(dòng)警告為分析人員查詢提供答案結(jié)構(gòu)不一樣案件情節(jié)假設(shè)/10/136信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第36頁(yè)定性,定量分析時(shí)間&頻率分析Databases經(jīng)驗(yàn)自由文本統(tǒng)一知識(shí)系統(tǒng)從不一樣信息起源和格式獲取數(shù)據(jù)/10/137信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第37頁(yè)基本信息組織個(gè)人人工情報(bào)事件數(shù)據(jù)庫(kù)銀行交易其它數(shù)據(jù)源政府?dāng)?shù)據(jù)庫(kù)通信情報(bào)監(jiān)聽

反饋

人工情報(bào)問詢檢驗(yàn)?zāi)M聯(lián)結(jié)事件生成

Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)/10/138信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第38頁(yè)經(jīng)典應(yīng)用1–

刑事罪案自動(dòng)分析/10/139信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第39頁(yè)參加分析數(shù)據(jù)罪犯–犯罪技巧(爆炸-爆炸物制作,殺人方式,動(dòng)機(jī)等等),屬于特定團(tuán)伙和團(tuán)伙中角色(計(jì)劃者,輔助者,領(lǐng)導(dǎo)者,執(zhí)行者/馬仔等等),戶籍地/暫住地,入獄歷史團(tuán)伙–組員,角色潛在目標(biāo)–人群/公共機(jī)構(gòu)/商業(yè)機(jī)構(gòu),他們位置知識(shí)和經(jīng)驗(yàn)–這些原因怎樣相互作用–包含外在影響和經(jīng)驗(yàn)(過去發(fā)生事件)新信息會(huì)源源不?!?10/140信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第40頁(yè)模擬案例-西西里,巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)了解信息Corradi是巴勒莫警方首席偵探DonMarcello是Marcello家族教父Marcello家族含有很強(qiáng)報(bào)復(fù)性巴勒莫警方很可能遭到報(bào)復(fù)文本信息了解外部數(shù)據(jù)訪問外部數(shù)據(jù)訪問DataMining/先驗(yàn)知識(shí)推理,警報(bào)/10/141信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第41頁(yè)新信息了解信息Bob是Marcello家族組員Bob是家族中計(jì)劃者和談判代表Marcello家族勢(shì)力只限于巴勒莫談判代表到外面地域?qū)ふ壹易鍍?nèi)沒有炸彈教授炸彈制造和使用是Marcello家族沒有技術(shù),Parsi地域黑手黨家族有這么教授Per是Parsi地域黑手黨炸彈教授同時(shí)間服刑罪犯經(jīng)常會(huì)一起合作犯案Per和Bob有同時(shí)間服刑歷史Marcello家族有可能以炸彈攻擊方式報(bào)復(fù)DonMarcello被拘捕Bob有可能計(jì)劃用炸彈攻擊巴勒莫警方巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi出現(xiàn)”(警方通報(bào))文本信息了解外部數(shù)據(jù)訪問外部數(shù)據(jù)訪問外部數(shù)據(jù)訪問DataMining/先驗(yàn)知識(shí)外部數(shù)據(jù)訪問外部數(shù)據(jù)訪問DataMining/先驗(yàn)知識(shí)DataMining/先驗(yàn)知識(shí)推理,警報(bào)外部數(shù)據(jù)訪問/10/142信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第42頁(yè)新信息巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi出現(xiàn)”(警方通報(bào))羅馬,5/5/03:“Fabrizzi將會(huì)29號(hào)在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“這個(gè)月巴勒莫會(huì)發(fā)生一些事情”(警方情報(bào))

…有可能報(bào)復(fù)巴勒莫警方–可能是一起炸彈攻擊有可能針對(duì)Fabrizzi法官–可能攻擊伎倆,謀殺或是炸彈攻擊基于時(shí)間相關(guān)分析(全部分析都是與時(shí)間高度相關(guān))/10/143信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第43頁(yè)新信息假如我們拘捕Per?炸彈攻擊威脅會(huì)降低,不過不會(huì)消失–Marcello家族談判代表還知道其它炸彈教授,等等…假如我們同時(shí)拘捕Per和Bob?推理,假設(shè)分析推理,假設(shè)分析巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi出現(xiàn)”(警方通報(bào))羅馬,5/5/03:“Fabrizzi將會(huì)29號(hào)在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“這個(gè)月巴勒莫會(huì)發(fā)生一些事情”(警方情報(bào))/10/144信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第44頁(yè)本月有事情(突發(fā)事件)在巴勒莫發(fā)生Fabrizzi將在29日宣判DonMarcelloBob出現(xiàn)在Parsi親密注意相關(guān)人員接觸炸彈有可能在制造中(假設(shè)事件與Marcello家族相關(guān)-警告會(huì)在三個(gè)月內(nèi)有效)可能報(bào)復(fù)DonMarcello被囚禁DonMarcello被拘捕事件與沖突/10/145信息資源管理-擴(kuò)展知識(shí)大數(shù)據(jù)及其典型應(yīng)用第45頁(yè)系統(tǒng)功效系統(tǒng)包含了先驗(yàn)知識(shí)閱讀自由結(jié)構(gòu)文本并建立事件事件被聯(lián)絡(luò)起來,按照邏輯,觸發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論