“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考_第1頁
“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考_第2頁
“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考_第3頁
“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考_第4頁
“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、“大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用思考第一頁,共36頁。Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)?Q2:如果你是市公安局刑偵隊(duì)長,如何降低80%的犯罪率?Q3:如果你是全省或全國的疾控中心主管,如何實(shí)時監(jiān)控疾病爆發(fā)或控制流感蔓延?第二頁,共36頁。 每個問題都是重要的世界性難題,但美國人解決的方案都用到了。大數(shù)據(jù)!第三頁,共36頁。什么是大數(shù)據(jù)?Q4:大數(shù)據(jù)的就是數(shù)據(jù)多、數(shù)據(jù)大?Q5:數(shù)據(jù)多大算大?Q6:excel算一算,畫畫圖表算不算大數(shù)據(jù)?第四頁,共36頁。什么是大數(shù)據(jù)?定義3:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信

2、息資產(chǎn)。- “大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner定義2:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。-著名咨詢機(jī)構(gòu)麥肯錫全球研究所定義1:以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見。第五頁,共36頁。大數(shù)據(jù)時代的到來區(qū)別一:數(shù)據(jù)采集變得更容易通訊記錄;上網(wǎng)記錄;信用卡消費(fèi)記錄;手機(jī)定位信息;各種傳感器;各種手環(huán)區(qū)別二:網(wǎng)絡(luò)升級,光纖,數(shù)據(jù)傳遞變得高效容易移動2G的理論網(wǎng)速48Kb/s移動3G的理論網(wǎng)速350Kb/s移動4

3、G的理論網(wǎng)速12.5M/s區(qū)別三:單位數(shù)據(jù)存儲成本大大降低第六頁,共36頁。大數(shù)據(jù)時代的到來數(shù)據(jù)爆炸第七頁,共36頁。大數(shù)據(jù)時代的到來區(qū)別五:計(jì)算能力得到飛速發(fā)展,云計(jì)算,廉價,10萬億次/秒?yún)^(qū)別四:統(tǒng)計(jì)學(xué)、應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的大發(fā)展A/B Testing;關(guān)聯(lián)規(guī)則分析;聚類分析;遺傳算法;神經(jīng)網(wǎng)絡(luò);預(yù)測模型;模式識別;時間序列分析;回歸分析;系統(tǒng)仿真;機(jī)器學(xué)習(xí);優(yōu)化;空間分析;社會網(wǎng)絡(luò)分析;自然語言分析第八頁,共36頁。大數(shù)據(jù)時代的到來小大數(shù)據(jù)時代解決一些相關(guān)問題更多依靠部分樣本調(diào)查方法,在處理很多問題時有局限性,大數(shù)據(jù)時代全樣本分析變得可能龐大的數(shù)據(jù)庫有著小數(shù)據(jù)庫所沒有的價值大數(shù)據(jù)時代是

4、一個有海量數(shù)據(jù)的時代,應(yīng)用數(shù)學(xué)已經(jīng)取代了其他的所有學(xué)科工具。而且只要數(shù)據(jù)足夠,就能說明問題。第九頁,共36頁。20世紀(jì)90年代,數(shù)據(jù)倉庫之父的Bill Inmon就經(jīng)常提及Big Data2011年5 月,在“云計(jì)算相遇大數(shù)據(jù)” 為主題的EMC World 2011 會議中,EMC 拋出了Big Data概念大數(shù)據(jù)時代的到來第十頁,共36頁。 21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、

5、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生: 半個世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時代的到來第十一頁,共36頁。4V體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像

6、、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的特征第十二頁,共36頁。大數(shù)據(jù)的價值和潛力大數(shù)據(jù)將是下一個社會發(fā)展階段的“石油”和“金礦”。無論是個人、企業(yè)還是國家,誰能更好地抓住數(shù)據(jù)、理解數(shù)據(jù)、分析數(shù)據(jù),誰就能在下一波的社會競爭中脫穎而出。關(guān)于數(shù)據(jù)的知識,將成為個人知識結(jié)構(gòu)中的必備要素和基礎(chǔ)。第十三頁,共36頁。大數(shù)據(jù)如何解決問題? 美國交通事故死亡分析報(bào)告系統(tǒng)(Fatal Analysis Reportin

7、g System):分析全美所有交通事故發(fā)生時間、地點(diǎn)、天氣和原因,統(tǒng)計(jì)傷亡人員性別和年齡,發(fā)現(xiàn)問題并針對性地采取措施。Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)?第十四頁,共36頁。大數(shù)據(jù)如何解決問題?午夜酒駕是最主要原因,需要首先從嚴(yán)整頓。發(fā)現(xiàn)各州安全帶執(zhí)法方式不同死亡率降低不同,調(diào)整執(zhí)法方式。發(fā)現(xiàn)其他更多細(xì)節(jié)和問題。死亡人數(shù)從1966年的5萬人降低到2013年的30057人。一些結(jié)論:18:0021:00是交通事故的最高發(fā)時段;2534歲的人群居交通事故死亡人數(shù)之首;行人總是交通事故的犧牲品;男女因交通事故死亡的比例很穩(wěn)定,為7:3。Q1:如果你是市交通局長,如何降低40

8、%的交通事故死亡人數(shù)?第十五頁,共36頁。大數(shù)據(jù)如何解決問題?Q2:如果你是市公安局刑偵隊(duì)長,如何降低80%的犯罪率?紐約市探長Jack Maple通過分析全市所有犯罪案件發(fā)生的時間和地點(diǎn),預(yù)測未來案件發(fā)生的地點(diǎn),將有限的警力提前布置,在此基礎(chǔ)上1994年誕生了CompStat 。1990年兇殺案2245宗,1994年啟用CompStat ,持續(xù)降低到2009年的466宗,創(chuàng)下50年之最低。CompStat現(xiàn)已在全美推廣使用。1996年,CompStat獲得了哈佛大學(xué)的美國政府創(chuàng)新獎。Jack Maple/杰克梅普爾第十六頁,共36頁。大數(shù)據(jù)如何解決問題?Q3:如果你是全省或全國的疾控中心主管

9、,如何實(shí)時監(jiān)控疾病爆發(fā)或控制流感蔓延?2009年甲型H1N1流感在短短幾周之內(nèi)飛速傳播開來,短時間研發(fā)不出疫苗。公共衛(wèi)生專家只有先知道這種流感出現(xiàn)在哪里才能控制減慢它的傳播。感染信息采集有一兩周的延遲,數(shù)據(jù)統(tǒng)計(jì)匯總還需要時間。谷歌通過觀察人們在網(wǎng)上的搜索記錄和檢索詞條發(fā)明了預(yù)測方法,并在流感爆發(fā)前幾周預(yù)測冬季流感的傳播,論文發(fā)表在自然雜志上。第十七頁,共36頁。大數(shù)據(jù)如何解決問題?谷歌為了測試這些檢索詞條,總共處理了4.5億個不同的數(shù)學(xué)模型。再將得出的預(yù)測與2007年、2008年美國疾控中心記錄的實(shí)際流感病例進(jìn)行對比后,谷歌公司發(fā)現(xiàn),他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,將它們用于一個特定的數(shù)

10、學(xué)模型后,他們的預(yù)測與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。Q3:如果你是全省或全國的疾控中心主管,如何實(shí)時監(jiān)控疾病爆發(fā)或控制流感蔓延?第十八頁,共36頁。大數(shù)據(jù)如何解決問題?大數(shù)據(jù)和云計(jì)算白云下面數(shù)據(jù)跑藍(lán)藍(lán)的天上白云飄大數(shù)據(jù)的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計(jì)算。 -維克托教授第十九頁,共36頁。大數(shù)據(jù)如何解決問題?ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計(jì)算和云存儲實(shí)時流處理A/B Testing關(guān)聯(lián)規(guī)則分析分類聚

11、類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機(jī)器學(xué)習(xí)優(yōu)化空間分析社會網(wǎng)絡(luò)分析自然語言分析MapReduceR語言標(biāo)簽云(Tag Cloud)聚類圖(Clustergram)空間信息流(Spatial information flow)熱圖(Heatmap)第二十頁,共36頁。大數(shù)據(jù)如何解決問題?馬云成功預(yù)測2008 年經(jīng)濟(jì)危機(jī)“2008 年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!蓖ǔ6?,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)中,就是查詢

12、點(diǎn)擊的數(shù)量和購買點(diǎn)擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因?yàn)閿?shù)據(jù)樣本巨大,保證用戶行為模型的準(zhǔn)確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。其他案例第二十一頁,共36頁。大數(shù)據(jù)如何解決問題?通過記錄和分析北京市出租車兩年的GPS數(shù)據(jù),微軟亞洲研究院的謝幸及其同事可以向司機(jī)提供不同時段的最佳出行路線。挪威耶維克大學(xué)的研究人員和Derawi Biometrics公司聯(lián)合為智能手機(jī)開發(fā)了一款應(yīng)用程序,可以分析人走路時的步伐并將其作為手機(jī)解鎖的安全系統(tǒng)。日本先進(jìn)工業(yè)技術(shù)研究所根據(jù)人體對座位的壓力差異識別出乘坐者的身份,準(zhǔn)確率高達(dá)98%,據(jù)此開發(fā)的防盜騎車座椅

13、具有防止汽車被偷的功能。其他案例第二十二頁,共36頁。排水和大數(shù)據(jù)結(jié)合?充分利用和挖掘數(shù)據(jù)中蘊(yùn)藏的信息來輔助決策,人類理性的范圍將會擴(kuò)大,提高決策的質(zhì)量。不為了使用大數(shù)據(jù)而制造大數(shù)據(jù),為解決問題而有意識地收集并分析數(shù)據(jù)。黑貓白貓,能抓老鼠就是好貓。首先應(yīng)盡可能尋找問題最簡單的解決方案。不必在乎方法手段是不是高級,能解決問題的方法就是好方法。必要性第二十三頁,共36頁。排水和大數(shù)據(jù)結(jié)合?通過統(tǒng)計(jì)塑料管檢測數(shù)據(jù)預(yù)測哪個品牌的管材質(zhì)量更容易出問題;通過分析多個水樣中各種重金屬之間的相關(guān)性確定Zn為水樣中重金屬特征指標(biāo),可以減少重金屬檢測指標(biāo)和工作量;淹易淹易澇區(qū)域風(fēng)險(xiǎn)評估及改造方案:運(yùn)用管網(wǎng)、下墊面

14、和降雨等大量基礎(chǔ)數(shù)據(jù),通過徑流模擬算法、管流模擬算法和二維地表漫流模擬算法,運(yùn)算量大。我們正在有意識無意識地運(yùn)用大數(shù)據(jù)思維解決遇到的問題。第二十四頁,共36頁。排水和大數(shù)據(jù)結(jié)合?氣象數(shù)據(jù)水文數(shù)據(jù)防汛監(jiān)控調(diào)度指揮系統(tǒng)的大數(shù)據(jù)管網(wǎng)數(shù)據(jù)泵站運(yùn)行數(shù)據(jù)僅采集和統(tǒng)計(jì)數(shù)據(jù),還要挖掘數(shù)據(jù)潛在價值。數(shù)據(jù)大還不夠,離大數(shù)據(jù)還有距離。第二十五頁,共36頁。排水和大數(shù)據(jù)結(jié)合?其他可能的應(yīng)用通過分析污水廠多年的進(jìn)水水質(zhì)變化(如C/N變化)分析和居民生活習(xí)慣的改變有關(guān)系,進(jìn)而預(yù)測進(jìn)水水質(zhì)的變化通過設(shè)備維修記錄中的故障原因統(tǒng)計(jì)提前做好維護(hù)計(jì)劃;第二十六頁,共36頁。排水和大數(shù)據(jù)結(jié)合?其他可能的應(yīng)用通過分析泵站經(jīng)濟(jì)性報(bào)表中的

15、單耗來查找高能耗泵站及其原因,采取措施降低能耗;估算市區(qū)的雨污水管網(wǎng)總長度?提高管網(wǎng)養(yǎng)護(hù)的效率,優(yōu)化清淤養(yǎng)護(hù)計(jì)劃:相同的清淤量,清淤管道優(yōu)先級更高;相同的人和設(shè)備,年度清淤量上升15%?智慧排水第二十七頁,共36頁。我們應(yīng)該采取的行動1、加強(qiáng)數(shù)據(jù)收集的意識,重視數(shù)據(jù)收集*摘自管網(wǎng)所2014年年報(bào)上個世紀(jì)90年代,面對信息管理系統(tǒng)的普及、各行各業(yè)數(shù)據(jù)記錄的激增,管理大師彼得德魯克(Peter Drucker)曾發(fā)出慨嘆:迄今為止,我們的系統(tǒng)產(chǎn)生的還僅僅是數(shù)據(jù),而不是信息,更不是知識!第二十八頁,共36頁。我們應(yīng)該采取的行動2、重視數(shù)據(jù)質(zhì)量:數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)倉庫數(shù)據(jù)倉庫:將不同平臺、不同編制語言、

16、不同物理位置的數(shù)據(jù),按統(tǒng)一定義的格式提取出來,再通過清洗、轉(zhuǎn)換、集成,最后加載進(jìn)入的數(shù)據(jù)集合。“數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理中的決策制定。”數(shù)據(jù)能滿足其既定的用途,它才有質(zhì)量。如果不能滿足既定的目標(biāo)和用途,就談不上質(zhì)量。數(shù)據(jù)倉庫對數(shù)據(jù)標(biāo)準(zhǔn)化非常重要,可以在今后的應(yīng)用中高效地提取指定特征的標(biāo)準(zhǔn)格式的信息,大大減少了數(shù)據(jù)收集、整理和標(biāo)準(zhǔn)化的程序和時間。第二十九頁,共36頁。我們應(yīng)該采取的行動3、重視數(shù)據(jù)共享和發(fā)布2008年奧巴馬上

17、任后為創(chuàng)建一個“透明的政府”,促使美國政府創(chuàng)建了D網(wǎng)站,為大數(shù)據(jù)敞開了大門。到2012年7月三周年時, D數(shù)據(jù)集已達(dá)45萬個左右,涵蓋172個機(jī)構(gòu)。英國和印度也有“數(shù)據(jù)公開”運(yùn)動。2001年,普華永道研究結(jié)果顯示:受益于免費(fèi)的數(shù)據(jù)發(fā)布模式,2000年美國天氣風(fēng)險(xiǎn)管理行業(yè)(Weather Risk Management Industry)的產(chǎn)值是整個歐洲的近60倍、整個亞洲的146倍。第三十頁,共36頁。我們應(yīng)該采取的行動3、重視數(shù)據(jù)共享和發(fā)布D第三十一頁,共36頁。我們應(yīng)該采取的行動3、重視數(shù)據(jù)共享和發(fā)布首先在內(nèi)部建立各類數(shù)據(jù)的標(biāo)準(zhǔn)最小數(shù)據(jù)集及各類臺賬(最小數(shù)據(jù)集是指包含了最重要信息的最小數(shù)據(jù)集合),以省供排水協(xié)會推動省內(nèi)行業(yè)各類臺賬和數(shù)據(jù)規(guī)范化,并促進(jìn)行業(yè)交流和數(shù)據(jù)開放交流。第三十二頁,共36頁。我們應(yīng)該采取的行動4、重視人的作用2010年起,谷歌的首席經(jīng)濟(jì)學(xué)家范里安(Hal Varian)就一直在多種場合強(qiáng)調(diào),下一個十年,將出現(xiàn)一類新的專業(yè)人才:數(shù)據(jù)科學(xué)家。其中一種,正是數(shù)據(jù)可視化工程師,這種人才既懂得數(shù)據(jù)分析,又精通構(gòu)圖的藝術(shù),集故事講述和藝術(shù)家的特質(zhì)于一身,將是我們大數(shù)據(jù)時代的導(dǎo)航員。5、重視工具的運(yùn)用相關(guān)軟件流體數(shù)值模擬: Flu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論