版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1 “大數(shù)據(jù)大數(shù)據(jù)”及其在排水領(lǐng)域應(yīng)用的及其在排水領(lǐng)域應(yīng)用的 思考思考 2015.12 2 Q1:如果你是市交通局長,如何降低40%的交通事故死亡人 數(shù)? Q2:如果你是市公安局刑偵隊(duì)長,如何降低80%的犯罪率? Q3:如果你是全省或全國的疾控中心主管,如何實(shí)時監(jiān)控疾 病爆發(fā)或控制流感蔓延? 3 每個問題都是重要的世界性難題, 但美國人解決的方案都用到了。 大數(shù)據(jù)!大數(shù)據(jù)! 4 什么是大數(shù)據(jù)? Q4:大數(shù)據(jù)的就是數(shù)據(jù)多、數(shù)據(jù)大? Q5:數(shù)據(jù)多大算大? Q6:excel算一算,畫畫圖表算不算大數(shù)據(jù)? 5 什么是大數(shù)據(jù)? 定義定義3:“大數(shù)據(jù)大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力
2、和流程是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程 優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。-“大數(shù)據(jù)大數(shù)據(jù)”(Bigdata)研究)研究 機(jī)構(gòu)機(jī)構(gòu)Gartner 定義定義1:以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn):以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn) 品和服務(wù),或深刻的洞見。品和服務(wù),或深刻的洞見。 6 大數(shù)據(jù)時代的到來 區(qū)別一:區(qū)別一:數(shù)據(jù)采集變得更容易 通訊記錄;上網(wǎng)記錄;信用卡消費(fèi)記錄;手機(jī)定位信息;各種傳感器;各種手環(huán) 區(qū)別二:區(qū)別二:網(wǎng)絡(luò)升級,光纖,數(shù)據(jù)傳遞變得高效容易
3、移動2G的理論網(wǎng)速48Kb/s 移動3G的理論網(wǎng)速350Kb/s 移動4G的理論網(wǎng)速12.5M/s 區(qū)別三:區(qū)別三:單位數(shù)據(jù)存儲成本大大降低 7 大數(shù)據(jù)時代的到來 8 大數(shù)據(jù)時代的到來 區(qū)別五:區(qū)別五:計算能力得到飛速發(fā)展,云計算,廉價,10萬億次/秒 區(qū)別四:區(qū)別四:統(tǒng)計學(xué)、應(yīng)用數(shù)學(xué)和計算機(jī)科學(xué)的大發(fā)展 A/B Testing;關(guān)聯(lián)規(guī)則分析;聚類分析;遺傳算法;神經(jīng)網(wǎng)絡(luò);預(yù)測模型;模 式識別;時間序列分析;回歸分析;系統(tǒng)仿真;機(jī)器學(xué)習(xí);優(yōu)化;空間分析; 社會網(wǎng)絡(luò)分析;自然語言分析 9 大數(shù)據(jù)時代的到來 u小大數(shù)據(jù)時代解決一些相關(guān)問題更多依靠部分樣本調(diào)查方法,在處理很 多問題時有局限性,大數(shù)據(jù)
4、時代全樣本分析變得可能 u龐大的數(shù)據(jù)庫有著小數(shù)據(jù)庫所沒有的價值 u大數(shù)據(jù)時代是一個有海量數(shù)據(jù)的時代,應(yīng)用數(shù)學(xué)已經(jīng)取代了其他的所有 學(xué)科工具。而且只要數(shù)據(jù)足夠,就能說明問題。 10 20世紀(jì)90年代,數(shù)據(jù)倉庫之父的Bill Inmon就經(jīng)常提及Big Data 2011年5 月,在“云計算相遇大數(shù)據(jù)” 為主題的EMC World 2 011 會議中,EMC 拋出了Big Data概念 大數(shù)據(jù)時代的到來 11 21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時 代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù) 等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范 圍,各種數(shù)據(jù)正在迅速膨脹并變大。 互聯(lián)網(wǎng)(社交、搜索、電商)、移動 互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(
5、傳感器, 智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影 像、安全監(jiān)控、金融(銀行、股市、 保險)、電信(通話、短信)都在瘋 狂產(chǎn)生著數(shù)據(jù)。 “大數(shù)據(jù)”的誕生: 半個世紀(jì)以來,隨著計算機(jī)技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的 程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學(xué)科如天文學(xué) 和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域 中。 大數(shù)據(jù)時代的到來 12 4V 體量Volume 多樣性Variety 價值密度Value 速度Velocity 非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長 總數(shù)據(jù)量的8090% 比結(jié)構(gòu)化數(shù)據(jù)
6、增長快10倍到50倍 是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍 大數(shù)據(jù)的異構(gòu)和多樣性 很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù)) 無模式或者模式不明顯 不連貫的語法或句義 大量的不相關(guān)信息 對未來趨勢與模式的可預(yù)測分析 深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能 (咨詢、報告等) 實(shí)時分析而非批量式分析 數(shù)據(jù)輸入、處理與丟棄 立竿見影而非事后見效 大數(shù)據(jù)的特征大數(shù)據(jù)的特征 13 大數(shù)據(jù)的價值和潛力 p 大數(shù)據(jù)將是下一個社會發(fā)展階段的“石油石油”和“金礦金礦”。 p 無論是個人、企業(yè)還是國家,誰能更好地抓住數(shù)據(jù)、理解數(shù)據(jù)、分析數(shù) 據(jù),誰就能在下一波的社會競爭中脫穎而出。 p 關(guān)于數(shù)據(jù)的知識,將成為個
7、人知識結(jié)構(gòu)中的必備要素和基礎(chǔ)。 14 大數(shù)據(jù)如何解決問題? 美國交通事故死亡分析報告系統(tǒng)(Fatal Analysis Reporting System):分析全 美所有交通事故發(fā)生時間、地點(diǎn)、天氣和原因,統(tǒng)計傷亡人員性別和年齡,發(fā)現(xiàn) 問題并針對性地采取措施。 Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)? 15 大數(shù)據(jù)如何解決問題? p午夜酒駕是最主要原因,需要首先從嚴(yán)整頓。 p發(fā)現(xiàn)各州安全帶執(zhí)法方式不同死亡率降低不同,調(diào)整執(zhí)法方式。發(fā)現(xiàn)其 他更多細(xì)節(jié)和問題。 p死亡人數(shù)從1966年的5萬人降低到2013年的30057人。 p一些結(jié)論:18:0021:00是交通事故的最高發(fā)時段
8、;2534歲的人群居交 通事故死亡人數(shù)之首;行人總是交通事故的犧牲品;男女因交通事故死 亡的比例很穩(wěn)定,為7:3。 Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)? 16 大數(shù)據(jù)如何解決問題? Q2:如果你是市公安局刑偵隊(duì)長,如何降低80%的犯罪率? n紐約市探長JackMaple通過分析全市所有犯罪案件發(fā)生的時間和地點(diǎn),預(yù)測未來案 件發(fā)生的地點(diǎn),將有限的警力提前布置,在此基礎(chǔ)上1994年誕生了CompStat 。 n1990年兇殺案2245宗,1994年啟用 CompStat ,持續(xù)降低到2009年的466 宗,創(chuàng)下50年之最低。 nCompStat現(xiàn)已在全美推廣使用。 n199
9、6年,CompStat獲得了哈佛大 學(xué)的美國政府創(chuàng)新獎。 JackMaple/杰克杰克梅普爾梅普爾 17 大數(shù)據(jù)如何解決問題? Q3:如果你是全省或全國的疾控中心主管,如何實(shí)時監(jiān)控疾病 爆發(fā)或控制流感蔓延? l2009年甲型H1N1流感在短短幾周之內(nèi)飛速傳播開來,短時間研發(fā)不出疫苗。 l公共衛(wèi)生專家只有先知道這種流感出現(xiàn)在哪里才能控制減慢它的傳播。 l感染信息采集有一兩周的延遲,數(shù)據(jù)統(tǒng)計匯總還需要時間。 l谷歌通過觀察人們在網(wǎng)上的搜索記錄和檢索詞條發(fā)明了預(yù)測方法,并在流感爆 發(fā)前幾周預(yù)測冬季流感的傳播,論文發(fā)表在自然雜志上。 18 大數(shù)據(jù)如何解決問題? l谷歌為了測試這些檢索詞條,總共處理了4
10、.5億個不同的數(shù)學(xué)模型億個不同的數(shù)學(xué)模型。再將得出的預(yù) 測與2007年、2008年美國疾控中心記錄的實(shí)際流感病例進(jìn)行對比后,谷歌公司發(fā)現(xiàn) ,他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,將它們用于一個特定的數(shù)學(xué)模型后,他 們的預(yù)測與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。 Q3:如果你是全省或全國的疾控中心主管,如何實(shí)時監(jiān)控疾病 爆發(fā)或控制流感蔓延? 19 大數(shù)據(jù)如何解決問題? 大數(shù)據(jù)和云計算大數(shù)據(jù)和云計算 白云下面數(shù)據(jù)跑 藍(lán)藍(lán)的天上白云飄 大數(shù)據(jù)的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的 一角,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋 的“動力”就是云計算。 -維克托教授 20 大數(shù)據(jù)
11、如何解決問題? ETL 數(shù)據(jù)眾包 (CrowdSouring) 結(jié)構(gòu)化、非結(jié)構(gòu)化 和半結(jié)構(gòu)化數(shù)據(jù) 分布式文件系統(tǒng) 關(guān)系數(shù)據(jù)庫 非關(guān)系數(shù)據(jù)庫 (NoSQL) 數(shù)據(jù)倉庫 云計算和云存儲 實(shí)時流處理 A/B Testing 關(guān)聯(lián)規(guī)則分析 分類 聚類 遺傳算法 神經(jīng)網(wǎng)絡(luò) 預(yù)測模型 模式識別 時間序列分析 回歸分析 系統(tǒng)仿真 機(jī)器學(xué)習(xí) 優(yōu)化 空間分析 社會網(wǎng)絡(luò)分析 自然語言分析 MapReduce R語言 標(biāo)簽云 (Tag Cloud) 聚類圖 (Clustergram) 空間信息流 (Spatial information flow) 熱圖 (Heatmap) 21 大數(shù)據(jù)如何解決問題? 馬云成功預(yù)測
12、2008 年經(jīng)濟(jì)危機(jī) “2008 年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑, 歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲 得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā) 生變化了?!?通常而言,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn) 品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點(diǎn)擊的 數(shù)量和購買點(diǎn)擊的數(shù)量會保持一個相對的數(shù)值,綜合各 個維度的數(shù)據(jù)可建立用戶行為模型。因?yàn)閿?shù)據(jù)樣本巨大, 保證用戶行為模型的準(zhǔn)確性。因此在這個案例中,詢盤 數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。 其他案例其他案例 22 大數(shù)據(jù)如何解決問題? u通過記錄和分析北京市出租車兩年的GPS數(shù)據(jù),微軟亞洲研究院的謝幸及其同事
13、 可以向司機(jī)提供不同時段的最佳出行路線。 u挪威耶維克大學(xué)的研究人員和Derawi Biometrics公司聯(lián)合為智能手機(jī)開發(fā)了一款應(yīng) 用程序,可以分析人走路時的步伐并將其作為手機(jī)解鎖的安全系統(tǒng)。 u日本先進(jìn)工業(yè)技術(shù)研究所根據(jù)人體對座位的壓力差異識別出乘坐者的身份,準(zhǔn)確 率高達(dá)98%,據(jù)此開發(fā)的防盜騎車座椅具有防止汽車被偷的功能。 其他案例其他案例 23 排水和大數(shù)據(jù)結(jié)合? u充分利用和挖掘數(shù)據(jù)中蘊(yùn)藏的信息來輔助決策,人類理性的范圍將會 擴(kuò)大,提高決策的質(zhì)量。 u不為了使用大數(shù)據(jù)而制造大數(shù)據(jù),為解決問題而有意識地收集并分析 數(shù)據(jù)。 u黑貓白貓,能抓老鼠就是好貓。首先應(yīng)盡可能尋找問題最簡單的解決
14、方 案。不必在乎方法手段是不是高級,能解決問題的方法就是好方法。 必要性 24 排水和大數(shù)據(jù)結(jié)合? p通過統(tǒng)計塑料管檢測數(shù)據(jù)預(yù)測哪個品牌的管材質(zhì)量更容易出問題; p通過分析多個水樣中各種重金屬之間的相關(guān)性確定Zn為水樣中重金屬特征 指標(biāo),可以減少重金屬檢測指標(biāo)和工作量; p淹易淹易澇區(qū)域風(fēng)險評估及改造方案:運(yùn)用管網(wǎng)、下墊面和降雨等大量基礎(chǔ)數(shù) 據(jù),通過徑流模擬算法、管流模擬算法和二維地表漫流模擬算法,運(yùn)算量大。 我們正在有意識無意識地運(yùn)用大數(shù)據(jù)思維解決遇到的問題。 25 排水和大數(shù)據(jù)結(jié)合? 氣象數(shù)據(jù) 水文數(shù)據(jù) 防汛監(jiān)控調(diào)度指揮系統(tǒng)的大數(shù)據(jù) 管網(wǎng)數(shù)據(jù) 泵站運(yùn)行數(shù) 據(jù) 僅采 集和 統(tǒng)計 數(shù)據(jù) ,還
15、要挖 掘數(shù) 據(jù)潛 在價 值。 數(shù)據(jù) 大還 不夠 ,離 大數(shù) 據(jù)還 有距 離。 26 排水和大數(shù)據(jù)結(jié)合? 其他可能的應(yīng)用 p 通過分析污水廠多年的進(jìn)水水質(zhì)變化(如C/N變化)分析和居民生活習(xí) 慣的改變有關(guān)系,進(jìn)而預(yù)測進(jìn)水水質(zhì)的變化 p 通過設(shè)備維修記錄中的故障原因統(tǒng)計提前做好維護(hù)計劃; 27 排水和大數(shù)據(jù)結(jié)合? 其他可能的應(yīng)用 p 通過分析泵站經(jīng)濟(jì)性報表中的單耗來查找高能耗泵站及其原因,采取措 施降低能耗; p 估算市區(qū)的雨污水管網(wǎng)總長度? p 提高管網(wǎng)養(yǎng)護(hù)的效率,優(yōu)化清淤養(yǎng)護(hù)計劃:相同的清淤量,清淤管道優(yōu) 先級更高;相同的人和設(shè)備,年度清淤量上升15%? 智慧排水智慧排水 28 我們應(yīng)該采取的
16、行動 1、加強(qiáng)數(shù)據(jù)收集的意識,重視數(shù)據(jù)收集 *摘自管網(wǎng)所2014年年報 上個世紀(jì)90年代,面對信息管理系統(tǒng)的普及、各行各業(yè)數(shù)據(jù)記錄的激 增,管理大師彼得德魯克(Peter Drucker)曾發(fā)出慨嘆:迄今為止, 我們的系統(tǒng)產(chǎn)生的還僅僅是數(shù)據(jù),而不是信息,更不是知識! 29 我們應(yīng)該采取的行動 2、重視數(shù)據(jù)質(zhì)量:數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)倉庫 u數(shù)據(jù)倉庫:將不同平臺、不同編制語言、不同物理位置的數(shù)據(jù),按統(tǒng)一定義 的格式提取出來,再通過清洗、轉(zhuǎn)換、集成,最后加載進(jìn)入的數(shù)據(jù)集合。 u“數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、 相對穩(wěn)定的(Non-Volat
17、ile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用 于支持管理中的決策制定?!?u數(shù)據(jù)能滿足其既定的用途,它才有質(zhì)量。如果不能滿足既定的目標(biāo)和用 途,就談不上質(zhì)量。 u數(shù)據(jù)倉庫對數(shù)據(jù)標(biāo)準(zhǔn)化非常重要,可以在今后的應(yīng)用中高效地提取指定特征的 標(biāo)準(zhǔn)格式的信息,大大減少了數(shù)據(jù)收集、整理和標(biāo)準(zhǔn)化的程序和時間。 30 我們應(yīng)該采取的行動 3、重視數(shù)據(jù)共享和發(fā)布 p2008年奧巴馬上任后為創(chuàng)建一個“透明的政府”,促使美國政府創(chuàng)建 了D網(wǎng)站,為大數(shù)據(jù)敞開了大門。 p到2012年年7月月三周年時,數(shù)據(jù)集已達(dá)數(shù)據(jù)集已達(dá)45萬個左右萬個左右,涵蓋172個機(jī)構(gòu)個機(jī)構(gòu)。 p英國、印度也有“數(shù)
18、據(jù)公開”運(yùn)動。 p2001年,普華永道對此做過專門的調(diào)查,它的研究結(jié)果是:受益于免 費(fèi)的數(shù)據(jù)發(fā)布模式,2000年美國天氣風(fēng)險管理行業(yè)(Weather Risk Management Industry)的產(chǎn)值是整個歐洲的近60倍倍、整個亞洲的146倍倍。 31 我們應(yīng)該采取的行動 3、重視數(shù)據(jù)共享和發(fā)布 32 我們應(yīng)該采取的行動 3、重視數(shù)據(jù)共享和發(fā)布 首先在內(nèi)部建立各類數(shù)據(jù)的標(biāo)準(zhǔn)最小數(shù)據(jù)集及各類臺賬(最小數(shù)據(jù)集 是指包含了最重要信息的最小 數(shù)據(jù)集合),以省供排水協(xié)會推動省 內(nèi)行業(yè)各類臺賬和數(shù)據(jù)規(guī)范化,并促進(jìn)行業(yè)交流和數(shù)據(jù)開放交流。 33 我們應(yīng)該采取的行動 4、重視人的作用:分析問題;應(yīng)用各種算法需要對數(shù)學(xué)、計算機(jī)掌握相當(dāng)?shù)乃?平才可以,數(shù)據(jù)科學(xué)家或者數(shù)據(jù)工程師數(shù)據(jù)科學(xué)家是統(tǒng)計學(xué)家、軟件程序員、 圖形設(shè)計師與作家的結(jié)合體。2010年起,谷歌的首席經(jīng)濟(jì)學(xué)家范里安(Hal Varian)就一直在多種場合強(qiáng)調(diào),下一個十年,將出現(xiàn)一類新的專業(yè)人才:數(shù) 據(jù)科學(xué)家。其中一種,正是數(shù)據(jù)可視化工程師,這種人才既懂得數(shù)據(jù)分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地下交通樞紐錨索施工合同
- 汽車租賃違章扣費(fèi)
- 專利權(quán)買賣契約
- 旅游景點(diǎn)安全指南
- 生態(tài)工業(yè)園區(qū)租賃合同
- 電力工程招標(biāo)委托書
- 天津市游戲開發(fā)公司租賃合同
- 品牌鏈豬場租賃協(xié)議
- 環(huán)保工程清包工施工合同
- 2024公路橋梁工程建設(shè)施工合同協(xié)議
- 2024年秋新華師大版七年級上冊數(shù)學(xué) 2.4.3去括號和添括號 教學(xué)課件
- 【論述土木工程的信息化建設(shè)應(yīng)用8600字(論文)】
- 北師大版(三起)(2024)三年級上冊英語Unit 5單元測試卷(含答案)
- 2024年初級銀行從業(yè)資格《個人理財》考試試題
- 公司資金調(diào)撥及內(nèi)部往來管理流程手冊模板
- 尊干愛兵課件2017
- 流程圖練習(xí)題(三種結(jié)構(gòu))
- 消防監(jiān)控服務(wù)合同范本
- 修回稿修改說明
- 病原微生物實(shí)驗(yàn)室生物安全管理培訓(xùn)考核試題
- 當(dāng)代社會政策分析 課件 第七章 老年社會政策
評論
0/150
提交評論