“大數(shù)據(jù)”及其在排水領域的應用的思考_第1頁
“大數(shù)據(jù)”及其在排水領域的應用的思考_第2頁
“大數(shù)據(jù)”及其在排水領域的應用的思考_第3頁
“大數(shù)據(jù)”及其在排水領域的應用的思考_第4頁
“大數(shù)據(jù)”及其在排水領域的應用的思考_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

“大數(shù)據(jù)”及其在排水領域應用的思考2015.12Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)?Q2:如果你是市公安局刑偵隊長,如何降低80%的犯罪率?Q3:如果你是全省或全國的疾控中心主管,如何實時監(jiān)控疾病爆發(fā)或控制流感蔓延?每個問題都是重要的世界性難題,但美國人解決的方案都用到了。。。大數(shù)據(jù)!什么是大數(shù)據(jù)?Q4:大數(shù)據(jù)的就是數(shù)據(jù)多、數(shù)據(jù)大?Q5:數(shù)據(jù)多大算大?Q6:excel算一算,畫畫圖表算不算大數(shù)據(jù)?什么是大數(shù)據(jù)?定義3:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。

---“大數(shù)據(jù)”(Bigdata)研究機構Gartner定義2:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。---著名咨詢機構麥肯錫全球研究所定義1:以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。①①①②②②③③④大數(shù)據(jù)時代的到來區(qū)別一:數(shù)據(jù)采集變得更容易通訊記錄;上網記錄;信用卡消費記錄;手機定位信息;各種傳感器;各種手環(huán)區(qū)別二:網絡升級,光纖,數(shù)據(jù)傳遞變得高效容易移動2G的理論網速48Kb/s移動3G的理論網速350Kb/s移動4G的理論網速12.5M/s區(qū)別三:單位數(shù)據(jù)存儲成本大大降低大數(shù)據(jù)時代的到來數(shù)據(jù)爆炸大數(shù)據(jù)時代的到來區(qū)別五:計算能力得到飛速發(fā)展,云計算,廉價,10萬億次/秒?yún)^(qū)別四:統(tǒng)計學、應用數(shù)學和計算機科學的大發(fā)展A/BTesting;關聯(lián)規(guī)則分析;聚類分析;遺傳算法;神經網絡;預測模型;模式識別;時間序列分析;回歸分析;系統(tǒng)仿真;機器學習;優(yōu)化;空間分析;社會網絡分析;自然語言分析大數(shù)據(jù)時代的到來小大數(shù)據(jù)時代解決一些相關問題更多依靠部分樣本調查方法,在處理很多問題時有局限性,大數(shù)據(jù)時代全樣本分析變得可能龐大的數(shù)據(jù)庫有著小數(shù)據(jù)庫所沒有的價值大數(shù)據(jù)時代是一個有海量數(shù)據(jù)的時代,應用數(shù)學已經取代了其他的所有學科工具。而且只要數(shù)據(jù)足夠,就能說明問題。20世紀90年代,數(shù)據(jù)倉庫之父的BillInmon就經常提及BigData2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念大數(shù)據(jù)時代的到來facebook社交網絡淘寶、ebuy電子商務微博、Apps移動互聯(lián)21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網絡、電子商務等極大拓展了互聯(lián)網的邊界和應用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(社交、搜索、電商)、移動互聯(lián)網(微博)、物聯(lián)網(傳感器,智慧地球)、車聯(lián)網、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。大數(shù)據(jù)時代的到來4V體量Volume多樣性Variety價值密度Value速度Velocity非結構化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結構化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的特征大數(shù)據(jù)的價值和潛力大數(shù)據(jù)將是下一個社會發(fā)展階段的“石油”和“金礦”。無論是個人、企業(yè)還是國家,誰能更好地抓住數(shù)據(jù)、理解數(shù)據(jù)、分析數(shù)據(jù),誰就能在下一波的社會競爭中脫穎而出。關于數(shù)據(jù)的知識,將成為個人知識結構中的必備要素和基礎。大數(shù)據(jù)如何解決問題?美國交通事故死亡分析報告系統(tǒng)(FatalAnalysisReportingSystem):分析全美所有交通事故發(fā)生時間、地點、天氣和原因,統(tǒng)計傷亡人員性別和年齡,發(fā)現(xiàn)問題并針對性地采取措施。Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)?大數(shù)據(jù)如何解決問題?午夜酒駕是最主要原因,需要首先從嚴整頓。發(fā)現(xiàn)各州安全帶執(zhí)法方式不同死亡率降低不同,調整執(zhí)法方式。發(fā)現(xiàn)其他更多細節(jié)和問題。死亡人數(shù)從1966年的5萬人降低到2013年的30057人。一些結論:18:00~21:00是交通事故的最高發(fā)時段;25~34歲的人群居交通事故死亡人數(shù)之首;行人總是交通事故的犧牲品;男女因交通事故死亡的比例很穩(wěn)定,為7:3。Q1:如果你是市交通局長,如何降低40%的交通事故死亡人數(shù)?大數(shù)據(jù)如何解決問題?Q2:如果你是市公安局刑偵隊長,如何降低80%的犯罪率?紐約市探長JackMaple通過分析全市所有犯罪案件發(fā)生的時間和地點,預測未來案件發(fā)生的地點,將有限的警力提前布置,在此基礎上1994年誕生了CompStat。1990年兇殺案2245宗,1994年啟用CompStat,持續(xù)降低到2009年的466宗,創(chuàng)下50年之最低。CompStat現(xiàn)已在全美推廣使用。1996年,CompStat獲得了哈佛大學的美國政府創(chuàng)新獎。JackMaple/杰克·梅普爾大數(shù)據(jù)如何解決問題?Q3:如果你是全省或全國的疾控中心主管,如何實時監(jiān)控疾病爆發(fā)或控制流感蔓延?2009年甲型H1N1流感在短短幾周之內飛速傳播開來,短時間研發(fā)不出疫苗。公共衛(wèi)生專家只有先知道這種流感出現(xiàn)在哪里才能控制減慢它的傳播。感染信息采集有一兩周的延遲,數(shù)據(jù)統(tǒng)計匯總還需要時間。谷歌通過觀察人們在網上的搜索記錄和檢索詞條發(fā)明了預測方法,并在流感爆發(fā)前幾周預測冬季流感的傳播,論文發(fā)表在《自然》雜志上。大數(shù)據(jù)如何解決問題?谷歌為了測試這些檢索詞條,總共處理了4.5億個不同的數(shù)學模型。再將得出的預測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,谷歌公司發(fā)現(xiàn),他們的軟件發(fā)現(xiàn)了45條檢索詞條的組合,將它們用于一個特定的數(shù)學模型后,他們的預測與官方數(shù)據(jù)的相關性高達97%。Q3:如果你是全省或全國的疾控中心主管,如何實時監(jiān)控疾病爆發(fā)或控制流感蔓延?大數(shù)據(jù)如何解決問題?大數(shù)據(jù)和云計算白云下面數(shù)據(jù)跑藍藍的天上白云飄大數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計算。---維克托教授大數(shù)據(jù)如何解決問題?數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結果展示ETL數(shù)據(jù)眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據(jù)分布式文件系統(tǒng)關系數(shù)據(jù)庫非關系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理A/BTesting關聯(lián)規(guī)則分析分類聚類遺傳算法神經網絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網絡分析自然語言分析MapReduceR語言標簽云(TagCloud)聚類圖(Clustergram)空間信息流(Spatialinformationflow)熱圖(Heatmap)大數(shù)據(jù)如醫(yī)何解決問銹題?馬云成稱功預測2008年經濟危熱機“200李8年初,阿里巴終巴平臺館上整個綁買家詢壘盤數(shù)急沖劇下滑理,歐美酒對中國棵采購在寇下滑。末海關是言賣了貨場,出去練以后再男獲得數(shù)許據(jù);我跡們提前訂半年時錯間從詢屠盤上推冷斷出世臨界貿易偽發(fā)生變閘化了。留”通常而些言,買曉家在采年購商品伴前,會廟比較多優(yōu)家供應穿商的產串品,反爛映到阿獄里巴巴眾網站統(tǒng)科計數(shù)據(jù)建中,就近是查詢礎點擊的叨數(shù)量和江購買點甚擊的數(shù)織量會保折持一個棵相對的圓數(shù)值,懂綜合各杯個維度蘭的數(shù)據(jù)疑可建立他用戶行富為模型日。因為醉數(shù)據(jù)樣紙本巨大,保證用豬戶行為泡模型的匙準確性軋。因此披在這個脆案例中氏,詢盤六數(shù)據(jù)的婚下降,身自然導豬致買盤沉的下降添。其他案例大數(shù)據(jù)各如何解聞決問題組?通過記錄宇和分析北盼京市出租酬車兩年的圖GPS數(shù)學據(jù),微軟與亞洲研究侍院的謝幸道及其同事團可以向司好機提供不族同時段的悟最佳出行記路線。挪威耶維弄克大學的辛研究人員舒和Der三awi送Biom偽etri承cs公司梳聯(lián)合為智想能手機開閣發(fā)了一款雞應用程序歌,可以分陽析人走路犬時的步伐擁并將其作萄為手機解田鎖的安全民系統(tǒng)。日本先滲進工業(yè)泳技術研友究所根濤據(jù)人體攜對座位爆的壓力經差異識棄別出乘瞇坐者的碑身份,威準確率肢高達9漿8%,終據(jù)此開捕發(fā)的防型盜騎車困座椅具叉有防止券汽車被雪偷的功鴉能。其他案例排水和阻大數(shù)據(jù)至結合?充分利丟用和挖腳掘數(shù)據(jù)誼中蘊藏畝的信息嬸來輔助扶決策,姐人類理壯性的范咬圍將會寇擴大,屆提高決惑策的質培量。不為了編使用大星數(shù)據(jù)而庭制造大伴數(shù)據(jù),促為解決揪問題而成有意識膜地收集君并分析騙數(shù)據(jù)。黑貓白貓違,能抓老趣鼠就是好哨貓。首先摔應盡可能流尋找問題匙最簡單的礦解決方案鋸。不必在昂乎方法手己段是不是只高級,能冷解決問題獵的方法就討是好方法怖。必要性排水和大擴數(shù)據(jù)結合且?通過統(tǒng)計僚塑料管檢丈測數(shù)據(jù)預閃測哪個品潔牌的管材惑質量更容喝易出問題女;通過分析昨多個水樣水中各種重澇金屬之間睡的相關性叢確定Zn僻為水樣中赴重金屬特未征指標,忘可以減少墻重金屬檢冒測指標和民工作量;淹易淹易蘇澇區(qū)域風哀險評估及餅改造方案投:運用管痕網、下墊搏面和降雨勸等大量基故礎數(shù)據(jù),潛通過徑流巷模擬算法涌、管流模菠擬算法和滋二維地表挽漫流模擬節(jié)算法,運摔算量大。我們正轎在有意震識無意燦識地運運用大數(shù)從據(jù)思維較解決遇由到的問金題。排水和劇大數(shù)據(jù)炒結合?氣象數(shù)據(jù)水文數(shù)據(jù)防汛監(jiān)銷控調度削指揮系繪統(tǒng)的大數(shù)據(jù)管網數(shù)據(jù)泵站運行扛數(shù)據(jù)僅采集豬和統(tǒng)計屯數(shù)據(jù),冰還要挖倦掘數(shù)據(jù)爪潛在價陡值。數(shù)據(jù)大震還不夠趙,離大師數(shù)據(jù)還斥有距離旬。排水和臺大數(shù)據(jù)趙結合?其他可能代的應用通過分析踏污水廠多吉年的進水兆水質變化裳(如C/N變化)辯分析和恰居民生饞活習慣螞的改變常有關系謙,進而蕩預測進忌水水質涉的變化通過設備罰維修記錄古中的故障朽原因統(tǒng)計律提前做好筋維護計劃脖;排水和墳大數(shù)據(jù)荷結合?其他可能皺的應用通過分坐析泵站聾經濟性刺報表中閉的單耗畝來查找病高能耗威泵站及忙其原因戒,采取權措施降勒低能耗介;估算市皮區(qū)的雨豎污水管趁網總長柜度?提高管網幼養(yǎng)護的效切率,優(yōu)化絞清淤養(yǎng)護侵計劃:相墓同的清淤片量,清淤輩管道優(yōu)先襯級更高;乳相同的人侵和設備,辮年度清淤尼量上升15%?智慧排叼水我們應該匙采取的行徹動1、加強艘數(shù)據(jù)收集搶的意識,蒜重視數(shù)據(jù)開收集*摘自《管網所201驚4年年報》上個世紀火90年代岔,面對信錫息管理系陪統(tǒng)的普及啦、各行各邀業(yè)數(shù)據(jù)記歉錄的激增現(xiàn),管理大島師彼得·知德魯克(術Pete稿rDr第ucke強r)曾發(fā)沾出慨嘆:左迄今為止揮,我們的它系統(tǒng)產生藥的還僅僅建是數(shù)據(jù),糠而不是信貧息,更不腎是知識!我們應顆該采取琴的行動2、重斷視數(shù)據(jù)擋質量:揪數(shù)據(jù)標協(xié)準化和服數(shù)據(jù)倉麥庫數(shù)據(jù)倉庫仇:將不同擱平臺、不顏同編制語辰言、不同晝物理位置擱的數(shù)據(jù),位按統(tǒng)一定沸義的格式因提取出來叼,再通過返清洗、轉飼換、集成疑,最后加寫載進入的狹數(shù)據(jù)集合充?!皵?shù)據(jù)暢倉庫是共一個面量向主題余的(S艇ubj飽ect攜Or些ien翻ted蕩)、集等成的(需Int堂egr故ate哄d)、砌相對穩(wěn)省定的(訊Non騾-Vo特lat稻ile槐)、反泄映歷史錢變化(般Tim臉eV見ari鵲ant層)的數(shù)索據(jù)集合范,用于輛支持管戰(zhàn)理中的賞決策制穴定。”數(shù)據(jù)能賺滿足其邁既定的認用途,藏它才有松質量。戶如果不顧能滿足降既定的勺目標和檢用途,借就談不醬上質量美。數(shù)據(jù)倉庫桃對數(shù)據(jù)標記準化非常隱重要,可毯以在今后律的應用中堅高效地提悲取指定特帽征的標準蘇格式的信組息,大大厲減少了數(shù)偶據(jù)收集、躍整理和標當準化的程剃序和時間顛。我們應該命采取的行聽動3、重隸視數(shù)據(jù)亂共享和童發(fā)布200揮8年奧巴世馬上任娃后為創(chuàng)寶建一個拜“透明湖的政府盤”,促叫使美國礦政府創(chuàng)音建了D鎖ata市.go乞v網站裂,為大帥數(shù)據(jù)敞向開了大征門。到2012年7月三周年蟻時,膛Dat重a.g推ov數(shù)據(jù)集已橋達45萬個左考右,涵蓋172個機構。英國和陶印度也元有“數(shù)尸據(jù)公開際”運動辣。200挑1年,夢普華永被道研究余結果顯泡示:受降益于免看費的數(shù)莊據(jù)發(fā)布內模式,懼200邁0年美惡國天氣斥風險管推理行業(yè)夫(We球ath糧er也Ris刊kM港ana啞gem撲ent燒In妥dus么try柔)的產倍值是整夫個歐洲襖的近60倍、整個亞各洲的146倍。我們應府該采取勸的行動3、重詢視數(shù)據(jù)腫共享和冷發(fā)布Dat峽a.g且ov我們應忙該采取遍的行動3、重視眾數(shù)據(jù)共享翁和發(fā)布首先在內謊部建立各擔類數(shù)據(jù)的訓標準最小點數(shù)據(jù)集及驢各類臺賬熱(最小數(shù)佩據(jù)集是指彼包含了最筍重要信息跑的最小數(shù)種據(jù)集合)抵,以省供教排水協(xié)會蛋推動省內鑄行業(yè)各類偵臺賬和數(shù)品據(jù)規(guī)范化凝,并促進偶行業(yè)交流瞧和數(shù)據(jù)開襲放交流。我們應該努采取的行火動4、重值視人的肺作用2010勺年起,谷扎歌的首席摘經濟學家綢范里安(緩Hal吼Vari巖an)就侵一直在多晴種場合強刃調,下一零個十年,鄰將出現(xiàn)一葉類新的專喉業(yè)人才:西數(shù)據(jù)科學茄家。其中逃一種,正結是數(shù)據(jù)可描視化工程牲師,這種揪人才既懂盈得數(shù)據(jù)分按析,又精別通構圖的齒藝術,集汗故事講述狂和藝術家組的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論