版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)、數(shù)據(jù)挖掘與暖通專業(yè)HVAC-relatedBigdata,datamining大數(shù)據(jù)、數(shù)據(jù)挖掘與暖通專業(yè)HVAC-relatedBig一、大數(shù)據(jù)的故事一、大數(shù)據(jù)的故事1.1
數(shù)據(jù)的由來記錄信息的能力是人類文明的標志之一;計量和記錄是數(shù)據(jù)的起點,是數(shù)據(jù)化最早的根基;1.1數(shù)據(jù)的由來數(shù)字時代和數(shù)據(jù)爆炸人類存儲信息量的增長速度比世界經(jīng)濟的增長速度快4倍,而計算機數(shù)據(jù)處理能力的增長速度比世界經(jīng)濟的增長速度快9倍。其中非數(shù)字數(shù)據(jù)不到2%。數(shù)字時代和數(shù)據(jù)爆炸人類存儲信息量的增長速度比世界經(jīng)濟的增長速大數(shù)據(jù)的特征——“量”大指數(shù)增長,從0.8zb(2009)到35zb(2020)Exponentialincreaseincollected/generated
data阿里數(shù)據(jù)擁有5000臺服務器,攢下了超過100PB已處理過的數(shù)據(jù),等于104857600個GB,相當于4萬個西雅圖中央圖書館,580億本藏書。僅淘寶和天貓兩個子公司每日新增的數(shù)據(jù)量,就足以讓一個人連續(xù)不斷看上28年的電影。大數(shù)據(jù)的特征——“量”大指數(shù)增長,從0.8zb(2009)到大數(shù)據(jù)的特征——種類繁雜不同格式、類型、結(jié)構(gòu)…文本、數(shù)字、圖片、錄音影像、時序信號、社交媒體數(shù)據(jù)…靜態(tài)數(shù)據(jù)、流數(shù)據(jù)簡單的應用程序可以產(chǎn)生、收集多種類型的數(shù)據(jù)注意數(shù)字化和數(shù)據(jù)化的區(qū)別大數(shù)據(jù)的特征——種類繁雜大數(shù)據(jù)的來源數(shù)據(jù)收集自身不再成為了解世界的障礙->任性的時代!關(guān)鍵問題:->數(shù)據(jù)管理、分析、整理、可視化和新知識的獲得大數(shù)據(jù)的來源數(shù)據(jù)收集自身不再成為了解世界的障礙->任性的時代大數(shù)據(jù)帶給我們的新研究理念①傳統(tǒng)隨機采樣技術(shù)的結(jié)束->小數(shù)據(jù)時代大數(shù)據(jù)帶給我們的新研究理念①傳統(tǒng)隨機采樣技術(shù)的結(jié)束->小數(shù)據(jù)缺陷:受采樣條件的制約,即隨機性自身的影響;不適合子項的深入研究;忽略細節(jié);不能脫離事先設(shè)計、傳統(tǒng)思維的影響缺陷:樣本=總體。只有獲得所有數(shù)據(jù),才有真正認識事物的可能;不單純意味著數(shù)據(jù)一定要“多”,重要的是所有細節(jié)的涵蓋;樣本=總體。只有獲得所有數(shù)據(jù),才有真正認識事物的可能;大數(shù)據(jù)帶給我們的新研究理念②追求精確的時代結(jié)束大數(shù)據(jù)帶給我們的新研究理念②追求精確的時代結(jié)束只有5%左右的數(shù)據(jù)是結(jié)構(gòu)化的;不精確不再是缺點,大數(shù)據(jù)決定了適當?shù)娜蒎e是可能的;不再需要對數(shù)據(jù)進行仔細的事先清理和篩選,不再為誤差精度而擔心,“概率”>>準確度;大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效->為什么谷歌翻譯系統(tǒng)最出色?接受混亂是數(shù)據(jù)的標準狀態(tài),不要想法去避免它->開放性、多樣性的數(shù)據(jù)庫建立和分析方法只有5%左右的數(shù)據(jù)是結(jié)構(gòu)化的;大數(shù)據(jù)帶給我們的新研究理念③注重機理(因果)研究時代的結(jié)束大數(shù)據(jù)帶給我們的新研究理念③注重機理(因果)研究時代的結(jié)束相比于內(nèi)在機理的挖掘,在大數(shù)據(jù)時代,相關(guān)關(guān)系的尋找更重要->“是什么”>>“為什么”;相比之下,相關(guān)關(guān)系的發(fā)現(xiàn)更準確、更快速,更不易受誤導->機理研究存在很大風險;是大數(shù)據(jù)預測技術(shù)的核心思想->只要找好關(guān)聯(lián)物即可;相比于內(nèi)在機理的挖掘,在大數(shù)據(jù)時代,相關(guān)關(guān)系的尋找更重要-大數(shù)據(jù)的應用①——人類行動學表面:看起來隨機而無規(guī)律的每個人的移動潛在價值:提供定制廣告;預測交通狀況和人員聚集情況;消除潛在的傳染病危害;利用:GPS各種相關(guān)設(shè)備、移動車輛、移動通信、銀行信息…大數(shù)據(jù)的應用①——人類行動學大數(shù)據(jù)的應用②——人類社交活動表面:尋找和維持朋友、同事關(guān)系,發(fā)泄情緒;潛在價值:個體的喜好、商務信用;營銷策略;利用:Facebook,
Twitter,
微信,QQ…大數(shù)據(jù)的應用②——人類社交活動大數(shù)據(jù)的應用③——人類商務活動表面:基本商務信息(購物、金融貿(mào)易…);潛在價值:新的商務類型;利用:電商(阿里巴巴、Amazon、ebay)、大型銷售商、政府部門的數(shù)據(jù)大數(shù)據(jù)的應用③——人類商務活動大數(shù)據(jù)的應用④——人體健康? 表面:測量身體各部位數(shù)據(jù);? 潛在價值:提供個性化醫(yī)療服務;? 利用:各種傳感器大數(shù)據(jù)的應用④——人體健康? 表面:測量身體各部位數(shù)據(jù);一般性的結(jié)論未來的世界,數(shù)據(jù)將無處不在。世界不再是各種事件的構(gòu)成,而是信息組合;所有數(shù)據(jù)均有其價值,而且數(shù)據(jù)的真實價值可能遠遠大于表象價值,就像冰山藏在海洋下面的部分一樣;與自然界的物質(zhì)不同,數(shù)據(jù)的價值不會隨著使用而減少,關(guān)鍵是如何評估和挖掘數(shù)據(jù)的潛在價值;數(shù)據(jù)的總和比部分更有價值->數(shù)據(jù)重組技術(shù);數(shù)據(jù)的價值是動態(tài)變化的;要格外關(guān)注數(shù)據(jù)噪聲(數(shù)據(jù)廢氣)的重要價值;引領(lǐng)大數(shù)據(jù)時代的關(guān)鍵因素不是技能,而是思維的創(chuàng)新。一般性的結(jié)論可怕的結(jié)論大數(shù)據(jù)時代,“專家”或“行業(yè)工程師”可能要讓位于數(shù)據(jù)科學家、統(tǒng)計學家和分析家,因為后者沒有傳統(tǒng)觀念的束縛,更注意把握數(shù)據(jù)內(nèi)在的規(guī)律;原因:專業(yè)技能是小數(shù)據(jù)時代的產(chǎn)物!思考:我們會失業(yè)么?可怕的結(jié)論大數(shù)據(jù)時代,“專家”或“行業(yè)工程師”可能要讓位于數(shù)大數(shù)據(jù)的局限性大數(shù)據(jù)的預測可能是不全面、不準確的;大數(shù)據(jù)只能提供參考答案,不能給出準確答案;真正的創(chuàng)新是超越于數(shù)據(jù)之上的!大數(shù)據(jù)的局限性二、數(shù)據(jù)分析和數(shù)據(jù)挖掘二、數(shù)據(jù)分析和數(shù)據(jù)挖掘數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別共同點:都是從收集到的數(shù)據(jù)中提取有用信息,對數(shù)據(jù)進行處理后發(fā)現(xiàn)知識的過程;區(qū)別:數(shù)據(jù)量不同(數(shù)據(jù)分析->小、數(shù)據(jù)挖掘->大);數(shù)據(jù)類型不同(數(shù)據(jù)分析->規(guī)范化數(shù)據(jù);數(shù)據(jù)挖掘->規(guī)范化和非規(guī)范化數(shù)據(jù));目的不同(數(shù)據(jù)分析->假設(shè)檢驗;數(shù)據(jù)挖掘->挖掘新的知識和信息);手段不同(數(shù)據(jù)分析->統(tǒng)計學;數(shù)據(jù)挖掘->還需要機器學習的算法)常規(guī)的Excel數(shù)據(jù)處理過程是數(shù)據(jù)分析!數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別共同點:都是從收集到的數(shù)據(jù)中提取有用數(shù)據(jù)挖掘的9大定律BusinessGoalsLawBusinessKnowledgeLawDataPreparationLawNFL
LawWatkins’LawInsightLawPredictionLawValueLawLawof
Change數(shù)據(jù)挖掘的9大定律數(shù)據(jù)挖掘的挑戰(zhàn)如何選擇數(shù)據(jù)挖掘的方案?如何規(guī)避和有效利用數(shù)據(jù)噪聲?如何面對數(shù)據(jù)不斷更新的影響?數(shù)據(jù)挖掘的挑戰(zhàn)數(shù)據(jù)挖掘的基本流程信息收集(數(shù)據(jù)倉庫)數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)清理數(shù)據(jù)變換數(shù)據(jù)挖掘模式評估知識表示數(shù)據(jù)預處理,至少占60%工作量至少占60%費用數(shù)據(jù)挖掘的基本流程信息收集(數(shù)據(jù)倉庫)數(shù)據(jù)預處理,至少占60(1)數(shù)據(jù)挖掘的基礎(chǔ)——數(shù)據(jù)倉庫(data
warehouse)數(shù)據(jù)存放、組織歸類、提供使用的集成平臺;主要用于支持決策,可以對多個異構(gòu)的數(shù)據(jù)來源有效集成,集成后可按照主題重組,包括歷史數(shù)據(jù);傳統(tǒng)的一體式、云存儲等不同形式;內(nèi)涵不同于現(xiàn)有的企業(yè)型數(shù)據(jù)庫(data
base),表現(xiàn)在:數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)更靈活,包含了過去的、綜合的、集成的、提煉的信息;數(shù)據(jù)一旦進入數(shù)據(jù)倉庫,修改或更新的操作較少知名數(shù)據(jù)倉庫產(chǎn)品:Oracle(Oracle),Teradata(Teradata),DB2(IBM),SQLServer(Microsoft)…(1)數(shù)據(jù)挖掘的基礎(chǔ)——數(shù)據(jù)倉庫(datawarehous數(shù)據(jù)倉庫的基本結(jié)構(gòu)ETL(ExtractTransformLoad):數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過程;OLAP(OnLineAnalyticalProcessing):對數(shù)據(jù)進行有效集成和分析;Reporting:報表數(shù)據(jù)倉庫的基本結(jié)構(gòu)(2)數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)(以數(shù)據(jù)庫為代表)結(jié)合起來存放到一個一致的數(shù)據(jù)存儲(以數(shù)據(jù)倉庫為代表)中的過程;目的:進行數(shù)據(jù)匯總和數(shù)據(jù)概化;需要利用專業(yè)知識來檢測并解決數(shù)據(jù)值的識別和沖突問題;(2)數(shù)據(jù)集成數(shù)據(jù)預處理目的:提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加有效,更加便捷,提高結(jié)果的精度和可靠性;此過程重要、不可或缺;針對對象:噪聲數(shù)據(jù)、空缺數(shù)據(jù)、錯誤數(shù)據(jù)和不一致數(shù)據(jù);背景太多雜亂的數(shù)據(jù)->屬性信息不完整、夾雜噪聲值(錯誤、孤立點)、重復值(屬性和數(shù)據(jù)冗余)、異常值、格式不符合要求…數(shù)據(jù)挖掘需要高質(zhì)量的數(shù)據(jù)數(shù)據(jù)預處理目的:提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加有效,更加(3)數(shù)據(jù)清理通過填寫缺失的數(shù)據(jù)、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來對數(shù)據(jù)進行處理的過程。目標:格式標準化異常數(shù)據(jù)剔除錯誤糾正重復數(shù)據(jù)去除(3)數(shù)據(jù)清理通過填寫缺失的數(shù)據(jù)、光滑噪聲數(shù)據(jù)、識別或刪除離(3-1)
處理缺失數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)很多是不完整的;空缺(遺漏)屬性值:簡單地將存在空缺(遺漏)屬性值的數(shù)據(jù)記錄刪除->有風險人工方式填寫、補齊空缺值->可行性差將空缺(遺漏)屬性值作為一種特殊屬性值處理;采用統(tǒng)計學原理,根據(jù)信息表中其余數(shù)據(jù)在該屬性上的分布情況對空缺(遺漏)屬性值進行估計補充。具體做法:平均值、同類樣本最可能值、貝葉斯公式或判定樹->有風險時空序列缺失:時間段局部性缺失->線性插值補缺;缺失時間段較長->利用歷史數(shù)據(jù);空間缺失->周圍數(shù)據(jù)點代替(3-1)處理缺失數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)很多是不完整的;空缺(3-2)處理重復數(shù)據(jù)真正重復性的數(shù)據(jù);屬性冗余:通過因子分析或經(jīng)驗方法確信部分屬性的相關(guān)數(shù)據(jù)足以對信息進行挖掘和決策,可通過專業(yè)常識或相關(guān)數(shù)學方法找出具有最大影響屬性因子的屬性數(shù)據(jù),其余屬性刪除;屬性數(shù)據(jù)冗余:若某屬性的部分數(shù)據(jù)足以反映該問題信息,則其余可刪除。若經(jīng)過分析,這部分冗余數(shù)據(jù)可能還有他用,則先保留。數(shù)據(jù)集成可以部分解決該問題。(3-2)處理重復數(shù)據(jù)真正重復性的數(shù)據(jù);(3-3)處理噪聲數(shù)據(jù)數(shù)據(jù)隨機誤差或偏差;利用分箱技術(shù)(平滑箱算法)來檢測周圍相應屬性值進行局部數(shù)據(jù)平滑;利用聚類技術(shù),根據(jù)要求檢測孤立點數(shù)據(jù)并進行修正;利用回歸函數(shù)和時間序列分析進行修正;(3-3)處理噪聲數(shù)據(jù)數(shù)據(jù)隨機誤差或偏差;(3-4)處理異常數(shù)據(jù)專指不遵循數(shù)據(jù)模型的一般規(guī)律的數(shù)據(jù)。注意異常點不同于噪聲,前者是數(shù)據(jù)固有可變性的結(jié)果。有時異常點隱含著重要的信息,甚至于其本身就是重點尋找的對象。方法:針對時間序列數(shù)據(jù),采用移動窗口理論等實現(xiàn)檢測;針對空間數(shù)據(jù),采取移動曲面擬合法等實現(xiàn)檢測;針對多維數(shù)據(jù),采取聚類分析法等實現(xiàn)檢測。(3-4)處理異常數(shù)據(jù)專指不遵循數(shù)據(jù)模型的一般規(guī)律的數(shù)據(jù)。(4)數(shù)據(jù)轉(zhuǎn)換分為常規(guī)數(shù)據(jù)轉(zhuǎn)換和非常規(guī)數(shù)據(jù)轉(zhuǎn)換兩類,實現(xiàn)定性問題定量化、定量問題定性化。常規(guī)數(shù)據(jù)轉(zhuǎn)換:通過線性或非線性數(shù)學變換方法等消除數(shù)據(jù)在空間、屬性、時間及精度等特征表現(xiàn)上的差異,將數(shù)據(jù)轉(zhuǎn)換為適用于數(shù)據(jù)挖掘的形式。常用方法:最小-最大規(guī)范化、Z-score規(guī)范化即零-均值規(guī)范化、小數(shù)定標規(guī)范化;目的:減少數(shù)據(jù)復雜度;數(shù)據(jù)規(guī)范化,使數(shù)據(jù)按比例縮放,落入特定區(qū)域;進行屬性構(gòu)造,通過一個或多個屬性變換計算構(gòu)造出新的屬性等。(4)數(shù)據(jù)轉(zhuǎn)換分為常規(guī)數(shù)據(jù)轉(zhuǎn)換和非常規(guī)數(shù)據(jù)轉(zhuǎn)換兩類,實現(xiàn)定性數(shù)據(jù)標準化處理后的所有數(shù)據(jù)的平均值為0,標準差為1。把區(qū)間較大的數(shù)據(jù)整合到一個相對較規(guī)則的區(qū)間中。常用方法:標準差標準化:標準差數(shù)據(jù)標準化處理后的所有數(shù)據(jù)的平均值為0,標準差為1。把區(qū)間較極差標準化:處理后的所有數(shù)據(jù)的極差為1。極差正規(guī)化:處理后的所有數(shù)據(jù)都在0~1之間。最小-最大規(guī)范化:把所有數(shù)據(jù)轉(zhuǎn)化到新設(shè)定的最小值和最大值區(qū)間內(nèi)極差極差標準化:極差非常規(guī)數(shù)據(jù)轉(zhuǎn)換如音頻、視頻數(shù)據(jù)轉(zhuǎn)換為文本格式的數(shù)據(jù)等,方法多樣。非常規(guī)數(shù)據(jù)轉(zhuǎn)換如音頻、視頻數(shù)據(jù)轉(zhuǎn)換為文本格式的數(shù)據(jù)等,方法多(5)數(shù)據(jù)規(guī)約目的:一般的數(shù)據(jù)預處理之前,對數(shù)據(jù)集進行壓縮,以便后續(xù)的數(shù)據(jù)挖掘工作更高效、精度更高、更簡便;可以沒有該步驟;特點:損失原始數(shù)據(jù)->與數(shù)據(jù)清理、數(shù)據(jù)變換的不同之處;主要方法:維數(shù)消減模型->慎用,以免犧牲數(shù)據(jù)質(zhì)量(5)數(shù)據(jù)規(guī)約數(shù)據(jù)挖掘的主要算法①——聚類算法把有共同特征的對象聚成一類,又稱群分析;是數(shù)據(jù)挖掘的核心技術(shù),也可作為數(shù)據(jù)挖掘系列過程中的預處理算法;把所有的對象數(shù)據(jù)按相異度(距離)分成不同的群組;特點:劃分前不知道數(shù)據(jù)要分成幾組,也不知道依賴哪些變量來進行劃分。聚類后要結(jié)合專業(yè)知識予以合理解釋;代表算法:K-means算法、K-medoids算法、PAM算法等。區(qū)別只在于每個聚類中心點的確定方法。數(shù)據(jù)挖掘的主要算法①——聚類算法建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件數(shù)據(jù)挖掘的主要算法②——分類算法目的:如何找出同類事物共同性質(zhì)的特征性知識和不同事物之間的差異性知識;代表算法:KNN算法;決策樹算法;神經(jīng)網(wǎng)絡(luò)算法;支持向量機SVM算法;分類不會百分百準確,每個算法都有其準確率表述。數(shù)據(jù)挖掘的主要算法②——分類算法數(shù)據(jù)挖掘的主要算法③——關(guān)聯(lián)算法概念:關(guān)聯(lián):兩個或多個變量的數(shù)據(jù)之間存在某種規(guī)律性;支持度:數(shù)據(jù)集中包含某幾個特定項的概率,反映關(guān)聯(lián)規(guī)則在數(shù)據(jù)集中的重要性;置信度:數(shù)據(jù)集中出現(xiàn)A時,B發(fā)生的概率,用于衡量關(guān)聯(lián)規(guī)則的可信程度;目的:尋找海量數(shù)據(jù)各屬性之間隱含的關(guān)聯(lián)性;代表算法:Apriori算法、Eclat算法、FP-Growth算法數(shù)據(jù)挖掘的主要算法③——關(guān)聯(lián)算法概念:數(shù)據(jù)挖掘的主要算法④——序列挖掘從一個序列中的數(shù)據(jù)找出統(tǒng)計規(guī)律,一般用于預測;序列可以是字符串、基因排列等,更常見的是時間序列;代表算法:Autoregressive
Model、Integrated
Model、movingaverage…數(shù)據(jù)挖掘的主要算法④——序列挖掘數(shù)據(jù)挖掘工具R語言:;;免費開源的數(shù)據(jù)挖掘工具函數(shù)式編程;向量化運算算法全、數(shù)據(jù)展示多樣;用戶:Facebook,
Google,LinkedIn,Microsoft…MATLAB:數(shù)值計算軟件;高效的數(shù)學表達式、符號運算功能SPSSModeler,SASEnterpriseMiner,IBMIntelligentMiner,
…左為Ross
Ihaka
右為Robert
Gentleman數(shù)據(jù)挖掘工具R語言:;免費開源的數(shù)據(jù)挖掘工具LinkedInR語言的鏡像站,包含了R的執(zhí)行文檔、源代碼和說明文件,還有各種用戶自己撰寫的軟件包/R語言的鏡像站,包含了R的執(zhí)行文檔、源代碼和說明文件,還有數(shù)據(jù)挖掘的結(jié)果顯示原則:直觀加美觀;MSOffice是遠遠不夠的;更為專業(yè)的數(shù)據(jù)可視化工具:Google
Chart,
TableauSoftware…數(shù)據(jù)挖掘的結(jié)果顯示Software…三、數(shù)據(jù)挖掘與建筑HVAC三、數(shù)據(jù)挖掘與建筑HVAC影響建筑環(huán)境和能耗的因素、影響因素具體內(nèi)容氣象條件大氣溫濕度、風速風向、太陽輻射、PM2.5…建筑本體外形尺寸、總體及局部功能或用途、圍護結(jié)構(gòu)物性參數(shù)朝向、窗墻比…能源形式化石能源、自然能源或可再生能源利用…建筑設(shè)備集中或分散式供熱、空調(diào)系統(tǒng)自身性能、運行…用戶行為開閉各種建筑設(shè)備(供熱空調(diào)、電器、照明)、通風換氣…社會因素當?shù)乜傮w生活水平、用戶文化和收入水平、能源價格…相關(guān)標準環(huán)境質(zhì)量、節(jié)能…理論上,搞清楚以上所有因素及所攜帶信息(數(shù)據(jù)),就可以實現(xiàn)環(huán)境保障和節(jié)能減排的目的影響建筑環(huán)境和能耗的因素、影響因素具體內(nèi)容氣象條件大氣溫濕度存在問題現(xiàn)有的技術(shù)手段或模型不能涵蓋所有的影響因素和相應數(shù)據(jù)信息,同時這些技術(shù)手段也不能很方便地為用戶所用;各影響因素同時作用于建筑,又存在相互作用。有的影響因素自身極為復雜,很難把握其規(guī)律->point:
人員行為;海量(同時伴隨質(zhì)劣)數(shù)據(jù)自身如何校正、檢驗?如何提取出有價值的信息來應對建筑環(huán)境和能耗需求?存在問題常規(guī)數(shù)據(jù)分析方法①——指標法人為定義各種簡單的評價指標單位建筑面積能耗(EUI):建筑總體或建筑特定能源系統(tǒng)用能量,一般用單位建筑面積表示;用于比較不同建筑間或同一建筑不同時期能源使用效率能源系統(tǒng)能效比(COP):能源系統(tǒng)產(chǎn)出和投入比;用于能源系統(tǒng)自身在不同工況下的性能評價優(yōu)點:簡便;缺陷:作為數(shù)據(jù)分析太不充分常規(guī)數(shù)據(jù)分析方法①——指標法人為定義各種簡單的評價指標常規(guī)數(shù)據(jù)分析方法②——統(tǒng)計分析法回歸分析(線性、非線性):建立建筑能耗或環(huán)境參數(shù)與各影響因素之間的關(guān)系式,預測建筑能耗或環(huán)境參數(shù)的動態(tài)變化相關(guān)分析:研究建筑能耗或環(huán)境參數(shù)與各影響因素之間的相關(guān)性和重要度優(yōu)點:簡便易于使用;缺陷:只能處理較為簡單的問題,多變量處理技術(shù)比較復雜;由于數(shù)據(jù)噪音存在,統(tǒng)計分析結(jié)果可能存在比較大偏差常規(guī)數(shù)據(jù)分析方法②——統(tǒng)計分析法回歸分析(線性、非線性):建常規(guī)數(shù)據(jù)分析方法③——數(shù)值模擬利用自主開發(fā)或商用軟件進行建筑環(huán)境或用能的穩(wěn)態(tài)/動態(tài)評價;優(yōu)點:工況自定義,不受外界影響,可重復,易于深入研究問題實質(zhì);缺陷:影響因素的細微變化,如人員行為等的影響不易考慮常規(guī)數(shù)據(jù)分析方法③——數(shù)值模擬利用自主開發(fā)或商用軟件進行建筑針對暖通專業(yè)的數(shù)據(jù)挖掘具體流程針對暖通專業(yè)的數(shù)據(jù)挖掘具體流程數(shù)據(jù)倉庫——日本居住建筑能源調(diào)查(2002~2004)數(shù)據(jù)倉庫——日本居住建筑能源調(diào)暖通專業(yè)數(shù)據(jù)挖掘技術(shù)框架體系①暖通專業(yè)數(shù)據(jù)挖掘技術(shù)框架體系①分類算法:對相關(guān)數(shù)據(jù)各種屬性進行分類或預測,從而更好地進行建筑節(jié)能設(shè)計或運行調(diào)節(jié);聚類算法:計算數(shù)據(jù)(如建筑屬性和人員行為屬性)之間的相似度,用于深入了解建筑環(huán)境或用能的形成機理,確定各影響因素的影響度;關(guān)聯(lián)算法:發(fā)現(xiàn)測試數(shù)據(jù)(如HVAC系統(tǒng)各參數(shù),如送風溫度、送風量、風機壓降等)之間的關(guān)聯(lián)度,深入了解建筑系統(tǒng)運行規(guī)律,建立更合理的環(huán)境或用能控制策略。分類算法:對相關(guān)數(shù)據(jù)各種屬性進行分類或預測,從而更好地進行建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系②建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系②建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系③建筑環(huán)境/用能數(shù)據(jù)挖據(jù)的框架體系③應用案例①——辦公建筑開窗行為現(xiàn)有的建筑節(jié)能不能完全達到預期目標,部分原因在于技術(shù)本身,部分則在于人員行為;人員和建筑本體、能源系統(tǒng)之間的互動關(guān)系對能耗影響極大;現(xiàn)有的能耗模擬工具對人員行為的定義過于死板,實際上是高度隨機復雜、多學科交叉的過程;利用數(shù)據(jù)挖掘技術(shù)研究辦公室人員開窗行為,加深對人員行為和用能之間的關(guān)系的理解,從而可以有效解決預測和實際能耗之間差別很大的問題應用案例①——辦公建筑開窗行為多層辦公建筑面積17,402
m2(8585
m2
heated)人員~350德國法蘭克福(溫和海洋型氣候)滿足建筑圍護結(jié)構(gòu)節(jié)能標準(U-values:墻體0.24-0.5W/m2K,窗體1.5W/m2K)年一次能源消耗<100Wh/m22層地下車庫、4層辦公、頂層公寓測試房間:辦公室建設(shè)時間:2002窗體朝向:Eand
W窗體開閉、遮陽:自動BMS、人員行為多層辦公建筑測試對象辦公室數(shù)
16(11東向;5個西向)實測期間
2006and2007面積
20m2人員數(shù)
1or2persons/房間實測項目->取樣時間間隔均為10min室外溫濕度、太陽輻射、風速風向、降雨量室內(nèi)溫濕度、CO2(只測3個房間)能源系統(tǒng)(供熱供冷、通風、照明)人員行為(窗戶開閉狀態(tài)、遮陽狀態(tài)、照明使用時間)測試對象辦公室數(shù)16(11東向;5個西向)數(shù)據(jù)格式數(shù)字化變量室內(nèi)外溫度室內(nèi)外相對濕度水平面太陽輻射照度風速風向非數(shù)字化變量季節(jié)(春夏秋冬)星期一~星期日時間(早晨、上午、中午、下午、晚上)窗戶狀態(tài)(關(guān):0;開:1)人員狀態(tài)(在:0;不在:1)窗戶狀態(tài)變化人員狀態(tài)變化降雨(0~1)數(shù)據(jù)利用極差正規(guī)化進行標準化處理數(shù)據(jù)格式數(shù)字化變量室內(nèi)外溫度非數(shù)字化變量窗戶開閉的標準化回歸分析(R語言)窗戶開閉的標準化回歸分析(R語言)聚類分析——總體類型、開閉驅(qū)動力的前5個主要影響因素(Thek-means,RapidMiner
6.0)熱驅(qū)動熱-時間驅(qū)動時間驅(qū)動熱-時間驅(qū)動時間驅(qū)動聚類分析——總體類型、開閉驅(qū)動力的前5個主要影響因素熱驅(qū)動熱聚類分析——開閉時間聚類分析——開閉時間聚類分析——開閉次數(shù)聚類分析——開閉次數(shù)聚類分析——開啟角度(日)聚類分析——開啟角度(日)開啟角度(季節(jié))開啟角度(季節(jié))關(guān)聯(lián)算法((FP
growth,
Rapid
Miner)supportof30%,confidenceof
80%關(guān)聯(lián)算法((FPgrowth,RapidMiner)s應用案例②——居住建筑人員行為與能耗居住者的社會和經(jīng)濟水平、室內(nèi)外環(huán)境決定人員行為,進而影響建筑能耗。通過數(shù)據(jù)分析,識別居住者行為對建筑能耗的影響度,從而可加深對能耗內(nèi)在機理的認識,通過改善人員行為實現(xiàn)節(jié)能目的。應用案例②——居住建筑人員行為與能耗測試對象日本80戶(6個不同城市)住宅;2002.12~2004.11,不良數(shù)據(jù)進行了處理現(xiàn)場測試:末端用能電力(每分鐘)燃氣(每5分鐘)煤油(每5分鐘)室內(nèi)溫度(1.1m高,每15分鐘)問卷調(diào)查:建筑本體信息、生活規(guī)律、設(shè)備使用情況、收入等(僅一次)測試對象日本80戶(6個不同城市)住宅;2002.12~20末端用能構(gòu)成HVAC;生活熱水HWS;廚房(炊事,相關(guān)設(shè)備)KITC;照明LIGHT;冰箱REF;信息設(shè)備(電視、電話、計算機)A&I;家務用設(shè)備(洗衣機、吸塵器…)HOUSE;其他OTHER數(shù)據(jù)經(jīng)過最大-最小極差標準化處理末端用能構(gòu)成影響因素氣象條件年均氣溫T、相對濕度RH、風速WS、太陽輻射RA建筑本體建筑類型(非數(shù)字)HT、建筑面積BA、當量滲風面積ELA、熱損失系數(shù)HLC居住者人數(shù)NO建筑設(shè)備供熱供冷HC、生活熱水HWS、廚房設(shè)備(非數(shù)字)KE影響因素氣象條件灰色關(guān)聯(lián)度分析——月用能的地區(qū)影響(WEKA)灰色關(guān)聯(lián)度分析——月用能的地區(qū)影響(WEKA)聚類分析——住宅的影響因素特征聚類(K-means,
WEKA)聚類分析——住宅的影響因素特征聚類(K-means,WEK年均EUI的構(gòu)成年均EUI的構(gòu)成不同聚類的月末端用能變化不同聚類的月末端用能變化不同聚類的月均居室溫度不同聚類的月均居室溫度應用案例③——樓宇自動化系統(tǒng)的數(shù)據(jù)挖掘大量建筑利用樓宇自動化系統(tǒng)(BAS)監(jiān)測和控制建筑內(nèi)環(huán)境參數(shù)以及能源系統(tǒng)運行;采集數(shù)據(jù)的有效利用不好:包含大量數(shù)據(jù)噪聲、異常點;給出利用數(shù)據(jù)挖掘技術(shù)進行BAS數(shù)據(jù)庫數(shù)據(jù)處理的技術(shù)框架并予以實際應用;應用案例③——樓宇自動化系統(tǒng)的數(shù)據(jù)挖掘大量建筑利用樓宇自動化建筑環(huán)境及能源大數(shù)據(jù)專業(yè)講義課件BAS原始數(shù)據(jù)香港最高的商業(yè)建筑,2011年被亞洲智能建筑協(xié)會評為智能建筑;設(shè)置先進的BAS,超過500以上的功率表實時(15min間隔)測量各種電力數(shù)據(jù);數(shù)據(jù)收集2012.1~2012.8;數(shù)據(jù)包括:時間、室內(nèi)外物理參數(shù)(溫濕度、室內(nèi)CO2濃度)、各種電量(冷機、空調(diào)機組、水泵、風機、電梯、照明…);BAS原始數(shù)據(jù)數(shù)據(jù)前處理包含大量缺失值和異常值;缺失值->移動平均進行處理;“死”值(長時間不發(fā)生變化)->1h不變化則剔除;異常值->四分位數(shù)間距法則(interquartilerangerule)處理->通過數(shù)據(jù)清理,22974數(shù)據(jù)剩下19,962將數(shù)據(jù)重新歸納分為早晨(7~12點)、下午(13~19點)和晚上(20~翌日6點)三部分,再考慮平均、最大值、最小值三種情況。->通過數(shù)據(jù)規(guī)約,將數(shù)據(jù)維度從96降為12。數(shù)據(jù)前處理包含大量缺失值和異常值;關(guān)聯(lián)算法所需的數(shù)據(jù)轉(zhuǎn)換處理需要將目前的電量和氣象數(shù)據(jù)從數(shù)字轉(zhuǎn)為類型;氣象數(shù)據(jù)->氣溫范圍低于10~高于30℃,分為6檔,每檔5℃;相對濕度范圍低于70%~高于90%,分為6檔,每檔5%;電量數(shù)據(jù)->等頻bin法,高中低3檔(一次冷凍水泵、冷凝水泵由于定流量除外)。關(guān)聯(lián)算法所需的數(shù)據(jù)轉(zhuǎn)換處理不同聚類分析方法的驗證(R語言)不同聚類分析方法的驗證(R語言)熵權(quán)K-means算法結(jié)果(左);特征相對重要度的熱力圖(右)熵權(quán)K-mean
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年質(zhì)量員(設(shè)備安裝)專業(yè)技能復習題庫及答案(二)
- 2025年消防系統(tǒng)改造項目施工合同范本5篇
- 2024系統(tǒng)安裝合同范本
- 2025年電子元器件銷售合同補充協(xié)議書2篇
- 非洲基站施工方案
- 林業(yè)防鼠滅鼠施工方案
- 二零二五版小型家用發(fā)電機安全使用指南與心得分享合同3篇
- 二零二五年度水產(chǎn)養(yǎng)殖害蟲防治與養(yǎng)殖環(huán)境合同4篇
- 黨課廉政黨課課件
- 2025年度法律服務代理委托授權(quán)書3篇
- 2025年度房地產(chǎn)權(quán)證辦理委托代理合同典范3篇
- 湖北省五市州2023-2024學年高一下學期期末聯(lián)考數(shù)學試題
- 城市作戰(zhàn)案例研究報告
- 【正版授權(quán)】 ISO 12803:1997 EN Representative sampling of plutonium nitrate solutions for determination of plutonium concentration
- 道德經(jīng)全文及注釋
- 2024中考考前地理沖刺卷及答案(含答題卡)
- 多子女贍養(yǎng)老人協(xié)議書范文
- 彩票市場銷售計劃書
- 支付行業(yè)反洗錢與反恐怖融資
- 基礎(chǔ)設(shè)施綠色施工技術(shù)研究
- 寶鋼BQB 481-2023全工藝冷軋中頻無取向電工鋼帶文件
評論
0/150
提交評論