數(shù)據(jù)清洗需求設計V1.1_第1頁
數(shù)據(jù)清洗需求設計V1.1_第2頁
數(shù)據(jù)清洗需求設計V1.1_第3頁
數(shù)據(jù)清洗需求設計V1.1_第4頁
數(shù)據(jù)清洗需求設計V1.1_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、GB8878185555334563BT9125XW創(chuàng)作編號上創(chuàng)鳳嗚大王*數(shù)據(jù)清洗時間序列數(shù)據(jù)TSDtimeseriesData需求設計DataCleaningModuleDCM應該屬于DAX的一個模塊.1、數(shù)據(jù)清洗的目的原始采集的數(shù)據(jù)會受到傳感器、變送器、信號傳輸、環(huán)境干擾電磁、潮濕、高熱、人為造假等各種因素的影響,數(shù)據(jù)中會包含一些受到“污染的數(shù)據(jù).如果直接利用這些數(shù)據(jù)進行限制、繪圖、制表、數(shù)據(jù)分析、數(shù)據(jù)挖掘,那么不可防止的會影響分析過程和結果,總的來說:低質量的數(shù)據(jù)無法獲得高質量的分析結果.任何規(guī)模的數(shù)據(jù)在分析以前,有必要對原始數(shù)據(jù)進行預處理,以使其到達必要的質量,這個過程我們稱之為數(shù)據(jù)清

2、洗.數(shù)據(jù)清洗后,一般有兩類用途,一是直接用于在線過程限制,二是用于事后分析.那些數(shù)據(jù)需要清洗任何直接采集的數(shù)據(jù)都需要進行清洗,利用清洗程序對數(shù)據(jù)處理后,會對數(shù)據(jù)的各種缺陷進行標記,對發(fā)現(xiàn)的有缺陷的數(shù)據(jù)進行拋棄、估計、修改.很多工廠由于缺乏數(shù)據(jù)清洗這個環(huán)節(jié),會大大影響過程限制的可靠性.低質量的數(shù)據(jù),在事后分析時會帶來很大的困難.不少環(huán)境監(jiān)測類的投資,由于缺乏數(shù)據(jù)質量限制和數(shù)據(jù)清洗技術,會使投資回報大大降低.2、通用性設計常見的原始數(shù)據(jù)問題1數(shù)據(jù)缺失2跳點3干擾白噪聲或其它4漂移線性與非線性5超限6滯后造成的時間不同步7邏輯缺失因果關系、相關關系8數(shù)據(jù)檢驗的方法1上下限制檢驗法2斜率檢驗法3差值檢

3、驗法4頻率檢驗法5時間區(qū)間檢驗法6人工數(shù)據(jù)修正7關系檢驗因果、相關性8數(shù)據(jù)處理的方法1刪除法2補差法a取前點b均值插補c回歸插補d極大似然估計3回歸法4均值平滑法5離群點分析6小波去噪7人工修改8對時間序列數(shù)據(jù)的定義1源數(shù)據(jù)序列OriginTSD:一般保存人工采集導入和自動測報采集的原始數(shù)據(jù),為保證該類型數(shù)據(jù)平安,數(shù)據(jù)設置只讀.2生產時序數(shù)據(jù)ProductionTSD:拷貝自源數(shù)據(jù),加以校核和清洗.對數(shù)據(jù)的常規(guī)維護通常在這類序列上進行.3衍生時序數(shù)據(jù)DerivedTSD:一般是通過一些標準方法計算的統(tǒng)計序列,例如日月年特征值等.3、數(shù)據(jù)處理數(shù)據(jù)處理的過程是通過數(shù)據(jù)計算任務來執(zhí)行,數(shù)據(jù)清洗屬于計

4、算任務的一局部.1用于在線過程限制的計算任務,此類計算任務的執(zhí)行實時性高,例如AVS,少人無人值守限制平臺,計算任務在常規(guī)自控的輪詢周期中.一般的刷新率是秒級或亳秒級.此類計算任務最好在PLC中處理,如無法再PLC中處理,就在上位機進行計算.進行數(shù)據(jù)清洗的計算任務,一般屬于此類,計算是實時進行.2用于事后分析的計算任務,此類計算任務的實時性不高,用途主要是數(shù)據(jù)分析,例如各類KPI、周期性的數(shù)據(jù)整理、各類自定義的計算等等,大數(shù)據(jù)分析通常也是利用這些數(shù)據(jù).此類數(shù)據(jù)的計算任務實時性不高,可以在事后按照固定的周期或者條件進行.4、數(shù)據(jù)質量DQ的定義:1完整性Completeness完整性指的是數(shù)據(jù)信息

5、是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失.不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質量最為根底的一項評估標準.2一致性Consistency一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的標準這些標準可以是格式,數(shù)位,或者是數(shù)據(jù)的統(tǒng)計性特征,研判數(shù)據(jù)集合是否保持了統(tǒng)一的標準.數(shù)據(jù)質量的一致性主要表達在數(shù)據(jù)記錄的標準和數(shù)據(jù)是否符合邏輯.標準可以特指:一項數(shù)據(jù)存在它特定的格式,例如號一定是13位的數(shù)字,IP地址一定是由4個.到255間的數(shù)字加上組成的.標準也可以特指,多項數(shù)據(jù)間存在著固定的邏輯關系,例如PV一定是大于等于UV的,跳出率一定是在.到1之間的

6、,還有數(shù)據(jù)統(tǒng)計性特征,比方儀表測量的數(shù)據(jù)和人為偽造的數(shù)據(jù)的統(tǒng)計特征是顯著不同的.3準確性Accuracy準確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤.和一致性不一樣,存在準確性問題的數(shù)據(jù)不僅僅只是規(guī)那么上的不一致.最為常見的數(shù)據(jù)準確性錯誤就如亂碼.其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù).一般而言,僅僅靠一些簡單規(guī)那么無法判斷數(shù)據(jù)的準確性,通常會借助人工或自動系統(tǒng)的檢驗,或者在檢測過程中增加一些標準樣的測量.比擬特定樣品的檢測值就可以判斷該批次檢測的數(shù)據(jù)質量.數(shù)據(jù)質量的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集,例如數(shù)量級記錄錯誤.這類錯誤那么可以使用多種方法去審核.一般數(shù)據(jù)都符合正

7、態(tài)分布的規(guī)律,如果一些占比少的數(shù)據(jù)存在問題,那么可以通過比擬其他數(shù)量少的數(shù)據(jù)比例,來做出判斷.4及時性Timeliness不同的應用場景對數(shù)據(jù)的及時性要求不同,在線限制條件下,假設某個關鍵性的輸入數(shù)據(jù)無法及時獲得,會影響后后續(xù)的過程限制.在事后分析中,對及時性的要求就大大降低.5合理性Validation6關聯(lián)性Integration7絕對質量8過程質量數(shù)據(jù)標注的方法源數(shù)據(jù)序列ODSN=Normal正常U=Unchecked未檢驗E=Estimated估計數(shù)據(jù)M=Missing喪失數(shù)據(jù)生產數(shù)據(jù)序列PDSG=Good優(yōu)質E=Estimated估計,包括自動修改及人工修改,標注方法S=Suspec

8、t可疑數(shù)據(jù)U=Unchecked未檢查L=Loss喪失數(shù)據(jù)M=Manualinput人工輸入數(shù)據(jù)C=Checkpoint質控檢查點用于和鴻海配合衍生時序數(shù)據(jù)DDSD=Derived衍生的,這個局部設計請參考測點數(shù)據(jù)治理計算任務數(shù)據(jù)標記除了上述表述數(shù)據(jù)分析結果的項次外,建議還記錄標記數(shù)據(jù)的算法名稱、版本、計算時間等.對時間序列數(shù)據(jù)整體質量的定義時間序列數(shù)據(jù)表現(xiàn)為根據(jù)一定頻率不斷記錄的數(shù)據(jù),如每秒記錄1次的時間序列數(shù)據(jù)在1小時內會有3600個記錄,每分鐘記錄1次的數(shù)據(jù)每天會有1440個記錄.需要有一種方法整體性的評估某個時間區(qū)間內的時間序列數(shù)據(jù)的整體質量.例如:某個采集頻率為Vmin的源數(shù)據(jù)在10

9、天時間內的整體數(shù)據(jù)質量,根據(jù)自動檢驗的方法檢驗后,結果為:正常88.2%,喪失11.3%,估計數(shù)據(jù)0.5%,檢測率100%;沒有經過自動檢測的數(shù)據(jù),統(tǒng)計標記為未檢測.某個采集頻率為Vmin的生產序列數(shù)據(jù)在10天時間內的整體數(shù)據(jù)質量,根據(jù)自動檢驗的方法檢驗后,結果為:優(yōu)質83.5%,估計15.7%,可疑0.8%,檢測率100%;沒有經過自動檢測的數(shù)據(jù),統(tǒng)計標記為未檢測.根據(jù)數(shù)據(jù)的自動檢測情況,可以將源數(shù)據(jù)或者生產序列數(shù)據(jù)分類為優(yōu)質、正常、較差、不可用等類別【這個局部尚需討論】.在后續(xù)的大數(shù)據(jù)分析中,如果采用了較差、不可用等標記的數(shù)據(jù),會極大的影響分析結果,導致錯誤的結論.用于在線限制的數(shù)據(jù)清洗功

10、能在線數(shù)據(jù)清洗的根本功能如下:1數(shù)據(jù)清洗任務應該在輪巡任務中,循環(huán)一周,該任務就會執(zhí)行一次.2該場景下的數(shù)據(jù)清洗任務主要是目標是加工生成:生產序列數(shù)據(jù).3如當前某測點的檢測結果生成的數(shù)據(jù)標記,對應舉措如下表:數(shù)據(jù)標記作編號:GB8878185555334563BT9125XW鳳嗚大王*舉措風險類型G采用原值小PDSE采用估計值較小PDSS采用上一個標記為G的原值較小PDSU不做清洗處理,采用原值大PDSM無無4每個限制器既可以有自控程序判斷啟動,也可以由人工啟動S2;5當前限制器的某一路信號被判斷為不可信時,系統(tǒng)可以用虛擬信號替代S26需要有一張圖,可以呈現(xiàn)所有的限制器的在用狀態(tài),最好采用自控

11、中的標準圖形和標注方法S2注:這里后面標記為S2的需求,以后并入少人無人值守系統(tǒng)設計的需求中,用于事后數(shù)據(jù)分析的數(shù)據(jù)清洗用于事后分析數(shù)據(jù)清洗的根本功能如下:1數(shù)據(jù)清洗任務根據(jù)任務特點,選擇定時清洗、逢變清洗、條件清洗等,常見的事后處理規(guī)那么是間隔一定時間后批處理.處理時需要考慮依賴關系,即首先是對ODS數(shù)據(jù)處理,然后是PDS、DDS,其它的再加工應該在上述任務之后.2數(shù)據(jù)清洗任務應該在專用的數(shù)據(jù)處理程序中進行,在大任務量情況下支持多機部署.3數(shù)據(jù)清洗應該可以并入DAX平臺中,作為一個必要的功能模塊.4支持對第三方數(shù)據(jù)進行數(shù)據(jù)清洗,第三方數(shù)據(jù)必須符合DAX的數(shù)據(jù)標準,導入DAX數(shù)據(jù)庫中,進行清洗

12、選項的配置,啟動清洗,生成結果,結果導出.5支持第三方軟件通過接口,條件是這些數(shù)據(jù)應該在被合理的配置過了,獲取我們的清洗后數(shù)據(jù)結果,作為一個數(shù)據(jù)效勞.6其它數(shù)據(jù)應用程序在使用清洗過的數(shù)據(jù)時,可以根據(jù)讀到的數(shù)據(jù)標記,制定自己的處理規(guī)那么.7) DAX中的報表功能,推薦使用PDS和DDS作為源數(shù)據(jù).8) DAX中的曲線繪制功能,在讀取數(shù)據(jù)標記后,繪制PDS和DDS趨勢曲線時,可以解析不同的標記,并在曲線上顯示出來?參見數(shù)據(jù)清洗的治理.1?.9) DAX中曲線繪制功能中的數(shù)據(jù)列表選項,應該能夠對異常數(shù)據(jù)做出醒目標記.10可以接收特定質控數(shù)據(jù)如鴻海,將數(shù)據(jù)和某一個TSD進行合并分析.接收的方法推薦由鴻

13、海直接采集進我們的DAX數(shù)據(jù)庫,其次允許數(shù)據(jù)導入后分析.11數(shù)據(jù)脫敏.12)5、數(shù)據(jù)清洗的治理數(shù)據(jù)清洗是DAX功能的一局部,但在一些特定情況下,可以單獨使用.數(shù)據(jù)清洗后需要呈現(xiàn)以下幾個場景1針對單測點的時間序列數(shù)據(jù)選定的時間段內a可以用趨勢圖,或者用數(shù)據(jù)表的形式,展示該數(shù)據(jù)中存在問題的數(shù)據(jù)點,并可以把這些數(shù)據(jù)點用特殊的圖形、符號或顏色標記出來.b可以用餅圖或者百分比的數(shù)字,表現(xiàn)出某段時間區(qū)間內的存在問題的數(shù)據(jù)比例,并分類展示.c可以用統(tǒng)計性的指標,如方差、分布特征等,特殊情況下這些統(tǒng)計性指標可以作為時間序列數(shù)據(jù)的數(shù)據(jù)指紋,用于判定不同期限的數(shù)據(jù)是否一致.因測量方法、傳感器器更換、傳感器位置更換

14、可能會帶來一致性的不同.一般而言,人工偽造的數(shù)據(jù),不符合正態(tài)分布,比擬容易識別.d在趨勢圖下而X軸下部,有個色帶可以用不同的顏色標記不同質量數(shù)據(jù)的顏色,進而呈現(xiàn)出分布情況.1. 例如綠色是優(yōu)質數(shù)據(jù),黃色是未檢驗數(shù)據(jù),紅色是可疑數(shù)據(jù)等等2針對多測點的時間序列數(shù)據(jù)選定的時間段內a在一個數(shù)據(jù)表中,可以用不同的標記顏色、表現(xiàn)出不同的測點數(shù)據(jù)的質量情況,參見?對時間序列數(shù)據(jù)整體質量的定義?.數(shù)據(jù)質量低于某個指標,需要顯著的標記為不可用.排序中的不同的列,可以是單測點數(shù)量質量的某個維度.b可以用排序的方法羅列出數(shù)據(jù)表中數(shù)據(jù)質量從高到低,或者從低到高的排序.c檢驗多測點時間的相關性,并采用適合表達相關性的圖

15、表方式參考某些BI軟件,如SPSS進行表達.根據(jù)不同的相關性群組,進一步可以進行聚類分析,因果檢驗等.d3為后續(xù)數(shù)據(jù)挖掘和分析做好數(shù)據(jù)根底a) 了解行業(yè)排名前三的數(shù)據(jù)分析和挖掘軟件,了解他們的數(shù)據(jù)結構,DCM應該能夠輸出和他們匹配的數(shù)據(jù)結構,有這些軟件的用戶可以直接使用DAX.b)4數(shù)據(jù)清洗的配置a提供為任意一個單測點進行數(shù)據(jù)清洗所需的配置項,內容包括需要進行的自動檢測,需要檢測的工程進行勾選,某些檢測項勾選后還需要填充必要的參數(shù).該配置項可以并入DAX的數(shù)據(jù)根底配置中.b任何已經配置好的清洗選項,在使用過程中可以修改,修改后可以選擇立即啟用,或某具體時間后啟用.建議可以給用戶提供演算功能,即供用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論