第3章 大數(shù)據(jù)處理_第1頁
第3章 大數(shù)據(jù)處理_第2頁
第3章 大數(shù)據(jù)處理_第3頁
第3章 大數(shù)據(jù)處理_第4頁
第3章 大數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章大數(shù)據(jù)處理北京市園林綠化局在2017年對全市果樹資源進(jìn)行了摸底調(diào)查,調(diào)查范圍涉及了北京市13個(gè)區(qū)、159個(gè)鄉(xiāng)鎮(zhèn)、2298個(gè)行政村;梳理編制了8套調(diào)查表,涉及了340個(gè)數(shù)據(jù)項(xiàng),積累了188萬條基礎(chǔ)數(shù)據(jù)。2019年建立了北京市果樹大數(shù)據(jù)管理系統(tǒng),首次全面掌握了果樹資源情況。北京市果樹大數(shù)據(jù)管理系統(tǒng)是一種集數(shù)據(jù)采集、歸納分類、數(shù)量質(zhì)量保證、批量數(shù)據(jù)處理與數(shù)據(jù)庫管理、可視化展示功能于一體的系統(tǒng)管理平臺。案例-北京市果樹大數(shù)據(jù)應(yīng)用果樹產(chǎn)業(yè)大數(shù)據(jù)管理系統(tǒng)已經(jīng)得到越來越深入和廣泛的應(yīng)用,為果樹產(chǎn)業(yè)發(fā)展政策制定、規(guī)劃編制、項(xiàng)目實(shí)施、資源管理、精準(zhǔn)施策等提供數(shù)據(jù)支撐,實(shí)現(xiàn)果樹產(chǎn)業(yè)動(dòng)態(tài)化、數(shù)字化、精準(zhǔn)化、智慧化管理,推動(dòng)北京市果樹產(chǎn)業(yè)健康發(fā)展,促進(jìn)果農(nóng)增收致富。案例-北京市果樹大數(shù)據(jù)應(yīng)用目錄3.1數(shù)據(jù)采集3.2數(shù)據(jù)清洗3.3數(shù)據(jù)變換3.5數(shù)據(jù)歸約第三章大數(shù)據(jù)處理3.4數(shù)據(jù)集成3.1數(shù)據(jù)采集>>>1數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)采集方法系統(tǒng)日志采集:使用日志收集系統(tǒng),收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。1.數(shù)據(jù)采集方法數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)采集產(chǎn)品數(shù)據(jù)采集產(chǎn)品數(shù)據(jù)采集產(chǎn)品有很多,較為常用的是以下六種:ApacheFlume、Scribe、Fluentd、ApacheChukwa、Logstash、Splunk數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)采集方法系統(tǒng)日志采集:使用日志收集系統(tǒng),收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。網(wǎng)絡(luò)數(shù)據(jù)采集:通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。可以將非結(jié)構(gòu)化數(shù)據(jù)以結(jié)構(gòu)化的方式存儲。1.2.數(shù)據(jù)采集方法數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)采集產(chǎn)品數(shù)據(jù)采集產(chǎn)品/activities/learn數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素八爪魚采集器八爪魚采集器特征八爪魚數(shù)據(jù)采集系統(tǒng)是一款免費(fèi)的、不需要編程語言的一款數(shù)據(jù)采集器。它可以幫助任何需要從網(wǎng)頁獲取信息的客戶實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化采集、編輯和規(guī)范化,擺脫對人工搜索及收集數(shù)據(jù)的依賴,并且降低獲取信息的成本,提高效率。八爪魚最基本的是模板采集,模板采集模式內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源,比如京東、天貓、大眾點(diǎn)評等熱門采集網(wǎng)站,只需參照模板簡單設(shè)置參數(shù),就可以快速獲取網(wǎng)站公開數(shù)據(jù)。1.2.數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)采集方法系統(tǒng)日志采集:使用日志收集系統(tǒng),收集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。網(wǎng)絡(luò)數(shù)據(jù)采集:通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息??梢詫⒎墙Y(jié)構(gòu)化數(shù)據(jù)以結(jié)構(gòu)化的方式存儲。數(shù)據(jù)庫采集:在采集端部署大量數(shù)據(jù)庫,并對如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片進(jìn)行深入的思考和設(shè)計(jì)。1.2.3.數(shù)據(jù)采集方法休息一下!第3章大數(shù)據(jù)處理數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素評估標(biāo)準(zhǔn)完整性一致性準(zhǔn)確性及時(shí)性數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素完整性:數(shù)據(jù)信息是否存在缺失的情況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)的缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的缺失。數(shù)據(jù)完整性是數(shù)據(jù)質(zhì)量最為基礎(chǔ)的一項(xiàng)評估標(biāo)準(zhǔn)。1.一致性:數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整。規(guī)范指的是,一項(xiàng)數(shù)據(jù)存在它特定的格式,邏輯指的是,多項(xiàng)數(shù)據(jù)間存在著固定的邏輯關(guān)系。2.準(zhǔn)確性:數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,數(shù)據(jù)記錄的信息是否存在異?;蝈e(cuò)誤。3.數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)及時(shí)性:數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長,是數(shù)據(jù)世界與客觀世界的同步程度。數(shù)據(jù)的及時(shí)性主要跟數(shù)據(jù)的同步和處理過程的效率相關(guān)。4.數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)質(zhì)量的影響因素信息因素技術(shù)因素流程因素管理因素元數(shù)據(jù)對數(shù)據(jù)的描述及理解錯(cuò)誤、數(shù)據(jù)源規(guī)格不統(tǒng)一等。數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素定義:元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),主要是描述數(shù)據(jù)屬性property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能?!霸保菏挛锘?qū)ο??!皵?shù)據(jù)”:該對象的相關(guān)數(shù)據(jù)。元數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)采集方法數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量影響因素?cái)?shù)據(jù)質(zhì)量的影響因素信息因素技術(shù)因素流程因素管理因素元數(shù)據(jù)對數(shù)據(jù)的描述及理解錯(cuò)誤、數(shù)據(jù)源規(guī)格不統(tǒng)一等。指由于具體技術(shù)處理的異常造成的數(shù)據(jù)質(zhì)量問題。指由于系統(tǒng)流程和操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問題。指由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問題。休息一下!3.2數(shù)據(jù)清洗>>>2為什么進(jìn)行數(shù)據(jù)清洗?數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)數(shù)據(jù)清洗原理殘缺數(shù)據(jù):是指不完整的數(shù)據(jù),可能是整個(gè)數(shù)據(jù)的缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的缺失。殘缺數(shù)據(jù)噪聲數(shù)據(jù)冗余數(shù)據(jù)是指數(shù)據(jù)之間的重復(fù),也可以說是同一數(shù)據(jù)存儲在不同文件中的現(xiàn)象。冗余數(shù)據(jù)噪聲數(shù)據(jù):在測量一個(gè)變量時(shí)測量值可能出現(xiàn)的相對于真實(shí)值的偏差或錯(cuò)誤,主要包括錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和異常數(shù)據(jù)。數(shù)據(jù)的“臟”在于數(shù)據(jù)有重復(fù)、數(shù)據(jù)有缺失、數(shù)據(jù)有不一致。臟數(shù)據(jù)主要有殘缺數(shù)據(jù)、噪聲數(shù)據(jù)和冗余數(shù)據(jù)。臟數(shù)據(jù)數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)處理殘缺數(shù)據(jù)弊端:采用忽略元組的方法,意味著不能使用該元組的剩余屬性值,而這些剩余屬性值很可能是分析問題所必須的。除非元組有多個(gè)屬性殘缺,否則該方法不是很有效。當(dāng)某個(gè)屬性有很多元組缺失時(shí),它的性能特別差。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)當(dāng)元組的某個(gè)屬性殘缺時(shí),忽略整個(gè)元組忽略整個(gè)元組處理殘缺數(shù)據(jù)僅適用于數(shù)據(jù)量小且缺失值少的情況,當(dāng)數(shù)據(jù)量很大、缺失很多值時(shí),該方法可能行不通。需要注意的是,在某些情況下,缺失值并不意味數(shù)據(jù)有錯(cuò)誤。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)通過人工填寫或者設(shè)立某一規(guī)則確定殘缺值的填寫內(nèi)容填寫殘缺值處理殘缺數(shù)據(jù)如果缺失值是數(shù)值型的,就根據(jù)該變量在其他所有對象的取值的平均值來填充該缺失值的變量值;如果缺失值是非數(shù)值型的,則可以使用眾數(shù)來填充該缺失的變量值。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)缺失值填充:均值填充法均值填寫法其他填充缺失值的方法全局常量法、就近補(bǔ)齊法、期望最大法、K最近距離鄰法文獻(xiàn)綜述數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)分箱方法具體標(biāo)準(zhǔn)分箱結(jié)果等深分箱法箱子深度為4箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000等寬分箱法箱子寬度為1000箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000用戶自定義分箱法將客戶收入劃分為1000以下、1000~2000、2001~3000、3001~4000和4000以上五組箱1:800箱2:100012001500150018002000箱3:2300250028003000箱4:35004000箱5:450048005000參考答案800100012001500150018002000230025002800300035004000450048005000噪聲數(shù)據(jù)數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)噪聲數(shù)據(jù)定義噪聲數(shù)據(jù)是指數(shù)據(jù)中存在著錯(cuò)誤或者異常的數(shù)據(jù)處理必要性增加數(shù)據(jù)和噪聲信息,影響數(shù)據(jù)收斂和模型準(zhǔn)確度處理方法分箱分箱方法等深分箱法等寬分箱法用戶自定義分箱法數(shù)據(jù)平滑處理按平均值平滑按中值平滑按邊界值平滑聚類回歸:利用預(yù)測值替換噪聲線性回歸一元線性回歸多元線性回歸非線性回歸文獻(xiàn)綜述3.聚類1.分箱處理噪聲數(shù)據(jù)把待處理的數(shù)據(jù)按照一定規(guī)則放進(jìn)“箱子”中,采用某種方法對各個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)2.平滑處理4.回歸等深分箱法:每箱具有相同的記錄數(shù),每個(gè)箱子的記錄數(shù)稱為箱子的深度。等寬分箱法:在整個(gè)數(shù)據(jù)值的區(qū)間上平均分割,使得每個(gè)箱子的區(qū)間相等,這個(gè)區(qū)間被稱為箱子的寬度。用戶自定義分箱法:根據(jù)用戶自定義的規(guī)則進(jìn)行分箱處理。分箱文獻(xiàn)綜述數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)分箱練習(xí)

以下是客戶收入屬性的取值,請按照上述三種方案進(jìn)行分箱處理

800100012001500150018002000230025002800300035004000450048005000等深分箱法深度為4箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000等寬分箱法箱子寬度為1000箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000用戶自定義分箱法將客戶收入劃分為1000以下、1000~2000、2001~3000、3001~4000和4000以上五組箱1:800箱2:100012001500150018002000箱3:2300250028003000箱4:35004000箱5:450048005000文獻(xiàn)綜述4.回歸2.平滑處理處理噪聲數(shù)據(jù)在分箱之后,要對每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)3.聚類1.分箱按平均值:對同一箱子中的數(shù)據(jù)求平均值,用均值代替箱子中的所有數(shù)據(jù)按中值:取箱子中所有數(shù)據(jù)的中值,用中值代替箱子中的所有數(shù)據(jù)按邊界值:對箱子中的每一個(gè)數(shù)據(jù),使用離邊界值較小的邊界值代替文獻(xiàn)綜述數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)平滑處理練習(xí)對上一題中的等寬分箱的結(jié)果進(jìn)行不同的平滑處理,并合并最后的結(jié)果(注:在按邊界值進(jìn)行平滑處理時(shí),若距離兩側(cè)邊界相同時(shí),取較小的邊界)箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000文獻(xiàn)綜述數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)平滑處理方式平滑處理結(jié)果合并后的結(jié)果按平均值箱1:1300130013001300130013001300130013001300130013002520252025202520252040004000400049004900箱2:25202520252025202520箱3:400040004000箱4:49004900按中值箱1:1350135013501350135013501350135013501350135013502500250025002500250040004000400049004900箱2:25002500250025002500箱3:400040004000箱4:49004900按邊界值箱1:8008008001800180018008008008001800180018002000200020003000300035003500450048005000箱2:20002000200030003000箱3:350035004500箱4:48005000參考答案箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000簇:是指一組數(shù)據(jù)對象的集合,同一簇內(nèi)的數(shù)據(jù)具有相似性,不同簇之間的數(shù)據(jù)的差異性較大。文獻(xiàn)綜述1.分箱3.聚類處理噪聲數(shù)據(jù)將數(shù)據(jù)集合分組為若干個(gè)簇,在簇外的值即為孤立點(diǎn),這些孤立點(diǎn)就是噪聲數(shù)據(jù),對這些孤立點(diǎn)進(jìn)行刪除或替換。

相似或相臨近的數(shù)據(jù)聚合在一起形成各個(gè)聚類集合,在這些聚類集合之外的數(shù)據(jù)即為異常數(shù)據(jù)。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)4.回歸2.平滑處理如圖所示的A、B、C三點(diǎn)即為異常數(shù)據(jù)文獻(xiàn)綜述聚類方法數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)文獻(xiàn)綜述2.平滑處理4.回歸處理噪聲數(shù)據(jù)通過發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間相關(guān)關(guān)系,構(gòu)造一個(gè)回歸函數(shù)使得該函數(shù)能夠更大程度地滿足兩個(gè)變量之間的關(guān)系,使用這個(gè)函數(shù)來平滑數(shù)據(jù)。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)1.分箱3.聚類噪聲數(shù)據(jù)數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)噪聲數(shù)據(jù)定義噪聲數(shù)據(jù)是指數(shù)據(jù)中存在著錯(cuò)誤或者異常的數(shù)據(jù)處理必要性增加數(shù)據(jù)和噪聲信息,影響數(shù)據(jù)收斂和模型準(zhǔn)確度處理方法分箱分箱方法等深分箱法等寬分箱法用戶自定義分箱法數(shù)據(jù)平滑處理按平均值平滑按中值平滑按邊界值平滑聚類回歸:利用預(yù)測值替換噪聲線性回歸一元線性回歸多元線性回歸非線性回歸重復(fù)過濾:在已知重復(fù)數(shù)據(jù)內(nèi)容的基礎(chǔ)上,從每一個(gè)重復(fù)數(shù)據(jù)中取出一條記錄保留下來,刪去其他的重復(fù)數(shù)據(jù)。重復(fù)過濾=識別重復(fù)數(shù)據(jù)+過濾操作。處理冗余數(shù)據(jù)條件過濾:根據(jù)一個(gè)或多個(gè)條件對數(shù)據(jù)進(jìn)行過濾。對一個(gè)或多個(gè)屬性設(shè)置條件,將符合條件的記錄放入結(jié)果集,將不符合條件的數(shù)據(jù)過濾掉。實(shí)際上,重復(fù)過濾就是一種條件過濾。冗余數(shù)據(jù)通常采用過濾數(shù)據(jù)的方法來處理冗余數(shù)據(jù)。對于重復(fù)的數(shù)據(jù)采用重復(fù)過濾的方法,對于無關(guān)的數(shù)據(jù)則采用條件過濾的方法。數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)冗余數(shù)據(jù)數(shù)據(jù)清洗案例原始數(shù)據(jù)信息數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)數(shù)據(jù)清洗要求篩選出職能類別為大數(shù)據(jù)/分析的數(shù)據(jù)整理工作地點(diǎn)、薪酬數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)數(shù)據(jù)工具分列查找替換薪資單位統(tǒng)一為元時(shí)長單位統(tǒng)一為月最終數(shù)據(jù)數(shù)據(jù)清洗處理殘缺數(shù)據(jù)處理噪聲數(shù)據(jù)處理冗余數(shù)據(jù)薪酬數(shù)據(jù)處理數(shù)據(jù)清洗案例/group-live-share/index.htm?encCid=9ba3b45e3dd76000621ae5b24a1db1dc&liveUuid=13cbde06-1484-4566-9568-6a4ebfdea84a數(shù)據(jù)變換屬性類型變換屬性值變換屬性構(gòu)造根據(jù)原屬性與目標(biāo)屬性之間的映射關(guān)系,可將屬性變化分成一對一映射和多對一映射兩種。一對一映射:原數(shù)據(jù)類型與目標(biāo)數(shù)據(jù)類型之間為一一對應(yīng)的關(guān)系,如將“××年××月××日”的日期轉(zhuǎn)換為“××/××/××”,只是形式上的轉(zhuǎn)換,是一對一的關(guān)系。多對一映射:原數(shù)據(jù)類型與目標(biāo)數(shù)據(jù)類型之間為多對一的關(guān)系,如下表所示之間的關(guān)系即為多對一關(guān)系。構(gòu)造新的屬性并添加到屬性集合中以便幫助挖掘。原數(shù)據(jù)類型(得分,int)目標(biāo)數(shù)據(jù)類型(品質(zhì),string)9~10優(yōu)等品6~8中等品1~5劣等品表3-1多對一關(guān)系表數(shù)據(jù)變換屬性類型變換屬性值變換最大-最小標(biāo)準(zhǔn)化0-1標(biāo)準(zhǔn)化屬性值變換小數(shù)定標(biāo)標(biāo)準(zhǔn)化零-均值標(biāo)準(zhǔn)化已知屬性的原范圍[old_min,old_max],將其映射到新范圍[new_min,new_max]

這種方法簡單,但是存在著缺陷,當(dāng)新加入的數(shù)據(jù)超過了原范圍[old_min,old_max]是,必須更新old_min與old_max的值,否則會(huì)出錯(cuò)。屬性值變換即數(shù)據(jù)標(biāo)準(zhǔn)化,將屬性值按比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)間以消除數(shù)值型屬性因大小不一而造成的挖掘效果的偏差。數(shù)據(jù)變換屬性類型變換屬性值變換最大-最小標(biāo)準(zhǔn)化0-1標(biāo)準(zhǔn)化屬性值變換小數(shù)定標(biāo)標(biāo)準(zhǔn)化零-均值標(biāo)準(zhǔn)化0-1標(biāo)準(zhǔn)化是最大-最小標(biāo)準(zhǔn)化的一種特殊形式,即new_min=0,new_max=1的情況

屬性值變換數(shù)據(jù)變換屬性類型變換屬性值變換最大-最小標(biāo)準(zhǔn)化0-1標(biāo)準(zhǔn)化屬性值變換小數(shù)定標(biāo)標(biāo)準(zhǔn)化零-均值標(biāo)準(zhǔn)化適用于數(shù)據(jù)符合正態(tài)分布的情況其中,μ為均值,σ為標(biāo)準(zhǔn)差。

通過移動(dòng)小數(shù)點(diǎn)的位置,將屬性值映射到[0,1]之間,使用小數(shù)的科學(xué)計(jì)數(shù)法來達(dá)到規(guī)范化地目的其中,j是使max?(|x'|)<1成立的最小值。

屬性值變換3.4數(shù)據(jù)集成>>>403彼此獨(dú)立、相互封閉,難以交流、共享和融合數(shù)據(jù)源02異構(gòu)、運(yùn)行在不同軟硬件平臺上信息系統(tǒng)01開發(fā)時(shí)間和開發(fā)部門不同企業(yè)數(shù)據(jù)集成信息孤島信息孤島數(shù)據(jù)集成數(shù)據(jù)集成(DataIntegration)是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)有機(jī)地集中起來,通過一致的、精確地表示方法,對同一種實(shí)體對象的不同數(shù)據(jù)做整合的過程。傳統(tǒng)數(shù)據(jù)集成跨域數(shù)據(jù)集成數(shù)據(jù)集成1模式匹配

數(shù)據(jù)值沖突

數(shù)據(jù)冗余

數(shù)據(jù)集成數(shù)據(jù)集成解決的主要問題數(shù)據(jù)集成數(shù)據(jù)集成模式匹配與數(shù)據(jù)值沖突數(shù)據(jù)冗余模式匹配與數(shù)據(jù)值沖突模式匹配的實(shí)質(zhì)就是實(shí)體識別問題,實(shí)體識別就是為了匹配不同數(shù)據(jù)源的現(xiàn)實(shí)實(shí)體,如A.user-id=B.customer_id。通常以元數(shù)據(jù)為依據(jù)進(jìn)行實(shí)體識別,避免模式集成時(shí)出現(xiàn)錯(cuò)誤。每個(gè)屬性的元數(shù)據(jù)包括屬性名字、含義、數(shù)據(jù)類型、允許取值范圍、空值規(guī)則等。元數(shù)據(jù)還可以用來幫助變換數(shù)據(jù)。在集成期間,當(dāng)一個(gè)數(shù)據(jù)庫的屬性與另一個(gè)數(shù)據(jù)庫的屬性匹配時(shí),需要注意匹配數(shù)據(jù)的結(jié)構(gòu)以保障原模式數(shù)據(jù)之間的關(guān)系在集成后的模式中仍然適用。對于同一現(xiàn)實(shí)世界的實(shí)體而言,在不同的系統(tǒng)中的同一屬性的數(shù)據(jù)值可能不同,可能的原因有:屬性的表示方式不同、單位不同等等。針對數(shù)據(jù)值沖突,需要根據(jù)元數(shù)據(jù)提取該屬性的規(guī)則,并在目標(biāo)系統(tǒng)中建立統(tǒng)一的規(guī)則,將原始屬性值轉(zhuǎn)換為目標(biāo)屬性值。數(shù)據(jù)冗余在數(shù)據(jù)集成時(shí),數(shù)據(jù)冗余是不可避免的:同一屬性在不同系統(tǒng)中使用不同的字段名,如同樣的顧客ID,在A系統(tǒng)中字段名是Cust_id,在B系統(tǒng)中是Cutromer_Num;集成后某個(gè)數(shù)據(jù)屬性可以由其他數(shù)據(jù)屬性經(jīng)過計(jì)算得出,如A系統(tǒng)中有月營業(yè)額屬性,在B系統(tǒng)中有日營業(yè)額屬性,而月營業(yè)額是可以由日營業(yè)額導(dǎo)出的??梢酝ㄟ^相關(guān)分析來檢驗(yàn)屬性之間的相關(guān)度,進(jìn)而判斷是否存在數(shù)據(jù)冗余。數(shù)據(jù)集成模式匹配與數(shù)據(jù)值沖突數(shù)據(jù)冗余數(shù)據(jù)冗余標(biāo)稱數(shù)據(jù)檢測對于標(biāo)稱數(shù)據(jù),兩個(gè)屬性A和B之間的相關(guān)聯(lián)系可以通過卡方檢驗(yàn)發(fā)現(xiàn)

卡方檢驗(yàn)假設(shè)A、B之間是獨(dú)立的,如果可以拒絕該假設(shè)則說明A、B之間是統(tǒng)計(jì)相關(guān)的。數(shù)據(jù)集成模式匹配與數(shù)據(jù)值沖突數(shù)據(jù)冗余數(shù)據(jù)冗余對于數(shù)值數(shù)據(jù),可以通過檢測它們之間的相關(guān)系數(shù)來估計(jì)這兩個(gè)屬性之間相關(guān)度

數(shù)值數(shù)據(jù)檢測

3.5數(shù)據(jù)歸約>>>5大型數(shù)據(jù)集數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長的時(shí)間高維度數(shù)據(jù)由于高維度會(huì)引起數(shù)據(jù)超負(fù),一些挖掘算法不適用數(shù)據(jù)歸約數(shù)據(jù)歸約為什么進(jìn)行數(shù)據(jù)歸約?數(shù)據(jù)歸約也稱數(shù)據(jù)削減,是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。主要介紹數(shù)據(jù)歸約的兩種方法:維歸約、數(shù)值歸約。維歸約逐步向前選擇從一個(gè)空屬性集開始,該集合作為屬性子集的初始值,每次從原屬性集中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到屬性子集中,迭代地選最優(yōu)并添加直至無法選出最優(yōu)為止。向前選擇與向后刪除結(jié)合可以將向前選擇和向后刪除的方法結(jié)合在一起,每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最差的屬性。1.2.3.維歸約數(shù)據(jù)歸約維歸約數(shù)值規(guī)約維歸約是從原有的數(shù)據(jù)中刪除不重要或不相關(guān)的屬性,或者通過對屬性進(jìn)行重組來減少屬性的個(gè)數(shù)。維歸約的目的是為了找到最小的屬性子集,且該子集的概率分布盡可能地接近原數(shù)據(jù)集的概率分布,找到最小屬性子集的方法有以下幾種:逐步向后刪除從一個(gè)擁有所有屬性的屬性集開始,該集合是屬性子集的初始值,每次從當(dāng)前子集中選擇一個(gè)當(dāng)前最差的屬性并將其從屬性子集中刪除,迭代地選最差并刪除直至無法選出最差為止。數(shù)據(jù)歸約維歸約數(shù)值歸約數(shù)據(jù)歸約逐步向前選擇逐步向后刪除維歸約數(shù)據(jù)歸約維歸約數(shù)值規(guī)約抽樣參數(shù)回歸數(shù)值規(guī)約聚類直方圖使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖將A的數(shù)據(jù)分布劃分為不相交的子集/桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對,則該桶稱為單值桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。聚類技術(shù)把數(shù)據(jù)元組看作對象。它將對象劃分為群或簇,使得在一個(gè)簇中的對象相互“相似”,而與其他簇中的對象“相異”。在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇代表替換實(shí)際數(shù)據(jù)。數(shù)值歸約數(shù)據(jù)歸約維歸約數(shù)值規(guī)約直方圖聚類數(shù)值規(guī)約參數(shù)回歸抽樣抽樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,因?yàn)樗试S用數(shù)據(jù)的小得多的隨機(jī)樣本(子集)表示大型數(shù)據(jù)集。采用抽樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是:得到樣本的花費(fèi)正比例于樣本集的大小,而不是數(shù)據(jù)集的大小。參數(shù)回歸通常采用一個(gè)模型來評估數(shù)據(jù),該方法只需要存放參數(shù)而不用存放實(shí)際數(shù)據(jù)。這種方法能極大地減少數(shù)據(jù)量,但只對數(shù)值型數(shù)據(jù)有效。數(shù)值歸約休息一下!3.6案例-TableauPrep數(shù)據(jù)處理技術(shù)應(yīng)用>>>6大數(shù)據(jù),任何數(shù)據(jù)無論是電子表格、數(shù)據(jù)庫還是Hadoop和云服務(wù),任何數(shù)據(jù)都可以輕松探索。自動(dòng)更新通過實(shí)時(shí)連接獲取最新數(shù)據(jù),或者根據(jù)制定的日程表獲取自動(dòng)更新??焖俜治鲈跀?shù)分鐘內(nèi)完成數(shù)據(jù)連接和可視化。Tableau比現(xiàn)有的其他解決方案快10到100倍。TableauPrep數(shù)據(jù)處理技術(shù)應(yīng)用TableauPrep數(shù)據(jù)處理步驟:打開TableauPrep,連接數(shù)據(jù)源,此處從中國統(tǒng)計(jì)年鑒上搜集了2016年中國高技術(shù)產(chǎn)業(yè)新產(chǎn)品開發(fā)的一些相關(guān)數(shù)據(jù),見表3-3。表3-32016年高技術(shù)產(chǎn)業(yè)新產(chǎn)品開發(fā)數(shù)據(jù)表高技術(shù)產(chǎn)業(yè)名稱新產(chǎn)品開發(fā)項(xiàng)目數(shù)(個(gè))開發(fā)經(jīng)費(fèi)支出(萬元)銷售收入(萬元)出口銷售收入(萬元)醫(yī)藥制造業(yè)253204978805.7054227526.504896556.00化學(xué)藥品制造126422532006.0028629122.903034577.30中成藥制造5431966074.3013037868.60352638.40生物、生化制品的制造3720827242.505807140.50921788.60航空航天器制造業(yè)19791909534.6015336595.901373118.40電子及通信設(shè)備制造業(yè)4259222741770.00318206467.80138247189.30通信設(shè)備制造業(yè)612010458336.30154306436.8077281533.30雷達(dá)及配套設(shè)備制造業(yè)468248228.602024144.50151710.70廣播電視設(shè)備制造業(yè)2143544664.404884347.401224889.00電子器件制造業(yè)100574387057.6052854160.0024546514.70電子元件制造業(yè)115362912731.8039478279.2018011787.40家用視聽設(shè)備制造業(yè)34271579533.5031026890.0010520890.80其他電子設(shè)備制造36411080824.2011263319.602264787.90電子計(jì)算機(jī)及辦公設(shè)備制造業(yè)53472457057.2054641230.1032686511.10電子計(jì)算機(jī)整機(jī)制造業(yè)10301254812.2036421771.7022503619.20電子計(jì)算機(jī)外部設(shè)備制造業(yè)1482388950.006149683.403795880.60醫(yī)療器械及儀器儀表制造業(yè)168333034640.8025014345.503109374.20醫(yī)療儀器設(shè)備及器械制造業(yè)4515933322.404628267.80823536

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論