《數(shù)據(jù)采集與處理:基于python》 課件 第1章-概述_第1頁
《數(shù)據(jù)采集與處理:基于python》 課件 第1章-概述_第2頁
《數(shù)據(jù)采集與處理:基于python》 課件 第1章-概述_第3頁
《數(shù)據(jù)采集與處理:基于python》 課件 第1章-概述_第4頁
《數(shù)據(jù)采集與處理:基于python》 課件 第1章-概述_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第一章

概述《數(shù)據(jù)采集與處理:基于Python》2024/5/1112024/5/112教學(xué)目標(biāo)本章學(xué)習(xí)目標(biāo)1、了解數(shù)據(jù)科學(xué)相關(guān)概念及數(shù)據(jù)分析完整過程;2、理解數(shù)據(jù)采集與存儲與其他學(xué)科和課程關(guān)系;3、理解數(shù)據(jù)類型、數(shù)據(jù)存儲和大數(shù)據(jù)相關(guān)技術(shù);4、了解Python相關(guān)數(shù)據(jù)科學(xué)及數(shù)據(jù)采集與存儲工具等。本章提綱1、數(shù)據(jù)科學(xué)與數(shù)據(jù)采集及存儲2、數(shù)據(jù)采集概述3、數(shù)據(jù)存儲概述4、數(shù)據(jù)集成ETL概述5、Python相關(guān)數(shù)據(jù)科學(xué)工具數(shù)據(jù)科學(xué)概述2024/5/113什么是數(shù)據(jù)科學(xué)Data

Science?本世紀(jì)最性感的工作—哈佛商業(yè)評論HarvardBuisnessReview

數(shù)據(jù)科學(xué)家要比任何軟件工程師更擅長統(tǒng)計,相比任何統(tǒng)計學(xué)家又更擅長軟件工程。學(xué)術(shù)研究領(lǐng)域(如管理學(xué)、社會學(xué)、經(jīng)濟學(xué)、金融學(xué)等)及產(chǎn)業(yè)界(如互聯(lián)網(wǎng)公司、金融業(yè)等)缺乏大量數(shù)據(jù)分析師。當(dāng)然數(shù)據(jù)科學(xué)家收入也很可觀?。。?024/5/114什么是數(shù)據(jù)科學(xué)Data

Science?數(shù)據(jù)科學(xué)是一個跨學(xué)科的領(lǐng)域,研究從各種形式的數(shù)據(jù)中提取知識或見解的過程和系統(tǒng)。[維基百科。]數(shù)據(jù)科學(xué)將從收集真實世界的數(shù)據(jù),到處理和分析數(shù)據(jù),再到影響真實世界的循環(huán)閉合起來,對應(yīng)的數(shù)據(jù)分析過程為:從現(xiàn)實世界或應(yīng)用系統(tǒng)中進行數(shù)據(jù)抽取,然后進行數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與可視化、機器學(xué)習(xí)與統(tǒng)計建模、模型校驗及應(yīng)用部署和生成報告。2024/5/115什么是數(shù)據(jù)科學(xué)Data

Science?俗話說“巧婦難為無米之炊”,數(shù)據(jù)是數(shù)據(jù)科學(xué)和數(shù)據(jù)分析的基礎(chǔ)和前提,如何獲取和存儲數(shù)據(jù)則是數(shù)據(jù)科學(xué)與大數(shù)據(jù)的基本功。當(dāng)然,數(shù)據(jù)科學(xué)家的收入也很可觀。根據(jù)Glassdoor網(wǎng)站統(tǒng)計的美國2022年平均薪資數(shù)據(jù),數(shù)據(jù)科學(xué)家的年薪中位數(shù)達到12.2萬美元左右。此外,根據(jù)KDnuggets網(wǎng)站2022年數(shù)據(jù)科學(xué)職業(yè)的調(diào)研,美國勞工統(tǒng)計局2020年預(yù)測未來十年數(shù)據(jù)分析相關(guān)工作需求將有31%左右的增長,而2022年與數(shù)據(jù)分析相關(guān)的開放工作崗位在Indeed網(wǎng)站就有7萬個,LinkedIn網(wǎng)站則有39萬個左右。國內(nèi)職友集網(wǎng)站2022年的數(shù)據(jù)統(tǒng)計顯示,有3~5年工作經(jīng)驗的北京數(shù)據(jù)科學(xué)家月薪平均達到3萬~5萬元。2024/5/116數(shù)據(jù)度量國際數(shù)據(jù)公司(IDC)發(fā)布的《數(shù)據(jù)時代2025》報告顯示,全球每年產(chǎn)生的數(shù)據(jù)將從2018年的33ZB(Zettabyte)增長到2025年的175ZB,相當(dāng)于每天產(chǎn)生491EB(Exabyte)的數(shù)據(jù)。互聯(lián)網(wǎng)及物聯(lián)網(wǎng)時代,每天都有巨量的數(shù)據(jù)產(chǎn)生,那么如何度量這些數(shù)據(jù)呢?下面是部分?jǐn)?shù)據(jù)度量單位:Kilobyte(KB)=1024bytesMegabyte(MB)=1024KilobytesGigabyte(GB)=1024MegabytesTerabyte(TB)=1024GigabytesPetabyte(PB)=1024TerabytesExabyte(EB)=1024PetabytesZettabyte(ZB)=1024ExabytesYottabyte(YB)=1024Zettabytes2024/5/117數(shù)據(jù)利用在大數(shù)據(jù)時代,數(shù)據(jù)也是有待挖掘的資產(chǎn)和金礦,各行各業(yè)都已經(jīng)或正在利用大數(shù)據(jù)服務(wù)于自身的業(yè)務(wù),例如:通過有針對性的訓(xùn)練來提高身體素質(zhì)。改進產(chǎn)品。改善決策。提供判斷以選擇正確的藥品、更好的餐館或更佳的路線等。預(yù)測:選舉,流行疾病,群體行為,經(jīng)濟活動等。精準(zhǔn)營銷:消費者畫像,行為分析,個性化推薦等。生物識別:指紋識別,人臉識別,虹膜識別,聲音識別等。2024/5/118數(shù)據(jù)資源

在互聯(lián)網(wǎng)時代,各行各業(yè)都在產(chǎn)生大量的數(shù)據(jù),因此數(shù)據(jù)來源豐富多樣,如政府、互聯(lián)網(wǎng)企業(yè)、第三方機構(gòu)、商業(yè)企業(yè)等。下面是部分公開數(shù)據(jù)來源的網(wǎng)址。IDataHub(http://datahub.io/dataset)WorldHealthOrganization(/research/en/)D()EuropeanUnionOpenDataPortal(http://open-data.europa.eu/en/data/)AmazonWebServicepublicdatasets(/datasets)FacebookGraph(/docs/graph-api)H()GoogleTrends(/trends/explore)GoogleFinance(/finance)GoogleBooksNgrams(/books/ngrams/books/datasetsv2.html)MachineLearningRepository(/ml/)OPENICPSR(/openicpsr/repository/)2024/5/119數(shù)據(jù)采集概述2024/5/1110數(shù)據(jù)采集定義數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,是指利用一種裝置,將來自各種數(shù)據(jù)源的數(shù)據(jù)自動收集到該裝置中。被采集數(shù)據(jù)是已被轉(zhuǎn)換為電訊號的各種物理量(如溫度、水位、風(fēng)速、壓力等),可以是模擬量,也可以是數(shù)字量。數(shù)據(jù)采集一般是采樣方式,即間隔一定時間(稱為采樣周期)對同一點數(shù)據(jù)重復(fù)采集。采集的數(shù)據(jù)大多是瞬時值,也可以是某段時間內(nèi)的一個特征值。準(zhǔn)確的數(shù)據(jù)測量是數(shù)據(jù)采集的基礎(chǔ)。數(shù)據(jù)測量方法有接觸式和非接觸式,檢測元件多種多樣。不論哪種方法和元件,均以不影響被測對象狀態(tài)和測量環(huán)境為前提,以保證數(shù)據(jù)的正確性。數(shù)據(jù)采集是從真實世界對象中獲得原始數(shù)據(jù)的過程。不準(zhǔn)確的數(shù)據(jù)采集將影響后續(xù)的數(shù)據(jù)處理并且最終得到無效的結(jié)果。數(shù)據(jù)采集方法的選擇不但依賴于數(shù)據(jù)源的物理性質(zhì),而且要考慮數(shù)據(jù)分析的目標(biāo)。2024/5/1111數(shù)據(jù)采集步驟在大數(shù)據(jù)價值鏈中,數(shù)據(jù)采集階段的任務(wù)是以數(shù)字形式將信息聚合,以待存儲和分析處理。數(shù)據(jù)采集過程可分為三個步驟,如圖所示。首先是數(shù)據(jù)收集(datacollection),數(shù)據(jù)來源包括日志文件、傳感器、Web爬蟲等;其次是數(shù)據(jù)傳輸(datatransmission),經(jīng)過物理層和網(wǎng)絡(luò)層;最后是數(shù)據(jù)預(yù)處理(datapreprocessing),包括數(shù)據(jù)整合、清洗和冗余消除等。數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理沒有嚴(yán)格的次序,數(shù)據(jù)預(yù)處理可以在數(shù)據(jù)傳輸之前或之后。2024/5/1112數(shù)據(jù)分類按照數(shù)據(jù)的形態(tài),可以把數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩種。結(jié)構(gòu)化數(shù)據(jù)(如傳統(tǒng)關(guān)系型數(shù)據(jù)庫數(shù)據(jù))的字段有固定的長度和語義,計算機程序可以直接處理。非結(jié)構(gòu)化數(shù)據(jù)有文本數(shù)據(jù)、圖像數(shù)據(jù)、自然語言數(shù)據(jù)等,計算機程序無法直接處理,需要進行格式轉(zhuǎn)換或信息提取。按照數(shù)據(jù)連接的方式,數(shù)據(jù)又可分為本地數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)等。2024/5/1113數(shù)據(jù)類型描述不同的實體,其數(shù)據(jù)類型可能不同,可分為:1.類別(categorical)數(shù)據(jù)●名義(nominal)數(shù)據(jù):類別沒有大小順序的數(shù)據(jù),如民族、性別、種族、顏色、院系、專業(yè)等。●序數(shù)(ordinal)數(shù)據(jù):類別有大小順序的數(shù)據(jù),如成績等級、行業(yè)排名等。2.數(shù)值(numerical)數(shù)據(jù)●離散(discrete)數(shù)據(jù):是指其數(shù)值只能用自然數(shù)或整數(shù)單位計算的數(shù)據(jù),如企業(yè)個數(shù)、職工人數(shù)、設(shè)備臺數(shù)等。●連續(xù)(continuous)數(shù)據(jù):是指一定區(qū)間內(nèi)可以任意取值的數(shù)據(jù),其數(shù)值是連續(xù)不斷的,相鄰兩個數(shù)值之間可做無限分割,即可取無限個數(shù)值,如身高、體重、里程等。2024/5/1114數(shù)據(jù)采集方式按照不同的視角,數(shù)據(jù)采集有不同的方式。1.主動/被動視角按照數(shù)據(jù)采集的主動還是被動視角,數(shù)據(jù)采集可分為推(push)方式和拉(pull)方式。推方式的主動權(quán)在數(shù)據(jù)源系統(tǒng)方,數(shù)據(jù)源系統(tǒng)方根據(jù)自己數(shù)據(jù)產(chǎn)生的方式、頻率以及數(shù)據(jù)量,采用一種適合數(shù)據(jù)源系統(tǒng)的方式將數(shù)據(jù)推送到數(shù)據(jù)處理系統(tǒng),其特點是數(shù)據(jù)量、數(shù)據(jù)格式以及數(shù)據(jù)提供頻率與數(shù)據(jù)生成方式相關(guān)。拉方式的主動權(quán)則掌握在數(shù)據(jù)處理端,數(shù)據(jù)獲取的頻率、數(shù)據(jù)量和獲取方式完全由數(shù)據(jù)處理端決定。2024/5/1115數(shù)據(jù)采集方式2.即時性視角按照數(shù)據(jù)采集的即時性視角,數(shù)據(jù)采集又可分為實時采集與離線采集。實時采集是指在數(shù)據(jù)產(chǎn)生時立即對其進行處理和分析,并將結(jié)果傳遞到目標(biāo)系統(tǒng)中。該方法通常用于需要快速響應(yīng)和即時分析的場景,如金融交易、在線廣告等。實時采集需要具備高速度、高可靠性和高擴展性等特點,以確保數(shù)據(jù)能夠及時傳輸和處理。離線采集是指將數(shù)據(jù)存儲在本地或遠程存儲設(shè)備中,并在后續(xù)時間段內(nèi)對其進行處理和分析。該方法通常用于需要大規(guī)模數(shù)據(jù)處理、長時間分析和歷史數(shù)據(jù)回顧的場景,如機器學(xué)習(xí)、數(shù)據(jù)挖掘等。離線采集需要具備高容量、高效率和高靈活性等特點,以確保能夠完成大規(guī)模數(shù)據(jù)的存儲和分析。2024/5/1116數(shù)據(jù)采集方法數(shù)據(jù)采集的對象和來源多種多樣,如傳感器、系統(tǒng)日志、數(shù)據(jù)庫和Web爬蟲等,它們對應(yīng)的數(shù)據(jù)采集方法也存在差異。下面介紹幾種常見的數(shù)據(jù)來源及相應(yīng)采集方法。1.傳感器傳感器常用于測量物理環(huán)境變量并將其轉(zhuǎn)化為可讀的數(shù)字信號以待處理,根據(jù)測量類型的不同,分為壓力、振動、位移、紅外光、紫外光、溫度、濕敏、離子、微生物等傳感器。信息通過有線或無線網(wǎng)絡(luò)傳送到數(shù)據(jù)采集點。有線傳感器網(wǎng)絡(luò)通過網(wǎng)線收集傳感器的信息,這種方式適用于傳感器易于部署和管理的場景。無線傳感器網(wǎng)絡(luò)(wirelesssensornetwork,WSN)利用無線網(wǎng)絡(luò)作為信息傳輸?shù)妮d體,適用于沒有能量或通信的基礎(chǔ)設(shè)施的場合。無線傳感器網(wǎng)絡(luò)通常由大量微小傳感器節(jié)點構(gòu)成,微小傳感器由電池供電,被部署在應(yīng)用指定的地點收集感知數(shù)據(jù)。當(dāng)節(jié)點部署完成后,基站將發(fā)布網(wǎng)絡(luò)配置/管理或收集命令,來自不同節(jié)點的感知數(shù)據(jù)將被匯集并轉(zhuǎn)發(fā)到基站以待處理?;趥鞲衅鞯臄?shù)據(jù)采集系統(tǒng)被認(rèn)為是一個信息物理系統(tǒng)。2024/5/1117數(shù)據(jù)采集方法2.系統(tǒng)日志日志由數(shù)據(jù)源系統(tǒng)產(chǎn)生,以特殊的文件格式記錄系統(tǒng)的活動。幾乎所有在數(shù)字設(shè)備上運行的應(yīng)用的日志文件都非常有用,例如,Web服務(wù)器通常要在日志文件中記錄網(wǎng)站用戶的點擊、鍵盤輸入、訪問行為以及其他屬性。用于捕獲用戶在網(wǎng)站上的活動的Web服務(wù)器日志文件格式有三種類型:NCSA通用日志文件格式、W3C擴展日志文件格式和MicrosoftIIS日志文件格式。數(shù)據(jù)庫也可以用來替代文本文件存儲日志信息,以提高海量日志的查詢效率。在大數(shù)據(jù)領(lǐng)域,還可基于分布式的海量日志采集、聚合和傳輸系統(tǒng)Flume及支持高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)進行日志采集。2024/5/1118數(shù)據(jù)采集方法3.數(shù)據(jù)庫傳統(tǒng)企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL和Oracle等)來存儲數(shù)據(jù)。隨著大數(shù)據(jù)時代的到來,Redis、MongoDB和HBase等NoSQL數(shù)據(jù)庫(泛指非關(guān)系型數(shù)據(jù)庫)逐漸在互聯(lián)網(wǎng)企業(yè)中得到廣泛使用。數(shù)據(jù)庫一般可通過應(yīng)用程序編程接口(applicationprogramminginterface,API)以主動或被動方式采集數(shù)據(jù),采集策略可基于定時或者數(shù)據(jù)庫觸發(fā)機制增量獲取或完整刷新等。獨立的ETL(extract-transform-load)技術(shù)可完整處理常見數(shù)據(jù)來源的采集、轉(zhuǎn)換和處理,通過對數(shù)據(jù)進行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價值。2024/5/1119數(shù)據(jù)采集方法4.Web爬蟲Web爬蟲(也稱網(wǎng)絡(luò)爬蟲)是指從搜索引擎下載并存儲網(wǎng)頁的程序。Web爬蟲按順序訪問初始隊列中的一組統(tǒng)一資源定位符(uniformresourcelocator,URL),并為所有URL分配一個優(yōu)先級,然后從隊列中獲得具有一定優(yōu)先級的URL,下載該網(wǎng)頁,隨后解析網(wǎng)頁中包含的所有URL并添加這些新的URL到隊列中。這個過程一直重復(fù),直到爬蟲程序停止為止。Web爬蟲是網(wǎng)站應(yīng)用(如搜索引擎)的主要數(shù)據(jù)采集方式。Web爬蟲數(shù)據(jù)采集過程由選擇策略、重訪策略、禮貌策略以及并行策略決定。選擇策略決定哪個網(wǎng)頁將被訪問;重訪策略決定何時檢查網(wǎng)頁是否更新;禮貌策略防止過度訪問網(wǎng)站;并行策略則用于協(xié)調(diào)分布的爬蟲程序。2024/5/1120數(shù)據(jù)傳輸原始數(shù)據(jù)采集后必須將其傳送到數(shù)據(jù)存儲基礎(chǔ)設(shè)施(如數(shù)據(jù)中心)等待進一步處理。數(shù)據(jù)傳輸過程可以分為兩個階段:IP骨干網(wǎng)傳輸和數(shù)據(jù)中心傳輸,如圖所示。2024/5/1121數(shù)據(jù)傳輸1.IP骨干網(wǎng)傳輸IP骨干網(wǎng)提供高容量主干線路將大數(shù)據(jù)從數(shù)據(jù)源傳遞到數(shù)據(jù)中心。傳輸速率和容量取決于物理媒體和鏈路管理方法。(1)物理媒體:通常由許多光纜合并在一起增加容量,并需要擁有多條路徑以確保路徑失效時能進行重路由。(2)鏈路管理:決定信號如何在物理媒體上傳輸。過去20年間,IPoverWDM技術(shù)得到了深入研究。波分復(fù)用技術(shù)(wavelengthdivisionmultiplexing,WDM)是在單根光纖上復(fù)用多個不同波長的光載波信號。為了解決電信號帶寬的瓶頸問題,正交頻分復(fù)用(orthogonalfrequencydivisionmultiplexing,OFDM)被認(rèn)為是未來的高速光傳輸技術(shù)的候選者。OFDM允許單個子載波的頻譜重疊,構(gòu)建數(shù)據(jù)流更靈活、資源有效使用的光網(wǎng)絡(luò)。2024/5/1122數(shù)據(jù)傳輸2.數(shù)據(jù)中心傳輸數(shù)據(jù)傳遞到數(shù)據(jù)中心后,將在數(shù)據(jù)中心內(nèi)部進行存儲位置的調(diào)整和其他處理,這個過程稱為數(shù)據(jù)中心傳輸,涉及數(shù)據(jù)中心體系架構(gòu)和傳輸協(xié)議。(1)數(shù)據(jù)中心體系架構(gòu)。數(shù)據(jù)中心由多個裝備了若干服務(wù)器的機架構(gòu)成,服務(wù)器通過數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)連接。許多數(shù)據(jù)中心基于權(quán)威的2層或3層fat-tree結(jié)構(gòu)的商用交換機構(gòu)建。一些其他的拓?fù)浣Y(jié)構(gòu)也用于構(gòu)建更為高效的數(shù)據(jù)中心網(wǎng)絡(luò)。由于電子交換機的固有缺陷,在增加通信帶寬的同時減少能量消耗非常困難。數(shù)據(jù)中心網(wǎng)絡(luò)中的光互連技術(shù)能夠提高吞吐量、降低延遲和減少能量消耗,被認(rèn)為是有前途的解決方案。(2)傳輸協(xié)議。TCP和UDP是數(shù)據(jù)傳輸最重要的兩種協(xié)議,但是它們的性能在傳輸大量的數(shù)據(jù)時并不令人滿意。一些增強TCP功能的方法的目標(biāo)是提高鏈路吞吐率,并對長短不一的混合TCP流提供可預(yù)測的小延遲。例如,DCTCP利用顯示擁塞通知對端主機提供多比特反饋。UDP協(xié)議適用于傳輸大量數(shù)據(jù),但是缺乏擁塞控制。因此高帶寬的UDP應(yīng)用必須自己實現(xiàn)擁塞控制機制,這是一項困難的任務(wù)并且會導(dǎo)致風(fēng)險。2024/5/1123數(shù)據(jù)預(yù)處理數(shù)據(jù)源具有多樣性,數(shù)據(jù)集因干擾、冗余和一致性因素的影響而具有不同的質(zhì)量。從需求的角度來看,一些數(shù)據(jù)分析工具和應(yīng)用對數(shù)據(jù)質(zhì)量有著嚴(yán)格的要求。因此,在大數(shù)據(jù)系統(tǒng)中需要使用數(shù)據(jù)預(yù)處理技術(shù)來提高數(shù)據(jù)的質(zhì)量。主要的數(shù)據(jù)預(yù)處理技術(shù)包括數(shù)據(jù)整合、數(shù)據(jù)清洗、冗余消除、數(shù)據(jù)歸約等。1.數(shù)據(jù)整合數(shù)據(jù)整合是指在邏輯上和物理上把來自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進行連接合并,為用戶提供一個統(tǒng)一的數(shù)據(jù)視圖。這些不同來源的異構(gòu)數(shù)據(jù)可能存在命名和格式不統(tǒng)一、數(shù)據(jù)重復(fù)、數(shù)據(jù)類型不一致等問題,因此,需要根據(jù)一定的規(guī)則將這些數(shù)據(jù)進行必要的處理和格式轉(zhuǎn)換,然后進行連接合并,形成統(tǒng)一的數(shù)據(jù)視圖。2.數(shù)據(jù)清洗數(shù)據(jù)清洗(cleaning)是指在數(shù)據(jù)集中發(fā)現(xiàn)不準(zhǔn)確、不完整或不合理的數(shù)據(jù),并對這些數(shù)據(jù)進行修補或刪除以提高數(shù)據(jù)質(zhì)量。一個通用的數(shù)據(jù)清洗過程由5個步驟構(gòu)成:定義錯誤類型,搜索并標(biāo)識錯誤實例,改正錯誤,文檔記錄錯誤實例和錯誤類型,修改數(shù)據(jù)錄入程序以減少未來的錯誤。2024/5/1124數(shù)據(jù)預(yù)處理此外,格式檢查、完整性檢查、合理性檢查和極限檢查也在數(shù)據(jù)清洗過程中完成。數(shù)據(jù)清洗對保持?jǐn)?shù)據(jù)的一致和更新起著重要作用,因此被用于銀行、保險、零售、電信和交通等多個領(lǐng)域。在電子商務(wù)領(lǐng)域,盡管大多數(shù)數(shù)據(jù)通過電子方式收集,但仍存在數(shù)據(jù)質(zhì)量問題。影響數(shù)據(jù)質(zhì)量的因素包括技術(shù)、業(yè)務(wù)和管理三個方面,技術(shù)因素涉及數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)裝載等方面,業(yè)務(wù)因素涉及業(yè)務(wù)不清晰、輸入不規(guī)范、數(shù)據(jù)造假等方面,管理因素涉及人員素質(zhì)、管理機制、數(shù)據(jù)規(guī)范、流程制度等方面。數(shù)據(jù)清洗對隨后的數(shù)據(jù)分析非常重要,因為它能提高數(shù)據(jù)分析的準(zhǔn)確性。但是數(shù)據(jù)清洗依賴復(fù)雜的關(guān)系模型,這會帶來額外的計算和延遲開銷,因此,必須在數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進行平衡。2024/5/1125數(shù)據(jù)預(yù)處理3.冗余消除數(shù)據(jù)冗余是指數(shù)據(jù)的重復(fù)或過剩,這是許多數(shù)據(jù)集的常見問題。數(shù)據(jù)冗余無疑會增加傳輸開銷,浪費存儲空間,導(dǎo)致數(shù)據(jù)不一致,降低可靠性。因此許多研究提出了數(shù)據(jù)冗余減少機制,例如冗余檢測和數(shù)據(jù)壓縮。由廣泛部署的攝像頭收集的圖像和視頻數(shù)據(jù)存在大量的數(shù)據(jù)冗余。在視頻監(jiān)控數(shù)據(jù)中,大量的圖像和視頻數(shù)據(jù)存在著時間、空間和統(tǒng)計上的冗余。視頻壓縮技術(shù)被用于減少視頻數(shù)據(jù)的冗余,許多重要的標(biāo)準(zhǔn)(如MPEG-2,MPEG-4,H.263,H.264/AVC)已被應(yīng)用以減少存儲和傳輸?shù)呢?fù)擔(dān)。對于普遍的數(shù)據(jù)傳輸和存儲,數(shù)據(jù)去重技術(shù)是專用的數(shù)據(jù)壓縮技術(shù),用于消除重復(fù)數(shù)據(jù)的副本。數(shù)據(jù)去重技術(shù)能夠顯著地減少存儲空間的占用,對大數(shù)據(jù)存儲系統(tǒng)具有非常重要的作用。2024/5/1126數(shù)據(jù)預(yù)處理4.數(shù)據(jù)歸約數(shù)據(jù)整合與清洗無法改變數(shù)據(jù)集的規(guī)模,依然需要通過技術(shù)手段降低數(shù)據(jù)規(guī)模,這就是數(shù)據(jù)歸約。數(shù)據(jù)歸約采用編碼方案,通過小波變換或主成分分析來有效地壓縮原始數(shù)據(jù),或者通過特征提取技術(shù)進行屬性子集的選擇或重造。除了前面提到的數(shù)據(jù)預(yù)處理方法,還有一些對特定數(shù)據(jù)對象(這些數(shù)據(jù)對象通常具有高維特征矢量)進行預(yù)處理的技術(shù),如特征提取技術(shù),在多媒體搜索和域名系統(tǒng)(DNS)分析中起著重要作用。數(shù)據(jù)變形技術(shù)則通常用于處理分布式數(shù)據(jù)源產(chǎn)生的異構(gòu)數(shù)據(jù),對商業(yè)數(shù)據(jù)的處理非常有用。然而,沒有一個統(tǒng)一的數(shù)據(jù)預(yù)處理過程和單一的技術(shù)能夠用于多樣化的數(shù)據(jù)集,必須考慮數(shù)據(jù)集的特性、需要解決的問題、性能需求和其他因素來選擇合適的數(shù)據(jù)預(yù)處理方案。2024/5/1127數(shù)據(jù)存儲概述2024/5/1128什么是數(shù)據(jù)存儲數(shù)據(jù)存儲是指數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上。因此,它包括兩部分,即存儲格式與存儲介質(zhì)。1.存儲格式文件:文字文件,壓縮文件,圖形圖像,動畫,音頻、視頻文件等。數(shù)據(jù)庫:關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫。2.存儲介質(zhì)磁盤和磁帶都是常用的存儲介質(zhì)。數(shù)據(jù)存儲組織方式因存儲介質(zhì)而異。在磁帶上數(shù)據(jù)僅采用順序存取方式;在磁盤上則可按使用要求采用順序存取或直接存取方式。數(shù)據(jù)存儲方式與數(shù)據(jù)文件組織密切相關(guān),其關(guān)鍵在于建立記錄的邏輯與物理順序間的對應(yīng)關(guān)系,確定存儲地址,以提高數(shù)據(jù)存取速度。2024/5/1129存儲格式(一)文件形式1.本地文件文件存儲在本地節(jié)點,可不通過網(wǎng)絡(luò)直接訪問。文字文件類型:如txt,csv,xml,html,doc等。壓縮文件類型:如zip,rar等。圖形圖像類型:如jpg,gif,bmp等。動畫類型:如gif,swf等。音頻、視頻類型:如wav,mp3,mp4,avi等。2.分布式文件系統(tǒng)分布式文件系統(tǒng)(distributedfilesystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)的設(shè)計基于客戶端/服務(wù)器模式。一個典型的網(wǎng)絡(luò)可能包括多個供多用戶訪問的服務(wù)器。另外,對等特性允許一些系統(tǒng)扮演客戶端和服務(wù)器的雙重角色。分布式文件系統(tǒng)可以有效解決數(shù)據(jù)的存儲和管理難題:將固定于某個地點的某個文件系統(tǒng)擴展到任意多個地點/多個文件系統(tǒng),眾多節(jié)點組成一個文件系統(tǒng)網(wǎng)絡(luò)。每個節(jié)點可以分布在不同的地點,通過網(wǎng)絡(luò)進行節(jié)點間的通信和數(shù)據(jù)傳輸。2024/5/1130存儲格式(二)數(shù)據(jù)庫形式數(shù)據(jù)庫在結(jié)構(gòu)化數(shù)據(jù)的存儲和管理方面應(yīng)用非常廣泛,它大致可分為兩類,即關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫。常見的關(guān)系型數(shù)據(jù)庫有Oracle、DB2、MySQL等,常見的非關(guān)系型數(shù)據(jù)庫有MongoDB、HBase等。下圖以思維導(dǎo)圖形式展示了數(shù)據(jù)庫的大致分類。2024/5/1131存儲格式(三)大數(shù)據(jù)形式1.分布式系統(tǒng)分布式系統(tǒng)包含多個自主的處理單元,通過計算機網(wǎng)絡(luò)互連來協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好地處理大規(guī)模的數(shù)據(jù)分析問題。分布式系統(tǒng)主要包含以下兩類:(1)分布式文件系統(tǒng):存儲管理需要多種技術(shù)的協(xié)同工作,文件系統(tǒng)為其提供最底層存儲能力的支持。其中Hadoop分布式文件系統(tǒng)(Hadoopdistributedfilesystem,HDFS)是一個高度容錯性系統(tǒng),適用于批量處理,能夠提供高吞吐量的數(shù)據(jù)訪問。(2)分布式鍵值系統(tǒng):分布式鍵值系統(tǒng)用于存儲關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù)。典型的分布式鍵值系統(tǒng)有AmazonDynamo,獲得廣泛應(yīng)用和關(guān)注的對象存儲(objectstorage)技術(shù)也可以視為分布式鍵值系統(tǒng),其存儲和管理的是對象而不是數(shù)據(jù)塊。2024/5/1132存儲格式2.NoSQL數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求。主要表現(xiàn)為:無法滿足海量數(shù)據(jù)的管理需求和數(shù)據(jù)高并發(fā)的需求,不太具備高可擴展性和高可用性。相比之下,NoSQL數(shù)據(jù)庫的優(yōu)勢為:可以支持超大規(guī)模的數(shù)據(jù)存儲,靈活的數(shù)據(jù)模型可以很好地支持Web2.0的應(yīng)用,具有強大的橫向擴展能力等。典型的NoSQL數(shù)據(jù)庫包含以下幾種:鍵值數(shù)據(jù)庫、列數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫。3.云數(shù)據(jù)庫云數(shù)據(jù)庫是一種基于云計算技術(shù)發(fā)展的共享基礎(chǔ)架構(gòu)的方法,是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫。云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫功能。云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系型數(shù)據(jù)庫所使用的關(guān)系模型(如華為、阿里巴巴和微軟的云數(shù)據(jù)庫都采用了關(guān)系模型)。2024/5/1133存儲方式數(shù)據(jù)存儲方式主要有三類,即直接附加存儲、網(wǎng)絡(luò)附加存儲及存儲區(qū)域網(wǎng)絡(luò)。1.直接附加存儲直接附加存儲(directattachedstorage,DAS)方式與普通的計算機存儲架構(gòu)一樣,外部存儲設(shè)備都是直接掛接在服務(wù)器內(nèi)部總線上,數(shù)據(jù)存儲設(shè)備是整個服務(wù)器結(jié)構(gòu)的一部分。DAS方式的主要適用環(huán)境有小型網(wǎng)絡(luò)(數(shù)據(jù)存儲量小,簡單經(jīng)濟)、地理位置分散的網(wǎng)絡(luò)、特殊應(yīng)用服務(wù)器(如微軟的集群服務(wù)器或某些數(shù)據(jù)庫使用的原始分區(qū),均要求存儲設(shè)備直接連接到應(yīng)用服務(wù)器)。DAS的優(yōu)點在于簡單經(jīng)濟,它的缺點包括效率低,不方便進行數(shù)據(jù)保護,無法共享。2024/5/1134存儲方式2.網(wǎng)絡(luò)附加存儲網(wǎng)絡(luò)附加存儲(networkattachedstorage,NAS)方式全面改進了以前低效的DAS方式。它采用一種單獨為網(wǎng)絡(luò)數(shù)據(jù)存儲開發(fā)的獨立于服務(wù)器的文件服務(wù)器來連接所存儲的設(shè)備,自形成一個網(wǎng)絡(luò),數(shù)據(jù)存儲不再是服務(wù)器的附屬,而是作為獨立網(wǎng)絡(luò)節(jié)點存在于網(wǎng)絡(luò)之中,可被所有網(wǎng)絡(luò)用戶共享。NAS的優(yōu)點包括:真正的即插即用;存儲部署簡單;存儲設(shè)備位置非常靈活;管理容易且成本低。NAS的缺點包括存儲性能較低,可靠度不高。2024/5/1135存儲方式3.存儲區(qū)域網(wǎng)絡(luò)存儲區(qū)域網(wǎng)絡(luò)(storageareanetwork,SAN)方式創(chuàng)造了存儲的網(wǎng)絡(luò)化。存儲網(wǎng)絡(luò)化順應(yīng)了計算機服務(wù)器體系結(jié)構(gòu)網(wǎng)絡(luò)化的趨勢。SAN的支撐技術(shù)是光纖通道(fiberchannel,FC)技術(shù),它是美國國家標(biāo)準(zhǔn)協(xié)會(AmericanNationalStandardsInstitute,ANSI)為網(wǎng)絡(luò)和通道I/O接口建立的一個標(biāo)準(zhǔn)集成。FC技術(shù)支持HIPPI、IPI、SCSI、IP、ATM等多種高級協(xié)議,其最大特性是將網(wǎng)絡(luò)和設(shè)備的通信協(xié)議與傳輸物理介質(zhì)隔離開,這樣多種協(xié)議可在同一個物理連接上同時傳送。SAN的硬件基礎(chǔ)設(shè)施是光纖通道,用光纖通道構(gòu)建的SAN由以下三個部分組成:存儲和備份設(shè)備:包括磁帶、磁盤和光盤庫等;光纖通道網(wǎng)絡(luò)連接部件:包括主機總線適配卡、驅(qū)動程序、光纜、集線器、交換機、光纖通道和SCSI間的橋接器;應(yīng)用和管理軟件:包括備份軟件、存儲資源管理軟件和存儲設(shè)備管理軟件。SAN的優(yōu)點包括網(wǎng)絡(luò)部署容易,具有高速的存儲性能和良好的擴展能力等。2024/5/1136存儲方式4.三類存儲方式比較從連接方式上對比,DAS采用了存儲設(shè)備直接連接應(yīng)用服務(wù)器的方式,具有一定的靈活性和限制性;NAS通過網(wǎng)絡(luò)技術(shù)連接存儲設(shè)備和應(yīng)用服務(wù)器,存儲設(shè)備位置靈活,隨著萬兆網(wǎng)的出現(xiàn),傳輸速率有了很大的提高;SAN則是通過光纖通道技術(shù)連接存儲設(shè)備和應(yīng)用服務(wù)器,具有很高的傳輸速率和很好的擴展性能。三種存儲方式各有優(yōu)勢,相互共存,占據(jù)了磁盤存儲市場的70%以上。SAN和NAS產(chǎn)品的價格仍然遠遠高于DAS,許多用戶出于價格考慮選擇低效率的直連存儲而不是高效率的共享存儲。2024/5/1137Python相關(guān)數(shù)據(jù)科學(xué)工具2024/5/1138Python相關(guān)數(shù)據(jù)科學(xué)工具根據(jù)KDnuggets()2017—2019年的調(diào)研結(jié)果(見下圖),Python已然是數(shù)據(jù)科學(xué)、機器學(xué)習(xí)領(lǐng)域使用排名第一的軟件工具。因此,我們有必要了解一下Python相關(guān)數(shù)據(jù)科學(xué)工具。2024/5/1139Python相關(guān)開發(fā)環(huán)境與工具可用于Python的代碼編輯器有Vim、ATOM、VisualStudioCode等,集成開發(fā)環(huán)境(integrateddevelopmentenvironment,IDE)有PyCharm、LiClipse、Spyder、基于交互式IPython的JupyterNotebook等。1.Anaconda——一站式數(shù)據(jù)科學(xué)工具Anaconda內(nèi)置集成了豐富的數(shù)據(jù)分析和機器學(xué)習(xí)模塊,如NumPy、pandas、matplotlib、SciPy、JupyterNotebook、spyder等,如圖所示。如何安裝Anaconda,請參考:/anaconda/install/windows/。2024/5/1140Python相關(guān)開發(fā)環(huán)境與工具本書使用Anaconda3中基于Python3的JupyterNotebook作為開發(fā)環(huán)境,如圖1-8所示。當(dāng)在瀏覽器中編輯JupyterNotebook時,JupyterNotebook的內(nèi)容被寫入文件后綴名為“.ipynb”的文件。2024/5/1141Python數(shù)據(jù)科學(xué)相關(guān)模塊1.pandaspandas是Python強大、靈活的數(shù)據(jù)分析和探索工具,包含Series、DataFrame等高級數(shù)據(jù)結(jié)構(gòu)和工具,安裝pandas可使Python處理數(shù)據(jù)變得非??焖俸秃唵巍andas是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,它納入了大量的庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效的操作大型數(shù)據(jù)集所需要的工具。pandas還包含了高級數(shù)據(jù)結(jié)構(gòu)以及讓數(shù)據(jù)分析變得快速、簡單的工具。pandas的主要優(yōu)點如下:建立在numpy之上,使得應(yīng)用numpy變得簡單。數(shù)據(jù)結(jié)構(gòu)帶有坐標(biāo)軸,支持自動或明確的數(shù)據(jù)對齊。這能防止由于數(shù)據(jù)結(jié)構(gòu)沒有對齊以及處理不同來源、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見錯誤。更容易處理缺失數(shù)據(jù),是進行數(shù)據(jù)清洗/整理的最好工具??珊喜⒘餍袛?shù)據(jù)庫(如基于SQL的數(shù)據(jù)庫)。2024/5/1142Python數(shù)據(jù)科學(xué)相關(guān)模塊2.numpynumpy提供數(shù)組支持以及相應(yīng)的高效處理函數(shù),是Python數(shù)據(jù)分析的基礎(chǔ),也是scipy、pandas等數(shù)據(jù)處理和科學(xué)計算庫最基本的函數(shù)功能庫,其數(shù)據(jù)類型對Python數(shù)據(jù)分析十分有用。numpy提供了兩種基本對象:ndarray和ufunc。ndarray是存儲單一數(shù)據(jù)類型的多維數(shù)組,而ufunc是能夠?qū)?shù)組進行處理的函數(shù)。numpy的功能如下:可對n維數(shù)組(一種快速、高效使用內(nèi)存的多維數(shù)組)提供矢量化數(shù)學(xué)運算。可以不使用循環(huán)就對整個數(shù)組內(nèi)的數(shù)據(jù)進行標(biāo)準(zhǔn)數(shù)學(xué)運算。便于將數(shù)據(jù)傳送到用低級語言(C/C)編寫的外部庫,也便于外部庫以numpy數(shù)組形式返回數(shù)據(jù)。不提供高級數(shù)據(jù)分析功能,但可以更加深刻地理解numpy數(shù)組和面向數(shù)組的計算。2024/5/1143Python數(shù)據(jù)科學(xué)相關(guān)模塊3.Web爬蟲(1)Scrapy。Scrapy是專為爬蟲而生的工具,具有URL讀取、HTML解析、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論