下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)分析及可視化技術(shù)應(yīng)用摘要:第三次信息化浪潮涌動(dòng),大數(shù)據(jù)時(shí)代已來,大數(shù)據(jù)對社會(huì)各行各業(yè)均 產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)決策成為一種新的決策方式。以Python開發(fā)為基礎(chǔ), 簡述數(shù)據(jù)分析及可視化常見方法和基本流程。關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)可視化;Python0引言大數(shù)據(jù)時(shí)代已經(jīng)到來,當(dāng)前社會(huì)數(shù)據(jù)增長到達(dá)PEZ級(jí)別,呈現(xiàn)一個(gè)指數(shù)型的 增長趨勢,大數(shù)據(jù)對整個(gè)社會(huì)都具有深遠(yuǎn)影響,特別是對思維方式的影響。利 用數(shù)據(jù)解決問題的思維模式-數(shù)據(jù)思維,開啟人類社會(huì)利用數(shù)據(jù)價(jià)值的嶄新時(shí)代31基本介紹大數(shù)據(jù)(big data),是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、 管理和處理的海量數(shù)據(jù)的整合。大數(shù)據(jù)4
2、V特征,即數(shù)據(jù)量大(Volume) 數(shù)據(jù) 類型多(Variety) 處理速度快(Velocity)以及價(jià)值密度低(Value)。大 數(shù)據(jù)的5V特點(diǎn),補(bǔ)充Veracity(真實(shí)性)。維克托邁爾舍恩伯格在大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革一 書中指出“全樣而非抽樣”、“效率而非精確”、“相關(guān)而非因果”大數(shù)據(jù)時(shí)代 的新思維方式叫大數(shù)據(jù)技術(shù)促進(jìn)企業(yè)或個(gè)人,通過分析數(shù)據(jù)獲得的信息做出決 策。對實(shí)際應(yīng)用場景深入了解,明確決策需求,保證數(shù)據(jù)分析結(jié)果高價(jià)值性。在數(shù)據(jù)分析時(shí),數(shù)據(jù)預(yù)處理環(huán)節(jié)是分析結(jié)果可靠性的重要保障。目前主流的 大數(shù)據(jù)處理架構(gòu)Hadoop. Spark,采用分布式存儲(chǔ)系統(tǒng),結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖
3、 掘算法,可對海量數(shù)據(jù)進(jìn)行并行分析與處理。數(shù)據(jù)可視化是將抽象的“數(shù)據(jù)”轉(zhuǎn)換成圖形、圖像,以可見的形式表現(xiàn)出來, 以幫助人們更為直觀地理解和利用數(shù)據(jù)2實(shí)現(xiàn)過程很多編程語言都可以完成數(shù)據(jù)分析及可視化工作,綜合考慮Python語法簡 練、豐富的庫、功能強(qiáng)大、通用性強(qiáng)等特點(diǎn),選擇Python開發(fā)環(huán)境完成數(shù)據(jù)處 理工作。3. 1環(huán)境搭建Python開發(fā)者普遍選擇集成開發(fā)環(huán)境PyCharm IDE,具有代碼調(diào)試、高亮標(biāo) 注以及工程管理等功能,但是在數(shù)據(jù)分析場景下,可能面臨不停安裝計(jì)算包的繁 瑣工作;Anaconda是主要用于科學(xué)計(jì)算的Python發(fā)行版,包含大量常用的科學(xué) 包,給數(shù)據(jù)分析人員帶來極大便捷。
4、在創(chuàng)立包含了 numpy、malplotlib、pyecharts等包的虛擬環(huán)境之后,通過 jupyter notebook命令啟用Jupyter Notebook界面,便可在Web頁面完成代碼 編輯、運(yùn)行、結(jié)果呈現(xiàn)。注意命令窗口假設(shè)關(guān)閉,WEB頁面將會(huì)與本地服務(wù)器斷開 而導(dǎo)致無法操作。3. 2數(shù)據(jù)準(zhǔn)備目前各領(lǐng)域數(shù)據(jù)生成量巨大,除了直接獲得數(shù)據(jù)之外,通常利用網(wǎng)絡(luò)爬蟲技 術(shù),按照需求內(nèi)容自行爬取網(wǎng)站中公開的數(shù)據(jù),保存到本地.CSV文件中。利用 pd. read_csv ()函數(shù)加載數(shù)據(jù)文件,為后續(xù)做好準(zhǔn)備。3. 3數(shù)據(jù)預(yù)處理高質(zhì)量的數(shù)據(jù)得到的數(shù)據(jù)分析結(jié)果才有意義,不規(guī)范的數(shù)據(jù),如空值、不一 致值
5、、重復(fù)值、不合法的值等等對后期分析結(jié)果很有可能造成偏差。常見處理如 下:單位統(tǒng)一。利用replace。方法將不同的單位描述進(jìn)行統(tǒng)一。例如戶型單位 可能會(huì)有“房間”、“室”等,統(tǒng)一規(guī)范為“室”。去除重復(fù)數(shù)據(jù)。數(shù)據(jù)信息中不可防止會(huì)存在重復(fù)信息,利用 drop_duplicates ()方法快速實(shí)現(xiàn)刪除重復(fù)數(shù)據(jù)。填充缺失值。NumPy中缺失值NaN, NAN, nan均表示毫無意義的數(shù)據(jù),假設(shè)直 接刪除可能會(huì)損失信息,多采用填充方式。對于非時(shí)間序列,采用常量、統(tǒng)計(jì)量值 替換;對于時(shí)間序列,采用就近插補(bǔ)、線性插補(bǔ)、K最近距離鄰法插補(bǔ)以及更加 科學(xué)的機(jī)器學(xué)習(xí)算法進(jìn)行填充。3. 4數(shù)據(jù)分析統(tǒng)計(jì)分析是數(shù)據(jù)分
6、析基本的操作,特別是分組和聚合。常見方法是利用 groupbyO分組,用agg()做均值、標(biāo)準(zhǔn)差、方差等聚合。該方法靈活,不僅可以 進(jìn)行單列分組、單列單統(tǒng)計(jì)值,也可以進(jìn)行多列分組、多列多統(tǒng)計(jì)值;另外一種 方法是采用數(shù)據(jù)透視表pivotable()函數(shù),類似Excel中的透視表,同樣可以 實(shí)現(xiàn)分組聚類的功能。大數(shù)據(jù)分析,離不開機(jī)器學(xué)習(xí)技術(shù)。主要涉及如K近鄰算法、貝葉斯分類、 決策樹與隨機(jī)森林以及邏輯回歸等算法。3. 5數(shù)據(jù)可視化數(shù)據(jù)展示圖形類別豐富,滿足不同的場景。折線圖展示開展趨勢,散點(diǎn)圖展 示數(shù)據(jù)的分布情況,柱狀圖和直方圖展示數(shù)據(jù)間比照情況,面積圖、餅圖、堆積 柱狀圖展示局部與整體之間關(guān)系,
7、目前流行的氣泡圖、詞云圖展示數(shù)據(jù)頻率。 Python常用以下繪圖庫可以完成上述圖形的繪制。Matplotlib通過設(shè)置較多的參數(shù),展示圖形更為精細(xì)。Pandas展示圖形十分多樣,例如條形圖、折線圖、直方圖、餅圖等常見圖形, 以及蜂巢圖、堆疊圖等。Seaborn在Matplotlib基礎(chǔ)上進(jìn)行了更高級(jí)的API封裝,可以通過設(shè)置顏色、 形狀、大小等一張圖中繪制多變量。對葛尾花Tris數(shù)據(jù)集可視化,選擇品種作 為類別變量,通過pairplolO函數(shù)將所有成對數(shù)值關(guān)系一次性進(jìn)行繪制。代碼及 運(yùn)行結(jié)果如下:fig=sns. pairplot(tips, hue=,species*)圖1 Iris數(shù)據(jù)集可
8、視化Pyecharts可以繪制非??犰诺脑~云圖、氣泡圖、圓環(huán)圖等。例如用詞云圖 直觀展示熱門租房小區(qū)分布情況。圖2熱門租房詞云圖數(shù)據(jù)可視化技術(shù)實(shí)現(xiàn)多樣的圖表類型展示,便于直觀發(fā)現(xiàn)數(shù)據(jù)中隱含的信息。3結(jié)束語經(jīng)過分析處理后得到的大數(shù)據(jù)結(jié)果幫助企業(yè)管理者或個(gè)人更好地做出決策, 大數(shù)據(jù)己經(jīng)成為支撐經(jīng)濟(jì)監(jiān)測預(yù)測的重要手段8大數(shù)據(jù)引起的新的思維方式將 影響金融、教育、醫(yī)療等諸多領(lǐng)域。參考文獻(xiàn)1杜小勇.數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論M.人民郵電出版社,2021.2林子雨.大數(shù)據(jù)技術(shù)M.人民郵電出版社,2021.3維克托邁爾舍恩伯格.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革M. 浙江人民出版社,2013.4吳振宇,李春忠,李建鋒.Python數(shù)據(jù)處理與挖掘M.人民郵電出版 社,2020.5牛長春,王福超.大數(shù)據(jù)技術(shù)的演進(jìn)與開展歷程J.電腦知識(shí)與技 術(shù),2021, 5:35-37.6沈恩亞.大數(shù)據(jù)可視化技術(shù)及應(yīng)用J.科技導(dǎo)報(bào),2020,3:68-83.7李俊華.基于Py
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年合作融資合同范本
- 2024年上海住宅消防工程合同范本
- 2024年銀行借款抵押合同范本
- 2024年電焊承包合同協(xié)議書
- 2024年過橋墊資借款合同
- 2024年無償汽車租賃協(xié)議合同范本
- 2024年模型定作合同范本
- 2024年體育館場地租賃合同
- 2024年載重貨車租用合同書
- 第三講 第一課時(shí)《共和國的堅(jiān)實(shí)根基》(教學(xué)設(shè)計(jì))-《習(xí)近平新時(shí)代中國特色社會(huì)主義思想學(xué)生讀本(小學(xué)高年級(jí))》
- HG/T 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則(正式版)
- 中級(jí)銀行從業(yè)資格之中級(jí)個(gè)人貸款通關(guān)題庫(附帶答案)
- 學(xué)校(幼兒園)食品安全相關(guān)人員責(zé)任清單
- 汽車吊吊裝安全技術(shù)交底
- 小學(xué)中隊(duì)活動(dòng)記錄
- 金融學(xué)基礎(chǔ)(第二版)課件:信用和金融工具
- (正式版)JTT 1499-2024 公路水運(yùn)工程臨時(shí)用電技術(shù)規(guī)程
- 主題一:自然之美 第2課《 重回侏羅紀(jì)-尋蹤自貢恐龍博物館》 課件
- 醫(yī)療機(jī)構(gòu)處方審核規(guī)范解讀
- DB32/T 4504-2023 揚(yáng)州鵝種鵝全季節(jié)繁殖技術(shù)規(guī)程
- 2024年餐廳服務(wù)員(三級(jí))職業(yè)鑒定考試題庫(濃縮500題)
評(píng)論
0/150
提交評(píng)論