版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第4章課時16文本數(shù)據(jù)處理、數(shù)據(jù)可視化信息技術(shù)課標(biāo)梳理·微知著教材重點課標(biāo)要求學(xué)業(yè)質(zhì)量水平文本數(shù)據(jù)處理、數(shù)據(jù)可視化1.能從實際生活中發(fā)現(xiàn)大數(shù)據(jù)應(yīng)用的價值,認(rèn)識到有效數(shù)據(jù)處理對于提高數(shù)據(jù)價值的重要意義2.掌握文本處理方法、數(shù)據(jù)可視化1-1教材研析·固基礎(chǔ)1利用matplotlib模塊繪圖1.概念:Matplotlib是一個繪圖庫,使用其中的pyplot子庫所提供的函數(shù)可以快速繪圖和設(shè)置圖表的坐標(biāo)軸、坐標(biāo)軸刻度、圖例等。2.matplotlib模塊常用繪圖函數(shù)函數(shù)說明figure()創(chuàng)建一個新的圖表對象,并設(shè)置為當(dāng)前繪圖對象plot()繪制線形圖bar()繪制垂直柱形圖barh()繪制水平柱形圖scatter()繪制散點圖title()設(shè)置圖表的標(biāo)題xlim()、ylim()設(shè)置X、Y軸的取值范圍xlabel()、ylabel()設(shè)置X、Y軸的標(biāo)簽legend()顯示圖例show()顯示創(chuàng)建的所有繪圖對象3.Python中引入matplotlib的pyplot子庫的方法importmatplotlib.pyplotasplt典例1(2023浙江十校聯(lián)盟)某校的圖書管理員想了解下學(xué)生的圖書閱讀情況,將數(shù)據(jù)庫中的數(shù)據(jù)表導(dǎo)出至“book.xlsx”文件中,讀取數(shù)據(jù)后,界面如圖a所示,統(tǒng)計學(xué)生圖書閱讀情況后,繪制圖表如圖b所示,部分程序代碼如下,請在劃線處填入合適的代碼。圖a圖bimportpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=\['SimHei']
#用來顯示中文標(biāo)簽df=pd.read_excel(″book.xlsx″)df1=①______________________________#刪除“條形碼”列
df1=df1.groupby(″讀者姓名″,as_index=\False).書名.count()df1.rename(columns={″書名″:″借閱次\數(shù)″},inplace=True)df2=df1.sort_values(②______________________________).\head(10)
#按統(tǒng)計次數(shù)進(jìn)行降序排序
x=③__________________________________y=df2[″借閱次數(shù)″]plt.figure(figsize=(20,10))plt.bar(x,y)plt.title(″閱讀之星TOP10″)plt.show()df.drop(″條形碼″,axis=1)″借閱次數(shù)″,ascending=Falsedf2[″讀者姓名″](或df2.讀者姓名)解析
①利用drop函數(shù)可刪除DataFrame對象的行和列,當(dāng)刪除列時,drop函數(shù)第一個參數(shù)寫列名,第二個參數(shù)axis的值應(yīng)為1(其默認(rèn)值是0,為刪除行),故此處填df.drop(″條形碼″,axis=1)。②上文已利用rename函數(shù)將列名″書名″修改為″借閱次數(shù)″,故此處排序依據(jù)應(yīng)為″借閱次數(shù)″,降序時,ascending值應(yīng)為False(ascending默認(rèn)值是True,為升序),故此處應(yīng)填″借閱次數(shù)″,ascending=False。③根據(jù)圖b可知,橫坐標(biāo)的值為″讀者姓名″,訪問DataFrame對象的數(shù)據(jù)列有字典方式和屬性方式兩種,故此處可填df2[″讀者姓名″]或df2.讀者姓名。2利用Python分析數(shù)據(jù)實踐1.步驟:分析數(shù)據(jù)
編制程序
查看結(jié)果2.讀取外部文件的數(shù)據(jù)(1)打開與當(dāng)前程序相同路徑的文本文件(例如:a.txt),讀取文件中的數(shù)據(jù),文件的編碼是UTF-8(如下圖所示),打開的文件描述為對象f。(2)語法格式:f=open('a.txt','r',encoding='utf-8')。(3)'r'代表以只讀方式打開當(dāng)前文件對象,文件的指針將會放在文件的開頭,這是默認(rèn)模式。(4)encoding用于指定當(dāng)前所讀文件的編碼方式。(5)file.read([size]):從文件讀取指定的字節(jié)數(shù)(size),若未指定或為負(fù)則讀取所有。(6)file.readline([size]):讀取整行,包括
″\n″
字符。(7)file.readlines([sizeint]):讀取所有行并返回列表,若給定sizeint>0,則是設(shè)置一次讀多少字節(jié),這是為了減輕讀取壓力。(8)file.close():關(guān)閉文件。關(guān)閉后文件不能再進(jìn)行讀寫操作。3.strip()方法(1)作用:用于移除字符串頭尾指定的字符(默認(rèn)為空格)或字符序列。注意:該方法只能刪除開頭或是結(jié)尾的字符,不能刪除中間部分的字符。(2)范例:去除字符串a(chǎn)頭尾的
號4.split()方法(1)格式:字符串.split('str',num)(2)作用:通過指定分隔符對字符串進(jìn)行切片,如果參數(shù)
num
有指定值,則分隔num+1個子字符串(3)參數(shù)
str
分隔符,默認(rèn)為所有的空字符,包括空格、換行(\n)、制表符(\t)等。
num
分割次數(shù)。默認(rèn)為-1,即分隔所有。(4)范例:將字符串a(chǎn)用空格作為分隔符切片。
a.split('')
#第2參數(shù)num省略,分隔所有
a.split('',1)
#第2參數(shù)num為1,在遇到第1個空格時切片,將字符串分隔為2部分。
a.split('',4)
#第2參數(shù)num為4,字符串從左到右方向遍歷,遇到空格進(jìn)行切片,切片次數(shù)為4,將字符串分隔5部分。典例2有如圖a的Excel表格數(shù)據(jù),用python程序創(chuàng)建一張反映各采價點紅富士價格的比較圖,如圖b所示。部分程序代碼如下,請在劃線處填入合適的代碼。地區(qū)規(guī)格單位價格采價點采集時間北京市紅富士一級元/500克2.98北京沃爾瑪3月中旬北京市紅富士一級元/500克4.88北京大潤發(fā)3月中旬上海市紅富士一級元/500克4上海農(nóng)貿(mào)市場3月中旬石家莊市紅富士一級元/500克3.98石家莊沃爾瑪3月中旬石家莊市紅富士一級元/500克6石家莊大潤發(fā)3月中旬天津市紅富士一級元/500克4.5天津沃爾瑪3月中旬天津市紅富士一級元/500克5天津大潤發(fā)3月中旬圖a圖bimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdf=pd.read_excel(″test.xlsx″)x=df[″采價點″]y=①________________plt.figure(figsize=(10,5))#設(shè)置圖表對象大小plt.②___________(x,y,color=″g″)
plt.title(″紅富士一級價格對比表″)plt.xlabel(″價格點″)plt.ylabel(″價格″)plt.xticks(rotation=90)plt.③________________df[″價格″]barshow()解析
本題主要考查數(shù)據(jù)分析和繪圖的綜合應(yīng)用。首先讀入excel數(shù)據(jù)到DataFrame類型的df對象中,X軸坐標(biāo)值是df[″價格點″],y軸坐標(biāo)值是df[″價格″]。垂直柱形圖用bar()函數(shù),設(shè)置標(biāo)題等選項,最后show()函數(shù)顯示圖表對象。5.繪圖類型(kind參數(shù))☆bar(垂直柱形圖)☆barh(水平柱形圖)☆plot(線形圖)6.用Hadoop處理姓氏數(shù)據(jù)當(dāng)xm.csv文件數(shù)據(jù)量至GB、TB時,需采用處理靜態(tài)大數(shù)據(jù)的Hadoop架構(gòu),編寫Map和Reduce函數(shù)處理。Map函數(shù)中統(tǒng)計每個分片數(shù)據(jù)中各個姓的人數(shù),統(tǒng)計結(jié)果作為Reduce函數(shù)的輸入,在Reduce函數(shù)中匯總每個姓的總計人數(shù)。在Hadoop服務(wù)器中運行MapReduce任務(wù),系統(tǒng)會自動把任務(wù)分配到各個計算機中運行。典例3以下Python程序功能為:讀取外部文件“選手年齡信息.csv”中每位選手的年齡,輸出年齡列表中的最大值、最小值和平均值。外部文件的界面、程序界面和代碼如下,請在劃線處填上合適的代碼。#以讀取模式打開文件f=①________________________#list用于存放文件中讀取的當(dāng)前行數(shù)據(jù)組成的列表([姓名,年齡])list1=[]s=0#for用于遍歷讀取文件后生成的列表f.readlines(),列表中的每個元素是從文件中讀取的一行數(shù)據(jù)(姓名和年齡之間用逗號分隔)forlineinf.readlines():list=line.strip().split(②___)
#列表list1用于存放讀取的年齡list1.append(③_________)
s=s+④________________print('參賽選手年齡最大年齡為:',\max(list1),'歲,最小年齡為:',min(list1),'歲,\平均年齡為:',s/len(list1),'歲')⑤________________#關(guān)閉文件
open('選手年齡信息.csv','r')','list[1]int(list[1])f.close()解析
依照題意,split函數(shù)根據(jù)逗號分隔。當(dāng)前行數(shù)據(jù)讀取時,根據(jù)逗號將姓名和年齡分隔成列表list
1的兩個元素,其中年齡對應(yīng)的是第2個元素list[1]。將字符串中分離的年齡用int()轉(zhuǎn)換為整型,為后面年齡的累加做好準(zhǔn)備。3文本數(shù)據(jù)處理1.文本數(shù)據(jù)處理目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報分析、自動摘要、自動校對、論文查重、文本分類、垃圾郵件過濾、機器翻譯、自動應(yīng)答等方面。典型的文本處理過程主要包括:分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等。(1)中文分詞①基于詞典的分詞方法,也稱作基于字符匹配的分詞方法,即在分析句子時與詞典中的詞語進(jìn)行對比,詞典中出現(xiàn)的就劃分為詞。②基于統(tǒng)計的分詞方法,統(tǒng)計分詞的思想是依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計,同時出現(xiàn)的次數(shù)越高就越可能組成一個詞。在實際應(yīng)用中,一般是將其與基于詞典的分詞方法結(jié)合使用。③基于規(guī)則的分詞方法,通過讓計算機模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),達(dá)到對文字進(jìn)行分詞的效果。由于中文語言知識的籠統(tǒng)性、復(fù)雜性,這種分詞方法目前還處于試驗階段。(2)特征提取在中文文本分析中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞的切分難度比短語的切分難度小且更能表達(dá)文本的含義。目前,大多數(shù)中文文本分析中都采用詞作為特征項,這種詞稱作特征詞。2.文本數(shù)據(jù)分析與應(yīng)用(1)標(biāo)簽云標(biāo)簽云用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語的重要性。標(biāo)簽云廣泛應(yīng)用于報紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)。(2)文本情感分析文本情感分析是指通過計算機技術(shù)對文本的主觀性、觀點、情緒、極性進(jìn)行挖掘和分析,對文本的情感傾向做出分類判斷。文本情感分析作為一個多學(xué)科交叉的研究領(lǐng)域,涉及自然語言處理、信息檢索、機器學(xué)習(xí)、人工智能等領(lǐng)域。典例4下列關(guān)于文本數(shù)據(jù)處理的說法錯誤的是()A.文本內(nèi)容是結(jié)構(gòu)化數(shù)據(jù)B.標(biāo)簽云是文本可視化的一種方式C.中文文本分析中多數(shù)采用詞作為特征項D.特征詞通常是用分詞算法和詞頻統(tǒng)計得出的結(jié)果解析
文本內(nèi)容是非結(jié)構(gòu)化數(shù)據(jù)。
A典例5下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.對簡歷數(shù)據(jù)進(jìn)行關(guān)鍵信息提取,構(gòu)建人才畫像,精準(zhǔn)匹配崗位B.分析消費者的意見數(shù)據(jù),挖掘用戶觀點,輔助運營決策C.實時監(jiān)測景區(qū)的人流數(shù)據(jù),及時導(dǎo)流、限流D.解析大量合同文檔,有效監(jiān)控風(fēng)險條款,節(jié)省人力和時間成本解析
C選項主要應(yīng)用了結(jié)構(gòu)化數(shù)據(jù),因此本題答案為C。
C4數(shù)據(jù)可視化☆概念:是將數(shù)據(jù)以圖形、圖像等形式表示,直接呈現(xiàn)數(shù)據(jù)中蘊含信息的處理過程。1.可視化的作用(1)快捷觀察與追蹤數(shù)據(jù)(2)實時分析數(shù)據(jù)(3)增強數(shù)據(jù)的解釋力與吸引力2.可視化的基本方法☆不同的數(shù)據(jù)類型決定了可視化的表現(xiàn)形式(1)時間趨勢:展現(xiàn)隨時間的推移而變化數(shù)據(jù)可采用柱形圖、折線圖等。(2)比例:展現(xiàn)各部分的大小及其占總體比例關(guān)系的數(shù)據(jù)可以采用餅圖、環(huán)形圖(也稱面包圈圖)等。(3)關(guān)系:探究具有關(guān)聯(lián)性數(shù)據(jù)的分布關(guān)系,可以使用散點圖、氣泡圖等。(4)差異:探尋包含多種變量的對象與同類之間的差異和聯(lián)系,可以采用雷達(dá)圖。(5)空間關(guān)系:地理數(shù)據(jù)或者基于地理數(shù)據(jù)的分析結(jié)果可以運用不同顏色或圖表直接在地圖上進(jìn)行展示。3.可視化的工具(1)常見的數(shù)據(jù)分析軟件中一般包含創(chuàng)建可視化圖表功能。主要用于數(shù)據(jù)可視化的工具有大數(shù)據(jù)魔鏡、Gephi、Tableau等。(2)使用Python、R等編寫程序代碼實現(xiàn)數(shù)據(jù)的可視化。(3)可視化工具庫,如基于JavaScript的D3.js、Highcharts、GoogleCharts等,基于Python的matplotlib
等。
4.可視化的典型案例數(shù)據(jù)以可視化方式展現(xiàn)出來,用戶可以通過直觀、交互的方式瀏覽和觀察數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式。如“百度地圖”“百度指數(shù)”“航班飛行實時跟蹤地圖”等。典例6下列不屬于數(shù)據(jù)可視化作用的是()A.提高數(shù)據(jù)處理的智能化程度B.快捷觀察與追蹤數(shù)據(jù)C.實時分析數(shù)據(jù)D.增強數(shù)據(jù)的解釋力與吸引力A5大數(shù)據(jù)典型應(yīng)用☆大數(shù)據(jù)應(yīng)用領(lǐng)域:隨著大數(shù)據(jù)在各行業(yè)的應(yīng)用,數(shù)據(jù)成為核心資產(chǎn)。目前,大數(shù)據(jù)廣泛應(yīng)用于金融、交通、環(huán)境、醫(yī)療、能源、農(nóng)業(yè)等行業(yè),極大地促進(jìn)了各行業(yè)的發(fā)展。1.智能交通(1)交通數(shù)據(jù)采集:GPS、卡口、視頻檢測、浮動車、地感線圈等產(chǎn)生的交通流監(jiān)測數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、系統(tǒng)數(shù)據(jù)、服務(wù)數(shù)據(jù)等構(gòu)筑了交通大數(shù)據(jù)。(2)智能交通服務(wù)智能交通主要通過交通信息服務(wù)、交通管理、公共交通、車輛控制、貨運管理、電子收費、緊急救援等服務(wù)子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 競聘崗位發(fā)言稿
- 2024版機電設(shè)備買賣合同書
- 2024年車輛收車協(xié)議:以租代購方式2篇
- 2024琴行教師聘請及教學(xué)成果考核合同范本3篇
- 2024年高速公路路燈采購與安裝合同
- 2024年高壓輸電線路設(shè)計咨詢專項合同范本
- 三人協(xié)作商務(wù)協(xié)議樣本一
- 2024承包土方填土合同模板
- 祛斑知識培訓(xùn)課件下載
- 2024年食品行業(yè)ERP系統(tǒng)購銷協(xié)議3篇
- 《非計劃性拔管》課件
- 經(jīng)理年終工作總結(jié)述職報告ppt模板
- 新概念張云生講解的筆記
- 淺談初中歷史單元作業(yè)的設(shè)計策略
- 修訂完整-(兒研所)嬰幼兒發(fā)育診斷量表幼兒教育
- 教代會會場背景(紅旗)圖片課件
- 工學(xué)第八章-固相反應(yīng)課件
- 臨時用電拆除方案
- 垂體瘤診療規(guī)范內(nèi)科學(xué)診療規(guī)范診療指南2023版
- 國家安全教育學(xué)習(xí)通課后章節(jié)答案期末考試題庫2023年
- 三年級道德與法治教學(xué)工作總結(jié)
評論
0/150
提交評論