Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題_第1頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題_第2頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題_第3頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題_第4頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析概述填空題數(shù)據(jù)分析按照復(fù)雜度和深度可以分為、診斷性分析、預(yù)測性分析和規(guī)范性分析共4個層次。包含了Conda、Python在內(nèi)的超過180個科學(xué)計算包及其依賴項。JupyterNotebook是一個支持代碼、數(shù)學(xué)方程、可視化和Markdown的Web應(yīng)用程序。JupyterNotebook支持代碼和這兩種類型的單元格。是Python開源的科學(xué)計算庫,能夠?qū)崿F(xiàn)高維數(shù)組與矩陣運算。判斷題數(shù)據(jù)分析是一個有目的地收集和整合數(shù)據(jù)的過程。()Python能夠“粘連”其它語言的組件,便于開發(fā)人員操作其它語言編寫的庫。()如果要卸載指定環(huán)境中的包,則可以直接使用condaremove命令移除。()數(shù)據(jù)處理在一定程度上保證了分析工作中數(shù)據(jù)的質(zhì)量。()Anaconda工具安裝了數(shù)據(jù)分析用到的全部庫,無需另行安裝。()選擇題下列選項中,屬于數(shù)據(jù)分析中用于搭接數(shù)據(jù)倉庫和保證數(shù)據(jù)質(zhì)量的是()。數(shù)據(jù)收集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)關(guān)于Anaconda工具的說法中,下列描述錯誤的是()。Anaconda是一個可以對包和環(huán)境進行統(tǒng)一管理的工具。Anaconda是完全開源的、付費的Anaconda支持Linux、Windows、macOS操作系統(tǒng)Anaconda避免了單獨安裝包時需要配置或兼容等各種問題下列選項中,關(guān)于JupyterNotebook的描述正確的是()。安裝Anaconda工具后會自動擁有JupyterNotebookJupyterNotebook只能通過命令行的方式啟動JupyterNotebook首頁的根目錄是不能修改的JupyterNotebook不能將腳本文件導(dǎo)出為HTML文件下列選項中,用于實現(xiàn)數(shù)據(jù)可視化功能的庫是()。NumPypandasMatplotlibNLTK下列選項中,用于查看當(dāng)前環(huán)境下所有包信息的命令是()。conda--versioncondalistcondainstalljiebacondaupdate--all簡答題什么是數(shù)據(jù)分析?請簡述數(shù)據(jù)分析的基本流程。第2章科學(xué)計算庫NumPy填空題在NumPy中,可以使用數(shù)組對象________執(zhí)行一些科學(xué)計算。如果ndarray.ndim執(zhí)行的結(jié)果為2,則表示創(chuàng)建的是_____維數(shù)組。NumPy中________是由一個類型名和元素位長的數(shù)字組成。如果兩個數(shù)組的形狀不同,則它們進行算術(shù)運算時可能會觸發(fā)________機制。NumPy中________是指用整數(shù)數(shù)組或整數(shù)列表作為數(shù)組的索引。判斷題通過empty()函數(shù)創(chuàng)建的數(shù)組,該數(shù)組中沒有任何的元素。()若使用ones()函數(shù)創(chuàng)建數(shù)組時沒有明確地指明元素的數(shù)據(jù)類型,則默認(rèn)數(shù)據(jù)類型為float64。()數(shù)組之間的任何算術(shù)運算都會將運算應(yīng)用到數(shù)組的每個元素上。()NumPy中,可以混合使用切片與整數(shù)索引來獲取二維數(shù)組的元素。()當(dāng)通過布爾索引操作數(shù)組時,返回的數(shù)據(jù)是布爾數(shù)組中False對應(yīng)位置的值。()選擇題下列選項中,用來表示數(shù)組維度元組的屬性是()。ndimshapesizedtype下面選項中,創(chuàng)建的是3行3列數(shù)組的是()。arr=np.array([1,2,3])arr=np.array([[1,2,3],[4,5,6]])arr=np.array([[1,2],[3,4]])np.ones((3,3))請閱讀下面一段程序:arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])執(zhí)行上述程序后,最終輸出的結(jié)果為()。[14][25][14,25][20,25]請閱讀下面一段程序:arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))執(zhí)行上述程序后,最終輸出的結(jié)果為()。[[[25]][[03]][[14]]][[[14]][[03]][[25]]][[[03]][[14]][[25]]][[[0][3]][[1][4]][[2][5]]]下列選項中,用于表示矢量化三元表達(dá)式的是()。where()cumsum()sort()unique()簡答題簡述NumPy數(shù)組的軸。簡述廣播機制需要滿足哪些條件。編程題創(chuàng)建一個數(shù)組,數(shù)組的shape為(5,0),元素都是0。創(chuàng)建一個表示國際象棋棋盤的8*8數(shù)組,其中,棋盤白格用0填充,棋盤黑格用1填充。數(shù)據(jù)分析庫pandas基礎(chǔ)填空題pandas中主要有Series和兩種數(shù)據(jù)結(jié)構(gòu)。Series結(jié)構(gòu)由和組成。采用行列的形式組織數(shù)據(jù)。函數(shù)用于從CSV或TXT文件中讀取數(shù)據(jù)。是在一個軸方向上具有兩層或兩層以上的索引。判斷題DataFrame的每列數(shù)據(jù)可以看作一個Series類的對象。()使用describe()方法會輸出多個統(tǒng)計指標(biāo)。()from_arrays()方法是將元組列表轉(zhuǎn)換為MultiIndex類的對象。()read_csv()和read_table()函數(shù)沒有任何區(qū)別,可以隨意替換使用。()Series類的對象不能有分層索引。()選擇題下列關(guān)于Series和DataFrame的描述,錯誤的是()。Series是一維的數(shù)據(jù)結(jié)構(gòu)DataFrame是二維的數(shù)據(jù)結(jié)構(gòu)Series既有行索引又有列索引Series和DataFrame都可以重置索引下列關(guān)于索引對象的描述錯誤的是()。位置索引或標(biāo)簽索引都屬于Index類的對象索引對象一旦創(chuàng)建是不可以被修改的索引對象的值是可以重復(fù)的Series和DataFrame默認(rèn)的索引是位置索引下列方法中,用于根據(jù)元組創(chuàng)建MultiIndex類對象的是()。from_tuples()from_arrays()from_product()from_list()下列選項中,哪個方法可以一次性輸出DataFrame類對象的的多個統(tǒng)計指標(biāo)?()describe()mean()median()sum()請閱讀下面一段程序:importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()執(zhí)行上述程序后,最終輸出的結(jié)果為()。5132034425032532445151443225032544033251簡答題簡述Series和DataFrame的特點。簡述分層索引。編程題現(xiàn)有如下圖所示的數(shù)據(jù),請根據(jù)這些數(shù)據(jù)進行以下操作:根據(jù)上圖的結(jié)構(gòu)創(chuàng)建一個DataFrame類的對象。以B列為準(zhǔn),降序排列DataFrame類對象的數(shù)據(jù)。將排序后的數(shù)據(jù)寫入到write_data.csv文件。數(shù)據(jù)預(yù)處理填空題pandas中缺失值一般使用None或np.nan表示,統(tǒng)一標(biāo)記為________。________指的是沿著某個軸的方向?qū)蓚€或兩個以上的對象按照一定的邏輯關(guān)系進行合并。________又稱虛擬變量,用來反映某個變量的不同類別。________是指數(shù)據(jù)集中的個別值明顯偏離它所屬數(shù)據(jù)集的其余值。________()方法用于將DataFrame的列索引旋轉(zhuǎn)為行索引。判斷題使用dropna()方法可以刪除缺失值。()3σ原則只適用于符合或近似正態(tài)分布的數(shù)據(jù)集。()使用to_numeric()函數(shù)轉(zhuǎn)換字符串時一定會導(dǎo)致程序報錯。()當(dāng)使用stack()方法將有分層索引的DataFrame進行重塑操作后,一定會返回一個Series類的對象。()當(dāng)使用merge()函數(shù)合并對象時,不需要指定合并鍵。()選擇題下列選項中,描述錯誤的是。()數(shù)據(jù)清洗的目的是提高數(shù)據(jù)的質(zhì)量異常值被檢測出來無需確認(rèn)可以直接刪除使用drop_duplicates()方法可以刪除重復(fù)值concat()函數(shù)可以沿著一條軸將多個對象進行堆疊合并請閱讀下面一段程序:frompandasimportSeriesimportpandasaspdfromnumpyimportNaNseries_obj=Series([None,4,NaN])pd.isnull(series_obj)執(zhí)行上述程序后,最終輸出的結(jié)果為()。0True1False2True0True1True2False0False1True2True0True1True2True下列選項中,可以刪除缺失值的是()。isnull()notnull()dropna()fillna()下列選項中,描述錯誤是()。concat()函數(shù)可以沿著一條軸將多個對象進行堆疊merge()函數(shù)可以根據(jù)一個或多個鍵將不同DataFrame進行合并使用rename()方法對索引進行重命名操作unstack()方法可以將對象的列索引旋轉(zhuǎn)為行索引請閱讀下面一段程序:importnumpyasnpimportpandasaspdser_obj=pd.Series([4,np.nan,6,5,-3,2])ser_obj.sort_values()執(zhí)行上述程序后,最終輸出的結(jié)果為()。4-3.052.004.035.026.01NaN1NaN26.035.004.052.04-3.052.004.035.026.04-3.01NaN04.01NaN26.035.04-3.052.0簡答題簡述異常值。簡述數(shù)據(jù)合并的幾種方式。編程題現(xiàn)有如下面所示的兩組數(shù)據(jù)A和B,其中A組中B列數(shù)據(jù)存在缺失值,并且該列數(shù)據(jù)為int類型,B組中的數(shù)據(jù)均為str類型。請按照要求操作圖中的數(shù)據(jù),具體要求如下:根據(jù)A組和B組的結(jié)構(gòu)分布創(chuàng)建兩個DataFrame類的對象。使用B組的數(shù)據(jù)填充A組的缺失值,并保持?jǐn)?shù)據(jù)類型一致。將合并后的結(jié)果中A組的索引key重命名為D。數(shù)據(jù)聚合與分組運算填空題分組與聚合的基本過程分別是、應(yīng)用和合并。在groupby()方法中,參數(shù)決定了按照什么樣的標(biāo)準(zhǔn)對數(shù)據(jù)進行分組。GroupBy對象是一個對象。使用GroupBy對象的屬性可以查看分組的具體信息。當(dāng)對DataFrame對象進行分組后會返回一個對象。判斷題分組應(yīng)用的函數(shù)只能是用戶自定義的函數(shù)。()使用print()函數(shù)可以直接查看GroupBy對象的具體信息。()使用agg()方法進行聚合運算會對產(chǎn)生的標(biāo)量值進行廣播。()使用transform()方法聚合后產(chǎn)生的結(jié)果與原對象的形狀可以相同。()apply()方法不能實現(xiàn)聚合功能。()選擇題下列關(guān)于groupby()方法的說法,錯誤的是()。分組鍵可以是列表或數(shù)組,但長度不需要與待分組軸的長度相同可以根據(jù)DataFrame類對象的列標(biāo)簽進行分組可以根據(jù)函數(shù)進行分組可以根據(jù)Series或字典進行分組下列關(guān)于agg()方法的描述,錯誤的是()。agg()方法中func參數(shù)只能傳入一個函數(shù)agg()方法中func參數(shù)可以傳入多個函數(shù)agg()方法中func參數(shù)可以傳入自定義函數(shù)agg()方法不能對聚合后產(chǎn)生的標(biāo)量值進行廣播下列關(guān)于transform()方法的說法,正確的是()。不會與原對象保持相同形狀會對產(chǎn)生的標(biāo)量值進行廣播操作func參數(shù)只能接收內(nèi)置函數(shù)func參數(shù)可以接收多個內(nèi)置函數(shù)下列關(guān)于apply()的說法,錯誤的是()??梢越邮沼脩糇远x的函數(shù)可以接收多個函數(shù)可以實現(xiàn)聚合功能返回的結(jié)果一定與原對象的形狀相同請閱讀下面一段程序:importpandasaspdpd.DataFrame([[2,3],]*3,columns=['A','B']).apply(lambdax:x+1)執(zhí)行上述程序后,最終輸出的結(jié)果為()。AB032132232AB023123223AB034134234AB043143243簡答題簡述分組聚合的流程。簡述常用的分組方式。編程題現(xiàn)有如上圖所示的學(xué)生信息,請根據(jù)圖中的學(xué)生信息完成以下操作:根據(jù)學(xué)生信息表的結(jié)構(gòu)創(chuàng)建一個DataFrame類的對象。根據(jù)年級一列對DataFrame類對象的數(shù)據(jù)進行分組,并輸出大一學(xué)生的分組信息。分別找出大一到大四這四個年級中身高最高的同學(xué)。計算大一學(xué)生與大三學(xué)生的平均體重。數(shù)據(jù)可視化填空題由一系列高度不等的矩形條或線段組成,用于反映數(shù)據(jù)的分布和波動情況。箱形圖利用最小值、第一四分位數(shù)、、第三四分位數(shù)和最大值這幾個統(tǒng)計量描述一組數(shù)據(jù)。Matplotlib的模塊封裝了快速繪制圖表的函數(shù)。二維直方圖主要用于顯示落在六邊形區(qū)域內(nèi)的觀察值的計數(shù)。是一個用于生成Echarts圖表的開源庫。判斷題Seaborn是基于Matplotlib的繪圖庫。()直方圖與柱形圖沒有任何區(qū)別。()餅圖在識別異常值方面有一定的優(yōu)越性。()Matplotlib默認(rèn)支持中文顯示。()Matplotlib不能繪制2D圖表。()選擇題在Matplotlib中,用于展示圖表的函數(shù)是()。plot()bar()hist()show()下列選項中,關(guān)于Pyecharts庫的描述正確的是()。Pyecharts庫生成圖表不能與用戶交互Pyecharts庫無需安裝便可以直接使用Pyecharts庫是基于Seaborn進行封裝的Pyecharts庫可以繪制柱形圖下列選項中,說法錯誤的是。()distplot()函數(shù)用于繪制直方圖和核密度估計曲線distplot()函數(shù)默認(rèn)不使用密度觀察條stripplot()函數(shù)用于繪制直方圖swarmplot()函數(shù)用于繪制數(shù)據(jù)點不重疊的散點圖在Matplotlib中,用于給圖表添加標(biāo)題的函數(shù)是()。xlabel()title()legend()text()下列選項中,關(guān)于圖表的描述錯誤的是()。氣泡圖用于展示三個變量之間的關(guān)系核密度曲線圖通過線段的傾斜程度顯示數(shù)據(jù)的變化情況餅圖顯示一個數(shù)據(jù)序列中的各項的大小與各項總和的比例柱形圖使用矩形條的高度反映不同分類數(shù)據(jù)之間的差異情況簡答題簡述圖表有哪些輔助元素以及這些元素的作用。列舉6種圖表類型,并簡要描述這些圖表的特點。編程題現(xiàn)有如上圖所示的汽車搜索指數(shù)信息,請按要求完成以下操作:根據(jù)汽車搜索指數(shù)信息創(chuàng)建一個DataFrame類的對象。以汽車品牌為x軸,熱搜指數(shù)為y軸,使用Matplotlib庫繪制一張柱形圖。給y軸添加標(biāo)簽,標(biāo)簽名稱為“熱搜指數(shù)”。給圖表添加標(biāo)題,標(biāo)題名稱為“不同品牌汽車的熱搜指數(shù)”。在柱形上方添加注釋文本,文本的內(nèi)容是熱搜指數(shù)的值。時間序列分析填空題________是指將同一統(tǒng)計指標(biāo)的數(shù)值按其發(fā)生的時間先后順序排列而成的數(shù)列。________是指帶時區(qū)的特定的日期時間。pandas中的頻率是由________和倍數(shù)組成的。________是指將時間序列從一個頻率轉(zhuǎn)換到另一個頻率的處理過程。在pandas中,使用________類表示一個標(biāo)準(zhǔn)的時期。判斷題最基本的時間序列是以時間戳為索引的對象。()如果相同頻率的兩個Period對象進行數(shù)學(xué)運算,那么計算結(jié)果為它們的單位數(shù)量。()任何類型的pandas對象都可以進行重采樣。()DatetimeIndex是由一組時間戳組成的索引。()降采樣時可能會導(dǎo)致一些時間戳沒有對應(yīng)的數(shù)據(jù)。()選擇題下列選項中,不能用作pandas對象索引的是()。PeriodDatetimeIndexPeriodIndexMultiIndex請閱讀下面一段程序:importpandasaspdperiod1=pd.Period('2015/6/1')print(period1+50)執(zhí)行上述程序,最終輸出的結(jié)果為()。2015-07-182015-07-192015-07-202015-07-21請閱讀下面一段程序:importpandasaspdimportnumpyasnpdate_index=pd.date_range(start="2018/08/10",periods=5)date_se=pd.Series(np.arange(5),index=date_index)sorted_se=date_se.sort_index()print(sorted_se.truncate(after='2018-8-11'))執(zhí)行上述程序,最終輸出的結(jié)果為()。2018-08-1222018-08-1332018-08-1222018-08-1332018-08-1442018-08-1002018-08-1112018-08-1222018-08-1002018-08-111下列函數(shù)中,創(chuàng)建DatetimeIndex對象有固定頻率的是()。shift()date_range()period_range()asfreq()關(guān)于重采樣的說法中,下列描述錯誤的是()。重采樣是將時間序列從一個頻率轉(zhuǎn)到另一個頻率升采樣的時間顆粒是變小的時間序列數(shù)據(jù)在降采樣時,總體的數(shù)據(jù)量是增加的時間序列數(shù)據(jù)在降采樣時,總體的數(shù)據(jù)量是減少的簡答題簡述時間戳、時間差和時期。簡述降采樣和升采樣。程序分析題閱讀下面的程序,分析代碼是否能夠編譯通過。如果能編譯成功,請列出運行的結(jié)果,否則請說明編譯失敗的原因。代碼一:importpandasaspddate_index=pd.date_range('2018/08/10')ser_obj=pd.Series(11,date_index)print(ser_obj)代碼二:importpandasaspdperiod1=pd.Period('2017/1')period2=pd.Period('2017/6')print(period2-period1)代碼三:date_index=pd.date_range('2018/09/10','2018/09/13')ser_obj=pd.Series(11,date_index)ser_obj['2018\09\12']文本數(shù)據(jù)分析填空題詞形歸一化包括詞干提取和________,它們會將派生詞轉(zhuǎn)化為基本形式。________是指為單詞標(biāo)注一個正確的詞性。________是在處理自然語言文本之前或之后會自動過濾掉的沒有具體意義的字或詞。________是一套基于Python的自然語言處理工具包。jieba庫支持________模式、全模式、搜索引擎模式共三種分詞模式。判斷題在對文本數(shù)據(jù)進行分析之前不需要進行任何處理。()文本分詞的目的在于使用單詞來表示文本特征。()停用詞表中可以隨意添加任何詞。()詞干提取和詞性還原的作用完全相同。()jieba庫只能用于中文分詞。()選擇題下列選項中,關(guān)于NLTK庫的描述錯誤的是()。NLTK擅長處理英文文本NLTK包括分詞、詞性標(biāo)注、命名實體識別及句法分析等功能NLTK是一個免費的、開源的庫NLTK庫安裝完成后會自動下載語料庫下列選項中,屬于英文文本預(yù)處理流程的是()。(多選)分詞詞性標(biāo)注詞性歸一化刪除停用詞下列選項中,不屬于jieba庫支持的分詞模式的是()。精確模式全模式搜索引擎模式繁體分詞模式請閱讀下面一段程序:fromnltk.corpusimportstopwordsimportnltksentence='Lifeisshort,youneedPython.'words=nltk.word_tokenize(sentence)stop_words=stopwords.words('english')remain_words=[]forwordinwords: ifwordnotinstop_words: remain_words.append(word)print(remain_words)執(zhí)行上述程序,最終輸出的結(jié)果為()。['Life','short',',','need','Python','.']['Life','short','need','Python',]['Life','is','short',',','need','Python','.']['Life','s

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論