2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案_第1頁
2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案_第2頁
2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案_第3頁
2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案_第4頁
2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024秋新廣東開放大學(xué)《數(shù)據(jù)采集與管理(本專)》形考作業(yè)試題題庫、期末復(fù)習(xí)資料題庫及答案

數(shù)據(jù)采集與管理(本專)學(xué)校:無問題1:1.增量式爬蟲的主要目標(biāo)有:()。選項(xiàng):A.對以后的抓取過程給出反饋和指導(dǎo)B.過濾與主題無關(guān)的鏈接C.過濾與主題無關(guān)的鏈接D.提高本地頁面集中頁面的質(zhì)量答案:問題2:2.以下關(guān)于網(wǎng)絡(luò)爬蟲的說法,正確的有()。選項(xiàng):A.被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式B.網(wǎng)絡(luò)爬蟲不需要遵守任何限制C.實(shí)際上是一種"自動化瀏覽網(wǎng)絡(luò)”的程序D.可以自動采集所有其能夠訪問到的頁面內(nèi)容答案:問題3:3.Web頁面按存在方式可以分為()選項(xiàng):A.深層網(wǎng)頁B.表層網(wǎng)頁C.通用網(wǎng)頁D.主題網(wǎng)頁答案:問題4:4.在不確定性方面,()等方面是數(shù)據(jù)管理的重要要求和挑戰(zhàn)。選項(xiàng):A.消除某些數(shù)據(jù)的錯(cuò)誤B.分辨數(shù)據(jù)真?zhèn)蜟.采集大量數(shù)據(jù)D.追求高數(shù)據(jù)質(zhì)量答案:問題5:5.增量式爬蟲中的()指的是:爬蟲根據(jù)網(wǎng)頁改變頻率將其分為更新較快網(wǎng)頁子集和更新較慢網(wǎng)頁子集兩類,然后以不同的頻率訪問這兩類網(wǎng)頁。選項(xiàng):A.隨機(jī)更新法B.基于分類的更新法C.統(tǒng)一更新法D.個(gè)體更新法答案:問題6:6.()只會在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁面,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,及時(shí)更新已爬行的網(wǎng)頁,減小時(shí)間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。選項(xiàng):A.聚焦網(wǎng)絡(luò)爬蟲B.深層網(wǎng)絡(luò)爬蟲C.增量式網(wǎng)絡(luò)爬蟲D.通用網(wǎng)絡(luò)爬蟲答案:問題7:7.DeepWeb爬蟲體系結(jié)構(gòu)中的LVS用于()。選項(xiàng):A.初始URL集合B.待爬行URL集C.表示填充表單的數(shù)據(jù)源D.本地頁面URL集答案問題8:8.()的基本方法是按照深度由低到高的順序,依次訪問下一級網(wǎng)頁鏈接,直到不能再深入為止。選項(xiàng):A.PageRank優(yōu)先策略B.隨機(jī)爬行策略C.廣度優(yōu)先策略D.深度優(yōu)先策略答案問題9:9.深度優(yōu)先策略的基本方法是按照深度由低到高的順序,依次訪問下一級網(wǎng)頁鏈接。選項(xiàng):答案問題10:10.網(wǎng)絡(luò)爬蟲可以抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源。選項(xiàng):答案問題11:11.網(wǎng)絡(luò)爬蟲總是要從某個(gè)起點(diǎn)開始爬,這個(gè)起點(diǎn)叫做種子。選項(xiàng):答案問題12:12.網(wǎng)絡(luò)爬蟲的廣泛應(yīng)用可能造成個(gè)人隱私泄露。選項(xiàng):答案問題13:13.聚焦網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲。選項(xiàng):答案問題14:14.廣度優(yōu)先策略能夠有效控制頁面的爬行深度。選項(xiàng):答案問題15:15.深層網(wǎng)頁(DeepWeb)的內(nèi)容課通過靜態(tài)鏈接獲取。選項(xiàng):答案問題16:16.深層網(wǎng)絡(luò)爬蟲的LVS表是一個(gè)URL列表。選項(xiàng):答案問題17:17.增量式爬蟲不需要對網(wǎng)頁的重要性排序。選項(xiàng):答案問題18:18.聚焦網(wǎng)絡(luò)爬蟲數(shù)量非常多,頁面更新慢。選項(xiàng):答案問題19:19.網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。選項(xiàng):答案問題20:20.增量式網(wǎng)絡(luò)爬蟲只會在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁面。選項(xiàng):答案問題21:21.聚焦爬蟲需要先對抓取目標(biāo)的描述或定義。選項(xiàng):答案問題22:22.如果要采集指定的數(shù)據(jù),則需要使用到通用爬蟲。選項(xiàng):答案問題23:23.網(wǎng)絡(luò)數(shù)據(jù)采集不能處理非結(jié)構(gòu)化數(shù)據(jù)。選項(xiàng):答案問題24:24.現(xiàn)有聚焦爬蟲對抓取目標(biāo)的描述只包括基于目標(biāo)網(wǎng)頁特征這種方式。選項(xiàng):答案問題25:25.通用網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁時(shí),不斷刷新頁面。選項(xiàng):答案問題26:26.通用網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁時(shí),由于待刷新的頁面太多,需要較長時(shí)間才能刷新一次頁面。選項(xiàng):答案問題27:27.聚焦網(wǎng)絡(luò)爬蟲需要對網(wǎng)頁或數(shù)據(jù)的分析與過濾。選項(xiàng):答案問題28:28.深度優(yōu)先的爬行策略按照深度逐層爬行頁面,所有鏈接遍歷完后,爬行任務(wù)結(jié)束。選項(xiàng):答案問題29:1.在HTTP響應(yīng)信息中,若狀態(tài)信息碼是404則表示()。選項(xiàng):A.沒有找到請求的頁面B.登錄失敗C.訪問被禁止D.所請求的頁面已經(jīng)轉(zhuǎn)移至新的url答案問題30:2.HTTP請求的響應(yīng)狀態(tài)碼為403表示()。選項(xiàng):A.請求成功B.服務(wù)器忙C.對被請求頁面的訪問被禁止D.服務(wù)器連接超時(shí)答案問題31:3.以下關(guān)于HTTP請求方法GET的說法,正確的是()。選項(xiàng):A.請求獲取Request-URI所標(biāo)識的資源B.請求服務(wù)器回送收到的請求信息C.請求查詢服務(wù)器的性能D.請求服務(wù)器刪除Request-URI所標(biāo)識的資源答案問題32:4.HTTP請求中的()方法用于請求服務(wù)器回送收到的請求信息,主要用于測試或診斷。選項(xiàng):A.PUTB.DELETEC.GETD.TRACE答案問題33:5.HTTP請求中的()方法要求被請求服務(wù)器接受附在請求后面的數(shù)據(jù),常用于提交表單。選項(xiàng):A.POSTB.GETC.PUTD.TRACE答案問題34:6.通過HTTP或者HTTPS協(xié)議請求的資源由()來標(biāo)識。選項(xiàng):A.URLB.HTMLC.TCPD.FTP答案問題35:7.HTTP請求頭中()域的內(nèi)容包含發(fā)出請求的用戶信息,例如使用的客戶端名稱和版本號等。選項(xiàng):A.HostB.RefererC.User-AgentD.Cookie答案問題36:8.HTTP響應(yīng)中的()表示瀏覽器應(yīng)該在多少秒之后刷新文檔。選項(xiàng):A.ConnectionB.WWW-AuthenticateC.LocationD.Refresh答案問題37:9.以下哪個(gè)HTTP響應(yīng)狀態(tài)表示客戶端錯(cuò)誤()。選項(xiàng):A.403B.300C.500D.200答案問題38:10.以下不屬于HTTP協(xié)議的主要特點(diǎn)的是()。選項(xiàng):A.支持基本認(rèn)證和安全認(rèn)證B.簡單快速C.支持客戶/服務(wù)器模式D.有狀態(tài)答案問題39:11.HTTP請求中的Cookie表示客戶端類型。選項(xiàng):答案問題40:12.HTTP狀態(tài)碼400表示請求成功。。選項(xiàng):答案問題41:13.HTTP請求的PUT方法請求服務(wù)器回送收到的請求信息,主要用于測試或診斷。選項(xiàng):答案問題42:14.HTTP請求中Referer頭域的內(nèi)容包含發(fā)出請求的用戶信息。選項(xiàng):答案問題43:15.HTTP響應(yīng)中的Content-Type默認(rèn)為text/html。選項(xiàng):答案問題44:16.HTTP是一個(gè)客戶端和服務(wù)器端請求和應(yīng)答的標(biāo)準(zhǔn)。選項(xiàng):答案問題45:17.HTTP響應(yīng)中的Content-Type可以指定為text/html。選項(xiàng):答案問題46:18.GET方法可以在Request-URI所標(biāo)識的資源后附加新的數(shù)據(jù)。選項(xiàng):答案問題47:19.HTTP響應(yīng)中的Content-Type不能指定為其他值。選項(xiàng):答案問題48:20.大數(shù)據(jù)的應(yīng)用注重相關(guān)分析而不是因果分析。選項(xiàng):答案問題49:21.HTTP響應(yīng)中的Content-Range用于指定整個(gè)實(shí)體中的一部分的插入位置,也指示了整個(gè)實(shí)體的長度。選項(xiàng):答案問題50:22.TRACE方法請求服務(wù)器刪除Request-URI所標(biāo)識的資源。選項(xiàng):答案問題51:23.HTTP協(xié)議是無狀態(tài)協(xié)議。選項(xiàng):答案問題52:24.要消除某些數(shù)據(jù)的不可預(yù)測性,去掉一些“雜亂”的“臟”數(shù)據(jù),就涉及到數(shù)據(jù)清洗(DataCleaning)技術(shù)。選項(xiàng):答案問題53:25.數(shù)據(jù)都是連續(xù)的值。選項(xiàng):答案問題54:26.可以通過POST方法請求查詢服務(wù)器的性能,或者查詢與資源相關(guān)的選項(xiàng)和需求。選項(xiàng):答案問題55:27.GET提交的數(shù)據(jù)會放在URL之后,以?分割URL和傳輸數(shù)據(jù)。選項(xiàng):答案問題56:28.如果請求的uri沒有自己的uri地址,Referer不能被發(fā)送。選項(xiàng):答案問題57:29.大數(shù)據(jù)是信息技術(shù)領(lǐng)域的又一創(chuàng)新浪潮,改變著人們的生活與工作方式與企業(yè)的運(yùn)作模式。選項(xiàng):答案問題58:30.GET方法請求服務(wù)器刪除Request-URI所標(biāo)識的資源。選項(xiàng):答案問題59:31.以下屬于HTTP的請求頭域可能包含的字段有()。選項(xiàng):A.User-AgentB.RefererC.HostD.Range答案問題60:32.大數(shù)據(jù)采集的方式包括()。選項(xiàng):A.使用特定系統(tǒng)接口對接數(shù)據(jù)庫B.手工記錄C.系統(tǒng)日志D.網(wǎng)絡(luò)數(shù)據(jù)采集答案問題61:33.http的請求方法的GET方法的說法,正確的有()。選項(xiàng):A.GET提交的數(shù)據(jù)大小有限制B.GET提交的數(shù)據(jù)以明文發(fā)送C.使用Request.QueryString來取得變量的值D.GET提交的數(shù)據(jù)大小沒有限制答案問題62:34.http的請求方法包括()。選項(xiàng):A.HEADB.POSTC.TRACED.GET答案問題63:35.HTTP協(xié)議是無狀態(tài)協(xié)議,以下說法正確的是()。選項(xiàng):A.無狀態(tài)是指協(xié)議對于事務(wù)處理沒有記憶能力B.缺少狀態(tài)意味著如果后續(xù)處理需要前面的信息,則它必須重傳,這樣可能導(dǎo)致每次連接傳送的數(shù)據(jù)量增大C.在設(shè)計(jì)HTTP協(xié)議時(shí)規(guī)定Web服務(wù)器發(fā)送HTTP應(yīng)答報(bào)文和文檔時(shí),不保存發(fā)出請求的Web瀏覽器進(jìn)程的任何狀態(tài)信息D.Web服務(wù)器保存發(fā)送請求的Web瀏覽器進(jìn)程的狀態(tài)信息答案問題64:1.字符串“aaa”可以匹配正則表達(dá)式“\w{3,}”。選項(xiàng):答案問題65:2.正則表達(dá)式的量詞+表示0次或多次。選項(xiàng):答案問題66:3.正則表達(dá)式支持匹配邊界,例如單詞邊界,文本的開頭或末尾。選項(xiàng):答案問題67:4.正則表達(dá)式中的饑餓模式匹配盡可能少的文本。選項(xiàng):答案問題68:5.正則表達(dá)式[abc]表示字符a或b或c。選項(xiàng):答案問題69:6.數(shù)據(jù)的時(shí)效性指的是數(shù)據(jù)在需要的時(shí)侯是否有效。選項(xiàng):答案問題70:7.數(shù)據(jù)的完整性指的是所有需要的數(shù)據(jù)是否都存在。選項(xiàng):答案問題71:8.數(shù)據(jù)質(zhì)量具體表現(xiàn)為正確性、完整性、一致性、完備性、有效性、時(shí)效性和可獲取性等。選項(xiàng):答案問題72:9.數(shù)據(jù)預(yù)處理時(shí)可能要先驗(yàn)證數(shù)據(jù)正確性。選項(xiàng):答案問題73:10.數(shù)據(jù)刷新的策略要根據(jù)業(yè)務(wù)需求和應(yīng)用系統(tǒng)的承受能力和數(shù)據(jù)情況決定。選項(xiàng):答案問題74:11.錯(cuò)誤的數(shù)據(jù)就是指不完整的數(shù)據(jù)。選項(xiàng):答案問題75:12.不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。選項(xiàng):答案問題76:13.不同的企業(yè)有不同的業(yè)務(wù)規(guī)則、不同的數(shù)據(jù)指標(biāo),這些指標(biāo)通過簡單的加減、組合就能完成。選項(xiàng):答案問題77:14.進(jìn)行數(shù)據(jù)預(yù)處理時(shí),使用ETL工具比手工處理更高效。選項(xiàng):答案問題78:15.一般來說使用數(shù)據(jù)抽取和轉(zhuǎn)換都用手工的方式完成。選項(xiàng):答案問題79:16.正則表達(dá)式的規(guī)則中,x|y表示匹配()選項(xiàng):A.x或yB.x和yC.x+yD.xy答案問題80:17.以下不能匹配正則表達(dá)式"^[\w]+$"的是()。選項(xiàng):A.S1B.12C.S_1D.S+1答案問題81:18.正則表達(dá)式中的量詞可以匹配一個(gè)表達(dá)式多次出現(xiàn),其中()表示0次或多次。選項(xiàng):A.?B.*C.^D.+答案問題82:19.以下能匹配正則表達(dá)式"^[A-Za-z]+$"的是()。選項(xiàng):A.abcB.3C.33D.a3答案問題83:20.重疊合并數(shù)據(jù)時(shí),使用哪個(gè)pandas庫的方法?選項(xiàng):A.merge()B.join()C.combine_first()D.concat()答案問題84:21.數(shù)據(jù)質(zhì)量的正確性指的是()。選項(xiàng):A.數(shù)據(jù)是否正確的表示了現(xiàn)實(shí)或可證實(shí)的來源B.數(shù)據(jù)之間的參照完整性是否存在或一致C.數(shù)據(jù)是否被一致的定義或理解D.所有需要的數(shù)據(jù)都存在答案問題85:22.主鍵合并數(shù)據(jù)時(shí),使用哪個(gè)pandas庫的方法?選項(xiàng):A.merge()B.join()C.combine_first()D.concat()答案問題86:23.對于重要信息的完整歷史變更記錄,在抽取需要信息等基本屬性的舊有數(shù)據(jù)時(shí),可以根據(jù)各時(shí)期的歷史信息,與相應(yīng)時(shí)段的信息關(guān)聯(lián)得到真實(shí)的歷史屬性,這是()。選項(xiàng):A.數(shù)據(jù)的平臺多樣性問題B.數(shù)據(jù)的依賴性問題C.數(shù)據(jù)的不穩(wěn)定性問題D.數(shù)據(jù)的時(shí)間差異性問題答案問題87:24.在merge()方法中,on參數(shù)用于指定什么?選項(xiàng):A.合并的方向B.用于連接的列標(biāo)簽C.合并的方式D.合并的結(jié)果答案問題88:25.數(shù)據(jù)質(zhì)量的可獲取性指的是()。選項(xiàng):A.數(shù)據(jù)是否在企業(yè)定義的可接受的范圍之內(nèi)B.數(shù)據(jù)在需要的時(shí)侯是有效的嗎C.數(shù)據(jù)是否易于獲取、易于理解和易于使用D.數(shù)據(jù)是否被一致的定義或理解答案問題89:1.Python具有跨平臺的特性。選項(xiàng):答案問題90:2.不能將Python嵌入到C/C++等其他語言編寫的程序選項(xiàng):答案問題91:3.Python目前的最新的通用版本是Python3.x。選項(xiàng):答案問題92:4.Python是開源的。選項(xiàng):答案問題93:5.Python是一種冷門的語言。選項(xiàng):答案問題94:6.Python開發(fā)的程序不能被移植到其他平臺。選項(xiàng):答案問題95:7.Python的源代碼容易閱讀,維護(hù)相對容易。選項(xiàng):答案問題96:8.Python目前的最新的通用版本是Python2.x。選項(xiàng):答案問題97:9.Python不支持在Windows下運(yùn)行。選項(xiàng):答案問題98:10.Python是解釋型的語言。選項(xiàng):答案問題99:11.Python開發(fā)的程序可被移植到多種平臺。選項(xiàng):答案問題100:12.Python具有易于學(xué)習(xí)的優(yōu)點(diǎn)。選項(xiàng):答案問題101:13.Python不能聯(lián)結(jié)其他語言編寫的模塊。選項(xiàng):答案問題102:14.Python是編譯型的語言。選項(xiàng):答案問題103:15.Python的源代碼不容易閱讀,不容易維護(hù)。選項(xiàng):答案問題104:16.DataFrame對象排序時(shí)的參數(shù)inplace=False表示()。選項(xiàng):A.升序排列B.操作直接在原數(shù)據(jù)上操作C.當(dāng)前操作不會改變原數(shù)據(jù)D.降序排列答案問題105:17.DataFrame對象可以通過()方法刪除相應(yīng)的行或者列。選項(xiàng):A.sortB.insertC.dropD.append答案問題106:18.importpandasaspd這個(gè)語句用于()。選項(xiàng):A.刪除pandas包B.重啟服務(wù)器C.導(dǎo)入pd包D.導(dǎo)入pandas包答案問題107:19.DataFrame對象可以進(jìn)行的操作是()。選項(xiàng):A.其余均是B.添加數(shù)據(jù)C.把數(shù)據(jù)排序D.刪除數(shù)據(jù)答案問題108:20.DataFrame對象的insert方法用于()。選項(xiàng):A.增加數(shù)據(jù)B.新建對象C.刪除數(shù)據(jù)D.排序答案問題109:21.對Series對象進(jìn)行切片索引時(shí),()。選項(xiàng):A.只可以使用值進(jìn)行切片索引B.只可以使用下標(biāo)來進(jìn)行切片索引C.只可以使用標(biāo)簽進(jìn)行切片索引D.既可以使用標(biāo)簽進(jìn)行切片索引,也可以使用下標(biāo)來進(jìn)行切片索引答案問題110:22.[1]是Series的第()個(gè)元素。選項(xiàng):A.3B.1C.最后一個(gè)D.2答案問題111:23.讀取CSV文件可以使用DataFrame的()方法。選項(xiàng):A.read_excelB.read_csvC.read_sqlD.read_json答案問題112:24.堆疊合并操作可以通過pandas庫的()方法完成。。選項(xiàng):A.concat()B.append()C.drop()D.insert()答案問題113:25.Series對象可以通過()方法刪除相應(yīng)的元素值。選項(xiàng):A.appendB.dropC.sortD.insert答案問題114:26.Python語句:“df[df['豆瓣評分']>10]”可以輸出()。選項(xiàng):A.篩選出空的值B.篩選出評分大于10的值C.篩選出評分等于10的值D.篩選出評分小于10的值答案問題115:27.將數(shù)據(jù)寫入csv文件可以使用Dat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論