大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第1頁
大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第2頁
大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第3頁
大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案章節(jié)答案2024年山東交通學院_第4頁
免費預覽已結束,剩余5頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)采集與存儲智慧樹知到期末考試答案+章節(jié)答案2024年山東交通學院SELECT*FROMtable只查詢了表中的一個列。()

答案:錯域名和IP地址是等價的,都是唯一的表示網絡中的一臺主機的。()

答案:對列族數(shù)據(jù)庫,采用面向列的存儲模式,整個數(shù)據(jù)庫由多行組成,每行包含多個列族,不同的行列族不同。()

答案:對缺失值表示的是“缺失的數(shù)據(jù)“,可能因為機械原因或者人為原因造成的數(shù)據(jù)缺失。()

答案:對MongoDB中,每個文檔都有一個類似關系型數(shù)據(jù)庫主鍵標識的_id字段來標識此條文檔,如果沒有設定文檔記錄的_id值,則通過ObjectId來生成_id。()

答案:對MongoDB查詢時,只能返回全部字段,不能返回某些指定字段。()

答案:錯設某網頁解析后的BeautifulSoup對象soup中有多個標簽<li>,則soup.findAll("li")返回的是該網頁中所有的標簽<li>組成的列表。()

答案:對如果一個網站沒有發(fā)布自己的robots協(xié)議,或者robots協(xié)議的內容為空,說明它允許所有的爬蟲來爬取數(shù)據(jù).。()

答案:對https是超文本傳輸安全協(xié)議,它是在http協(xié)議的基礎上,增加了加密協(xié)議,能實現(xiàn)數(shù)據(jù)的加密傳輸,安全性更好。()

答案:對物聯(lián)網數(shù)據(jù)的特點有數(shù)據(jù)量大、更新快、數(shù)據(jù)價值低。()

答案:對WHERE條件中出現(xiàn)LIKE'_A%',下面哪一個結果是可以被檢索出來的()。

答案:BAI大數(shù)據(jù)采集的數(shù)據(jù)有()

答案:非結構化數(shù)據(jù);結構化數(shù)據(jù);半結構化數(shù)據(jù)爬蟲的一般思路為()

答案:獲取網頁;保存數(shù)據(jù);解析網頁;提取數(shù)據(jù)MongoDB數(shù)據(jù)庫存儲的基本單元為()

答案:文檔關系模型是用()結構來描述數(shù)據(jù)間的聯(lián)系。

答案:二維表網站反爬蟲的手段有()

答案:通過User-Agent校驗反爬;通過驗證碼校驗反爬;通過訪問頻率反爬;通過賬號權限反爬下面不屬于MongoDB應用場景的是()

答案:支持嚴格事務的場景下面關于數(shù)據(jù)集成,說法錯誤的是()

答案:在數(shù)據(jù)集成中,不需要考慮數(shù)據(jù)的度量單位不一致問題。在k12日志處理案例中,根據(jù)課程難度劃分等級,1-2為初級3-5為中級6-7為高級。下面關于Kettle中的數(shù)據(jù)轉換功能中,()能實現(xiàn)課程難度到等級的轉換。

答案:范圍歸類一名學生的信息在關系型數(shù)據(jù)庫中就對應著表中的一行,而MongoDB以文檔為單位存儲數(shù)據(jù),一名學生的信息就是一個()

答案:文檔在數(shù)據(jù)變換中,以下不能夠進行平滑處理的是()

答案:分類法下列關于MongoDB數(shù)據(jù)庫,描述錯誤的是()

答案:MongoDB字段值可以是數(shù)組及文檔數(shù)組,但是不能包含其他文檔用BeautifulSoup類的方法可以獲取該網頁內容對應的BeautifulSoup類型的標簽樹,從而根據(jù)標簽進一步獲取內容。以下語句中,第一個參數(shù)htmlText是()soup=BeautifulSoup(htmlText,'html.parser')()

答案:從爬取的網頁對象中獲取的網頁源碼字符串將“選課”表中的1002號課(CHAR(4)類型)的所有成績(INTEGER類型)提高10分,正確的SQL語句是()。

答案:UPDATE選課SET成績=成績+10WHERE課號=‘1002’;在SQL語句中,對輸出結果排序的語句是()。

答案:ORDERBY智能路燈數(shù)據(jù)屬于()

答案:物聯(lián)網數(shù)據(jù)如果一個字段的數(shù)據(jù)必須來源于另一個表的主鍵,那么需要在這個字段上建立()。

答案:外鍵在MongoDB中,查詢已修學分大于20的文檔正確的指令為()

答案:.find({xf:{$gt:20}})MongoDB中,使用()方法對數(shù)據(jù)進行排序

答案:sort()在MongoDB中,返回info集合中的前三條信息正確的指令為()

答案:.find().limit(3)Kettle提供的工作流(job)可以實現(xiàn)一系列的數(shù)據(jù)輸入、清洗、格式轉換等數(shù)據(jù)處理,但需要編寫相應的程序來配合實現(xiàn)。()

答案:錯在網絡爬取過程中,用requests.get()函數(shù)爬取網頁時,通過設置headers這個字段,可以模擬一個瀏覽器向url指定的服務器發(fā)起訪問從而避免被網站的“反爬”程序識別出來。()

答案:對可以通過try-except處理爬取網頁過程中可能出現(xiàn)的異常。()

答案:對內連接查詢INNERJOIN可以獲得兩個表中連接字段值相等的所有記錄。()。

答案:對設r=requests.get(url),則r.apparent_encoding比r.encoding能更準確的表示網頁的編碼方式。當網頁出現(xiàn)亂碼時,執(zhí)行r.encoding=r.apparent_encoding,即可有效解決。()

答案:對用kettle進行數(shù)據(jù)替換時,比如將0替換成男、1替換成女,可以設置不匹配時的默認值,從而在替換后確保沒有空值。()

答案:對Spoon是構建ETLJobs和Transformations的工具。()

答案:對用BeautifulSoup庫可以解析網頁,將HTML文件的內容轉換為BeautifulSoup對象,實際上是將HTML文件轉換為標簽樹。()

答案:對可以使用MongoDB存儲游戲用戶信息,用戶的裝備、積分等直接以內嵌文檔的形式存儲,方便查詢、更新。()

答案:對搜索引擎和爬蟲的功能是完全相同的,前者是正式的名稱,后者是通俗的名稱。()

答案:錯所有的網站都有robots協(xié)議。()

答案:錯在數(shù)據(jù)清洗中,重復值都是采用刪除處理。()

答案:錯在一個關系中,若某一個屬性(或屬性集)的值可唯一地表示每一個元組,即其值對不同的元組是不同的,這樣的屬性集合稱為侯選建。()

答案:對在關系數(shù)據(jù)庫中,一個關系對應一張二維表。()

答案:對主鍵不能成為另一個關系的外鍵。()。

答案:錯可以使用下列那種方式填充缺失值()

答案:利用平均值或者中位數(shù)填充缺失值。;利用臨近值填充缺失值。;人工填充缺失值。;利用缺省值填充缺失值。MongoDB索引類型包括()

答案:哈希索引和地理空間索引;多鍵索引和文本索引;單鍵索引和復合索引MongoDB中的()類似于關系型數(shù)據(jù)庫的行

答案:文檔下列屬性關系型數(shù)據(jù)庫的是()

答案:MySQL;Oracle;達夢數(shù)據(jù)庫管理系統(tǒng)下面編寫爬蟲需要的相關知識為()

答案:BeautifulSoup;Requests;HtmlHive能夠將HQL語句轉換為一系列()任務來執(zhí)行。

答案:MapReduce鍵值數(shù)據(jù)庫包括()

答案:Memcached;Redis;Riak1、用BeautifulSoup類的方法可以獲取該網頁內容對應的BeautifulSoup類型的標簽樹,從而根據(jù)標簽進一步獲取內容。以下語句中,第二個參數(shù)html.parser是(

)soup=BeautifulSoup(htmlText,'html.parser')

答案:Html網頁的解析器假設學生關系S(S#,SNAME,SEX),課程關系C(C#,CNAME),學生選課關系SC(S#,C#,GRADE)。要查詢選修“Computer”課程的男生姓名,將涉及到關系()。

答案:S,C,SC關于關系模型完整性的說法,不正確的是()。

答案:外鍵如果取空值,則違反了參照完整性已知如下關系:學生Student(S#,Sname),課程Course(C#,Cname,T#),選課SC(S#,C#,Score),教師T(T#,Tname)。其中S#為學號,Sname為學生命名,C#為課號,Cname為課程名,T#為教師編號,Score為成績,Tname為教師名。閱讀SQL語句:SELECTSnameFROMStudent,SC,CourseWHEREStudent.S#=SC.S#ANDCourse.C#=SC.C#ANDT#=‘T01’ANDScore<60;關于其查詢結果,下列說法正確的是()。

答案:學習T01號教師講授課程不及格的所有學生的姓名在表或視圖上執(zhí)行除了()以外的語句都可以激活觸發(fā)器。

答案:CREATE大數(shù)據(jù)中日志文件如何采集()

答案:使用海量數(shù)據(jù)采集工具用于對系統(tǒng)日志的采集,比如Facebook公司的Scribe,Hadoop平臺的Chukwa,Cloudera公司的Flume。在數(shù)據(jù)預處理中,()可以將數(shù)據(jù)屬性的連續(xù)值離散化為區(qū)間值或者概念值,也就是將連續(xù)值劃分為若干區(qū)間,再將每個小區(qū)間重新定義一個唯一的取值。

答案:數(shù)據(jù)離散化可以使用()語言操作MongoDB

答案:其余選項都可以下面不屬于MongoDB中索引類型的是()

答案:雙建索引某關系R的外鍵是指()。

答案:其它關系的候選鍵,可以是R中的主屬性或非主屬性爬蟲可能突破簡單的密碼設置等訪問控制,訪問人類不容易瀏覽到的數(shù)據(jù)。這將會引發(fā)()問題。

答案:個人隱私問題下面引用BeautifulSoup庫正確的寫法是()

答案:frombs4importBeautifulSoupMongoDB中主鍵的默認格式是()

答案:ObjectId數(shù)值在[0-100]之間,最小值為0,最大值為100。按照等頻劃分,則該區(qū)間被劃分為[0-45],[46-80],[81-100],重新定義區(qū)間值為0,1,2,給定數(shù)值50,離散化的值是()

答案:1在數(shù)據(jù)集成過程中,實體識別問題指的是()

答案:來自不同數(shù)據(jù)源的等價實體是如何進行匹配的在MongoDB中,刪除所有姓名為mark的文檔正確的指令為()

答案:.deleteMany({xm:"mark"})以下那項不屬于數(shù)據(jù)質量的內容()

答案:數(shù)據(jù)可靠性SQL語言中,下列涉及空值的操作,不正確的是()。。

答案:AGE=NULL(

)發(fā)表論文提出了關系數(shù)據(jù)庫的理論。

答案:E.F.Codd用Kettle輸入文件時,可設置通配符表示某一類文件。下面文件中與通配符k12*.txt不匹配的是()

答案:k13.txt關于傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別,說法錯誤的是()

答案:大數(shù)據(jù)采集后的數(shù)據(jù)只能采用關系型數(shù)據(jù)庫存儲在MongoDB使用insertMany()方法插入多條文檔時,如果某條數(shù)據(jù)插入失敗()

答案:終止插入,但已經插入成功的數(shù)據(jù)不會回滾掉查找集合中的數(shù)據(jù),使用()方法。

答案:find方法開發(fā)者工具中Network標簽包括()

答案:控制器;概覽;過濾器;請求列表;概要不同的關系型數(shù)據(jù)庫管理系統(tǒng),使用的SQL標準不一樣。()

答案:錯在本案例中,數(shù)據(jù)采集是通過()獲取。

答案:網絡爬蟲在數(shù)據(jù)采集后,python中使用()庫把數(shù)據(jù)存儲到csv文件中。

答案:csv庫在數(shù)據(jù)清洗中,“輸入”功能主要是實現(xiàn)ETL的數(shù)據(jù)抽取、加載、格式轉換。()

答案:錯kettle中的以下組件中,屬于基本數(shù)據(jù)清洗的是()

答案:連接字段;刪除數(shù)據(jù);數(shù)據(jù)排序;數(shù)據(jù)替換Kettle讓我們在可視化的界面中,通過拖拽實現(xiàn)數(shù)據(jù)處理。無需掌握復雜的編程技術也可以幫助我們完成數(shù)據(jù)的ETL處理。()

答案:對Kettle能夠支持多種格式的數(shù)據(jù)輸出,但不支持下面()文件格式。

答案:wordKettle是一種常用的ETL工具,它支持圖形化的GUI設計界面。()

答案:對Kettle中的job作業(yè)是指定時完成一系列指定的數(shù)據(jù)轉換,并將結果以郵件的方式告知給我們。()

答案:對任何網站都有自己的Robots協(xié)議,用來保護網站的信息不會被惡意訪問。()

答案:錯HTML語言使用“標簽對”來標記信息。其中,<html>……</html>標記一個HTML文件中標題的開始和結束。()

答案:錯以下程序段的運行結果是frombs4importBeautifulSouphtmlText='<p>解析頁面</p>'soup=BeautifulSoup(htmlText,'html.parser')print(soup.p)()

答案:<p>解析頁面</p>爬蟲就是能夠實現(xiàn)網頁數(shù)據(jù)爬取的程序。()

答案:對如果有網絡爬蟲頻繁的訪問服務器,則容易引發(fā)()問題。

答案:網站的性能下降Python中提供的requests庫的get()方法能夠實現(xiàn)爬取網頁信息的功能。()

答案:對在使用requests庫獲取網頁資源過程中,最重要的兩個對象就是Request和Response,()負責將客戶端的請求發(fā)送給服務器。

答案:Request在數(shù)據(jù)離散化中,常見的離散化方法有()

答案:基于熵的離散化;等頻劃分;基于卡方分箱的方法;聚類劃分;等寬劃分數(shù)據(jù)清洗時重復值數(shù)據(jù)不能夠刪除。()

答案:錯大數(shù)據(jù)采集,又稱大數(shù)據(jù)獲取,是指從()等獲取數(shù)據(jù)的過程。

答案:傳感器;其它智能設備;企業(yè)系統(tǒng);社交網絡數(shù)據(jù)完整性指的是數(shù)據(jù)具有一個實體描述的所有必需的部分。()

答案:對在大數(shù)據(jù)預處理中,需要數(shù)據(jù)清洗的主要類型包括以下幾類()

答案:缺失值數(shù)據(jù);重復值數(shù)據(jù);異常值數(shù)據(jù)網絡爬蟲的步驟是1)選取一部分種子URL;2)從待抓取URL隊列中取出待抓取的URL,解析DNS,得到主機的IP地址,并將URL對應的網頁下載下來,存儲到已下載網頁庫中。此外,將這些URL放進已抓取URL隊列;3)將這些URL放到待抓取URL中;4)分析已抓取URL隊列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊列,從而進入下一個循環(huán)。()

答案:1)3)2)4)查看當前正在使用的數(shù)據(jù)庫命令()

答案:dbMongoDB是一個開源、高性能、無模式的文檔型數(shù)據(jù)庫。()

答案:對關系型數(shù)據(jù)庫遵循BASE和CAP理論。()

答案:錯MongoDB通過()來描述和存放數(shù)據(jù)。

答案:BSONMongoDB中,用戶可以將_id字段上的索引刪除。()

答案:錯查找kate同學的專業(yè),使用指令()完成。

答案:.find({'xm':'kate'},{zy:1})在下列關于視圖的敘述中,正確的是()

答案:當修改某一視圖時,導出該視圖的基本表也隨之修改。有學生表Student(S#char(8),Snamechar(10),Ssexchar(2),Sageinteger,D#char(2),Sclasschar(6))。要檢索學生表中“所有年齡小于等于19歲的學生的年齡及姓名”,SQL語句正確的是()

答案:SelectSage,SnameFromStudentWhereSage<=19查詢時,若要輸出無重復的記錄,SELECT子句中使用的保留字是:()

答案:DISTINCTSQL語言中,刪除一個表的命令是()

答案

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論