版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄第一章單元測試第二章單元測試第三章單元測試第四章單元測試第五章單元測試第六章單元測試第七章單元測試第一章單元測試1【單選題】(20分)正確答案:A2011年麥肯錫研究院提出的大數據定義是:大數據是指其大小超出了常規(guī)數據庫工具獲取、儲存、管理和()能力的數據集。A.分析B.應用C.計算D.訪問2【單選題】(20分)正確答案:D用4V來概括大數據的特點的話,一般是指:Value、Velocity、Volume和()。A.VagaryB.VainlyC.ValleyD.Variety3【單選題】(20分)正確答案:D大數據分析四個方面的工作主要是:數據分類、()、關聯(lián)規(guī)則挖掘和時間序列預測。A.數據清洗B.數據統(tǒng)計C.數據計算D.數據聚類4【判斷題】(20分)正確答案:A新浪和京東聯(lián)合推出的大數據商品推薦,是由京東盲目推送到當前瀏覽新浪網站的用戶的頁面上的。A.錯B.對5【判斷題】(20分)正確答案:A目前的大數據處理技術只能處理結構化數據。A.錯B.對第二章單元測試1【單選題】(10分)正確答案:D我們常用的微軟Office套件中的Access數據庫軟件的數據庫文件格式后綴名是()。A.mdfB.xlsC.dbfD.mdb2【單選題】(10分)正確答案:C大多數日志文件的后綴名是()。A.txtB.xmlC.logD.csv3【單選題】(10分)正確答案:C本課程重點介紹的weka軟件的專有文件格式是()。A.MongoDBB.C.ARFFD.keymap4【單選題】(10分)正確答案:C數據清洗工作的目的主要是要解決數據的完整性、唯一性、合法性和()。A.專業(yè)性B.排他性C.一致性D.共享性5【單選題】(10分)正確答案:D八爪魚軟件的“自定義采集”工作方式下,需要在軟件里輸入一個()來作為采集的目標。A.用戶名B.關鍵詞C.電話號碼D.網頁地址6【單選題】(10分)正確答案:D八爪魚軟件的采集規(guī)則可以通過文件的形式來導入或者導出,這種文件的后綴名是()。A.gifB.pngC.jpgD.otd7【判斷題】(10分)正確答案:AExcel可以通過“數據有效性”按鈕操作來規(guī)范數據輸入的范圍。A.對B.錯8【判斷題】(10分)正確答案:AExcel不能導入txt或csv格式的文件。A.錯B.對9【判斷題】(10分)正確答案:B八爪魚軟件只能對軟件內建了“簡易采集”規(guī)則的網站采集數據。A.對B.錯10【判斷題】(10分)正確答案:B八爪魚軟件進行自定義采集時,需要了解對網頁的頁面結構。A.錯B.對第三章單元測試1【單選題】(5分)正確答案:D使用DBSCAN算法對鳶尾花數據集(Iris.arff)進行聚類,將epsilon參數設置為0.2,minPoints參數設置為5,忽略class屬性,那么將形成()個簇。A.3B.1C.4D.22【單選題】(5分)正確答案:D使用EM算法對天氣數據集(weather.numeric.arff)進行聚類,將numClusters設置為4,即簇數為4,其他參數保持默認值,忽略play屬性,從結果中可知,下列選項中,()是錯誤的。A.第四個簇的先驗概率是0.14B.這組數據用算法迭代15次C.模型的最大似然估計值是-7.18D.第四個簇的實例數為43【單選題】(5分)正確答案:A使用SimpleKMeans算法對天氣數據集(weather.numeric.arff)進行聚類,保持默認參數,即3個簇以及歐氏距離。選擇play屬性為忽略屬性,從結果中可知,下列選項中,()是錯誤。A.這組數據用算法迭代四次B.平方和誤差為8.928C.產生了三個中心點D.聚合為3個簇,分別有7,3,4個實例4【單選題】(5分)正確答案:B使用線性回歸(LinearRegression)分類器和用M5P分類器對cpu.arff分別進行分類,由其輸出的誤差指標可知()。A.LinearRegression的相對誤差比M5P的相對誤差小B.LinearRegression的平均方根誤差比M5P的平均方根誤差大C.LinearRegression的標準誤差比M5P的標準誤差小D.LinearRegression的平均絕對誤差比M5P的平均絕對誤差小5【單選題】(5分)正確答案:C刪去cpu.arff數據文件中的CACH屬性后,使用M5P分類器構建方案,在結果中,到達LM2的實例數有()個。A.23B.165C.21D.306【單選題】(5分)正確答案:B根據J48分類器訓練weather.nominal.arff所生產的決策樹,當outlook=sunny;temperature=cool;humidity=high;windy=TRUE時,分類的結果是()。A.YesB.NoC.無法分類D.沒有結果7【單選題】(5分)正確答案:B根據J48分類器訓練iris.arff所生產的決策樹,當sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2時,分類的結果是()。A.Iris-virginicaB.Iris-setosaC.無法分類D.Iris-versicolor8【單選題】(5分)正確答案:A關于Weka離散化說明正確的是()。A.離散化包括無監(jiān)督離散化和有監(jiān)督離散化B.離散化是將數值屬性轉換為字符串型屬性C.等寬離散化是使實例分布均勻的D.有監(jiān)督離散化有兩種等寬和等頻方法9【單選題】(5分)正確答案:D以下()不是Weka的數據類型。A.stringB.nominalC.numericD.decimal10【單選題】(5分)正確答案:D關于Weka的文件類型描述錯誤的是()。A.@relation定義數據集名稱,@data之后呈現(xiàn)實例,每一行就是一個實例B.Weka處理的數據集類似于關系數據庫橫行實例,豎行屬性C.arff是ASCII文件,可以用Word等文本編輯器打開查看D.Weka可以打開文件格式有.arff、.csv、.xlsx11【單選題】(5分)正確答案:D以下屬于關聯(lián)分析的是()。A.自動判斷鳶尾花類別B.CPU性能預測C.股票趨勢建模D.購物籃分析12【單選題】(5分)正確答案:A大數據時代的到來,使我們無法人為地去發(fā)現(xiàn)數據中的奧妙,與此同時,我們更應該注重數據中的相關關系,而不是因果關系。其中,數據之間的相關關系可以通過以下()算法直接挖掘。A.AprioriB.K-meansC.BayesNetworkD.C4.513【單選題】(5分)正確答案:A某超市研究銷售紀錄數據后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數據挖掘的()問題。A.關聯(lián)規(guī)則發(fā)現(xiàn)B.分類C.自然語言處理D.聚類14【單選題】(5分)正確答案:A在進行自動選擇屬性時,必須設立兩個對象,其中確定使用什么方法為每個屬性子集分配一個評估值的對象是下面的()。A.屬性評估器B.搜索方法C.元分類器D.規(guī)則挖掘15【單選題】(5分)正確答案:D以下屬于屬性空間的搜索方法的是()。A.GainRatioAttributeEvalB.SymmetricalUncertAttributeEvalC.PrincipalComponentsD.BestFirst16【單選題】(5分)正確答案:D在weka軟件探索者界面中,利用Visualize標簽頁通過更改各個參數來進行數據集的可視化屬性設置后,需要單擊以下()按鈕,所有更改才會生效。A.FastscrollingB.SelectAttributeC.SubSampleD.Update17【判斷題】(5分)正確答案:B給定關聯(lián)規(guī)則AB,意味著:若A發(fā)生,B也會發(fā)生。A.對B.錯18【判斷題】(5分)正確答案:A支持度是衡量關聯(lián)規(guī)則重要性的一個指標。A.對B.錯19【判斷題】(5分)正確答案:BRanker方法既可以用于單個屬性評估器,又可以用于屬性子集評估器。A.對B.錯20【判斷題】(5分)正確答案:A利用weka軟件進行數據可視化時,用戶可以選擇類別屬性對數據點著色,如果類別屬性是標稱型,則顯示為彩色條。A.錯B.對第四章單元測試1【單選題】(10分)正確答案:D貝葉斯網絡中的節(jié)點代表()。A.隨機函數B.變量C.隨機過程D.隨機變量2【單選題】(10分)正確答案:C貝葉斯網絡中,節(jié)點需給出概率分布描述,對于離散型隨機變量而言,可以用()的形式表示。A.條件概率密度函數B.均勻分布C.條件概率表D.正態(tài)分布3【單選題】(10分)正確答案:C貝葉斯網絡中節(jié)點之間的邊代表()。A.隨機結果B.概率因果C.隨機關系D.組合關系4【單選題】(10分)正確答案:B貝葉斯網絡保存的文件格式是()。A.DOCXB.XMLBIFC.TXTD.XLS5【單選題】(10分)正確答案:D下面()不是反向傳播神經網絡的結構。A.輸出層B.輸入層C.隱含層D.計算層6【單選題】(10分)正確答案:C神經網絡中的節(jié)點代表()。A.激勵變量B.隨機函數C.激勵函數D.隨機變量7【單選題】(10分)正確答案:C下列()不是常見的激勵函數。A.線性函數B.閾值函數C.正弦函數D.Sigmoid函數8【單選題】(10分)正確答案:A在貝葉斯網絡編輯界面時,如果節(jié)點的名稱沒法完全顯示,需要從()菜單項進行調整。A.Tools|LayoutB.Tools|SetDataC.View|ZoomInD.View|ZoomOut9【單選題】(10分)正確答案:BWEKA中選擇神經網絡分類器操作時,應該選擇()。A.functions條目下的SGD分類器B.functions條目下的MultilayerPerceptron分類器C.默認的分類器D.rules條目下的PART10【單選題】(10分)正確答案:A下面關于PackageManager安裝后的目錄說明不正確的是()。A.lib子目錄存放包所需要的說明文件B.doc子目錄存放API文檔C.src子目錄存放源代碼文件D.sample-data子目錄存放數據集文件第五章單元測試1【單選題】(10分)正確答案:ATableau是一款定位于數據可視化敏捷開發(fā)和實現(xiàn)()展現(xiàn)工具。Tableau連續(xù)第6年在Gartner分析和商業(yè)智能魔力象限中蟬聯(lián)領導者殊榮。A.商務智能B.商務計算C.商業(yè)統(tǒng)計D.商業(yè)行為2【單選題】(10分)正確答案:C以下()不是Tableau的數據類型?A.BooleanB.DateC.DecimalD.String3【單選題】(10分)正確答案:CTableau可以用來實現(xiàn)交互的、()的分析和儀表板應用,從而幫助我們快速地認識和理解數據。A.離散性B.連續(xù)性C.可視化D.智能化4【單選題】(10分)正確答案:A下列說法錯誤的是()。A.Tableau不提供應用編程接口B.用戶僅需要通過輕點鼠標和簡單拖放就可以迅速創(chuàng)建出智能、精美、直觀和具有強交互性的報表和儀表盤C.Tableau通過內存數據引擎,可以直接查詢外部數據庫同時動態(tài)的從數據倉庫抽取實時數據,極大的提高了數據訪問和查詢效率D.Tableau允許從多個數據源訪問數據,包括帶分隔符的文本文件、Excel文件、SQL數據庫、Oracle數據庫和多維數據庫等5【單選題】(10分)正確答案:A度量往往是()字段,度量是我們的指標。度量常常是連續(xù)的,連續(xù)的字段在圖表中形成軸.將其拖放到功能區(qū)時,Tableau默認會進行()。A.數值,聚合運算B.數值,混合運算C.分類,聚合運算D.分類,混合運算6【單選題】(10分)正確答案:D關于數據分層描述錯誤的是()。A.數據分層的層次結構可以手工調整B.數據分層的層級結構由數據維度的上下順序決定C.數據分層可以實現(xiàn)向下鉆取D.數據分層可以實現(xiàn)向上鉆取7【單選題】(10分)正確答案:C以下不屬于集的創(chuàng)建方式的是()。A.[條件]創(chuàng)建B.[頂部]創(chuàng)建C.[分組]創(chuàng)建D.[常規(guī)]創(chuàng)建8【單選題】(10分)正確答案:BTableau右邊數據目錄欄中,不能單擊右鍵創(chuàng)建參數的緯度是()。A.度量B.集C.參數D.緯度9【單選題】(10分)正確答案:D以下不是創(chuàng)建計算字段時的運算邏輯的是()。A.日期B.用戶C.數字D.表結構10【單選題】(10分)正確答案:A儀表板版面大小設計選項,()不屬于大小設計選項。A.自定義B.固定大小C.自動D.范圍第六章單元測試1【單選題】(10分)正確答案:CLogistic函數的定義域是()。A.(0,+INF)B.[0,1]C.(-INF,+INF)D.(-INF,1)2【單選題】(20分)正確答案:D下列敘述錯誤的是()。A.邏輯回歸采用Sigmoid函數對樣本數據進行擬合,以構建回歸模型B.邏輯回歸是一種監(jiān)督機器學習算法C.邏輯回歸預測事件發(fā)生的概率并分析導致事件發(fā)生的因素D.邏輯回歸主要用于回歸分析3【單選題】(10分)正確答案:A使用IBk分類器和SMO分類器對vote.arff分別進行分類,由其輸出的結果可知()。A.SMO對democrat和republican的分類正確率都比IBk大B.SMO對democrat的分類正確率比IBk小C.IBk對republican的分類正確率比SMO大D.IBk正確分類百分比比SMO大4【單選題】(20分)正確答案:BA.true或falseB.1或-1C.0或1D.0或-15【單選題】(20分)正確答案:D以下描述錯誤的是()。A.SVM對噪聲不具備魯棒性B.k-最近鄰算法(K-NN)是一種消極學習器C.聚類分析可以看作是一種非監(jiān)督的分類D.SVM尋找具有最小邊緣的超平面,因此經常被稱為最小邊緣分類器第七章單元測試1【單選題】(10分)正確答案:D以下數據和信息的說法,不正確的是()。A.凡是可以電子化記錄下來的都是數據B.數據的形式是多樣化的C.信息是客觀世界各種事物特征的反映D.數據對用戶來說是有價值的2【單選題】(10分)正確答案:A以下關于數據分析的方法,正確的是()。A.數據分析的目的就是解決我們現(xiàn)實中的某個問題B.所有的分析都是要從“過程”出發(fā),沒有結論的數字羅列并不是分析C.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 苯換熱器課程設計前言
- 物流傳媒業(yè)營銷活動總結
- 酒店領班的領導力培養(yǎng)
- 化工工業(yè)行業(yè)營銷策略總結
- 餐具店銷售員工工作總結
- 2024年稅務師題庫2
- 2025屆阜陽市高三語文上學期期末統(tǒng)測考試卷及答案解析
- 制定合同范本(2篇)
- 創(chuàng)新研發(fā)保密協(xié)議書(2篇)
- 2024年理論培訓心得體會
- 北師大版七年級數學上冊 期末重難點真題特訓之易錯必刷題型(96題32個考點)(原卷版+解析)
- 2023年公路養(yǎng)護工知識考試題庫附答案
- 高警示(高危)藥品考試試題與答案
- 42山東省棗莊市薛城區(qū)2023-2024學年七年級上學期期末考試生物試題
- 部編版六年級語文下冊第三單元大單元教學設計
- 前端組長述職報告
- 食品安全企業(yè)標準模板
- 鈷酸鋰結構特性
- 臺州造船行業(yè)產值分析
- 2024年度醫(yī)院兒童保健科醫(yī)務人員述職報告課件
- 品牌部工作總結匯報
評論
0/150
提交評論