




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數據挖掘技術練習大數據挖掘技術練習(習題卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據挖掘技術練習第1部分:單項選擇題,共51題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.DPI規(guī)范中,流量流向統(tǒng)計字段AppType=0x03代表()A)所有流量B)某個應用大類C)某個應用小類D)某個協議類別答案:B解析:[單選題]2.要查詢所有課程中,各門課程的最低分,下面SQL語句正確的是______。A)SELCET課程號,MIN(成績)FROM選課表GROUPBY課程號;B)SELCET課程號,SUM(成績),FROM選課表GROUPBY課程號;C)SELCET課程號,MAX(成績),MIN(成績),AVERAGE(成績)FROM選課表GROUPBY課程號;D)SELCET課程號,MAX(成績),FROM選課表GROUPBY課程號;答案:A解析:[單選題]3.數據的多重共線性導致我們無法使用最小二乘法求解線性回歸問題,以下哪個算法從根本上解決了這一點()A)Ridge回歸B)Lasso回歸C)邏輯回歸D)多項式回歸答案:A解析:[單選題]4.下列關于聚類分析的描述中,正確的是:A)如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點B)在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差C)K均值是一種產生劃分聚類的基于密度的聚類算法,簇的個數由算法自動地確定D)聚類分析可以看作是一種有監(jiān)督的分類答案:A解析:[單選題]5.為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪一類任務?A)探索性數據分析B)建模描述C)預測建模D)尋找模式和規(guī)則答案:B解析:[單選題]6.NaiveBayes是屬于數據挖掘中的什么方法?A)聚類B)分類C)時間序列D)關聯規(guī)則答案:B解析:[單選題]7.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:()A)0.821B)1.224C)1.458D)0.716答案:D解析:[單選題]8.缺失值處理方法中錯誤的是()。A)對于所有屬性都可以使用均值B)對于離散屬性或定性屬性,使用眾數C)對于分類屬性,使用同類對象屬性值的均值D)轉換為分類問題或數值預測問題答案:A解析:[單選題]9.為了可以把多個評估器鏈接成一個復合評估器,sklearn中提供了PipeLine機制,下面關于PipeLine描述不正確的是()A)管道中的最后一個評估器一定要是一個實現了predict方法的學習器B)管道中的所有評估器,除了最后一個評估器,管道中的所有評估器必須都是轉換器。C)管道中的評估器參數可以通過<estimator>__語義來訪問D)管道中的評估器可以通過索引或名稱訪問答案:A解析:[單選題]10.()是指對描述對象的屬性進行重新組合,獲得一組反映事物本質的少量的新的屬性的過程。()是指從屬性集合中選擇那些重要的、與分析任務相關的子集的過程。A)數據選擇;數據提取B)特征提取;特征選擇C)數據提取;數據選擇D)特征選擇;特征提取答案:B解析:[單選題]11.在下列抽樣方法中,需要預先將樣本指定多個組的抽樣方法是()。A)有放回的簡單隨機抽樣B)無放回的簡單隨機抽樣C)分層抽樣D)漸進抽樣答案:C解析:[單選題]12.如果性能報表中沒有KPI數據,不可能是以下哪種情況()A)采集周期內沒有進行相關的業(yè)務B)采集周期內性能統(tǒng)計計劃處于掛起狀態(tài)C)pc進程掛死D)FTP服務器與eNB之間ping不通答案:A解析:[單選題]13.使用requests庫發(fā)送請求后,返回response對象的屬性中,表示網頁內容的是()A)status_codeB)encondingC)apprence_encondingD)text答案:D解析:[單選題]14.在MySQL中,常用的聚合函數名不包括______。A)GROUPBYB)MAXC)SUMD)COUNT答案:A解析:[單選題]15.附著失敗且錯誤碼為#7,#8,#14,通常什么原因引起A)用戶原因B)無線側原因C)核心網原因D)SP原因答案:A解析:[單選題]16.人工智能的目的是讓機器能夠()A)具有完全的智能B)完全和人腦一樣考慮問題C)完全替代人D)模擬、延伸和擴展人的智能答案:D解析:[單選題]17.Python在調用efficient-apriori包中的apriori函數進行挖掘關聯規(guī)則時,第一個返回值是()。A)關聯規(guī)則B)最小支持度C)頻繁項集D)最小置信度答案:C解析:[單選題]18.數據集成的內容不包括()A)實體識別B)冗余處理C)數據規(guī)約D)數值沖突處理答案:C解析:[單選題]19.設X={a,b,c}是一個頻繁項集,則最多可由X產生()個關聯規(guī)則。A)4B)5C)6D)7答案:C解析:[單選題]20.大數據最明顯的特點是()A)數據類型多樣B)數據規(guī)模大C)數據價值密度高D)數據處理速度快答案:B解析:[單選題]21.變量的量綱比如以厘米或者米為單位對下面哪種方法會有影響()A)方差分析B)回歸分析C)聚類分析D)主成分分析答案:C解析:[單選題]22.在人工智能研究領域中,主要研究計算機如何自動獲取知識和技能,實現自我完善的研究分支學科叫()A)專家系統(tǒng)B)機器學習C)神經網絡D)模式識別答案:B解析:[單選題]23.在圖集合中發(fā)現一組公共子結構,這樣的任務稱為A)頻繁子集挖掘B)頻繁子圖挖掘C)頻繁數據項挖掘D)頻繁模式挖掘答案:B解析:[單選題]24.大數據應用需求分為年度需求和()兩類。A)季度需求B)月度需求C)周需求D)即時需求答案:D解析:[單選題]25.從目前技術角度來講,下面說法不正確的是()A)人工智能還屬于弱人工智能范疇B)AI依然沒有常識、沒有自我意識C)AI沒有真正的情感,不具備抽象能力D)人工智能已無所不能答案:D解析:[單選題]26.數據在規(guī)定的時間前和頻度周期內接入系統(tǒng)的比例稱為()A)指標數據自動采集率;B)指標數據接入率C)指標數據接入及時率;D)指標數據完整率答案:C解析:[單選題]27.CRISP-DM模型中Evaluation表示對建立的模型進行評估,重點具體考慮得出的結果是否符合()的商業(yè)目的。A)第二步B)第三步C)第一步D)最后一步答案:C解析:[單選題]28.熵表示為消除不確定性所需要的信息量,投擲均勻正六面體骰子的熵是()比特。A)1B)2.6C)3.2D)3.8答案:B解析:[單選題]29.ODS是指()A)企業(yè)數據中心;B)數據倉庫C)操作型存儲D)總線答案:B解析:[單選題]30.ROC曲線凸向哪個角,代表模型越理想?A)左上角B)右上角C)左下角D)右下角答案:A解析:[單選題]31.以下哪種方法不屬于于監(jiān)督學習模型()A)決策樹B)線性回歸C)關聯分析D)判別分析答案:C解析:[單選題]32.無線網性能劣化可能導致以下哪個指標出現問題?()A)小區(qū)RTT下行時延B)TCP一二次握手時延C)服務器側下行RTTD)小區(qū)RTT上行時延答案:A解析:[單選題]33.假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等寬劃分(寬度為50)方法將它們劃分成四個箱,求15在哪個箱子?()A)第1個B)第2個C)第3個D)第4個答案:A解析:[單選題]34.以下哪些指標可以通過網優(yōu)平臺獲?。?)A)無線接通率B)eSRVCC切換成功率C)TCH話務量D)E-RAB建立成功率答案:B解析:[單選題]35.下列不是智能的特征的是()A)具有儲存空間B)具有學習能力C)具有記憶與思維的能力D)具有自適應能力答案:A解析:[單選題]36.下列代碼實現()功能X=list(range(20))Forindex,valueinenumerate(x):ifvalue==3:x[index]=5A)判斷列表x中是否含3、5B)輸出列表中3、5C)將列表x中值為3的元素修改為5D)將列表x中任意3個值修改為5答案:C解析:[單選題]37.在ID3算法中信息增益是指()A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵減少的程度最大答案:D解析:[單選題]38.數據科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是A)單個模型之間有高相關性B)單個模型之間有低相關性C)在集成學習中使用?平均權重?而不是?投票?會比較好D)單個模型都是用的一個算法答案:B解析:[單選題]39.有關強關聯規(guī)則的敘述中正確的是()。A)強關聯規(guī)則是同時滿足最小支持度閾值和最小置信度閾值的規(guī)則B)強關聯規(guī)則是滿足最小支持度閾值的規(guī)則C)強關聯規(guī)則是滿足最小置信度閾值的規(guī)則D)所有的規(guī)則都是強關聯規(guī)則答案:A解析:[單選題]40.下面哪個不是Python合法得標識?。ǎ〢)int32B)40XLC)selfD)_name_答案:B解析:[單選題]41.k均值聚類的目標是()。A)最大化簇間距離B)最大化質心距離C)簇的大小基本一致D)最小化簇內距離的平方和答案:D解析:[單選題]42.()是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。A)邊界點B)質心C)離群點D)核心點答案:C解析:[單選題]43.使用等距離分箱法進行數據離散化,數據范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個數為4。下列屬于4個箱的區(qū)間是()。A)[20,65]B)[110,155)C)(155,200]D)(65,110)答案:B解析:[單選題]44.可以對按城市匯總的銷售數據進行(),來觀察按國家總的數據。A)上卷B)下鉆C)切片D)切塊答案:A解析:[單選題]45.下列關于計算機存儲容量單位的說法中,錯誤的是()A)1KB<1MB<1GBB)基本單位是字節(jié)(Byte)C)一個漢字需要一個字節(jié)的存儲空間D)一個字節(jié)能夠容納一個英文字符答案:C解析:[單選題]46.下列屬于數據倉庫特點的是()A)綜合性和提煉性數據B)重復性的、可預測的處理C)一次處理的數據量小D)面向操作人員,支持日常操作答案:A解析:[單選題]47.當你輸入hadoopfsck/造成?connectionrefusedjavaexception??時,系統(tǒng)究竟發(fā)生了什么?A)datanode出現故障B)resoucemanger出現故障C)nodemanger出現故障D)Namenode出現故障答案:D解析:[單選題]48.下列不屬于瀏覽器開發(fā)者模式面板的為()A)ElementsB)ConsoleC)SourcesD)headers答案:D解析:headers是請求頭信息[單選題]49.基于《中國移動DPI識別能力規(guī)范》,Skype屬于哪一類業(yè)務()A)P2PB)VoIPC)即時通信D)微博答案:B解析:[單選題]50.下列選項中,屬于非結構化數據的是:A)圖像B)HTMLC)XMLD)JSON答案:A解析:[單選題]51.IMEISV一共有幾位A)1B)2C)3D)4答案:B解析:第2部分:多項選擇題,共17題,每題至少兩個正確答案,多選或少選均不得分。[多選題]52.有了()和()之后,向量就可以在另一個坐標系中進行表示A)方向B)大小C)特征值D)特征向量答案:CD解析:[多選題]53.確定一個投資方案可行的必要條件是()。A)凈現值大于零B)現值指數大于1C)投資回收期小于1年D)內部報酬率較高答案:AB解析:[多選題]54.PDP激活信令流程中涉及哪些進程A)PFPB)GTPC)SPPD)GBP答案:ABCD解析:[多選題]55.基于內容的推薦生成推薦的過程主要依靠A)內容分析器B)文件學習器C)過濾部件D)推薦系統(tǒng)答案:ABC解析:[多選題]56.自動駕駛技術在以下()領域實現A)大型客機B)戰(zhàn)斗機C)高鐵列車D)民用汽車答案:ABCD解析:[多選題]57.電子元器件:A)電子管B)晶體管C)小規(guī)模中規(guī)模集成電路D)大規(guī)?;虺笠?guī)模集成電路答案:ABCD解析:[多選題]58.在進行容量估算中需要明確的因素有()A)確定規(guī)劃區(qū)的人員流量及發(fā)展趨勢B)移動用戶滲透率C)TDL用戶占比D)業(yè)務話務模型答案:ABCD解析:[多選題]59.屬于分裂的層次聚類算法有A)二分K均值B)MSTC)ChameleonD)組平均答案:AB解析:[多選題]60.下列關于集成學習描述正確的是()A)集成學習本身并不是一個單獨的機器學習算法,而是通過構建并結合多個機器學習器來完成學習任務,以達到獲得比單個學習器更好的學習效果的一種機器學習方法。B)集成學習的基學習器要求使用不同算法C)集成學習的基學習器可以使用相同的算法生成D)集成學習主要分為Bagging、Boosting和Stacking答案:ACD解析:[多選題]61.在聚類分析當中,()等技術可以處理任意形狀的簇。A)MIN(單鏈)B)MAX(全鏈)C)組平均D)Chameleon答案:AD解析:[多選題]62.以下關于STDP協議的描述,正確的是A)SDTP為實時數據共享傳輸協議B)數據傳輸量大,實時性高C)不需要握手鑒權過程D)用于信令采集網關把采集到的原始信令數據傳送到信令共享平臺答案:ABCD解析:[多選題]63.Weka是著名的開源機器學習和數據挖掘軟件,高級用戶可以通過哪些方式調用其分析組件A)Java編程B)命令行C)智能客服D)遠程接口答案:AB解析:[多選題]64.完全競爭性的市場具有()等特點。A)任一企業(yè)無法操縱市場B)少數企業(yè)可以影響交易數量C)多個競爭企業(yè)同時存在D)企業(yè)必須采取隨行就市定價法答案:ACD解析:[多選題]65.以下選項能成為子查詢返回結果的是______。A)一個表B)一個值C)一列數據D)一個表達式#答案:ABC解析:[多選題]66.在聚類分析當中,可以處理任意形狀的簇的方法包括:A)MIN(單鏈)B)ChameleonC)MAX(全鏈)D)組平均答案:AB解析:[多選題]67.如下表student中,如何篩選type為包含數學或語文的記錄?IDtypescoreA01數學78A02語文76A03英語90A04數學68A05英語84A)select*fromstudentwheretype=?數學?andtype=?語文?B)select*fromstudentwheretype=?數學?ortype=?語文?C)select*fromstudentwheretypein(?數學?,?語文?)D)select*fromstudentwheretypein(?數學???語文?)答案:BC解析:[多選題]68.數據倉庫在技術上的工作過程是:()A)數據的抽取B)存儲和管理C)數據的表現D)數據倉庫設計E)數據的表現答案:ABCD解析:第3部分:判斷題,共20題,請判斷題目是否正確。[判斷題]69.序列數據沒有時間戳。A)正確B)錯誤答案:對解析:[判斷題]70.聚類分析是一種有監(jiān)督的學習方法。A)正確B)錯誤答案:錯解析:[判斷題]71.正則表達式?[^abc]?可以一個匹配任意除?a?、?b?、?c?之外的字符。A)正確B)錯誤答案:對解析:[判斷題]72.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。A)正確B)錯誤答案:對解析:[判斷題]73.已知x和y是兩個等長的整數列表,那么表達式sum((i*jfori,jinzip(x,y)))的作用是計算這兩個列表所表示的向量的內積。A)正確B)錯誤答案:對解析:[判斷題]74.多元回歸是對一個自變量和多個因變量之間的回歸分析。A)正確B)錯誤答案:錯解析:[判斷題]75.267.先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。A)正確B)錯誤答案:錯解析:[判斷題]76.對于生成器對象x=(3foriinrange(5)),連續(xù)兩次執(zhí)行l(wèi)ist(x)的結果是一樣的。A)正確B)錯誤答案:錯解析:[判斷題]77.特征選擇過程是描述同一對象的多個屬性的取值范圍,統(tǒng)一到相同的范圍,避免某些屬性的作用大于其它屬性。A)正確B)錯誤答案:錯解析:[判斷題]78.在結構化數據中進行關聯分析發(fā)現其中的頻繁模式和關聯規(guī)則。對于取值連續(xù)的屬性,首先將其離散化,然后將每個取值區(qū)間作為一個值,繼而轉化為?屬性=值?的形式。A)正確B)錯誤答案:對解析:[判斷題]79.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。A)正確B)錯誤答案:錯解析:[判斷題]80.假設有非空列表x,那么x.append(3)、x=x+[3]與x.insert(0,3)在執(zhí)行時間上基本沒有太大區(qū)別。A)正確B)錯誤答案:錯解析:[判斷題]81.元組中的元素不能修改。A)正確B)錯誤答案:對解析:[判斷題]82.信息熵給出了一種度量不確定性的方式,是用來衡量隨機變量不確定性的,熵就是信息的期望值。A)正確B)錯誤答案:對解析:[判斷題]83.屬性A的熵值H(X,A)是為了獲取樣本關于屬性A的信息所需要付出的代價。A)正確B)錯誤答案:對解析:[判斷題]84.readlines方法可以一次將數據讀出A)正確B)錯誤答案:對解析:[判斷題]85.使用del命令或者列表對象的remove()方法刪除列表中元素時會影響列表中部分元素的索引。A)正確B)錯誤答案:對解析:[判斷題]86.通過數據離散化,可以實現縮減數據量的效果。A)正確B)錯誤答案:對解析:[判斷題]87.已知L1=[1,2,3]L1.extend(['kl','ml'])print(L1)則結果為為[1,2,3,['kl','ml']]A)正確B)錯誤答案:錯解析:[判斷題]88.可信度是對關聯規(guī)則的準確度的衡量。()A)正確B)錯誤答案:錯解析:第4部分:問答題,共12題,請在空白處填寫正確答案。[問答題]89.Python標準庫os.pat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 肉雞料產品培訓
- 旅游情景英語(第二版)Unit 5-1學習資料
- 鐵路圍墻涂料施工方案
- 旅游度假區(qū)企業(yè)數字化轉型與智慧升級戰(zhàn)略研究報告
- 農林牧漁產品貿易代理企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 精酵型白啤企業(yè)數字化轉型與智慧升級戰(zhàn)略研究報告
- 職業(yè)病防治基礎知識培訓
- 塑料包裝箱及容器批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 麻醉用外用藥品批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 繩、索、纜制造企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 人教版六年級上冊道德與法治教案(5篇)
- (中職)中職生創(chuàng)新創(chuàng)業(yè)能力提升教課件完整版
- 中班健康課件《我不挑食》
- 生豬屠宰獸醫(yī)衛(wèi)生人員考試題庫答案(414道)
- 《完善中國特色社會主義法治體系》課件
- 2024至2030年中國石油瀝青市場前景及投資機會研究報告
- 2025版 高考試題分析-數學-部分4
- 武漢大學張俊:2024生成式人工智能大模型及其電力系統(tǒng)數智化應用前沿報告
- (高清版)AQ 1056-2008 煤礦通風能力核定標準
- 2024版高一上冊語文模擬試卷
- 《內陸干旱區(qū)季節(jié)性河流生態(tài)流量(水量)確定技術導則》
評論
0/150
提交評論