大數(shù)據(jù)開發(fā)基礎(習題卷32)_第1頁
大數(shù)據(jù)開發(fā)基礎(習題卷32)_第2頁
大數(shù)據(jù)開發(fā)基礎(習題卷32)_第3頁
大數(shù)據(jù)開發(fā)基礎(習題卷32)_第4頁
大數(shù)據(jù)開發(fā)基礎(習題卷32)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

試卷科目:大數(shù)據(jù)開發(fā)基礎大數(shù)據(jù)開發(fā)基礎(習題卷32)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎第1部分:單項選擇題,共144題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在pandas中以下哪個方法用于向csv文件中實現(xiàn)寫入工作?A)to_csv()B)read_csv()C)to_excel()[單選題]2.若是想要實現(xiàn)自定義分組規(guī)則,則需要自定義Class類,然后繼承()類。A)WritableComparatorB)ComparatorC)WritableD)WritableComparable[單選題]3.在支持向量機中,軟間隔支持向量機的目標函數(shù)比硬間隔支持向量機多了一個()A)偏置項bB)系教C)松弛變量D)兩種情況的目標函數(shù)相同[單選題]4.當上傳本地文件到QuickBI中做展現(xiàn)時,數(shù)據(jù)被保存到了()。A)QuickB自帶的探索空間B)QuickBI自帶的MaxComputeC)AnalyticDBD)客戶端本地緩存[單選題]5.以下哪項屬于Flume的基本數(shù)據(jù)單位?A)ObjectB)SubjectC)TopicD)Event[單選題]6.以下代碼的執(zhí)行結(jié)果a,b,c分別是()a=[[]]*5a[0].append(1)b=[[]foriinrange(5)]b[0].append(1)c=[[]*5]c[0].append(1)A)a:[[1],[],[],[],[]]b:[[1],[1],[1],[1],[1]]c:[[1]]B)a:[[1],[1],[1],[1],[1]]b:[[1],[],[],[],[]]c:[[1]]C)a:[[1],[],[],[],[]]b:[[1],[1],[1],[1],[1]]c:[[1],[],[],[],[]]D)a:[[1],[],[],[],[]]b:[[1],[1],[1],[1],[1]]c:[[1],[1],[1],[1],[1]][單選題]7.關(guān)于Maxcompute中的運算符的說法,正確的是:()。A)String類型可以和其他任意類型進行隱式轉(zhuǎn)換:Boolean不行B)除boolean外,其他類型不允許參與邏輯運算,也不允許其他類型的隱式類型轉(zhuǎn)換C)只有bigint、double才能參與算數(shù)運算:只有string、bigint、double和Decimal才能參與算術(shù)運算D)特殊的關(guān)系運算符rlike表示右側(cè)開始匹配[單選題]8.下列數(shù)據(jù)類型中,python不支持的是。()A)charB)intC)floatD)list[單選題]9.基于哪種的分詞算法是應用最廣泛,分詞速度最快A)詞典B)理解C)統(tǒng)計的機器學習D)其他[單選題]10.x**=2等效于()。A)x=x*2B)x=x*2*2C)x=x**2D)以上都不對[單選題]11.使用()關(guān)鍵字創(chuàng)建自定義函數(shù)。A)functionB)funcC)defD)lambda[單選題]12.以下關(guān)于HiveSQL基本操作描述正確的是:()。A)加載數(shù)據(jù)到Hive時數(shù)據(jù)必須是HDFS的一個路徑B)創(chuàng)建外部表必須要指定location信息C)創(chuàng)建外部表使用external關(guān)鍵字,創(chuàng)建普通表需要指定internal關(guān)鍵字D)創(chuàng)建表時可以指定列分隔符[單選題]13.下列方法中,能夠返回某個子串在字符串中出現(xiàn)次數(shù)的是()。A)lengthB)indexC)countD)find[單選題]14.為保證流應用的快照存儲的可靠性,快照主要存儲在:()。A)本地文件系統(tǒng)中B)JobManager的內(nèi)存中C)HDFS中D)可靠性高的單擊數(shù)據(jù)庫中[單選題]15.在Flink框架中,下列()是流處理和批處理的計算引擎。A)standaloneB)RuntimeC)FlinkCoreD)DataStream[單選題]16.下列選項中,關(guān)于drop_duplicates()方法描述錯誤的是()。A)僅支持單一特征數(shù)據(jù)的去重B)僅對Series和DataFrame對象有效C)數(shù)據(jù)去重時默認保留第一個數(shù)據(jù)D)該方法不會改變原始數(shù)據(jù)排列[單選題]17.在Hive的條件語句中,關(guān)于條件A>=B理解正確的有()A)A為null,則返回為trueB)B為null,則返回為falseC)如果A大于等于B則返回trueD)如果A小于等于B則返回true[單選題]18.與卷積神經(jīng)網(wǎng)絡相比,循環(huán)神經(jīng)網(wǎng)絡可以學習()。A)細節(jié)信息B)文章長度C)單詞之間的長距離依賴關(guān)系D)歧義[單選題]19.學生關(guān)系模式S(S#,Sname,Sex,Age),S的屬性分別表示學生的學號、姓名、性別、年齡。要在表S中刪除一個屬性?年齡?,可選用的SQL語句是()。A)UPDATESAgeB)DELETEAgefromSC)ALTERTABLES?Age?D)ALTERTABLESDROPAge[單選題]20.機械思維強調(diào)的是()A)世界是確定的B)世界是不確定的C)世界是機械的D)世界是智能的[單選題]21.下列描述中,哪項不屬于Sqoop的缺點()A)無法控制任務的并發(fā)度B)格式緊耦合C)安全機制不夠完善D)connector必須符合JDBC模型[單選題]22.一個HDFS集群是由一個名字節(jié)點和多個()組成。A)索引節(jié)點B)根節(jié)點C)名字節(jié)點D)數(shù)據(jù)節(jié)點[單選題]23.Python語句print(0xA+0xB)的輸出結(jié)果是。()A)0xA+0xBB)A+BC)0xA0xBD)21[單選題]24.以下選項中由客戶端編碼決定的是()。--A)character_set_serverB)character_set_databaseC)character_sets_dirD)character_set_results[單選題]25.Numpy包中創(chuàng)建數(shù)組的函數(shù)為()。A)arrayB)shapeC)reshapeD)ndim[單選題]26.Hadoop2.7.1下,以下哪一項是DataNode的職責?()A)管理文件系統(tǒng)命名空間B)根據(jù)客戶端的請求執(zhí)行讀寫操作C)存儲元數(shù)據(jù)D)定期對NameNode中的內(nèi)存元數(shù)據(jù)進行更新和備份[單選題]27.MapReduce框架中,在Map和Reduce之間的combiner的作用是()A)對Map的輸出結(jié)果排序B)對中間過程的輸出進行本地的聚集C)對中間結(jié)果進行混洗D)對中間格式進行壓縮[單選題]28.關(guān)于大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系,下面描述錯誤的是:()A)區(qū)塊鏈使大數(shù)據(jù)極大降低信用成本B)區(qū)塊鏈是構(gòu)建大數(shù)據(jù)時代的信任基石C)區(qū)塊鏈是促進大數(shù)據(jù)價值流通的管道D)區(qū)塊鏈會提升大數(shù)據(jù)的信用成本[單選題]29.以下()不是NoSQL數(shù)據(jù)庫。A)MongoDBB)BigTableC)HBaseD)Access[單選題]30.下列哪部分不是專家系統(tǒng)的組成部分()A)用戶B)綜合數(shù)據(jù)庫C)推理機D)知識庫[單選題]31.國家電網(wǎng)有限公司數(shù)據(jù)管理辦法規(guī)定,在集中共享、服務應用方面,依托全業(yè)務統(tǒng)一數(shù)據(jù)中心和()進行數(shù)據(jù)歸集、共享應用,推動跨專業(yè)數(shù)據(jù)貫通融合。A)企業(yè)中臺B)業(yè)務中臺C)數(shù)據(jù)中臺D)國網(wǎng)云[單選題]32.假負率是指(__)。A)正樣本預測結(jié)果數(shù)/正樣本實際數(shù)B)被預測為負的正樣本結(jié)果數(shù)/正樣本實際數(shù)C)被預測為正的負樣本結(jié)果數(shù)/負樣本實際數(shù)D)負樣本預測結(jié)果數(shù)/負樣本實際數(shù)[單選題]33.以下哪項不屬于數(shù)據(jù)模型()A)關(guān)系模型B)網(wǎng)狀模型C)層次模型D)網(wǎng)絡模型[單選題]34.GaussDB200有兩張相同宇段結(jié)構(gòu)和數(shù)據(jù)量的表table1和table.2,table1是行存表,table2是列存表,執(zhí)行SQL語句"selectnamefromtable_namewherenum=-1",table1查詢了()數(shù)據(jù)量,table2查詢了()數(shù)據(jù)量(一個單元格為一個數(shù)據(jù)量).ZA)9.6B)3.9C)3.6D)9.9[單選題]35.下列選項中,不是常用于解決無約束凸優(yōu)化問題的優(yōu)化算法是?A)隨機梯度下降方法B)復合形法C)共軛方法D)Newton方法[單選題]36.大數(shù)據(jù)計算服務的開發(fā)人員創(chuàng)建了日志表,并且導入了歷史數(shù)據(jù)后發(fā)現(xiàn)表的一個字段命名拼寫有錯誤,可以采用()更正此問題成本最低。A)將原表重命名,然后建張正確的表,再導入歷史數(shù)據(jù)B)在表的末尾新添加一個字段C)刪除表后重建,然后重新導入歷史數(shù)據(jù)D)通過alter命令重新命令該字段[單選題]37.下列哪一項在神經(jīng)網(wǎng)絡中引入了非線性A)隨機梯度下降B)修正線性單元(ReLU)C)卷積函數(shù)D)以上都不正確[單選題]38.(__)是神經(jīng)網(wǎng)絡的基本單位。A)神經(jīng)系統(tǒng)B)神經(jīng)網(wǎng)絡C)神經(jīng)元D)感知機[單選題]39.RDD默認的存儲級別是()。A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND)DISKD.MEMORY_AND_DISK_SER[單選題]40.()可在一個關(guān)系中從垂直方向去掉不需要的屬性,保留需要的屬性。--A)選擇B)笛卡爾積C)連接D)投影[單選題]41.RDD的特點不包括()。A)RDD之間有依賴關(guān)系,可溯源B)RDD由很多partition構(gòu)成C)對RDD的每個split或partition做計算D)RDD可以增量更新[單選題]42.在大數(shù)據(jù)計算服務(MaxCompute,原ODPS)的數(shù)據(jù)倉庫中的訂單表fact_order,建表語句如下:createtablefact_order(order_idstring,order_amtdouble,order_dtstring)paititionedby(dtstring);此表中的數(shù)據(jù)是從ods_order加工而來,ods_order建表語句如下:createtableods_order(order_idstring.order_amtbigint,order_dtstring);ods_order中有一條記錄數(shù)據(jù)值是order_idorder_amtorder_dt000110020160301運行SQL語句將數(shù)據(jù)從ods_order加載到fact_order中:insertoverwritetablefact_orderpartition(dt=?20160301?)select*fromods_order;對此語句的執(zhí)行結(jié)果描述正確的是:()。A)語句可以執(zhí)行,但是這條數(shù)據(jù)會被當作臟數(shù)據(jù)丟棄B)目標表與源表中的數(shù)據(jù)類型不一致,執(zhí)行出錯C)提交SQL時會報語法錯誤D)語句可以執(zhí)行,order_amt的值會被自動的轉(zhuǎn)為double類型[單選題]43.具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)是()。A)海量數(shù)據(jù)B)大數(shù)據(jù)C)厚數(shù)據(jù)D)異構(gòu)數(shù)據(jù)[單選題]44.假設已經(jīng)配置好環(huán)境變量,啟動和關(guān)閉Hadoop的命令分別是().A)start-dfs.sh,stop-hdfs.shB)start-hdfs.sh,stop-hdfs.shC)start-dfs.sh,stop-dfs.shD)start-hdfs.sh,stop-dfs.sh[單選題]45.下面python循環(huán)體執(zhí)行的次數(shù)與其他不同的是。()A)i=0while(iB)i=10while(i>0):print(i)i=i-1C)forIinrange(10):Print(i)D)forIinrange(10,0,-1):print(i)[單選題]46.Python變量作為實參時,它和對應的形參之間數(shù)據(jù)傳遞方式是()。A)由形參傳給實參B)由實參傳給形參C)由實參傳給形參,再由形參傳給實參D)在用戶干預情況下,實參形參能相互傳遞[單選題]47.下面關(guān)于機器學習相關(guān)描述不正確的有(__)。A)機器學習的主要議題是如何實現(xiàn)和優(yōu)化機器的自我學習B)機器學習的基本思路是以訓練集為輸入,通過機器學習算法讓機器學習到能夠處理更多數(shù)據(jù)的能力C)AlphaGo的核心技術(shù)是深度學習與增強學習D)機器學習的只能是預定義的[單選題]48.層次聚類試圖在不同層次上對數(shù)據(jù)集進行劃分,從而形成(__)形結(jié)構(gòu)。A)圖B)環(huán)C)網(wǎng)D)樹[單選題]49.()是指對于數(shù)據(jù)局部不良行為的非敏感性,它是探索性分析追求的主要目標之一.A)魯棒性B)穩(wěn)定性C)可靠性D)耐抗性[單選題]50.從事前風險管理角度看,大數(shù)據(jù)背景下的貸款損失準備金是與(),相對應的一個概念。A)非預期損失B)預期損失C)特定損失D)不確定[單選題]51.()進程負責讀取目標端trail文件中的內(nèi)容,并將其解析為DML或DDL語句,然后應用到目標數(shù)據(jù)庫中。A)ManagerB)ExtractC)PumpD)Replicat[單選題]52.存儲過程的調(diào)用有幾種方式()?A)2B)3C)4D)1[單選題]53.大數(shù)據(jù)的本質(zhì)是()。A)挖掘B)聯(lián)系C)搜集D)洞察[單選題]54.一個HDFS集群是由一個()和多個數(shù)據(jù)節(jié)點組成。A)索引節(jié)點B)根節(jié)點C)名字節(jié)點D)數(shù)據(jù)節(jié)點[單選題]55.下列關(guān)于k近鄰算法,正確的是()A)k近鄰算法對異常數(shù)據(jù)敏感B)k近鄰算法是一種無監(jiān)督學習C)k近鄰算法需要占用大量內(nèi)存空間D)k近鄰算法包括訓練和預測過程[單選題]56.關(guān)于RDD,下列說法錯誤的是哪一項?A)RDD具有血統(tǒng)機制(Lineage)。B)RDD默認存儲在磁盤。C)RDD是一個只讀的,可分區(qū)的分布式數(shù)據(jù)集。D)RDD是Spark對基礎數(shù)據(jù)的抽象。[單選題]57.下列的處理過程與Reduce處理過程相似的是()。A)ShuffleB)CombinerC)PartitionD)Map[單選題]58.采用主成分分析法映射到低維空間,將最小的d-d′個特征向量舍棄,產(chǎn)生的影響是()。A)使樣本采樣密度增大B)丟失最優(yōu)解C)增大噪聲D)使樣本采樣密度減小[單選題]59.關(guān)于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的:()A)數(shù)據(jù)是規(guī)則的B)性能好(高并發(fā))C)缺乏統(tǒng)一的査詢語法D)復雜性低[單選題]60.異常檢測過程查找基于()組標準值偏差的異常個案。A)單體B)分類C)聚類D)回歸[單選題]61.下列關(guān)于代碼規(guī)范的描述錯誤的是()。A)類總是使用駝峰格式命名,即所有單詞首字母大寫其余字母小寫B(tài))除特殊模塊init之外,模塊名稱都使用不帶下劃線的小寫字母C)不要濫用*args和**kwargsD)建議把所有方法都放在一個類中[單選題]62.定義域為{飛機,火車,輪船}的離散屬性也可稱為稱為(__)。A)無序?qū)傩訠)有序?qū)傩訡)連續(xù)屬性D)離散屬性[單選題]63.一幅大小為512×512的8比特圖像,則該圖像大小為()。A)32KBB)128KBC)16KBD)256KB[單選題]64.以下不是開源工具特點的是()。A)免費B)可以直接獲取源代碼C)用戶可以修改源代碼并不加說明用于自己的軟件中D)開源工具一樣具有版權(quán)[單選題]65.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實現(xiàn)的功能是()。A)管理文件系統(tǒng)的命名空間B)管理存儲空間C)分配算力D)調(diào)控算法[單選題]66.大數(shù)據(jù)的本質(zhì)是()A)挖掘B)聯(lián)系C)搜集D)洞察[單選題]67.下面代碼中,創(chuàng)建的是一個3行3列數(shù)組的是()。A)arr=np.array([1,2,3])B)arr=np.array([[1,2,3],[4,5,6]])C)arr=np.array([[1,2],[3,4]])D)np.ones((3,3))[單選題]68.Hadoop系統(tǒng)中YARN資源的抽象是用:()表示。A)內(nèi)存B)CPUC)ContainerD)磁盤空間[單選題]69.下列哪個不是常用分詞方法?A)基于Tiretree的分詞方法B)基于HMM的分詞方法C)基于CRF的分詞方法D)基于Kmeans的分詞方法[單選題]70.執(zhí)行引擎的類型包括:()。A)行執(zhí)行引擎B)向量化執(zhí)行引擎C)行列混合執(zhí)行引擎D)以上都是[單選題]71.以下關(guān)于Hive內(nèi)置函數(shù)描述正確的是()。A)descfunctionsupper:查看系統(tǒng)自帶的函數(shù)B)to_date()獲取當前日期C)substr):求字符串長度D)trim0:去除空字符串[單選題]72.執(zhí)行以下代碼段cars=['bmw','audi','toyota','subaru']cars.sort()print(cars)時,輸出為()。A)['audi','bmw','subaru','toyota']B)['toyota','subaru','bmw','audi']C)['bmw','audi','toyota','subaru']D)['bmw','toyota','audi','subaru'][單選題]73.假設文件不存在,如果使用open()方法打開文件會報錯,那么該文件的打開方式是下列哪種?()A)rB)wC)aD)w+[單選題]74.下面哪項操作能實現(xiàn)跟神經(jīng)網(wǎng)絡中Dropout的類似效果?A)BoostingB)baggingC)StackingD)Mapping[單選題]75.HDFS集群中的NameNode職責不包括()。A)維護HDFS集群的目錄樹結(jié)構(gòu)B)維護HDFS集群的所有數(shù)據(jù)塊的分布、副本教和負載均衡C)負責保存客戶端上傳的數(shù)據(jù)D)響應客戶端的所有讀寫數(shù)據(jù)請求[單選題]76.對于Hive中關(guān)于普通表和外部表描述不正確的是?A)默認創(chuàng)建普通表B)刪除外部表時,只刪除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)C)外部實質(zhì)是將已存在于HDFS上的文件路徑跟表關(guān)聯(lián)起來D)刪除普通表時,元數(shù)據(jù)和數(shù)據(jù)同時被刪除[單選題]77.()主要代表的是數(shù)據(jù)的形態(tài)是否符合計算與算法要求。A)規(guī)整數(shù)據(jù)B)干凈數(shù)據(jù)C)算法數(shù)據(jù)D)抽樣數(shù)據(jù)[單選題]78.下面哪個變量命名是正確的A)123aB)abcC)$y6D)abc[單選題]79.解決Master故障的方法是設置檢查點,當Master失效時,從()檢查點開始啟動另一個Master進程。A)第一個B)中間一個C)最后一個D)隨機選擇一個[單選題]80.下列屬于分組表中的是()A)形狀B)風格C)背景D)標題[單選題]81.()反映數(shù)據(jù)的精細化程度,越細化的數(shù)據(jù),價值越高。A)規(guī)模B)靈活性C)關(guān)聯(lián)度D)顆粒度[單選題]82.ApacheHadoop是使用哪個協(xié)議發(fā)布的()A)ApacheLicense2.0B)SharewareC)MozillaPublicLicenseD)Commercial[單選題]83.下列哪個屬性是hdfs-site.xml中的配置?()A)dfs.replicationB)fs.defaultFSC)D)yarn.resourcemanager.address[單選題]84.以下圖像分割方法中,不屬于基于圖像灰度分布的閾值方法的是(___)。A)類間最大距離法B)最大類間、內(nèi)方差比法C)p-參數(shù)法D)區(qū)域生長法[單選題]85.()是基于規(guī)則的分類器。A)C4.5B)KNNC)NaiveBayesD)ANN[單選題]86.()在訓練的每一輪都要檢查當前生成的基學習器是否滿足基本條件A)支持向量機B)Boosting算法C)貝葉斯分類器D)Bagging算法[單選題]87.SQL語言的數(shù)據(jù)操縱語句包括SELECT、INSERT、UPDATE、DELETE等。其中最重要的,也是使用最頻繁的語句是()。A)UPDATEB)SELECTC)DELETED)INSERT[單選題]88.針對嚴格實施數(shù)據(jù)安全檢查通報,各單位保密管理部門、業(yè)務部門以及信息安全歸口管理部門應建立()。A)數(shù)據(jù)安全檢查機制B)質(zhì)量管理機制C)數(shù)據(jù)使用規(guī)范D)數(shù)據(jù)存儲規(guī)范[單選題]89.某籃運動員在蘭分線投球的命中率是2(1),他技球10次,恰好技進3個球的概率為()A)128(15)B)16(3)C)8(5)D)16(7)[單選題]90.當()時,可以不考慮RDD序列化處理。A)完成成本比較高的操作后B)執(zhí)行容易失敗的操作之前C)RDD被重復使用D)實時性要求高[單選題]91.(__)主要包括數(shù)據(jù)科學中的新理念、理論、方法、技術(shù)和工具以及數(shù)據(jù)科學的研究目的、研究內(nèi)容、基本流程、主要原則等。A)理論基礎B)數(shù)據(jù)管理C)基礎理論D)數(shù)據(jù)產(chǎn)品[單選題]92.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域"數(shù)據(jù)戰(zhàn)略"。A)數(shù)據(jù)戰(zhàn)略制定B)嘈業(yè)務術(shù)語表C)數(shù)據(jù)質(zhì)量評估D)過程質(zhì)量保障[單選題]93.在LogisticRegression中,如果同時加入L1和L2范數(shù),不會產(chǎn)生什么效果A)以做特征選擇,并在一定程度上防止過擬合B)能解決維度災難問題C)能加快計算速度D)可以獲得更準確的結(jié)果[單選題]94.CART決策樹使用?基尼指數(shù)?來選擇劃分屬性時,使劃分后基尼指數(shù)()的屬性為最優(yōu)劃分屬性。A)最大B)最小C)隨機選擇D)按序選擇[單選題]95.稅易通授信額度的基本計算模型:授信額度=()×年收入水平層級系數(shù)×納稅期限調(diào)整系數(shù)A)年收入總額B)月平均收入C)年度內(nèi)月最高收入D)季平均收入[單選題]96.有關(guān)kmeans算法,正確的說法是?()A)kmeans算法對異常樣本非常敏感,因此在聚類前要把異常樣本直接刪除。B)kmeans只能處理凸型分布的非數(shù)值型樣本。C)kmeans聚類的過程與初始的k個假設的聚類中心的選擇沒關(guān)。D)kmeans算法需要在聚類前確定類數(shù)k,這個k值需要有助于解釋各類的業(yè)務含義。[單選題]97.在使用MapReduce程序WordCount進行詞頻統(tǒng)計時,對于文本行?hellohadoophelloworld?,經(jīng)過WordCount程序的Map函數(shù)處理后直接輸出的中間結(jié)果,應該是下面哪種形式()。A)<"hello",1,1>、<"hadoop",1>和<"world",1>B)<"hello",2>、<"hadoop",1>和<"world",1>C)<"hello",<1,1>>、<"hadoop",1>和<"world",1>D)<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>[單選題]98.下列說法正確的是()。A)函數(shù)的名稱可以隨意命名B)帶有默認值的參數(shù)一定位于參數(shù)列表的末尾C)局部變量的作用域是整個程序D)函數(shù)定義后,系統(tǒng)會自動執(zhí)行其內(nèi)部的功能[單選題]99.運行下面代碼,輸出結(jié)果是()。D={-2,-1,0,1,2,3}n=d.pop()Print(n)A)-2B)2C)不確定D)3[單選題]100.機器學習中L1正則化和L2正則化的區(qū)別是()。A)使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B)使用L1可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C)使用L1可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D)使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值[單選題]101.FuslonlnslghtHadoop集群中,在某節(jié)點上通過df-hT查詢,看到的分區(qū)包含以下幾個∶var/log/srv/BigData/srv/BigData/hadoopidata5/srv/BigData/solr/solrserver3/srv/BigData/dbdata_om這些分區(qū)所對應磁盤最佳Raid級別的規(guī)劃組合是A)Raid0Raid1Raid0Non-RaidRaid1B)Raid1Raid1Non-RaidNon-raidRaid1C)Raid0Raid0Raid0Raid0Raid0D)Non-RaidNon-RaidNon-RaidNon-RaidRaid1[單選題]102.()是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。A)邊界點B)質(zhì)心C)離群點D)核心點[單選題]103.下面哪一個不屬于大數(shù)據(jù)倫理問題:()A)隱私泄露問題B)數(shù)據(jù)安全問題C)數(shù)字鴻溝問題D)數(shù)據(jù)冗余問題[單選題]104.empdet是一個外部表,它包含empno和ename列,哪個涉及empdet表的操作可以執(zhí)行成功A)UPDATEempdetSETename=?Amit?WHEREempno=1234;B)DELETEFROMempdetSETenameWHEREenameLIKE'J%'C)CREATEVIEWempvuASSELECT*FROMempdet;D)CREATEINDEXempdet_idxONempdet(empno)[單選題]105.當我們需要在一張圖表中特意指出某個特殊點,并加上標注達到醒目的目的時,需要用到()函數(shù)。A)plt.axvspan()B)plt.axhspan()C)plt.annotate()D)plt.text()[單選題]106.交叉驗證的目的是()。A)提高分類準確率B)得到更穩(wěn)定的模型C)驗證結(jié)果的準確性D)增大分類的誤差[單選題]107.可視化視覺下的數(shù)據(jù)類型不包括()。A)定類數(shù)據(jù)B)定序數(shù)據(jù)C)定寬數(shù)據(jù)D)定比數(shù)據(jù)[單選題]108.LSTM的全稱是()。A)卷積神經(jīng)網(wǎng)絡B)長短時記憶C)區(qū)域神經(jīng)網(wǎng)絡D)循環(huán)神經(jīng)網(wǎng)絡[單選題]109.Ndarray是一個通用的()數(shù)據(jù)容器。A)單維同類B)單維多類C)多維同類D)多維多類[單選題]110.從學科定位來看,數(shù)據(jù)科學處于(__)三大領域的重疊之處。A)統(tǒng)計學B)黑客精神與技能C)數(shù)學與統(tǒng)計知識D)領域務實知識[單選題]111.下面哪項通常是集群的最主要瓶頸()A)CPUB)網(wǎng)絡C)磁盤IOD)內(nèi)存[單選題]112.DataX是阿里集團發(fā)起的開源項目,是一種離線數(shù)據(jù)同步的工具,支持多種異構(gòu)數(shù)據(jù)源之間的高效數(shù)據(jù)同步。DataX任務配置文件使用()文件格式。A)javaB)bsonC)xmlD)json[單選題]113.下列企業(yè)中,最有可能成為典型的數(shù)據(jù)資產(chǎn)運營商的是()A)物聯(lián)網(wǎng)企業(yè)B)互聯(lián)網(wǎng)企業(yè)C)云計算企業(yè)D)電信運營商[單選題]114.Loader頁面是基于開源(的圖形化數(shù)據(jù)遷移管理工具。A)HadoopB)HueC)KettleD)Sqoop[單選題]115.下列關(guān)于聚類挖掘技術(shù)的說法中,錯誤的是()。A)不預先設定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B)要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C)要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D)與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進行分類處理[單選題]116.下列屬于無監(jiān)督學習的是()。A)K-meansB)SVMC)最大熵D)CRF[單選題]117.下面哪一項不是MapReduce體系結(jié)構(gòu)主要部分?A)ClientB)JobTrackerC)TaskTracker以及TaskD)Job[單選題]118.存儲過程的調(diào)用有幾種方式(A)3B)1C)4D)2[單選題]119.以下哪一種方法最適合在n(n>1)維空間中做異常點檢測A)馬氏距離B)正態(tài)分布圖C)散點圖D)盒圖[單選題]120.以下說法錯的是哪項A)大數(shù)據(jù)是一種思維方式B)大數(shù)據(jù)不僅僅是講數(shù)據(jù)的體量大C)大數(shù)據(jù)會帶來機器智能D)大數(shù)據(jù)的英文名稱是largedata[單選題]121.如果我們現(xiàn)有一個安裝2.6.5版本的Hadoop集群,在不修改默認配置的情況下存儲200個200M的文本文件,請問最終會在集群中產(chǎn)生()個數(shù)據(jù)塊(包括副本)。A)200B)40000C)400D)1200[單選題]122.關(guān)于神經(jīng)網(wǎng)絡結(jié)構(gòu)的權(quán)重共享現(xiàn)象,下面正確的是()A)只有全連接神經(jīng)網(wǎng)絡會出現(xiàn)B)只有卷積神經(jīng)網(wǎng)絡(αN)會出現(xiàn)C)只有循環(huán)神經(jīng)網(wǎng)絡(RNN)會出現(xiàn)D)卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡都會出現(xiàn)[單選題]123.數(shù)據(jù)資產(chǎn)維護是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行()等處理的過程。A)更正B)刪除C)補充錄入D)以上答案都正確[單選題]124.HBase是一種?NoSQL?數(shù)據(jù)庫,支持大型()數(shù)據(jù)存儲A)集中式B)集合式C)分布式D)分散式[單選題]125.國網(wǎng)公司泛在電力物聯(lián)網(wǎng)2019年建設方案要求,推進營配貫通優(yōu)化提升,貫通率提升()。A)5%B)7%C)10%D)15%[單選題]126.下面與HDFS類似的框架是_______?A)NTFSB)FAT32C)GFSD)EXT3[單選題]127.()算法可以用于特征選擇。A)樸素貝葉斯B)感知器C)支持向量機D)決策樹[單選題]128.有如下程序:y=6z=lambdax:x*yprint(z(8))程序的輸出結(jié)果是()。A)14B)24C)48D)64[單選題]129.觸發(fā)器不是響應以下哪一語句而自動執(zhí)行的Mysql語句A)selectB)insertC)deleteD)update[單選題]130.當我們構(gòu)造線性模型時,我們注意變量間的相關(guān)性.在相關(guān)矩陣中搜索相關(guān)系數(shù)時,如果我們發(fā)現(xiàn)3對變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我們可以得出什么結(jié)論:1.Var1和Var2是非常相關(guān)的2.因為Var1和Var2是非常相關(guān)的,我們可以去除其中一個3.Var3和Var1的1.23相關(guān)系數(shù)是不可能的A)1and3B)1and2C)1,2and3D)1[單選題]131.以下哪個屬于大數(shù)據(jù)在電信行業(yè)的數(shù)據(jù)商業(yè)化方面的應用()。A)精準廣告B)網(wǎng)絡管理C)網(wǎng)絡優(yōu)化D)客服中心優(yōu)化[單選題]132.在野外部署有許多傳感器,用于實時采集空氣質(zhì)量數(shù)據(jù),當數(shù)據(jù)傳回數(shù)據(jù)中心后,在存儲之前需要進行數(shù)據(jù)的預處理操作,那么如下哪些操作部署于數(shù)據(jù)預處理所采用的方法()。A)數(shù)據(jù)變換B)缺失數(shù)據(jù)填充C)數(shù)據(jù)不一致性檢測D)以上都是[單選題]133.以下哪些選項屬于實時檢索的特點?A)處理時間要求不高B)全文檢素功能C)高并發(fā)D)查詢響應要求較高[單選題]134.用戶可通過()提供的一些接口查看作業(yè)運行狀態(tài)。A)TaskTrackB)TaskC)ClientD)JobTracker[單選題]135.以下對Hadoop的說法錯誤的是()。A)Hadoop是基于Java語言開發(fā)的,只支持Java語言編程B)Hadoop2.0增加了NameNodeHA和Wire-compatibility兩個重大特性C)HadoopMapReduce是針對谷歌MapReduce的開源實現(xiàn),通常用于大規(guī)模數(shù)據(jù)集的并行計算D)Hadoop的核心是HDFS和MapReduce[單選題]136.HBase自動把表水平劃分成()。A)塊B)單元C)域D)區(qū)域[單選題]137.有三個表,它們的記錄行數(shù)分別是10行、2行和6行,三個表進行交叉連接后,結(jié)果集中共有()行數(shù)據(jù)A)18B)26C)不確定D)120[單選題]138.支持向量機優(yōu)化問題的形式是(__)。A)一個不含約束的二次規(guī)劃問題B)一個含有等式約束的二次規(guī)劃問題C)一個含有不等式約束的二次規(guī)劃問題D)一個含有不等式約束的線性規(guī)劃問題[單選題]139.下列聲明游標的語法格式中,正確的是()。--A)DECLAREcursor_nameCURSORFORselect_statementB)CURSORcursor_nameFORselect_statementC)DECLAREcursor_nameCURSOROFselect_statementD)CURSORcursor_nameOFselect_statement[單選題]140.優(yōu)化新興業(yè)務和()管理模式、市場化用工策略,加大人才引進力度,建立激勵措施,培養(yǎng)適應泛在電力物聯(lián)網(wǎng)建設和發(fā)展要求的人才隊伍。A)產(chǎn)業(yè)公司B)技術(shù)公司C)產(chǎn)能公司D)智能公司[單選題]141.Python標示注釋使用符號是以下哪個?A)@B)&C)#D)0[單選題]142.下列處理方法能獲得像素級標注的是()。A)圖像分類B)物體檢測C)圖像去噪D)語義分割[單選題]143.()是人類獲得信息的最主要途徑.A)味覺B)視覺C)聽覺D)觸覺[單選題]144.下列說法錯誤的是()A)MapReduce中maperconbinerreducer缺一不可B)在JobConf中InputFormat參數(shù)可以不設C)在JobConf中MapperClass參數(shù)可以不設D)在JobConf中OutputKeyComparator參數(shù)可以不設第2部分:多項選擇題,共63題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.根據(jù)數(shù)據(jù)流如何在兩個TransFormation之間傳輸數(shù)據(jù),數(shù)據(jù)流可以分為那些類型?A)一對一流B)distributing流C)一對多流D)redistributig流[多選題]146.噪聲數(shù)據(jù)的主要表現(xiàn)形式有().A)錯誤數(shù)據(jù)B)虛假數(shù)據(jù)C)異常數(shù)據(jù)D)缺失數(shù)據(jù)[多選題]147.下列對Shuffle過程的期望描述正確的是()。A)盡可能的將所有數(shù)據(jù)打亂B)將Map的輸出數(shù)據(jù)完整地傳輸?shù)絉educe端C)在傳輸數(shù)據(jù)時,盡可能得減少不必要的帶寬消耗D)降低磁盤I/O的影響[多選題]148.下列語句錯誤的是()A)select*fromorderswhereordernameisnotnull;B)select*fromorderswhereordername<>null;C)select*fromorderswhereordernameisnull;D)select*fromorderswhereordernamenotisnull;[多選題]149.下面對union的描述不正確的是()A)union只連接結(jié)果集完全一樣的查詢語句B)union可以連接結(jié)果集中數(shù)據(jù)類型個數(shù)相同的多個結(jié)果集C)union是篩選關(guān)鍵詞,對結(jié)果集再進行操作D)任何查詢語句都可以用union來連接[多選題]150.以下()屬于《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號)明確提出的主要任務。A)加快政府數(shù)據(jù)開放共享,推動資源整合,提升治理能力B)推動產(chǎn)業(yè)創(chuàng)新發(fā)展,培育新興業(yè)態(tài),助力經(jīng)濟轉(zhuǎn)型C)強化安全保障,提高管理水平,促進健康發(fā)展D)從國家信息化發(fā)展的戰(zhàn)略全局把握大數(shù)據(jù)的概念與范疇[多選題]151.根據(jù)《泛在電力物聯(lián)網(wǎng)2019年建設方案》,按照分類別、分等級、分區(qū)域的原則,綜合示范任務四大類包括省級綜合示范及()等。A)園區(qū)級綜合示范B)地市級綜合示范C)國家級綜合示范D)縣級綜合示范[多選題]152.規(guī)整數(shù)據(jù)(TidyData)應滿足的基本原則有()。A)每個實體占且僅占一個關(guān)系(表)。B)每個觀察占且僅占一行。C)每個變量占且僅占一列。D)每一類觀察單元構(gòu)成一個關(guān)系(表)。[多選題]153.DRDS的全局唯一ID主要特點有:()。A)全局有序B)沒有單點性能瓶頸C)全局唯一D)大并發(fā)獲取[多選題]154.關(guān)于GaussDB200.下列說法正確的是(?A)支持并行架構(gòu),行列混存。B)部署的服務器都必須是華為定制的。C)支持多節(jié)點,但擴展性差。D)支持master/slave架構(gòu),可靠性強。[多選題]155.與傳統(tǒng)金融機構(gòu)相比,互聯(lián)網(wǎng)金融具有以下特點()A)業(yè)務競爭自由化B)業(yè)務經(jīng)管信息化C)業(yè)務運行網(wǎng)絡化D)業(yè)務交易?平民化[多選題]156.以下對模型性能提高有幫助的是()A)數(shù)據(jù)預處理B)特征工程C)機器學習算法D)模型集成[多選題]157.Kafka的應用場景有哪些?A)元信息監(jiān)控B)行為監(jiān)控C)流處理D)數(shù)據(jù)處理[多選題]158.下列表示同一種學習方法的是(__)。A)集成學習B)多分類器系統(tǒng)C)基于委員會的學習D)平均策略[多選題]159.關(guān)于數(shù)據(jù)科學的基本原則,下面說法正確的是()A)數(shù)據(jù)科學的研究和應用的獨特視角為?數(shù)據(jù)能為我做什么?B)數(shù)據(jù)科學強調(diào)的是將數(shù)據(jù)轉(zhuǎn)換為信息、知識和智慧之后,用它們解決實際問題C)數(shù)據(jù)科學不是?一個人的舞臺?,而是?一個團隊的平臺?D)?基于數(shù)據(jù)的智能?的重要特點是?數(shù)據(jù)復雜、但算法簡單?[多選題]160.以下關(guān)于HBase說法正確的是()A)面向列的數(shù)據(jù)庫B)非結(jié)構(gòu)化的數(shù)據(jù)庫C)支持大規(guī)模的隨機、實時讀寫D)采用松散數(shù)據(jù)模型[多選題]161.Fusionlnsight系統(tǒng)中Hive支持的存儲格式包括A)HFileB)TextFileC)SequenceFileD)RCFile[多選題]162.目前,機器學習領域所面臨的主要挑戰(zhàn)包括().A)過擬合B)維度災難C)特征工程D)算法的可擴展性[多選題]163.網(wǎng)絡爬蟲的類型主要包括:()A)通用網(wǎng)絡爬蟲B)聚焦網(wǎng)絡爬蟲C)增量式網(wǎng)絡爬蟲D)深層網(wǎng)絡爬蟲[多選題]164.(__)由兩個簇的最近樣本決定,(__)由兩個簇的最遠樣本決定,(__)由兩個簇的所有樣本共同決定。A)樣本距離B)最小距離C)最大距離D)平均距離[多選題]165.np.set_printoptions()函數(shù)可以設置的內(nèi)容包括(__)。A)保留幾位小數(shù)B)強制格式化C)是否使用科學記數(shù)法D)禁用省略打印[多選題]166.以下布爾表達式在邏輯上等同的是哪幾個()?A)1==1and2==1B)1==1or2!=1C)1!=0and2==1D)"test"==1[多選題]167.國家網(wǎng)絡意識形態(tài)安全的重要組成部分包括()。A)網(wǎng)站門戶內(nèi)容安全B)在線業(yè)務應用內(nèi)容安全C)信息發(fā)布安全D)通信群組內(nèi)容安全[多選題]168.HIS表色系的三屬性包含()。A)色調(diào)B)飽和度C)亮度D)色度[多選題]169.Maxcompute中,當一個大表和多個小表做連接時,可以考慮使用mapjoin,以下關(guān)于mapjoin的限制,說法正確的是:()。A)leftouterjoin的左表必須是大表,innerjoin左表或者右表都可以為大表B)fullouterjoin不能使用mapjoinC)最多支持8張小表D)所有小表占用內(nèi)存綜合不能超過256M[多選題]170.從IDC的大數(shù)據(jù)生態(tài)系統(tǒng)圖可看出,大數(shù)據(jù)生態(tài)系統(tǒng)是一種的復雜系統(tǒng),主要涉及()。A)數(shù)據(jù)采集B)數(shù)據(jù)生產(chǎn)C)數(shù)據(jù)處理D)業(yè)務流程[多選題]171.在決策樹基本算法中,有三種情形會導致遞歸返回,這三種情形分別是(__)。A)當前結(jié)點包含的樣本全屬于同一類別,無需劃分B)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分C)當前結(jié)點包含的樣本集合為空,不能劃分D)當前結(jié)點包含的樣本不屬于同一類別,不可劃分[多選題]172.你可以使用(___)語言在Hadoop中進行編碼。A)JavaB)PythonC)C++D)Ruby[多選題]173.關(guān)于數(shù)據(jù)倉庫Impala的描述正確的是:()A)Impala是由Oracle公司開發(fā)的查詢系統(tǒng)B)與Hive類似,Impala也可以直接與HDFS和HBase進行交互C)Impala采用了與商用MPP并行關(guān)系數(shù)據(jù)庫類似的分布式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數(shù)據(jù),而不需要把SQL語句轉(zhuǎn)化成MapReduce任務來執(zhí)行D)Impala和Hive采用了不同的SQL語法、ODBC驅(qū)動程序和用戶接口[多選題]174.半結(jié)構(gòu)化數(shù)據(jù)包括()。A)Excel表格B)HTMLC)檢查身體后得到的體檢報告D)銀行賬戶上的消費記錄[多選題]175.RDD有哪些缺陷?()A)不支持細粒度的寫和更新操作(如網(wǎng)絡爬蟲)B)基于內(nèi)存的計算C)擁有schema信息D)不支持增量迭代計算[多選題]176.與開源sqoop相比,loader具有哪些增強特性?A)高可靠性B)高性能C)安全性D)圖形化[多選題]177.下列正確的命令是()A)showtables;B)showcolumns;C)showcolumnsfromcustomers;D)showdatabases;[多選題]178.下列關(guān)于自然語言處理中的關(guān)鍵詞提取的說法正確的是?A)關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法B)TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C)文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D)這個問題設計數(shù)據(jù)挖掘,文本處理,信息檢索等領域[多選題]179.數(shù)據(jù)表在設計時應遵循以下()原則。--A)避免數(shù)據(jù)經(jīng)常發(fā)生變化B)避免經(jīng)常修改表結(jié)構(gòu)C)盡可能詳細地記錄日志D)避免刪除數(shù)據(jù)[多選題]180.關(guān)于Hadoop提供的計數(shù)器,下面說法正確的是()A)Hadoop默認使用了若干計數(shù)器,用戶也可以自定義計數(shù)器B)在map和reduce函數(shù)中,可以通過API對計數(shù)器進行累加C)計數(shù)器是全局可見的D)計數(shù)器結(jié)果均需要在網(wǎng)絡中傳輸[多選題]181.以下()屬于數(shù)據(jù)統(tǒng)計分析工具。A)WekaB)SASC)SPSSD)Matlab[多選題]182.Spark運行架構(gòu)具有以下哪些特點?A)每個Application都有自己專屬的Executor進程,并且該進程在Application運行期間一直駐留B)Executor進程以多線程的方式運行TaskC)Spark運行過程與資源管理器無關(guān),只要能夠獲取Executor進程并保持通信即可D)Task采用了數(shù)據(jù)本地性和推測執(zhí)行等優(yōu)化機制[多選題]183.Kafka中刪除消息的閾值有哪幾種?A)數(shù)據(jù)產(chǎn)生的時間B)數(shù)據(jù)使用的頻率C)硬盤總空間大小D)分區(qū)總?cè)罩敬笮多選題]184.以下對大數(shù)據(jù)4V特性描述正確的是()。A)Value是指價值密度低B)大數(shù)據(jù)中所說的?速度?包括兩種:計算速度和處理速度C)大數(shù)據(jù)時間分布是不均勻的D)在大數(shù)據(jù)中,價值價值與數(shù)據(jù)總量的大小存在線性關(guān)系[多選題]185.下列選項中,屬于循環(huán)語句的有()。--A)LOOPB)REPEATC)WHILED)LEAVE[多選題]186.決策樹在()情況下會導致遞歸返回A)當前節(jié)點包含的樣本全屬于同一類B)當前屬性集為空C)當前節(jié)點包含的樣本集合為空D)所有樣本在所有屬性上取值相同[多選題]187.下列方法中,可以用于特征降維的方法包括()A)主成分分析PCAB)線性判別分析LDAC)深度學習SparseAutoEncoderD)矩陣奇異值分解SVD[多選題]188.詞袋模型的局限性表現(xiàn)在()。A)需要仔細考慮詞匯表的構(gòu)建B)信息檢索C)向量的稀疏問題D)沒有考慮到語序[多選題]189.關(guān)于繼承,以下陳述錯誤的是()。A)一個類的受保護成員可以被繼承B)繼承類稱為子類C)一個類的私有成員可以被繼承和訪問D)繼承是OOP的功能之一[多選題]190.大數(shù)據(jù)在電信行業(yè)有哪些應用()A)網(wǎng)絡運維優(yōu)化B)網(wǎng)絡規(guī)劃建設C)太空通信D)市場推送[多選題]191.Flink系統(tǒng)主要由哪兩個組件組成:()A)JobManagerB)TaskManagerC)JobTrackerD)TaskTracker[多選題]192.關(guān)于select語句下列說法正確的是()A)select(name)fromtableperson:所有記錄的name字段的值B)select(name)frompersonwhereage=12orname="aa";or或者C)select(name)fromtablepersonwhereage=12;查找age=12的記錄的那個字段的值D)select(name,age)frompersonwhereage=12andname="aa";and并且[多選題]193.下面哪兩個函數(shù)可以實現(xiàn)文本數(shù)據(jù)類型和數(shù)值數(shù)據(jù)類型的相互轉(zhuǎn)換()A)BinaryToStringB)NumericToStringC)StringToNumericD)CsnToString[多選題]194.傳統(tǒng)的IT資源獲取方式的主要缺點是:()A)初期成本高,建設周期長B)后期需要自己維護,使用成本高C)IT資源供應量有限D(zhuǎn))IT資源供應量無限[多選題]195.ss=ShuffleSplit(n_splits=4,random_state=0,test_size=0.25)對這句代碼說法正確的是(__)。A)采用了k折交叉驗證法B)劃分訓練集和測試集的次數(shù)是4次C)測試集和訓練集的比例一定是1:4D)測試集的個數(shù)是:n×0.25向上取整[多選題]196.下列Python文件模式中,文件會被覆蓋的是(___)。A)?r?B)?W?C)?a?D)?W+?[多選題]197.Zookeeper可以為FusionInsightHD中哪些組件提供分布式管理支持?A)HiveB)LoaderC)HBaseD)Spark[多選題]198.YARN容量調(diào)度器的主要特點有哪些?A)容量保證B)靈活性C)多重租憑D)動態(tài)更新配置文件[多選題]199.下面屬于數(shù)據(jù)產(chǎn)品開發(fā)的特征有(__)。A)以數(shù)據(jù)為中心B)多樣性C)層次性D)增值性[多選題]200.主動勾選、主動點擊()等行為屬于?明示同意?A)同意B)注冊C)發(fā)送D)撥打[多選題]201.半監(jiān)督學習中,對未標記樣本所揭示的數(shù)據(jù)分布信息與類別標記相聯(lián)系的假設的有(__)和(__)。A)歸納假設B)聚類假設C)流形假設D)基本假設[多選題]202.MaxCompute的控制層由:()部分組成。A)WorkerB)SchedulerC)MasterD)Executor[多選題]203.數(shù)據(jù)科學項目主要涉及的活動包括()。A)模式/模型的應用及維護B)模式/模型的洞見C)結(jié)果的可視化與文檔化D)模式/模型的驗證和優(yōu)化[多選題]204.下列屬于關(guān)鍵詞提取算法的有()。A)TF-IDF算法B)TextRank算法C)LSA(潛在語義分析)D)LDA[多選題]205.TaskScheduler的調(diào)度策略有()A)FIFOSchedulerB)FAIRSchedulerC)CapacitySchedulerD)QosScheduler[多選題]206.根據(jù)《大數(shù)據(jù)風控平臺項目操作手冊》,日常工作提示(預警)中的近30天存在外部風險信息提示,涵蓋工商變更信息、輿情風險信息、司法風險信息、行政處罰信息、股權(quán)凍結(jié)信息、()、()、()、()9大類風險信息。A)股權(quán)出質(zhì)信息B)動產(chǎn)抵押信息C)涉稅信息D)環(huán)保信息E)以上都不對第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.可以給項目空間外的主體授權(quán)。A)正確B)錯誤[判斷題]208.流計算對不同的項目進行了嚴格的項目權(quán)限區(qū)分,不同用戶/項目之間是無法進行訪問、操作。A)正確B)錯誤[判斷題]209.通常把分類錯誤的樣本數(shù)量與分類正確樣本數(shù)量的比例稱為"錯誤率"0()A)正確B)錯誤[判斷題]210.集合可以作為元組的元素。A)正確B)錯誤[判斷題]211.YARN上有兩個四級隊列Q1與Q2,容量都是50,Q1上已經(jīng)有10個任務并占用了40的容量,Q2上有2個任務共占用了30的容量,那么由于Q1的任務數(shù)多,調(diào)度器會優(yōu)先將資源分配給Q1.A)正確B)錯誤[判斷題]212.假設已導入random標準庫,那么表達式max([randomA)正確B)錯誤[判斷題]213.定義函數(shù)時,即使該函數(shù)不需要接收任何參數(shù),也必須保留一對空的圓括號來表示這是一個函數(shù)。A)正確B)錯誤[判斷題]214.()當一個表中所有行都被delete語句刪除后,該表也同時被刪除了。A)正確B)錯誤[判斷題]215.服務器選型可以選擇云主機和物理機。A)正確B)錯誤[判斷題]216.MySQL5.7中只有InnoDB存儲引擎支持外鍵約束。--A)正確B)錯誤[判斷題]217.加入使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓練測試,訓練樣本準確率一定增加或保持不變A)正確B)錯誤[判斷題]218.任意長度的Python列表、元組和字符串中最后一個元素的下標0。A)正確B)錯誤[判斷題]219.已知x是一個列表,那么x=x[3:]+x[:3]可以實現(xiàn)把列表x中的所有元素循環(huán)左移3位。A)正確B)錯誤[判斷題]220.Python元組支持雙向索引。A)正確B)錯誤[判斷題]221.機器學習只強調(diào)二個關(guān)鍵詞:算法,模型。A)正確B)錯誤[判斷題]222.在MySQLWorkbench建模工具中,NN表示表對應字段設置了非空約束。--A)正確B)錯誤[判斷題]223.在Spark中引人RDD概念的目的是實現(xiàn)Spark的串行操作和靈活的容錯能力。A)正確B)錯誤[判斷題]224.Pandas對象(Index,Series,DataFrame)相當于數(shù)組的容器,用于存儲數(shù)據(jù)、執(zhí)行計算。A)正確B)錯誤[判斷題]225.實時流處理架構(gòu)可用于公安監(jiān)控業(yè)務、金融反欺詐業(yè)務或者其他實時業(yè)務。A)正確B)錯誤[判斷題]226.數(shù)據(jù)已成為公司的戰(zhàn)略核心資產(chǎn),各類數(shù)據(jù)在公司生產(chǎn)運行、經(jīng)營管理、客戶服務等領域發(fā)揮重要作用,同時,網(wǎng)站門戶、在線業(yè)務應用和通信群組的內(nèi)容安全已成為國家網(wǎng)絡意識J彭態(tài)安全的重要組成部分。()A)正確B)錯誤[判斷題]227.批處理優(yōu)先推薦使用Spark或SparkSQL模式,也可以便用MapReduce或出Hive模式。兩種批處理模式可以同時使用。A)正確B)錯誤[判斷題]228.政府信息公開的意義主要體現(xiàn)在提高了政府透明度。A)正確B)錯誤[判斷題]229.我們無法將儀表盤圖設置為?溫度計?狀;()A)正確B)錯誤[判斷題]230.谷歌流感趨勢預測依賴于對隨機抽樣的分析A)正確B)錯誤[判斷題]231.邏輯域構(gòu)建了協(xié)議、軟件、數(shù)據(jù)等組成的信息活動域A)正確B)錯誤[判斷題]232.Python中用于表示邏輯與、邏輯或、邏輯非運算的關(guān)鍵字分別是or,and,not。A)正確B)錯誤[判斷題]233.分類預測型任務從已分類的數(shù)據(jù)中學習模型,并對新的未知分類的數(shù)據(jù)使用該模型進行解釋,得到這些數(shù)據(jù)的分類。根據(jù)標簽的不同,分別稱為分類任務和預測任務。如果類標簽是連續(xù)的類別,稱為預測任務。()A)正確B)錯誤[判斷題]234.只能對列表進行切片操作,不能對元組和字符串進行切片操作。A)正確B)錯誤[判斷題]235.當以指定?鍵?為下標給字典對象賦值時,若該?鍵?存在則表示修改該?鍵?對應的?值?,若不存在則表示為字典對象添加一個新的?鍵-值對?。A)正確B)錯誤[判斷題]236.大數(shù)據(jù)時代注重讓數(shù)據(jù)說話也同樣崇尚經(jīng)驗主義。A)正確B)錯誤[判斷題]237.Python類不支持多繼承。A)正確B)錯誤[判斷題]238.表達式'abc'in('abcdefg')的值為True。A)正確B)錯誤[判斷題]239.Hadoop是由Java語言開發(fā)的。()A)正確B)錯誤[判斷題]240.[5foriinrange(3)]的值為[5,5,5]。A)正確B)錯誤[判斷題]241.大數(shù)據(jù)離線批處理支持SQL類作業(yè)和自定義作業(yè)。A)正確B)錯誤[判斷題]242.Flink適用于高并發(fā)處理數(shù)據(jù)、毫秒級時延應用。A)正確B)錯誤[判斷題]243.隨機分布和均勻分布是相同的A)正確B)錯誤[判斷題]244.對于PCA(主成分分析)轉(zhuǎn)化過的特征,樸素貝葉斯的不依賴假設總是成立,因為所有主要成分是正交的。()A)正確B)錯誤[判斷題]245.()結(jié)構(gòu)化查詢語言只涉及查詢數(shù)據(jù)的語句,并不包括修改和刪除數(shù)據(jù)的語句。A)正確B)錯誤[判斷題]246.安裝Python擴展庫時只能使用pip工具在線安裝,如果安裝不成功就沒有別的辦法了。A)正確B)錯誤[判斷題]247.()所創(chuàng)建的數(shù)據(jù)庫和表的名字,都可以使用中文。A)正確B)錯誤[判斷題]248.ResourceManager采用高可用方案,當Activeresourcemanager發(fā)現(xiàn)故障時,只能通過內(nèi)置的Zookeeper來啟動standby的resourcemanager,將其狀態(tài)切換為active。A)正確B)錯誤第4部分:問答題,共11題,請在空白處填寫正確答案。[問答題]249.目前ApacheHadoop發(fā)布的版本主要有()()()[問答題]250.Zookeeper集群主要有()三種角色。[問答題]251.Zookeeper監(jiān)聽服務器流程()客戶端連接Zookeeper并注冊Watch,監(jiān)聽節(jié)點/servers()各個服務器啟動后連接Zookeeper,向節(jié)點/servers創(chuàng)建臨時節(jié)點server。若服務器斷開連接,臨時節(jié)點消失()Zookeeper將節(jié)點變化狀態(tài)返回給客戶端,客戶端取得所有子節(jié)點列表。[問答題]252.全分布模式又有什么注意點?[問答題]253.為什么SSH本地主機需要密碼?[問答題]254.()用于維護文件系統(tǒng)名稱并管理客戶端對文件的訪問,()存儲真實的數(shù)據(jù)塊。[問答題]255.Hive自定義函數(shù)中的()(請?zhí)顚懹⑽目s寫)用于接收單個數(shù)據(jù)行,并產(chǎn)生多個數(shù)據(jù)行作為輸出。[問答題]256.SparkonYarn-client適合用于生產(chǎn)環(huán)境是因為可以更快的看到APP的輸出。A)TRUEB)FALSE[問答題]257.Flume的tertises配置文件中可以配置多個channel來傳輸數(shù)據(jù)A)TrueB)False[問答題]258.Hadoop創(chuàng)建多級目錄()的命令為(hadoopfs-mkdir-p/a/b/c)[問答題]259.簡述實例方法、類方法、靜態(tài)方法的區(qū)別。[多選題]260.我們想要訓練一個阻模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),有效地訓練模型可以采取的措施是()A)對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B)嘗試使用在線機器學習算法C)使用PCA算法減少特征維度1.答案:A解析:2.答案:A解析:3.答案:C解析:4.答案:A解析:5.答案:D解析:6.答案:B解析:7.答案:B解析:8.答案:A解析:9.答案:A解析:10.答案:C解析:11.答案:C解析:12.答案:D解析:13.答案:C解析:14.答案:C解析:15.答案:B解析:16.答案:A解析:17.答案:C解析:18.答案:C解析:19.答案:D解析:20.答案:A解析:21.答案:A解析:22.答案:D解析:23.答案:D解析:24.答案:D解析:25.答案:A解析:26.答案:B解析:27.答案:B解析:Combiner的意義就是對每一個MapTask的輸出進行局部匯總,以咸小網(wǎng)絡傳輸量。28.答案:D解析:29.答案:D解析:30.答案:A解析:31.答案:C解析:32.答案:B解析:33.答案:D解析:34.答案:C解析:35.答案:B解析:36.答案:D解析:37.答案:B解析:38.答案:C解析:39.答案:A解析:RDD存儲級別定義。40.答案:D解析:41.答案:D解析:42.答案:D解析:43.答案:B解析:GB/T35295-2017《信息技術(shù)/大數(shù)據(jù)/術(shù)語》認為,大數(shù)據(jù)是具有體量大、來源多樣、生成極快、多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。44.答案:C解析:45.答案:A解析:46.答案:D解析:47.答案:D解析:48.答案:D解析:49.答案:D解析:50.答案:B解析:51.答案:D解析:52.答案:D解析:53.答案:D解析:54.答案:C解析:55.答案:C解析:56.答案:B解析:57.答案:C解析:58.答案:A解析:低維空間與原始高維空間必有不同,因為對應于最小的d-d'個特征值的特征向量被舍棄了,這是降維導致的結(jié)果。但舍棄這部分信息往往是必要的:一方面舍棄這部分信息之后能使樣本的采樣密度增大,這正是降維的重要動機;另一方面,當數(shù)據(jù)受到噪聲影響時,最小的特征值所對應的特征向量往往與噪聲有關(guān)。將它們舍棄能在一定程度上起到去噪的效果。59.答案:A解析:60.答案:C解析:異常檢測過程查找基于聚類組標準值偏差的異常個案。該過程設計為在探索性數(shù)據(jù)分析步驟中,快速檢測到用于數(shù)據(jù)審核的異常個案,并優(yōu)先于任何推論性數(shù)據(jù)分析。61.答案:D解析:以上關(guān)于代碼規(guī)范的描述中,把所有方法都放在一個類中是錯誤的。62.答案:A解析:63.答案:D解析:64.答案:C解析:延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。65.答案:A解析:NameNode負責管理文件系統(tǒng)的命名空間。66.答案:D解析:67.答案:D解析:68.答案:C解析:69.答案:D解析:70.答案:D解析:71.答案:D解析:72.答案:A解析:73.答案:D解析:74.答案:B解析:75.答案:C解析:76.答案:C解析:77.答案:A解析:78.答案:D解析:79.答案:C解析:從最后一個檢查點開始啟動另一Master進程使得因故障產(chǎn)生的影響更小。80.答案:A解析:class="fr-ficfr-dib"BCD其他表都有。81.答案:D解析:顆粒度反映的是數(shù)據(jù)的精細化程度。82.答案:A解析:83.答案:A解析:84.答案:D解析:85.答案:A解析:基于規(guī)則的分類器有決策樹、隨機森林、Aprior,C4.5屬于決策樹算法。86.答案:B解析:87.答案:B解析:88.答案:A解析:89.答案:A解析:90.答案:D解析:RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當RDD被重復使用或者計算其代價很高時進行。91.答案:C解析:92.答案:A解析:93.答案:D解析:94.答案:B解析:95.答案:A解析:96.答案:D解析:97.答案:D解析:98.答案:B解析:函數(shù)名稱定義應符合語法;局部變量作用于函數(shù)中;函數(shù)定義后需調(diào)用才能執(zhí)行。99.答案:C解析:集合中元素是無序的。100.答案:A解析:使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。101.答案:B解析:102.答案:C解析:離群點(outlier)是指數(shù)值中遠離數(shù)值的一般水平的極端大值和極端小值。103.答案:D解析:104.答案:C解析:105.答案:C解析:annotate()函數(shù)為圖的某個位置添加注解。310106.答案:B解析:107.答案:C解析:108.答案:B解析:109.答案:C解析:Ndarray可以容納多維數(shù)據(jù),且數(shù)組每個元素的類型相同。110.答案:A解析:111.答案:C解析:112.答案:D解析:113.答案:D解析:114.答案:D解析:115.答案:B解析:聚類挖據(jù)技術(shù)中要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小。116.答案:A解析:K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進行分類組織的過程,這是一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論