大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)_第1頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)_第2頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)_第3頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)_第4頁
大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)開發(fā)基礎(chǔ)大數(shù)據(jù)開發(fā)基礎(chǔ)(習(xí)題卷44)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎(chǔ)第1部分:單項(xiàng)選擇題,共57題,每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.LSM更能保證哪種操作的性能?A)讀B)寫C)隨機(jī)讀D)合并答案:B解析:LSM的思想,在于對數(shù)據(jù)的修改增量保持在內(nèi)存中,達(dá)到指定的限制后將這些修改操作批量寫入到磁盤中,相比較于寫入操作的高性能,讀取需要合并內(nèi)存中最近修改的操作和磁盤中歷史的數(shù)據(jù),即需要先看是否在內(nèi)存中,若沒有命中,還要訪問磁盤文件。[單選題]2.HBase使用一個(gè)()節(jié)點(diǎn)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。A)NameNodeB)DataNodeC)JobTrackerD)Master答案:D解析:HBase中由一個(gè)Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。[單選題]3.下列()是合法的標(biāo)識符?A)12classB)voidC)-5D)_blank答案:D解析:[單選題]4.數(shù)據(jù)故事話的?情景'不包括()。A)還原情景B)統(tǒng)計(jì)情景C)移植情景D)虛構(gòu)情景答案:B解析:[單選題]5.以下關(guān)于HDFS適合做什么描述正確的是A)低延遲讀取B)大文件存儲C)大量小文件存儲D)隨機(jī)寫入答案:B解析:[單選題]6.在數(shù)據(jù)科學(xué)中,()是相對于?亂數(shù)據(jù)(MessyData)?的一種提法,主要代表的是數(shù)據(jù)的形態(tài)是否符合計(jì)算和算法的要求。A)干凈數(shù)據(jù)(CleanData)B)數(shù)字化數(shù)據(jù)(DigitalData)C)規(guī)整數(shù)據(jù)(TidyData)D)集成數(shù)據(jù)(EnsembleData)答案:C解析:[單選題]7.下列選項(xiàng)中關(guān)于統(tǒng)一數(shù)據(jù)訪問接口功能敘述不正確的一項(xiàng)為()。A)不同的數(shù)據(jù)展示、存儲和管理B)訪問接口與實(shí)現(xiàn)代碼分離的原則C)屏蔽了數(shù)據(jù)源的差異和數(shù)據(jù)庫操作細(xì)節(jié)D)提供一個(gè)統(tǒng)一的訪問界面和一種統(tǒng)一的查詢語言答案:A解析:[單選題]8.若有定義a=1,b=2,c=3,d=4則表達(dá)式(a>b)and(c>b)的值為()A)0B)1C)FD)T答案:A解析:[單選題]9.SparkJob默認(rèn)的調(diào)度模式()A)FIFOB)FAIRC)無D)運(yùn)行時(shí)指定答案:A解析:[單選題]10.BP算法基于(__)策略,以目標(biāo)的(__)梯度方向?yàn)閰?shù)進(jìn)行調(diào)整。A)前向傳播,正B)梯度下降,負(fù)C)前向傳播,負(fù)D)梯度下降,正答案:B解析:[單選題]11.在HDFS中,默認(rèn)一個(gè)塊多大?A)64MBB)32KBC)128KBD)16KB答案:A解析:[單選題]12.物聯(lián)網(wǎng)是在計(jì)算機(jī)的()基礎(chǔ)上,構(gòu)造一個(gè)覆蓋世界上萬事萬物的?InternetofThings?A)有線數(shù)據(jù)通信B)無線數(shù)據(jù)通信C)RFIDD)互聯(lián)網(wǎng)答案:D解析:[單選題]13.考慮以下場景,Hbase中有列簇CF1,列C1,C2。當(dāng)讀取Hbase表時(shí),只要求返回C1的列值,使用下列那個(gè)選項(xiàng)可以實(shí)現(xiàn)該功能?A)ColumeFilterB)QualifierFliterC)ValueFilterD)RowFilter答案:C解析:[單選題]14.如果想求和一個(gè)序列會使用內(nèi)置函數(shù)A)minB)maxC)lenD)sum答案:D解析:[單選題]15.下列哪種函式參數(shù)定義不合法()。A)defmyfunc(args):B)defmyfunc(arg1=1):C)defmyfunc(args,a=1):D)defmyfunc(a=1,args):答案:D解析:[單選題]16.對于Python編程中,以下不能創(chuàng)建一個(gè)字典的語句是A)dict1={}B)dict2={3:5}C)dict3={[1,2,3]:?ab?}D)dict4={'ur:?ab?}答案:C解析:[單選題]17.FusionnInsigetHD系統(tǒng)中,Flume數(shù)據(jù)流在節(jié)點(diǎn)內(nèi)不需要經(jīng)過哪個(gè)組件?A)SourceB)SinkC)TopicD)Channel答案:C解析:[單選題]18.在TF-IDF算法中,在計(jì)算完詞頻與逆文檔頻率后,將兩者()后得到最終的結(jié)果。A)相加B)相減C)相乘D)相除答案:C解析:[單選題]19.以下插入記錄正確的()A)insertintoemp(ename,hiredate,sal)values(value1,value2,value3);B)insertintoemp(ename,sal)values(value1,value2,value3);C)insertintoemp(ename)values(value1,value2,value3);D)insertintoemp(ename,hiredate,sal)values(value1,value2);答案:A解析:[單選題]20.已知x與y的關(guān)系如下表所示:表1x與y的關(guān)系xyx<0x1x=0xx>0x+1以下選項(xiàng)中,可以正確地表達(dá)x與y之間關(guān)系的是()A)y=x+1ifx>=0:ifx==0:y=xelse:y=x-1B)y=x-1ifx!=0:ifx>0:y=x+1else:y=xC)ifx<=0:ifx<0:y=x-1else:y=xelse:y=x+1D)y=xifx<=0:ifx<0:y=x-1else:y=x+1答案:C解析:[單選題]21.下列關(guān)于Python中的os模塊常見方法的描述錯(cuò)誤的是()。A)os.remove()刪除文件B)os.rename()重命名文件C)os.walk()讀取所有的目錄名D)os.chdir()改變目錄答案:C解析:os.walk()方法用于通過在目錄樹中游走輸出在目錄中的文件名,可以指定向上或者向下。[單選題]22.以下哪些算法,可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造:1.KNN2.線性回歸3.對數(shù)幾率回歸A)1和2B)2和3C)1,2和3D)以上都不是答案:B解析:[單選題]23.sklearn.naive_bayes模塊實(shí)現(xiàn)了樸素貝葉斯算法,基于貝葉斯定理和特征獨(dú)立性假設(shè)的監(jiān)督學(xué)習(xí)方法,下列模型不是樸素貝葉斯分類器的是()。A)BernoulliNB()B)GaussianNB()C)NeighborsNB()D)MultinomialNB()答案:C解析:根據(jù)輸入特征的不同類型,Sklearn的樸素貝葉斯算法分為BernoulliNB、GaussianNB、MultinomialNB三種。[單選題]24.()又稱范圍誤差或全距,表示最大值與最小值之間的差距,即最大值減最小值。A)標(biāo)準(zhǔn)差B)極差C)方差D)均方差答案:B解析:[單選題]25.設(shè)計(jì)分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時(shí),為取樣更高效,一般可以對表中的連續(xù)字段進(jìn)行什么操作()A)分桶B)分區(qū)C)索引D)分表答案:A解析:[單選題]26.Flume中的JDBCChannel內(nèi)置數(shù)據(jù)庫是哪個(gè)?A)OracleB)MySqlC)DerbyD)SqlServer答案:C解析:[單選題]27.數(shù)據(jù)中臺定位于為各專業(yè)提供數(shù)據(jù)共享和分析應(yīng)用服務(wù),以()為基礎(chǔ),根據(jù)數(shù)據(jù)共享和分析應(yīng)用的需求,沉淀共性數(shù)據(jù)服務(wù)能力,通過數(shù)據(jù)服務(wù)滿足各類需求,支撐前端應(yīng)用和業(yè)務(wù)中臺服務(wù)構(gòu)建。A)業(yè)務(wù)中臺B)企業(yè)中臺C)全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心D)物聯(lián)管理平臺答案:C解析:[單選題]28.?落伍者?是影響MapReduce總執(zhí)行時(shí)間的主要影響因素之一。為此,MapReduce中采用()A)推測性執(zhí)行的任務(wù)備份機(jī)制B)惰性計(jì)算C)急性/熱情計(jì)算D)分布式計(jì)算答案:A解析:[單選題]29.數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)?從數(shù)據(jù)到信息??從數(shù)據(jù)到知識??從數(shù)據(jù)到智慧?的轉(zhuǎn)化為主要研究目的,以?數(shù)據(jù)驅(qū)動(dòng)??數(shù)據(jù)業(yè)務(wù)化??數(shù)據(jù)洞見??數(shù)據(jù)產(chǎn)品研發(fā)?為主要研究任務(wù)的()。A)新興科學(xué)B)交叉性學(xué)科C)獨(dú)立學(xué)科D)一整套知識體系答案:C解析:[單選題]30.SLIC算法的主要目的是()。A)目標(biāo)識別B)前景和背景分離C)超像素提取D)語義分割答案:C解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是在超像素中心周圍的區(qū)域2S×2S中進(jìn)行類似像素的搜索。[單選題]31.關(guān)于Redis集群拓?fù)湫畔?,下面描述正確的是:()。A)客戶端緩存有集群的拓?fù)湫畔)服務(wù)端緩存有集群的拓?fù)湫畔)兩者都是D)兩者多不是答案:C解析:[單選題]32.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A)在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B)在分析方法上更注重相關(guān)分析而不是因果分析C)在分析效果上更追究效率而不是絕對精確D)在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)答案:B解析:本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。[單選題]33.在馬爾科夫隨機(jī)場中,(__)個(gè)變量之間的聯(lián)合概率分布能基于團(tuán)分解為多個(gè)因子的乘積。A)2B)3C)4D)多答案:D解析:[單選題]34.條件?IN(20,30,40)?表示()A)年齡在20到40之間B)年齡在20到30之間C)年齡是20或30或40D)年齡在30到40之間答案:C解析:[單選題]35.回歸分析的任務(wù),就是根據(jù)()和因變量的觀察值,估計(jì)這個(gè)函數(shù),并討論與之有關(guān)的種種統(tǒng)計(jì)推斷的問題A)相關(guān)變量B)樣本C)已知數(shù)據(jù)D)自變量答案:D解析:[單選題]36.以下哪些數(shù)據(jù)不屬于半結(jié)構(gòu)化數(shù)據(jù)?A)HTMLB)XMLC)二維表D)JSON答案:C解析:[單選題]37.如果建立一個(gè)5000個(gè)特征、100萬個(gè)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,則有效地應(yīng)對這樣的大數(shù)據(jù)訓(xùn)練的方法是()。A)隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練B)可以試用在線機(jī)器學(xué)習(xí)算法C)應(yīng)用PCA算法降維,減少特征數(shù)D)以上答案都正確答案:D解析:樣本數(shù)過多或者特征數(shù)過多而不能單機(jī)完成訓(xùn)練時(shí),可以用小批量樣本訓(xùn)練,或者在線累計(jì)式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。[單選題]38.(__)是指樣本空間中具有代表性的點(diǎn)。A)樣本點(diǎn)B)原點(diǎn)C)原型D)實(shí)例答案:C解析:[單選題]39.Hadoop中MapReduce組件擅長處理()場景的計(jì)算任務(wù)。A)迭代計(jì)算B)離線計(jì)算C)實(shí)時(shí)交互計(jì)算D)流式計(jì)算答案:B解析:[單選題]40.在MaxCompute中,可以通過Tunnel命令行來完成數(shù)據(jù)的上傳下載。如果要下載test_project項(xiàng)目空間下的一個(gè)帶分區(qū)的表test_table_p的內(nèi)容到log.txt文件中,使用命令tunneldownloadtest_project.test_table_plog.txt;結(jié)果報(bào)錯(cuò),其中出錯(cuò)的部分為:()。A)tunnelB)downloadC)test_project.test_table_pD)log_txt答案:C解析:[單選題]41.執(zhí)行以下代碼段age=12ifage<4print("Youradmissioncostis$0.")elifage<18print("Youradmissioncostis$5.")elseprint("Youradmissioncostis$10.")時(shí),輸出為()。A)Youradmissioncostis$0.B)Youradmissioncostis$5.C)Youradmissioncostis$10.D)以上都不對答案:D解析:[單選題]42.以下選項(xiàng)不包含在DIKW金字塔中的是()。A)信息B)數(shù)值C)知識D)智慧答案:B解析:[單選題]43.()是指具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機(jī)構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。A)海量數(shù)據(jù)B)大數(shù)據(jù)C)辱數(shù)據(jù)D)異構(gòu)數(shù)據(jù)答案:B解析:[單選題]44.下列對MapReduce中的公平調(diào)度器描述正確的是()。A)公平調(diào)度器的目標(biāo)是讓每個(gè)用戶公平獨(dú)享集群能力B)如果只有一個(gè)作業(yè)在運(yùn)行,就會得到集群的所有資源C)提交作業(yè)數(shù)較多的用戶,會獲得更多的集群資源D)公平調(diào)度器不支持搶占機(jī)制答案:B解析:[單選題]45.資源(Resource)是大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)的特有概念。用戶如果想使用MaxCompute的MapReduce或自定義函數(shù)(UDF)功能,需要依賴資源來完成。Dataworks中,可以通過數(shù)據(jù)開發(fā)面板的資源管理上傳資源,目前支持的資源類型有:()。A)jar、file、archiveB)jar、file、pythonC)jar、archive、pythonD)file、archive、python答案:A解析:[單選題]46.()可以進(jìn)行排序,生成序列號等一般的聚合函數(shù)無法實(shí)現(xiàn)的高級操作。A)集合函數(shù)B)聚合函數(shù)C)窗口函數(shù)D)文本函數(shù)答案:C解析:[單選題]47.Spark的四大組件下面哪個(gè)不是()A)SparkStreamingB)MlibC)GraphxD)SparkR答案:D解析:[單選題]48.np.floor()函數(shù)的作用是(__)。A)計(jì)算每個(gè)元素的模B)計(jì)算每個(gè)元素的符號C)計(jì)算每個(gè)元素的最小整數(shù)值D)計(jì)算每個(gè)元素的小數(shù)部分答案:C解析:[單選題]49.以下哪項(xiàng)用于左連接()A)JOINB)RIGHTJOINC)LEFTJOIND)INNERJOIN答案:C解析:[單選題]50.下面關(guān)于增強(qiáng)學(xué)習(xí)描述不正確的是(__)。A)增強(qiáng)學(xué)習(xí)主要研究如何協(xié)助自治Agent的學(xué)習(xí)活動(dòng)B)增強(qiáng)學(xué)習(xí)基本思路是當(dāng)Agent在環(huán)境中做出每個(gè)動(dòng)作時(shí),施教者會提供獎(jiǎng)賞或者懲罰信息,以表示結(jié)果狀態(tài)的正確與否C)增強(qiáng)學(xué)習(xí)中的Agent需要具備環(huán)境交互能力和自治能力D)基于馬爾可夫決策不屬于增強(qiáng)學(xué)習(xí)答案:D解析:[單選題]51.函數(shù)如下defchanageInt(number2):number2=number2+1print("changeInt:number2=",number2)#調(diào)用number1=2chanageInt(number1)print("number:",number1)打印結(jié)果哪項(xiàng)是正確的()A)changeInt:number2=3number:3B)changeInt:number2=3number:2C)number:2changeInt:number2=2D)number:2changeInt:number2=3答案:B解析:[單選題]52.以下哪項(xiàng)不屬于批量數(shù)據(jù)采集工具?A)SqoopB)FlumeC)其他ETL工具D)MapReduce答案:D解析:[單選題]53.所有預(yù)測模型在廣義上都可稱為一個(gè)或一組()A)公式B)邏輯C)命題D)規(guī)則答案:D解析:[單選題]54.信息安全管理最關(guān)注的是?()A)外部惡意攻擊B)病毒對PC的影響C)內(nèi)部惡意攻擊D)病毒對網(wǎng)絡(luò)的影響答案:C解析:第2部分:多項(xiàng)選擇題,共23題,每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]55.HBase提供的比較過濾器中,屬于比較器的有()【選三項(xiàng)】A)BinaryComparatorB)BinaryPrefixComparatorC)RegexStringComparatorD)ComparatorAction答案:ABC解析:[多選題]56.下面哪幾項(xiàng)屬于ElasticSearch的RESTful請求方式?A)DeleteB)UpdateC)PostD)Get答案:ACD解析:[多選題]57.HBase的實(shí)現(xiàn)包括哪三個(gè)主要的功能組件?A)庫函數(shù):鏈接到每個(gè)客戶端B)一個(gè)Master主服務(wù)器C)許多個(gè)Region服務(wù)器D)廉價(jià)的計(jì)算機(jī)集群答案:ABC解析:[多選題]58.下列數(shù)據(jù)庫管理系統(tǒng)中不屬于RDBMS的是()。A)OracleB)MySQLC)MongoDBD)Cassandra答案:CD解析:[多選題]59.下列關(guān)于支持向量回歸機(jī)說法正確的是(__)。A)支持向量回歸機(jī)希望學(xué)得一個(gè)回歸模型,使得預(yù)測值f(x)與真實(shí)值x盡可能接近B)在傳統(tǒng)回歸模型中,當(dāng)且僅當(dāng)預(yù)測值f(x)與真實(shí)值x完全相同時(shí),損失才為0C)支持向量回歸假設(shè)我們能夠容忍預(yù)測值f(x)與真實(shí)值x之間最多有特定值的誤差D)支持向量回歸以決策函數(shù)為中心,構(gòu)建了一個(gè)特定寬度的間隔帶,若訓(xùn)練樣本落入此間隔帶,則認(rèn)為是被預(yù)測正確的答案:ABCD解析:[多選題]60.感知機(jī)能容易實(shí)現(xiàn)邏輯(__)、(__)、(__)運(yùn)算A)加減B)與C)或D)非答案:BCD解析:[多選題]61.在Hive中,下面執(zhí)行創(chuàng)建一個(gè)名為mydb1數(shù)據(jù)庫,命令正確的有()【選兩項(xiàng)】A)createdatabasemydb1;B)createsheetmydb1;C)createschemamydb1;D)createtablemydb1;答案:AC解析:[多選題]62.下列關(guān)于Flink中Transformation的說法正確的是?A)可以通過window設(shè)定時(shí)間窗口B)Filtor操作是對每個(gè)元素執(zhí)行boolean函數(shù)C)flatMap可以對文本進(jìn)行切分D)keyBy是將源頭數(shù)據(jù)按照key進(jìn)行分組,以保證同一個(gè)key的元數(shù)據(jù)分到同樣的組中答案:ABD解析:[多選題]63.以下布爾表達(dá)式在邏輯上等同的是哪幾個(gè)()?A)not("testing"=="testing"and"Zed"=="CoolGuy")B)not(1!=10or3==4)C)"chunky"=="bacon"andnot(3==4or3==3)D)3==3andnot("testing"=="testing"or"Python"=="Fun")答案:BCD解析:[多選題]64.預(yù)剪枝使得決策樹的很多分子都沒有展開,會導(dǎo)致()。A)顯著減少訓(xùn)練時(shí)間開銷B)顯著減少測試時(shí)間開銷C)降低過擬合風(fēng)險(xiǎn)D)提高欠擬合風(fēng)險(xiǎn)答案:ABCD解析:預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險(xiǎn),還顯著減少了決策樹的訓(xùn)練時(shí)間開銷和測試時(shí)間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,其至可能導(dǎo)致泛化性能暫時(shí)下降,但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險(xiǎn)。[多選題]65.數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價(jià)指標(biāo)包括()。A)精確性B)可辨認(rèn)性C)可分離性D)視覺突出性答案:ABCD解析:在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價(jià)指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。評價(jià)指標(biāo)描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯擔(dān)福大學(xué)Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認(rèn)性是指視覺通道的可辨認(rèn)度。③可分離性是指同一個(gè)視覺圖形元素的不同視覺通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。④視覺突出性是指視覺編碼結(jié)果能否在很短的時(shí)間內(nèi)(如毫秒級)能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。[多選題]66.圖像識別技術(shù)的過程分以下幾步:信息的獲取、(__)、(__)、分類器設(shè)計(jì)和分類決策。A)辨認(rèn)B)預(yù)處理C)統(tǒng)計(jì)D)特征抽取和選擇答案:BD解析:[多選題]67.下面對范數(shù)規(guī)則化描述,正確的是()A)LO是指向量中0的元素的個(gè)數(shù)B)L1范數(shù)是指向量中各個(gè)元素絕對值之和C)L2范數(shù)向量元素絕對佳的平方和再開平方D)LO是指向量中非0的元,素的個(gè)數(shù)答案:BCD解析:[多選題]68.情感分析的應(yīng)用場景有()。A)數(shù)據(jù)挖掘B)信息檢索C)文本分詞D)市場營銷答案:ABD解析:情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應(yīng)用場景。[多選題]69.關(guān)聯(lián)就是根據(jù)特定的連接條件將不同的表連接起來,然后獲取所需要的數(shù)據(jù)。一般的關(guān)聯(lián)方式包括哪些?()A)清洗B)連接C)統(tǒng)計(jì)D)合并答案:BD解析:[多選題]70.np.hsplit()函數(shù)的指定拆分方式包括(__)。A)隨機(jī)拆分B)指定相同shape的array的數(shù)量來拆分原arrayC)指定分割應(yīng)該發(fā)生之后的行來拆分原arrayD)指定分割應(yīng)該發(fā)生之后的列來拆分原array答案:BD解析:[多選題]71.以下()屬于數(shù)據(jù)統(tǒng)計(jì)分析工具。A)WekaB)SASC)SPSSD)Matlab答案:ABCD解析:常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。[多選題]72.file對象使用open函數(shù)來創(chuàng)建,file對象常用的函數(shù)有()。A)file.close()B)file.nextline()C)file.tell()D)file.read()答案:ACD解析:[多選題]73.數(shù)據(jù)清洗工作的目的主要是解決數(shù)據(jù)的()A)完整性B)唯一性C)合法性D)一致性答案:ABCD解析:[多選題]74.貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點(diǎn)()A)構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力B)對模型的過分問題非常魯棒C)貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D)網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻煩答案:AB解析:[多選題]75.根據(jù)數(shù)據(jù)流如何在兩個(gè)TransFormation之間傳輸數(shù)據(jù),數(shù)據(jù)流可以分為那些類型?A)一對一流B)distributing流C)一對多流D)redistributig流答案:AC解析:[多選題]76.下列選項(xiàng)中,關(guān)于Hadoop集群說法正確的是()。A)Hadoop集群包含Worker節(jié)點(diǎn)B)Hadoop集群包含Master節(jié)點(diǎn)C)Hadoop集群包含Slave節(jié)點(diǎn)D)Hadoop集群包含HMaster節(jié)點(diǎn)答案:BC解析:Hadoop集群包含一臺Master節(jié)點(diǎn)和兩臺Slave節(jié)點(diǎn)。[多選題]77.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A)基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B)數(shù)據(jù)流處理、統(tǒng)計(jì)工具、日志分析都屬于常用的開源工具C)數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)D)數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容答案:ABCD解析:Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時(shí)快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到了廣泛應(yīng)用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.項(xiàng)目空間(Project)是MaxCompute的基本組織單元,它類似于傳統(tǒng)數(shù)據(jù)庫的Database或Schema的概念,是進(jìn)行多用戶隔離和訪問控制的主要邊界。A)正確B)錯(cuò)誤答案:對解析:[判斷題]79.語句print(reA)正確B)錯(cuò)誤答案:錯(cuò)解析:[判斷題]80.在Reduce階段,設(shè)置map和reduce共存,當(dāng)map運(yùn)行到一定程度后,reduce也開始運(yùn)行,減少reduce的等待時(shí)間,可以提高M(jìn)apReduce的性能。A)正確B)錯(cuò)誤答案:對解析:在Reduce階段,設(shè)置map和reduce共存,當(dāng)map運(yùn)行到一定程度后,reduce也開始運(yùn)行,減少reduce的等待時(shí)間,可以提高M(jìn)apReduce的性能。[判斷題]81.異常處理結(jié)構(gòu)也不是萬能的,處理異常的代碼也有引發(fā)異常的可能。A)正確B)錯(cuò)誤答案:對解析:[判斷題]82.數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程A)正確B)錯(cuò)誤答案:對解析:[判斷題]83.YARN上有兩個(gè)四級隊(duì)列Q1與Q2,容量都是50,Q1上已經(jīng)有10個(gè)任務(wù)并占用了40的容量,Q2上有2個(gè)任務(wù)共占用了30的容量,那么由于Q1的任務(wù)數(shù)多,調(diào)度器會優(yōu)先將資源分配給Q1.A)正確B)錯(cuò)誤答案:錯(cuò)解析:[判斷題]84.消費(fèi)者對產(chǎn)品購買的次數(shù)越高,說明他對產(chǎn)品的忠誠度越高。A)正確B)錯(cuò)誤答案:對解析:[判斷題]85.一個(gè)Reduce節(jié)點(diǎn)的數(shù)據(jù)來自于多個(gè)Map節(jié)點(diǎn)中相同分區(qū)()A)正確B)錯(cuò)誤答案:對解析:[判斷題]86.分布式數(shù)據(jù)庫是指物理上分散在不同的地點(diǎn),但在邏輯上是統(tǒng)一的數(shù)據(jù)庫。因此,分布式數(shù)據(jù)庫具有物理上的獨(dú)立性、邏輯上的一體性、性能上的可擴(kuò)展性等特點(diǎn)。()A)正確B)錯(cuò)誤答案:對解析:[判斷題]87.大數(shù)據(jù)的應(yīng)用注重因果分析而不是相關(guān)分析。A)正確B)錯(cuò)誤答案:錯(cuò)解析:[判斷題]88.只有對原始數(shù)據(jù)及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論