人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)_第1頁
人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)_第2頁
人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)_第3頁
人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)_第4頁
人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

試卷科目:人工智能自然語言技術(shù)練習(xí)人工智能自然語言技術(shù)練習(xí)(習(xí)題卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然語言技術(shù)練習(xí)第1部分:單項選擇題,共45題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.LDA的實質(zhì)是在做一個什么東西A)根據(jù)給定的一篇文檔,反推其主題B)可以找出來最優(yōu)的分類超平面C)可以找到因變量和自變量之間的一次關(guān)系D)不確定答案:A解析:[單選題]2.()是統(tǒng)計一個詞出現(xiàn)在文檔集中文檔頻次的統(tǒng)計量。A)逆文檔頻率B)詞頻C)詞頻-逆文檔頻率D)以上都不對答案:A解析:[單選題]3.Histogram算法的思想是什么A)尋找最優(yōu)分割面B)尋找因變量和自變量之間的關(guān)系C)先把連續(xù)的浮點特征值離散化成k個整數(shù),同時構(gòu)造一個寬度為k的直方圖。D)不確定答案:C解析:[單選題]4.下列四個選項中,對于正則化(regularization)的描述正確的選項是哪個?A)每一個隱層都需要正則化(regularization)B)每一個模型中都需要正則化,否則無法正確預(yù)測結(jié)果C)正則化可以預(yù)防欠擬合D)正則化可以預(yù)防過擬合答案:D解析:[單選題]5.怎么去理解模型當(dāng)中的過擬合現(xiàn)象A)指的就是樣本該學(xué)習(xí)到的特征沒有學(xué)習(xí)到,導(dǎo)致了曲線擬合數(shù)據(jù)的時候,效果不好。B)指的肯定就是說,這條曲線,過分的去描述現(xiàn)有的數(shù)據(jù)特征了。C)指得就是說這個曲線能不能去很好的描述現(xiàn)有的數(shù)據(jù)。D)欠擬合指的就是在訓(xùn)練和測試數(shù)據(jù)上的表現(xiàn)都不好答案:B解析:[單選題]6.樸素貝葉斯算法訓(xùn)練階段的輸出是什么?()A)新數(shù)據(jù)的分類結(jié)果B)特征屬性和訓(xùn)練樣本C)分類器D)訓(xùn)練樣本的出現(xiàn)頻率答案:C解析:[單選題]7.概率圖模型是常用的基礎(chǔ),以下四個選項關(guān)于概率圖模型描述正確的是?A)概率圖模型是用圖來表示變量概率依賴關(guān)系B)概率圖是樹狀的結(jié)構(gòu)C)概率圖就是概率,是相同的D)不確定答案:A解析:[單選題]8.tf如何定義常量?A)tensor=tf.constant([1,2])B)tensor=tf.constant(1)C)tensor=tf.constant(-1,shape=[2,3])D)a=tf.constant([1.0,2.0],name="a)答案:D解析:[單選題]9.TensorFlow作為深度學(xué)習(xí)常用的框架,其中的tf.nn.softmax_cross_entropy_with_logits的作用是做什么的?A)信息熵B)信息元C)logitsD)交叉熵答案:D解析:[單選題]10.在NLP中國以下兩種模型:統(tǒng)計語言模型和神經(jīng)網(wǎng)絡(luò)語言模型統(tǒng)稱為什么模型A)語言模型B)預(yù)訓(xùn)練模型C)解碼模型D)編碼模型答案:A解析:[單選題]11.特征進行歸一化可以做到什么效果A)消除數(shù)據(jù)特征之間的量綱影響B(tài))可以為數(shù)據(jù)增加適量的沉余C)可以為代價函數(shù)加入正則項D)不確定答案:A解析:[單選題]12.K-NN中的K可以代表什么意思A)代價B)學(xué)習(xí)率C)不確定D)K個最近的鄰居答案:D解析:[單選題]13.SVM的應(yīng)用也很廣泛,支持向量機(SVM)是一個什么算法A)分類B)回歸C)聚類D)降維答案:A解析:[單選題]14.ELMO為什么可以解決一詞多意的問題A)會的到一個固定的語義向量B)沒有在下游的任務(wù)當(dāng)中進行微調(diào)C)基于上下文動態(tài)的去調(diào)整向量D)預(yù)訓(xùn)練階段可以解決一次多意問題答案:C解析:[單選題]15.關(guān)于概率圖中的無向邊,下列描述正確的是A)表示單向的依賴B)表述互相依賴關(guān)系C)表示無依賴關(guān)系D)不確定答案:B解析:[單選題]16.基于語義的文本表示的深度學(xué)習(xí)方法有哪些A)LDAB)LSIC)PLSID)wordembedding答案:B解析:[單選題]17.以下哪種情況會導(dǎo)致SVM算法性能下降?A)數(shù)據(jù)線性可分B)數(shù)據(jù)干凈、格式整齊C)數(shù)據(jù)有噪聲,有重復(fù)值D)不確定答案:C解析:[單選題]18.下列幾個選項中對于卡方檢驗,描述正確的是A)卡方檢驗主要用于類別數(shù)據(jù)B)卡方檢驗不可以用于定量數(shù)據(jù)C)用于類別數(shù)據(jù)時必須先將數(shù)據(jù)分組才能獲得實際的觀測頻數(shù)D)和KS檢驗相同答案:A解析:[單選題]19.謂詞相關(guān)特征之一()A)動詞原形B)語態(tài)C)父類框架D)謂語動詞答案:B解析:[單選題]20.以下幾個算法中哪個不容易陷入過擬合A)未剪枝的決策樹B)隨機森林C)不加正則的線性回歸D)不加正則的邏輯回歸答案:B解析:[單選題]21.google開發(fā)的深度學(xué)習(xí)框架叫什么A)pytorchB)tensorflowC)caffeD)mxnet答案:B解析:[單選題]22.下列不屬于經(jīng)典語料庫的是A)BrownB)NoteBankC)FranmeNetD)PennTressBank答案:B解析:[單選題]23.BP算法最早時,是在以下哪個任務(wù)中得到了最早的應(yīng)用A)手寫數(shù)字識別B)CPUC)GPUD)不確定答案:A解析:[單選題]24.如何理解線性回歸中的?線性?A)兩個變量之間的關(guān)系是一次函數(shù)的關(guān)系,圖像是條直線B)兩個變量之間的關(guān)系是二次函數(shù)的關(guān)系,圖像是條拋物線C)兩個變量之間的關(guān)系是對數(shù)的關(guān)系D)兩個變量之間的關(guān)系是指數(shù)函數(shù)的關(guān)系答案:A解析:[單選題]25.relu()激活函數(shù)的作用是將大于0的數(shù)保持不變,小于()的數(shù)輸出為0A)-1B)0C)1D)x答案:B解析:[單選題]26.TF-IDF的計算方式是什么A)先計算詞頻TF,再計算逆文檔頻率IDFB)先計算詞頻IDF,再計算逆文檔頻率TFC)先計算逆文檔頻率TF,再計算詞頻IDFD)不確定答案:A解析:[單選題]27.()根據(jù)文本的不同特征劃分為不同的類A)文本概括B)文本分類C)文本聚類D)都可以答案:C解析:[單選題]28.線性回歸的損失函數(shù)是MSE,邏輯回歸的損失函數(shù)是什么A)信息熵B)信息增益C)對數(shù)損失D)均方誤差答案:C解析:[單選題]29.以下哪個不屬于LSTMA)輸入門B)輸出門C)更新門D)遺忘門答案:C解析:[單選題]30.CRF(條件隨機場)是一個什么模型A)是生成式模型B)是判別式模型C)即是生成式模型又是判別式D)不確定答案:B解析:[單選題]31.可以如何選擇神經(jīng)網(wǎng)絡(luò)的參數(shù)或超參A)通過常識選擇B)隨機選擇點來試驗超參數(shù)效果C)選擇輸入的參數(shù)即可D)取離散參數(shù)的平均值答案:B解析:[單選題]32.BP算法是人工智能的里程碑,具體這個算法能起到什么作用A)最大化實際輸出與訓(xùn)練集的誤差率B)最小化實際輸出與訓(xùn)練集的誤差率C)均值化實際輸出與訓(xùn)練集的誤差率D)范數(shù)化實際輸出與訓(xùn)練集的誤差率答案:B解析:[單選題]33.如果我們想加速線性變換可以使用以下哪個激活函數(shù)A)SigmoidB)TanhC)ReluD)不確定答案:C解析:[單選題]34.在進行神經(jīng)網(wǎng)絡(luò)建模時,需要對目標(biāo)數(shù)據(jù)進行怎樣的操作A)度量化B)抽象化C)具體化D)理想化答案:A解析:[單選題]35.Earley算法中涉及幾項基本操作?A)1B)2C)3D)4答案:C解析:[單選題]36.常用的操作Batch歸一化,對比到神經(jīng)網(wǎng)絡(luò)中,和下列描述的哪個步驟很相似?A)reluB)dropoutC)sigmoidD)tanh答案:B解析:[單選題]37.下列幾個選項中,關(guān)于RMSprop算法的特點描述正確的優(yōu)哪些?A)指數(shù)加權(quán)平均數(shù)求和B)指數(shù)加權(quán)平均數(shù)先平方再開方C)指數(shù)加權(quán)平均數(shù)求微分D)指數(shù)加權(quán)平均數(shù)求均方誤差答案:B解析:[單選題]38.下列不是自然語言處理的應(yīng)用領(lǐng)域的是()。A)文化教育B)健康生活C)公共設(shè)施D)移動計算答案:B解析:[單選題]39.sigmoid缺點之一就是非線性變化較慢,可以通過以下哪個激活函數(shù)進行改善A)SigmoidB)TanhC)ReluD)不確定答案:C解析:[單選題]40.不屬于未登錄詞的是()。A)網(wǎng)絡(luò)熱門詞語B)人名、地名和組織機構(gòu)名C)化學(xué)試劑的名稱D)經(jīng)典文學(xué)作品答案:A解析:[單選題]41.謂詞相關(guān)特征之一()A)動詞原形B)動詞C)父類框架D)謂語動詞的詞性答案:D解析:[單選題]42.自動駕駛是如何起源的A)BP算法B)神經(jīng)網(wǎng)絡(luò)C)前向算法D)NFC答案:A解析:[單選題]43.NLP中做多分類任務(wù)可以使用__激活函數(shù)?A)softmaxB)logicC)K-MeansD)SVD答案:A解析:第2部分:多項選擇題,共21題,每題至少兩個正確答案,多選或少選均不得分。[多選題]44.以下四個選項當(dāng)中,關(guān)于LDA說法正確的是A)可以通過經(jīng)驗主觀判斷、不斷調(diào)試、操作性強、最為常用,的方式確定LDA中Topic的個數(shù)B)包含線性判別分析,概率主題模型,兩種含義C)LDA中包含一個gamma函數(shù)D)以上都正確答案:ABCD解析:[多選題]45.文本表示分類(基于粒度)A)長文本表示B)離散表示C)詞表示D)基于聚類表示答案:AC解析:[多選題]46.iAIEngine-NLU詞性標(biāo)注返回值類型ResponseResult對象中包括以下哪些參數(shù)?()A)codeB)messageC)posD)type答案:ABC解析:[多選題]47.如果需要做Batch歸一化的操作,那么它的具體流程是怎樣的?A)求每個訓(xùn)練批次數(shù)據(jù)的均值B)求每個訓(xùn)練批次數(shù)據(jù)的方差C)使用求得的均值和方差對該批次的訓(xùn)練數(shù)據(jù)做歸一化,獲得0-1分布D)尺度變換和偏移答案:ABCD解析:[多選題]48.對tf.variables_initializer()的解釋正確的是A)初始化一個變量B)初始化多個變量C)初始化全部變量D)初始化常量答案:ABC解析:[多選題]49.下列選項中關(guān)于高維數(shù)據(jù)處理描述正確的是?A)為了提高復(fù)雜關(guān)系的擬合能力B)在特征工程中經(jīng)常會把一階離散特征兩兩組合C)構(gòu)成高階組合特征D)以上都正確答案:ABCD解析:[多選題]50.詞頻統(tǒng)計的TF-IDF算法相關(guān)公式有哪些?A)TF=在某一類中詞條出現(xiàn)的次數(shù)/該類中所有詞條數(shù)目B)IDF=log(語料庫中文檔總數(shù)/包含詞條的文檔數(shù)+1)C)IDF=log(語料庫中文檔總數(shù)/包含詞條的文檔數(shù))+1D)TF-IDF=TF*IDF答案:ABD解析:[多選題]51.除了Histogram算法,LightGBM還做了哪些改進A)帶深度限制的Leaf-wise的葉子生長策略B)直方圖做差加速直接C)支持類別特征(CategoricalFeature)D)不確定答案:ABC解析:[多選題]52.以下四個算法中,有哪些算法是屬于決策樹算法的A)SVMB)ID3C)C4.5D)CART答案:BCD解析:[多選題]53.tensorflow通常用于在以下哪些場景中的開發(fā)?A)自然語言B)語音識別C)機器翻譯D)計算機視覺答案:ABCD解析:[多選題]54.所謂的命名實體包括哪些?()A)人名B)地名C)機構(gòu)名D)時間答案:ABCD解析:[多選題]55.為什么進行文本表示A)計算機不方便直接對文本字符串進行處理,因此需要進行數(shù)值化或向量化B)便于機器學(xué)習(xí)C)深度學(xué)習(xí)等人工智能最新技術(shù)在NLP領(lǐng)域中的應(yīng)用(現(xiàn)在)提升算法的效果D)句子表示答案:ABC解析:[多選題]56.TF-IDF處理的特點是:A)TF=在某一類中詞條出現(xiàn)的次數(shù)/該類中所有詞條數(shù)目B)IDF=log(語料庫中文檔總數(shù)/包含詞條的文檔數(shù)+1)C)IDF=log(語料庫中文檔總數(shù)/包含詞條的文檔數(shù))+1D)TF-IDF=TF*IDF答案:ABD解析:[多選題]57.以下四個選項中關(guān)于beamSearch說法正確的是A)是一種啟發(fā)式圖搜索算法B)為了減少搜索的時間和空間C)保留質(zhì)量較高的節(jié)點,減掉質(zhì)量較差的節(jié)點D)常用在機器翻譯和語音識別等NLP任務(wù)當(dāng)中答案:ABCD解析:[多選題]58.哪些是判別式Discriminativemodel模型A)HMMB)SVMC)CRFD)MEMM答案:BCD解析:[多選題]59.能逃離局部最優(yōu)解的方式為A)AdamB)MomentumC)RMSpropD)Lasso答案:ABC解析:[多選題]60.Sigmoid,Relu,Tanh有什么異同點A)都可以做非線性的變換B)都可以做線性的變換C)變換后Y的取值范圍不相同D)變換后Y的取值范圍相同答案:AC解析:[多選題]61.關(guān)于神經(jīng)網(wǎng)絡(luò)的層數(shù)說法,正確的分為哪幾層A)輸入層B)輸出層C)隱藏層D)以上都正確答案:ABCD解析:[多選題]62.以下模型中使用Transformer的是___?A)ELMOB)BERTC)GPTD)Word2Vec答案:BC解析:[多選題]63.EM算法當(dāng)中有哪些缺點A)對初始值敏感B)不同的初值可能得到不同的參數(shù)估計值C)不能保證找到全局最優(yōu)值。D)以上都正確答案:ABCD解析:[多選題]64.以下技術(shù)當(dāng)中,哪個可以將字或者詞做向量化A)GloveB)word2vecC)LDAD)詞袋答案:ABCD解析:第3部分:判斷題,共24題,請判斷題目是否正確。[判斷題]65.在馬爾科夫模型中,每個狀態(tài)代表了多個可觀察事件。A)正確B)錯誤答案:錯解析:[判斷題]66.基于詞義消歧方法主要包括:基于詞典語義定義的方法,基于義類辭典的方法和基于雙語詞典的方法A)正確B)錯誤答案:對解析:[判斷題]67.神經(jīng)網(wǎng)絡(luò)組成部分有:輸入層,輸出層,隱藏層A)正確B)錯誤答案:對解析:[判斷題]68.TF-IDF算法傾向于過濾常用的詞語,保留相對重要的詞語,只考慮了詞的出現(xiàn)頻次、出現(xiàn)文檔的個數(shù)這兩個信息,對文本內(nèi)容的利用程度較低。對A)正確B)錯誤答案:對解析:[判斷題]69.句子的主客觀分類能夠有效提高文本情感分析的準(zhǔn)確度。對A)正確B)錯誤答案:對解析:[判斷題]70.Boosting,迭代,即通過迭代多棵樹來共同決策。A)正確B)錯誤答案:對解析:[判斷題]71.一個漢字不管用什么樣的外碼輸入,到機器里都是一樣的內(nèi)碼A)正確B)錯誤答案:對解析:[判斷題]72.貨幣符號?$?表示匹配字符串的結(jié)束位置的內(nèi)容。對A)正確B)錯誤答案:對解析:[判斷題]73.XGBoost是一種是概率主題模型A)正確B)錯誤答案:錯解析:[判斷題]74.GBDT的核心就在于,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個殘差就是一個加預(yù)測值后能得真實值的累加量。A)正確B)錯誤答案:對解析:[判斷題]75.詞頻是統(tǒng)計一個詞出現(xiàn)在文檔集中文檔頻次的統(tǒng)計量。錯A)正確B)錯誤答案:錯解析:[判斷題]76.引入兩層的神經(jīng)網(wǎng)絡(luò)可以使線性切分變成非線性切分A)正確B)錯誤答案:對解析:[判斷題]77.SVM做分類的本質(zhì)是想找到一條最優(yōu)的超平面,完美的分開不同的類別A)正確B)錯誤答案:對解析:[判斷題]78.擴大隱層層數(shù)會使得神經(jīng)網(wǎng)絡(luò)的?容量?更多,進而表達力和特征抽取能力會變強A)正確B)錯誤答案:對解析:[判斷題]79.扣留估計算法的思想是:把訓(xùn)練數(shù)據(jù)分成兩部分,一部分建立最初的模型,然后另一部分來精煉這個模型A)正確B)錯誤答案:對解析:[判斷題]80.當(dāng)數(shù)據(jù)的先驗分布假定為正態(tài)分布時,貝葉斯判別與正態(tài)分布等價A)正確B)錯誤答案:對解析:[判斷題]81.DBOW模型對應(yīng)Word2Vec模型中的Skip-gram模型。對A)正確B)錯誤答案:對解析:[判斷題]82.GPT適用的是Transformer作為特征提取器的A)正確B)錯誤答案:對解析:[判斷題]83.分隔超平面所產(chǎn)生的分類結(jié)果是最魯棒的,對未知實例的泛化能力最弱A)正確B)錯誤答案:錯解析:[判斷題]84.KNN中,如果k的值非常大,我們可以將其他類別的點包括到鄰域中。A)正確B)錯誤答案:對解析:[判斷題]85.對弱分類器的要求一般是足夠簡單,并且是低方差和高偏差的。A)正確B)錯誤答案:對解析:[判斷題]86.RNN循環(huán)神經(jīng)網(wǎng)絡(luò)是自然語言中常用的網(wǎng)絡(luò)A)正確B)錯誤答案:對解析:[判斷題]87.Bi-Gram和TriGram都屬于N-Gram中的子模型,前者的窗口大小為2,后者的窗口大小為3A)正確B)錯誤答案:對解析:[判斷題]88.XGBoost是陳天奇等人開發(fā)出來的機器學(xué)習(xí)項目A)正確B)錯誤答案:對解析:第4部分:問答題,共10題,請在空白處填寫正確答案。[問答題]89.文本挖掘的準(zhǔn)備工作由文本收集、()和特征修剪3個步驟組成。準(zhǔn)備工作完成后,可以開展數(shù)據(jù)文本挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論