自然語言處理題庫附有答案

上傳人：喝*** IP屬地：廣西上傳時間：2024-07-08 格式：DOCX 頁數：15 大?。?5.91KB 積分：29.99 舉報 版權申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

自然語言處理題庫[復制]1.1政府部門利用nlp技術分析人們對某一件事、政策法規(guī)或社會現(xiàn)象的評論，實時了解百姓的態(tài)度，這屬于nlp研究內容的（）[單選題]*A信息檢索B文本分類(正確答案)C信息過濾D自動過濾1.2.不屬于nlp場景的是（）[單選題]*A百度翻譯B圖靈機器人C微信語音轉文字D數據挖掘(正確答案)1.3中文nlp的基本流程由語料獲取、（）、文本向量化、模型構建、模型訓練和模型評價6部分組成。[單選題]*A預料處理(正確答案)B中文分詞C去停用詞D詞性標注1.4在nlp虛擬環(huán)境中安裝需要的程序包，并自動安裝這個包的依賴項需要用到的是（[單選題]*A.pipinstallpackage_nameB.condainstallpackage_name(正確答案)C.condapackage_nameD.pippackag_name1.5不屬于打開JupyterNotebook方式的是（）。[單選題]*A.直接在開始菜單欄中單擊“Anaconda”下的“JupyterNotebook＇B.在AnacondaPrompt中輸入“jupyternotebook”C.單擊桌面上自動生成的JupyterNotebook圖標(正確答案)D.首先打開某個文件夾，然后按住“Shift”鍵并單擊鼠標右鍵，在菜單中單擊“在此處打開Powershell窗口”命令，這時會彈出命令行窗口，接著輸入“jupyternotebook”命令即可2.1語料庫以語料庫結構進行劃分可分為（）。[單選題]*A.通用語料庫與專用語料庫B.平衡結構語料庫與自然隨機結構語料庫(正確答案)C.共時語料庫與歷時語料庫D.單媒體語料庫與多媒體語料庫2.2構建或研究語料庫的時候，一般應考慮代表性、結構性、平衡性、（）個特性。[單選題]*A.規(guī)模性(正確答案)B.便捷性C.安全性D.高效性2.3NLTK的安裝步驟為（[單選題]*A.安裝NLP虛擬環(huán)境→安裝NLTK→檢查是否存在NLTK→下載NLTK數據包(正確答案)B.安裝NLTK→安裝NLP虛擬環(huán)境→檢查是否存在NLTK→下載NLTK數據包C.安裝NLP虛擬環(huán)境→安裝NLTK→下載NLTK數據包→檢查是否存在NLTKD.下載NLTK數據包→安裝NLP虛擬環(huán)境→安裝NLTK→檢查是否存在NLTK2.4（）函數用于搜索搭配詞語。[單選題]*A.concordanceB.common_contextsC.collocations(正確答案)D.Sorted2.5（）函數用于獲取語料庫中的文件。[單選題]*A.categorjiesB.rawC.open(fileid)D.fileids(正確答案)3.1.不屬于常用的正則表達式函數的是（）。[單選題]*A.match函數B.search函數C.findall函數D.matplotlib函數(正確答案)3.2.＂re．sub（＇自然語言處理＇，＂NLP＂，text1）”表示的含義為（[單選題]*A.將testl中的“自然語言處理”替換為“NLP”(正確答案)B.將testl中的“NLP”替換為“自然語言處理”C．找出test1中的“自然語言處理”D．找出test1中的“NLP”3.3豎線“|”用于對兩個正則表達式進行“或”操作。如果A和B是正則表達式，那表示為（)。[單選題]*A匹配A和B一起出現(xiàn)的字符B匹配A或B中出現(xiàn)的任何字符(正確答案)C.匹配A中出現(xiàn)的任何字符D.匹配B中出現(xiàn)的任何字符3.4美元貨幣符號“＄”表示匹配字符串的（位置。[單選題]*A.結束(正確答案)B.開始C.中間D.表示貨幣的字符串3.5下列Python中的預定義字符描述正確的是（）。[單選題]*A.＼w：與＼W反義，非數字、非字母和非字B.＼s：空白字符(正確答案)C.\D：數字D.＼d：非數字4.1不屬于基于規(guī)則的分詞方法的是（）。[單選題]*A.正向最大匹配法B.逆向最大匹配法C.反向最大匹配法(正確答案)D.雙向最大匹配法4.2不屬于未登錄詞的是（[單選題]*A.網絡熱門詞語B.人名、地名和組織機構名C.化學試劑的名稱D.經典文學作品(正確答案)4.3假設有語句序列｛小孩，喜歡，在家，觀看，動畫片｝，估計這一語句的概率為（B設語料庫中總詞數為6000，單詞出現(xiàn)的次數如圖4-6所示。[單選題]*A0.004584(正確答案)B.0.002223C.0.004558D.0.0065874.4適合高階n-gram模型的平滑方法為（）。[單選題]*A．加1平滑B.古德-圖靈平滑(正確答案)C.線性插值平滑D.均值平滑4.5不屬于jieba分詞步驟的是（）。[單選題]*A.基于前綴詞典快速掃描詞圖，搭建可能的分詞結果的有向無環(huán)圖，構成多條分詞路徑。B.統(tǒng)計每個出現(xiàn)在詞頭的位置狀態(tài)的次數，得到初始概率；統(tǒng)計每種位置狀態(tài)轉移至另一種狀態(tài)的次數，得到轉移概率。(正確答案)C.采用動態(tài)規(guī)劃法尋找最大概率路徑，從右往左反向計算最大概率，依此類推，得到概率最大的分詞路徑，作為最終的分詞結果。D5.1下列關于jieba詞性標注的流程錯誤的是（）。[單選題]*A.加載離線統(tǒng)計詞典B.構建前綴詞典C.構建無向無環(huán)圖(正確答案)D.計算最大概率路徑5.2不屬于中文的實體邊界識別變得更加有挑戰(zhàn)性原因的是（）。[單選題]*A.中文詞數量繁多(正確答案)B.中文詞靈活多變C.中文詞的嵌套情況復雜D.中文詞存在簡化表達現(xiàn)象5.3CRF模型思想主要來源于（）。[單選題]*A.無向圖模型B.最大熵模型(正確答案)C.馬爾可夫隨機場D.統(tǒng)計方法5.4多分類問題中最經典的模型是（）。[單選題]*A.CRF模型B.聚類模型C.多項邏輯斯諦回歸(正確答案)D.神經網絡模型5.5下列關于特征函數的輸出值是0或1的敘述正確的是（）。[單選題]*A．0表示要標注序列不符合這個特征，1表示要標注序列符合這個特征(正確答案)B．0表示要標注序列符合這個特征，1表示要標注序列不符合這個特征C．0和1都表示要標注序列符合這個特征D．0和1都表示要標注序列不符合這個特征6.1要求關鍵詞提取算法應具有的性質不包括（[單選題]*A.可讀性B.高速性C.簡潔性(正確答案)D.健壯性6.2不屬于關鍵詞提取算法的是（[單選題]*A.TF-IDF算法B.TextRank算法C.主題模型算法D.關聯(lián)算法(正確答案)6.3TF-IDF算法的主要思想是（）。[單選題]*A.字詞的重要性隨著它在文檔中出現(xiàn)次數的增加而上升，隨著它在語料庫中出現(xiàn)頻率的升高而下降(正確答案)B.字詞的重要性隨著它在文檔中出現(xiàn)次數的增加而下降，隨著它在語料庫中出現(xiàn)頻率的升高而下降C.字詞的重要性隨著它在文檔中出現(xiàn)次數的增加而下降，隨著它在語料庫中出現(xiàn)頻率的升高而上升D.字詞的重要性隨著它在文檔中出現(xiàn)次數的增加而上升，隨著它在語料庫中出現(xiàn)頻率的升高而上升6.4關于逆文檔頻率說法錯誤的是（）。[單選題]*A.逆文檔頻率是一個詞出現(xiàn)在文檔集中文檔頻次的統(tǒng)計量B.一個詞在文檔集中越少的文檔中出現(xiàn)，說明這個詞對文檔的區(qū)分能力越強C.一個詞在文檔集中越少的文檔中出現(xiàn)，說明這個詞對文檔的區(qū)分能力越弱(正確答案)D.逆文檔頻率統(tǒng)計量的計算公式為idf_{i}=\log\frac{\vertD\vert}{\vert\{j:t_{i}\ind_{j}\}\vert+1}6.5一篇文章在講各式各樣的水果及其功效，當“水果”這一關鍵詞沒有直接出現(xiàn)在文本中時，應該使用（[單選題]*A.TF-IDF算法B.TextRank算法C.主題模型算法(正確答案)D.PageRank算法7.1獨熱表示的缺點不包括（）。[單選題]*A.構造簡單B維數過高C.不可以保留語義(正確答案)D.矩陣稀疏7.2Bow模型其中的一個缺點是)。[單選題]*A.可以保留語義B.維數低C.沒有忽略文檔的詞語順序D.矩陣稀疏(正確答案)7.3不屬于分布式表示模型的是（)。[單選題]*A.分類模型(正確答案)B.LSA矩陣分解模型C.PLSA潛在語義分析概率模型D．Word2Vec模型7.4下列關于Word2Vec模型說法正確的是（）。[單選題]*A.得到的訓練結果不能度量詞與詞之間的相似性B.當這個模型訓練好以后，需要用這個訓練好的模型處理新的任務C.真正需要的是這個模型通過訓練數據所得的參數(正確答案)D.wWord2Vec模型其實就是簡化的遺傳算法模型7.5DM模型與CBOW模型的區(qū)別為（）。[單選題]*A.DM模型的輸入包括上下文B.DM模型預測目標詞出現(xiàn)的概率C.DM模型輸入不僅包括上下文，而且還包括相應的段落(正確答案)D.CBOW模型輸入包括上下文8.1不屬于文本挖掘的基本技術分類的是（）。[單選題]*A.文本信息抽取B.文本分類C.文本聚類D文本數據挖掘(正確答案)8.2適用于樣本容量較大的文本集合的文本分類算法是（)。[單選題]*A.樸素貝葉斯算法B.支持向量機算法C.神經網絡算法D.K最近鄰(正確答案)8.3決策樹算法的缺點是（）。[單選題]*A.學習時間長，且效果不可保證.B.易出現(xiàn)過擬合，易忽略數據集屬性的相關性(正確答案)C.時空復雜度高，樣本容量較小或數據集偏斜時容易誤分D.對非線性問題沒有通用解決方案8.4于滿足正態(tài)分布的樣本數據來說效果會很好，但是過于依賴初始聚類中心的算法是基于（）的聚類算法。[單選題]*A.模型B.網格C.模糊(正確答案)D密度8.5屬于特征提取方法的是（）。[單選題]*A.BOW模型(正確答案)B.數據標準化C.訓練模型D.模型融合9.1情感分析的基礎性工作是([單選題]*A.文本信息抽取B.文本的主客觀分類C.情感分類(正確答案)D.情感極性判斷9.2基于機器學的情感分類，關鍵在于特征選擇、()、分類模型。[單選題]*A.標記詞性B.特征提C.特征權重量化(正確答案)D.情感極性判斷9.3不屬于情感分析應用的是(又)。[單選題]*A.信息檢索B.遠程通信人(正確答案)C.機器翻譯D.語音識別9.4情感分析技術的核心問題是(A[單選題]*A.情感分類(正確答案)B.“信息預測C輿情分析D.文本抽取9.5基于LDA主題模型的文本情感分析不包括[單選題]*A.文本轉換(正確答案)B.主題提取和情感詞提取C.主題情感摘要生成D.系統(tǒng)評測10.1NN適用于處理視頻、語音、文本等與時序相關的問題，其常見的應用領域不包[單選題]*A.圖像處理B.視頻剪輯(正確答案)C.語音識別D.文本相似度計算10.2RNN經典結構的輸入和輸出的序列長度為（）。[單選題]*A.多對一B.一對多C.等長的多對等(正確答案)D.非等長的多對多10.3下列關于雙向RNN結構說法正確的是（）。[單選題]*A.只考慮預測詞前面的詞，并沒有考慮該詞后面的內容B.不僅從前往后保留該詞前面的詞的信息，而且還從后往前保留該詞后面的詞的信息(正確答案)C.不是由兩個RNN上下疊加在一起組成D.輸出與隱藏層的狀態(tài)無關10.4下列關于LSTM說法不正確的是([單選題]*A.通過改進使RNN具備避免梯度消失的特性B.LSTM只能夠刻畫出輸人數據中的短距離的相關信息，不能夠捕捉到具有較長時間間隔的依賴關系(正確答案)C.LSTM神經網絡模型使用門結構實現(xiàn)了對序列數據中的遺忘與記憶D.使用大量的文本序列數據對LSTM模型訓練后，可以捕捉到文本間的依賴關系，訓練好的模型就可以根據指定的文本生成后序的內容10.5TensorFlow的特點不包括()。[單選題]*A高速性(正確答案)B性能最優(yōu)化C.多語言性D可移植性11.1問答系統(tǒng)流程由問題理解、(0)、答案生成3個部分組成。[單選題]*A.詞性標注C.問題分類B.關鍵詞提取D.知識檢索(正確答案)11.2關鍵詞提取最簡單、最直觀的方法是()方法，用于識別定義類查

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

自然語言處理題庫附有答案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔