《自然語言處理技術與應用》試卷及答案（共2套）

上傳人：唯*** IP屬地：河北上傳時間：2024-05-29 格式：PDF 頁數(shù)：11 大?。?.06MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

B.Segmentor

期末考試試題A卷（開卷）

C.n元模型

適用班級：人工智能2001/2002專業(yè)：人工智能技術服務D.Postagger

考試時長：120分鐘7.依存關系可以細分為不同的類型，表示兩個詞之間的具體句法關

系。依存句法分析標注關系，以下關系類型和它的標注不正確的是（）

得分閱卷人一、選擇題（單項選擇共15題，每題2分，共30A.前置賓語（FOB）

分）B.動補結構（CMP）

C.介賓關系（POB）

1.自然語言處理中的句子級別的分析技術，可以大致分為（）、D.定中關系（ATD）

句法分析、語義分析三個層面。8.以下有關計算機視覺的步驟中，哪個不屬于傳統(tǒng)方法（）。

A.詞法分析A.圖像預處理

B.文法分析B.特征提取

C.分詞C.特征篩選

D.語言分析D.神經(jīng)卷積

2.相對于其他的編程語言，Python具有以下哪些優(yōu)勢（）9.以下哪一個是不屬于三大特征抽取器（）。

A.Python提供了大量的自然語言處理庫A.CNN

B.編程語法較復雜B.RNN

C..編程語法相對簡單C.HMM

D.具有很多數(shù)學科學相關的庫D.transformer類型

3.詞法分析，主要包括（）、和詞性標注、命名實體識別三部分。10.以下那部分代碼是正確引用gensim模塊的（）。

A.英語分詞A.fromgensimimportcorpora

B.分詞技術B.importnumpyasnp

C.漢語分詞C.importgenismasge

D.語言分詞D.importgensim

4.目前，中文分詞的難點不包括（）11.下列哪種關于無監(jiān)督關鍵詞提取的說法是正確的（）。

A.分詞歧義消解A.基于詞的文檔位置的特征量化是屬于關鍵詞提取中有監(jiān)督算法的

B.錯別字、諧音字規(guī)范化B.基于詞圖模型的關鍵詞抽取不用構建文檔的語言網(wǎng)絡圖

C.未登錄詞的識別C.基于文本統(tǒng)計特征方法是利用文檔中詞語的統(tǒng)計信息抽取文檔的關鍵詞

D.分詞問題D.基于主題模型認為，詞與文檔之間有直接的聯(lián)系

5.采用jieba精確模式對“南京市長江大橋”進行分詞，得到的結果12.關于TF-IDF算法說法不正確的是（）o

為：（）A.TF算法和IDF算法可以單獨使用

A.南京、市長江大橋B.IDF的大小與詞語的常見程度成正比

B.南京市/長江大橋C.TF算法權衡詞出現(xiàn)的頻率，不考慮詞語對文檔的區(qū)分能力

C.南京/南京市/京市/市長/長江/長江大橋/大橋D.TF-IDF算法，從詞頻、逆文檔頻率兩個角度對詞語的重要性進行衡量

D.南京/京市/南京市/長江/大橋/長江大橋13.下列關于說法不正確的是（）。

6.下面哪項不屬于LTP的主要模型：（）A.DF值廣泛應用于大規(guī)模語料的特征降維

A.SentenceSplitterB.計算出每個特征的信息增益后，就可以移除那些信息量較低的特征

C.互信息是指根據(jù)特征與類別的關聯(lián)程度來計算特征與類別的相關度得分閱卷入三、填空題（共13題，每空1分，共20分）

D.當對梁樣本平均數(shù)進行比較時，可以采用卡方檢驗

14.基于機器學習的情感分析方法本質是一個分類問題，該方法使用的經(jīng)典分類

模型不包括（）。1.自然語言處理的三個層面有：和、語義分

A.支持向量機析。

B.樸素貝葉斯2.根據(jù)句法結構的表示形式不同，最常見的句法分析任務可

C.卡爾曼濾波以分為以下三種：、依存句法分析以及深層文法句法分

D.最大端模型析。

15.自然語言理解的簡稱是什么？（）。3.基于規(guī)則的分詞方法有：正向最大匹配法、和雙向最

A.NLP大匹配法。

B.ANN4..LTP是基于C++開發(fā)的，但是也提供了Python的封裝包——

C.NLUPyltp。Pyltp的安裝直接使用pip進行安裝，在命令行輸

D.APL入。

5.句法分析的數(shù)據(jù)集是樹形標注結構，稱為。

得分閱卷人二、判斷題（對的打'，'，錯的打'X',共106.的結構沒有非終結點，詞與詞之間直接發(fā)生依存

題，每題1分，共10分）關系。

7.卷積神經(jīng)網(wǎng)絡結構包括：、

1.句法分析的主要任務是：識別出句子所包含的句法成分，以及這和O

些成分之間的關系。（）8.Word2vec主要包含兩個淺層的神經(jīng)網(wǎng)絡模型，分別是

2.使用jieba進行分詞，需要導入jieba工具包。（）和0

3.Stanfordparser的底層是由python實現(xiàn)的。（）9.在使用TF-IDF算法提取關鍵詞時，為使候選詞標準化，TF值

4.re.match嘗試從字符串的起始位置匹配一個模式，如果起始位置=,候選詞的IDF=,候選詞的

匹配不成功的話，就返回none。（）TF-IDF=o

5.自然語言處理有兩個核心任務，一個是自然語言理解，另外一個10.PageRank在計算句子給它鏈接句的貢獻時，是通過計算

是自然語言生成。（）來分配。

6.自然語言處理（NaturalLanguageProcessing,NLP）是計算機科11.特征工程一般包括、、三個部

學領域以及大數(shù)據(jù)領域的一個重要的研究方向。（）分。

7.基于規(guī)則的分詞方法是最早興起的分詞方法，主要是通過設立詞12..目前情感分析的方法主要分為三類，分別為、

庫和規(guī)則，然后使用匹配的方法進行分詞。（）

8.命名實體識別（NER）的目的在于識別語料中人名、地名、組織13.神經(jīng)網(wǎng)絡模型的復興使得深度學習在語音、圖像、文本處理得到

機構名等命名實體。（）了廣泛的應用，講深度學習應用在情感分析中，一般采用和結合的

9.條件隨機場（CRF）也是一種基于馬爾科夫思想的統(tǒng)計模型。之方法和O

前的模型都假設每個狀態(tài)均只與它前面的狀態(tài)有關。（）

10.jieba分詞工具提供了詞性標注功能。jieba分詞是結合規(guī)則和統(tǒng)得分閱卷入四、綜合應用題一（5分）

計的方式，也就是說同時使用詞典匹配和HMM?（）

（1）將以下內容轉為txt文本：得分閱卷人六、綜合應用題三（20分）

Icouldimaginehisgivingafriendalittlepinchofthelatestvegetable

alkaloid,notoutofmalevolence,youunderstand,butsimplyoutofaspirit

ofinquiryinordertohaveanaccurateideaoftheeffects.（2分）自定義函數(shù)get_content（）,分別讀取data文件夾下neg和pos文件

（2）對內容進行分詞，統(tǒng)計文本中的所有詞語，進行獨熱編碼，得到夾中的文件。

每個詞的one-hot向量表示.（2分）

（3）將句子進行文本向量化。（1分）

得分閱卷入五、綜合應用題二（15分）

使用TF-IDF算法完成對以下內容實現(xiàn)關鍵詞的提

?。?/p>

展望2035年，我國將基本實現(xiàn)社會主義現(xiàn)代化。經(jīng)濟實力、科技實

力、綜合國力將大幅躍升，經(jīng)濟總量和城鄉(xiāng)居民人均收入將再邁上新

的大臺階，關鍵核心技術實現(xiàn)重大突破，進入創(chuàng)新型國家前列?；?/p>

實現(xiàn)新型工業(yè)化、信息化、城鎮(zhèn)化、農業(yè)現(xiàn)代化，建成現(xiàn)代化經(jīng)濟體

系?；緦崿F(xiàn)國家治理體系和治理能力現(xiàn)代化，人民平等參與、平等

發(fā)展權利得到充分保障，基本建成法治國家、法治政府、法治社會。

建成文化強國、教育強國、人才強國、體育強國、健康中國，國民素

質和社會文明程度達到新高度，國家文化軟實力顯著增強。廣泛形成

綠色生產(chǎn)生活方式，碳排放達峰后穩(wěn)中有降，生態(tài)環(huán)境根本好轉，美

麗中國建設目標基本實現(xiàn)。形成對外開放新格局，參與國際經(jīng)濟合作

和競爭新優(yōu)勢明顯增強。人均國內生產(chǎn)總值達到中等發(fā)達國家水平，

中等收入群體顯著擴大，基本公共服務實現(xiàn)均等化，城鄉(xiāng)區(qū)域發(fā)展差

距和居民生活水平差距顯著縮小。平安中國建設達到更高水平，基本

實現(xiàn)國防和軍隊現(xiàn)代化。人民生活更加美好，人的全面發(fā)展、全體人

民共同富裕取得更為明顯的實質性進展。經(jīng)濟發(fā)展取得新成效。發(fā)展

是解決我國一切問題的基礎和關鍵，發(fā)展必須堅持新發(fā)展理念，在質

量效益明顯提升的基礎上實現(xiàn)經(jīng)濟持續(xù)健康發(fā)展，增長潛力充分發(fā)揮，

國內生產(chǎn)總值年均增長保持在合理區(qū)間、各年度視情提出，全員勞動

生產(chǎn)率增長高于國內生產(chǎn)總值增長，國內市場更加強大，經(jīng)濟結構更

加優(yōu)化，創(chuàng)新能力顯著提升，全社會研發(fā)經(jīng)費投入年均增長7%以上、

力爭投入強度高于“十三五”時期實際，產(chǎn)業(yè)基礎高級化、產(chǎn)業(yè)鏈現(xiàn)

代化水平明顯提高，農業(yè)基礎更加穩(wěn)固，城鄉(xiāng)區(qū)域發(fā)展協(xié)調性明顯增

強，常住人口城鎮(zhèn)化率提高到65%,現(xiàn)代化經(jīng)濟體系建設取得重大進

展。

《Python文本與語音應用設計》期末考試試題9.

10.

A卷答題紙

得分閱卷人三、填空題（共13題，每空1分，共20分）

適用班級：人工智能2001/2002專業(yè)：人工智能技術服務

得分閱卷人一、選擇題（單項選擇共15題，每題2分，共302.

分）3.

1.5.

2.6.

3.7.

4.8.

5.9.

6.10.

7.11.

8.12.

9.13.

10.

11.綜合應用題一（5分）

12.

13.

14.

綜合應用題二（15分）

得分閱卷人二、、判斷題（對的打'J,錯的打'X',共

10題，每題1分，共10分）

2綜合應用題三（20分）

8.對

期末考試試題9.對

10.錯

A卷答案

得分閱卷入二、填空題（共13題，每空1分，共20分）

適用班級：專業(yè)：人工智能技術服務

1詞.法分析、句法分析

一、選擇題（單項選擇共15題，每題2分，共302短.語結構句法分析

分）3.逆向最大匹配法

4.pipinstallpyltp

I.A5.句法分析樹或句法樹

2.B6依.存語法

3.B7卷.積層，降采樣層，全鏈接層

4.C8.CBOW（ContinuesBagofWords）模型Skip-gram模型

5.B9.（word在文檔中出現(xiàn)的頻率）/（文檔的總詞數(shù)）、log（語料庫中文檔總

6.C數(shù)/（1+出現(xiàn)word的文檔數(shù)量））、TF-IDF=TFxIDF

7.D10.權重占總權重的比例

8.Dn.特征構建、特征提取、特征選擇

9.C12.基于詞典的方法、基于傳統(tǒng)機器學習的方法和基于深度學習的方法

10.A13.詞向量RNN

11.C

12.B

13.D

14.B

15.A

彳導分閱卷入二、、判斷題（對的打'，'，錯的打'X',共

——10題，每題1分，共10分）

L對

2.對

3.錯

4.對

5.對

6.對

7.對

略

6.詞性標注的正確與否會直接影響到之后的（）、語義分析，是中文

期末考試試題B卷（開卷）

自然語言處理的基礎之一。

適用班級：人工智能2001/2002專業(yè)：人工智能技術服務A.詞法分析

考試時長：120分鐘B.語言分析

C.句子分析

得分閱卷入一、選擇題（單項選擇共15題，每題2分，共30D.句法分析

分）7.關于Stanfordparser下面說法不正確的是：（）

E.Stanfordparser的底層是由Java實現(xiàn)的，因此需要確保安裝JDK。

1.自然語言處理的發(fā)展大致分為3個階段：（），20世紀70年F.Stanfordparser的Python封裝是在NLTK庫中實現(xiàn)的，因此，需

代和21世紀。要安裝NETK庫。

A.19世紀晚期G.NLTK是一款Python的自然語言處理工具，但主要針對中文。

B.19世紀中期H.Stanfordparser基于概率統(tǒng)計進行句法分析。

C.19世紀早期8.RNN的應用場景不包括（）。

D.20世紀50年代A.生成圖像描述

2.以下哪個不屬于文件對象的方法？（）B.語音識別

A.file.read（［size］）C.視頻標記

B.file.write（str）D.自動拍照

C.file.readlinef）9.當處理序列問題發(fā)現(xiàn)，當前時刻的輸出既與前面時刻輸入有關，又與未來時

D.file.close（）刻輸出有關，應選擇哪個模型更為合適（）

3.為了保證無論是否出錯都能正確地關閉文件，可以使用（）來實現(xiàn)。A.CNN

A.breakB.RNN

B.for循環(huán)語句C.雙向LSTM

C.try**finallyD.GMM

D.if...else10.關于one-hot編碼說法不正確的是（）。

4.目前的分詞方法主要有三種：基于規(guī)則的分詞方法、基于統(tǒng)計的A.one-hot編碼是一位有效編碼

分詞方法以及（）。B.每個狀態(tài)都有自己獨立的寄存器位

A.基于語法的分詞方法C.隨著語料庫詞語的增加，詞向量的維度高且稀疏

B.基于語種的分詞方法D.計算詞與詞之間的相似性

C.基于語言的分詞方法11.基于主題模型方法使用的算法是（）。

D.基于語義的分詞方法A.TF-IDF算法

5.采用jieba搜索引擎模式對“南京市長江大橋”進行分詞，得到的結果B.LDA算法

為（）C.TextRank算法

A.南京、市長江大橋D.KNN算法

B.南京市/長江大橋12.TF-IDF算法中使用哪個函數(shù)對數(shù)據(jù)集進行分詞，去停用詞（）。

C.南京/南京市/京市/市長/長江/長江大橋/大橋A.pos

D.南京/京市/南京市/長江/大橋/長江大橋B.corpus_path

C.preprocess8.條件隨機場（CRF）也是一種基于馬爾科夫思想的統(tǒng)計模型。之

D.idf_dic前的模型都假設每個狀態(tài)均只與它前面的狀態(tài)有關。（）

13.根據(jù)代碼確定fit_prior:為True的含義（）。9.命名實體識別（NER）的目的在于識別語料中人名、地名、組織

classsklearn.naive_bayes.MultinominalNB（alpha=1.0,機構名等命名實體。（）

fit_prior=True,class_prior=None）10.LTP的主要模型中SentenceSplitter是分句模型。（）

A.不去學習類別先驗概率

B.訓練模型得分閱卷入二、填空題（共13題，每空1分，共20分）

C.追加訓練模型

D.用模型進行預測

14.基于詞典的情感分析方法的最大特點是（）。1.自然語言處理的發(fā)展歷程分別是：19世紀早期、

A.簡單

B.方便2.目前的分詞方法主要有三種：基于規(guī)則的分詞方法、以

C.復雜及基于語義的分詞方法。

D.快速3.命名實體識別分為和基于統(tǒng)計的命名實體識

15.自然語言理解的簡稱是什么？（）。10.6別。

A.NLP4.的目的在于識別語料中人名、地名、組織機構名等

B.ANN命名實體。

C.NLU5.根據(jù)句法結構的表示形式不同，最常見的句法分析任務可

D.APL以分為以下三種：、依存句法分析以及深層文法句法分析。

6.LSTM的三重門分別是：、

得分閱卷人二、判斷題（對的打—'，錯的打'X',共10和?

題，每題I分，共10分）7.GRU中有兩個門，決定前一狀態(tài)有多少信息寫入到

當前候選集上，決定前一時刻的狀態(tài)信息寫入到當前狀態(tài)中的程度。

1.句法分析的主要任務是：識別出句子所包含的句法成分，以及這8.在Python中，匹配下面生成詞典的正確函數(shù)是：

些成分之間的關系。（）diet=corpora.（［words］）

2..jieba分詞工具提供了詞性標注功能。jieba分詞是結合規(guī)則和統(tǒng)9.從實現(xiàn)上考慮自動文摘所采用的方法可以分為

計的方式，也就是說同時使用詞典匹配和HMM。和O

（）10.影響聚類算法結果的主要因素有、

3.Stanfordparser的底層是由python實現(xiàn)的。（）

4.re.match嘗試從字符串的起始位置匹配一個模式，如果起始位置11.基于詞典的情感分析方法的分類效果取決于。

匹配不成功的話，就返回noneo（）12.基于詞典的情感分析方法的最大特點是o

5.re.match嘗試從字符串的起始位置匹配一個模式，如果起始位置匹13.聊天機器人按照功能需求來劃分，可以分為兩種，分別為

配不成功的話，就返回none。（）和?

6.自然語言處理（NaturalLanguageProcessing,NLP）是計算機科

學領域以及大數(shù)據(jù)領域的一個重要的研究方向。（）得分閱卷人四、綜合應用題一（5分）

7.基于語義的分詞方法通常包括三個部分：分詞子系統(tǒng)、句法語義子

系統(tǒng)、總控部分。（）

請采用了今日頭條公開的分類數(shù)據(jù)作為訓練語料庫，進行Word2vec子向左微傾，顯出努力的樣子。這時我看見他的背影，我的淚很快地

訓練。流下來了。

我趕緊拭干了淚，怕他看見，也怕別人看見。我再向外看時，他

己抱了朱紅的橘子望回走了。過鐵道時，他先將橘子散放在地上，自

得分閱卷入五、綜合應用題二（15分）己慢慢爬下，再抱起橘子走。到這邊時，我趕緊去攙他。他和我走到

車上，將橘子一股腦兒放在我的皮大衣上。于是撲撲衣上的泥土，心

.將以下內容保存為txt文檔，并使用TextRank算法里很輕松似的，過一會說，“我走了;到那邊來信!”我望著他走出去。他

對以下內容進行文本摘要。走了幾步，回過頭看見我，說，“進去吧，里邊沒人?！钡人谋秤盎?/p>

我與父親不相見已二年余了，我最不能忘記的是他的背影。那年入來來往往的人里，再找不著了，我便進來坐下，我的眼淚又來了。

冬天，祖母死了，父親的差使也交卸了，正是禍不單行的日子，我從近幾年來，父親和我都是東奔西走，家中光景是一日不如一日。

北京到徐州，打算跟著父親奔喪回家。到徐州見著父親，看見滿院狼他少年出外謀生，獨力支持，做了許多大事。那知老境卻如此頹唐!他

藉的東西，又想起祖母，不禁簌簌地流下眼淚。父親說，“事己如此，觸目傷懷，自然情不能自己。情郁于中，自然要發(fā)之于外;家庭瑣屑便

不必難過，好在天無絕人之路!”往往觸他之怒。他待我漸漸不同往日。但最近兩年的不見，他終于忘

回家變賣典質，父親還了虧空;又借錢辦了喪事。這些日子，家中卻我的不好，只是惦記著我，惦記著我的兒子。我北來后，他寫了一

光景很是慘淡，一半為了喪事，一半為了父親賦閑。喪事完畢，父親信給我，信中說道，“我身體平安，惟膀子疼痛利害，舉箸提筆，諸多

要到南京謀事，我也要回北京念書，我們便同行。不便，大約大去之期不遠矣。”我讀到此處，在晶瑩的淚光中，又看見

到南京時，有朋友約去游逛，勾留了一日;第二日上午便須渡江到那肥胖的，青布棉袍，黑布馬褂的背影。唉!我不知何時再能與他相見!

浦口，下午上車北去。父親因為事忙，本已說定不送我，叫旅館里一

個熟識的茶房陪我同去。他再三囑咐茶房，甚是仔細。但他終于不放

心，怕茶房不妥帖;頗躊躇了一會。其實我那年已二十歲，北京已來往得分閱卷人六、綜合應用題三（20分）

過兩三次，是沒有甚么要緊的了。他躊躇了一會，終于決定還是自己

送我去。我兩三回勸他不必去;他只說，“不要緊，他們去不好!”

我們過了江，進了車站。我買票，他忙著照看行李。行李太多了，編寫Python代碼實現(xiàn)垃圾郵件分類。

得向腳夫行些小費，才可過去。他便又忙著和他們講價錢。我那時真

是聰明過分，總覺他說話不大漂亮，非自己插嘴不可。但他終于講定

了價錢;就送我上車。他給我揀定了靠車門的一張椅子；我將他給我做

的紫毛大衣鋪好坐位。他囑我路上小心，夜里警醒些，不要受涼。又

囑托茶房好好照應我。我心里暗笑他的迂;他們只認得錢，托他們直是

白托!而且我這樣大年紀的人，難道還不能料理自己么?唉,我現(xiàn)在想想,

那時真是太聰明了！

我說道，“爸爸，你走吧?！彼囃饪戳丝矗f，“我買幾個橘子

去。你就在此地，不要走動。"我看那邊月臺的柵欄外有幾個賣東西的

等著顧客。走到那邊月臺，須穿過鐵道，須跳下去又爬上去。父親是

一個胖子，走過去自然要費事些。我本來要去的，他不肯，只好讓他

去。我看見他戴著黑布小帽，穿著黑布大馬褂，深青布棉袍，蹣跚地

走到鐵道邊，慢慢探身下去，尚不大難?？墒撬┻^鐵道，要爬上那

邊月臺，就不容易了。他用兩手攀著上面，兩腳再向上縮;他肥胖的身

《Python文本與語音應用設計》期末考試試題9.

10.

B卷答題紙

得分閱卷人三、填空題（共13題，每空1分，共20分）

適用班級：人工智能2001/2002專業(yè)：人工智能技術服務

得分閱卷人一、選擇題（單項選擇共15題，每題2分，共302.

分）3.

1.5.

2.6.

3.7.

4.8.

5.9.

6.10.

7.11.

8.12.

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《自然語言處理技術與應用》試卷及答案（共2套）

文檔簡介

溫馨提示

最新文檔

評論

《自然語言處理技術與應用》試卷及答案（共2套）

文檔簡介

溫馨提示

最新文檔

評論

相關文檔