人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目6 自然語(yǔ)言處理_第1頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目6 自然語(yǔ)言處理_第2頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目6 自然語(yǔ)言處理_第3頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目6 自然語(yǔ)言處理_第4頁(yè)
人工智能應(yīng)用基礎(chǔ) 課件 項(xiàng)目6 自然語(yǔ)言處理_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能應(yīng)用基礎(chǔ)授課人:周老師

技術(shù)篇項(xiàng)目5?自然語(yǔ)言處理01項(xiàng)目描述05項(xiàng)目拓展02項(xiàng)目分析06項(xiàng)目小結(jié)03相關(guān)知識(shí)07項(xiàng)目練習(xí)04項(xiàng)目實(shí)施目錄項(xiàng)目描述01文字是我們傳遞信息的基本媒介,在互聯(lián)網(wǎng)高度發(fā)達(dá)的今天,文字形式的信息也以爆炸式的速度增長(zhǎng)著。媒體一刻不停地在網(wǎng)絡(luò)上發(fā)布著最新的新聞,人們隨時(shí)隨地通過手機(jī)談?wù)撝磉叺氖虑椋繒r(shí)每刻都有大量的文字從各種渠道生產(chǎn)出來(lái)。面對(duì)海量的文本數(shù)據(jù),我們又該用什么樣的人工智能技術(shù)對(duì)其進(jìn)行分析與理解,從而節(jié)省人類有限的閱讀時(shí)間與精力呢?5.1項(xiàng)目描述02項(xiàng)目分析為了使用人工智能技術(shù)理解文本內(nèi)容以及發(fā)掘文本的潛在語(yǔ)義,需要建立龐大的語(yǔ)料庫(kù),將文字編碼為機(jī)器能“閱讀”的數(shù)據(jù)格式。當(dāng)遇到大量的文本信息,諸如博客,新聞,書籍等大文檔,怎么快速的從中理解關(guān)鍵信息就是自然語(yǔ)言處理可以發(fā)揮作用的地方。全面了解自然語(yǔ)言處理的關(guān)鍵技術(shù),需要學(xué)習(xí)以下內(nèi)容:1.

文本表示方法2.

文檔分類3.機(jī)器翻譯5.2項(xiàng)目分析03相關(guān)知識(shí)文本表示自然語(yǔ)言處理中的第一個(gè)關(guān)鍵步驟是將原始文本轉(zhuǎn)換為計(jì)算機(jī)可以有效處理的格式。最基本的處理流程包括預(yù)處理、分詞、編碼三個(gè)步驟。5.3相關(guān)知識(shí)編碼的過程①預(yù)處理:在處理文本之前,文本需要標(biāo)準(zhǔn)化以確保一致性,如刪除標(biāo)點(diǎn)符號(hào)。對(duì)于英文來(lái)說還需要統(tǒng)一字母大小寫,或者一些縮寫的形式,比如:“I’m”和“Iam”。②分詞:預(yù)處理后的文本需要拆分為單詞,也稱為token。例如,句子“我愛北京天安門”,分詞結(jié)果為:“我/愛/北京/天安門”,而英文句子的分詞可以根據(jù)單詞之間的空格進(jìn)行拆分。③編碼:由于計(jì)算機(jī)以數(shù)字為依據(jù)進(jìn)行操作,每個(gè)token都會(huì)轉(zhuǎn)換為數(shù)字表示。最簡(jiǎn)單的方法可以為每個(gè)token分配一個(gè)唯一的數(shù)字標(biāo)識(shí)符。“我/正在/學(xué)習(xí)/人工智能”分配的數(shù)字分別為5,22,16,73。除了這個(gè)直接轉(zhuǎn)換為數(shù)字的方法,也可以將token轉(zhuǎn)換成一個(gè)多維向量的形式,叫做獨(dú)熱編碼(one-hot)5.3相關(guān)知識(shí)獨(dú)熱編碼基本思想是使用一個(gè)跟句子長(zhǎng)度一樣的向量來(lái)表示一個(gè)詞,向量中只在該詞出現(xiàn)的位置設(shè)置為1,其余全部為0。比如我們的句子一共有4個(gè)詞{我,正在,學(xué)習(xí),人工智能},那么向量長(zhǎng)度則為4,“我”就表示為[1,0,0,0,],“正在”就表示為[0,1,0,0],“學(xué)習(xí)”就表示為[0,0,1,0],“人工智能”就表示為[0,0,0,1]。5.3相關(guān)知識(shí)詞嵌入詞嵌入將文本表示為一個(gè)詞向量,是一種將詞匯表中的每個(gè)單詞映射到一個(gè)高維向量的技術(shù)。將獨(dú)熱編碼改成詞向量后,男人、女人、國(guó)王、皇后四個(gè)詞語(yǔ),映射到一個(gè)7維的空間中,每個(gè)詞語(yǔ)都對(duì)應(yīng)了一個(gè)7維的向量。這樣,每個(gè)單詞在這個(gè)空間內(nèi)都有一個(gè)唯一的、稠密的實(shí)數(shù)向量作為表示,稱為詞向量。5.3相關(guān)知識(shí)詞嵌入詞向量可以發(fā)掘出詞與詞的類比關(guān)系,我們可以在詞向量上做加法和減法,最后得到一些有趣的結(jié)果。比如:國(guó)王-男人+女人=皇后,國(guó)王-皇后=男人-女人。按照這種方法表示出:中國(guó)-北京=法國(guó)-巴黎,do-did=go–went等等。5.3相關(guān)知識(shí)詞向量的應(yīng)用假設(shè)小明要做一個(gè)性格測(cè)試,要從不同維度上給自己在0到100的范圍打分。5.3相關(guān)知識(shí)詞向量的應(yīng)用小明認(rèn)為自己比較外向,給自己在“外向-內(nèi)向”的維度上在打了20分。這里0分是極度外向,100分是極度內(nèi)向。然后標(biāo)準(zhǔn)化一下得分,使其保持在-1和1之間,得到的分?jǐn)?shù)是-0.4,這樣小明在“外向-內(nèi)向”的維度由一個(gè)實(shí)數(shù)-0.4來(lái)表示,該維度可看成是描述性格的一個(gè)特征。5.3相關(guān)知識(shí)詞向量的應(yīng)用按照同樣的方法在第二個(gè)特征上打分,先在0~100之間打分,再標(biāo)準(zhǔn)化后得到0.8?,F(xiàn)在小明的性格可以由[-0.4,0.8]的二維向量來(lái)表示。5.3相關(guān)知識(shí)詞向量的應(yīng)用可以根據(jù)這個(gè)向量在前兩個(gè)特征上的得分看對(duì)方是否和自己性格相似,這時(shí)候的性格只考慮了二個(gè)特征維度。5.3相關(guān)知識(shí)詞向量的應(yīng)用對(duì)性格特征完整打分后轉(zhuǎn)換成4維向量,每一個(gè)維度上的數(shù)字就代表性格中某一特征的得分,計(jì)算機(jī)很容易能計(jì)算出這些向量之間的相似程度。如果將它運(yùn)用到單詞中,就是詞嵌入。5.3相關(guān)知識(shí)詞向量的應(yīng)用選擇一些英文單語(yǔ)如:cat,kitten,dog,houses,利用詞嵌入生成多維的詞向量。然后使用降維算法,將詞向量降維至2維,從而在平面上將詞向量繪制出來(lái)。在自然語(yǔ)言處理中,詞嵌入把單詞(word)轉(zhuǎn)換成實(shí)數(shù)向量(vector),因此大家都也把詞嵌入稱為word2vec,用到的技術(shù)最多的也是神經(jīng)網(wǎng)絡(luò)。5.3相關(guān)知識(shí)詞向量的應(yīng)用當(dāng)嵌入“學(xué)習(xí)”這個(gè)詞,可以把“我”,“正在”,“學(xué)習(xí)”,“人工智能”這幾個(gè)上下文單詞一同輸入神經(jīng)網(wǎng)絡(luò),這樣能夠更好的表現(xiàn)“學(xué)習(xí)”在語(yǔ)句中的含義與位置。當(dāng)然,輸入到神經(jīng)網(wǎng)絡(luò)的是這些單詞的編碼,可以是簡(jiǎn)單的數(shù)字編碼,也可以是獨(dú)熱編碼,最終輸出“學(xué)習(xí)”這個(gè)詞的詞向量。5.3相關(guān)知識(shí)文檔主題分類對(duì)于多個(gè)單詞組成的句子,我們利用詞嵌入技術(shù)將句子中的單詞生成對(duì)應(yīng)的詞向量后,將這些詞向量拼接起來(lái)形成表示整個(gè)句子的向量。這個(gè)向量會(huì)比較長(zhǎng),可以再通過一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換,來(lái)生成一個(gè)維度比較小的句子向量。5.3相關(guān)知識(shí)文檔主題分類同樣的原理,我們可以用句向量再組合成文檔向量,然后用最終生成的文檔向量來(lái)代表整個(gè)文檔的嵌入表達(dá)。5.3相關(guān)知識(shí)情感傾向分析將情感傾向分析看作一個(gè)分類任務(wù),將情感分為正面、負(fù)面和中性三類。英文句子:“Ilikethisphotoverymuch!”。該句子包含七個(gè)“元素”,采用詞嵌入的方法將這個(gè)七個(gè)元素轉(zhuǎn)換成詞向量(標(biāo)點(diǎn)符號(hào)也可以看作一個(gè)單詞),假設(shè)每個(gè)“詞向量”的維度被設(shè)定為5,那么整個(gè)句子可以表示成一個(gè)7行5列矩陣。5.3相關(guān)知識(shí)情感傾向分析形成的矩陣在計(jì)算機(jī)看來(lái)跟一張分辨率為7×5的圖像是差不多的,而卷積神經(jīng)網(wǎng)絡(luò)剛好特別擅長(zhǎng)圖像分類,于是可以搭建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,并用大量標(biāo)注過的文本數(shù)據(jù)將模型訓(xùn)練好,然后對(duì)這個(gè)矩陣進(jìn)行分類,分類的結(jié)果設(shè)置為情感分析的三個(gè)類別:正面、負(fù)面、中性5.3相關(guān)知識(shí)機(jī)器翻譯用于實(shí)現(xiàn)不同語(yǔ)言之間的自動(dòng)轉(zhuǎn)換,常見的模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)模型和Transformer模型。常見的RNN模型結(jié)構(gòu),該模型有兩個(gè)隱藏層。RNN是專門設(shè)計(jì)用來(lái)處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,RNN具有循環(huán)結(jié)構(gòu)5.3相關(guān)知識(shí)機(jī)器翻譯在翻譯一個(gè)句子時(shí),比如“知識(shí)就是力量”,這是一個(gè)文字序列,用RNN翻譯時(shí),會(huì)把輸出結(jié)構(gòu)又連接回輸入,這種結(jié)構(gòu)特別適合用來(lái)處理序列。我們把RNN的結(jié)構(gòu)展開,查看它的結(jié)構(gòu)。5.3相關(guān)知識(shí)機(jī)器翻譯機(jī)器翻譯前,要將句子進(jìn)行編碼(one-hot,或者是詞向量),可以將編碼這一步也用一個(gè)RNN實(shí)現(xiàn),并統(tǒng)一到整個(gè)翻譯架構(gòu)中,形成RNN翻譯框架。5.3相關(guān)知識(shí)Transformer注意力模型注意力機(jī)制的目標(biāo)是計(jì)算當(dāng)前單詞與整個(gè)句子中其它單詞的相關(guān)性,經(jīng)過計(jì)算后,假設(shè)“知”與“識(shí)”的相關(guān)性得分為0.8,但是與“就”的相關(guān)性得分只為0.2,說明“知”與“識(shí)”更相關(guān),通過這種方式就可以得到整個(gè)句子中每?jī)蓚€(gè)單詞之間的關(guān)系。5.3相關(guān)知識(shí)Transformer注意力模型計(jì)算出“知”與其它所有詞的相關(guān)性得分后,根據(jù)分?jǐn)?shù)進(jìn)行加權(quán)求和,生成編碼e0,與“知”相關(guān)性得分越大的詞,如“識(shí)”、“力”,“量”,在編碼e0中所占的比重就越大。5.3相關(guān)知識(shí)Transformer注意力模型句子經(jīng)過多次編碼之后,會(huì)再通過解碼器進(jìn)行解碼。解碼器也是基于同樣的注意力機(jī)制,并且是多層的。編碼器負(fù)責(zé)將輸入序列(源語(yǔ)言句子)轉(zhuǎn)換為一個(gè)向量表示(上下文向量),這個(gè)表示包含了輸入序列的所有信息。解碼器則根據(jù)這個(gè)向量逐步生成輸出序列(目標(biāo)語(yǔ)言句子),從而實(shí)現(xiàn)翻譯。5.3相關(guān)知識(shí)04項(xiàng)目實(shí)施打開EasyDL平臺(tái)通過網(wǎng)址進(jìn)入到百度智能云平臺(tái)的文本情感傾向分析的主頁(yè)面:/product/nlp_apply/sentiment_classify,里面有一個(gè)情感分析的演示功能?!扒楦袃A向分類”5.4項(xiàng)目實(shí)施輸入文本在文本框中輸入一段帶有感情色彩的文字,如“人工智能很難學(xué),但是非常有用,我很想學(xué)好”,在你輸入文字的過程中,頁(yè)面會(huì)實(shí)時(shí)的分析內(nèi)容,我們可以在文本框下面查看情感傾向結(jié)果?!扒楦袃A向分類”5.4項(xiàng)目實(shí)施05項(xiàng)目拓展通過網(wǎng)址進(jìn)入到百度智能云平臺(tái)的地址信息識(shí)別的主頁(yè)面:/product/nlp_apply/address,里面有一個(gè)地址識(shí)別的演示功能,可以幫我們抽取文本中的地址信息。輸入一段地址信息,如“湖南省長(zhǎng)沙市岳麓區(qū)含浦路139號(hào)張,然后點(diǎn)擊“開始分析”按鈕,即可在下方結(jié)果欄看到抽取的結(jié)果5.5項(xiàng)目拓展06項(xiàng)目小結(jié)在自然語(yǔ)言處理中,詞嵌入表示是關(guān)鍵部分,可用神經(jīng)網(wǎng)絡(luò)模型生成詞向量。在詞向量中,單詞每個(gè)維度用一個(gè)實(shí)數(shù)向量來(lái)表示。因此,通過向量來(lái)代表單詞,可以將單詞置于高維度的空間中,意義相近的單詞在空間中傾向于聚集在一起,共同表達(dá)相似的意思。注意力機(jī)制是一種模仿人類視覺和認(rèn)知系統(tǒng)的方法,它允許神經(jīng)網(wǎng)絡(luò)在處理輸入數(shù)據(jù)時(shí)集中注意力于相關(guān)的部分。通過引入注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)地學(xué)習(xí)并選擇性地關(guān)注輸入中的重要信息,提高模型的性能和泛化能力。5.6項(xiàng)目小結(jié)07項(xiàng)目練習(xí)一、選擇題

1.?將原始文本轉(zhuǎn)換為計(jì)算機(jī)可以有效處理的格式,不包括下列哪個(gè)過程?(

A.?預(yù)處理B.?采樣C.?分詞D.?編碼

2.?預(yù)處理后的文本需要拆分為單詞,也稱為什么?(

)A.?token

B.?樣本C.?wordD.?分詞3.?詞嵌入技術(shù)的主要作用是什么?(

)A.?將單詞轉(zhuǎn)換為高維向量B.?將句子轉(zhuǎn)換為圖像C.?統(tǒng)計(jì)單詞數(shù)量D.?將文本轉(zhuǎn)換為二進(jìn)制代碼5.7項(xiàng)目練習(xí)一、選擇題

4.?句子由多個(gè)單詞組成,可以將句子中單詞的詞向量進(jìn)行拼接,形成什么?(

A.?文檔B.?句子C.?主題D.?句向量

5.?在自然語(yǔ)言處理中,情感分析的主要目的是什么?(

)A.?確定單詞在句子中的位置B.?提取句子

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論