版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《自然語(yǔ)言處理導(dǎo)論》第1章緒論自然語(yǔ)言處理
自然語(yǔ)言處理要研制表示語(yǔ)言能力(linguisticcompetence)和語(yǔ)言應(yīng)用(linguisticperformance)的模型,建立計(jì)算框架來(lái)實(shí)現(xiàn)這樣的語(yǔ)言模型,提出相應(yīng)的方法來(lái)不斷地完善這樣的語(yǔ)言模型,根據(jù)這樣的語(yǔ)言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)技術(shù)?!狟illManaris,1999
自然語(yǔ)言處理
自然語(yǔ)言處理可以定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語(yǔ)言問(wèn)題的一門學(xué)科:人人交際中的語(yǔ)言問(wèn)題例如語(yǔ)言不通的問(wèn)題,促進(jìn)了機(jī)器翻譯這一語(yǔ)言處理中最重要的應(yīng)用之一的發(fā)展人機(jī)交際中的語(yǔ)言問(wèn)題例如語(yǔ)言文字的輸入輸出問(wèn)題,促進(jìn)了智能化人機(jī)接口技術(shù)的研究自然語(yǔ)言處理的研究意義歷史中,80%以上的信息是以自然語(yǔ)言文本形式(如書(shū)籍、傳記、碑文、書(shū)法等)記載的非結(jié)構(gòu)化數(shù)據(jù)圖書(shū)館/博物館檔案館當(dāng)代,電子化的文本數(shù)量不斷增長(zhǎng)Web中99%的可分析信息是以文本形式存在Web網(wǎng)頁(yè)總量超過(guò)100億,每天新增網(wǎng)頁(yè)數(shù)千萬(wàn)數(shù)字化辦公自然語(yǔ)言處理任務(wù)自然語(yǔ)言處理作為多項(xiàng)技術(shù)的交叉研究領(lǐng)域起源于文本分類(textclassification)和內(nèi)容生成等單項(xiàng)技術(shù)1.文本分類2.情感計(jì)算3.信息抽取典型的信息抽取任務(wù)包括命名實(shí)體識(shí)別、實(shí)體消歧、關(guān)系抽取和事件抽取。該車的外觀非常像豐田,車頭與普銳斯略有相似,但整車尺寸超過(guò)了之前該系列的車型,寬大的車身讓車內(nèi)的使用環(huán)境非常寬敞。內(nèi)飾設(shè)計(jì)也很居家,整體環(huán)境溫馨舒適。動(dòng)力方面,塞納搭載3.5LV6發(fā)動(dòng)機(jī),匹配6速自動(dòng)手動(dòng)變速箱,最大功率198KW,最大馬力269PS,最大扭矩332n·m,行駛平穩(wěn)自如。4.推薦系統(tǒng)-音樂(lè)、新聞、購(gòu)物、行程、行為習(xí)慣資訊類電商類娛樂(lè)類5.問(wèn)答系統(tǒng)6.語(yǔ)音識(shí)別語(yǔ)音助手:Cortana,
Assistant,
Siri等7.機(jī)器翻譯自然語(yǔ)言處理技術(shù)在國(guó)民經(jīng)濟(jì)、社會(huì)管理、信息服務(wù)和國(guó)家安全等各個(gè)領(lǐng)域中都有非常重要的應(yīng)用,市場(chǎng)需求巨大。對(duì)于政府管理部門來(lái)說(shuō),可以通過(guò)分析和挖掘網(wǎng)絡(luò)上的信息,及時(shí)準(zhǔn)確地了解民意、把握輿情;在金融或商貿(mào)領(lǐng)域,通過(guò)對(duì)大量的新聞報(bào)道、財(cái)務(wù)報(bào)告和網(wǎng)絡(luò)評(píng)論等文字材料的深入挖掘和分析,預(yù)測(cè)某一時(shí)間段的經(jīng)濟(jì)形勢(shì)和股市走向;電子產(chǎn)品企業(yè)可隨時(shí)了解和分析用戶對(duì)其產(chǎn)品的評(píng)價(jià)及市場(chǎng)反應(yīng),為進(jìn)一步改進(jìn)產(chǎn)品質(zhì)量、提供個(gè)性化服務(wù)等提供數(shù)據(jù)支持;而對(duì)于國(guó)家安全和公共安全部門來(lái)說(shuō),文本數(shù)據(jù)挖掘技術(shù)則是及時(shí)發(fā)現(xiàn)社會(huì)不穩(wěn)定因素、高效控制局面的有利工具;在醫(yī)療衛(wèi)生和公共健康領(lǐng)域,可以通過(guò)分析大量的化驗(yàn)報(bào)告、病例、記錄和相關(guān)文獻(xiàn)、資料等,發(fā)現(xiàn)某種現(xiàn)象、規(guī)律和結(jié)論等等?!蹲匀徽Z(yǔ)言處理導(dǎo)論》第2章
語(yǔ)言模型n元語(yǔ)法以詞組(詞序列)特征作為基本單元,可以捕捉一部分詞序信息。N元語(yǔ)法N元語(yǔ)法是一種語(yǔ)言模型。何為語(yǔ)言模型?從機(jī)器學(xué)習(xí)的角度來(lái)看,語(yǔ)言模型可對(duì)語(yǔ)句的概率分布進(jìn)行建模,并可判斷這個(gè)詞序列是否為正常語(yǔ)句。比方說(shuō),對(duì)于語(yǔ)句A“我愛(ài)自然語(yǔ)言處理和語(yǔ)句”和語(yǔ)句B“我自然語(yǔ)言處理愛(ài)”,鑒于語(yǔ)句A更可能是一個(gè)正常語(yǔ)句,語(yǔ)言模型將對(duì)其賦予更高的概率。
缺點(diǎn):N-gram缺乏長(zhǎng)期依賴,只能建模到前n-1個(gè)詞。隨著n的增大,詞袋的大小急劇增大,參數(shù)空間(特征向量維度)呈指數(shù)爆炸,容易出現(xiàn)數(shù)據(jù)稀疏的問(wèn)題。優(yōu)點(diǎn):N-gram統(tǒng)計(jì)語(yǔ)言模型采用極大似然估計(jì)法,有數(shù)學(xué)理論作為支撐,且參數(shù)易訓(xùn)練。根據(jù)窗口的大小,gram包含了前n-1個(gè)詞的全部信息,增加了前后文信息,考慮了文本字詞之間的順序問(wèn)題,能夠?qū)φZ(yǔ)義進(jìn)行很好地表示。N-gram模型的可解釋性強(qiáng),直觀易理解。所以,N-gram被廣泛使用。n可能的n-gram個(gè)數(shù)統(tǒng)計(jì)2400,000,00038,000,000,00041.6*1017詞表中詞的個(gè)數(shù)為20,000詞時(shí),不同n對(duì)應(yīng)的n-gram個(gè)數(shù)《自然語(yǔ)言處理導(dǎo)論》第3章神經(jīng)網(wǎng)絡(luò)和神經(jīng)語(yǔ)言模型神經(jīng)元模型M-P神經(jīng)元模型(McCullochandPitts,
1943)
神經(jīng)元(neuron)模型神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)模型
感知機(jī)與多層網(wǎng)絡(luò)算法:隨機(jī)梯度下降法(stochastic
gradient
descent)
感知機(jī)(線性可分的二分類問(wèn)題)感知機(jī)與多層網(wǎng)絡(luò)
算法:誤差逆?zhèn)鞑ニ惴ǎ╡rror
Back
Propagation)多層前饋神經(jīng)網(wǎng)絡(luò)(multi-layer
feedforward
neural
networks)深度學(xué)習(xí)模型復(fù)雜度增加隱層神經(jīng)元的數(shù)目(模型寬度)增加隱層數(shù)目(模型深度)從增加模型復(fù)雜度的角度看,增加隱層的數(shù)目比增加隱層神經(jīng)元的數(shù)目更有效。這是因?yàn)樵黾与[層數(shù)不僅增加額擁有激
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度農(nóng)田水利EPC施工合同
- 2024年度體育賽事贊助與媒體轉(zhuǎn)播合同
- 金色魚(yú)鉤課件教學(xué)課件
- 2024年度定制家具制作與銷售合同
- 2024年國(guó)際貨物買賣與運(yùn)輸服務(wù)合同
- 2024年度版權(quán)衍生品開(kāi)發(fā)合同
- 2024年度商用門安裝合同樣本
- 2024年度設(shè)備租賃服務(wù)合同
- 2024江蘇省建設(shè)工程造價(jià)咨詢?nèi)^(guò)程合同模板
- 2024年度學(xué)校實(shí)驗(yàn)室燈具更換勞務(wù)外包合同
- 第15課 兩次鴉片戰(zhàn)爭(zhēng) 教學(xué)設(shè)計(jì) 高中歷史統(tǒng)編版(2019)必修中外歷史綱要上冊(cè)+
- 銀行客戶經(jīng)理招聘面試題與參考回答(某大型集團(tuán)公司)
- 2024-2025學(xué)年度第一學(xué)期七年級(jí)語(yǔ)文課內(nèi)閱讀練習(xí)含答案
- 福建省2025屆普通高中學(xué)業(yè)水平合格考試仿真模擬政治試題(一)
- 幼兒園三年發(fā)展規(guī)劃(2024年-2026年)
- 2024-2030年中國(guó)重癥監(jiān)護(hù)監(jiān)護(hù)系統(tǒng)行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 2024年艾滋病知識(shí)題庫(kù)
- 2024年安徽龍亢控股集團(tuán)限公司公開(kāi)招聘人員13人(高頻重點(diǎn)提升專題訓(xùn)練)共500題附帶答案詳解
- 湖南美術(shù)出版社六年級(jí)上冊(cè)《書(shū)法練習(xí)指導(dǎo)》表格教案
- 投標(biāo)項(xiàng)目進(jìn)度計(jì)劃
- 中醫(yī)腦病科缺血性中風(fēng)(腦梗死恢復(fù)期)中醫(yī)診療方案臨床療效分析總結(jié)
評(píng)論
0/150
提交評(píng)論