下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
自然語言處理技術(shù)在應(yīng)用領(lǐng)域的研究綜述自然語言處理是互聯(lián)網(wǎng)科技發(fā)展的必然趨勢,表示的是利用計算機可以實現(xiàn)模擬人類處理日常用語的方式。其覆蓋范圍較為廣泛,主要涉及有語言學(xué)、自動翻譯、傾向性分析、數(shù)學(xué)等多個方面。NLP在通信技術(shù)突飛猛進的過程中,需求量隨之加大?;诖耍疚膶ζ浔尘?、運用范圍、方法展開了深入研究,同時預(yù)測了自然語言處理在未來的發(fā)展前景。1.所選定的研究領(lǐng)域的定義、內(nèi)容1.1自然語言處理的定義由于語言學(xué)、AI科技和計算機科學(xué)在發(fā)展過程中的相互融合從而形成了NLP這門新興的學(xué)科,目的是為了促使計算機能夠?qū)θ祟愄幚砗瓦\用語言的方式進行模擬。隨著NLP的不斷發(fā)展,進一步拓展出理解和生成人類語言這兩個分支。1.2自然語言處理的內(nèi)容1.2.1詞法分析重點涉及有語法和詞義注釋、專名識別、分詞以及語義消歧。其中前兩者進行語法分析的核心工作。詞性是語法的基礎(chǔ),只有對其進行準確注釋,才能更好的理解各詞所表示的語法意義。之所以要對詞義消歧和注釋,目的是為了結(jié)合情境明確詞義,即使是相同的詞在不同的語境之下所表達的意思可能存在著一定的差異性,不過在特定情境下通常可以清楚的知道含義。語法分析在中文NLP分詞單元中是至關(guān)重要的,要想確保其他工作都可以順利實施,前提即是必須將分詞任務(wù)完成好。專名識別表示的是對地名、組織名等這種有著特別指定稱謂的詞語作出準確定性,其是NLP不可或缺的工具。1.2.2句法分析之所以要進行語法分析,目的是要對句子中每個構(gòu)成部分所存在的關(guān)聯(lián)性作出明確,簡而言之即是確定它的句法結(jié)構(gòu),所要達到的技術(shù)包含兩個方面,分別是依存和修辭分析?;诠δ艿膶用鎭砜?,主要包括淺層和完全句法分析,前者表示的是對局部語言結(jié)構(gòu)方式進行理解,后者表示的是基于分析整個句法全過程來構(gòu)建樹形圖?,F(xiàn)階段運用最為廣泛的依存分析,通常是分析各詞匯所存在的相互依附關(guān)系。結(jié)合整個句子語法結(jié)構(gòu)而言,喬姆斯基方法是必不可少的基礎(chǔ),按照重寫標準可劃分成0、1、2、3型四類文法,都統(tǒng)一叫做成分結(jié)構(gòu)語法。局部句法分析主要包含兩個分支:除了對語塊進行定性及分析之外,還要對其所存在的依存關(guān)系進行分析。包含主要關(guān)鍵詞、邏輯詞困。前者是依存句法樹的樹根,一個完整的句子獨此一個,作用是對其他詞進行合理協(xié)調(diào),其通常和依附詞具有某種關(guān)系。1.2.3語義分析語義分析在不一樣的語言模塊中所蘊含的意義也存在著差異性。結(jié)合詞的維度而言,其表示的是詞義消歧;結(jié)合句的維度而言,其表示的是SRL;而基于整個文章的維度而言,其表示的是共指消解。1.2.4語用分析通常所說的語用分析,即是將語句里的描述關(guān)聯(lián)到真實事物上,從而組成不斷變化的表意結(jié)構(gòu)。主要由語言發(fā)表者、語言接受者、信息內(nèi)容、語言環(huán)境這四個基本要素所構(gòu)成。2.所選定研究方法的定義、范圍2.1數(shù)據(jù)流分析方法的定義中文NLP是通過采用統(tǒng)計、規(guī)則這兩種方法來處理詞、句亦或是整個文章。第一種方法是借助具有海量信息的知識庫對相關(guān)信息進行分析,以此達到處理人類語言的目的;第二種方法是人類結(jié)合語言規(guī)則實現(xiàn)對語言表現(xiàn)形式的處理。數(shù)據(jù)對于NLP具有很大程度的影響性,大部分NLP性能之所以會加強,主要是依賴于數(shù)據(jù)量加大,因此要想深層次的掌握分析文本,就必須具備豐富大數(shù)據(jù),基于這個方面的原因,導(dǎo)致流分析法在相當多的NLP應(yīng)用系統(tǒng)中得到了普及。2.2數(shù)據(jù)流分析方法的范圍處理步驟基本上包含以下幾項:首先是取得充分的語言材料;其次實施預(yù)處理;再者是進行向量化,重點是將分詞之后的字詞轉(zhuǎn)換成電腦能夠計算的向量,如此可以促使不同詞所存在的相近性能夠?qū)崿F(xiàn)更好的描述。其四則是要模型訓(xùn)練,可按照不同的任務(wù)類型做出相應(yīng)的選擇??稍趯嶋H的訓(xùn)練過程中通常會出現(xiàn)假設(shè)過度復(fù)雜和擬合程度不高的現(xiàn)象。采用正則化處理的方法以增加訓(xùn)練數(shù)據(jù),對于過擬合的問題可進行有效處理,而降低正則化處理,促使其他特性的數(shù)據(jù)增多可以實現(xiàn)欠擬合的有效處理。最后則是衡量模型建立之后的成效,通常是依據(jù)以下三項指標進行評價的:一是正確率,即是對檢索系統(tǒng)精度進行評估;二是查全率,即是對檢索出的文檔數(shù)比率進行評估;三是F值,將前兩項指標相結(jié)合來對各項指標進行體現(xiàn),檢驗方法和F值呈現(xiàn)出正向發(fā)展的關(guān)系。3.所選定研究方法在其它領(lǐng)域的典型應(yīng)用3.1信息抽取(IE)3.1.1信息抽取的主要方法所謂信息抽取,即是把文體所涉及到的相關(guān)信息轉(zhuǎn)化成標準化形式,基于語言資料將以名稱作為標識的詞語關(guān)系提取出來,是在專名識別的基礎(chǔ)上展開進一步的分析。其流程主要包含三步:第一步是將信息轉(zhuǎn)換成標準化數(shù)據(jù);第二步有計劃的抽取信息;第三步則是運用結(jié)構(gòu)化來反映信息。專名識別是信息抽取必須要完成的任務(wù),主要目的是為了獲得實體間的關(guān)聯(lián)性。3.1.2信息抽取的主要工作其工作內(nèi)容重點涉及有專名識別、關(guān)系抽取以及實體消歧等。于此之中專名識別是其最為基本的工作,是為了將特定含義的詞找出來,同時進行詞義注釋,為剩下工作的能夠?qū)崿F(xiàn)順利開展提供良好的條件。最開始是運用基于規(guī)則來進行專名識別的,大部分都是采用人工的形式,雖然具有較高的正確率,可是查全率卻不能達到預(yù)期效果,為解決這一問題,人們則采用基于機器學(xué)習的方法構(gòu)建數(shù)據(jù)庫,效率得到了有效提升。最近這些年,國內(nèi)大多傾向于研究應(yīng)用研究,專名識別隨之到達了實用階段。文中所描述的所有對象都能夠具體的實際事物相對應(yīng),實體消歧的主要任務(wù)即是對描述對象對應(yīng)的具體實體進行明確,通常有兩種方法分別是聚類和實體鏈接。關(guān)系抽取即是基于語義方面對各實體所存在的關(guān)系進行明期。最開始重點是采用基于規(guī)則的方法,之后發(fā)展成為詞典驅(qū)動,現(xiàn)在則運用的主要方法則是通過機器學(xué)習來實現(xiàn)。3.2自動文摘3.2.1自動文摘的分類根據(jù)一定的規(guī)則通過計算機自動地從之前的文本中進行摘要集成的技術(shù)即是自動文摘,主要是了完成兩項任務(wù):其一獲得精練的語言;第二則是對關(guān)鍵信息進行保存。3.2.2自動文摘生成方法大致可以分成三個步驟:第一,針對所獲取的語言材料實施預(yù)處理,將不必要的數(shù)據(jù)篩選出來;第二,明確并拓展文本內(nèi)容;第三是生成文摘,具體來講即是重新組合文本將其轉(zhuǎn)換成全面、精練且具有較強可讀性的文摘。包含多種不同的生成方法如模式匹配、結(jié)構(gòu)化、理解和圖模型等?;谀J狡ヅ涞姆椒ㄖ羞\用的較為廣泛的即是Lead,盡管沒有很復(fù)雜的規(guī)則,可能夠取得不錯的成效,尤其是針對新聞類。而圖模型能夠?qū)⒏髟~間所存在的關(guān)系直接的反映出來,對以往特征法的缺陷之處進行了有效補充。傳統(tǒng)最具代表性的TextRank算法即是其中之一,關(guān)系式為,V—節(jié)點集,E—邊集,采用Wji表示任意兩個節(jié)點Vi到Vj的邊權(quán)重,Vi得分計算方法參照式3-1。(3-1)式中,d表示的是DampingFactor
,最小為0,最大不超過1,通常是0.85,指的是一個節(jié)點向其他節(jié)點進行跳轉(zhuǎn)的可能性。相似度也可運用Word2vec求得,即采用向量對每個句子進行表示,在此基礎(chǔ)上將余弦相似度計算出來,將和原文所表達的意思最為接近的句子當作文摘。4.評價維度4.1方法先進性NLP是經(jīng)過規(guī)則過程向統(tǒng)計過程升級,然后經(jīng)過統(tǒng)計過程向智能過程升級,經(jīng)過一步步的摸索和實踐,機器智能的升級速度越來越快,從而讓機器可以更有效地兼容自然語言。進一步評估本文算法。5.分維度評價5.1word2vec算法的主要作用是把文本中包含的全部詞進行特征化,如此則能夠采用定量的方法對各個詞所存在的關(guān)聯(lián)信息進行分析,探究其潛在的關(guān)聯(lián)性。通過訓(xùn)練所獲得的詞向量能夠為相關(guān)研究提供一定的借鑒價值,因此,從某種意義的層面而言推動了有關(guān)領(lǐng)域的進步,尤其是在NLP范疇中。算法實際上包括兩種模型分別是CBOW和Skip_gram,在將詞語轉(zhuǎn)換成向量時兩模型的效率都相當快。5.2TextRank算法2004年,通過研究總結(jié)出TextRank算法,其實際上即是抽取關(guān)鍵詞的一種算法。該算法是在圖論的基礎(chǔ)上進行的,常規(guī)任務(wù)就是對關(guān)鍵詞的提取,這個算法是采用谷歌的PageRank算法,其是可以處理網(wǎng)頁排名的算法,網(wǎng)頁排列順序分數(shù)的獲取是依據(jù)網(wǎng)頁間的互相鏈接關(guān)系。通過網(wǎng)頁間的鏈接關(guān)系構(gòu)造網(wǎng)頁框架圖,再依據(jù)迭代算出網(wǎng)頁分數(shù),最后網(wǎng)頁的重要程度參考分數(shù)的高低順序。6.各維度綜合評述即便NLP的探索發(fā)現(xiàn)有些抽象,但是NLP最根本的研究就探索語法和詞語用法以及語言意思,關(guān)注的焦點就是語言和文章。NLP最艱難的就是對語言的理解不能只依靠依存關(guān)系,大規(guī)模的知識庫也是必不可少的,只有擁有這樣的條件才可以更有效進行信息處理,從而更深層的掌握和解析文本。7.結(jié)論和展望基于發(fā)展的角度而言,NLP的運用范疇特別廣泛并且具有良好的發(fā)展空間,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修鞋店大理石裝修合同
- 工業(yè)生產(chǎn)變壓器租賃合同
- 2024年大型廠房交易合同
- 水果采摘租賃山場合同
- 市場調(diào)研合同
- 娛樂場所安全經(jīng)營指引
- 2024年城鄉(xiāng)公共交通線路特許經(jīng)營合同
- 護理院整體護理服務(wù)方案
- 老年人活動中心草坪及懸浮地板方案
- 水產(chǎn)品購銷合同
- 【8物(科)期中模擬】合肥市2023-2024學(xué)年八年級上學(xué)期期中模擬物理作業(yè)試卷
- 情商與智慧人生學(xué)習通超星期末考試答案章節(jié)答案2024年
- 部編人教版《道德與法治》六年級上冊第6課《人大代表為人民》課件
- 盤扣式卸料平臺施工方案
- CTF信息安全競賽理論知識考試題庫大全-上(單選題)
- 新探索研究生英語(基礎(chǔ)級)讀寫教程參考答案Language-focus
- 防校園欺凌-課件(共28張PPT)
- 《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》解讀完整課件
- 機械工程與自動化的關(guān)系探討
- 畢業(yè)設(shè)計液壓剪切機液壓系統(tǒng)設(shè)計
- 新重癥醫(yī)學(xué)科優(yōu)質(zhì)護理服務(wù)實施方案
評論
0/150
提交評論