版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、內(nèi)容大概分為:口然語言處理的簡介、關鍵技術、流程及應用。首先,介紹一下什么是自然語言處理(也叫自然語言理解):語言學家劉涌泉在大百科全書(2002)中對口然語言處理的定義為'自 然語言處理是人工智能領域的主要內(nèi)容,即利用電子計算機等工具對人類所特冇 的語言信息(包括口語信息和文字信息)進行各種加工,并建立各種類型的人- 機-人系統(tǒng),自然語言理解是其核心,其中包括語音和語符的自動識別以及語音 的自動合成?!睆奈⒂^上講,自然語言理解是指從自然語言到機器(計算機系統(tǒng))內(nèi)部之間的 一種映射。從宏觀上看,口然語言理解是指機器能夠執(zhí)行人類所期望的某些語言功能。 這些功能包括: 冋答有關提問;計算機
2、正確地冋答用自然語言輸入的有關問題 提取材料摘要;機器能產(chǎn)牛輸入文本的摘要 同詞語敘述;機器能用不同的詞語和句型來復述輸入的自然語言信息 不同語言翻譯。機器能把一種語言翻譯成另外一種語言自然語言處理的關鍵技術自然語言處理的關鍵技術包括:詞法分析、句法分析、語義分析、語用分析和語句分析。1. 詞法分析詞法分析的主耍冃的是從句子中切分出單詞,找出詞匯的各個詞素,并確定其詞義。詞法分析包括詞形和詞匯兩個方面。一般來講,詞形主要表現(xiàn)在對單詞的前 綴、后綴等的分析,而詞匯則表現(xiàn)在對整個詞匯系統(tǒng)的控制。在屮文全文檢索系 統(tǒng)中,詞法分析主要表現(xiàn)在對漢語信息進行詞語切分,即漢語口動分詞技術。通 過這種技術能夠
3、比較準確的分析用戶輸入信息的特征,從而完成準確的搜索過程。 它是中文全文檢索技術的重要發(fā)展方向。不同的語言對詞法分析冇不同的要求,例如英語和漢語就冇較大的差距漢語屮的每個字就是一個詞素,所以要找出各個詞素是相當容易的,但要切 分岀各個詞就非常難。如”我們研究所冇東西“,可以是“我們研究所冇東四”也可是“我們一一研究所有東西”。英語等語言的單詞z間是用空格自然分開的,很容易切分一個單詞,因而很 方便找出句了的每個詞匯,不過英語單詞有詞性、數(shù)、時態(tài)、派生、變形等變化, 因而要找出各個詞索就復雜得多,需要對詞尾和詞頭進行分析。如 uncomfortable 可以是 un-comfort-able 或
4、 uncomfort-able,因為 un、comfort、 able都是詞素。2. 句法分析句法分析是對用戶輸入的口然語言進行詞匯短語的分析,目的是識別句了的 句法結構,實現(xiàn)自動句法分析過程。其基本方法冇線圖分析法、短語結構分析、 完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出詞、短語等的相互關系以及各自在句子中的作用等,并 以一種層次結構來加以表達。這種層次結構可以是從屈關系、直接成分關系,也 可以是語法功能關系。句法分析是曲專門設計的分析器進行的,其分析過程就是構造句法樹的過程, 將每個輸入的合法語句轉(zhuǎn)換為一棵句法分析樹。一個句子是由各種不同的句子成分組成的。這些成分可以
5、是單詞、詞組或從 句。句子成分述可以按其作用分為主語、謂語、賓語、賓語補語、定語、狀語、 表語等。這種關系可用一棵樹來表示,如對句了: he wrote a book.口j用圖示的樹形結構來表示。3 語義分析語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和 句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句了、段落所包含 的意義。其目的是從句子的語義結構表示言語的結構。中文語義分析方法是基于 語義網(wǎng)絡的一種分析方法。語義網(wǎng)絡則是一種結構化的,靈活、明確、簡潔的表 達方式。其實就是要識別一句話所表達的實際意義。比如弄清楚“干什么了”,“誰 干的”,“這個行為的原因和結果是
6、什么”以及“這個行為發(fā)生的吋間、地點及 其所用的工具或方法”等。4 語用分析語用分析相對于語義分析又增加了對上下文、語言背景、環(huán)境等的分析,從 文章的結構中提取到意象、人際關系等的附加信息,是一種更高級的語言學分析。 它將語句中的內(nèi)容與現(xiàn)實生活的細節(jié)相關聯(lián),從而形成動態(tài)的表意結構。5 語境分析語境分析主要是指對原查詢語篇以外的大量“空隙”進行分析從而更為正確 地解釋所要查詢語言的技術。這些“空隙”包括一般的知識,特定領域的知識以 及杳詢用戶的需要等。它將口然語言與客觀的物理世界和主觀的心理世界聯(lián)系起 來,補充完善了詞法、語義、語用分析的不足。自然語言處理工具:opennlpopennlp是一個
7、基java機器學習工具包,用于處理自然語言文本。支持 大多數(shù)常用的nlp任務,例如:標識化、句了切分、部分詞性標注、名稱抽取、 組塊、解析等。fudannlpfudannlp主要是為中文自然語言處理而開發(fā)的工具包,也包含為實現(xiàn)這些 任務的機器學習算法和數(shù)據(jù)集。木工具包及其包含數(shù)據(jù)集使用lgpl3. 0許可證。 開發(fā)語言為ja腹。功能:1. 文本分類、新聞聚類2. 中文分詞、詞性標注、實體識別、關鍵詞抽取、依存句法分析、時間短 語識別3. 結構化學習、在線學習、層次分類、聚類、精確推理。自然語言處理流程:2. 1獲取原始文本2. 2對文本進行預處理2. 2. 1文本編碼格式2.2.2文本模式匹配
8、2.2.3規(guī)范化文木2. 3分詞文本屮起到關鍵作用的是一些詞,其至主要詞就能起到?jīng)Q定文本取向。中文分詞,出現(xiàn)了很多分詞的算法,有最大匹配法、最優(yōu)匹配法、機械匹配 法、逆向匹配法、雙向匹配法等。屮科院張華平博士研發(fā)的分詞工具ictclas,該算法經(jīng)過眾多科學家的認定 是當今中文分詞中最好的,并且支持用戶自定義詞典,加入詞典;對新詞,人名, 地名等的發(fā)現(xiàn)也具有良好的效果jieba分詞工具:支持繁體分詞;支持口定義詞典常見的分詞工具冇:word分詞器、ansj分詞器、stanford分詞器、fudannlp 分詞器、jieba分詞器jcseg分詞器mmseg4j分詞器ikanalyzer分詞器pao
9、ding 分詞器、smarten分詞器、hanlp分詞器等。2. 4去除停頓詞在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或 文木)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為stop words(停用詞)。比如:的、有、得、了等這些詞。2. 5特征選擇在文本處理建模的預處理過程中,我們得到文本特征維度常常非常大,要得 到一個好的模型,需要做兩個工作:1、降維。模型的維度常常很大,這會加大模 型的運行成本,并口不利于研究人員理解模型。2、去燥。維度很大時,特征之間 會相互依賴,其至很多特征對模型分類是冇干擾作用的,去除這一部分特征將對 模型有提升作用。特征選擇和特征
10、抽取都能完成上面的工作。在文本處理中常采用特征選擇而非特征抽取,原因是特征選擇保持了特征 原來的面貌,有利于挖掘人員理解模型。在文本處理中常見的特征選擇方法有:文檔頻率(tf-idf)詞頻(tf)即為詞在一篇文檔屮出現(xiàn)的頻率。其中t ft,d表示詞t在第d個文檔的詞頻,nt表示詞t在文檔d出現(xiàn)的次數(shù),nd 表示文檔d屮詞的總數(shù)。逆向文檔頻率(idf)值衡量詞在某個文檔屮是否有代表 性,其計算公式:必=曲di 1)其屮idft是詞t的逆向文檔頻率,d是語料集的總文檔數(shù),dt是包含t的文檔數(shù)量,加1是做平滑處理。注意到tf-idf是和標簽無關的,這意味著計算過程是 無監(jiān)督的,由于tf-idf無監(jiān)督
11、的特征,常常被用來表示文檔向量空間模型的向 量,從而能夠運用于文檔的相似度計算和關鍵詞提取等。信息增益(information gain)信息增益是信息論中很重要的一個概念。在特征選擇中,該方法主要是通過評估詞項能夠給分類帶來多少的信息量,帶來的信息量越大,說明該詞項越重要。 信息量,也就是爛。對于一個變量x,它可能的取值有n多種,分別是xl ,x2 ,.,xn ,每一種取到的概率分別是pl ,p2 ,.,pn ,那么x的爛就定義為:h(x)= -pilog2(pi)/=0互信息(mutual information)互信息是信息論屮又一重要的概率,在文木處理屮用來說明詞t對于類別c 的貢獻程
12、度,互信息越大則貢獻程度越大?;バ畔⒂嬎闶穷悇ec關于t后驗概率 與先驗概率的比值的log。mc) = log2. 6利用算法進行挖掘我們能夠利用各種算法進行挖掘,可以對文本、新聞等進行分類、聚類,可 以利用knn算法,樸素貝葉斯算法、決策樹算法、神經(jīng)網(wǎng)絡法、線性最小二乘法、 k-means算法、余弦相似度等算法。自然語言處理的應用:口然語言處理的范圍涉及眾多方面,如語音的口動識別與合成,機器翻譯, 自然語言理解,人機對話,信息檢索,文本分類,自動文摘,等等。這些大致可以歸納為如卜'四個大的方向:(1) 語言學方向.它只研究語言及語言處理與計算相關的方面,而不管其在計算機上的具體實 現(xiàn)。
13、這個方向最重要的研究領域是語法形式化理論和數(shù)學理論。(2) 數(shù)據(jù)處理方向。是把自然語言處理作為開發(fā)語言研究相關程序以及語 言數(shù)據(jù)處理的學科來研究。這一方向早起的研究有屈丁數(shù)據(jù)庫的建設、各種機器 可讀的電子詞典的開發(fā),近些年來則冇大規(guī)模的語料庫的涌現(xiàn)。(3) 人工智能和認知科學方向。在這個方向,自然語言處理被作為在計算 機上實現(xiàn)口然語言能力的學科來研究,探索自然語言理解的只能機制和認知機制。 這一方向的研究與人工智能以及認知科淫關系密切。(4) 語言工程方向。主要是把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究,這 一方向的研究一般稱為“人類語言技術”或者“語言工程”??谌徽Z言處理常用
14、模型:1. n元模型該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面nt個詞相關,而與其它任何詞都 不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過肓接從語料中統(tǒng)計n 個詞同時出現(xiàn)的次數(shù)得到。2. 馬爾可夫模型以及隱馬爾可夫模型馬爾可夫模型實際上是個有限狀態(tài)機,兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài) 不叮見,我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會拋出個觀測值;當我們觀察到觀測 序列麻,要找到最佳的狀態(tài)序列。3. 支持向量機模型支持向量機的目標就是要根據(jù)結構風險最小化原理,構造一個目標函數(shù)將兩類模式盡可能地區(qū)分開來,通常分為兩類情況來討論,:(1)線性可分;(2)線性不可分。4 條件隨機場模型條件隨機場(crfs)是一種基于統(tǒng)計的序列標記識別模型,由john lafferty等人在2001 年首次提出。它是一種無向圖模型,對于指定的節(jié)點輸入值,它能夠計算指定的節(jié)點輸出值 上的條件概率,其訓練目標是使得條件概率最大化。crfs具有很強的推理能力,能夠充分地利用上下文信息作為特征,述可以任意地添加 其他外部特征,使得模型能夠獲取的信息非常豐富。crfs通過僅使川一個指數(shù)模型作為在 給定觀測序列條件下整個標記序列的聯(lián)合概率,使得該模型屮不同狀態(tài)下的不同特征權值可 以彼此交替,從而有效地解決了其他非牛成有向圖模型所產(chǎn)住的標注偏吉的問題。這些特點, 使得cr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銷售部的實習報告大全
- 銷售工作總結工作計劃5篇范文
- 小學數(shù)學教學中問題情境創(chuàng)設現(xiàn)狀的調(diào)查問卷
- 銷售月工作計劃7篇范文
- 商標使用權授權協(xié)議
- 年度法治工作計劃4篇
- 信息技術園區(qū)砂石路施工
- 教育園區(qū)停車位交易樣本
- 建筑混凝土安全文明施工協(xié)議
- 城市噴泉建設施工合同類型
- 2024年公路標識安裝合同
- (北師大版)2024-2025學年九年級數(shù)學上學期期中測試卷
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設計規(guī)范
- 綜合實踐活動課《早餐與健康》優(yōu)質(zhì)課件
- 《中華民族共同體概論》考試復習題庫(含答案)
- 2022-2023學年武漢市江岸區(qū)七年級英語上學期期中質(zhì)量檢測卷附答案
- 中考物理專題21 歐姆定律的動態(tài)電路計算(原卷版)
- 辦公室辦文工作流程圖
- 工程鉆機產(chǎn)品合格證
- 員工獎懲制度 公司員工獎懲制度范本
- 【原創(chuàng)】水平三花樣跳繩教學設計和教案
評論
0/150
提交評論