版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計自然語言處理
與信息檢索孫越恒天津大學(xué)網(wǎng)絡(luò)智能信息計算研究所E-mail:yhs@目錄概述--NLP的概念、歷史與現(xiàn)狀NLP的研究內(nèi)容NLP研究的困難NLP方法論之爭統(tǒng)計方法示例本課的主要內(nèi)容拋磚引玉1.什么是自然語言以語音為物質(zhì)外殼,由詞匯和語法兩部分組成的符號系統(tǒng)?!缎氯A詞典》語言是人類交際的工具,是人類思維的載體是約定俗成的,有別于人工語言(程序設(shè)計語言)一、NLP的概念什么是自然語言處理–NLP,NaturalLanguageProcessing–用機器處理人類語言的理論和技術(shù)–研究在人與人交際中以及人與計算機交際中的語言問題的一門學(xué)科。NLP要研制表示語言能力和語言應(yīng)用的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷完善這樣的模型,并根據(jù)語言模型設(shè)計各種實用系統(tǒng),以及對這些系統(tǒng)的評測技術(shù)。
--BillManaris,《從人機交互的角度看自然語言處理》其它名稱–自然語言理解(NaturalLanguageUnderstanding)–計算語言學(xué)(CL,ComputationalLinguistics)–人類語言技術(shù)(HumanLanguageTechnology)從智能接口到知識處理?智能接口–功能:
?把現(xiàn)實世界中的語言信息送入電子世界–主要成果
?拼音輸入、手寫輸入、語音識別?知識處理–功能:
?對于已進入電子世界中的語言信息進行加工處理獲得知識–主要研究內(nèi)容
?媒體的加工和管理、語言信息處理機器能夠理解人的語言嗎?很難,但是沒有證據(jù)表明不行什么是“理解”
–結(jié)構(gòu)主義:機器的理解機制與人相同
?問題在于誰也說不清自己理解語言的步驟
–功能主義:機器的表現(xiàn)與人相同
?圖靈測試:如果通過自然語言的問答,一個人無法識別和他對話的是人還是機器,那么就應(yīng)該承認(rèn)機器具有智能有用否?能用否??NLP有用嗎?–據(jù)統(tǒng)計,日常工作中80%的信息來源于語言–文本是人類知識最大的存儲源,并且文本的數(shù)量 在不停地增長
?電子郵件、新聞、網(wǎng)頁、科技論文?NLP能用嗎?–并非每一樣語言處理的應(yīng)用都需要深層理解–中間產(chǎn)品陸續(xù)產(chǎn)生–成功應(yīng)用的實例?word中英文自動校對?搜索引擎?Google在線翻譯2.NLP的性質(zhì)?NLP需要的知識非常復(fù)雜語言學(xué)、計算機科學(xué)、數(shù)學(xué)、邏輯學(xué)、認(rèn)知科學(xué)等?理解語言的過程是動態(tài)的,不是靜態(tài)的?NLP需要的知識大多是歸納的,不是演繹的?存在UpperBound(上限)?對歧義的限制和系統(tǒng)的覆蓋率矛盾?領(lǐng)域詞典不充分3.NLP的歷史?20世紀(jì)50年代起步
–機器翻譯?50-60年代采用模式匹配的方法
–60年代衰落?70-80年代采用面向受限域的深入理解的方法?90年代至今統(tǒng)計方法占主流–隨著互聯(lián)網(wǎng)的發(fā)展而復(fù)蘇–互聯(lián)網(wǎng)為NLP提供了市場需求和試驗數(shù)據(jù)4.NLP現(xiàn)狀?仍然缺乏理論基礎(chǔ)?詞匯句法方面的問題尚未解決,已開始挑戰(zhàn)語義、知識等深層課題?語音識別中采用的統(tǒng)計語言模型推動了NLP的發(fā)展,目前的統(tǒng)計模型在向語言深層發(fā)展?Ontology受到普遍重視?開放域處理時起時落?一切才剛剛開始……二、NLP的研究內(nèi)容自然語言處理的科學(xué)內(nèi)容?語言學(xué)的任務(wù)
–刻畫和解釋語言現(xiàn)象?人類是如何獲取和理解語言的?理解語言和世界的關(guān)系?理解語言在通訊時的結(jié)構(gòu)和內(nèi)在含義?人們在說些什么
–覆蓋語言結(jié)構(gòu)的各個方面?人們說的事情和世界怎樣聯(lián)系在一起2.NLP的不同層次3.基礎(chǔ)研究(1)詞法分析詞法分析的主要目的是找出詞匯的各個詞素,從中獲得語言學(xué)信息。詞法分析是很多中文信息處理任務(wù)的必要步驟。自動分詞(中文分詞)詞性標(biāo)注短語識別
分詞:中文詞與詞之間沒有明顯的分隔符,使得計算機對于詞的準(zhǔn)確識別變得非常困難。因此,分詞就成了中文處理中所要解決的最基本的問題,分詞的性能對后續(xù)的語言處理如機器翻譯、信息檢索等有著至關(guān)重要的影響。隨著對中文處理關(guān)注程度的增加,國際計算語言聯(lián)合會(ACL)下設(shè)的漢語特別興趣(SIGHAN)研究組每年舉辦國際漢語分詞評測大賽。(2)句法分析
句法分析是對句子結(jié)構(gòu)進行分析,如句子的形式結(jié)構(gòu):主語、謂語、賓語等。句法分析是語言學(xué)理論和實際的自然語言應(yīng)用的一個重要橋梁。一個實用的、完備的、準(zhǔn)確的句法分析將是計算機真正理解自然語言的基礎(chǔ)。句法分析的一個例子小王和小李的妹妹結(jié)婚了。規(guī)則:S->NPVPNP->NPCNPNP->NNP->NPdeNVP->Vle詞典:小王:N小李:N和:C妹妹:N結(jié)婚:V了:le的:de兩種分析結(jié)果:(3)語義分析語義分析的研究,如詞義排歧和語義歸納、推理等,尚處于萌芽期并將逐步走向前臺,成為下一階段計算語言學(xué)研究的一個亮點。計算機本身沒有智能,自然語言的語義分析和內(nèi)容信息的理解,離不開相應(yīng)的語義知識庫的支持,它是幫助計算機“了解”人類語言的一個媒介和橋梁,也是讓計算機逐漸“聰明”起來的一個物質(zhì)前提。語義分析主要研究基于語義知識庫的語義相似度的計算方法、語義知識庫的自動構(gòu)建等內(nèi)容。語義:語言和世界的映射關(guān)系,符號之間的變換關(guān)系“語義”就是一個單詞或者一個語言成分的含義的解釋。而其解釋通常不止一種。在自然語言中,一個詞語的新語義往往是通過流行的新的用法而產(chǎn)生的。一個詞語或單詞在句子中有多種解釋,取哪一個呢?語用:符號或者語言成分和它們的使用者之間的關(guān)系通俗解釋:說話雙方按照該單詞或者語言成分所在的“語境”,來確定應(yīng)該選擇其中哪一種釋義或含義?!罢Z境”的范圍可以變化很大:從一個句子,一段話,到整篇文章,乃至文章作者的身份和處境,所在的時代的文化背景。
(4)語用分析例1:有兩組不同背景的人在一起開會。其中一組人正在討論社會上流感問題,有人在說話中提到了“病毒”,他們是在醫(yī)學(xué)的語境下指稱“生物性病毒”。另一組人正在討論計算機安全問題,有人在說話中提到了“病毒”,他們是在計算機安全這一話題的語境下指稱“計算機病毒”。評論:這是同一詞語在不同的“語境”中具有不同“語義”的典型例子。例2:設(shè)想例1中正在討論“計算機病毒”和“生物病毒”的這兩組人正在一起開會,目的是為領(lǐng)導(dǎo)機關(guān)擬定某某年度科研項目申報提綱中的最后一個項目的名稱。由于主管機關(guān)所掌握的經(jīng)費的限制,允許申報的只剩下最后一項,而且必須在中午12點以前將申請書上報,過期作廢??梢韵胂?,這兩組人將互相爭執(zhí)不下,達不成共識。但是為了避免因為上報時機延誤而使雙方都落空,最后決定先寫出一個“表述一致,但是各持自己理解”的申請書:《關(guān)于建立“病毒”檢測與預(yù)防機制的研究》。至于是那種病毒,留待今后進一步申述。評論:這是一個假想的例子,但是他顯示了許多外交文件的實質(zhì)。自然語言的含糊性在此顯示出它偉大的功能。句法、語義和語用是語言的三個主要層面,三者之間可能存在如下關(guān)系:?句法結(jié)構(gòu)相同,語義不同
–“吃蘋果”,“吃食堂”?句法:動賓結(jié)構(gòu)?語義分別為:動作-對象關(guān)系,動作-地點關(guān)系?語義相同,句法結(jié)構(gòu)不同
–“吃了蘋果”,”蘋果吃了”?語義:動作-對象?句法分別為:動賓關(guān)系和主謂關(guān)系?語義相同,語用有別?你真討厭(男生對女生說)?你真討厭(女生對男生說)統(tǒng)計語言模型是自然語言處理的主流技術(shù)之一。研究的主要內(nèi)容包括各種語言模型的構(gòu)建、改進以及應(yīng)用N-gram模型隱馬爾科夫(HMM)模型最大熵模型依存語言模型樸素貝葉斯模型條件隨機場(5)統(tǒng)計語言模型4.NLP系統(tǒng)的主要任務(wù)?知識表示–產(chǎn)生式–謂詞邏輯–語義網(wǎng)絡(luò)–概念從屬理論(CD理論)?知識控制策略
–知識的沖突?知識集成
–從多個知識源獲取的不同層面,不同性質(zhì)的知識如何融合在一起?知識獲取–機器學(xué)習(xí)5.一個NLP的例子:英漢機器翻譯?輸入英文句子:
----MissSmithputtedtwobooksonthisdiningtable.?形態(tài)分析(MorphologicalAnalysis)MissSmithput(+ed)twobook+sonthisdiningtable.句法分析(SyntacticAnalysis)?詞匯轉(zhuǎn)換Miss ? 小姐Smith ? 史密斯put(+ed) ? 放Two ? 兩book+s
? 書on ? 在…上面this ? 這diningtable.? 餐桌?短語轉(zhuǎn)換小姐史密斯放兩書在上面這餐桌史密斯小姐放兩書在這餐桌上面?生成–模擬人類寫作的過程,生成符合邏輯的連 貫的文本–史密斯小姐放兩書在這餐桌上面–史密斯小姐(把)兩(本)書放在這 (張)餐桌上面?最終翻譯結(jié)果–英文:MissSmithputtwobooksonthisdiningtable.–中文:史密斯小姐把兩本書放在這張餐桌上面6.語言處理的步驟?文本預(yù)處理?句子切分?形態(tài)分析(MorphologicalAnalysis)?分詞?詞性標(biāo)注(Part-of-SpeechTagging)?句法分析?詞義消歧(WordSenseDisambiguation)?語義關(guān)系分析?指代消解(AnaphoraResolution)?邏輯形式(LogicForm)三、NLP研究的困難歧義(ambiguity)病構(gòu)(ill-formedness)復(fù)述(paraphrasing)1.歧義(1)注音歧義–快樂(le4)的單身漢–火紅的第五樂(yue4)章(2)分詞歧義
–交集型歧義?研究/生命/的/起源?研究生/命/的/起源
–組合型歧義?他/從/馬/上/下來?他/從/馬上/下來
–和未登錄詞絞在一起?劉挺/拔/出/寶劍?劉/挺拔/出/寶劍
–多交集字段的歧義
?[結(jié)合][成分][子時] –有的歧義無法在句子內(nèi)部解決
?乒乓球拍賣完了(3)短語歧義–[咬死獵人]的狗–咬死[獵人的狗](4)句法歧義
Ourcompanyistrainingworkers.(5)語義歧義--詞義歧義–打[玩]乒乓球–打[編織]毛衣–打[通訊]電話–……(6)語用歧義
–“你真討厭!”2.病構(gòu)?真實文本的語言現(xiàn)象非常復(fù)雜,不規(guī)范,不干凈–未登錄詞(UnknownWords)–已知詞的新用法
?例子:Pleasexeroxacopytome. –不合乎語法的句子
?例子:他非常男人。(名詞不能受程度副詞修飾)
–不合乎語義約束的搭配
?例子:Mycardrinksgasolinelikewater. –由于作者疏忽造成的錯誤
–真實的語言是非常臟的3.復(fù)述?舉例–毛澤東出生于1893年–毛澤東出生在1893年–毛澤東誕生于1893年–毛澤東同志是1893年出生的–毛主席生于1893年–毛澤東生于光緒6年(虛擬的)四、NLP方法論之爭
—理性主義和經(jīng)驗主義?理性主義者(Rationalist)–1960-1985:理性主義是主流–他們的信念?喬姆斯基?先天語言能力?對于語法的描述
–形成基于規(guī)則的傳統(tǒng)語言處理技術(shù)?句法規(guī)則的確抓住了語言的主要模式?什么是語言中最普遍的模式呢,是否需要量化?理性主義的問題?基于規(guī)則的方法需要大量的人工操作,人類總結(jié)的規(guī)則不完備、不一致,規(guī)則多了相互沖突,難以對抗復(fù)雜的語言現(xiàn)象?語言的變化是漸變的
–比如:“打”電話,究竟從那一天開始“打”被賦予了通訊的意義呢經(jīng)驗主義者?信念–孩子的大腦只能做一些普通的操作:聯(lián)想、模式識別、一般化。孩子從豐富的信號輸入中學(xué)習(xí)到了語言的結(jié)構(gòu)?設(shè)定一個語言模型,推導(dǎo)出參數(shù)值–形成今天的基于統(tǒng)計的語言處理技術(shù)–對每一種語言現(xiàn)象均給出統(tǒng)計量化指標(biāo)?意義:“觀其伴,知其意”經(jīng)驗主義?我們生活在一個充滿不確定和不完整信息的世界里?人類的認(rèn)知是一個隨機現(xiàn)象?語言也是一個隨機現(xiàn)象?對沒有見過的語言現(xiàn)象進行估計?復(fù)雜的概率模型理性主義和經(jīng)驗主義的差別?它們描述了不同的事情?理性主義試圖去描寫人腦中的模型
–結(jié)構(gòu)主義者?經(jīng)驗主義試圖去描寫實際出現(xiàn)的語言
–功能主義者?外部語言是內(nèi)部語言的非直接的事實進一步探討?從九十年代初期開始,統(tǒng)計方法開始成為自然語言處理的主流?規(guī)范的語言和非規(guī)范的語言之間沒有明確的界限?統(tǒng)計還是非統(tǒng)計,界限也比較模糊?追求純凈,還是實用?自然語言處理尚不存在統(tǒng)一的數(shù)學(xué)基礎(chǔ)
–概率模型、信息論和線性代數(shù)語言工程?近來,人們更有興趣解決工程實際問題?人們處理真實世界中的語料,并客觀地比較不同方法的優(yōu)劣?面向真實文本的評測,使科學(xué)研究和技術(shù)開發(fā)進一步統(tǒng)一起來。
–90年初的漢語分詞系統(tǒng)仍未考慮“未登錄詞”問題,那時已經(jīng)宣稱分詞結(jié)果達到90%以上,其實只是解決了部分歧義問題。90年代中后期才開始面向真實文本的處理。五、統(tǒng)計方法示例從語料庫中學(xué)習(xí)?語料庫(Corpus,Corpora)–按照一定的原則組織在一起的真實的自然語言數(shù)據(jù)(包括書面語和口語)的集合,主要用于研究自然語言的規(guī)律,特別是統(tǒng)計語言學(xué)模型的訓(xùn)練以及相關(guān)系統(tǒng)的評價和測試。?可以是原始的文本(生語料庫)?也可以是帶標(biāo)記的文本(熟語料庫)?語料庫是統(tǒng)計NLP的知識來源語料庫標(biāo)注或加工
對電子語料(包括書面語和口語)進行不同層次的語言學(xué)分析,并添加相應(yīng)的“顯性”的解釋性的語言學(xué)信息過程。與不同層次的自然語言分析相對應(yīng),語料庫的加工主要包括詞性標(biāo)注、句法標(biāo)注、語義標(biāo)注和語用標(biāo)注等,由于漢語書寫的特殊性,漢語的語料加工還包括分詞。語料庫示例語料庫資源?BrownCorpus–帶詞性標(biāo)記,一百萬詞–布朗大學(xué)–平衡語料庫–美國英語–1960s-1970s?Lancaster-Oslo-Bergen(LOB) –BritishEnglishoftheBrowncorpus?Susannecorpus –Brown語料庫的子集,13萬詞LexicalResources?PennTreebank(賓州樹庫)–美國賓西法尼亞大學(xué)開發(fā)–取材華爾街日報–以開發(fā)中文樹庫,但規(guī)模有限?CanadianHansards –加拿大議會雙語文本?WordNet –語義詞典,免費使用?HowNet –中文語義詞典.?北京大學(xué)語法詞典?北大-富士通《人民日報語料庫》–半年的《人民日報》–帶詞性標(biāo)注舉例?一篇短篇小說–作者:MarkTwain–小說名:TomSawyer–詞數(shù)(Wordtokens) ?71,370–詞形數(shù)(Wordtypes) ?differentthingspresent ?8,018–平均每個詞形出現(xiàn):8.9次最高頻率的詞匯?English–the 3332–and 2972–a 1775–to 1725–of 1440?Chinese –的
5%一些結(jié)果?詞頻:具有該詞頻的詞的數(shù)目1 39932 12923 6644 4105 2436 1997 172 8 1319 8210 9111-50 54051-100 99>100 102?一些結(jié)果–最高頻的100個詞覆蓋了全部詞匯出現(xiàn)次數(shù)的一半–一半的詞匯在語料庫中只出現(xiàn)一次–90%的詞形出現(xiàn)10次或更少?很難預(yù)測那些很少出現(xiàn)或者干脆在語料庫中從未出現(xiàn)的詞的行為齊普夫定律?講者和聽者試圖使用最小的力氣
–講者希望:使用最少的詞匯,沒有標(biāo)點空格
–聽者希望:使用較多的詞匯,豐富的標(biāo)記?什么是齊普夫定律?
–在一個大的語料庫中統(tǒng)計詞頻,然后將詞按照詞頻從高到低的順序排列成一張表
–一個詞的詞頻f和它在表中的序號r之間存在如下關(guān)系:
f∝1/rorf?r=k,k是一個常數(shù)數(shù)據(jù)詞頻的分布?齊普夫定律是對人類語言詞頻分布的一個粗糙而有用的描述:?非常常用的詞很少?中頻詞的數(shù)量中等?大量低頻詞?從語料庫中,我們能夠觀察到少數(shù)高頻詞的豐富的信息,而對大量低頻詞卻觀察不到足夠數(shù)量的信息詞義和詞頻的關(guān)系一個詞的詞義的數(shù)量和該詞詞頻排序的平方根成反比關(guān)系詞頻和詞長?詞頻和詞長是反比例關(guān)系?短詞經(jīng)常被使用–“in”,“of”,…...–“的”,“了”?這符合通訊編碼理論搭配?搭配(Collocations)–復(fù)合詞(diskdrive)–短語動詞(makeup)–其它固定短語(baconandeggs).二元搭配?例子:–80871 of the–58841 in the–26430 to the–21842 on the–21839 for the–18568 and the對搭配進行過濾?根據(jù)詞性過濾掉一些搭配,例如虛詞,從而獲得真正有意義的搭配?最高頻的搭配模式是:–動詞+名詞–形容詞+名詞–名詞+名詞有意義的搭配?例子:–11487 NewYork AN–7261 UnitedStates AN–5412 LosAngeles NN–3301 lastyear AN–3191 SaudiArabia NN–2699 lastweek AN–2514 vicepresident AN搭配知識?在一個窗口中抽取的搭配知識可以影射深層的句法關(guān)系?例子:
–維護國家的利益
?VP(V+N)+de+N
or
V+NP(N+de+N) –在語料庫中有:?維護我們的利益,維護中國的利益,…...?國家利益不容侵犯,損害國家的利益,……紅樓夢前80回與后40回的統(tǒng)計分析?預(yù)備知識–導(dǎo)論–數(shù)學(xué)基礎(chǔ)–語言學(xué)基礎(chǔ)–語料庫?詞匯–搭配–統(tǒng)計推理–詞義消歧–詞匯知識獲取六、本課的主要內(nèi)容?語法–馬爾科夫模型–詞性標(biāo)注–概率上下文無關(guān)文法–概率句法分析器?應(yīng)用–機器翻譯–聚類和分類–信息檢索參考書?ChristopherD.Manning,Hinrich
Schutze –FoundationsofStatisticalNaturalLanguageProcessing,MITPress,1999?DanielJurafsky,JamesH.Martin –SpeechandLanguageProcessing,PrenticeHall,2000?宗成慶
–統(tǒng)計自然語言處理,清華大學(xué)出版社,2008NLP領(lǐng)域的學(xué)術(shù)會議?主要國際會議
–ACL ?AssociationofC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第二章 工業(yè)用微生物菌種課用課件
- 防災(zāi)減災(zāi)應(yīng)急救援
- 司法所助理員個人工作總結(jié)
- 制糖企業(yè)銷售管理與渠道拓展考核試卷
- 青少年預(yù)防艾滋病宣傳
- 智能汽車保險利用人工智能提供汽車保險服務(wù)考核試卷
- 誠信考試行為準(zhǔn)則
- 配件采購合同管理
- 銀行業(yè)金融科技支付系統(tǒng)升級協(xié)議
- 裝飾材料焊接施工合同
- 非新生兒破傷風(fēng)診療規(guī)范(2024年版)解讀
- 微測網(wǎng)題庫完整版行測
- 多圖中華民族共同體概論課件第十一講 中華一家與中華民族格局底定(清前中期)根據(jù)高等教育出版社教材制作
- 生涯發(fā)展報告 (修改版)
- 求職能力展示
- 中國馬克思主義與當(dāng)代思考題(附答案)
- (新版)征信知識競賽基礎(chǔ)題庫(500題)
- 金屬風(fēng)管支架重量計算表
- 公司組織架構(gòu)圖模板可編輯
- 第4章-斯特瓦爾特定理及應(yīng)用
評論
0/150
提交評論