2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

上傳人：湯*** IP屬地：北京上傳時(shí)間：2022-09-16 格式：DOCX 頁數(shù)：84 大小：5.02MB 積分：15 舉報(bào) 版權(quán)申訴

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)_第2頁

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)_第3頁

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)_第4頁

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)_第5頁

已閱讀5頁，還剩79頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、（工程）面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)的設(shè)計(jì)與實(shí)現(xiàn)ERNET DATA ORIENTED RESEARCH &IMPLEMENION OF NEW WORD ANDPHRASE DISCOVERY PLATFORM杜聰慧2013 年 6 月分類號(hào)：TP311分類號(hào)：621.3學(xué)校代碼：10213密級(jí)：公開國內(nèi)國際工程面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)設(shè)計(jì)與實(shí)現(xiàn)的：杜聰慧導(dǎo)副師：師：工程師高級(jí)工程師導(dǎo)申請(qǐng)學(xué)位：工程學(xué)科：工程所在：學(xué)院答辯日期：2013 年 6 月授予學(xué)位：哈爾濱工業(yè)大學(xué)Classified Index: TP311U.D.C: 621.3Disserion for the Master Deg

2、ree in EngineeringERNET DATA ORIENTED RESEARCH &IMPLEMENION OF NEW WORD ANDPHRASE DISCOVERY PLATFORMCandidate：Supervisor：DuConghui Engineer.TianYingxinSenior Engineer LiuTingchao Master of Engineering Software EngineeringSchool of Software June, 2013Harbin Institute of TechnologyAssote Supervisor:Ac

3、ademic Degree Appd for：Spelity：Affiliation： Date of Defence：Degree-Conferring-Institution：摘要社會(huì)在不斷地發(fā)展，人類的語言也在不斷的變更。語言的內(nèi)涵、形式都在不斷地?cái)U(kuò)充。新詞的不斷涌現(xiàn)，可以說是語言不斷發(fā)展的最好證明。而輸入法作為文字的輸入工具，也應(yīng)該保證與時(shí)俱進(jìn)。新詞的擴(kuò)充是輸入法的基本功能之一。詞語是人們打字的最小，只有保證候選詞的豐富，才能幫助用戶提高打字速度。如何有效地發(fā)現(xiàn)新詞是學(xué)術(shù)界關(guān)注的焦點(diǎn)，因?yàn)樾略~發(fā)現(xiàn)是許多技術(shù)研究的基本要求，如信息抽取、語音識(shí)別、發(fā)現(xiàn)、機(jī)器翻譯等。中文信息處理與英文信息處

4、理的方法與難點(diǎn)存在很大的差異，中文自身有其獨(dú)特的特征，英文的詞與詞之間有空格間隔，而中文的詞語是緊密連著的，沒有詞與詞之間的標(biāo)識(shí)；另外，英文字母也有字母大小寫的區(qū)分，而中文沒有。因此在自然語言處理領(lǐng)域，中文的新詞發(fā)現(xiàn)是個(gè)非常棘手。互聯(lián)網(wǎng)不斷地向生活的方方面面滲透，信息也在呈式增長，現(xiàn)有詞典已經(jīng)不能滿足人類交流的需要，新詞在源源不斷的產(chǎn)生。如何讓人類的知識(shí)儲(chǔ)備跟上社會(huì)的發(fā)展，是一個(gè)需要認(rèn)真研究探討。本文的主要研究內(nèi)容是面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)的設(shè)計(jì)與實(shí)現(xiàn)，為輸入法開發(fā)一套能源源不斷提供新詞的新詞發(fā)現(xiàn)。在方案的選取上，本文首先分析并比較了幾種流行的新詞發(fā)現(xiàn)方法，最終設(shè)計(jì)了一套基于統(tǒng)計(jì)和規(guī)則相結(jié)合的

5、方法來構(gòu)建新詞發(fā)現(xiàn)。其中基于統(tǒng)計(jì)的方法為快速地處理大批量的數(shù)據(jù)提供了有效精確的修正算法。段，而基于規(guī)則的方法則對(duì)大規(guī)模數(shù)據(jù)的處理結(jié)果提供新詞發(fā)現(xiàn)分為四大組件：隱模型組件、實(shí)際語料切分組件、新詞候選詞修正組件、新詞列表組件。隱模型是需要一個(gè)長期優(yōu)化和積累的部分，它對(duì)漢字的各種屬性的“學(xué)習(xí)”內(nèi)容采用的是經(jīng)過語言學(xué)家處理過概率進(jìn)行統(tǒng)計(jì)和計(jì)算。隱的語料數(shù)據(jù)。對(duì)這些語料數(shù)據(jù)進(jìn)行分析和處理后就能形成一個(gè)與中國漢字相關(guān)的模型。該模型是新詞提取部分切分實(shí)際語料的一個(gè)理論依據(jù)。實(shí)際語料切分就是對(duì)互聯(lián)網(wǎng)上的數(shù)據(jù)進(jìn)行初步地切分，依據(jù)的是隱模型原理。新詞候選詞修正組件是對(duì)實(shí)際語料切分組件的切分結(jié)果進(jìn)行修正，以獲取真正

6、的新詞。新詞列表組件就是對(duì)新詞列表信息進(jìn)行，保證新詞的正確性。新詞提取的過程具體為可以概括為以下步驟：依據(jù)隱數(shù)據(jù)集的初步切分；對(duì)上一步的切分結(jié)果做出初步的模型對(duì)實(shí)際過濾，形成新詞候選-I-詞集合；對(duì)新詞候選詞集合里的每一個(gè)詞組進(jìn)行分析，得到相關(guān)的數(shù)據(jù)集。然后對(duì)候選詞進(jìn)行修正算法，得到更加精確的新詞結(jié)果；輸出新詞集合。新詞詞表的主要工作是在時(shí)間線上對(duì)已有的新詞列表進(jìn)行更新。更新操作包括：刪除、新增、更新新詞數(shù)據(jù)等。主要目的是使新詞列表能跟上社會(huì)的不斷發(fā)展，能準(zhǔn)確的反映出當(dāng)下最常用和最熱門的詞語。最終，該課題構(gòu)建了一套完成以上工作的新詞發(fā)現(xiàn)。經(jīng)過性能測試，新詞發(fā)現(xiàn)滿足輸入法產(chǎn)品對(duì)發(fā)現(xiàn)新詞的需求。：

7、新詞發(fā)現(xiàn)；中文分詞；隱模型；Viterbi算法；短語修正；-II-AbstractWith the continuous development of society, human language is in constantevolution. The connoion and form of a language are also growing. And the mostprominent feature of the evolution of a language is: the constantly emerging of thenew words.input method as

8、a tool for language input, also should keep pacewith time. New wordpplement is one of the basic functions ofinput methods.Words are the minimum units for ty it can help users to improve the tyconcern of the academia all parties. Only to ensure the candidate words are rich, speed. New words appearing

9、 has aroused theNew discovery is the basic requirement formany natural language prosing tasks, such as speech recognition, informationextraction, machine translation, theme found, etc.he field of Chihas huge difference betinformation pron English and Chising, due to its own characteristics, it. For

10、exle, English has wordspacing betlisted Chin words and has uppercase letters in front of a sentence. All thesedoesnt have. So, its a big challenge to deal with new word andphrase discoveryhe field of natural language prosing. As the penetration oftheernet in every aspect of life,as well as the infor

11、mation exploding, words out ofthe existing dictionary are emerging everyday. How to make human knowledgereserves to keep up with the development of the society, is a questioncareful study.t needsThe main research content of this pr is based on the design andimplemenion of a new word discovery platfo

12、rm of huge amounts of data. In orderto improve the preciofInput Method, this pr will develop a new worddiscovery platform to supply continous new words to the input method system. Onthe selection of scheme, this pryzes and compares several popular newwords discovery method, and finally designed a se

13、t of based on combining sisticaland ruased method to build the new word discovery platform. The sisticalmethod can quickly prosing largeties of data, and the method based onrules for large-scale data prosing results provide accurate correction algorithm.New word discovery platform is dividedo four m

14、ajor components: hiddenmarkov mcomponents, the actual corpus segmenion components, newcandidate words correct components, new word list ma-III-enance components.Hidden Markov Mis part of the optimization, and need a long time toaccumulate and modify. It will calculate and sisticalyze the variousprop

15、erties of probability sistics of Chicharacters. Hidden Markov Ms“l(fā)earning”materals arelinguisted corpus data. Afterysing and prorelated to Chising thecharacters.corpus data,This mit can form a Hidden Markov Mis the theory basis for new words extracting through parctical corpus.The actual corpus segm

16、enion components need to splite the corpus from the hugeernet datao original pie, this pros is based on hidden markov m.New candidate words correct components correct the splited resultso the rightformation, in order to get the real new words. New word list maenancecomponents will update the informa

17、tion of the new words list, to ensure thecorrectness of the new words.New word and phrase discovery pros can be concluded as following steps:preliminary segmene the actural data based on Hidden Markov M; make aspam filtering of the result of the preliminary segmenion, forming a newcandidate word set

18、;yse each wordhe new words candidate set and form arelevant data set.Then execute the candidate word correction algorithm, and a moreaccurate new words set will be abtained; output the new words date set.New word table maexisting list of new words.enance work are mainly on the time line to updateNew

19、 word list maenance work is mainly on the time line to update existinglist of new words. Update operations include:delete, add, updatedata, and so on. This components main function is to make the new word list c eep pace with the continuous development of society, can accura y reflect the most commo

20、n andmost popular words.In the end, this pr will construct a complete new word discoveryplatform.Through the performance test, new word and phrase discovery platformcan meet the requirements ofInput Method product.Keywords: New words discovery, Chisegmenion, Hidden Markov M,Viterbi algorithm, Words

21、correction-IV-目錄摘要IABSTRACTIII第 1 章緒論1課題背景及研究的目的和意義1與本課題有關(guān)的國內(nèi)外研究狀況2新詞的研究領(lǐng)域2中文新詞發(fā)現(xiàn)現(xiàn)狀2新詞發(fā)現(xiàn)主要研究方法3本文的主要研究內(nèi)容和章節(jié)安排7第 2 章新詞發(fā)現(xiàn)需求分析9系統(tǒng)功能需求分析9新詞覆蓋面需求分析102.3詞的刪除需求分析122.4 新詞發(fā)現(xiàn)習(xí)的需求分析13非功能性需求13本章小結(jié)14第 3 章新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)隱的概要設(shè)計(jì)與相關(guān)技術(shù)分析15體系架構(gòu)15功能結(jié)構(gòu)17相關(guān)技術(shù)分析19相關(guān)技術(shù)概述19模型19Viterbi 算法21互信息23鄰接多樣度24本章小結(jié)24第 4 章

22、新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)隱詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)25系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)25模型組件詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)264.3 實(shí)際語料加工組件詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)30-V-新詞候選詞修正組件詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)36字串的凝聚度36鄰接多樣度38新詞候選詞修正算法384.5 新詞詞表組件詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)464.5.1 新詞詞表的結(jié)構(gòu)46新詞詞表的刪除操作47新詞詞表的增加操作48新詞發(fā)現(xiàn)的并行化處理49本章小結(jié)50第 5 章新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)新詞發(fā)現(xiàn)5.1.1 隱的測試51功能測試51的系統(tǒng)結(jié)構(gòu)測試51模型組件的測試525.1.2 實(shí)際語料切分組件的測試565.1.35.1.4新詞候選詞修正組件的測試59組件的測試61性能指標(biāo)62率測試62

23、新詞列表5.2 新詞發(fā)現(xiàn)5.2.15.2.25.2.3準(zhǔn)確率與語料處理速度測試65新詞發(fā)現(xiàn)最優(yōu)運(yùn)行方式665.3 本章小結(jié)66結(jié)論67主要參考文獻(xiàn)69哈爾濱工業(yè)大學(xué)性和使用權(quán)限73致謝74個(gè)人簡歷75-VI-第 1 章緒論1.1 課題背景及研究的目的和意義近年來，移動(dòng)互聯(lián)網(wǎng)高速發(fā)展，3G用戶量更是年年攀高。僅以中國移動(dòng)的數(shù)據(jù)為例，截止至2013年2月份，中國移動(dòng)3G用戶數(shù)破億，2月新增用戶多達(dá)951萬。于此同時(shí)，的歷史使命也悄然的發(fā)生了改變，不再僅僅只是人類隔空通話的一種工具，更是承載的人們了解世界生活等的各種職責(zé)。輸入法也承載著這次歷史機(jī)遇，用戶量得到了爆發(fā)性的增長。移動(dòng)應(yīng)用如雨后春筍般

24、不斷涌現(xiàn)。但是無論如何變化、應(yīng)用如何變化，文字輸入是亙古不變的。人們對(duì)輸入法的要求越來越來，智能化是未來的趨勢。想要利于不敗之地也必須做到與時(shí)俱進(jìn)，不斷地發(fā)展與完善自己。現(xiàn)代語言學(xué)奠基人之一爾德(Bloom Field) 曾對(duì)人類語言有著這樣的理解：“一切語言都是發(fā)展的，而不是不變的。變化是經(jīng)常的，也是正常的現(xiàn)象”1。詞語在語言的學(xué)習(xí)和使用中最為常用，詞語直接反應(yīng)了一個(gè)時(shí)代的，是時(shí)代的特殊印記。社會(huì)文化的進(jìn)步和變遷、經(jīng)濟(jì)商業(yè)的快速發(fā)展，往往帶動(dòng)著語言的變化。語言的基礎(chǔ)是一成不變的，但語言的表象卻是天天翻新，首當(dāng)其沖就是新詞。信息社會(huì)互聯(lián)網(wǎng)普及，是一種新興，互聯(lián)網(wǎng)上每天都在不斷涌現(xiàn)新的思維、新的

25、事物、新的，因此產(chǎn)生了大量的新詞。輸入法要做到智能化，就不可避免的要做到與時(shí)俱進(jìn)。當(dāng)下最流行的用語是什么，用戶即使第一次輸入，輸入法也應(yīng)該準(zhǔn)確無誤的顯示出來。這樣，就對(duì)輸入法的習(xí)能力要求很高。輸入法要自己學(xué)習(xí)到的語言知識(shí)，并且刪除。它會(huì)源源不斷的給輸入已經(jīng)過時(shí)的內(nèi)容。而本文所研究的就是新詞發(fā)現(xiàn)法輸送新鮮的知識(shí)，讓輸入法真正做到與時(shí)俱進(jìn)。中文信息處理與英文信息處理的方法與難點(diǎn)存在很大的差異，中文自身有其獨(dú)特的特征，英文的詞與詞之間有空格間隔，而中文的詞語是緊密連著的，沒有詞與詞之間的標(biāo)識(shí)；另外，英文字母也有字母大小寫的區(qū)分，而中文沒23?；ビ小Ｒ虼嗽谧匀徽Z言處理領(lǐng)域，中文的新詞發(fā)現(xiàn)是個(gè)非常棘手聯(lián)

26、網(wǎng)不斷地向生活的方方面面滲透，信息也在呈式增長，現(xiàn)有詞典已經(jīng)不能滿足人類交流的需要，新詞在源源不斷的產(chǎn)生。如何讓人類的知識(shí)儲(chǔ)備跟上社會(huì)的發(fā)展，是一個(gè)需要認(rèn)真研究探討。另一個(gè)同等重要是，輸入法應(yīng)該從哪里學(xué)到新詞。本文認(rèn)為最好的學(xué)習(xí)地方就是互聯(lián)網(wǎng)?；ヂ?lián)網(wǎng)上擁有者豐富的數(shù)據(jù)，不管是用戶數(shù)據(jù)還是數(shù)據(jù)，不可否認(rèn)互聯(lián)網(wǎng)早已經(jīng)成為人們獲取信息最快、最有效的途徑之一-1-4?；ヂ?lián)網(wǎng)是新鮮事物的溫室、是新的多發(fā)地，最容易反映社會(huì)鮮的事物。但是，像新華字典等精心編輯過的字典，里面的內(nèi)容都經(jīng)過了專業(yè)的編輯和時(shí)間的沉淀，幾乎不會(huì)存在社會(huì)上最流行的詞語5。因此，本文介紹的新詞發(fā)現(xiàn)語。采用的是互聯(lián)網(wǎng)數(shù)據(jù)作為處理語料，從中

27、發(fā)現(xiàn)最熱的詞輸入法能讓用戶直觀感受到的就是候選區(qū)里的候選詞。候選詞是否準(zhǔn)確，在一定程度上影響了輸入法的準(zhǔn)確性。候選區(qū)是否能第一時(shí)間呈現(xiàn)最流行的詞語是十分重要的。因此，可以說新詞發(fā)現(xiàn)是分。輸入法的一個(gè)重要組成部1.2 與本課題有關(guān)的國內(nèi)外研究狀況1.2.1 新詞的研究領(lǐng)域從80年代到現(xiàn)在，學(xué)者們陸陸續(xù)續(xù)地對(duì)中文的新詞發(fā)現(xiàn)進(jìn)行了較多的研究，學(xué)者們力求從多角度、不同層面、全方位的視角去研究中文新詞發(fā)現(xiàn)技術(shù)。研究的范圍包括：新詞的界定、新詞的產(chǎn)生原因、新詞與文化之間的關(guān)系、新詞產(chǎn)生的方式、新詞展現(xiàn)出的形式規(guī)則、新詞的詞義較原有語義的發(fā)展特點(diǎn)等等6。新詞發(fā)現(xiàn)是學(xué)術(shù)界眾多學(xué)科關(guān)注的焦點(diǎn)，因?yàn)樾略~發(fā)現(xiàn)是許多

28、技術(shù)研究的基本要求，如信息抽取、語音識(shí)別、發(fā)現(xiàn)、機(jī)器翻譯等26在。中文信息處方面尤其如此。中文信息處理的效率在很大程度上受到新詞識(shí)別性能的影響，中文自動(dòng)分詞技術(shù)及新詞識(shí)別結(jié)果已經(jīng)成為提高分詞效果的瓶頸7。近些年，語言學(xué)家希望從新詞的形式和語義方面尋找突破點(diǎn)，一直致力于新詞相關(guān)的研究 8；同時(shí)，計(jì)算機(jī)領(lǐng)域的自然語言處理也在不斷的進(jìn)行嘗試，希望能夠借助計(jì)算機(jī)強(qiáng)大的運(yùn)算能力和互聯(lián)網(wǎng)上豐富的語料資源來發(fā)現(xiàn)新詞。因此，新詞發(fā)現(xiàn)已經(jīng)成為了科技領(lǐng)域的一個(gè)重要研究方向。1.2.2 中文新詞發(fā)現(xiàn)現(xiàn)狀新詞發(fā)現(xiàn)是各個(gè)國家共同。無論何種語言，只要社會(huì)在不斷發(fā)展，新詞就會(huì)不斷涌現(xiàn)。如何快速有效地發(fā)現(xiàn)新詞，是所有科技工

29、作者和語言-2-學(xué)家共同問題。但是語言本質(zhì)之間的差異，使得不同的語言發(fā)現(xiàn)新詞的技術(shù)和難點(diǎn)不同。目前，英文新詞識(shí)別相關(guān)的技術(shù)已經(jīng)相對(duì)成熟，達(dá)到了較高的水平9。在自然語言處理的科研方面，我國開始進(jìn)入該領(lǐng)域研究的時(shí)間，大概晚了快二十年的時(shí)間。在上世紀(jì)六十年代，國外的自然語言處理系統(tǒng)就已經(jīng)形成；而直到上世紀(jì)八十年代，而我國在改領(lǐng)域的研究才剛剛起步，只是初步建立了中文的自然語言處理模型10。盡管如此，但是在過去的十年里，我國中文自動(dòng)分詞技術(shù)有了巨大的進(jìn)步，在 2003 年的國際中文分詞評(píng)測活動(dòng) Bakeoff中也大方異彩。中文自動(dòng)分詞的技術(shù)突破其主要表現(xiàn)在以下幾個(gè)方面：（1）實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)分詞結(jié)果可化。

30、基本方法可表述為三部分：分詞規(guī)范、詞表、分詞語料庫，從而使得在真實(shí)文本中可對(duì)中文分詞結(jié)果進(jìn)行計(jì)算。經(jīng)過學(xué)者的研究與實(shí)踐表明，基于統(tǒng)計(jì)學(xué)習(xí)的分詞系統(tǒng)在分詞結(jié)果上要優(yōu)于基于手工規(guī)則的分詞系統(tǒng)。Bakeoff 大會(huì)上的數(shù)據(jù)評(píng)估結(jié)果也告訴人們一個(gè)事實(shí)，未登錄詞致使中文自動(dòng)切分準(zhǔn)確率的降低比分詞歧義高出 5 倍以上。研究結(jié)果表明，通過統(tǒng)計(jì)的方式使系統(tǒng)識(shí)別未登錄詞的性能加強(qiáng)，能夠大幅度提高系統(tǒng)分詞的準(zhǔn)確度，使準(zhǔn)確率再創(chuàng)新高11。另一方面，中文和英文的構(gòu)詞理念相差很大，語言語法結(jié)構(gòu)也不同，中文的新詞發(fā)現(xiàn)和英文的新詞發(fā)現(xiàn)所遇到也不盡相同。原因之一是中文的單詞之間沒有空格作為詞語邊界的標(biāo)識(shí)，中文是緊密排列的連續(xù)

31、字符串；另一個(gè)原因是中文并沒有對(duì)詞語進(jìn)行明確的定義，相對(duì)英文的詞語表述，中文的展現(xiàn)方式多種多樣1213。所以和英文相比，中文新詞的識(shí)別更加找到一種適合中文特點(diǎn)的新詞發(fā)現(xiàn)方法。，應(yīng)該1.2.3 新詞發(fā)現(xiàn)主要研究方法目前，新詞發(fā)現(xiàn)的方法有：基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于條件隨機(jī)場的方法。（1）基于規(guī)則的方法基于規(guī)則的方法的主要原理是：研究新詞的構(gòu)詞特征，以及所的外型特點(diǎn)，然后根據(jù)研究結(jié)果建立新詞相關(guān)的規(guī)則集14，在處理分析語料時(shí)充分利用規(guī)則集里的知識(shí)，從而達(dá)到自動(dòng)分詞的效果。規(guī)則的表現(xiàn)形式風(fēng)格不一，根據(jù)研究者的需要來表示，規(guī)則的分析層面也是各有千秋。另外，基于規(guī)則的-3-段而存在1516。方

32、法通常被視作對(duì)一種修正統(tǒng)計(jì)方法哈爾濱工業(yè)大學(xué)信息檢索研究室就使用了規(guī)則作為對(duì)統(tǒng)計(jì)出名實(shí)體（Named Entity，新詞的一種）進(jìn)行修正，通過將詞匯信息作為特征加入到系統(tǒng)中幫助識(shí)別。但規(guī)則的運(yùn)用必須滿足前提條件，即修正要以統(tǒng)計(jì)方法的識(shí)別結(jié)果作為基礎(chǔ)。他們提取的規(guī)則主要包括命名實(shí)體的結(jié)構(gòu)特征和外部特征。特征用于符合NE（主要指又多個(gè)詞的地名、機(jī)構(gòu)名和專有名詞）的判斷，外部特征用于獨(dú)立NE（主要指人名、獨(dú)立地名、獨(dú)立機(jī)構(gòu)名和獨(dú)立專有名詞）的確認(rèn)12。特性采用了詞性串作為規(guī)則的依據(jù)，即統(tǒng)計(jì)已知語料的復(fù)合NE所對(duì)應(yīng)的n個(gè)詞對(duì)應(yīng)的詞性所組成的詞性串；而外部特性的規(guī)則則是提取上下文的詞語信息，例如人名前后

33、通常會(huì)有寫指示詞（“教授”、“說”等），而地名后面一般跟的詞的詞性為介詞、動(dòng)詞等。將統(tǒng)計(jì)方法提取的候選詞用規(guī)則進(jìn)行匹配就可以對(duì)結(jié)果進(jìn)行修正。另外就是完全采用規(guī)則的方式識(shí)別新詞。具體方法是：首先研究新詞的構(gòu)詞知識(shí)，以這些知識(shí)為理論依據(jù)建立有一個(gè)幫助識(shí)別新詞的常用語料庫17；然后研究詞語的特性，建造一個(gè)以詞語的特性為基礎(chǔ)的特殊構(gòu)詞規(guī)則庫。再將規(guī)則根據(jù)其不同的作用進(jìn)行劃分，劃分的結(jié)果包括：常規(guī)構(gòu)詞規(guī)則、“互斥性子串”過濾規(guī)則、特殊構(gòu)詞規(guī)則。根據(jù)這些規(guī)則就可以過濾18。短語，最終確定新詞基于規(guī)則的方法識(shí)別新詞準(zhǔn)確率較高，但是總結(jié)規(guī)則時(shí)對(duì)詞語相關(guān)的專業(yè)知識(shí)要求極強(qiáng)。但是，信息無時(shí)無刻地在快速產(chǎn)生，互聯(lián)網(wǎng)

34、上隨時(shí)都有可能有新鮮的詞語出現(xiàn)，因此無論人們?cè)O(shè)計(jì)的專業(yè)詞典有多大、多專業(yè)，想要滿足系統(tǒng)的需求幾乎是不可能的事情19?；谝?guī)則的另一個(gè)缺陷是，規(guī)則的移植性較差，一個(gè)知識(shí)庫只能滿足特定知識(shí)方向的新詞發(fā)現(xiàn)，一旦將系統(tǒng)平移到其他專業(yè)領(lǐng)域，之前總結(jié)的規(guī)則便不再起作用20。眾所周知，自然語言不是人類精心策劃出來的，而是經(jīng)過千萬年的演變而形成的，以人類的智慧是很難去設(shè)計(jì)一21。因此基于規(guī)套完整描述語言的規(guī)則，語言的任何一點(diǎn)變異都將時(shí)系統(tǒng)則的方法有很大的局限性。（2）基于統(tǒng)計(jì)的方法基于統(tǒng)計(jì)方法是基于一個(gè)公認(rèn)的假設(shè)：假如多個(gè)相鄰的短語同時(shí)出現(xiàn)多次，那么就認(rèn) 為這些相鄰短語極有可能共同組成一個(gè) 新

35、詞，也就是 PLU(Phrase-LikeUnit)所描述的概念。LaiYushen和Wu Cghsien24通過統(tǒng)計(jì)的方法，運(yùn)用PLU 的概率進(jìn)行計(jì)算，從而找到超過某一概率閾值的字符串列表，-4-為發(fā)現(xiàn)新詞提供數(shù)據(jù)基礎(chǔ)，進(jìn)而找到新詞?；赑LU原理的做法性能不錯(cuò)，但是分析的新詞結(jié)果的質(zhì)量還有些欠缺。另外，這種分析方法有個(gè)很明顯：它對(duì)所有的詞都一視同仁。而事實(shí)上，詞語的構(gòu)詞模式和單字的構(gòu)詞能力對(duì)新詞的形成影響很大。理論上來看，任何一個(gè)漢字的構(gòu)詞能力都是等同的，和任新詞，但是每個(gè)漢字新詞的概率是不同的22?；诮y(tǒng)計(jì)的發(fā)何字都能現(xiàn)新詞的方法，利用統(tǒng)計(jì)策略分析出新詞候選詞，然后再根據(jù)相關(guān)規(guī)則將不

36、是新詞語的詞刪除。基于統(tǒng)計(jì)的方法以詞共現(xiàn)的概率為理論基礎(chǔ)，而實(shí)現(xiàn)新詞發(fā)現(xiàn)系統(tǒng)。這種方法適用于任何領(lǐng)域，但是它們需要大量的訓(xùn)練語料作為支撐23。、陳桂林25同樣是采用基于統(tǒng)計(jì)的方法來構(gòu)建新詞發(fā)現(xiàn)系松、統(tǒng)，他們?cè)O(shè)計(jì)了一套基于“無詞典高頻字串”的提取算法。算法中需要將文本進(jìn)行多次遍歷，抽取出文本中的高頻字符串，之后還需要對(duì)高頻字符串進(jìn)行文本過濾，最終才能發(fā)現(xiàn)新詞?！盁o詞典高頻字串”的提取算法由三個(gè)子算法構(gòu)成：預(yù)處理子算法、字串形成子算法、后處理子算法。算法的邏輯表述為：文本經(jīng)過預(yù)處理算法的掃描，掃描的目的就是講文本包含的信息用一個(gè)鏈表式數(shù)據(jù)結(jié)構(gòu)進(jìn)行。結(jié)構(gòu)的最小為單個(gè)漢字。該數(shù)據(jù)結(jié)構(gòu)中了漢字的所有基本

37、信息：出現(xiàn)頻率、所在位置、漢字的權(quán)值。該數(shù)據(jù)結(jié)構(gòu)也可以看做一個(gè)Hash表結(jié)構(gòu)。但是，該Hash表需要滿足無的特性，即每個(gè)字都可以被無并唯一地被找到。預(yù)處理算法產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)需要作為參數(shù)輸入到字串形成算法中，該算法將每個(gè)字為作為字符串首字符的字符串全部提取出來，存儲(chǔ)在列表中，并且以升序的順序?qū)⒘斜磉M(jìn)行排序。對(duì)該列表進(jìn)行計(jì)算，將超過一定概率閾值的最長字串作為新詞候選詞起來。后處理算法是對(duì)字串形成算法產(chǎn)生的新詞候選詞進(jìn)行判定。因?yàn)樾略~候選詞的產(chǎn)生算法勢必會(huì)造成候選詞之間的包含關(guān)系，即某些候選詞是某些候選詞的子串。那么其中一個(gè)候選詞就是信息。后處理算法的主要功能就是將這些信息過濾掉。這樣，當(dāng)語料文本經(jīng)

38、過三個(gè)子算法的處理后，文本中的新詞就被提取出來了?；凇盁o詞典高頻字串”的提取算法最大的特點(diǎn)是：它對(duì)文本的處理過完全需要字典，所有的數(shù)據(jù)都來自于語料文本，靠文本自身的信息就可以提取出新詞。因此不需要系統(tǒng)在之前有任何的知識(shí)儲(chǔ)備，只要有豐富的語料數(shù)據(jù)就能成功的發(fā)現(xiàn)新詞。但是美中的是：該算法的運(yùn)算是漢字，而且的都是文本中提煉的字符串，而且字符串之間還可能存在包含關(guān)系，因此會(huì)需要大量重復(fù)的運(yùn)算，產(chǎn)生的信息也比較多。為了解決這個(gè)問題，就需要有強(qiáng)大計(jì)算能力的服務(wù)器，即對(duì)硬件的要求較高。-5-基于統(tǒng)計(jì)的方法可以跨領(lǐng)域的使用，容易實(shí)現(xiàn)。對(duì)大量的語料處理是當(dāng)下科技發(fā)展的趨勢，在自然語言處理領(lǐng)域同樣如此，但有時(shí)處

39、理的結(jié)果質(zhì)量可能較差。因此，目前多數(shù)采用基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法來構(gòu)建新詞發(fā)現(xiàn)系統(tǒng)。首先通過統(tǒng)計(jì)的方法互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行處理，這樣可以得到大量的新詞候選詞，提高了新詞候選詞的率。然后再通過基于規(guī)則的方法，將信息從新詞候選詞里過濾掉，提煉出真正的新詞。基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法，集合了兩者的優(yōu)勢，能夠快速且高效地在互聯(lián)網(wǎng)數(shù)據(jù)中發(fā)現(xiàn)新詞。本文也是采用統(tǒng)計(jì)和規(guī)則的方法實(shí)現(xiàn)新詞發(fā)現(xiàn)系統(tǒng)。（3）基于條件隨機(jī)場的方法最近幾年，基于條件隨機(jī)場（Conditional Random Fields，CRF）的新詞發(fā)現(xiàn)的方法被應(yīng)用于自然語言處理領(lǐng)域?；跅l件隨機(jī)場的方法是與機(jī)器學(xué)習(xí)有關(guān)的研究技術(shù)，適用于計(jì)算語言學(xué)領(lǐng)

40、域，尤其是需要對(duì)大規(guī)模的語料進(jìn)行處理的時(shí)候。因此基于條件隨機(jī)場的方法是一種很有發(fā)展?jié)摿Φ姆椒?，研究學(xué)者對(duì)其的研究也是與日俱增。條件隨機(jī)場是一種判別式的概率模型，在語料的標(biāo)注或分析時(shí)經(jīng)常使用。CRF的結(jié)構(gòu)類似于一個(gè)無向圖模型，圖中的頂點(diǎn)表示隨量，圖中的線段表量Y示隨量間的依賴關(guān)系。在條件隨機(jī)場模型中，條件機(jī)率表示為隨的分布，給定的觀察值則用隨量X表示。理論上來講，條件隨機(jī)場的模型分布是可以任意給定的，但是人們一般采用鏈?zhǔn)浇Y(jié)構(gòu)的布局。13等人提出了一種基于層疊條件隨機(jī)場模型的方法來提取中文機(jī)構(gòu)名。該方法采用N-最短路徑的方法對(duì)分析語料進(jìn)行初步劃分，得到一組N-best的文本片段作為初步切分的結(jié)果；

41、然后在低層條件隨機(jī)場模型中，對(duì)N個(gè)粗分詞串序列進(jìn)行處理，對(duì)序列中的每個(gè)串進(jìn)行不包含復(fù)雜嵌套的地名和人名識(shí)別，然后對(duì)所識(shí)別出的人名或地名字符串用特定的標(biāo)記進(jìn)行標(biāo)注。同時(shí)在該方法中25，該還應(yīng)用到了基于轉(zhuǎn)換的主要是提供一些對(duì)識(shí)別出的人名、地名的字符串進(jìn)行過濾的相關(guān)規(guī)則，避免之后多余的計(jì)算。再應(yīng)用的機(jī)構(gòu)名條件隨機(jī)場模型對(duì)上一步過濾后的結(jié)果進(jìn)行機(jī)構(gòu)名的識(shí)別。最后還需要對(duì)識(shí)別結(jié)果的置信度進(jìn)行計(jì)算，采用的是向前向后算法26。對(duì)計(jì)算結(jié)果進(jìn)行分析，將置信度最高的字符串作為最終的結(jié)果輸出。通過對(duì)大規(guī)模真實(shí)語料的開放測試，表明該方法對(duì)中文機(jī)構(gòu)名識(shí)別的結(jié)果里準(zhǔn)確率達(dá)到88.12%，率達(dá)到90.6%。-6-1.3 本

42、文的主要研究內(nèi)容和章節(jié)安排本文的研究內(nèi)容是基于統(tǒng)計(jì)和基于規(guī)則相結(jié)合的方法來構(gòu)建新詞發(fā)現(xiàn)的平臺(tái)。其中基于統(tǒng)計(jì)的方法為快速地處理大批量的數(shù)據(jù)提供了有效段，而基于規(guī)則的方法則對(duì)大規(guī)模數(shù)據(jù)的處理結(jié)果提確的修正算法。隱模型是一個(gè)長期優(yōu)化和積累的模型，需要不斷的對(duì)其進(jìn)行更新和完善，該模型對(duì)漢字的各種屬性概率進(jìn)行統(tǒng)計(jì)和計(jì)算27。隱的“學(xué)習(xí)”內(nèi)容采用的是經(jīng)過語言學(xué)家處理過的語料數(shù)據(jù)。對(duì)這些語料數(shù)據(jù)進(jìn)行分析和處理后就能形成一個(gè)與中國漢字相關(guān)的模型。該模型是新詞提取部分切分實(shí)際語料的一個(gè)理論依據(jù)28。新詞提取的過程分為以下步驟：（1）依據(jù)隱模型對(duì)實(shí)際數(shù)據(jù)集的初步切分（2）對(duì)上一步的切分結(jié)果做出初步的過濾，形成新詞

43、候選詞集合對(duì)新詞候選詞集合里的每一個(gè)詞組進(jìn)行分析，得到相關(guān)的數(shù)據(jù)集。然后對(duì)候選詞進(jìn)行修正算法，得到更加精確的新詞結(jié)果。輸出新詞集合新詞詞表的主要工作是在時(shí)間線上對(duì)已有的新詞列表進(jìn)行更新。更新操作包括：刪除、新增、更新新詞數(shù)據(jù)等。主要目的是使新詞列表能跟上社會(huì)的不斷發(fā)展，能準(zhǔn)確的反映出當(dāng)下最常用和最熱門的詞語。最終，該課題構(gòu)建了一套完成以上工作的新詞發(fā)現(xiàn)。本文的組織結(jié)構(gòu)如下：第1章，緒論，闡明了本課題的來源和背景，并介紹了新詞發(fā)現(xiàn)在輸入法中的作用和重要性，以及新詞發(fā)現(xiàn)應(yīng)該完成的任務(wù)。第2章，新詞發(fā)現(xiàn)需求分析，從新詞發(fā)現(xiàn)的應(yīng)用角度對(duì)課題進(jìn)行需求分析，包括各個(gè)功能點(diǎn)的分析。第3章，新詞發(fā)現(xiàn)相關(guān)技術(shù)分

44、析，這部分將對(duì)新詞發(fā)現(xiàn)系統(tǒng)中每個(gè)部分涉及到的技術(shù)進(jìn)行分析，以及這些技術(shù)是如何在新詞發(fā)現(xiàn)里發(fā)揮作用的。第4章，新詞發(fā)現(xiàn)概要設(shè)計(jì)，這部分主要是對(duì)新詞發(fā)現(xiàn)按主要功能進(jìn)行劃分。對(duì)每個(gè)子部分應(yīng)承擔(dān)的任務(wù)進(jìn)行介紹。第5章，新詞發(fā)現(xiàn)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)，對(duì)系統(tǒng)的每個(gè)子部分進(jìn)行詳細(xì)的設(shè)計(jì)。介紹每個(gè)部分的設(shè)計(jì)細(xì)節(jié)。第6章新詞發(fā)現(xiàn)的測試，測試的主要方面包括單元測試、功能測試、系-7-統(tǒng)測試、性能測試。并給出測試評(píng)價(jià)。的結(jié)論部分，總結(jié)了的研究方法和成果，展望了今后的改進(jìn)方向。-8-第 2 章新詞發(fā)現(xiàn)需求分析本章首先會(huì)從輸入法產(chǎn)品的角度分析對(duì)新詞發(fā)現(xiàn)的需求進(jìn)行整體的分析。講述在輸入法產(chǎn)品中，新詞發(fā)現(xiàn)要承擔(dān)角色及義務(wù)。然后

45、會(huì)繼續(xù)針對(duì)新詞發(fā)現(xiàn)的功能需求和性能需求進(jìn)行詳細(xì)的分析。2.1 系統(tǒng)功能需求分析近幾年，科技世界已經(jīng)出現(xiàn)了翻天覆地的變化。PC 已經(jīng)被越來越多的用戶所拋棄，人們張開懷抱迎接移動(dòng)互聯(lián)網(wǎng)。Media Behavior Institute 針對(duì)人的上網(wǎng)情況做出了一項(xiàng)，結(jié)果顯示移動(dòng)設(shè)備的發(fā)展使得 PC 互聯(lián)網(wǎng)使用率下降。在特定的一周內(nèi)，PC 互聯(lián)網(wǎng)使用率下降了 5 個(gè)百分點(diǎn)。于此同時(shí)，移動(dòng)應(yīng)用也在以驚人的速度增長。根據(jù) Appsfire 公司的統(tǒng)計(jì)數(shù)據(jù)顯示，蘋果公司的 AppStore 的移動(dòng)應(yīng)用量今年再次達(dá)到了一個(gè)新的。從 2008 年已經(jīng)成了人們以來，通過 AppStore 審核的應(yīng)用已經(jīng)多達(dá) 10

46、0 多萬。現(xiàn)在，生活的必需品。移動(dòng)互聯(lián)網(wǎng)在青少年的上網(wǎng)活動(dòng)中占有主導(dǎo)地位。2012 年，美的皮尤（Pew）顯示，在過去 1 年里青少年（12 歲到 17國歲）使用 3G生活項(xiàng)目的上網(wǎng)的百分比大幅增長至 37%左右。同時(shí)，互聯(lián)網(wǎng)和人結(jié)果也顯示，的青少年中有 23%主要通過或平板電腦上網(wǎng)而非 PC 電腦，而成年人的比例為 15%。另外，青少年中擁有的比例達(dá) 78%，其中 47%的為智能還只有 23%。，而 2011 年的擁有智能機(jī)的青少年的比例的承載的功能越來越多，但是人類的溝通方式目前主要還是通過文字。人們將要表達(dá)的信息通過文字輸入到里，然后對(duì)輸入的文字做出回應(yīng)。因此，文字的輸入速度直接影響了用

47、戶的生活效率。輸入法的重要性不言而喻。從互聯(lián)網(wǎng)的興起，到互聯(lián)網(wǎng)對(duì)人們輸入方式的影響，越來越多的輸入法產(chǎn)品將互聯(lián)網(wǎng)的概念引入?；ヂ?lián)網(wǎng)在輸入法中的主要體現(xiàn)為：信息容量的增大。依靠計(jì)算，輸入法的服務(wù)器原先的幾十萬詞庫擴(kuò)展到幾千萬。通過云端，輸入法可以利用服務(wù)器端的各種資源，已有資源的利用率提高。在云端，可以通過服務(wù)器強(qiáng)大的運(yùn)算能力對(duì)數(shù)據(jù)進(jìn)行挖掘，再將挖掘出的新詞輸送給輸入法，從而提高輸入法準(zhǔn)確率。隨著信息的積累，輸入法云端詞-9-量已經(jīng)增至幾十萬，也就是說輸入法每天至少能從互聯(lián)網(wǎng)上挖掘 3 個(gè)以上的新詞，例如“給力”這種新鮮詞匯。圖 2-1 新詞發(fā)現(xiàn)功能概述本文所介紹的新詞發(fā)現(xiàn)就是為輸入法服務(wù)的，它

48、在互聯(lián)網(wǎng)和輸入法之間扮演的角色如圖 2-1 所示。新詞發(fā)現(xiàn)是連接互聯(lián)網(wǎng)和輸入法的一個(gè)橋梁，它可以源源不斷地為輸入法輸入新鮮血液。為了提高輸入法的準(zhǔn)確性，新詞發(fā)現(xiàn)所要完成的功能可以大致概括為豐富新詞列表內(nèi)容和新詞列表。新詞列表的操作包括：刪除已經(jīng)過時(shí)的詞和更新仍在新詞列表中詞語的信息。2.2 新詞覆蓋面需求分析目前，在新詞發(fā)現(xiàn)領(lǐng)域?qū)W者們對(duì)新詞的定義不一。有學(xué)者稱其為新詞（New Words），有學(xué)者稱其為未登錄詞（Unknown Words）。大多數(shù)時(shí)候，未登錄詞被認(rèn)為是沒有在詞典中出現(xiàn)的詞151623。而根據(jù)國家語委新詞新語規(guī)范基本原則課題組的新詞新語規(guī)范基本新詞的概念應(yīng)該主要參考于新穎度29

49、。例的詞語不到 10 年原則里就變得非常穩(wěn)定了，形式和意義就基本不變化了，因此可以將其認(rèn)為是基本詞語；而有的詞語存在雖然超過 10 年，人們?cè)谌粘Ｉ钪羞€是經(jīng)常使用，但是人們賦予了它新的含義，這時(shí)可以認(rèn)為是基本詞語，也可以認(rèn)為是新鮮詞語；-10-有些詞語雖然不是新造的，但是之前只有某個(gè)特定的專業(yè)使用，但現(xiàn)在群體的知識(shí)結(jié)構(gòu)已經(jīng)發(fā)生變化了，知識(shí)面擴(kuò)大了，詞語語義的范圍也擴(kuò)大了，有許多原來認(rèn)為比較專門的詞語也為大眾了解并且經(jīng)常使用，這可以理解為舊詞新用；有的詞語以前從來就沒有出現(xiàn)過，可以認(rèn)為是人們新造的詞，但卻們廣泛使用，這一類自然也是新詞?？梢姡略~的概念是的標(biāo)準(zhǔn)。所以正確的做法是根據(jù)具體的需求來

50、定義新詞。智，并沒有一個(gè)本將新詞定義為：詞典中沒有出現(xiàn)過的且是人們目前經(jīng)常使用的詞語。新詞雖然也沒有在詞典中出現(xiàn)過，按道理說應(yīng)該屬于未登錄詞，但新詞和未登錄詞還是有所區(qū)別的。兩者的區(qū)別可以從以下方面來理解：（1）從詞典這一方面來理解，新詞是指通過任何一種途徑產(chǎn)生的、具有一種有別于固有形式的新形式、被賦予新的含義或具有了新的用法的詞語10。因此新詞的形式與基礎(chǔ)詞語的構(gòu)詞形式不同，有時(shí)常用的基礎(chǔ)詞語也可以因?yàn)榫哂辛诵碌暮x而成為新詞。（2）從時(shí)間這一方面來理解，新詞具有很強(qiáng)的時(shí)效性。新詞一般是從某個(gè)30。時(shí)間點(diǎn)開始出現(xiàn)，然后持續(xù)出現(xiàn)一段時(shí)間后在本中，將新詞和未登錄詞統(tǒng)稱為新詞，即那些沒有在字典里出

51、現(xiàn)過，并且當(dāng)下被經(jīng)常使用的詞語。詞庫功能的強(qiáng)弱在一定程度上關(guān)系著一款輸入法的強(qiáng)弱。詞庫的評(píng)價(jià)標(biāo)準(zhǔn)不僅僅是詞語數(shù)量上的評(píng)判，詞庫的覆蓋面同樣重要。輸入法的詞庫是用戶打字的基礎(chǔ)。新詞是詞庫的一個(gè)重要組成部分?；A(chǔ)詞庫只能提供給用戶最常用的詞語，而新詞則可以與時(shí)俱進(jìn)。輸入法最主要的競爭對(duì)手搜狗輸入法，在詞庫的提供方面融合了搜索引擎技術(shù)，使網(wǎng)絡(luò)新詞可以即時(shí)推送到客戶端，并將新詞加入客戶端的固有詞，從而實(shí)現(xiàn)了詞庫的實(shí)時(shí)更新與擴(kuò)充，這也就是所謂的“網(wǎng)絡(luò)化輸入法”。事實(shí)上，網(wǎng)絡(luò)化輸入法對(duì)傳統(tǒng)輸入法最大的改進(jìn)之處就是對(duì)固有詞量的擴(kuò)充。百科作為自己的一個(gè)評(píng)測輸入法詞庫的覆蓋統(tǒng)計(jì)數(shù)據(jù)，見集合，得到了搜狗輸入法、谷

52、歌輸入法、表 2-1。表 2-1 三大輸入法詞庫覆蓋率對(duì)比輸入法名稱詞庫覆蓋率72.11%57.32%50.66%搜狗輸入法谷歌輸入法輸入法-11-分析表格里的數(shù)據(jù)結(jié)果可以發(fā)現(xiàn)，輸入法在詞庫覆蓋率方面不如搜狗輸入法和谷歌輸入法。表 2-2 是一個(gè)詞庫覆蓋率的測試舉例。測試數(shù)據(jù)為非常偏僻的詞語，然后來觀察各個(gè)輸入法給出的候選結(jié)果。表 2-2 生僻詞詞語樣本搜狗輸入法候選結(jié)果谷歌輸入法候選結(jié)果輸入法候選結(jié)果diguoshi；師（稱謂）師，帝史是是國是，tianliu；田鷚（動(dòng)物）田鷚天流天六對(duì)于測試的數(shù)據(jù)，搜狗輸入法候選的結(jié)果非常準(zhǔn)確，甚至連“田鷚”、“蚰蜒草”這樣的生僻詞匯都能夠正確給出，可見搜

53、狗輸入法詞庫不僅數(shù)量大而且覆蓋面廣。與搜狗輸入法形成對(duì)比的是谷歌輸入法和輸入法，兩者都沒能給出正確結(jié)果，給出的候選也是似是而非，這樣就需要用戶增加選擇候選項(xiàng)的操作，嚴(yán)重影響了用戶輸入速度。因此輸入法在詞庫的覆蓋方面還有待改善。這就需要新詞發(fā)現(xiàn)發(fā)現(xiàn)的新詞包含生活的各個(gè)方面，如果輸入法的詞庫不能與時(shí)俱進(jìn)，就很難滿足用戶的需求。2.3詞的刪除需求分析一款輸入法所有詞庫的詞條加起來大概有幾百萬之多，這還不包括新詞發(fā)現(xiàn)產(chǎn)生的詞條。新詞發(fā)現(xiàn)產(chǎn)生的詞條和輸入法分類詞庫的詞條在性質(zhì)上有著明顯的區(qū)別。分類詞庫和基礎(chǔ)詞庫可以看做是長期存在的，也就是說里面的詞條不會(huì)因?yàn)闀r(shí)間的流逝而過時(shí)，這些詞的詞語大多是每個(gè)領(lǐng)域?qū)?/p>

54、業(yè)的詞語，或是人類生活中必用的詞語。而新詞就不同，新詞里添加很多時(shí)間的，大多數(shù)新詞可謂是“曇花一現(xiàn)”。新詞可能是在人類歷史上從沒出現(xiàn)過的詞，比如說近期流行的“表哥”、“房姐”等。也有可能是一直存在但是最近被廣泛使用的詞，比如說“元芳”。但是新詞大多數(shù)隨著社會(huì)焦點(diǎn)的轉(zhuǎn)移就慢慢了。對(duì)于詞的定義，說法眾多。本文將其定義為絕大部分用戶不會(huì)再輸入的詞語。這樣，詞就包含了時(shí)間的。因?yàn)橛行┰~語在某段時(shí)間內(nèi)很火，用戶使用的頻率很高。而過了這段時(shí)間，隨著某些事件的淡忘，相關(guān)的詞-12-語也不再流行了，絕大用戶就不會(huì)再輸入這些詞了。如果這些詞還是出現(xiàn)在候選區(qū)里，那么無疑對(duì)用戶來說就是習(xí)的能力，能夠及時(shí)地將新詞列表

55、中的信息。因此新詞發(fā)現(xiàn)詞刪除3132。必須具備2.4 新詞發(fā)現(xiàn)習(xí)的需求分析需要賦予新詞發(fā)現(xiàn)習(xí)的能力。即新詞發(fā)現(xiàn)根據(jù)給定的資料，自己提煉出當(dāng)下最流行的詞語。眾所周知，互聯(lián)網(wǎng)是社會(huì)新鮮事的發(fā)源地，因此我將新詞發(fā)現(xiàn)資源，因此將騰訊的學(xué)習(xí)來源定為互聯(lián)網(wǎng)數(shù)據(jù)。騰訊擁有大量的作為主要的學(xué)習(xí)資料。騰訊包括：社會(huì)、政治、軍事等各個(gè)領(lǐng)域，完全滿足了新詞學(xué)習(xí)的所有條件。而且實(shí)時(shí)性強(qiáng)，也有利于將新詞列表和時(shí)間建立起聯(lián)系。新詞發(fā)現(xiàn)輸入的內(nèi)容為：每天的騰訊數(shù)據(jù)。輸出內(nèi)容為：需要新增的新詞列表。只要新詞發(fā)現(xiàn)法提供新詞。正常運(yùn)轉(zhuǎn)起來，就能每天源源不斷地給輸入另一個(gè)對(duì)輸入法準(zhǔn)確率的影響是候選詞的默認(rèn)順序。最理想的情況是，用戶

56、輸入拼音串后，候選區(qū)的第一候選就是用戶想要輸入的詞語。候選詞的默認(rèn)順序的參考包括：用戶使用詞語的頻率以及用戶輸入的上下文。這部分不在本文的實(shí)現(xiàn)范圍以內(nèi)，所以不做過多的。2.5 非功能性需求新詞發(fā)現(xiàn)作為輸入法詞庫更新的一個(gè)重要組成部分，除了滿足前面提到的功能性需求，系統(tǒng)還應(yīng)滿足以下非功能性需求：（1）高性能每天互聯(lián)網(wǎng)上產(chǎn)生的文本數(shù)據(jù)是非常大的，新詞發(fā)現(xiàn)要求在滿足功能的條件下盡可能提高性能，有效的利用計(jì)算資源。集群上的計(jì)算實(shí)際上代價(jià)是十分昂貴的，所以在開發(fā)中，保障性能十分關(guān)鍵。（2）時(shí)效性為了滿足用戶對(duì)于新詞輸入的需求，盡可能快的在各種語料數(shù)據(jù)中發(fā)現(xiàn)識(shí)別新詞是必須的。于此同時(shí)，發(fā)現(xiàn)根據(jù)當(dāng)前時(shí)間

57、動(dòng)態(tài)調(diào)整詞語的候選排序。需要對(duì)詞庫進(jìn)行整理，（3）易用性需要有良好的人機(jī)操作接口，易于操作。系統(tǒng)需要充分考慮到用易學(xué)習(xí)性和易操作性，確保經(jīng)過 5 個(gè)工作日的培訓(xùn)后操作短時(shí)間的學(xué)習(xí)掌握系統(tǒng)的操作方法。-13-能夠通過較（4）自動(dòng)化新詞發(fā)現(xiàn)要求高度的自動(dòng)化，降低運(yùn)維成本。（5）可性系統(tǒng)需要充分考慮到易分析性和易更改性，提供詳細(xì)完善的故障解決說明書，確保系統(tǒng)管理員參照說明書能夠準(zhǔn)確快速的定位故障點(diǎn)并在 2 小時(shí)內(nèi)查出原因同時(shí)將系統(tǒng)恢復(fù)正常。同時(shí)使系統(tǒng)具備的能力。2.6 本章小結(jié)本章對(duì)新詞發(fā)現(xiàn)進(jìn)行了詳細(xì)的需求分析，包括新詞覆蓋面、詞刪除、習(xí)等方面的分析。上文結(jié)合和報(bào)表的形式對(duì)輸入法新詞發(fā)現(xiàn)的功能

58、進(jìn)行闡述，以及與競品在某方面的比較結(jié)果進(jìn)行分析。為讀者更好的理解和把握新詞發(fā)現(xiàn)提供了一個(gè)完善的說明，也為接下來要介紹的系統(tǒng)設(shè)計(jì)、系統(tǒng)實(shí)現(xiàn)、系統(tǒng)測試做了一個(gè)良好的鋪墊。-14-第 3 章新詞發(fā)現(xiàn)的概要設(shè)計(jì)與相關(guān)技術(shù)分析3.1 新詞發(fā)現(xiàn)體系架構(gòu)為了實(shí)現(xiàn)系統(tǒng)目標(biāo)與功能，并且使系統(tǒng)結(jié)構(gòu)清晰化，因此新詞發(fā)現(xiàn)將采用結(jié)構(gòu)化設(shè)計(jì)，以達(dá)到各部分分工明確。將新詞發(fā)現(xiàn)拆分為組件的形式，每個(gè)組件完成自己特定的任務(wù)，所有組件協(xié)同工作，共同完成新詞發(fā)現(xiàn)平臺(tái)的整體目標(biāo)。的系統(tǒng)架構(gòu)如圖 3-1 所示，其新詞發(fā)現(xiàn)是：隱有四個(gè)主要組件，分別模型組件，實(shí)際語料加工組件，新詞候選詞修正組件、新詞列表組件。隱模型組件：該部分通過已經(jīng)

59、切分好的1998 年的語料來建立一個(gè)隱取，抽出構(gòu)建隱建立出隱模型。數(shù)據(jù)分析器對(duì)訓(xùn)練語料里的標(biāo)記內(nèi)容進(jìn)行提模型所必須的數(shù)據(jù)信息。根據(jù)這些抽取的信息就可以模型。的用語十分規(guī)范，再加之訓(xùn)練數(shù)據(jù)是經(jīng)過語言學(xué)家切分的，因此極具參考性。實(shí)際語料加工組件：用于發(fā)現(xiàn)新詞的實(shí)際語料是騰訊，所囊括的類別包括實(shí)事、社會(huì)、時(shí)尚等。實(shí)際語料輸入到語料加工組件里，再根據(jù)隱馬爾根據(jù)隱模型組件提供的模型參數(shù)接口，就可以對(duì)實(shí)際語料初步進(jìn)行切分。模型進(jìn)行切分后會(huì)產(chǎn)生一個(gè)經(jīng)過標(biāo)注過的語料，根據(jù)標(biāo)記就可以將原始語料分片。將這些分片統(tǒng)計(jì)、合并后就得到了新詞候選詞初步結(jié)果。對(duì)這些結(jié)果進(jìn)行詞過濾，就得到了新詞候選詞列表。新詞候選詞修正組件

60、：將實(shí)際語料加工組件的產(chǎn)出物新詞候選詞列表作為新詞候選詞修正組件的輸入數(shù)據(jù)。在運(yùn)行之前，就會(huì)根據(jù)語言學(xué)規(guī)律設(shè)計(jì)一個(gè)候選詞修正算法模型。該模型為新詞候選詞的修正提供解決依據(jù)，得出一套新詞候選詞的修正方法。對(duì)新詞候選詞中的每個(gè)詞組進(jìn)行修正，最終會(huì)得到新詞列表。-15-圖 3-1 新詞發(fā)現(xiàn)系統(tǒng)架構(gòu)圖新詞列表組件：將新詞候選詞修正組件的產(chǎn)出物新詞列表和新詞列表組件里已有的新詞列表進(jìn)行合并，得到一份更新后的新詞列表。該組件中的新詞列表里的信息是每天更新的，包括新詞每天出現(xiàn)的頻率和出現(xiàn)時(shí)間。根據(jù)這些信息，通過計(jì)算后判斷信息列表里的詞語是否仍然符合新詞的定義。如果符合，則只對(duì)信息進(jìn)行更新；如果不符合，就從新

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

2013工面向互聯(lián)網(wǎng)數(shù)據(jù)的新詞發(fā)現(xiàn)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔