英語語言文化論文中英文混合分詞方法及應(yīng)用研究_第1頁
英語語言文化論文中英文混合分詞方法及應(yīng)用研究_第2頁
英語語言文化論文中英文混合分詞方法及應(yīng)用研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、中英文混合分詞方法及應(yīng)用研究 中英文混合分詞方法及應(yīng)用研究 chinese and english mixed segmentation method and applied research【中文摘要】 隨著科學(xué)技術(shù)的迅猛發(fā)展,計算機在各個領(lǐng)域得到了前所未有的廣泛應(yīng)用。已從過去的數(shù)據(jù)處理、信息處理發(fā)展到現(xiàn)在的知識處理和對語言文字的信息處理。自從20世紀(jì)80年代初,中文信息處理提出自動分詞以來,眾多專家和學(xué)者在這一領(lǐng)域取得了令人可喜的進展,并且基于中文分詞的算法也隨著信息的多元化,復(fù)雜化在不斷的升級,改進和完善。分詞算法在信息檢索,自動歸檔等領(lǐng)域都有著廣泛的應(yīng)用,但是由于中國經(jīng)濟的飛速發(fā)展使得

2、中國與世界的聯(lián)系更加緊密,在一些前沿領(lǐng)域或是國人剛剛開始涉足的領(lǐng)域就難免要借鑒和引用一些發(fā)達國家的科研成果或創(chuàng)新理論。這樣,信息的形式就難免要使用中外語言混合的形式來表達,特別是中英文混合使用的情況將會越來越普遍。這就要求信息處理系統(tǒng)不僅能夠?qū)⒅形恼_分詞,還要能夠?qū)χ杏⑽幕旌系那闆r正確分詞。目前有關(guān)中英文混合分詞的研究相對較少,還沒有形成比較成熟的理論,中英文混合分詞的規(guī)范、評價體系還沒有建立。對于中英文混合字段一般是將中文漢字和英文字母、中文漢字和阿拉伯?dāng)?shù)字、英文字母和阿拉伯?dāng)?shù)字直接分開,沒有對其進行詞的判斷和消岐處理。基于此課題首先研究中英文混合的新特點,并著重研究了中英文混合分詞的算法

3、,特別是混合分詞的消岐問題。本文主要研究了中英文混合的形式、結(jié)構(gòu)以及人們使用中英文混合的習(xí)慣,分析了現(xiàn)有的中文分詞算法,提出了一種實用的中英文混合分詞算法。對于分詞難點之一的消歧問題,本文做了深入的研究,并在現(xiàn)有消歧算法基礎(chǔ)之上分析了需要繼續(xù)消歧的原因并且給出了具體實施方法。對于最大詞長問題的解決本文充分考慮了分詞速度的要求,提出了以待切分字符串的雙首字開始的hash詞典的詞長和待切分文本的長度進行比較從而確定rmm的最大詞長。為了驗證該算法的效率,開發(fā)了中英文混合分詞系統(tǒng),以中國風(fēng)能信息中心系統(tǒng)為例對中英文混合分詞算法做了試驗驗證。試驗表明,該算法能夠有效的將中英文混合文檔正確的分詞,其消歧

4、率到達了較高的水平,算法對未登錄詞中的姓名名詞也有很好的識別能力。最后依據(jù)算法的分詞結(jié)果初步達到了文章自動分類歸檔的目的?!居⑽恼?with the rapid development of science and technology, computer has been widely used ever. it develops from the data processing to knowledge processing. since the early-1980s, chinese information processing has proposed the automatic

5、 segmentation, many experts and scholars in this field have made great progress. the algorithm also has a wide range of applications in information retrieval, automatic archiving and other areas. the link between china and the world has been more closely due to the rapid development of chinas econom

6、y, however, we unavoidably use the experience of other countries for reference.such informations form unavoidably must be used chinese and foreign language mixed to express our thought, especially chinese and english mixed form. this set a higher request to the information management system,.at pres

7、ent, the research of chinese and english mixed word segmentation is relatively few, and it has not formed a quite mature theory. the chinese and english mixed word segmentation standard and the appraisal system have not been established. based on this, the paper has studied the new features of chine

8、se and english mixed form and proposed a new algorithm.this paper has mainly studied the chinese and english mixed form, the structure and the use custom. it aslo presents a practical segmentation algorithm of chinaese and english mixed. the removing ambiguity is one of the difficulties of segmentat

9、ion.this article has done the thorough analytical study and proposed the implementation method. for continuing removing ambiguity. to solve the biggest word length, a method which compared the length of the first two-character string beginning hash dictionary of the waiting string with the length of

10、 the text to determine the maximum word length of rmm has been proposed.the experiment indicated that using this article proposed method can split the words of chinese and english mixed effectively. the method can not only keep a higher level of removing ambiguity, but also do well in unknown word i

11、dentification. finally it arrived at the goal of article automatic sorting based on the algorithm participle result. 【中文關(guān)鍵詞】 中英文混合分詞; hash; rmm; 消歧; 未登錄詞 【英文關(guān)鍵詞】 chinese and english mixed word segmentation; hash; rmm; removing ambiguity; unknown word 【論文目錄】摘要 4-5 abstract 5 1 引言 9-12 1.1 研究背景及意義 9-1

12、0 1.1.1 研究背景 9-10 1.1.2 研究意義 10 1.2 研究現(xiàn)狀 10-11 1.3 論文的組織 11-12 2 分詞算法綜述 12-17 2.1 中文自動分詞基本算法 12-14 2.1.1 基于字符串匹配算法 12-13 2.1.2 基于統(tǒng)計的方法 13 2.1.3 基于理解的方法 13-14 2.2 歧義處理 14-15 2.2.1 歧義定義 14 2.2.2 探測歧義 14 2.2.3 消歧算法 14-15 2.3 未登錄詞識別 15-16 2.3.1 未登錄詞識別的方法 15 2.3.2 未登錄詞識別的現(xiàn)狀 15-16 2.4 中文分詞評價 16-17 3 中英文混合

13、分詞評價體系 17-19 3.1 中英文混合使用現(xiàn)象原因 17 3.2 中英文混合特點 17-18 3.2.1 由引進英文而產(chǎn)生的歧義 17 3.2.2 網(wǎng)絡(luò)語言的大量使用 17 3.2.3 由領(lǐng)域性產(chǎn)生的歧義 17 3.2.4 缺失字母問題 17-18 3.3 中英文混合分詞評價體系 18-19 3.3.1 增加詞語糾錯能力評價 18 3.3.2 未登錄詞標(biāo)準(zhǔn)發(fā)生變化 18-19 4 中英文混合分詞的算法實現(xiàn) 19-40 4.1 常用的分詞詞典 19-23 4.1.1 整詞二分的分詞詞典機制 19-21 4.1.2 trie 索引樹的分詞詞典機制 21-22 4.1.3 逐字二分的分詞詞典機制 22-23 4.2 三種分詞詞典機制的實驗結(jié)果 23-24 4.3 本文采用的詞典機制 24-26 4.3.1 改進的詞典機制 25-26 4.4 詞典的實現(xiàn) 26-30 4.4.1 詞典的構(gòu)成 26 4.4.2 詞典定義 26-27 4.4.3 加載基本詞典 27-29 4.4.4 加載停用詞典和姓氏詞典 29-30 4.5 中英文混合分詞算法 30-35 4.5.1 初切分算法 30-31 4.5.2 分詞過程 31-35 4.6 歧義處理 35-38 4.6.1 中英文混合歧義形式 35 4.6.2 歧義探測 35-36 4.6.3 改進的消歧算法 36-37 4.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論