版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、華中科技大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告第 頁共9頁1課題概述隨著網(wǎng)絡(luò)的高速發(fā)展,社會的信息化水平不斷提高,人們越來越習(xí)慣,也越 來越依賴從互聯(lián)網(wǎng)中獲取信息。面對當(dāng)前信息呈現(xiàn)的爆炸性增長趨勢, 我們迫切 地需要優(yōu)質(zhì)、準確、快捷、簡單、合理的手段對海量信息進行檢索,從中獲取有 效的數(shù)據(jù)。作為海量信息檢索中最首要的預(yù)處理手段,分詞技術(shù)應(yīng)運而生。在自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。而分詞技術(shù)指的是將文本拆分成詞的一種技術(shù)。它屬于自然語言處理技術(shù)的范疇,是文 本分類、數(shù)據(jù)檢索、信息抽取、機器翻譯、自動摘要、文本語音輸入輸出等研究 領(lǐng)域的基礎(chǔ)所在。至于中文分詞(Chinese
2、Word Segmentation,則是將中文文本中的漢字序列 合理切分成一個個單獨的詞,并對其進行分析處理,然后將文本中的字序列按照 一定的規(guī)則重新組合成詞序列的過程。眾所周知,中文與作為拉丁語系語言代表的英文相比, 有著明顯的區(qū)別。英 文以空格作為天然的分隔符,詞與詞之間的區(qū)分很明顯,并不需要特殊的分詞技 術(shù)。而中文由于繼承了古代漢語的傳統(tǒng), 以字作為基本的書寫單位,詞都處于具 體的語句之中,所以并不存在天然的界限。因此,僅僅通過句子或段落間的分隔 標志進行切分是不可行的。同時,由于中文語義的復(fù)雜性與語法的多變性, 大多 數(shù)英文分詞技術(shù)不能直接適用于中文分詞。盡管如此,中文分詞技術(shù)依然是中
3、文信息處理的基礎(chǔ)與關(guān)鍵所在。作為自然 語言處理與信息檢索領(lǐng)域的研究熱點,中文分詞技術(shù)不斷地發(fā)展,并被廣泛應(yīng)用 于信息檢索、搜索引擎、機器翻譯、中文校對、文本語音輸入輸出等方面。而近 年來對中文分詞技術(shù)的需求與要求的不斷提高, 也在一定程度上刺激了中文分詞 技術(shù)的發(fā)展。目前,中文分詞技術(shù)正在逐漸邁向成熟。 但是在其關(guān)鍵技術(shù)上,依然有改進 的空間。本課題的目的即在于,在前人的研究基礎(chǔ)上,通過對中文數(shù)據(jù)檢索中的 分詞檢索機制進行研究,以期初步實現(xiàn)一種可行的中文分詞技術(shù), 使之具備一定 的實用意義與理論價值。2國內(nèi)外發(fā)展現(xiàn)狀自20世紀80年代初至今,中文分詞技術(shù)的概念被提出以來,中文信息處理 領(lǐng)域有了
4、長足的進步與發(fā)展。其發(fā)展歷程大致如下:1983年,梁南元等人將最大匹配法一 MM 方法(The Maximum Matching Method)與逆向的最大匹配法一 RMM 方法(The Reverse Maximum Matching Method)兩種分詞方法應(yīng)用于中文分詞系統(tǒng) CDWS (The Modern Printed Chinese Distinguishing Word System,現(xiàn)代書面漢語自動分詞系統(tǒng))中。1989年,揭春雨、梁南元等人在考查中文信息處理領(lǐng)域中已有的幾種中文 分詞方法后,提出自動分詞方法的結(jié)構(gòu)模型正向增大最大匹配法ASM,并對幾種中文分詞方法的時間復(fù)雜度
5、及其對分詞速度、分詞精度的影響進行分析,同時指出在中文分詞中設(shè)立“切分標志”并無意義。隨后于 1991年設(shè)計并實現(xiàn)了中 文分詞系統(tǒng)CASS (Chinese Automatic Segmenting System漢語自動分詞實用系 統(tǒng))。1991年,何克抗等人通過對歧義切分字段產(chǎn)生的根源和性質(zhì)進行深入分析, 把歧義字段從性質(zhì)上分為四類,并給出了消除每一類歧義切分字段的有效方法。 在對歧義字段進行統(tǒng)計分析的基礎(chǔ)上提出了切分精度的“四級指標體系”,并論證了專家系統(tǒng)方法是實現(xiàn)自動分詞系統(tǒng)的最佳方案。1994年,孫茂松等人就中文分詞中特有的中文姓名自動辨識作了深入的研 究,提出了一種中文文本中自動辨識
6、中文姓名的算法。通過從新華通訊社新聞?wù)Z料庫中隨機抽取的300個包含中文姓名的句子作為測試樣本, 結(jié)果表明,召回率 達到了 99.77%。1996年,吳勝遠對當(dāng)時現(xiàn)有的漢語分詞方法作了概述后,提出了一種新的 漢語分詞方法一一單掃描分詞方法,并對單掃描漢語分詞方法的時間復(fù)雜度作了 分析。分析表明,單掃描分詞方法的時間復(fù)雜度為 2.89,比當(dāng)時現(xiàn)有的分詞方法 的時間復(fù)雜度12.32小得多。單掃描分詞方法無論在理論,還是在實踐上都有重 大意義。隨后,又根據(jù)多級內(nèi)碼理論,成功設(shè)計出了一種并行分詞方法,大大提 高了分詞速度。同時,這種并行分詞方法也便于設(shè)計成集成電路。1998年,尹峰等人將人工神經(jīng)網(wǎng)絡(luò)技術(shù)
7、應(yīng)用于漢語自動分詞的隱射模型和 性能,著重分析網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法對歧義詞切分的影響,在大量仿真實驗的基礎(chǔ)上,設(shè)計并實現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的漢語自動分詞系統(tǒng)。華中科技大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告第 頁共9頁1999年,黃德根等人提出基于一種最長次長匹配原則的漢語自動分詞算法, 具有較好的分詞效果。隨后于 2010年,在最長次長匹配分詞的基礎(chǔ)上,提出一 種一體化同步詞法分析機制,實現(xiàn)了分詞和詞性標注的一體化、未登錄詞識別與 分詞的一體化以及不確定詞性未登錄詞處理的一體化。2000年,陳桂林等人在介紹了一種高效的支持首字Hash和標準二分查找,且不顯詞條長度的中文電子詞表數(shù)據(jù)后,提出了一種改進的快
8、速分詞算法。在快速查找二字詞的基礎(chǔ)上,利用近鄰匹配方法來查找多字詞,明顯提高了分詞效率。 分析表明,該分詞算法的時間復(fù)雜度為1.66,在速度方面,由于當(dāng)時所見的同類 算法。2002年,李振星等人在對中文編碼體系和中文分詞的算法進行研究的基礎(chǔ) 上,提出了一種新的分詞詞典,并基礎(chǔ)這種分詞設(shè)計了一種快速的分詞算法一一 全二分最大匹配快速分詞算法。2003年,首屆國際中文分詞評測 Bakeoff (國內(nèi)863、973分詞測評)在日 本札幌舉辦,基于字標注的統(tǒng)計學(xué)方法引起人們的廣泛關(guān)注。Bakeoff通過不同標準的分詞語料同臺測試,完成了從“分詞規(guī)范”到“規(guī)范 +詞表”,再從“規(guī)范 +詞表”到“分詞語料
9、庫”的“詞語”的定義過程。后來,經(jīng)過多年的分析與研究,中文分詞技術(shù)逐漸趨于成熟,中文分詞系統(tǒng) 也逐漸被應(yīng)用于中文信息處理的各個領(lǐng)域。以下是自中文分詞技術(shù)被提出以來, 相對成熟的幾個中文分詞系統(tǒng):CDWS分詞系統(tǒng)CDWS分詞系統(tǒng)由北京航空航天大學(xué)于1983年設(shè)計并實現(xiàn),是我國第一個 自動分詞系統(tǒng)。它采用最大正向匹配分詞算法,并結(jié)合尾字構(gòu)詞知識進行糾錯。 切分速度為11-15字/秒。CASS分詞系統(tǒng)CASS分詞系統(tǒng)由北京航空航天大學(xué)于1989年設(shè)計并實現(xiàn)。它采用正向增 字最大匹配分詞算法,包括總控程序、自動分詞、設(shè)施管理、分詞詞典和知識庫 五個部分,并結(jié)合知識庫處理歧義字段。切分速度為200字/秒
10、。SEG/SEGTAG 分詞系統(tǒng)SEG/SEGTAG分詞系統(tǒng)均由清華大學(xué)設(shè)計并實現(xiàn)。其區(qū)別在于 SEG分詞系 統(tǒng)集成了正向、逆向、雙向最大匹配以及全切分等幾種分詞算法,而 SEGTAG 分詞系統(tǒng)則在此基礎(chǔ)上添加了切分標志。分析表明,兩者的切分精度均可達到 99%左右。ICTCLAS分詞系統(tǒng)ICTCLAS分詞系統(tǒng)由中國科學(xué)院設(shè)計并實現(xiàn),它采用層疊隱馬爾可夫模型, 將中文分詞、詞性標注、歧義詞處理和未登錄詞識別等集成到一個完整的系統(tǒng)框 架中,是目前應(yīng)用最廣泛的分詞系統(tǒng)。3課題內(nèi)容隨著人們對中文分詞技術(shù)的不斷研究,各種各樣的中文分詞算法被不斷提出, 評價算法優(yōu)劣的標準也逐漸趨于定式, 對針對中文分詞
11、技術(shù)存在的難點問題, 也 取得了不同程度上的進展。本文首先分析了當(dāng)前中文分詞技術(shù)的研究背景及發(fā)展狀況, 隨后研究了主流 的幾種中文分詞算法及其中文分詞系統(tǒng)性能的評價指標, 并根據(jù)中文分詞的技術(shù) 難點做出詳細介紹,最后將在第 5章節(jié)中提出初步的技術(shù)難點解決方案。主流中文分詞算法簡介目前的中文分詞算法主要分為三大類: 基于字符串匹配的分詞算法、基于統(tǒng) 計的分詞算法與基于理解的分詞算法。(1)基于字符串匹配的分詞算法基于字符串匹配的分詞算法,又稱作機械分詞方法,或基于字典的分詞方法。 該算法按照一定的策略將待切分的漢字用與一個“充分大”的詞庫進行匹配,若 找到某個詞條,則匹配成功。它有三個要素:文本
12、掃描順序、匹配原則和分詞詞 典。文本掃描順序分為正向掃描、逆向掃描和雙向掃描三種。匹配原則分為最大 匹配、最小匹配、最佳匹配和逐詞匹配等。該分詞算法速度較快,但容易產(chǎn)生歧義、也不能解決未登錄詞的問題。最大正向匹配分詞算法假設(shè)詞典最長詞條所含字數(shù)為n,則取被處理文本當(dāng)前字符串序列中的前 n 個字符作為匹配字段,在分詞詞典中進行查找,若找到某個詞條,則匹配成功。若找不到,則匹配失敗,并去掉匹配字段最后一個字,剩下的字符作為新的匹配 字段,再匹配下去,直到匹配成功為止。最大逆向匹配分詞算法基本方法與最大正向匹配分詞算法相同,區(qū)別在于該算法從待切分漢字用的 末尾開始處理,若匹配不成功則去掉最前面的一個
13、漢字。根據(jù)大量測試數(shù)據(jù)統(tǒng)計 結(jié)果表明,單純使用最大正向匹配分詞算法的錯誤率為 1/169,單純使用最大逆 向匹配分詞算法的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配,同時, 在處理歧義字段的精度上,逆向匹配同樣略高于正向匹配?;谏鲜鰞煞N最大匹配算法,產(chǎn)生了一種新的名為雙向匹配的分詞算法, 其 原理為將最大正向匹配分詞算法與最大逆向匹配分詞算法的切分結(jié)果相結(jié)合, 切 分精度相對兩者有了提高。由于其目的著重于歧義字段的檢測與糾錯, 因此能夠 消解部分歧義現(xiàn)象。但執(zhí)行算法時需要進行雙向掃描,時間復(fù)雜度有所增加。最佳匹配分詞算法將詞條按照詞頻大小進行排列,縮短對分詞詞典檢索時間,降低了分詞
14、的時 間復(fù)雜度,提高了分詞速度。這是對分詞詞典的一種組織方式,對分詞精度沒有 影響。由于分詞詞典每個詞條前都有一個詞的長度的數(shù)據(jù)項, 因此空間復(fù)雜度有 所增加。切分標志算法切分標志分為自然切分標志和非自然切分標志。自然切分標志指的是文本中出現(xiàn)的所有非文字符號,如標點符號等。非自然標志指的是利用詞綴和不構(gòu)成詞 的詞,如單音詞、象聲詞等。該算法對分詞精度沒有影響。由于需要額外消耗時 間來掃描切分標志,花費存儲空間來存放非自然切分標志,因此時間復(fù)雜度和空 間復(fù)雜度都有所增加。(2)基于統(tǒng)計的分詞算法基于統(tǒng)計的分詞算法,首先需要采用全切分算法將詞庫中的詞條按照長短順 序進行排列,并以此為基礎(chǔ)搜索待處理
15、的漢字用, 知道把所有可能的詞全部切分 出來。然后綜合運用統(tǒng)計語言模型如 N-gram、互信息、隱馬爾可夫、最大嫡等 對結(jié)果進行判定。該算法需要對已有的訓(xùn)練集或語料庫進行預(yù)處理, 其復(fù)雜度和規(guī)模龐大,并 且由于分詞中存在大量的數(shù)據(jù)概率計算,導(dǎo)致時間復(fù)雜度和空間復(fù)雜度極高。(3)基于理解的分詞算法基于理解的分詞算法,通過分詞的同時進行語義和句法分析, 利用語義信息 和句法信息處理字段歧義。由于該算法需要大量的語言知識和信息,而漢語又具 有籠統(tǒng)和復(fù)雜性的特點,目前仍處于初始實驗階段。專家系統(tǒng)分詞算法從專家系統(tǒng)的角度把分詞過程獨立出來,使知識庫的維護和分詞過程互不干 擾,易于管理和維護。神經(jīng)網(wǎng)絡(luò)分詞
16、算法模擬人腦并行、分布處理和建立數(shù)值計算模型,將分詞知識存入神經(jīng)網(wǎng)絡(luò)內(nèi) 部,通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值,達到分詞效果。專家系統(tǒng)與神經(jīng)網(wǎng)絡(luò)集成分詞算法首先啟動神經(jīng)網(wǎng)絡(luò)進行分詞,當(dāng)切分結(jié)果不準確時,激活專家系統(tǒng)進行分析 判斷,并根據(jù)知識庫進行推理,得到初步分析結(jié)果,再啟動神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機制 進行訓(xùn)練?;谏鲜鋈N分詞算法各有優(yōu)劣,我們認識到,單一的分詞方法很難達到理 想的效果。因此,目前成熟的中文分詞系統(tǒng)都是考慮將集中不同的算法結(jié)合在一 起,或者是用多算法來處理別的問題,以便達到較好的分詞效果。常見中文分詞系統(tǒng)性能評價指標常見的中文分詞系統(tǒng)性能評價指標有:切分精度、切分速度、召回率、準確 率等。
17、(1)切分精度:是中文分詞系統(tǒng)的主要評價指標之一,表明分詞系統(tǒng)的準 確性。計算公式如下所示切分精度=正確切分的詞數(shù)/正確結(jié)果總詞數(shù)X 100%(2)切分速度:是中文分詞系統(tǒng)的主要評價指標之一,表明分詞系統(tǒng)的快 慢行,和切分精度是相對存在的,某一指標的提升將以另一指標的下降為代價。 計算公式如下所示:切分速度二切分結(jié)束時間-切分開始時間(3)召回率:是中文分詞系統(tǒng)中未登錄詞識別的評價標準之一。計算公式 如下所示:召回率=正確識別的新詞總數(shù)/文本中的新詞總數(shù)X100%(4)準確率:是中文分詞系統(tǒng)中未登錄詞識別的評價標準之一,召回率反 映了未登錄詞識別的完整性,準確率反映了未登錄詞識別的準確性。計算
18、公式如 下所示:準確率=正確識別的新詞總數(shù)/識別的新詞總數(shù)X100%中文分詞技術(shù)難點由于中文語義的復(fù)雜性與語法的多變性,中文分詞技術(shù)在研究的過程中,常常遇到許多不同于英文分詞的問題,總結(jié)來說,主要表現(xiàn)為以下四個方面:(1) “詞”是否有清晰的界定:由于中文是由連續(xù)的字構(gòu)成的有序序列,詞 與詞之間并沒有明顯的間隔標記,因此詞的劃分沒有明確的標準。盡管 1998年 國家教委和語委發(fā)布了漢語拼音正詞法基本規(guī)則,并在1992年制定了國家標 準信息處理用現(xiàn)代漢語分詞規(guī)范,但到目前為止仍未有廣泛被認可的詞與分 詞單位非形式化定義。(2)分詞和理解孰先孰后:由于中文文本的理解通常需要結(jié)合上下文,先 分詞或先
19、理解,抑或兩者同時進行,沒有特定的標準。而計算機需要依靠詞的信 息來理解文本內(nèi)容,因此會首先根據(jù)詞標注的各項信息進行分詞,無法做到完全 準確的切分。(3)分詞歧義消解:由于到目前為止仍沒有廣泛被認可分詞標準,詞性概 念模糊,同一文本可能被切分成多種形式的的分詞結(jié)果,將嚴重影響中文分詞的精度。(4)未登錄詞(Out-of-vocabulary, OOV)識別:由于新詞不斷增加,而詞 典的容量有限,更新速度不一定跟得上新詞產(chǎn)生的速度, 因此文本中必然會存在 詞典中沒有收錄的詞,該問題的解決有賴于人們對漢語結(jié)構(gòu)的進一步認識。隨著對中文分詞技術(shù)的研究不斷深入,尤其是 2003年國際中文分詞評測活 動B
20、akeoff開展以來,中文分詞技術(shù)有了可喜的進步。針對上述四個方面的問題, 也有了不同程度的進展:(1)通過“分詞規(guī)范+詞表十分詞語料庫”的方法,使中文詞語在真是文本 中得到可計算的定義,這是實現(xiàn)計算機自動分詞和可比評測的基礎(chǔ)。(2)實踐證明,基于手工規(guī)則的分詞系統(tǒng)在評測中不敵基于統(tǒng)計學(xué)習(xí)的分 詞系統(tǒng)。(3)在Bakeoff數(shù)據(jù)上的估算表明,未登錄詞(OOV)造成的分詞精度失 落至少比分詞歧義大5倍以上。(4)迄今為止的實驗結(jié)果表明,能夠大幅度提高未登錄詞識別性能的字標 注統(tǒng)計學(xué)習(xí)方法由于以往基于此(或詞典)的方法,并使自動分詞系統(tǒng)的精度達 到了新高。4預(yù)期目標(1)在前人的研究基礎(chǔ)上,通過對
21、中文數(shù)據(jù)檢索中的分詞檢索機制進行研 究,并對現(xiàn)有的中文分詞算法進行改進,以期初步實現(xiàn)一種可行的中文分詞技術(shù), 使之具備一定的實用意義與理論價值(2)改進后的中文分詞算法應(yīng)當(dāng)具有較高的分詞精度以及較快的分詞速度 同時,應(yīng)在一定程度上能夠解決分詞歧義及未登錄詞的識別問題。5技術(shù)路線(1)通過基于字符串匹配與基于統(tǒng)計的分詞算法相結(jié)合的方式,實現(xiàn)一種 新的可行的中文分詞算法。(2)采用雙向匹配檢索法、逐詞掃描最大匹配法等檢測歧義字段,并通過 人工規(guī)則及詞概率統(tǒng)計進行分詞歧義消解。(3)采用建立專有詞庫、有窮多層列舉、詞性標注等方法識別未登錄詞6課題研究計劃2013-12-252014-02-142014-02-152014-02-282014-03-012014-03-152014-03-162014-03-312014-04-012014-04-302014-05-012014-06-05查閱相關(guān)資料外文資料翻譯畢業(yè)設(shè)計開題中文分詞檢索機制設(shè)計與分析中文分詞檢索機制實現(xiàn)論文撰寫7參考文獻1黃昌寧,趙海.中文分詞十年回顧.中文信息學(xué)報.2007. 21(3):8-192梁南元.書面漢語自動分詞系統(tǒng)一CDWS.中文信息學(xué)報.1987. 1(2):44-523揭春雨
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 階段述職報告(7篇)
- 德邦物流個人心得體會
- 第二學(xué)期小班家長會發(fā)言稿(11篇)
- 煤礦個人警示教育心得體會5篇
- 總監(jiān)年會獲獎感言300字(3篇)
- 2024年二手奢品項目資金需求報告代可行性研究報告
- DB12 764-2018 鑄鍛工業(yè)大氣污染物排放標準
- 2024-2025學(xué)年河南新高中創(chuàng)新聯(lián)盟TOP二十名校高三上學(xué)期語文試題及答案
- 資產(chǎn)評估學(xué)教程-練習(xí)答案7
- 四年級數(shù)學(xué)(簡便運算)計算題專項練習(xí)與答案
- 送貨單電子模板
- 【圖文】非財務(wù)人員成本管理知識培訓(xùn)
- 專利申請著錄項目變更書
- 4-船閘總體設(shè)計
- 全文《以史為鑒持續(xù)推動美麗中國建設(shè)》PPT
- 《2021國標結(jié)構(gòu)專業(yè)圖集資料》04G410-2 1.5mX6.0m預(yù)應(yīng)力混凝土屋面板(鋼筋混凝土部分)
- 設(shè)計方案——噴漆烘干房
- Humpty兒童跌倒評估量表
- 四邊形的認識課件
- IUPAC命名法(系統(tǒng)命名法)
- 統(tǒng)計學(xué)中的一些基本概念和重要公式
評論
0/150
提交評論