中文信息處理報告[001]

上傳人：h*** IP屬地：天津上傳時間：2022-01-12 格式：DOC 頁數(shù)：9 大?。?69KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、個人資料整理，僅供個人學(xué)習(xí)使用1 / 10電子信息與工程學(xué)院計算機科學(xué)與技術(shù)072337目前，國內(nèi)的每個行業(yè)，領(lǐng)域都在飛速發(fā)展，這中間產(chǎn)生了大量的中文信息資源，為了能夠及時準(zhǔn)確的獲取最新的信息，中文搜索引擎應(yīng)運而生。中文搜索引擎與西文搜索引擎在實現(xiàn)的機制和原理上大致相同，但由于漢語本身的特點，必須引入對于中文語言的處理技術(shù)，而漢語自動分詞技術(shù)就是其中很關(guān)鍵的部分，也是進(jìn)行后續(xù)語義或者是語法分析的基礎(chǔ)。漢語自動分詞到底對搜索引擎有多大影響？對于搜索引擎來說，最重要的并不是找到所有結(jié)果，最重要的是把最相關(guān)的結(jié)果排在最前面，這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否，常常直接影響到對搜索結(jié)果的相關(guān)

2、度排序。分詞準(zhǔn)確性對搜索引擎來說十分重要，但如果分詞速度太慢，即使準(zhǔn)確性再高，對于搜索引擎來說也是不可用的，在In ternet上有上百億可用的公共Web頁面，如果分詞耗用的時間過長，會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對于搜索引擎來說，分詞的準(zhǔn)確性和速度，都需要達(dá)到很高的要求。更具體的說，現(xiàn)在的搜索引擎要達(dá)到下面的三要求，才能適應(yīng)當(dāng)今這樣一個信息爆炸的時代，分別是：數(shù)據(jù)量達(dá)到億，單次查詢毫秒級，每日查詢總數(shù)能支持千萬級。撇開搜索引擎要用到的數(shù)量龐大的服務(wù)器硬件和速度巨快的網(wǎng)絡(luò)環(huán)境不提，就單單說說搜索引擎中軟件部分的三大核心技術(shù)。我個人以為：一個優(yōu)秀的搜索引擎，它必需在下面三個方面的技

3、術(shù)必須是優(yōu) 秀的：中文分詞，網(wǎng)絡(luò)機器人（Spider）和后臺索引結(jié)構(gòu)。而這三方面又是緊密相關(guān)的，想要解決中文分詞問題，就要解決搜索時間和搜索準(zhǔn)確率兩方面的難題。而搜索時間上便是通過網(wǎng)絡(luò)機器人（Spider）和后臺索引結(jié)構(gòu)的改進(jìn)實現(xiàn)的，搜索準(zhǔn)確率則是通過分詞本身算法的求精來實現(xiàn)的。下面的文章將從這兩個大的方面來解決這兩方面的問題。矚慫潤厲釤瘞睞櫪廡賴賃軔。為了能夠更清楚的來說明現(xiàn)在的搜索引擎是如何解決這幾個難題的，首先對搜索引擎的組成及工作原理在這里簡要的說明一下。聞創(chuàng)溝燴鐺險愛氌譴凈禍測。搜索引擎的工作，可以看做三步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁，建立索引數(shù)據(jù)庫，在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓

4、取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序，自動訪問互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁，重復(fù)這過程，并把爬過的所有網(wǎng)頁收集回來。下面是搜索引擎的工作原理圖：殘騖樓諍錈瀨濟(jì)溆塹籟婭驟。中文信息處理報告課題名稱搜索引擎中的關(guān)鍵技術(shù)及解決學(xué)生姓名張志佳完成時間2009年1月3日學(xué)院（系）個人資料整理，僅供個人學(xué)習(xí)使用2 / 10搜索引擎工作原理圖1釅錒極額閉鎮(zhèn)檜豬訣錐顧葒。搜索引擎工作原理圖中的相關(guān)術(shù)語說明如表1:表1術(shù)語解釋說明搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序，日夜不停地運行。索引器索引器的功能是從中抽取出索引項，用于表示文

5、檔以及生成文檔庫的索引表。索引表一般使用某種形式的倒排表，即由索引項查找相應(yīng)的文檔。檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評價，對將要輸出的結(jié)果進(jìn)行排序，并實現(xiàn)某種用戶相關(guān)性反饋機制。排序器由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān) 網(wǎng)頁，只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。一，搜索引擎中的關(guān)鍵技術(shù)介紹在介紹關(guān)于搜索引擎中的分詞技術(shù)是如何解決的，相對搜索引擎中其它的一些關(guān)鍵技術(shù)做一下簡要的介紹，對談一下自己對相關(guān)技術(shù)的一些想法。其實這些技術(shù)和中文分詞技術(shù)是很有關(guān)聯(lián)性的?？赡芙o你一片幾千字的文章，讓你對它進(jìn)行分

6、詞可能你通過編編程序便可以實現(xiàn)，但是搜索引擎要解決的問題是怎樣去處理互聯(lián)網(wǎng)中海量的，且沒有規(guī)則的信息，要解決的問題就不僅僅是簡簡單單的分詞問題了，可以說下面要介紹的一些關(guān)鍵技術(shù)正是分詞技術(shù)的一個基礎(chǔ)，是為分詞建立一個良好的搜索環(huán)境和數(shù)據(jù)結(jié)構(gòu)。彈貿(mào)攝爾霽斃攬磚鹵廡詒爾。1,網(wǎng)絡(luò)機器人（Spider）的設(shè)計為了保證搜索到的信息的實時性與相關(guān)性，就要保證在互聯(lián)網(wǎng)上面搜到的網(wǎng)頁獲取的很及時。并且對于互聯(lián)網(wǎng)上面現(xiàn)在已經(jīng)有幾十億的網(wǎng)頁進(jìn)行處理，必然要選擇一種很好的方法才可以。搜索引擎是通過兩種方式來獲得互聯(lián)網(wǎng)上面的Web頁面的，一種是定期（比如Google一般是28天）派出Spider（蜘蛛）程序，抓取

7、網(wǎng)絡(luò)上面的新頁面，將相關(guān)的信息記錄在數(shù) 據(jù)庫中。另一種方式是網(wǎng)站的擁有者向搜索引擎提交網(wǎng)址信息，同樣將相關(guān)的信息記錄到數(shù)過f冷-濾- 器SpiderSpiderSpider網(wǎng)絡(luò)字典索引器PageRank后向索引前向索引排序器信息數(shù)據(jù)庫信息數(shù)據(jù)庫輸出 u檢索器信息數(shù)據(jù)庫個人資料整理，僅供個人學(xué)習(xí)使用3 / 10據(jù)庫中。謀蕎摶篋飆鐸懟類蔣薔點鉍。而上面所說的Spider（蜘蛛）程序，是一種專業(yè)的Bot程序，是一個功能很強的Web掃描程序。它可以在掃描Web頁面的同時，檢索相應(yīng)的超鏈接并加入掃描隊列等待以后的掃描。我們知道網(wǎng)絡(luò)上面的超鏈接的使用是很普遍的，因此一個Spider程序理論上可以掃描互聯(lián)網(wǎng)

8、上的所有頁面。比如搜索巨頭Google公司，就利用網(wǎng)絡(luò)機器人程序來遍歷Web站點，并實時的更新已經(jīng)建立的數(shù)據(jù)庫。從中我們也不難看出，一個網(wǎng)頁抓取程序（即Spider）設(shè)計的好壞對搜索引擎的性能的影響是很大的。廈礴懇蹣駢時盡繼價騷巹癩。Spider程序結(jié)構(gòu)網(wǎng)絡(luò)機器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁，所以必須找到該頁面上的超連接。程序首先解析網(wǎng)頁的HTML代碼，查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn)Spider程序。非遞歸結(jié)構(gòu)方法使用隊列的數(shù)據(jù)結(jié)構(gòu)，當(dāng)Spider程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。當(dāng)Spider程序掃描完當(dāng)前頁面后會根據(jù)制定的策略訪問隊列中

9、的下一個超連接地址。煢楨廣鰳鯡選塊網(wǎng)羈淚鍍齊。雖然這里只描述了一個隊列，但在實際編程中用到了四個隊列，他們每個隊列都保存著同一處理狀態(tài)的URL。等待隊列：在這個隊列中，URL等待被Spider程序處理。新發(fā)現(xiàn)的URL也被加入到這個隊列中。處理隊列：當(dāng)Spider程序開始處理時，他們被送到這個隊列中。錯誤隊列：如果在解析網(wǎng)頁時出錯，URL將被送到這里。該隊列中的URL不能被移入其他隊列中。完成隊列：如果解析網(wǎng)頁沒有出錯，URL將被送到這里。該隊列中的URL不能被移入其它隊列中。Spider程序的非遞歸處理過程以上的圖表示了隊列的變化過程，在這個過程中，當(dāng)一個URL被加入到等待隊列中時Spider

10、程序就會開始運行。只要等待隊列中有一個網(wǎng)頁或Spider程序正在處理一個網(wǎng)頁，程序就會繼續(xù)他的工作。當(dāng)?shù)却犃袨榭詹⑶耶?dāng)前沒有任何網(wǎng)頁時，Spider程序就會停止它的工作。鵝婭盡損鵪慘歷蘢鴛賴縈詰。等待隊列處理隊列錯誤隊列完成隊列個人資料整理，僅供個人學(xué)習(xí)使用4 / 102,索引數(shù)據(jù)庫設(shè)計技術(shù)大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)幾十億的網(wǎng)頁索引，數(shù)據(jù)量達(dá)到幾千個G甚至幾萬個G。為了充分的為后面考慮在后面查詢中能夠跟快捷，更準(zhǔn)確。搜索引擎在分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析，提取相關(guān)網(wǎng)頁信息，根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計算，得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度，然

11、后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶?；[叢媽羥為贍債蟶練淨(jìng)櫧撻。3，網(wǎng)頁評級(PageRank，HillTop)技術(shù)由于互聯(lián)網(wǎng)上面的Web頁面的數(shù)據(jù)量大，用傳統(tǒng)的方法來確定檢索表達(dá)式和網(wǎng)頁的相關(guān)度會花太多的時間，不能夠滿足用戶的需求。采用網(wǎng)頁評級技術(shù)可以保證系統(tǒng)能夠快速的反應(yīng)，并把重要的的網(wǎng)頁返回給用戶。預(yù)頌圣鉉儐歲齦訝驊糴

12、買闥。Google每天要處理的網(wǎng)頁高達(dá)2億次，占全球的搜索量的1/3。Google卻能夠提供快速的搜索速度和高命中率搜索結(jié)果，完全取決于它所使用的復(fù)雜的文本匹配算法及其搜索程序所使用的Pagerank技術(shù)。Pagerank技術(shù)是用來計算頁面的重要性，對于每一個鏈入賦予不同的權(quán)值，鏈接提供的頁面越重則此鏈入權(quán)值就越高，也就是說當(dāng)前頁面的重要程度是由其他的頁面來決定的。下面是PageRa nk的算法：滲釤嗆儼勻諤鱉調(diào)硯錦鋇絨。PR(A)二(1 _d) d(PR(T1)/C(T1)PR(Tn)/C(Tn)nPR(Ti)=(1 -d) dz C(Ti)其中，PR(A)是頁面A的級別，PR(Ti)是

13、頁面Ti的級別，頁面Ti鏈向頁面A，C(Ti)是頁面Ti鏈出的鏈接數(shù)量，d是阻尼系數(shù)，取值在01之間。鐃誅臥瀉噦圣騁貺頂廡縫勵。從這個公式，我們可以直觀的描述：一個來自PageRank 3擁有7個外向鏈接頁面上的鏈接，要比一個PageRank9擁有200個外向鏈接頁面上的鏈接，更有價值。鏈接到你網(wǎng)頁的頁面的PageRank非常重要，不過其頁面上鏈接的個數(shù)同樣重要。一個網(wǎng)頁上的鏈接數(shù)越多，你所能夠從這個網(wǎng)頁獲取的價值就越少。擁締鳳襪備訊顎輪爛薔報贏。從上面的式子可以看出來，當(dāng)要計算某個頁面的網(wǎng)頁級數(shù)時，由于互聯(lián)網(wǎng)上面的頁面幾乎都是可以相互鏈接的，因此要得到某一個頁面的網(wǎng)頁級數(shù)，就要即一個超大

14、維數(shù)的方程組。這對于現(xiàn)在的計算機的性能來說，完全是不現(xiàn)實的。Google采用的是一種近似的迭代方法來計算網(wǎng)頁的級別，也就是先給每一個網(wǎng)頁一個初值，然后在調(diào)用上面的公式，循環(huán)進(jìn)行運算來得到網(wǎng)頁的級別。根據(jù)研究實際要進(jìn)行100次的迭代才能得到整個互聯(lián)網(wǎng)滿意的頁面級別值。不過前面已經(jīng)說過搜索引擎在獲取網(wǎng)頁時是定期的，所以總的來說這種方法在現(xiàn)在的Web搜索來說還算可以。贓熱俁閫歲匱閶鄴鎵騷鯛漢。下面的一種圖片便是用Pagerank算法來進(jìn)行對網(wǎng)頁評級的一個結(jié)果。從中我們也不難發(fā)現(xiàn)像Google這樣的大型熱門網(wǎng)站獲得網(wǎng)頁級別是處在金字塔的頂端的，Swingline等網(wǎng)站獲得的網(wǎng)頁級別就比較低。壇搏鄉(xiāng)囂

15、懺蔞鍥鈴氈淚躋馱。個人資料整理，僅供個人學(xué)習(xí)使用5 / 10眄Eliteji Average動E? Betaw Average圖1 Pagera nk算法對網(wǎng)頁評級的結(jié)果但是這種方法也并不是完善的，當(dāng)你仔細(xì)的思考一下，就會發(fā)現(xiàn)，在互聯(lián)網(wǎng)中, 百度這樣的熱門網(wǎng)站中，會在很多的網(wǎng)站中都有鏈接。但你在查詢框中查詢有很多這樣不相關(guān)的網(wǎng)頁指向它，從而得到較高的級別。而事實上他們與而對于這種特俗的情況，我們可以在上面的計算公式中添加一些限制因素，的出現(xiàn)。比如在計算是可以將鏈入的的網(wǎng)頁的內(nèi)容和本網(wǎng)頁進(jìn)行匹配一下，決定這種鏈入是否有效。蠟變黲癟報倀鉉錨鈰贅籜葦。通過對由超過50，000萬個變量和2

16、0億個詞匯組成的方程進(jìn)行計算，的重要性做出客觀的評價。使得在對互聯(lián)網(wǎng)中海量的Web網(wǎng)頁的搜索節(jié)省了時間，同時也使得搜索的結(jié)果更接近用戶的期望值。買鯛鴯譖曇膚遙閆擷凄屆嬌。從上面的分析中我們也看到Pagerank算法仍然存在著不足。近幾年來也有一些新的排名算法出現(xiàn)，比如HillTop算法，它集成了Pagerank, HITS，相關(guān)性算法的優(yōu)點于一身，是Google核心排名算法之一。綾鏑鯛駕櫬鶘蹤韋轔糴飆銃。HillTop算法是一種查詢相關(guān)性鏈接的分析算法，它克服了的Pagerank的查詢無關(guān)性的缺點。簡單的說HillTop算法是針對熱門查詢詞來對Web網(wǎng)頁進(jìn)行重新排序的技術(shù)。而只針對熱門關(guān)鍵詞，

17、是因為HillTop算法運行效率較比較低的限制。我們可以看到HillTop算法通過不同等級的評分確保了評價結(jié)果對關(guān)鍵詞的相關(guān)性，通過不同位置的評分確保了主題的相關(guān) 性，通過可區(qū)分短語數(shù)量防止了關(guān)鍵詞的堆砌。驅(qū)躓髏彥浹綏譎飴憂錦諑瓊。在HillTop算法中存在著一種博弈的思想，在鏈接方面同類型的網(wǎng)站時，既需要競爭又需要合作，只有被對方認(rèn)可”的網(wǎng)站，對熱門關(guān)鍵關(guān)鍵詞的查詢才會被排在搜索結(jié)果的前面。HillTop使得那些小的網(wǎng)站不能夠在此便處于劣勢，除非你對熱門關(guān)鍵詞能夠提前預(yù)知出來，然而即使預(yù)制出來了，這種持續(xù)也會很短。貓蠆驢繪燈鮒誅髏貺廡獻(xiàn)鵬。右E.comGeneral MlliIs-MmP

18、ageRa nk能夠?qū)W(wǎng)頁Google，籃球”時，就會籃球”不太相關(guān)，來避免這種情況根據(jù)相關(guān)程度來Google PageRank Explainedswlnaim*.caimlKotIM蠱)歲個人資料整理，僅供個人學(xué)習(xí)使用6 / 104，后臺索引結(jié)構(gòu)：其實后臺索引結(jié)構(gòu)和中文分詞的算法性能的提高是很有幫助的，采用什么樣的中文分詞，那后面的索引也會受其影響的。整體的后臺索引結(jié)構(gòu)的基本思想就是：把查詢結(jié)果預(yù)先給運算出來。當(dāng)然這些運算出來的結(jié)果全部放到內(nèi)存中，那樣查詢是最快的，但內(nèi)存總量畢竟是有限的。所以肯定必須有大批量數(shù)據(jù)是放在硬盤中去。對于那些搜索高頻詞的結(jié)果就放在內(nèi)存中，低頻詞的結(jié)果當(dāng)然就放在

19、硬盤上。但是，一些低頻詞可能會馬上變成高頻詞。但是說是這樣說，具體實現(xiàn)起來其實并不簡單，本學(xué)期我正好也在上操作系統(tǒng)的課程，設(shè)計操作系統(tǒng)個人資料整理，僅供個人學(xué)習(xí)使用7 / 10中所用到的緩存技術(shù)，是可以解決此問題的。下面我大略的說一下我的思路：為了使CPU和外圍設(shè)備能夠并行的運行，在CPU和外圍設(shè)備之間設(shè)置一個高速緩沖區(qū)。當(dāng)內(nèi)存因空間不足，又有詞匯需要調(diào)進(jìn)內(nèi)存時，就要將一些詞匯淘汰出內(nèi)存，而選擇的時候是選擇那些在最近的一段時間內(nèi)使用頻數(shù)比較低的詞匯。但調(diào)出內(nèi)存時，并不是將它們立刻的調(diào)到硬盤上，為了避免在以后這些詞匯變?yōu)楦哳l詞匯時，再次調(diào)到內(nèi)存中比較浪費時間，采取的策略是將它們先送到緩沖區(qū)上面

20、。這樣就在很大程度上面保證了搜索時間的快捷性。當(dāng)然這只是大略的說一下。鍬籟饗逕瑣筆襖鷗婭薔嗚訝。5，有關(guān)分詞的解決方案：互聯(lián)網(wǎng)上面的數(shù)據(jù)都是以HTML等超文本的形式組織，是一種半結(jié)構(gòu)化的數(shù)據(jù)，結(jié)構(gòu)化比較差，這就為分詞帶來了極大的困難，但由于篇幅的原因，再此我就不對此方面做詳細(xì)的介紹了，下面主要是對搜索引擎中的分詞技術(shù)做一下介紹。下面的一張流程圖便是中文分詞的一個主要流程，這種分詞是基于有詞典的一種分詞，并且能夠通過分詞來不斷的學(xué)習(xí)，豐富自己的詞庫內(nèi)容與消歧能力。構(gòu)氽頑黌碩飩薺齦話騖門戲。詞典初始化輸入分詞文本文本的結(jié)構(gòu)化處理査找分詞（粗y- p中文詞典it消歧與識別未登錄詞|-更新詞典IJ

21、保存結(jié)果在這種基于有詞典的分詞中詞典的構(gòu)建是很關(guān)鍵的，他不但對分詞的速度有關(guān)鍵的影響，也會對分詞的正確性帶來必然的影響。下面是一種詞典的組織結(jié)構(gòu)，它將兩字詞，三字詞和多字詞進(jìn)行分開存取，有很多好處，我想主要是考慮到短字字詞的搜索頻率要比多字詞的高，這對提高很有好處；另一方面我覺得這樣存儲會跟節(jié)省空間，因為長度都相同，而且詞典室采用索引的方式建立的。這樣就可以再分配空間，增加詞匯時，就能夠最大程度的節(jié)省空間。在詞典中我們還會看到一項關(guān)于詞頻的項。增加這項，主要是為了解決歧義問題，提高分詞的命中率。輒嶧陽檉籪癤網(wǎng)儂號澩蠐鑭。表4詞典的組織結(jié)構(gòu)詞索引表結(jié)構(gòu)1字 K 的結(jié)構(gòu).字 N 的結(jié)

23、分詞問題”只是由于各種語言的不同，分詞時，所遇到的困難，問題也就不一樣。由于漢字是象形文字，它是以字為單位的，而英文是以此為單位的。并且中文在字與字之間也沒有明顯的切分標(biāo)志，漢語的詞序又極為靈活，相應(yīng)的語法限制也比較少。上述的種種原因就造成了中文在分詞上面遇到的問將會多一些。識饒鎂錕縊灩筧嚌儼淒儂減。下面先對現(xiàn)在比較流行的主流分詞技術(shù)做一個簡要的介紹，然后在說一下搜索引擎中的分詞技術(shù)應(yīng)該做和改動，才更符合實際?，F(xiàn)在比較流行的分詞技術(shù)有三大類，分別是機械分詞方法，基于理解的分詞方法和基于統(tǒng)計的分詞方法。凍鈹鋨勞臘錯癇婦脛糴鈹賄。機械分詞方法這種算法所采用的分詞策略都是固定的，也就是當(dāng)其他條件不

24、變時，對于同一篇文章的分詞結(jié)果應(yīng)該是相同的。并且這種分詞方法需要有一個很大的詞典，來進(jìn)行詞的匹配。若在詞典中找到某個字符串，則匹配成功，同時也就劃分出來一個詞，否則失敗。依照掃描方向的不同，這種分詞方法可以分為正向最大匹配和逆向最大匹配，臨近匹配，最短路徑匹配算法等。分詞的具體方法可以參見中文信息處理的原理與應(yīng)用，這本書上各種算法都比較簡單，很容易理解。在此就不詳細(xì)的介紹了。恥諤銪滅縈歡煬鞏鶩錦聰櫻。機械分詞方法的實現(xiàn)比較簡單，但分詞的正確率是受字典大小的影響。也就是它的正確率和詞典的大小成正比。但是如果將詞典做的很大。分詞的速度必將受到很大的影響。而且這種算法對新詞的判斷就無能為

25、力了。當(dāng)然可以針對某一相關(guān)專業(yè)，建立一個針對性的詞典，然而這種改善只是表面的。令一種困難就是分詞歧義，當(dāng)然這也是所有的分詞算法都面臨的困難，如何解決好，對于搜索引擎的設(shè)計來說，也必將產(chǎn)生積極的作用。鯊腎鑰詘褳鉀溈懼統(tǒng)庫搖飭。為了能那個更好的進(jìn)行分詞處理。可以對上述的算法做一些改進(jìn)，比如優(yōu)先在待剖析字符串中識別和切分出一些帶有顯明特點的詞，以這些詞作為斷點，可將原字符串分為較小的串再來進(jìn)機械分詞，從而減少匹配的錯誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來，利用豐盛的詞類信息對分詞決策供給輔助，并且在標(biāo)注進(jìn)程中又反過來對分詞結(jié)果進(jìn)行檢驗、調(diào)劑，從而極大地進(jìn)步切分的準(zhǔn)確率。碩癘鄴頏謅攆檸攜驤蘞

26、鷥膠?；诶斫獾姆衷~方法這種分詞方式是通過讓計算機來模仿人對句子的理解，到達(dá)識別詞的效果。其基礎(chǔ)思想是在分詞的同時，還進(jìn)行句法、語義剖析，應(yīng)用句法信息和語義信息來處理分詞過程中遇到的歧義現(xiàn)象。看上去這種方法能夠解決歧義問題，應(yīng)該還不錯。但事實上，這種分詞方法要涉及到大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、龐雜性，難以將各種語言信息組織成機器可直接讀取的信息，因此目前基于理解的分詞系統(tǒng)還處在實驗階段。閿擻輳嬪諫遷擇植秘騖輛塤?；诮y(tǒng)計的分詞方法在實際應(yīng)用中，我們可以根據(jù)幾個字相鄰概率的高低，來判斷它是否可以構(gòu)成一個詞。相鄰的字同時呈現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反應(yīng)成詞的可信度。我們可以從這一點出發(fā)來對文章進(jìn)行分詞。我們可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計，計算它們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)個人資料整理，僅供個人學(xué)習(xí)使用9 / 10合關(guān)系的緊密水平。當(dāng)緊密水平高于某一個閾值時，便可認(rèn)為此字組可

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文信息處理報告[001]

文檔簡介

溫馨提示

最新文檔

評論

中文信息處理報告[001]

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔