中文信息處理報告[001]_第1頁
中文信息處理報告[001]_第2頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、個人資料整理,僅供個人學(xué)習(xí)使用1 / 10電子信息與工程學(xué)院計算機科學(xué)與技術(shù)072337目前,國內(nèi)的每個行業(yè),領(lǐng)域都在飛速發(fā)展, 這中間產(chǎn)生了大量的中文信息資源,為了能夠及時準(zhǔn)確的獲取最新的信息,中文搜索引擎應(yīng)運而生。中文搜索引擎與西文搜索引擎在實現(xiàn)的機制和原理上大致相同,但由于漢語本身的特點,必須引入對于中文語言的處理技術(shù),而漢語自動分詞技術(shù)就是其中很關(guān)鍵的部分,也是進(jìn)行后續(xù)語義或者是語法分析的基礎(chǔ)。漢語自動分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結(jié)果,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。 中文分詞的準(zhǔn)確與否, 常常直接影響到對搜索結(jié)果的相關(guān)

2、度排序。分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,在In ternet上有上百億可用的公共Web頁面,如果分詞耗用的時間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對 于搜索引擎來說,分詞的準(zhǔn)確性和速度,都需要達(dá)到很高的要求。更具體的說,現(xiàn)在的搜索引擎要達(dá)到下面的三要求,才能適應(yīng)當(dāng)今這樣一個信息爆炸的時代,分別是:數(shù)據(jù)量達(dá)到億, 單次查詢毫秒級,每日查詢總數(shù)能支持千萬級。撇開搜索引擎要用 到的數(shù)量龐大的服務(wù)器硬件和速度巨快的網(wǎng)絡(luò)環(huán)境不提,就單單說說搜索引擎中軟件部分的三大核心技術(shù)。我個人以為:一個優(yōu)秀的搜索引擎,它必需在下面三個方面的技

3、術(shù)必須是優(yōu) 秀的:中文分詞,網(wǎng)絡(luò)機器人(Spider)和后臺索引結(jié)構(gòu)。而這三方面又是緊密相關(guān)的,想 要解決中文分詞問題,就要解決搜索時間和搜索準(zhǔn)確率兩方面的難題。而搜索時間上便是通過網(wǎng)絡(luò)機器人(Spider)和后臺索引結(jié)構(gòu)的改進(jìn)實現(xiàn)的,搜索準(zhǔn)確率則是通過分詞本身算法 的求精來實現(xiàn)的。下面的文章將從這兩個大的方面來解決這兩方面的問題。矚慫潤厲釤瘞睞櫪廡賴賃軔。為了能夠更清楚的來說明現(xiàn)在的搜索引擎是如何解決這幾個難題的,首先對搜索引擎的組成及工作原理在這里簡要的說明一下。聞創(chuàng)溝燴鐺險愛氌譴凈禍測。搜索引擎的工作,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁,建立索引數(shù)據(jù)庫,在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓

4、取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。下面是搜索引擎的工作原理圖:殘騖樓諍錈瀨濟(jì)溆塹籟婭驟。中文信息處理報告課題名稱搜索引擎中的關(guān)鍵技術(shù)及解決學(xué)生姓名張志佳完成時間2009年1月3日學(xué)院(系)個人資料整理,僅供個人學(xué)習(xí)使用2 / 10搜索引擎工作原理圖1釅錒極額閉鎮(zhèn)檜豬訣錐顧葒。搜索引擎工作原理圖中的相關(guān)術(shù)語說明如表1:表1術(shù)語解釋說明搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個 計算機程序,日夜不停地運行。索引器索引器的功能是從中抽取出索引項,用于表示文

5、檔以及生成文檔庫 的索引表。索引表一般使用某種形式的倒排表,即由索引項查找相 應(yīng)的文檔。檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文 檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實現(xiàn)某種 用戶相關(guān)性反饋機制。排序器由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān) 網(wǎng)頁,只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。一,搜索引擎中的關(guān)鍵技術(shù)介紹在介紹關(guān)于搜索引擎中的分詞技術(shù)是如何解決的,相對搜索引擎中其它的一些關(guān)鍵技術(shù)做一下簡要的介紹,對談一下自己對相關(guān)技術(shù)的一些想法。其實這些技術(shù)和中文分詞技術(shù)是很有關(guān)聯(lián)性的??赡芙o你一片幾千字的文章, 讓你對它進(jìn)行分

6、詞可能你通過編編程序便可以實現(xiàn), 但是搜索引擎要解決的問題是怎樣去處理互聯(lián)網(wǎng)中海量的,且沒有規(guī)則的信息,要解決的問題就不僅僅是簡簡單單的分詞問題了,可以說下面要介紹的一些關(guān)鍵技術(shù)正是分詞技術(shù)的一個基礎(chǔ),是為分詞建立一個良好的搜索環(huán)境和數(shù)據(jù)結(jié)構(gòu)。彈貿(mào)攝爾霽斃攬磚鹵廡詒爾。1,網(wǎng)絡(luò)機器人(Spider)的設(shè)計為了保證搜索到的信息的實時性與相關(guān)性,就要保證在互聯(lián)網(wǎng)上面搜到的網(wǎng)頁獲取的很及時。并且對于互聯(lián)網(wǎng)上面現(xiàn)在已經(jīng)有幾十億的網(wǎng)頁進(jìn)行處理,必然要選擇一種很好的方法才可以。搜索引擎是通過兩種方式來獲得互聯(lián)網(wǎng)上面的Web頁面的,一種是定期(比如Google一般是28天)派出Spider(蜘蛛)程序,抓取

7、網(wǎng)絡(luò)上面的新頁面,將相關(guān)的信息記錄在數(shù) 據(jù)庫中。另一種方式是網(wǎng)站的擁有者向搜索引擎提交網(wǎng)址信息,同樣將相關(guān)的信息記錄到數(shù)過f冷-濾- 器SpiderSpiderSpider網(wǎng)絡(luò)字典索引器PageRank后向索引前向索引排序器信息數(shù)據(jù)庫信息數(shù)據(jù)庫輸出 u檢索器信息數(shù)據(jù)庫個人資料整理,僅供個人學(xué)習(xí)使用3 / 10據(jù)庫中。謀蕎摶篋飆鐸懟類蔣薔點鉍。而上面所說的Spider(蜘蛛)程序,是一種專業(yè)的Bot程序,是一個功能很強的Web掃描程序。它可以在掃描Web頁面的同時,檢索相應(yīng)的超鏈接并加入掃描隊列等待以后的掃描。我們知道網(wǎng)絡(luò)上面的超鏈接的使用是很普遍的,因此一個Spider程序理論上可以掃描互聯(lián)網(wǎng)

8、上的所有頁面。比如搜索巨頭Google公司,就利用網(wǎng)絡(luò)機器人程序來遍歷Web站點,并實時的更新已經(jīng)建立的數(shù)據(jù)庫。從中我們也不難看出,一個網(wǎng)頁抓取程序(即Spider)設(shè)計的好壞對搜索引擎的性能的影響是很大的。廈礴懇蹣駢時盡繼價騷巹癩。Spider程序結(jié)構(gòu)網(wǎng)絡(luò)機器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁,所以必須找到該頁面上的超連接。程序首先解析網(wǎng)頁的HTML代碼,查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn)Spider程序。非遞歸結(jié)構(gòu)方法使用隊列的數(shù)據(jù)結(jié)構(gòu),當(dāng)Spider程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。當(dāng)Spider程序掃描完當(dāng)前頁面后會根據(jù)制定的策略訪問隊列中

9、的下一個超連接地址。煢楨廣鰳鯡選塊網(wǎng)羈淚鍍齊。雖然這里只描述了一個隊列,但在實際編程中用到了四個隊列,他們每個隊列都保存著同一處理狀態(tài)的URL。等待隊列:在這個隊列中,URL等待被Spider程序處理。新發(fā)現(xiàn)的URL也被加入到這個隊列中。處理隊列:當(dāng)Spider程序開始處理時,他們被送到這個隊列中。錯誤隊列:如果在解析網(wǎng)頁時出錯,URL將被送到這里。該隊列中的URL不能被移入其他隊列中。完成隊列:如果解析網(wǎng)頁沒有出錯,URL將被送到這里。該隊列中的URL不能被移入其它隊列中。Spider程序的非遞歸處理過程以上的圖表示了隊列的變化過程,在這個過程中,當(dāng)一個URL被加入到等待隊列中時Spider

10、程序就會開始運行。只要等待隊列中有一個網(wǎng)頁或Spider程序正在處理一個網(wǎng)頁,程序就會繼續(xù)他的工作。當(dāng)?shù)却犃袨榭詹⑶耶?dāng)前沒有任何網(wǎng)頁時,Spider程序就會停止它的工作。鵝婭盡損鵪慘歷蘢鴛賴縈詰。等待隊列處理隊列錯誤隊列完成隊列個人資料整理,僅供個人學(xué)習(xí)使用4 / 102,索引數(shù)據(jù)庫設(shè)計技術(shù)大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)幾十億的網(wǎng)頁索引,數(shù)據(jù)量達(dá)到幾千個G甚至幾萬個G。為了充分的為后面考慮在后面查詢中能夠跟快捷,更準(zhǔn)確。搜索引擎在分析索引系統(tǒng)程 序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計 算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度,然

11、后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶?;[叢媽羥為贍債蟶練淨(jìng)櫧撻。3,網(wǎng)頁評級(PageRank,HillTop)技術(shù)由于互聯(lián)網(wǎng)上面的Web頁面的數(shù)據(jù)量大,用傳統(tǒng)的方法來確定檢索表達(dá)式和網(wǎng)頁的相關(guān)度 會花太多的時間,不能夠滿足用戶的需求。采用網(wǎng)頁評級技術(shù)可以保證系統(tǒng)能夠快速的反應(yīng), 并把重要的的網(wǎng)頁返回給用戶。預(yù)頌圣鉉儐歲齦訝驊糴

12、買闥。Google每天要處理的網(wǎng)頁高達(dá)2億次,占全球的搜索量的1/3。Google卻能夠提供快速的搜索速度和高命中率搜索結(jié)果,完全取決于它所使用的復(fù)雜的文本匹配算法及其搜索程序所使 用的Pagerank技術(shù)。Pagerank技術(shù)是用來計算頁面的重要性,對于每一個鏈入賦予不同的 權(quán)值,鏈接提供的頁面越重則此鏈入權(quán)值就越高,也就是說當(dāng)前頁面的重要程度是由其他的頁面來決定的。下面是PageRa nk的算法:滲釤嗆儼勻諤鱉調(diào)硯錦鋇絨。PR(A)二(1 _d) d(PR(T1)/C(T1)PR(Tn)/C(Tn)nPR(Ti)=(1 -d) dz C(Ti)其中,PR(A)是頁面A的級別,PR(Ti)是

13、頁面Ti的級別,頁面Ti鏈向頁面A,C(Ti)是頁面Ti鏈出的鏈接數(shù)量,d是阻尼系數(shù),取值在01之間。鐃誅臥瀉噦圣騁貺頂廡縫勵。從這個公式,我們可以直觀的描述:一個來自PageRank 3擁有7個外向鏈接頁面上的鏈接,要比一個PageRank9擁有200個外向鏈接頁面上的鏈接,更有價值。鏈接到你網(wǎng)頁的頁面 的PageRank非常重要,不過其頁面上鏈接的個數(shù)同樣重要。一個網(wǎng)頁上的鏈接數(shù)越多,你 所能夠從這個網(wǎng)頁獲取的價值就越少。擁締鳳襪備訊顎輪爛薔報贏。從上面的式子可以看出來,當(dāng)要計算某個頁面的網(wǎng)頁級數(shù)時,由于互聯(lián)網(wǎng)上面的頁面幾乎都是可以相互鏈接的,因此要得到某一個頁面的網(wǎng)頁級數(shù),就要即一個超大

14、維數(shù)的方程組。這對于現(xiàn)在的計算機的性能來說,完全是不現(xiàn)實的。Google采用的是一種近似的迭代方法來計算網(wǎng)頁的級別,也就是先給每一個網(wǎng)頁一個初值,然后在調(diào)用上面的公式,循環(huán)進(jìn)行運算來得到網(wǎng)頁的級別。根據(jù)研究實際要進(jìn)行100次的迭代才能得到整個互聯(lián)網(wǎng)滿意的頁面級別 值。不過前面已經(jīng)說過搜索引擎在獲取網(wǎng)頁時是定期的,所以總的來說這種方法在現(xiàn)在的Web搜索來說還算可以。贓熱俁閫歲匱閶鄴鎵騷鯛漢。下面的一種圖片便是用Pagerank算法來進(jìn)行對網(wǎng)頁評級的一個結(jié)果。從中我們也不難發(fā)現(xiàn)像Google這樣的大型熱門網(wǎng)站獲得網(wǎng)頁級別是處在金字塔的頂端的,Swingline等網(wǎng)站獲得的網(wǎng)頁級別就比較低。壇搏鄉(xiāng)囂

15、懺蔞鍥鈴氈淚躋馱。個人資料整理,僅供個人學(xué)習(xí)使用5 / 10眄Eliteji Average動E? Betaw Average圖1 Pagera nk算法對網(wǎng)頁評級的結(jié)果但是這種方法也并不是完善的,當(dāng)你仔細(xì)的思考一下,就會發(fā)現(xiàn),在互聯(lián)網(wǎng)中, 百度這樣的熱門網(wǎng)站中, 會在很多的網(wǎng)站中都有鏈接。但你在查詢框中查詢 有很多這樣不相關(guān)的網(wǎng)頁指向它,從而得到較高的級別。而事實上他們與 而對于這種特俗的情況, 我們可以在上面的計算公式中添加一些限制因素, 的出現(xiàn)。比如在計算是可以將鏈入的的網(wǎng)頁的內(nèi)容和本網(wǎng)頁進(jìn)行匹配一下, 決定這種鏈入是否有效。蠟變黲癟報倀鉉錨鈰贅籜葦。通過對由超過50,000萬個變量和2

16、0億個詞匯組成的方程進(jìn)行計算,的重要性做出客觀的評價。使得在對互聯(lián)網(wǎng)中海量的Web網(wǎng)頁的搜索節(jié)省了時間,同時也使得搜索的結(jié)果更接近用戶的期望值。買鯛鴯譖曇膚遙閆擷凄屆嬌。從上面的分析中我們也看到Pagerank算法仍然存在著不足。近幾年來也有一些新的排名算法出現(xiàn),比如HillTop算法,它集成了Pagerank, HITS,相關(guān)性算法的優(yōu)點于一身,是Google核心排名算法之一。綾鏑鯛駕櫬鶘蹤韋轔糴飆銃。HillTop算法是一種查詢相關(guān)性鏈接的分析算法,它克服了的Pagerank的查詢無關(guān)性的缺點。簡單的說HillTop算法是針對熱門查詢詞來對Web網(wǎng)頁進(jìn)行重新排序的技術(shù)。而只針對熱門關(guān)鍵詞,

17、是因為HillTop算法運行效率較比較低的限制。我們可以看到HillTop算法通過不 同等級的評分確保了評價結(jié)果對關(guān)鍵詞的相關(guān)性,通過不同位置的評分確保了主題的相關(guān) 性,通過可區(qū)分短語數(shù)量防止了關(guān)鍵詞的堆砌。驅(qū)躓髏彥浹綏譎飴憂錦諑瓊。在HillTop算法中存在著一種博弈的思想,在鏈接方面同類型的網(wǎng)站時,既需要競爭又需要 合作,只有被對方認(rèn)可”的網(wǎng)站,對熱門關(guān)鍵關(guān)鍵詞的查詢才會被排在搜索結(jié)果的前面。HillTop使得那些小的網(wǎng)站不能夠在此便處于劣勢,除非你對熱門關(guān)鍵詞能夠提前預(yù)知出來,然而即使預(yù)制出來了,這種持續(xù)也會很短。貓蠆驢繪燈鮒誅髏貺廡獻(xiàn)鵬。右E.comGeneral MlliIs-MmP

18、ageRa nk能夠?qū)W(wǎng)頁Google,籃球”時,就會籃球”不太相關(guān),來避免這種情況 根據(jù)相關(guān)程度來Google PageRank Explainedswlnaim*.caimlKotIM蠱)歲個人資料整理,僅供個人學(xué)習(xí)使用6 / 104,后臺索引結(jié)構(gòu):其實后臺索引結(jié)構(gòu)和中文分詞的算法性能的提高是很有幫助的,采用什么樣的中文分詞,那后面的索引也會受其影響的。整體的后臺索引結(jié)構(gòu)的基本思想就是:把查詢結(jié)果預(yù)先給運算出來。當(dāng)然這些運算出來的結(jié)果全部放到內(nèi)存中,那樣查詢是最快的,但內(nèi)存總量畢竟是有限的。所以肯定必須有大批量數(shù)據(jù)是放在硬盤中去。對于那些搜索高頻詞的結(jié)果就放在內(nèi)存中,低頻詞的結(jié)果當(dāng)然就放在

19、硬盤上。但是,一些低頻詞可能會馬上變成高頻詞。但是說是這樣說,具體實現(xiàn)起來其實并不簡單,本學(xué)期我正好也在上操作系統(tǒng)的課程,設(shè)計操作系統(tǒng)個人資料整理,僅供個人學(xué)習(xí)使用7 / 10中所用到的緩存技術(shù),是可以解決此問題的。下面我大略的說一下我的思路:為了使CPU和外圍設(shè)備能夠并行的運行,在CPU和外圍設(shè)備之間設(shè)置一個高速緩沖區(qū)。當(dāng)內(nèi)存因空間不足,又有詞匯需要調(diào)進(jìn)內(nèi)存時, 就要將一些詞匯淘汰出內(nèi)存,而選擇的時候是選擇那些在最近的一段時間內(nèi)使用頻數(shù)比較低的詞匯。但調(diào)出內(nèi)存時,并不是將它們立刻的調(diào)到硬盤上,為了避免在以后這些詞匯變?yōu)楦哳l詞匯時,再次調(diào)到內(nèi)存中比較浪費時間,采取的策略是將它們先送到緩沖區(qū)上面

20、。這樣就在很大程度上面保證了搜索時間的快捷性。當(dāng)然這只是大略的說一下。鍬籟饗逕瑣筆襖鷗婭薔嗚訝。5,有關(guān)分詞的解決方案:互聯(lián)網(wǎng)上面的數(shù)據(jù)都是以HTML等超文本的形式組織,是一種半結(jié)構(gòu)化的數(shù)據(jù),結(jié)構(gòu)化比 較差,這就為分詞帶來了極大的困難,但由于篇幅的原因, 再此我就不對此方面做詳細(xì)的介紹了,下面主要是對搜索引擎中的分詞技術(shù)做一下介紹。下面的一張流程圖便是中文分詞的一個主要流程,這種分詞是基于有詞典的一種分詞,并且能夠通過分詞來不斷的學(xué)習(xí),豐富自己的詞庫內(nèi)容與消歧能力。構(gòu)氽頑黌碩飩薺齦話騖門戲。詞典初始化輸入分詞文本文本的結(jié)構(gòu)化處理査找分詞(粗y- p中文詞典it消歧與識別未登錄詞|-更新詞典IJ

21、保存結(jié)果 在這種基于有詞典的分詞中詞典的構(gòu)建是很關(guān)鍵的,他不但對分詞的速度有關(guān)鍵的影響,也會對分詞的正確性帶來必然的影響。 下面是一種詞典的組織結(jié)構(gòu), 它將兩字詞, 三字詞和多 字詞進(jìn)行分開存取,有很多好處,我想主要是考慮到短字字詞的搜索頻率要比多字詞的高,這對提高很有好處;另一方面我覺得這樣存儲會跟節(jié)省空間,因為長度都相同,而且詞典室采用索引的方式建立的。這樣就可以再分配空間,增加詞匯時,就能夠最大程度的節(jié)省空間。 在詞典中我們還會看到一項關(guān)于詞頻的項。增加這項,主要是為了解決歧義問題,提高分詞 的命中率。輒嶧陽檉籪癤網(wǎng)儂號澩蠐鑭。表4詞典的組織結(jié)構(gòu)詞索引表結(jié)構(gòu)1字 K 的結(jié)構(gòu).字 N 的結(jié)

22、構(gòu)/ /兩字詞表|字 K 的瑋礦詞頻| 字 N/荷#詞 詞頻|/ / /3 字詞表.|字 K 的尹詞詞頻匚.=字詞|詞頻|中文分詞個人資料整理,僅供個人學(xué)習(xí)使用8 / 10多字詞表|字 K 的多字詞|詞頻|字 N 多字詞|詞頻|在開始我想先強調(diào)一下,在搜索引擎中用到的分詞技術(shù),和在純學(xué)術(shù)領(lǐng)域中用到的分詞技術(shù) 是有很大區(qū)別的,不能夠等對待。因為學(xué)術(shù)界的要求分詞的準(zhǔn)確率極高,但分詞速度就比較低了;搜索引擎的重點是,在保證分詞高速的情況下,盡量提高分詞的準(zhǔn)確率。所以,這也 就導(dǎo)致了現(xiàn)在的搜索引擎公司,基本上都自己來做中文分詞了。堯側(cè)閆繭絳闕絢勵蜆贅瀝紕。事實上,不單單是中文,其他國家的語言文字也存在

23、分詞問題”只是由于各種語言的不同,分詞時,所遇到的困難,問題也就不一樣。由于漢字是象形文字,它是以字為單位的,而英 文是以此為單位的。并且中文在字與字之間也沒有明顯的切分標(biāo)志,漢語的詞序又極為靈活,相應(yīng)的語法限制也比較少。上述的種種原因就造成了中文在分詞上面遇到的問將會多一些。識饒鎂錕縊灩筧嚌儼淒儂減。下面先對現(xiàn)在比較流行的主流分詞技術(shù)做一個簡要的介紹,然后在說一下搜索引擎中的分詞技術(shù)應(yīng)該做和改動,才更符合實際?,F(xiàn)在比較流行的分詞技術(shù)有三大類,分別是機械分詞方法,基于理解的分詞方法和基于統(tǒng)計的分詞方法。凍鈹鋨勞臘錯癇婦脛糴鈹賄。機械分詞方法這種算法所采用的分詞策略都是固定的,也就是當(dāng)其他條件不

24、變時, 對于同一篇文章的分詞結(jié)果應(yīng)該是相同的。 并且這種分詞方法需要有一個很大的詞典,來進(jìn)行詞的匹配。 若在詞典中找到某個字符串, 則匹配成功,同時也就劃分出來一個詞,否則失敗。依照掃描方向的不同,這種分詞方法可以分為正向最大匹配和逆向最大匹配,臨近匹配,最短路徑匹配算法等。分詞的具體方法可以參見中文信息處理的原理與應(yīng)用,這本書上各種算法都比較簡單,很容易理解。在此就不詳細(xì)的介紹了。恥諤銪滅縈歡煬鞏鶩錦聰櫻。機械分詞方法的實現(xiàn)比較簡單,但分詞的正確率是受字典大小的影響。也就是它的正確率和詞典的大小成正比。 但是如果將詞典做的很大。 分詞的速度必將受到很大的影響。而且這種算法對新詞的判斷就無能為

25、力了。當(dāng)然可以針對某一相關(guān)專業(yè),建立一個針對性的詞典, 然而這種改善只是表面的。令一種困難就是分詞歧義,當(dāng)然這也是所有的分詞算法都面臨的困 難,如何解決好,對于搜索引擎的設(shè)計來說,也必將產(chǎn)生積極的作用。鯊腎鑰詘褳鉀溈懼統(tǒng)庫搖飭。為了能那個更好的進(jìn)行分詞處理。可以對上述的算法做一些改進(jìn),比如優(yōu)先在待剖析字符串中識別和切分出一些帶有顯明特點的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進(jìn)機械分詞,從而減少匹配的錯誤率。 另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐盛的詞類信息對分詞決策供給輔助,并且在標(biāo)注進(jìn)程中又反過來對分詞結(jié)果進(jìn)行檢驗、調(diào)劑,從而極大地進(jìn)步切分的準(zhǔn)確率。碩癘鄴頏謅攆檸攜驤蘞

26、鷥膠?;诶斫獾姆衷~方法這種分詞方式是通過讓計算機來模仿人對句子的理解,到達(dá)識別詞的效果。其基礎(chǔ)思想是在分詞的同時,還進(jìn)行句法、語義剖析,應(yīng)用句法信息和語義信息來處理分詞過程中遇到的歧義現(xiàn)象。看上去這種方法能夠解決歧義問題,應(yīng)該還不錯。但事實上, 這種分詞方法要涉及到大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、龐雜性,難以將各種語言信息組織成 機器可直接讀取的信息,因此目前基于理解的分詞系統(tǒng)還處在實驗階段。閿擻輳嬪諫遷擇植秘騖輛塤?;诮y(tǒng)計的分詞方法在實際應(yīng)用中,我們可以根據(jù)幾個字相鄰概率的高低,來判斷它是否可以構(gòu)成一個詞。相鄰的字同時呈現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠 較好的反應(yīng)成詞的可信度。 我們可以從這一點出發(fā)來對文章進(jìn)行分詞。我們可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)個人資料整理,僅供個人學(xué)習(xí)使用9 / 10合關(guān)系的緊密水平。當(dāng)緊密水平高于某一個閾值時,便可認(rèn)為此字組可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論