搜索引擎的中文分詞技術(shù)詳細(xì)分析_第1頁
搜索引擎的中文分詞技術(shù)詳細(xì)分析_第2頁
搜索引擎的中文分詞技術(shù)詳細(xì)分析_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

搜索引擎的中文分詞技術(shù)詳細(xì)分析

首先我們看下下面這個句子“上海奇商是上海地區(qū)最優(yōu)秀的企業(yè)SEO咨詢公司嗎?”當(dāng)搜索引擎(以后一律建成SE)讀到上面這句話的時候會進行第一次切詞,結(jié)果如下:上、海、奇、商、是、地、區(qū)、最、優(yōu)、秀、的、企、業(yè)、S、E、O、咨、詢、公、司、嗎注意上面是20個中文漢字和3個英文字母,而第一次分詞的結(jié)果是將“上”、“?!眱蓚€重復(fù)的關(guān)鍵詞去掉了。這種切詞就是簡單的單字法。當(dāng)然搜索引擎不是傻瓜,不會只利用這么一種簡單的分詞方法。接著,搜索引擎進行二分法分詞,結(jié)果如下:上海、海奇、奇商、商是、是上、海地、地區(qū)、區(qū)最、最優(yōu)、優(yōu)秀、秀的、的企、企業(yè)、業(yè)S、SE、EO、O咨、咨詢、詢公、公司、司嗎注意上面的傷害出現(xiàn)了兩次,也只算做一個詞,因為他們的確是一個詞,第一個“上?!焙椭虚g的“上?!睕]有什么差別。這只是第二次分詞,接著會有三分法分詞和四分法分詞?;蛟S有SEO要問,這樣分出來的詞搜索引擎有什么用?不著急,我們還沒講到下面。其次,SE針對這些詞進行篩選,怎樣篩選呢?我們都知道中文的很多詞,像“的”“了”“啊”“嗎”“在”等幾乎每篇文章都會用到,這些詞要是SE全部收錄的話,那估計數(shù)據(jù)庫早就放不下了,因為百度目前收錄的16億網(wǎng)頁幾乎每個網(wǎng)頁都有這些詞,這么浩大的工程,SE肯定忙不過來,即使忙過來,也很少有人去搜索“啊”這樣無意義的關(guān)鍵詞。所以SE將這些詞定義為停止關(guān)鍵詞,也就是英文里面提到的“stopword”。只要是停止關(guān)鍵詞都會被刪除的?;蛟S又有SEO開始提問了,那么“是上”這樣的關(guān)鍵詞難道也被分成一個詞?不要著急,下面還有更精彩的。忽略掉停止關(guān)鍵詞后,剩下的關(guān)鍵詞開始跟SE的詞庫進行匹配,原始的詞庫可能只有辭海那些基礎(chǔ)的關(guān)鍵詞,但是隨著互聯(lián)網(wǎng)的發(fā)展新詞的產(chǎn)生,SE的詞庫遠遠大于辭海。后面會詳細(xì)解釋。這樣像“上?!?、“地區(qū)”、“優(yōu)秀”、“企業(yè)”、“咨詢”、“公司”等我們自己都知道肯定屬于辭海的關(guān)鍵詞,肯定也屬于SE的詞庫。這里有些SEO開始問,那么像“SEO”這樣的詞SE是怎樣判斷的呢?如果大家去看下在微軟必應(yīng)搜索”SEO”時候推薦的關(guān)鍵詞就能看到,他們和百度、谷歌一樣,原來都是解決不掉這個問題的,推薦的關(guān)鍵詞一律為“色哦”。那么后來他們是怎么分析出來這個關(guān)鍵詞的呢?這個就要靠SE強大的統(tǒng)計功能了,當(dāng)SE發(fā)現(xiàn)有大量用戶搜索“SEO”這個關(guān)鍵詞的時候,他們就會將這個關(guān)鍵詞添加到詞庫。這個時候一個新詞就產(chǎn)生了。當(dāng)然還有這種情況是百度貼吧之父俞軍和百度CEO李彥宏都向往的一種分詞方法,即理解,理解的意思就是我們在搜索“上海最好的SEO公司”的時候,SE能夠理解用戶要找的是什么信息,他會發(fā)現(xiàn)用戶最在乎的是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論