已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
彩鈴智能搜索引擎的設計與實現(xiàn) 摘要 彩鈴業(yè)務是一項由被叫( 或主叫) 用戶定制,為主叫用戶提供一 段悅耳的音樂或一句問候語來替代普通回鈴音的業(yè)務。用戶申請開通 彩鈴業(yè)務之后,可以自行設定個性化回鈴音,在其做被叫時,為主叫 用戶播放個性化定制的音樂或錄音,來代替普通的回鈴音。 近幾年來,隨著彩鈴業(yè)務的迅猛發(fā)展,彩鈴平臺中的鈴音數(shù)量與 日俱增,數(shù)以萬計的鈴音出現(xiàn)在用戶的眼前,各家鈴音制作商創(chuàng)作的 千奇百怪的彩鈴使用戶越發(fā)不知所從,難以挑選,現(xiàn)有的各種接入方 式中的傳統(tǒng)鈴音查找方式已經(jīng)不能滿足用戶的需要。另一方面,由搜 索巨頭g o o g l e 公司所引領的搜索技術(shù)革新使得搜索領域有了突飛猛 進的發(fā)展,各種分詞、索引、排序等算法不斷涌現(xiàn),并出現(xiàn)了以l u c e n e 、 n u t c h 等為代表的開源搜索引擎工具,搜索技術(shù)已經(jīng)日趨成熟。 垂直搜索是目前搜索領域的重點發(fā)展方向之一它是搜索引擎的 細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分 字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶垂直搜 索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進行了結(jié)構(gòu) 化信息抽取,將非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),網(wǎng)頁搜 索是以網(wǎng)頁為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然 后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進一步的加工處理。 本文所介紹的彩鈴智能搜索引擎正是利用現(xiàn)有的搜索技術(shù),針對 彩鈴平臺所開發(fā)的一套高效、智能的垂直搜索引擎。第一章引言簡單 介紹了目前垂直搜索引擎的發(fā)展現(xiàn)狀。第二章對彩鈴平臺做了一個總 體的介紹,從組網(wǎng)、數(shù)據(jù)、接入方式等方面分析了彩鈴平臺的特點。 第三章介紹了目前搜索引擎領域中所用到的關鍵技術(shù),以及今后的發(fā) 展趨勢。第四章是本文的重點之一,在對彩鈴平臺中各項數(shù)據(jù)進行了 統(tǒng)計分析后,研究了在彩鈴平臺中應用搜索引擎技術(shù)的可行性,并提 出了目標系統(tǒng)所應具備的能力,隨后對各種不同搜索方式的搜索流程 進行了設計,在全面分析了系統(tǒng)功能后,提出了一套較詳細的系統(tǒng)框 架設計方案,并定義了與外部功能實體間的交互協(xié)議。在第五章中, 重點說明了彩鈴智能搜索中所用到的分詞、模糊匹配、權(quán)值算法等關 鍵技術(shù);其中s k m 算法是針對彩鈴平臺的數(shù)據(jù)特點開發(fā)出的模糊匹 配算法,在本章中做了詳細論述;本章第三節(jié)則重點討論了在搜索結(jié) 果排序過程中所使用的一套獨特的權(quán)值算法,對單字、關鍵詞、鈴音 等對象的權(quán)重計算方法做了詳細的闡述。第六章貝, w j n 用現(xiàn)有測試數(shù)據(jù) 對算法的效率與已知算法進行比較,并對算法性能做了詳細討論。 關鍵字:彩鈴搜索引擎分詞算法模糊匹配 d e s i g na n di m p l e m e n t a t i o no f c r b ts e r v i c ed o 心no r i e n t e di n t e l l i g e n t s e a r c he n g i n e a b s t r a c t c o l o rr i n gb a c kt o n e ( c r b t ) i sab u s i n e s ss e r v i c et h a tc u s t o m e dl a y r e c i p i e n tu s e r , p r o v i d i n gap l e a s a n tm u s i co ras a l u t a t i o nt or e p l a c e o r d i n a r yr i n gt o n e s a f t e rr e g i s t e r i n gc r b ts e r v i c e ,c u s t o m e r sc a l ls e t t h e i ro w np e r s o n a l i z e dr i n gt o n e s ,w h i c hw i l lb ep l a y e dt ot h ec a l l e rt o r e p l a c et h eo r d i n a r yr i n gt o n e sw h e nt h e ya r ec a l l e d , i nr e c e n ty e a r s ,w i t ht h er a p i dd e v e l o p m e n to fc r b t s e r v i c e ,c r b t p l a t f o r mi nt h eg r o w i n gn u m b e ro fr i n gt o n e s ,t e n so ft h o u s a n d so fr i n g t o n e si nt h eu s e r si m m e d i a t e ,t h ev a r i o u sk i n d so fr i n gt o n e sm a d eb y i n d i v i d u a lr i n gt o n e sp r o d u c e r sm a k ec u s t o m e r sf e e li t s g e t t i n gm o r e d i f f i c u l tt om a k es e l e c t i o n a l le x i s t i n ga c c e s si nt h es e a r c ha p p r o a c hh a s b e e nu n a b l et om e e tt h en e e d so fu s e r s o nt h eo t h e rh a n d ,s e a r c hg i a n t g o o g l e ss e a r c ht e c h n o l o g yh a v em a d er a p i dd e v e l o p m e n to fv a r i o u s s e a r c hi n n o v a t i o n s ,s u b t e r m ,i n d e x i n g ,s o r t i n ga l g o r i t h m sa r ec o n s t a n t l y e m e r g i n g ,a n dt h e r et ol u c e n e ,n u t c ha st h er e p r e s e n t a t i v eo ft h eo p e n s o u r c es e a r c he n g i n et o o l s ,s e a r c ht e c h n o l o g ym a t u r e s v e r t i c a ls e a r c hi so n eo ft h ek e yd e v e l o p m e n td i r e c t i o nf o rs e a r c h i n g t e c h n o l o g y i t s ak i n do fd e t a i l e da n de x t e n d e ds e a r c he n g i n e ,a n i n t e g r a t i o nf o rt h ew e b s i t e so fc e r t a i nt y p e so fs p e c i a l i z e di n f o r m a t i o n , t a r g e t i n ga tt h en e e d so ff i e l dd a t ae x t r a c t e da f t e rt r e a t m e n ti ns o m ef o r m b a c kt ot h eu s e r t h eb i g g e s td i f f e r e n c eb e t w e e nv e r t i c a ls e a r c he n g i n e s a n dt h eg e n e r a lw e bs e a r c he n g i n e si st h ei n f o r m a t i o no nt h ew e b s i t eo f s t r u c t u r e di n f o r m a t i o nc o l l e c t e d ,u n s t r u c t u r e dd a t aw i l lb ec o l l e c t e di n t oa s p e c i f i cs t r u c t u r eo f t h ei n f o r m a t i o na n dd a t a f o rt h ew e bs e a r c he n g i n e , w e bp a g ei st h es m a l l e s tu n i t ,w h i l ef o rt h ev e r t i c a ls e a r c hi ss t r u c t u r e d d a t a t h e s ed a t aa r et h e ns t o r e dt ot h ed a t a b a s e ,f o rf u r t h e rp r o c e s s i n g t h i sp a p e ri n t r o d u c e st h ec r b t i n t e l l i g e n ts e a r c he n g i n e ,w h i c hi sa v e r t i c a ls e a r c he n g i n et h a tu s e se x i s t i n gs e a r c ht e c h n o l o g y , o r i e n t e dt o c r b t p l a t f o r mf o rt h ed e v e l o p m e n to fah i g h l ye f f i c i e n ta n di n t e l l i g e n t d a t as e a r c h i n g c h a p t e ro n eb r i e f l yi l l u s t r a t e sv e r t i c a ls e a r c he n g i n eo ft h e c u r r e n ts t a t u so fd e v e l o p m e n t ;i nc h a p t e rt w o ,t h ec r b tp l a t f o r mi s d e s c r i b e da saw h o l e ,i nt h ev i e wo fn e t w o r k , d a t at y p ea n da c c e s sw a y c h a p t e rt h r e es h o w st h ek e yt e c h n o l o g i e si nt h ea r e ao fs e a r c he n g i n e ,a s w e l la st h ed e v e l o p m e n t 仃e n do ft h ef u t u r e c h a p t e rf o u ri so n eo ft h e e m p h a s e so ft h i sa r t i c l e ,a f t e rs t a t i s t i c i a na n da n a l y s i so nc r b td a t a , i t s t u d i e st h ef e a s i b i l i t yt ou s es e a r c he n g i n et e c h n o l o g yo nc r b t p l a t f o r m , a n dp u t sf o r w a r dt h et a r g e ts y s t e ms h o u l dh a v et h ea b i l i t yt o ,a n dt h e n d e s i g n ss e a r c hp r o c e s s e sf o ra l ld i f f e r e n ta c c e s sw a y s ,i nac o m p r e h e n s i v e a n a l y s i so ft h es y s t e m ,s e t sf o r t haf r a m e w o r kf o rm o r ed e t a i l e ds y s t e m d e s i g n ,a n dt h ed e f i n i t i o no ff u n c t i o n sa n de x t e r n a li n t e r a c t i o na g r e e m e n t b e t w e e nt h ee n t i t i e s i nt h ef i f t h c h a p t e r , i tf o c u s e so nt h ec r b t i n t e l l i g e n t s e a r c hi nt h e s u b t e r m ,f u z z ym a t c h i n ga l g o r i t h ma n d k e y - w e i g h t sa l g o r i t h mt e c h n o l o g i e s t h es k ma l g o r i t h mi se x p o u n d e d v e r b o s e l y , w h i c hi sak i n do ff u z z y - m a t c h i n ga l g o r i t h md e v e l o p e da i m i n g t ot h ed a t at y p eo fc i 淝t t h et h i r ds e c t i o no ft h i sc h a p t e ri sf o c u s e do n t h er a n k i n gi nt h es e a r c hr e s u l t si nt h ec o u r s eo ft h eu s eo fau n i q u e a l g o r i t h mw e i g h t so ft h ew o r d ,k e y w o r d ,r i n gi t e m sa n do t h e ro b j e c t s c a l c u l a t i o no ft h ew e i g h to fad e t a i l e de x p o s i t i o n c h a p t e rs i xu s e s e x i s t i n gt e s t d a t at o c o m p a r et h ee f f i c i e n c y w i t ht h ew e l lk n o w n a l g o r i t h m s ,m o r e o v e rd i s c u s s e dt h ep e r f o r m a n c eo fa l g o r i t h m si nd e t a i l k e yw o r d s :c r b ts e a r c he n g i n e s e g m e n t a t i o na l g o r i t h mf u z z ym a t c h i n g 縮略語 a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e a u t o m a t e ds p e e c hr e c o g n i t i o n c o l o rr i n gb a c k t o n e c o n t r o ln o d e i n t e m e te n g i n e e r i n gt a s kf o r c e i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l i n t e m e tp r o t o c o l i n t e l l i g e n ts e a r c he n g i n e i n t e r a c t i v ev o i c er e s p o n s e r e q u e s tf o rc o m m e n t s r e s o u r c el i s ts e r v e r r e s o u r c en o d e s e r v i c ea c c e s sp o i n t s e r v i c ec o n t r o lp o i n t s u b s e q u e n c e - b a s e dk e y w o r dm a t c h i n g s e s s i o ni n i t i a t i o np r o t o c o l s t , 曩- v i c em a n a g e m e n tp o i m s e r v e r - s e r v e rp r o t o c o l t e x tt os p e e c h u s e ri n t e r a c t i o ns c r i p t x m ld o c u m e n tm a n a g e m e n t x m ld o c u m e n tm a n a g e m e n ts e r v e r e x t e n s i b l em a r k u pl a n g u a g e e x t e n s i b l em e s s a g i n ga n dp r e s e n c ep r o t o c o l 應用編程接口 自動語音識別技術(shù) 多彩回鈴音業(yè)務 控制節(jié)點 i n t e m e t 工程組 獨立智能外設 因特網(wǎng)協(xié)議 智能搜索引擎 即互動式語音應答 請求注解 資源列表服務器 資源節(jié)點 服務接入點 業(yè)務控制點 基于子序列的關鍵字匹配 會話起始協(xié)議 業(yè)務管理點 服務器一服務器協(xié)議 文本語音轉(zhuǎn)換 用戶交互腳本 舭文檔管理 x m l 文檔管理服務器 可擴展標記語言 可擴展的消息和p r e s e n c e 協(xié)議 魍 搬 一 叫 | 耋 肼 m 髓 胍 哦 雌 心 沁 孵 喜| e i 暑| 卿 | 蘭 一 一 一 舭 一 獨創(chuàng)性( 或創(chuàng)新性) 聲明 本人聲明所呈交的論文是本人在導師指導下進行的研究工作及取得的研究成果。盡我所 知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰 寫過的研究成果,也不包含為獲得北京郵電大學或其他教育 機構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已 在論文中作了明確的說明并表示了謝意 申請學位論文與資料若有不實之處, 本人簽名:二犟豸l 本人承擔一切相關責任 日期:塑蜂母里 關于論文使用授權(quán)的說明 學位論文作者完全了解北京郵電大學有關保留和使用學位論文的規(guī)定,即: 研究生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬北京郵電大學。學校有 權(quán)保留并向國家有關部門或機構(gòu)送交論文的復印件和磁盤,允許學位論文被 查閱和借閱:學??梢怨紝W位論文的全部或部分內(nèi)容,可以允許采用影印、 縮印或其它復制手段保存、匯編學位論文。( 保密的學位論文在解密后遵守 此規(guī)定) 保密論文注釋:本學位論文屬于保密在年解密后適用本授權(quán)書。非保密論文注釋:本 本人簽名:j 蔑整 日期: 導師簽名:他日期: 北京郵電人學碩i j 學位論義彩鈴智能搜索f j l 擎的設計與實現(xiàn) 第一章引言弟一早ji 百 在互聯(lián)網(wǎng)絡日益滲入我們?nèi)粘I畹慕裉欤A康馁A存和科學的搜索是人們 信息行為中兩樣最重要的能力【l 】搜索引擎以一定的策略搜集、發(fā)現(xiàn)信息,對信 息進行理解、提取、組織和處理【2 翔,并為用戶提供檢索服務,從而起到信息導 航的目的。在搜索引擎領域中,基于字符串匹配的分詞算法( 也稱機械分詞算法) 眇】是一種常用的可以從用戶的輸入串中分離出關鍵字的算法,其發(fā)展已經(jīng)較為 成熟,并已經(jīng)出現(xiàn)了以l u c e n d 6 1 、n u t c h 刀等開源項目為代表的開源項目。 垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是 對某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以 某種形式返回給用戶嘲垂直搜索引擎和普通的搜索引擎的最大區(qū)別是對信息進 行了結(jié)構(gòu)化抽取,然后將這些數(shù)據(jù)進行進一步的加工處理,最后再以搜索的方式 滿足用戶的需求。關于垂直搜索,已經(jīng)有不少研究理論【9 】,但由于垂直搜索是面 向領域的搜索技術(shù),在應用時要針對所在領域的數(shù)據(jù)格式特點采用不同的搜索算 法,不同領域的搜索方式之間缺少互通性,因此其發(fā)展并不像傳統(tǒng)搜索引擎技術(shù) 那樣成熟。 針對彩鈴平臺【l o 】的數(shù)據(jù)特點,彩鈴領域的搜索引擎應滿足如下幾個要求: 應包含歌名、歌手名、歌曲類型等信息; 與網(wǎng)頁搜索相比數(shù)據(jù)量較少,對搜索速度要求不高。為保證用戶體驗感 和系統(tǒng)效率,搜索耗時在秒級以下即可; 由于很多歌名、歌手名包含非常用字,為提高命中率,對算法的糾錯能 力要求較高。 對于糾錯能力的實現(xiàn),較常見的方法是采用編輯距離算法f n , 1 2 1 ,在l u c e n t 中的模糊查詢功能也是使用此算法實現(xiàn)的【1 3 】。但由于其計算的是兩個字符串之間 的相似程度,算法難以將用戶輸入的搜索信息與冗余信息加以區(qū)分,當用戶輸入 的冗余信息過多時,編輯距離算法的搜索命中率將大幅降低,難以符合彩鈴搜索 的要求。 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵1 1 1 人學碩l :學位論文彩鈴智能搜索引擎的設計j 實現(xiàn) 同時,智能搜索系統(tǒng)中采用了一種符合彩鈴數(shù)據(jù)特點的關鍵字權(quán)重算法以及 鈴音權(quán)重算法。算法融合了自然語言文字使用頻度、模糊分詞算法、鈴音使用頻 度,以及用戶個人喜好等多個因素,使得搜索結(jié)果更加合理,更加人性化。 彩鈴智能搜索是一種彩鈴使用方式人性化新型業(yè)務。用戶只要使用自然語言 即可與彩鈴系統(tǒng)進行交互并下載到想要的鈴音,可以提高用戶對彩鈴的體驗度, 從而提高彩鈴平臺鈴音定制的成功率和定制總量。 2北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學碩上學位論文彩鈴智能搜索引擎的設計0 實現(xiàn) 2 1 業(yè)務簡介 第二章彩鈴平臺介紹 彩鈴業(yè)務是一項由被叫( 或主叫) 用戶定制,為主叫用戶提供一段悅耳的音 樂或一句問候語來替代普通回鈴音的業(yè)務【1 4 1 。用戶申請開通彩鈴業(yè)務之后,可以 自行設定個性化回鈴音,在其做被叫時,為主叫用戶播放個性化定制的音樂或錄 音,來代替普通的回鈴音。當被叫用戶處于忙、不在服務區(qū)、關機等非空閑狀態(tài) 情況下時,仍播放原網(wǎng)絡系統(tǒng)提供的語音通知。 2 2 組網(wǎng)結(jié)構(gòu) h $ 為 曠酋溽7 一移 圖2 。1 彩鈴平臺組網(wǎng)結(jié)構(gòu) 智能外設( i i p :i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l ) 是智能網(wǎng)體系結(jié)構(gòu)中韻 一個重要功能實體,完成特殊資源功能( s l 江) ,向智能網(wǎng)的終端用戶提供各種 專用資源服務,例如向用戶發(fā)布提示音,接受用戶撥號等等。 在智能網(wǎng)發(fā)展初期,由于智能業(yè)務對專用資源功能的需求比較簡單i i5 1 ,s r f 的功能往往被集成在s s p 中,由交換機向網(wǎng)絡提供發(fā)提示音和收集用戶信息的 設備。 隨著智能業(yè)務不斷發(fā)展,業(yè)務功能日趨復雜,要求s r f 具有更靈活的對用戶 交互的控制能力以及特殊資源的提供和處理能力;因此這部分功能逐漸從s s p 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 1 蕊睡 鰳 申信 艟 由 北京郵電人學碩i :學位論文彩鈴智能搜索引擎的砹計。j 實現(xiàn) 中獨立出來。 彩鈴業(yè)務是在原有的i i p 平臺上開發(fā)的,其所基于的i i p 平臺已經(jīng)是按照中 國移動集團要求改造的增強型獨立i p ;其具有業(yè)務邏輯執(zhí)行功能,具有主動戶 出被叫用戶功能【1 6 1 ,即:既能夠處理如局呼叫,同時也可以發(fā)起出局呼叫;其具 備s s p 的一些基本呼叫控制功能;與此同時增強型i i p 還具備和b o s s 、s m s c 相連的功能,同時增加w e bp o r t a l 作為業(yè)務受理平臺界面。 2 3 彩鈴數(shù)據(jù)特點 彩鈴平臺中的數(shù)據(jù)具有如下特點: 1 數(shù)據(jù)平臺封閉,數(shù)據(jù)量不大。 與普通的互聯(lián)網(wǎng)搜索不同的是,彩鈴平臺中的數(shù)據(jù)均屬于內(nèi)部數(shù)據(jù),數(shù) 據(jù)集中,易于管理,省去了傳統(tǒng)搜索引擎中的數(shù)據(jù)收集過程。同時,由于彩 鈴數(shù)據(jù)在制作和上傳過程中都是需要經(jīng)過嚴格審核,也就造成了彩鈴數(shù)據(jù)量 不會很大,通常情況下一個省的彩鈴平臺鈴音數(shù)據(jù)量為十萬級別。 2 多條鈴音對應于同一首歌曲。 對于一首當前非?;鸬母枨?,通常有多家s p ( s e r v i c ep r o v i d e r ) 同時為 其制作彩鈴,因此就造成了彩鈴平臺中一首歌曲對應多條鈴音的情況非常普 遍,在此情況下通常是以擴展名的方式將不同的鈴音加以區(qū)別。例如,“童 話( 高潮版) 一、“童話( 深情版) 一、“童話( 龍騰陽光板) 一等等。 3 鈴音數(shù)據(jù)錯誤以及不一致的情況多。 。在s p 進行鈴音上傳時,由于人為的原因,經(jīng)常會造成一些信息填寫錯誤 的情況。例如將鈴音名稱和歌手名稱填反,或者某些信息空缺等等。同時, 更多的情況是鈴音信息的彼此不一致,例如,有的鈴音的歌手名是“蔡依林 , 也有的是“蔡依琳”;有的是“陶拮,也有的是“陶哲,這些情況都會對 用戶搜索和查找產(chǎn)生困難。 2 4 各種接入方式及其現(xiàn)有的查找方式 4 目前彩鈴平臺提供給用戶的接入方式有以下四種:短信方式、語音方式、網(wǎng) 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學碩上學位論文彩鈴智能搜索引擎的設計j 實現(xiàn) 站方式、s t k 接入方式。其中s t k 方式屬于彩鈴平臺對外開放接口,本文內(nèi)暫 不對此進行討論。 在短信方式下,用戶可以將鈴音的短編號通過短信方式發(fā)送到1 2 5 3 0 進行鈴 音查找,在系統(tǒng)返回提示的幫助下進行鈴音各種相關操作。使用短編號進行鈴音 查找的缺點在于,用戶必須先獲得鈴音的短編號信息,而一首普通鈴音的短編號 通常在6 至1 0 位之間,不便于用戶記憶;同時,此種查找方式的宣傳廣告通常 出現(xiàn)在電視廣告或樓宇廣告中,宣傳成本較高,且獲益鈴音數(shù)量有限。在對實際 現(xiàn)網(wǎng)中的數(shù)據(jù)統(tǒng)計表名,與其他幾種查找方式相比,使用短信查找業(yè)務的用戶所 占的比例較低。 在語音方式下,用戶使用手機撥打接入號( 歸屬地區(qū)號+ ) 1 2 5 3 0 可根據(jù)語 音提示,選擇各種音樂排行榜的鈴音進行試聽和下載。與其他查找方式相比,語 音查找方式的最大特點在于可以直接對鈴音進行試聽,提高用戶體驗度;但其缺 點在于難以對所要查找的鈴音進行定位,除了與短信方式類似的輸入鈴音短編號 外,只能通過各種排行榜及鈴音分類信息進行線性查找,給用戶帶來很大不便, 不適合下載目標性強的用戶使用。 在網(wǎng)站中,用戶可以在頁面的搜索欄中輸入自己想要的鈴音名稱或者歌手名 進行查找。目前彩鈴網(wǎng)站中的鈴音查找是一種基于數(shù)據(jù)庫的字段匹配查找,對數(shù) 據(jù)庫系統(tǒng)的負荷壓力較大。同時,此種查找方式只支持單關鍵字查找,無法對多 關鍵字進行匹配,例如用戶輸入“周杰倫菊花臺一無法找到期望的結(jié)果。 從業(yè)務的需求來看,僅僅以上進行的鈴音定制已經(jīng)不能滿足用戶的需要,彩 鈴平臺必須提供一種更加直觀、更加方便的鈴音查詢方式。智能搜索平臺所要完 成的目標就是實現(xiàn)與用戶之間的自然語言交互,能夠理解用戶的意圖并引導用戶 完成相應的操作。 2 5 本章小結(jié) 本章對彩鈴平臺系統(tǒng)作了簡要的介紹。彩鈴業(yè)務是一種時尚的、以增強趣味 性為目的的業(yè)務,以年輕人為主要使用群體。其數(shù)據(jù)特點主要有數(shù)據(jù)量小、擴展 名較多、數(shù)據(jù)不一致等,在日益增長的鈴音數(shù)量面前,各種接入方式的傳統(tǒng)鈴音 查找方式均具有不可忽略的局限性,不能滿足用戶對鈴音搜索的需要,有必要針 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 5 北京郵電人學碩:學位論文彩鈴智能搜索0 l 擎的設計與實現(xiàn) 對彩鈴平臺的數(shù)據(jù)開發(fā)一套獨立的、智能化的搜索平臺。 6北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學頌l :學位論文彩鈴智能搜索弓l 擎的設計與實現(xiàn) 第三章搜索引擎技術(shù)現(xiàn)狀介紹 3 1 基于l u c e n e 的全文搜索技術(shù) 搜索引擎( s e a r c he n g i n e ) 是指根據(jù)一定的策略、運用特定的計算機程序搜集 互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統(tǒng)。 搜索引擎是一個為你提供信息“檢索”服務的網(wǎng)站,它使用某些程序把互聯(lián)網(wǎng) 上的所有信息歸類,以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。 早期的搜索引擎是把互聯(lián)網(wǎng)中的資源服務器的地址收集起來,由其提供的資 源的類型不同而分成不同的目錄,再一層層地進行分類。人們要找自己想要的信 息可按他們的分類一層層進入,就能最后到達目的地,找到自己想要的信息。這 其實是最原始的方式,只適用于互聯(lián)網(wǎng)信息并不多的時候。隨著互聯(lián)網(wǎng)信息按 幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的 開始,隨后搜索互聯(lián)網(wǎng)上的所有超級鏈接,把代表超級鏈接的所有詞匯放入一個 數(shù)據(jù)庫。這就是現(xiàn)在搜索引擎的原型【1 7 】。 隨著y a h o o ! 的出現(xiàn),搜索引擎的發(fā)展也進入了黃金時代,相比以前其性能更 加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更 加綜合化,完美化了以搜索引擎權(quán)威y a h o o ! 為例,從1 9 9 5 年3 月由美籍華裔 楊致遠等人創(chuàng)辦y a h o o ! 開始,到現(xiàn)在,他們從一個單一的搜索引擎發(fā)展到現(xiàn)在 有電子商務、新聞信息服務、個人免費電子信箱服務等多種網(wǎng)絡服務,充分說明 了搜索引擎的發(fā)展從單一到綜合的過程。 l u c e n e 是一個基于j a v a 的全文索引工具包它可以方便的嵌入到各種應用 中實現(xiàn)針對應用的全文索引檢索功能。l u c e n e 最核心的特征是通過特殊的索引 結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制,并提供了擴展接口,以方便針對 不同應用的定制。 基于自動切分的最大優(yōu)點是沒有詞表維護成本,實現(xiàn)簡單,缺點是索引效率 低,但對于中小型應用來說,基于2 元語法的切分還是夠用的?;? 元切分后 的索引一般大小和源文件差不多,而對于英文,索引文件一般只有原文件的 3 0 - 4 0 不同。 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 7 北京郵電人學碩 :學位論文彩鈴智能搜索弓i 擎的設計j 實現(xiàn) 自動切分詞表切分 實現(xiàn)實現(xiàn)非常簡單實現(xiàn)復雜 查詢增加了查詢分析的復雜程度, 適于實現(xiàn)比較復雜的查詢語法規(guī)則 索引冗余大,索引幾乎和原文一樣 存儲效率索引效率高,為原文大小的3 0 左右 大 詞表維護成本非常高:中日韓等語言需要分 維護成本無詞表維護成本別維護。 還需要包括詞頻統(tǒng)計等內(nèi)容 嵌入式系統(tǒng):運行環(huán)境資源有限 適用領域分布式系統(tǒng):無詞表同步問題 對查詢和存儲效率要求高的專業(yè)搜索引擎 多語言環(huán)境:無詞表維護成本 表3 - 1 分詞機制對比 目前比較大的搜索引擎的語言分析算法一般是基于以上兩個機制的結(jié)合。 3 2 垂直搜索技術(shù)的應用 垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是 對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行 處理后再以某種形式返回給用戶。 垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進行了結(jié)構(gòu) 化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比 網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位, 而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進 一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶 的需求【1 引。 整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后 以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶 垂直搜索引擎的應用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物 搜索、房產(chǎn)搜索、人才搜索、地圖搜索、m p 3 搜索、圖片搜索幾乎各行各 業(yè)各類信息都可以進一步細化成各類的垂直搜索引擎。 8 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學碩士學位論文彩鈴智能搜索引擎的- 歧計與實現(xiàn) 3 3 搜索引擎技術(shù)的發(fā)展趨勢 搜索引擎經(jīng)過幾年的發(fā)展和摸索,越來越貼近人們的需求,搜索引擎的技術(shù) 也得到了很大的發(fā)展。搜索引擎的最新技術(shù)發(fā)展包括以下幾個方面: 、 一、提高搜索引擎對用戶檢索提問的理解 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語 言,為了克服關鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。 用戶可以輸入簡單的疑問句,搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后,或 直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言 的優(yōu)勢在于,一是使網(wǎng)絡交流更加人性化,二是使查詢變得更加方便、直接、有 效,搜索引擎會將更有意義的信息提供給用戶,提高了檢索效率。 二、對檢索結(jié)果進行處理 1 ) 基于鏈接評價的搜索引擎 基于鏈接評價的搜索引擎的優(yōu)秀代表是g o o g l e ( h t t p :w w w g o o g l e t o m ) ,它獨 創(chuàng)的“鏈接評價體系 是基于這樣一種認識,一個網(wǎng)頁的重要性取決于它被其它 網(wǎng)頁鏈接的數(shù)量,特別是一些已經(jīng)被認定是“重要的網(wǎng)頁的鏈接數(shù)量。這種評 價體制與科技引文索引的思路非常相似,但是由于互聯(lián)網(wǎng)是在一個商業(yè)化的 環(huán)境中發(fā)展起來的,一個網(wǎng)站的被鏈接數(shù)量還與它的商業(yè)推廣有著密切的聯(lián)系, 因此這種評價體制在某種程度上缺乏客觀性。 2 ) 基于訪問大眾性的搜索引擘 基于訪問大眾性的搜索引擎的代表是d i r e c th i t ,它的基本理念是多數(shù)人選擇 訪問的網(wǎng)站就是最重要的網(wǎng)站。根據(jù)以前成千上萬的網(wǎng)絡用戶在檢索結(jié)果中實際 所挑選并訪問的網(wǎng)站和他們在這些網(wǎng)站上花費的時間來統(tǒng)計確定有關網(wǎng)站的重 要性排名,并以此來確定哪些網(wǎng)站最符合用戶的檢索要求。因此具有典型的趨眾 性特點。這種評價體制與基于鏈接評價的搜索引擎有著同樣的缺點。 3 ) 去掉檢索結(jié)果中附加的多余信息 有調(diào)查指出,過多的附加信息加重了用戶的信息負擔,為了去掉這些過多的 附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室9 北京郵電人學碩上學位論文彩鈴智能搜嗦弓i 擎的設計與實現(xiàn) 三、垂直主題搜索引擎 網(wǎng)上的信息浩如煙海,網(wǎng)絡資源以十倍速的增長,一個搜索引擎很難收集全 所有主題的網(wǎng)絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難 將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的 搜索引擎以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如 象股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿 意度較高。 3 4 本章小結(jié) 本章簡單介紹了搜索引擎技術(shù)的歷史及發(fā)展趨勢。從未來的趨勢可以看出, 基于人工智能的自然語言理解、垂直領域搜索將是今后搜索引擎發(fā)展的一個方 向。 對于彩鈴平臺而言,開發(fā)出一個面向彩鈴領域的智能搜索引擎十分適合技術(shù) 發(fā)展的需要。 1 0北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學碩上學位論文彩鈴智能搜索f j | 擎的 歧計與實現(xiàn) 第四章彩鈴智能搜索的研究與設計 4 1 彩鈴平臺的數(shù)據(jù)建模 4 1 1鈴音名稱統(tǒng)計與詞匯頻率分析 彩鈴鈴音庫中包含普通鈴音、集團鈴音和用戶d i y 鈴音三大類別,其中集團 鈴音與用戶d i y 鈴音只允許有特定權(quán)限的用戶使用,其他用戶無法瀏覽、下載。 因此,本文中所討論的彩鈴鈴音搜索的范圍只包含普通鈴音范疇。 彩鈴庫中的鈴音具有如下特點:鈴音名稱的命名通常為“x x x ( y y 版) , 其中x x x 為對應的流行歌曲名稱,在下文中稱為“鈴音精確名稱 ,y y 為鈴音 制作方為其添加的版本信息,以與其他類似鈴音區(qū)別,在下文中稱為“鈴音擴展 名稱一。 。 對于鈴音精確名稱相同的鈴音,將其定義為“重復歌曲。對全國八個省份 彩鈴鈴音庫中的數(shù)據(jù)做出的鈴音名稱統(tǒng)計如圖4 _ 1 所示: 圖4 - l 彩鈴鈴音數(shù)量統(tǒng)計 從此圖中可以看出,在合并了重復歌曲后,鈴音的總數(shù)下降了一半以上,也 即平均每個鈴音精確名稱對應于2 首鈴音??梢哉J為在對歌曲的標識中,鈴音擴 展名也起到了很重要的作用,因此在下面的建模過程中,將會對鈴音精確名稱和 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 i i 北京郵i u 人學碩i :學位論文 彩鈴智能搜索引擎的設計;實現(xiàn) 鈴音擴展名稱單獨作討論。 圖4 2 是鈴音精確名稱長度分布統(tǒng)計圖: r 1 一r r 黲ll 鋤 隧綴纘貔勃緩黝戮繳紱緩綴緩緩繃緩綴綴綴綴繕綴綴黝緩繳緩綴綴籀貔綴緩凝黝黝鞘糍綴戮貓麴渤嬲戮緞燃a l i 一i 一一 豸 宦緩荔磊轆澎蕊蕊罐l 瓣籀贛搿黝籀蕊荔魏镕魏。主。箍,i 镕荔;紜施i 絡l !鑊 翰緩緩綴黼溯繃嬲繃糍獬鰳緩糍糊 ” 罐 湊 鐾二二 莛 , ,緩 0 圖4 2 鈴音精確名稱長度分布統(tǒng)計 4 0 0 0 0 從統(tǒng)計圖可以看出,字符長度為3 的鈴音精確名稱最多,長度為2 _ 4 的名稱 數(shù)量占全部歌曲總數(shù)的7 0 以上。在進行鈴音搜索的過程中,我們可以按照此表 的數(shù)據(jù)來判斷用戶所要搜索的內(nèi)容??梢哉J為,用戶搜索一首鈴音名稱長度為3 個字符的可能性更大一些,可以適當增加此長度范圍鈴音名稱的權(quán)重,使得系統(tǒng) 更傾向于幫助用戶選擇一首名字在此長度范圍內(nèi)的鈴音。 同時,在統(tǒng)計過程中會發(fā)現(xiàn),鈴音名稱的特點是“單字遠遠多于單詞一所 謂單字,就是一個中文字符;所謂單詞,就是一個中文的詞語( 這里暫時只對中 文進行分析,不考慮英文及數(shù)字等) 例如,“秋天不回來 中包含5 個單字,而 按照普通的單詞分詞技術(shù)則會被分成“秋天,不,回來 共3 個單詞。但是對于 更多的其他歌名,例如“死了都要愛、“愛你一萬年 這些歌名而言,幾乎每一 個單詞與單字等同,已經(jīng)沒有按照單詞分詞的需要。并且,為了提高模糊匹配時 的搜索精確度,按照單字分詞反而比按照單詞分詞更具有優(yōu)勢。對于歌曲“秋天 不回來,如果用戶a 誤輸入為“冬天不回來 ,用戶b 輸入“我們不回來,在 按照單詞分詞的處理方式中,系統(tǒng)對二者均會處理為匹配“不,回來 兩個單詞, 匹配度沒有差別;而在按照丹迪分詞的處理方式中,系統(tǒng)會認為用戶a 匹配到 了“天不回來 四個單字,而用戶b 匹配到了“不回來三個單字,相比之下 1 2 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 1 2 3 4 5 6 7 8 9 0 北京郵電人學碩卜學位論文 彩鈴智能搜索引擎的設計j 實現(xiàn) 用戶a 與該歌曲名的匹配度更高,匹配度信息就有了明顯的區(qū)分。 圖4 - 3 是鈴音擴展名稱長度分布統(tǒng)計圖: 圖4 3 鈴音擴展名稱長度分布統(tǒng)計 這里的長度統(tǒng)計都是將符號信息與“w 版 中的“版字去掉之后統(tǒng)計的, 例如蟣匿你( 無限深情版) 一中的鈴音擴展名計為4 個字符。 從對鈴音擴展名的統(tǒng)計看出,通常情況下,鈴音擴展名為一到兩個2 至3 字 的形容詞,而且絕大部分的鈴音擴展名都有重復。例如,出現(xiàn)頻率最高的擴展名 有“高潮版一、“經(jīng)典版一、“懷舊版一等等。而4 字以上的擴展名,通常是兩 個( 甚至更多) 形容詞的組合,例如“純美高潮版力、“網(wǎng)絡開篇版 、“情歌 王子招牌主打版一等等。 鈴音擴展名的特點是,幾乎所有名稱都是以單詞的形式出現(xiàn),而且重復頻率 較高,相比之下單字的出現(xiàn)率較低。例如,在參加統(tǒng)計的2 7 6 8 1 3 首鈴音中,包 含“高潮版一擴展名的鈴音達到3 1 8 2 首,見圖4 - 4 。 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 1 3 北京郵電大學碩,i :學位論文彩鈴智能搜索引擎的設計o j 實現(xiàn) 圖“鈴音擴展名單詞出現(xiàn)頻率統(tǒng)計 因此對于鈴音擴展名稱,在分詞過程中適合采用按照單詞分詞的方式。 4 1 2 歌手名稱統(tǒng)計與詞匯頻率分析 對于鈴音歌手名長度所做的統(tǒng)計如圖4 5 : 圖4 - 5 歌手名長度分布統(tǒng)計 對于歌手名而言,長度為l 的關鍵字基本不存在,主要以2 至3 字的人名為 主。四字以上的名稱,主要以演唱組合為主,例如“動力火車、“鳳凰傳奇 等等。 1 4 北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室 北京郵電人學碩士學位論文彩鈴智能搜索引擎的設計j 實現(xiàn) 需要注意的是,在以上的統(tǒng)計過程中,如果一首歌曲包含兩個或以上歌手, 則將其分開進行處理,而并非每首歌曲只對應一個歌手。例如,某首歌曲的歌手 名為“林俊杰、金莎等,則統(tǒng)計時將其分為“林俊杰和“金莎兩個關鍵字。 同理,在建立搜索索引時,也許要做同樣的處理,兩個關鍵字彼此獨立,每個關 鍵字所對應的鈴音列表中均包含此首鈴音,這樣可以保證用戶對任意關鍵字進行 搜索時均可搜索到此首鈴音。 與鈴音精確名稱相類似的,歌手名稱也是屬于“單字遠遠多于單詞 的情 況,使用詞庫對歌手名稱進行分詞的效果不是很好,同時考慮到今后會對關鍵字 進行模糊匹配的需要,例如用戶輸入“張少涵系統(tǒng)可以找到“張韶涵,此處 使用單字分詞方式為宜。 4 1 3 歌詞統(tǒng)計與詞匯頻率分析 在彩鈴搜索所涉及的各種關鍵詞中,歌詞搜索屬于最特殊的一個相比于鈴 音名稱、歌手名稱等其他關鍵詞,歌詞信息通常都長度較長。對于歌詞的搜索過 程更加接近普通的搜索引擎的全文檢索。 歌詞搜索中的一條關鍵字,即一首歌曲的全部歌詞,相當于普通全文檢索中 的一篇文章。在搜索過程之前,使用詞庫對全部歌詞信息進行索引,于其他關鍵 字相比,歌詞關鍵字所包含的信息較多,索引時占用的系統(tǒng)資源也相對較多。 下面是對歌詞庫進行的一些統(tǒng)計需要說明的是,彩鈴平臺系統(tǒng)中本身不包 含歌詞信息,這里所統(tǒng)計的歌詞庫是從互聯(lián)網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國川菜餐飲行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實施研究報告
- 2025-2030年中國新型煙草行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 建設工程資料歸檔規(guī)范
- 2024年月亮灣教案
- 石門縣黨建知識培訓課件
- 吉林省扶余市(一實驗、二實驗)2023-2024學年九年級上學期期末化學測試卷
- 現(xiàn)代企業(yè)制度的局限性與大型企業(yè)經(jīng)營模式
- 二零二五年度廢棄塑料清運及資源化利用合同3篇
- 醫(yī)院醫(yī)患溝通技巧培訓
- 2025版二零二五年度智能家居研發(fā)工程師勞動合同書3篇
- 2023年非標自動化工程師年度總結(jié)及來年計劃
- 2023-2024學年甘肅省嘉峪關市酒鋼三中高三上數(shù)學期末學業(yè)質(zhì)量監(jiān)測試題含解析
- 水利機械施工方案
- 懸挑式腳手架驗收記錄表
- 主變壓器試驗報告模板
- 電動叉車安全操作規(guī)程
- 靜鉆根植樁施工組織設計
- 工程精細化管理
- 柴油供貨運輸服務方案
- 2022年長春市中小學教師筆試試題
- 肉牛肉羊屠宰加工項目選址方案
評論
0/150
提交評論