移動(dòng)搜索關(guān)鍵技術(shù)_第1頁(yè)
移動(dòng)搜索關(guān)鍵技術(shù)_第2頁(yè)
移動(dòng)搜索關(guān)鍵技術(shù)_第3頁(yè)
移動(dòng)搜索關(guān)鍵技術(shù)_第4頁(yè)
移動(dòng)搜索關(guān)鍵技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、移動(dòng)搜索關(guān)鍵技術(shù)The Key Technology Of Mobile Search(華中科技大學(xué)電子與信息工程系,武漢430074)摘要:移動(dòng)搜索是搜索引擎技術(shù)向無線網(wǎng)絡(luò)的拓展,利用先進(jìn)的移動(dòng)通信技術(shù)在移動(dòng)終端上實(shí)現(xiàn)搜索引擎 系統(tǒng)。隨著移動(dòng)終端的普及以及3G時(shí)代的來臨,移動(dòng)搜索技術(shù)逐漸步入人們的視野,并成為人類獲取信 息的重要工具之一,極大的方便了人們的日常學(xué)習(xí)生活。本文簡(jiǎn)單介紹了現(xiàn)有的一些移動(dòng)搜索業(yè)務(wù)以及移 動(dòng)搜索的幾種關(guān)鍵技術(shù),希望能夠幫助讀者更為簡(jiǎn)單直接地了解移動(dòng)搜索。關(guān)鍵詞:移動(dòng)搜索;垂直搜索;綜合搜索Abstract: Mobile search is an expansion

2、of search engine technology in wireless networks. It uses advanced mobile communication technology to implement the search engine system on the mobile terminals. With the popularity of the mobile terminals and the coming of 3G era ,mobile search technology has gradually stepped into humans vision .

3、The new technology is becoming one of the most important tools for people to access the information . Of course ,it makes people5 s daily life more convenient. This article has briefly described some of the existing mobile search service, as well as several key technology of mobile search. However,

4、I hope it can help the readers to understand mobile search more simply and directly.Key words: mobile search ; vertical search ; comprehensive search移動(dòng)搜索概述隨著科技的高速發(fā)展,信息的迅速膨脹,手機(jī)已經(jīng)成為了信息傳遞的主要設(shè)備之一。尤 其是近年來手機(jī)技術(shù)的不斷完善和功能的增加,利用手機(jī)上網(wǎng)也以成為一種獲取信息資源的 主流方式。在這一背景下,移動(dòng)搜索的概念應(yīng)運(yùn)而生,國(guó)內(nèi)外不少互聯(lián)網(wǎng)公司均看好移動(dòng)搜 索這一領(lǐng)域。雅虎,Google,百度等傳統(tǒng)搜索引

5、擎也都相繼推出了基于短信和WAP的移動(dòng) 搜索服務(wù)。毫無疑問,移動(dòng)搜索將成為未來人們獲取信息的主要工具之一。移動(dòng)搜索的基本定義移動(dòng)搜索基本定義:移動(dòng)搜索是指用戶在移動(dòng)通信網(wǎng)絡(luò)中,通過移動(dòng)終端,利用SMS, WAP, IVR等多種特定的搜索方式獲取所需信息的搜索行為。而移動(dòng)搜素的核心是將搜索 引擎與移動(dòng)設(shè)備有機(jī)結(jié)合,生成符合產(chǎn)品和用戶特點(diǎn)的搜索結(jié)果。移動(dòng)搜索的分類1)依據(jù)搜索引擎的分類:基于瀏覽器的移動(dòng)搜索:現(xiàn)代手機(jī)里面都內(nèi)置了類似網(wǎng)頁(yè)瀏覽器的微瀏覽器(如UC瀏 覽器等), 手機(jī)用戶可以通過微瀏覽器來連接互聯(lián)網(wǎng)。基于短信的移動(dòng)搜索:移動(dòng)搜索引擎通過短信接收用戶的查詢請(qǐng)求,然后將查詢結(jié)果通 過短信的

6、形式返回給用戶。這種方式可以被所有手機(jī)用戶所接受,但是,短信的信息表現(xiàn)能 力很差,提供的信息也非常有限。短信與微瀏覽器相結(jié)合的移動(dòng)搜索:用戶可以使用移動(dòng)搜索服務(wù)商的客戶端提交查詢請(qǐng) 求,客戶端會(huì)根據(jù)用戶的檢索行為去選擇以微瀏覽器或者短信方式返回查詢結(jié)果。2)依據(jù)搜索內(nèi)容的分類綜合搜索:類似于互聯(lián)網(wǎng)搜索,用戶通過編輯短信或鍵入關(guān)鍵詞進(jìn)入WAP或直接接入 WEB網(wǎng)絡(luò),對(duì)WAP或WEB網(wǎng)絡(luò)上的內(nèi)容進(jìn)行搜索,搜索引擎根據(jù)一定的規(guī)則將內(nèi)容結(jié)果 與鏈接結(jié)果反饋給用戶終端。這種搜索模式可以看作是互聯(lián)網(wǎng)搜索直接延伸到手機(jī)平臺(tái)上的 移動(dòng)搜索模式。垂直搜索:指用戶通過多種接入方式(短信,彩信,WAP,IVR等)提

7、出搜索特定類 型的內(nèi)容或服務(wù)的搜索請(qǐng)求,例如一些音樂,圖片或本地信息等。這樣的搜索模式可以使用 戶進(jìn)行個(gè)性化的搜索定制,更加快速的得到自己需要的信息,此模式的搜索引擎可以更好的 理解用戶的搜索請(qǐng)求,提高搜索的的針對(duì)性和準(zhǔn)確性?,F(xiàn)有移動(dòng)搜索業(yè)務(wù)1)AQA應(yīng)答搜索:AQA全稱Any Question Answered,該服務(wù)可以為用戶提供各種問題的 答案,將計(jì)算機(jī)的自動(dòng)化搜索和人工搜索很好地整合起來,從而為用戶服務(wù)。該服務(wù)由 英國(guó)手機(jī)運(yùn)營(yíng)服務(wù)商Orange等推出,每回答一個(gè)問題,用戶需支付1.76英鎊的費(fèi)用。2)比價(jià)搜索:用戶通過向服務(wù)提供商發(fā)送商品名,就回收到該商品各零售商的不同報(bào)價(jià)。3)位置搜

8、索:這項(xiàng)服務(wù)提供用戶想知道的位置信息,既可以是了解自己周圍的地圖又可以 是搜索他人的地理位置。4)“空中搜”:該業(yè)務(wù)具有搜索引擎與傳統(tǒng)黃頁(yè)兩種功能,是手機(jī)搜索引擎的商務(wù)版,能 在手機(jī)上搜索到全國(guó)大部分省市的企業(yè)、事業(yè)、政府機(jī)關(guān)、公共設(shè)施的相關(guān)信息。5)企業(yè)信息搜索,圖片搜索,音樂搜索,新聞搜索,游戲搜索等等移動(dòng)搜索關(guān)鍵技術(shù)分析移動(dòng)搜索引擎的基本原理與工作流程1) 綜合搜索綜合搜索實(shí)際上是互聯(lián)網(wǎng)搜索引擎在移動(dòng)終端上的簡(jiǎn)單延伸,其結(jié)構(gòu)與通用搜索引擎是 一樣的,只是用戶訪問時(shí)將Web頁(yè)面轉(zhuǎn)換為WAP頁(yè)面。(a)手機(jī)進(jìn)行互聯(lián)網(wǎng)搜索的結(jié)構(gòu)示意圖用戶A網(wǎng)頁(yè)轉(zhuǎn)換A 用戶A網(wǎng)頁(yè)轉(zhuǎn)換A ?卜網(wǎng)頁(yè)數(shù)據(jù)庫(kù)在索引數(shù)據(jù)

9、庫(kù)(b) WAP搜索結(jié)構(gòu)示意圖2)垂直搜索(c(c)垂直搜索結(jié)構(gòu)示意圖垂直搜索是針對(duì)某一行業(yè)的專業(yè)搜索引擎,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次 整合,定向分字段抽取需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索的關(guān)鍵在 于對(duì)網(wǎng)頁(yè)信息進(jìn)行結(jié)構(gòu)化信息抽取,即以結(jié)構(gòu)化數(shù)據(jù)為最小單位,將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù), 進(jìn)行進(jìn)一步的加工處理:去重,分類,分詞,索引,最后以搜索的方式滿足用戶的需求。結(jié)構(gòu)化信息抽取技術(shù)結(jié)構(gòu)化信息抽取技術(shù)主要應(yīng)用于垂直搜索,將網(wǎng)頁(yè)中的非結(jié)構(gòu)化的數(shù)據(jù)按照一定的需求 抽取成結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化信息提取技術(shù)主要有兩種方式可以實(shí)現(xiàn),模板方式和網(wǎng)頁(yè)庫(kù)結(jié) 構(gòu)化信息抽取。模板方式:該方式是

10、對(duì)特定的網(wǎng)頁(yè)進(jìn)行模板配置,抽取模板內(nèi)設(shè)置好的需要的信息,可 以針對(duì)有限個(gè)網(wǎng)站進(jìn)行精確的信息采集。該方式簡(jiǎn)單,精確,技術(shù)難度低且方便部署。但是, 該方式需要針對(duì)每一個(gè)信息源的網(wǎng)站模板進(jìn)行單獨(dú)的設(shè)定,在信息源多樣性的情況下,維護(hù) 量巨大。所以這種方式適合少量信息源的信息處理,不是搜索引擎級(jí)的應(yīng)用,很難滿足用戶 對(duì)查全率的需求。網(wǎng)頁(yè)庫(kù)結(jié)構(gòu)化抽取:該方式是采取頁(yè)面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法,自動(dòng)抽取 結(jié)構(gòu)化的數(shù)據(jù)。對(duì)任意的正常網(wǎng)頁(yè)進(jìn)行抽取,完全自動(dòng)化,不用對(duì)具體網(wǎng)站事先生成模板, 對(duì)每個(gè)網(wǎng)頁(yè)自動(dòng)實(shí)時(shí)得生成抽取規(guī)則,完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高,不是機(jī)械 的匹配,采用智能分析技術(shù),準(zhǔn)確率能

11、達(dá)到98%以上。能保證較快處理速度,由于采用頁(yè) 面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好, 易于維護(hù),只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進(jìn)相應(yīng)的抽取性能;一般的非專業(yè)人員經(jīng) 過簡(jiǎn)單培訓(xùn)就能維護(hù)。缺點(diǎn)是技術(shù)難度高,前期研發(fā)成本高,周期長(zhǎng)。比較適合網(wǎng)頁(yè)庫(kù)級(jí)別 的結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。2.3.信息過濾技術(shù)信息過濾技術(shù)是根據(jù)用戶的興趣或偏好自動(dòng)地收集和用戶相關(guān)的信息并推薦給用戶的 過程。信息過濾即所謂的信息選擇性傳播,該技術(shù)關(guān)注的是用戶的長(zhǎng)期需求。信息過濾技術(shù) 期望為用戶處理大量的信息,對(duì)動(dòng)態(tài)的信息流進(jìn)行篩選,著重于排除用戶不希望得到的信息, 基于用戶

12、模板從輸入的信息流中濾掉數(shù)據(jù)。在信息過濾中,用戶的需求表示成用戶模板,一 個(gè)模板是一個(gè)數(shù)據(jù)結(jié)構(gòu),通常包括一組用于描述用戶興趣的主題。對(duì)進(jìn)入系統(tǒng)的信息依據(jù)模 板進(jìn)行評(píng)價(jià),同時(shí)將評(píng)價(jià)結(jié)果返回給用戶,用戶在瀏覽結(jié)果時(shí)提供反饋信息并及時(shí)更新模板。 1)信息過濾系統(tǒng)的基本組成:信息分析器,用戶模板,過濾過程和學(xué)習(xí)過程。信息分析器:負(fù)責(zé)從信息源獲得信息,對(duì)信息進(jìn)行分析并用適當(dāng)?shù)母袷矫枋?,然后作為輸?信息傳遞給過濾處理模塊,并對(duì)該信息進(jìn)行過濾,只將相關(guān)信息傳遞給用戶。用戶模板:用戶模板負(fù)責(zé)從用戶那收集與其感興趣的信息有關(guān)的顯性以及隱形的各種信息, 并將這些信息作為過濾處理模塊的輸入信息。過濾過程:過濾處理

13、模塊利用描述信息與用戶模板匹配,決定將要傳送給用戶的相關(guān)項(xiàng)。 學(xué)習(xí)過程:用戶會(huì)評(píng)價(jià)剩余信息的相關(guān)性,該評(píng)價(jià)會(huì)被反饋到學(xué)習(xí)部分,學(xué)習(xí)部分會(huì)根據(jù)這 些反饋信息更新用戶模板。(d)信息過濾系統(tǒng)基本構(gòu)成2)信息過濾模型:信息過濾中的一個(gè)關(guān)鍵步驟是信息與用戶模板的匹配,用戶模板與信息 匹配常用的模型有布爾模型,向量空間模型,潛在語(yǔ)義索引模型,概率模型,神經(jīng)網(wǎng)絡(luò)模型。每種模型首先要解決用戶模板與信息的表示問題,然后在某種表示的基礎(chǔ)上才能進(jìn)行用 戶模板和信息的相似性的比較,然后再根據(jù)相似性的大小選出和用戶模板匹配的信息傳遞給 用戶。信息有多種格式,為了方便計(jì)算機(jī)處理,布爾模型和向量空間用索引項(xiàng)描述信息的內(nèi)

14、容。一個(gè)索引項(xiàng)可以是一個(gè)單詞或是一個(gè)短語(yǔ),不同形式的一條信息統(tǒng)稱為一個(gè)信息項(xiàng),這 樣,一個(gè)信息項(xiàng)可以表示為多個(gè)索引項(xiàng)的集合。對(duì)一個(gè)信息項(xiàng)建立索引的過程叫做標(biāo)引或索 引。用戶興趣智能代理在互聯(lián)網(wǎng)上實(shí)現(xiàn)用戶偏好的記憶和儲(chǔ)存主要有兩種辦法,一種是將用戶興趣信息存儲(chǔ) 搜索引擎的服務(wù)器上,另一種是將用戶的興趣信息存儲(chǔ)在用戶的個(gè)人機(jī)器上。在移動(dòng)互聯(lián)網(wǎng) 中,一般一個(gè)手機(jī)只被一個(gè)用戶使用,所以可以將用戶信息保存在本機(jī),既不會(huì)泄露隱私也 不會(huì)發(fā)生一機(jī)多戶導(dǎo)致興趣記錄紊亂的情況。用戶興趣代理就是信息過濾系統(tǒng)基于搜索引擎 的實(shí)現(xiàn)載體。用戶興趣代理的主要作用:1)負(fù)責(zé)用戶模板的建立和更新,每次用戶登錄時(shí),如果用戶模板

15、不存在,那么用戶模板生 成算法會(huì)自動(dòng)生成一個(gè)新的用戶模板。2)與用戶的交互,用戶興趣代理接收用戶的反饋,利用更新算法對(duì)用戶模板更新。3)對(duì)搜索結(jié)果進(jìn)行過濾Web頁(yè)面向WAP頁(yè)面的轉(zhuǎn)換技術(shù)移動(dòng)用戶通進(jìn)入WAP頁(yè)面來訪問Web頁(yè)面,由于現(xiàn)在Web頁(yè)面和主要是由HTML標(biāo) 記語(yǔ)言,內(nèi)容十分豐富,而WAP頁(yè)面僅限于手機(jī)顯示,支持的元素遠(yuǎn)不如HTML文檔豐富。 直接的標(biāo)記語(yǔ)言轉(zhuǎn)換會(huì)出現(xiàn)某些HTML中的標(biāo)簽在WAP中沒有相對(duì)應(yīng)的標(biāo)簽的問題,所以 需要先對(duì)Web頁(yè)面進(jìn)行一些預(yù)處理,然后進(jìn)行標(biāo)記語(yǔ)言轉(zhuǎn)換。1)網(wǎng)頁(yè)元素的解析及處理:給定一篇HTML網(wǎng)頁(yè),順序整理出容器標(biāo)簽就可以得到對(duì)應(yīng)的標(biāo)簽樹框架。而后,整理

16、每個(gè)內(nèi)容塊(對(duì)應(yīng)標(biāo)簽樹上的一個(gè)節(jié)點(diǎn))中的超鏈標(biāo)簽、圖片標(biāo)簽、重要信息標(biāo)簽,并在標(biāo) 簽樹中對(duì)應(yīng)的節(jié)點(diǎn)記錄下來,這樣既有構(gòu)造出了一顆基本的標(biāo)簽樹。對(duì)上述標(biāo)簽樹信息做適 當(dāng)?shù)姆治?、整理就可以得到?nèi)容分析過程中需要的一些描述信息。在得到網(wǎng)頁(yè)的標(biāo)簽樹后,就可以對(duì)取舍哪些標(biāo)簽和內(nèi)容作出具體分析了,根據(jù)WAP標(biāo) 簽元素與Web標(biāo)簽元素的對(duì)等關(guān)系,將沒有對(duì)等關(guān)系的標(biāo)簽刪除。在進(jìn)行以上處理后,應(yīng) 該對(duì)頁(yè)面的布局重新調(diào)整。2)標(biāo)記語(yǔ)言轉(zhuǎn)換技術(shù)一般來說會(huì)按照HTML,XHTML,WML的順序?qū)?biāo)記語(yǔ)言進(jìn)行轉(zhuǎn)換,主要是考慮了如下 幾個(gè)原因:XHTML與WML同為需要轉(zhuǎn)換出的語(yǔ)言,將XHTML作為轉(zhuǎn)換的中間步驟,不 僅

17、可以方便XML的轉(zhuǎn)換,還可以作為轉(zhuǎn)換結(jié)果直接輸出。XHTML與WML都符合XML 的語(yǔ)言規(guī)范,嚴(yán)格的語(yǔ)法帶來了轉(zhuǎn)換的便利性。需要轉(zhuǎn)換的頁(yè)面是經(jīng)過信息過濾以后的,僅 僅剩下文字和鏈接的頁(yè)面,這就不需要在轉(zhuǎn)換時(shí)對(duì)頁(yè)面元素做過多的處理了。元搜索引擎元搜索引擎即為將用戶的查詢請(qǐng)求同時(shí)發(fā)給多個(gè)獨(dú)立的搜索引擎,然后通過對(duì)這些搜 索引擎的返回結(jié)果進(jìn)行匯集、篩選、刪并等優(yōu)化處理后,以統(tǒng)一的格式在界面中集中顯示。 搜索引擎是為彌補(bǔ)傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具,有著傳統(tǒng)搜索引擎所不 具備的許多優(yōu)勢(shì)。但是,元搜索引擎依賴于數(shù)據(jù)庫(kù)選擇技術(shù)、文本選擇技術(shù)、查詢分派技術(shù) 和結(jié)果綜合技術(shù)等。用戶界面的改進(jìn)、調(diào)

18、用策略的完善、返回信息的整合以及最終檢索結(jié)果 的排序,仍然是未來元搜索引擎研究的重點(diǎn)。(e)元搜索引擎結(jié)構(gòu)圖移動(dòng)搜索的發(fā)展前景移動(dòng)搜索是搜索技術(shù)發(fā)展的必然結(jié)果,通過手持設(shè)備或移動(dòng)終端平臺(tái),將搜索無線化、 移動(dòng)化,將為長(zhǎng)期依賴于互聯(lián)網(wǎng)的搜索引擎服務(wù)的手機(jī)用戶,提供兼具WAP、Web等多樣 性的搜索產(chǎn)品。互聯(lián)網(wǎng)搜索帶來的是海量的信息,而移動(dòng)搜索的主旨確實(shí)盡量帶給用戶準(zhǔn)確 的信息。綜合搜索在移動(dòng)搜索所提供的服務(wù)中,其適合用戶體驗(yàn)的需求是相對(duì)較弱的,因?yàn)?綜合搜索難以滿足用戶對(duì)信息簡(jiǎn)潔、及時(shí)、準(zhǔn)確的要求特點(diǎn),綜合搜索的需求將遠(yuǎn)不如垂直 搜索。目前,影響移動(dòng)搜索的積極因素主要有:廣闊的市場(chǎng)前景,幾乎所有的手機(jī)移動(dòng)用戶都 可以看做是移動(dòng)搜索業(yè)務(wù)的潛在客戶。移動(dòng)搜索打破了電腦的線纜約束,讓用戶能通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論